学术活动

首页> 学术活动>

“数理与实证分析方法”系列讲座第一期、第二期

发布时间:2022-07-25作者:刘坤源、穆齐;编辑:邓扬义     

2022年5月25日和28日下午,由中国人民大学经济学拔尖学生基地主办的“数理与实证分析方法”系列讲座第一期、第二期在线上成功举办。前两期讲座的主题为“大数据机器学习模型在经济学的应用”,由经济学院葛雷老师主讲,孙浦阳、齐昊老师主持。

在第一期讲座中,葛雷老师从什么是机器学习模型、机器学习模型的优势、经济与金融行业就业需求、学习与实战资源四个角度系统回答了作为经济学本科生为什么要学习机器学习这一问题。

image.png

1、什么是机器学习模型

葛老师简单介绍了机器学习模型的概念及其广阔的应用领域,从三个方面说明了机器学习成为金融和经济市场宠儿的原因。他用图例直观地说明了人工智能、机器学习和深度学习之间的关系。接着,他介绍了机器学习在经济学上的四类常用算法,分别是线性算法、集成学习、深度学习和其他算法,其中重点介绍了线性算法,强调了线性算法的重要性。他还强调计量经济学对机器学习的重要性。他以两个简化的机器学习模型为例,介绍了有关机器学习模型的基本知识和运行原理。在第一部分的最后,葛老师还为我们介绍了从线性模型的创立到深度学习的简史以及AlphaGo打败围棋世界冠军等机器学习战胜人类的一些案例。

2、机器学习模型的优势

葛老师从三个方面对比机器学习,分析了人类社会的学习过程。他以商朝九世之乱等例子说明人类学习是一个缓慢积累的过程,指出人类学习效率低下的问题,进而从四个方面介绍了机器学习相对人类学习更加高效、更精准等优势。除此之外,他还以图例简单介绍了机器学习模型如何通过数据处理进行模型分析的过程,从三个方面介绍了机器学习模型在经济学的应用,强调掌握好建立量化模型这一技能的必要性。

3、经济与金融行业就业需求

葛老师从三个方面说明了量化模型对经济学从业的重要性。他选取Glassdoor上的一些量化人才需求案例分析了经济与金融就业市场的需求,指出市场对从业人员在计量经济学、数学、统计学方面的专业要求,进一步归纳出量化建模所需人才的两个关键字——经济学和Python。同时,他介绍了经济学量化建模所需的知识库,强调经济学量化建模是经济学、量化建模和Python这三种知识的有机结合。在这一部分的最后,葛老师介绍了业界量化模型师的具体分类与工作流程以及学习经济学量化建模的四类人群。

4、学习与实战资源

葛老师推荐了Quantecon.org这一学习网站和相关专业书籍,以满足经济学专业同学的不同学习需求。接着,他指出阅读模型说明书与论文可以帮助同学们快速熟练使用模型和更深层次地去了解模型的内部结构。最后,他通过自身示范讲解了如何利用搜索引擎寻找相关问题答案的各个步骤,还分享了获取数据资源的两个渠道。

在回答环节中,葛老师热情回答了同学们的问题,推荐了一些机器学习模型应用于经济学研究的相关著作,强调了学好数学和统计学对于学好机器学习模型的重要意义,介绍了机器学习在国内外的基本现状,指出国内机器学习模型的应用前景广阔,鼓励年轻人积极投身这一领域的学习和研究。

在第二期讲座中,葛雷老师重点讲解了机器学习在实际科研中的应用。经过上一讲的学习,同学们对机器学习和其优势有了一定的了解,葛老师在此基础上进一步结合同学们的需求推荐了许多机器学习相关文献,并且也在个人网页上与大家分享了讲义。

葛老师首先介绍了Jupyter Lab在经济学研究中的应用。葛老师认为,机器学习模型并非不可验证的黑箱,而是经济学研究中不断发展、充满活力的有力研究工具。

葛老师运用了一个经济学实例进行讲解:GPA与日后平均收入的关系。根据《华盛顿邮报》2014年的一篇关于GPA与收入关系的报道,得出了一个简单的包含了随机扰动项的GPA与收入的回归模型。葛老师同时简单介绍了数理统计模型的发展历史。早在罗马时期,简单的数理统计便被应用到政治和经济领域,之后随着近代自然科学的发展,更多的统计方式被发明出来。

葛老师运用简单的平均数、线性回归和非线性算法分别求解上述案例。简要介绍了Jupyter Lab的优势。均值的方法简便且古老,但是有一些核心变量没有参与到分析中;线性回归(OLS)与真实结果更为接近,但仍会产生偏差;而机器学习的计算误差与理想的模型值已经极为接近了。通过决策树的不断细化,结果也与理想值越来越接近。葛老师介绍说,这种决策实质上是一种分组均值,通过不断设置分类节点来细化求取均值。葛老师还介绍了深度学习中的神经网络学习在即时运算和智能识别上具有广泛的应用,这种算法通过不断的试错来减少误差,与人类的自然学习过程相似。之后,在对比的基础上,葛老师介绍了梯度模型相比于其他深度学习算法的时效性优势。

葛老师运用Car Auction的数据,在真实的情况下进行数据验证与模型改进。首先,葛老师提供了网络中获取真实数据来源的方法,介绍了有关资源网站kaggle的使用和导入方法。同时介绍了ANN模型的简单使用方法和一些注意事项。

在答疑环节,葛老师对同学们的疑问做出了耐心的解答,并希望与同学们加深沟通交流,继续为同学们在科研和以后的职业选择中提供帮助。葛老师的讲座深入浅出,非常精彩,对大家产生了有益的启迪与引导。

image.png