摘要:当今,计算机参与到了经济交易中,能捕捉到和这些交易相关的数据并加以操作和分析--大数据已成为经济学中不可避免的话题。本文以预测为重点简单介绍一些经济学中处理和分析大数据的工具和方法。
关键词:大数据;计量经济学;机器学习;预测;
一、处理大数据的工具
历史上,经济学家一直在处理电子表格中显示的数据,如果电子表格中有超过100万行数据,那就需要将其存储在诸如MySQL之类的关系数据库中。由于计算机中介交易的兴起,许多公司发现有必要开发每天处理数十亿笔交易的系统。例如,谷歌已经完成过30万亿次网址抓取,平均每天超过200亿次,每个月响应1000亿个搜索查询。虽然为了方便学习与交流,这些工具可以在一台计算机上运行,但一般真正的用途是应用于大型计算机集群,例如亚马逊、谷歌、微软和其他云计算提供商的计算机群。公司可以通过租赁而非购买来获取数据存储和处理的能力,将以前处理大数据的固定成本转变为可变成本,降低了处理大数据的门槛。
二、处理大数据的方法
一般而言,如果提取的数据量非常大,可以选择一个子样本进行统计分析。一旦数据集被提取出来,通常需要进行一些附带着数据统一和数据清理任务的探索性数据分析,这是一门只有通过实践才能学会的艺术。
统计学和计量经济学中的数据分析可以分为四大类:预测、总结、估算、假设检验。在大数据处理中,与预测相关联的技术一般是机器学习;而和总结相关的技术一般为数据挖掘,比如挖掘其中有趣的模型。计量经济学家、统计学家和数据挖掘专家一般都在寻找可以从数据中提取的深刻见解。机器学习专家通常主要关注开发高性能计算机系统,这些系统能够在具有挑战性的计算约束条件下提供有用的预测。应用计量经济学的大部分内容是检测和总结数据中的关系,最常用的总结工具是(线性)回归分析。机器学习提供了一套可以有效地总结数据中的各种非线性关系的工具。这些工具是现在最为常见也是最为普遍的,因为它们是与实际经济情况最符合的。
三、预测的一般考虑事项
预测的目的通常是获得良好的样本外预测。大多数人从经验中可以知道,构建一个在样本内工作良好但在样本外失败的预测非常容易。机器学习专家将这种现象称为"过度拟合"现象,并提出了几种解决方法。
首先,选择较为简单的模型。由于简单的模型更适合样本外预测,机器学习专家提出了各种方法来否认过于复杂的模型,在机器学习世界中,这被称为"正则化".同样的,经济学家也倾向于选择简单的模型。
其次,测试-训练循环和交叉验证。为了训练、测试和验证,将数据划为不同的集合。使用训练数据来评价模型,使用验证数据来选择模型,使用测试数据来评估所选模型的性能。
最后,利用调优参数。如果我们对模型的复杂性有一个直观的数值,我们可以将它看作一个参数,可以"优化"它以产生最佳的样本预测。即使没有合适的调优参数,也应当谨慎的报告已有参数所反映出拟合程度的好坏,因为这个参数反映的是样本外性能,更具有参考意义。
四、计量经济学与机器学习
计量经济学和机器学习之间在许多领域都存在着有效的结合。其中最为重要的领域是因果关系预测。当我们想要评估某些处理方式的因果影响时,需要将有干预的结果与不加干预可能发生的情况进行比较,但大多数情况下不加干预所产生的反事实是无法观测到的,因此必须通过某种模型来预测。你对反事实的预测模型越好,就越能估计出因果关系。比如经济学家经常在外界干预发生时利用它预测接下来的经济类数据走势,再根据预测做出相关应对。
五、结束语
由于计算机已经渗透了经济交易系统,大数据只会越来越大。为小型数据集开发的数据处理工具和方法将越来越不足以应付新的问题。机器学习的研究人员已经开发出了处理大数据集的工具、研究出了处理大数据时特有的方法,未来也会有越来越多的相关技术出现,对此有兴趣的人应该尽早意识到对学习这方面技术的投资。
参考文献
[1]程学旗,靳小龙,王元卓,等。大数据系统和分析技术综述[N].软件学报,2014(9):1889-1908.