大数据时代下的统计探讨
徐延军1左宇晓2王茹川3/ 文
摘要 大数据时代已然来到,统计数据的产生、收集、处理等均掺杂着大数据的印记,传统统计的思维方式将发生重要的改变。 本文以大数据、计算机与统计学大融合为背景,辨析相关统计问题,探讨政府大数据统计的构建。
关键词: 大数据;统计;数字经济核算
一、引言
人类文明的每一次进步都以科学技术革新为标志。从19世纪的“蒸汽机时代”,20 世纪的“信息技术”到21 世纪“大数据时代”的变革,现如今大数据与数字经济正在全球范围内掀起一阵颠覆传统的热潮,成为各国重塑竞争优势的共同选择。党中央国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,全面推进大数据发展,加快建设数据强国。据《2018 全球大数据发展分析报告》显示,随着全球海量数据的增长,无论是中国还是世界,大数据能否转化为决策力都面临着数据结构化以及系统建模分析等诸多难题。由此可见,数据已经成为重要的基础性战略资源,而且取之不尽用之不竭,越用越丰富,是21 世纪的“钻石矿”。大数据时代数据资源丰盈的同时,数据分析显得更加重要,数据分析的核心是统计。大数据时代统计思维不再束缚于传统的统计方式,尤其是数据采集和分析的方法,不论是政府统计还是民间统计,都必须顺应大数据时代的变革,未来的统计将是传统统计和大数据的高度融合,构造多数据源的大统计。
二、统计学发展史:趋向计算机和大数据的融合
统计源于国家管理需要而产生,比如最早的人口统计。统计有三方面的含义:统计工作、统计资料和统计学。一般来说,统计来源于实践,通过统计工作获取统计资料,进而随着认识的不断深入,统计学上升为一门学科。统计学作为一门学科已有三百多年的历史。通常可以将统计学的发展史分为三个阶段:古典统计学、近代统计学和现代统计学。
古典统计学时期(17 世纪中叶到18 世纪)以政治算术学派和国势学派为代表,二者相互渗透和借鉴。其中政治算术学派以威廉·配第(Willian Petty,1623—1687 年)和约翰·格朗特(John Graunt,1620—1674 年)为代表,国势学派以海尔曼·康令(Hermann Conring,1606—1681 年)为代表,统计主要为国家管理和社会福利改善提供服务和指导。
近代统计学时期(18 世纪末—19 世纪末)以数理统计和社会统计为代表。源于欧洲各国的工业革命和科学技术的迅猛发展,天文、气象、社会人口等领域的数据资料积累到一定规模,国家层面对统计的需求开始扩展至社会科学各个领域。社会统计学派主要代表人物是恩格尔(C.L.E.Engel,1821—1896 年)和梅尔(C.G.V.Mayer,1841—1925 年),他们认为统计学的研究对象是社会经济现象。对事物现象的静态描述也不能满足社会需求,数理统计学派创始人凯特勒(A.J.Quetelet,1796—1874 年)率先将概率论引进古典统计学,提出了大数定律思想,使得统计学逐步成为揭示事物内在规律的一般性研究方法,由此凯特勒被欧美统计学界誉为“近代统计学之父”。
现代统计学时期(20 世纪以来)以凯特勒的数理统计学为基础,经过高尔顿(F.Galton,1822—1921 年)、皮尔逊(K.Pearson,1857—1936 年)、鲍莱(A.L.Bowley,1869—1957 年)和费歇尔(R.A.Fisher,1880—1962 年)等统计学家的不断丰富和完善,主要成果是数理统计在随机抽样基础上建立起来的推断统计学。随着计算机技术的发展,一系列统计方法技术被开发出来,如MCMC 模拟计算、Jackknife、Bootstrap 等。21 世纪大数据时代的到来,以互联网为中心的云计算技术为大数据提供了存储、访问的场所和渠道,由此而来的一系列面向大数据的抽样、分类、聚类、关联分析方法应运而生。例如,社交网络的发展直接促进了基于网络的统计方法的产生,大数据流环境促进了数据流算法的产生等。因此,计算机技术可以说是大数据发展的基础,同时计算机对统计学的发展起到了很大的促进作用。
这里以居民消费价格指数(consumer price index,简称CPI)为例。国家统计局编制CPI,一些电商也在编制CPI。国家统计局编制的CPI 包括8 大类商品,260 多个基本分类,700 多种代表商品,调查范围涵盖全国31 个省(市、区)500 多个市县4000多个调查网点。可是,全国2000 多个县,市场上有数以亿计的商品和服务,而且数以万计的商业网点和电商的数据没有全部包括进去。那么我们是否能在全国范围内编制总体的CPI 呢?答案是不可以也不可取。从目前全国实施情况来看,小范围可以实现,如某个行业,或某个电商平台。现在一些电商也在编制自己的网购价格指数,如阿里巴巴的网购价格指数。
三、大数据时代下的统计问题探讨
如何从海量数据中进行数据的清洗,并提炼有用的信息,是大数据时代统计学面临的重大挑战。
因此,总的来说大数据等于总体说法是不准确的,也是不可取的。在某些特定的场合,大数据约等于总体,例如小范围大数据近似等于小总体,直接就可以对总体进行分析。但在很多场合,大数据表现出来的是一个海量的样本,可以通过再抽样减少样本量,大数据如何再抽样,达到估计的精度。
讨论二:大数据时代还需要传统的抽样吗?因为大数据的稀疏性,它需要清洗掉80%以上的垃圾信息,如果按照随机抽样的原则,对清洗后的数据进行抽样实施,那么总体分布将是有偏的,抽取的样本也存在偏倚。传统的数据采集方式是主动获取的数据,大数据时代数据如潮水般涌来进而被囤积下来,两种数据源如何实现有效融合是统计学面临的重要问题。针对大数据流环境,耿直(2014)提出需要探究如何抽取足以满足统计调查目的和精度的样本,需要研究新的适应性,序惯性和动态的抽样方法。例如,对政府的宏观经济统计而言,如何从原来的政府统计(以抽样调查为主)到将来的政府大数据统计(微观个体和企业),将各种来源的数据库实现有效的融合和对接至关重要。对于企业而言,可以从原来的用户满意度抽样调查上升到借助大数据挖掘用户的消费画像,从而实现用户的精准营销。对于家庭或个人而言,大数据时代电子支付手段的使用,所有的消费行为都会被记录下来,可以更加清晰地发现家庭的消费支出特征,为进一步优化消费结构提供依据。
纵观统计学发展史,作为统计研究对象的数据的产生,尤其是大数据的产生和存储,离不开计算机技术的迅猛发展。现在已经进入计算机、大数据和统计方法相互融合的时代,统计分析也经历了简单的计数分析、简单描述统计分析、抽样分布特征分析、估计检验推算分析、动态预测分析、评价判定分析、变量关联关系分析、数据挖掘分析等阶段,相应的产生了不同的统计分析方法,包括大量观察法、统计分组法、综合指标法、模型方程法、数据挖掘等方法,并且对计算机和软件的利用程度也越来越深。
Viktor 和Kenneth(2013)认为大数据时代将开启全部数据的分析模式,不再需要随机抽样推断分析的统计方法。统计是动态的历史,历史是静态的统计。著名统计学家、哈佛大学终身教授刘军则指出,全数据的概念经不起推敲,而且“在大数据时代,统计学依然是数据分析的灵魂”。如果将大数据比喻成“海洋”,那么统计学必定是汇入“大数据海洋”的主干河流之一。大数据时代的统计从数据采集、数据分析到数据的发布等都将对统计学产生重要影响。接下来我们从三个方面探讨大数据环境下的统计问题进行辨析。
选择该院收治的103例老年糖尿病患者阴道炎患者,随机分为观察组和对照组,各52例、51例。观察组52 例中,年龄 61~77 岁,平均(68.83±3.29)岁,糖尿病病程 1~22 年,平均(9.49±1.53)年,阴道炎病程 3 个月~9年,平均(5.38±1.61)年;对照组 51 例中,年龄 61~76岁,平均(69.01±3.42)岁,糖尿病病程 1~21 年,平均(8.97±1.43)年,阴道炎病程 4 个月~10 年,平均(5.41±1.58)年。两组患者年龄、病程等差异无统计学意义(P>0.05)。
讨论一:大数据是总体还是样本呢?面对海量数据的产生,有人认为大数据是全部所有的数据,因此不需要随机抽样,将大数据定义为总体的研究对象。另一说法是大数据再大也只是相对的,随着时间的推演,大数据还在源源不断地产生,而且由于时空的交错,我们很难采集到所有的数据。互联网外还有大鱼,数据再大也是相对的,今天的大数据相对而言只是明天的小数据,我们不可能穷尽获取所有数据,而且对数据的掌控也是有限的。北京大学耿直教授给的定义为:“大数据是一个大样本和高维变量的数据集合。”
讨论三:在大数据环境下,统计学的经典分析方法会被淘汰吗?有人认为如果大数据包含了所有的数据,抽样误差将消失,模型显得不重要了,被统计学视为经典的回归模型分析法等将被淘汰。大数据时代思维的改变是更关注数据的相关关系,舍恩伯格等提道:“相关关系比因果关系能更好地了解这个世界”。例如,某些电商平台的推荐系统,基于数据的抓取、挖掘和可视化呈现的数据新闻等。这些通过数据挖掘实现了从数据到价值的转变,创造出很好地经济利润和社会效益,更好地实现精准营销。但是对象之间相关关系越强也可能并不存在本质上的关联性,而且相关分析不能进一步的解释现象之间的因果关系。因此,大数据时代依然需要借助传统的统计分析方法,而致力于因果关系研究的回归分析或实验设计等方法在大数据时代依然重要,比如说人工智能核心领域的机器学习,回归分析是有监督学习的主要方法之一,而且和统计密不可分。因此,传统的统计经典分析方法不会被淘汰,相反依托于大数据,可以实现现代和传统统计分析技术的有机结合。
3)GB/T 12343.1—2008 《国家基本比例尺地图编绘规范 第2部分:1∶250 000地形图编绘规范》。
四、政府大数据统计:构建数字经济核算体系
伴随着大数据时代统计分析技术的提高,从大数据采集到数据存储、数据处理、数据挖掘与分析、数据可视化与决策这样一个完整的大数据资源价值才能得到完整的利用。随着非结构化数据的井喷式增长,语音信息处理、数据挖掘、机器学习成为大数据统计分析的重要领域,我们的目标是建立面向大数据的宏观统计核算体系,充分利用各种信息技术和手段,运用统计理论方法实现大数据资源的价值提升,把统计测度与数据清洗、数据分析模型、计算方法相结合,努力建立融自动搜索、动态演化和自主优选统计测度为一体的大数据统计测度方法体系。在政府国民核算方面,将新兴经济核算作为拓展核算纳入国民经济核算体系,而新兴经济中很大一部分属于数字经济。为了准确核算数字经济发展规模及其对宏观经济的贡献,数据的获取非常重要。除了完善数字平台相关数据,开展专项调查之外,还需要充分挖掘大数据技术记录存储基础数据,充分挖掘网络来源数据等。将这些大数据与各部门行政、税收、商业等数据互补结合,采取传统调查为主、网络记录数据为辅的原则。因此,伴随着数字经济的快速发展,亟须构建数字经济核算体系。大数据时代表现出来的数字经济离不开大数据和云计算技术,通过新型技术实现对传统业务和模式的数据改变,从而推动政府、企业、消费者多层次多目标数据源的发展,提高大数据质量,加快建设数字中国。
熊老夫人真名姜菊缘,与熊老同年同月生,但大熊老三天,在科学院诸夫人中很有名气,是贤妻的典范。1980年我见到她时她已经八十七岁高龄。熊老夫人和熊老三岁订婚,十六岁结婚。我爹的一位好友曾经写文纪念熊老,文中也提到过熊老夫人,内容如下:“在共同生活的六十年中,夫人对他的工作十分理解,并大力协助。熊庆来三次赴法国,前后共十七年,家中全赖夫人独立支撑。”
五、结语
从统计的发展历程可以看出,随着计算机和大数据的出现,统计已经发生了翻天覆地的变化。统计思维方式也将发生变革,如何将不同数据源的数据整合,大数据与小数据的对接,主动获取的数据和被动囤积的数据相衔接。未来的统计将融合计算机、大数据为一体,呈现出大统计百花争艳的局面,在数字全球化背景下如何构造宏观大数据统计体系,在此基础上构建数字经济核算体系,进而为提高大数据质量,加快数字中国建设建言献策。
方:回望上世纪八十年代,在“解放思想,实事求是”思想路线的指引下,我国图书馆事业取得了巨大进步,各种新出现的观念、理论在图书馆从业人员中引起强烈的思想碰撞。这种思想解放大潮所带来的变革,在您的工作中具体有哪些方面的表现呢?
参考文献:
[1]马双鸽.大数据时代统计学发展的若干问题[J].统计研究,2017(01).
[2]李金昌.基于大数据思维的统计学若干理论问题[J].统计研究,2016(11).
[3]米子川,姜天英.大数据指数是否可以替代统计调查指数[J].统计研究,2016(11).
[4]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(02).
[5]李金昌.统计测度:统计学迈向数据科学的基础[J].统计研究,2015(08).
[6]赵彦云.对大数据统计设计的思考[J].统计研究,2015(06).
[7]陈建宝,鞠芳煜,禚铸瑶.大数据时代下的统计学——第五届中国统计学年会综述[J].统计研究,2015(05).
[8]李金昌.从政治算术到大数据分析[J].统计研究,2014(11).
[9]黄欣荣.大数据时代的思维变革[J].重庆理工大学学报(社会科学),2014(05).
[10]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014(01).
[11]李金昌.大数据与统计新思维[J].统计研究,2014(01).
[12]邱东.大数据时代对统计学的挑战[J].统计研究,2014(01).
[13]程开明,庄燕杰.大数据背景下的统计——第十七次全国统计科学讨论会综述[J].统计研究,2014(01).
[14]魏瑶.大数据背景下数据统计分析理念探讨[J].市场研究,2019(04).
10.13999/j.cnki.scyj.2019.09.005
(作者单位:1. 河南君友商务咨询有限公司;2.郑州大学商学院;3. 河南省粮食工程设计院有限公司)
标签:大数据论文; 统计论文; 数字经济核算论文; 河南君友商务咨询有限公司论文; 郑州大学商学院论文; 河南省粮食工程设计院有限公司论文;