大数据背景下的统计学发展方向分析
李晓莉
(北京市丰台区职工大学,北京 100073)
摘 要: 大数据时代的来临不仅改变了社会的发展趋势,对学科的影响也是巨大的。尤其从统计学层面来说,传统的统计学学科在没有受到大数据影响之前,只能用案例数据来进行统计学计算,但有了大数据作为分析基础之后,统计学的发展方向也面临着前所未有的机遇和挑战。如何在大数据背景下明确统计学的发展方向,深入探讨大数据与统计学之间的密切关联,是学术界乃至整个社会需要关注的重点内容。介绍大数据时代的特点、内涵和目的,分析阐述大数据背景给统计学发展方向带来的转变,最后为统计学找寻发展方向实现改革提出一些可行性的策略建议。
关键词: 大数据背景;统计学;发展方向;研究分析
信息化技术的发展催生了当前的大数据背景,在信息化技术、定位系统、传感器的作用下,解决了许多从前遇到的数据收集难题,云计算功能更实现了大规模的数据处理。在某种程度上可以说,大数据时代给统计学的发展带来了巨大的改变,为统计学的发展开拓出一个新的视角。本文从大数据的研究方向、研究内容和研究目的入手,并以大数据的处理、抽样与分析为切入点,指出大数据时代给统计学带来的巨大变革。最终提出,统计学要适应大数据时代,不仅需要健全统计学总体、个体以及样本的定义,还要拓宽统计学研究体系、研发新的分类和梳理方法,并将传统的统计学方法和新的统计学方法相融合等具体策略。
由图2可看出,几种混沌序列的自相关峰值比都随着序列长度的增加而逐渐增大;在较短的长度下,几种混沌序列的自相关峰值比相差较小;随着长度的增加,渐渐出现差异,并且,复合混沌序列的自相关峰值比逐渐高于其它混沌序列,表现出良好的自相关性。
一、大数据的内涵和作用
第一,大数据的内涵。近年来,国内外对于大数据的研究方向基本达到了统一,从总体上来看,发达国家对于大数据的研究和实践先进水平较高,我国目前大数据的发展相较于发达国家还有一段距离。从研究方向上来看,美国科学院召开的全国研究理事会中曾明确指出,大数据所具备的功能不仅需要能够追踪数据样本,还要能够实施正确的算法对分布的资源进行处理。对数据类型的包容量要足够广泛,给决策者和研究者提供足够的、准确可靠的数据依据。我国在香山研究大会上也明确指出大数据发展的重要性和大数据项目建设的必要性,但大数据的整体研究过程涉及的学科知识面比较广泛,其本质即各个领域数据的集合,但往往要了解某个领域的真实情况,大数据就需要针对这个领域及其相关领域的数据展开分析,通过对数据来源和数据库中的内容进行挑选,才能完成这一任务。因此,在实际操作时还需要将计算机中的数据资源和决策有效融合,才能让大数据在各行各业中发挥作用[1]。
第二,大数据的作用。大数据使众多高维变量与数据完成了整合,统计学作为数据分析的一门重要学科,常采用的计算方法是抽样调查法。采用抽样调查法的主要原因,是由于统计学无法将所有的数据样本作为参考依据进行计算,这样不仅工作量巨大,耗费的时间也十分长。而大数据的出现,则解决了这一难题,其能够将社会、经济、人文、网络等多个领域的数据进行整合,实现各个领域之间的互通和融合。无论是信息的储存还是转化,其都有较为先进的处理机制,这也就意味着,它不仅能够解决当下需要解决的大多数与数据相关的问题,还能够将目前无法解决的问题的信息数据保存,作为日后的发展使用需要储备。
(2)面试礼仪培训:众所周知,无论是公务员考试还是研究生考试甚至是企业入职,都需要面试,因此面试礼仪这一环节显得十分重要,而面试也是需要一定技巧的,这也就形成了面试培训的需求。
90年代初期,我国开始对以蔬果为主的食品进行等级划分,A级与AA级绿色食品开始成为“健康”“生态”的代名词。A级绿色食品生产中允许限量使用化学合成生产资料,AA级绿色食品则较为严格地要求在生产过程中不使用化学合成的肥料、农药、饲料添加剂、食品添加剂和其它有害于环境和健康的物质。
二、大数据时代给统计学带来的变革
(一)大数据的处理、抽样与分析对统计学产生的影响
选取同期门诊健康体检者20例(20眼)作为对照组。其中,男12例,女8例。年龄41~78(52.4±13.0)岁。均采集右眼数据。
2.大数据抽样。大数据抽样与统计学抽样不同的是,统计学抽样是在设定条件下,从众多的数据中随机挑选某些数据进行统计学的分析和计算,大数据抽样则是从众多流动的数据中,挑选典型信息进行分析计算,以获得更加精确的计算结果。大数据抽样不仅能够计算出某项内容的内在联系,还十分有利于研究数据的适应性、连贯性和动态关系。传统统计学中靠人工筛选典型数据的方法有很大的局限性,而大数据抽样不断采集样本,累积数据信息的方式则能得到更加真实、可靠的结果。
大数据时代的特征从宏观方向上来看,其让原来细分化的工作实现了统一化,运用丰富的软件和庞大的数据信息库,可以分析统计出多个领域的任务。相较于传统单一的专家,大数据好似一个综合性的专家,能同时进行和完成多个领域的工作和任务。从微观角度来看,大数据时代更倾向于从数据中发展问题、解决问题,将数据分析与决策挂钩,着重体现数据信息的重要性[3]。基于这些特征,大数据时代给统计学带来的变革主要有两点:一是弱化传统数据统计职能,在传统统计学中,需要专门的部门对数据进行统计和计算,而大数据的发展则可直接依赖计算机和统计软件计算出更加准确的结果,而后直接应用到决策和生产工作中。二是对统计学专业部门的工作方式造成了冲击,传统的统计学工作需要大量的纸质资料,且数据记录和资源整理都需要通过纸质办公的方式进行。大数据发展后,统计部门的工作方式大多利用计算机进行,不仅能够随时共享资源和信息,同时数据的采集渠道变广,传播速度变快,分析结果也更加精确。
第一,健全统计学总体、个体以及样本的定义。传统统计学在进行分析时,首先要搜集数据,然后从搜集到的总体数据中抽取样本,再通过分析样本的性质来确定所调查的总体的特点。也就是说,在筛选数据的时候,传统统计学是先确定总体,再抽取数据样本进行分析[4]。而大数据环境下的统计方式则截然不同,大数据首先通过搜集个体数据样板,最终再来确定总体,最后只需要按照对应的要求来筛选相关数据,最终分析计算出的结果是基于总体得到的结果,更科学也更具说服力。在当今时代的发展中,大多数的数据以数据流的形式出现,即数据样本是流动的、不断积累的,传统统计学的分析具有一定的滞后性,其分析计算出的结果很有可能不具备与时俱进的要求。大数据统计则能够对数据进行一个动态的搜集和监控,对已经确定的数据没有过高的依赖性,计算时段与下个时段的差距也更小,分析计算得出的结果更具实际意义。传统统计学中对总体、个体、样本的定义显然已经不符合大数据时代的发展要求,从符号定义的角度来看,统计学要想发挥符合现代需求的实际意义,就需要对其所包含的专业的符号和称谓进行重新定义。健全定义的内容才是完善统计学内容的本质,例如总体是即时总体还是过时总体、个体的范畴与个体对相关内容造成的正影响或副作用说明、样本是从总体中抽取的样本还是调查过程中随机保留的样本等内容,都需要统计学在今后的发展过程中突破传统,重新定义,以为统计学未来的发展奠定良好的基础。
1.数据预处理。在对集众数据进行处理时,首先要进行数据的清洗、纠正和填补,以便完成数据的预处理。在检查数据是否预处理完成时,可以采取抽样调查的方法,判断是否还存在需要纠正的数据。大数据采集信息时具备的缺点是:花费的时间长、数据信号单一,更新缓慢,且在对众多数据进行整合时,目前仍旧存在不可规避的数据偏倚问题。但大数据的优点是,能够尽可能地对错误信息进行纠偏,统筹整合所有数据信息资源,实现决策者的统计目标[2]。
(二)大数据时代给统计学带来的发展方向的转变
3.大数据分析。传统统计学分析中整合各个相关但不直接联系的变量关系的工作十分烦琐,不仅要挑选某一项中的样本数据,还要判断各个变量之间的正作用关系和副作用关系。大数据分析时,其包容力大、分析力强的数据统筹能力不仅能将不同环境中的数据资源完美整合,还能在多源、多条件下进行数据分析并得到一个较为正确的数据统计结果,减少了中间变量的参与过程,这一分析法也叫作荟萃分析法。
三、适应大数据时代统计学发展的方向和发展策略
4.网络图模型构建。大数据时代的另一大特征就是网络平台的发展和建设,传统统计学的应用仅限于线下的统计计算,采集数据的方式通常也在线下进行,常见的有调查问卷、学校课题研究、任务布置等途径。大数据网络平台搭建之后,可以从多方面搜集数据,用户的每一个上网任务和点击任务都可以作为基础数据依据。随着信息化的不断发展,数据处理模型系统软件也被不断开发出来,目前常用的就有MIM、BN、MSBN等高维数据处理工具,不仅能够计算事件概率,还能够构建数据因果关系图,十分有利于信息的传播和流转。
第二,拓宽统计学研究体系。无论是社会的进步还是学科的进步,可持续发展永远是不变的宗旨,在这个困难与机遇并存、超越与淘汰只在一念之间的迅速发展的时代,更需要用辩证和发展的眼光来看待统计学的发展。大数据目前所处的位置是一个统一性强、框架体系巨大的综合性内容,统计学作为其中的一个分支,有必要将大数据的思想和内涵融入到该学科未来的发展规划中[5]。传统的统计学分析计算有很大的局限性,为了保证计算结果的公平和公正性,只能随机从统计总体数据中挑选数据样本进行相关计算,主张“以小见大”的分析统计方式。大数据时代的来临则解决了统计数据内容过大、数据整理过程复杂这一难题,所有的数据都能够作为数据样本进行统一的分析和计算。传统的统计学计算方式可能存在许多结果并存的情况,因此只能通过简化数据信息内容,得到一个相对准确的结果的方式展开计算,但大数据则不需要删减数据的过程,反而是充分搜集相关数据,最终得到一个结果,减少了误差存在的可能性。由此可见,大数据的发展方式是统计学中几乎没有出现过的,但这种统计方式显然更符合时代的发展需求。因此,统计学在发展过程中积极拓宽研究体系,建立更多的分析研究方式是适应大数据时代发展的必然趋势。
第三,研发新的分类和梳理方法。传统统计学的数据分类方式都是先进行分类的定义和区分,然后按照其所定义的“便签”去有针对性地找寻搜集相关数据,在进行数据统计时会发现,这些信息往往都被囊括到一个确定的结构中,梳理过程比较单一。众所周知,分类和梳理是数据预处理过程中的两个关键环节,分类和梳理的科学性会直接影响到分析计算的统计结果。但在大数据环境下,数据的来源和形式是完全开放的,只要设定好所需要的信息的类型,按照分类标识以及关系判断分类,就能从各种不相关的数据中筛选到统计所需要的数据内容。一个任务中所需要数据的条件往往不是单一的,数据的来源和形式多种多样,因此按照一个统一的标准来设定数据要求几乎是不可能的。但大数据的优点是,其能通过数据预处理过程筛选出有效数据,然后再在计算时根据自身要求来展开样本分析计算工作。从数据分类和梳理方法上来看,大数据环境下的选择方式更多,分析条件更加多元化。传统统计学古板的分类方法和单一的梳理方法,显然不符合大数据的发展应用要求。因此,统计学在保留过去分类和梳理方法优点的基础上,积极开发和研究新的分类、梳理方法,才是其在未来进程中立足于大数据时代的重点内容。
第四,重新整合统计学方法。融合性和包容性是大数据时代的重要特征,因此传统统计学中单一的研究方法只会让其自身的发展陷入一个死胡同。大数据的先进之处在于,它不仅能够通过对数据的总结、分析和统计来判断总体过去和当前的状态与形式,还能够通过对数据的变化规律进行分析,推断出该总体未来的发展趋势和发展方向,这样就能给决策者提供更多的结论信息,帮助其做出更具前瞻性的决策[6]。实际上,传统统计学中也有针对这两项内容的计算方法,其中对数据信息进行分析来总结该项总体过去和当前的发展状态的方法为归纳推断法,它是一种通过运用具体数据信息对总体的特征进行总结和推断的方法,但已存的数据中其实很难发掘数据的动态发展过程,因此从个体信息中能够获取的有效知识比较有限。但传统统计学中还有一种演绎推理法,即通过深挖数据内容中的相关内在联系,深入分析事物的变化过程和动态趋势,经过经验总结,来推断事物的未来发展进程。演绎推理法所推理出来的未来发展趋势相对来说更具参考价值,排除了事件出现的偶然性,将变化过程中细小的变化和关键的变化都放在了考虑范围内。重新整合统计学方法的含义是,将几种单一的统计学方法结合起来,集中去解决需要面对的同一个问题,从而全面提升统计学对于数据信息的驾驭水平。
四、结语
从上面的总结中不难看出,虽然大数据时代的来临在统计学的发展过程中掀起了一场不小的波澜,但只要找到正确的方法和路径,统计学也能够乘风破浪,抓住其中的机遇,顺应时代的发展。统计学这门学科在现当代社会的教育和发展过程中是无法替代的,但只有其本身能够与时俱进,不断补充,才能在时代的不断变更中发挥其自身的作用,从而促进和推动我国经济学和社会统计领域的不断进步。
参考文献:
[1]李政,赵彦云.适应大数据时代的美国统计学大学教育:下[J].中国统计,2015,(4):24-25.
[2]周茂袁.大数据时代统计学专业教学改革的初步探索[J].教育教学论坛,2015,(35):105-106.
[3]薛艳.大数据时代统计学专业教学体系的改革[J].教育教学论坛,2015,(4):110-111.
[4]郭海兵.大数据背景下统计学专业教学改革的思考[J].现代职业教育,2016,(31):184-185.
[5]胡凌云.大数据背景下统计学专业教学改革思考[J].课程教育研究,2017,(21):6-7.
[6]杨文帮.大数据时代背景下统计学专业发展前景分析[J].考试周刊,2017,(81):393-394.
中图分类号: C8
文献标志码: A
文章编号: 1673-291X(2019)15-0003-02
收稿日期: 2019-01-12
作者简介: 李晓莉(1965-),女,北京人,讲师,从事统计学研究。
[责任编辑 刘娇娇]
标签:大数据背景论文; 统计学论文; 发展方向论文; 研究分析论文; 北京市丰台区职工大学论文;