中国联合网络通信有限公司哈尔滨软件研究院 黑龙江 150040
摘要:随着信息全球化的不断深入,国际社会成为了一个整体,信息技术的发展带动了整个国际社会的进步。现阶段网络数据的信息量越来越庞大,大数据时代的到来对传统信息模式起到了相当大的冲击作用,其他领域必定受到大数据时代的影响产生一些相应的变化。本文就以大数据时代下统计新思维对于其他领域的影响和发展进行了简单的分析,以促进传统统计学理论能够适应大数据时代的变化。
关键词:大数据统计;统计思维
1、前言
大数据时代是一个拥有庞大数据类型和规模数量的时代,同时它还有数据更新速度快等特点,这些特点对其他行业和国家经济的发展都有着重要影响。为了使国家能够顺应大数据时代的发展,统计思维的创新十分有必要。本文主要研究了大数据时代统计的发展,希望其他工作者可以通过本文的研究开阔视野,多个角度面对问题解决问题。
2、大数据的处理、抽样与分析
2.1 数据的预处理
大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的,具有总体的代表性和系统误差小的优势,但是数据获取和更新的周期长,尽管调查项目有代表性,但难以无所不包。而互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,也许是解决问题的一个思路。研究利用多源数据的重叠关系整合多数据库资源的方法,多种专题(panels)的数据可以相互联合,实现单一专题数据不能完成的目标。
2.2 大数据环境的抽样
大数据的抽样方法有待研究,“样本”不必使用所有“数据”,不管锅有多大,只要充分搅匀,品尝一小勺就知道其滋味。针对大数据流环境,需要探索从源源不断的数据流中抽取足以满足统计目的和精度的样本。需要研究新的适应性、序贯性和动态的抽样方法。根据己获得的样本逐步调整感兴趣的调查项目和抽样对象,使得最近频繁出现的“热门”数据,也是感兴趣的数据进入样本。建立数据流的缓冲区,记录新发生数据的频数,动态调整不在样本中的数据进入样本的概率。
2.3 大数据的分析与整合
针对大数据的高维问题,需要研究降维和分解的方法。探讨压缩大数据的方法,直接对压缩的数据核进行传输、运算和操作。除了常规的统计分析方法,包括高维矩阵、降维方法、变量选择之外,需要研究大数据的实时分析、数据流算法(data stream computing)。不用保存数据,仅扫描一遍数据的数据流算法,考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集,独立并行地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系沟通,构造全局统计结果。
2.4 网络图模型
网络图模型用图的结构描述高维变量之间的相互关系,包括无向图概率模型、贝叶斯网络、因果网络等。网络图模型是处理和分析高维大数据和多源数据库的有效工具,目前己经有丰富的图模型的软件系统,无向图模型利用有或无一条无方向边来描述变量之间的关联关系和条件独立性,可以将高维变量的统计推断问题分解为低维变量的统计推断问题。在一个由众多变量作为结点的大网络中,当收集到一部分变量的信息后,不用计算高维联合概率,而是采用网络传播信息流的方法有效地计算目标变量的后验概率。变量间的因果关系,利用数据学习网络结构,发现产生数据的机制和因果关系网络。
3、大数据与统计学分析方法的区别
3.1 基础数据不同
在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。
①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。
期刊文章分类查询,尽在期刊图书馆综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。
②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。
3.2 分析范式不同。
在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集——数据分析——描述事物特征/关系。
3.3 数据分析方法不同
传统统计学主要是基于样本的“推断分析”,而大数据环境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。
3.4 分析视角不同
传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。
4、大数据时代背景下统计工作的出路
4.1 树立大数据意识
方向问题是发展的根本问题。确立发展方向的就是自身的意识,所以,统计工作必须根据时代的客观情况,树立正确的意识。当前的大数据时代,是社会发展到一定阶段之后必然产生的过程,统计工作也要根据这一时代的需要,树立大数据意识。树立大数据意识的根本目的是使全体统计人员意识到自身的危机,明确工作和时代的差距,同时也给整个统计部门一个明确的目标。这样才能使整个统计工作的发展在有压力的情况下进行,促进其高速的发展。同时,意识的树立可以使整个统计工作按部就班的进行,增强整个部门的凝聚力,把握整个部门的工作方向,细致的了解当代统计工作的特征,做好统计工作。
4.2 加强对统计专业认识的培养
统计工作要进步,首要任务就是提高统计人员的工作素养,培养高素质的统计人员。因为人是工作的主体,大数据时代对统计工作的更高要求就是变相的要求提升统计工作人员的专业素养。传统的统计工作较为单一,统计工作人员的任务也比较简单,只是进行简单的劳动。为了适应时代的发展,统计部门必须加强对专业统计人员的培养,一方面培养他们对于统计工作专业知识结构的了解,另一方面,培养他们对于新兴科技的应用,包括计算机的熟练掌握和相关统计软件的应用。这需要专业的培训,在招收统计人员的时候就应该提高要求,然后系统的培训,只有合格以后才能真正的投入到统计工作当中,经过一段时间的磨合之后,由这批有知识、有能力的人来引导统计工作,然后不断的创新,逐步的提升统计工作的发展速度,最终使整体的统计工作向着精确、高速、高效的方向发展,提高统计的科学性和合理性。同时,要间隔性的考核工作人员的业务能力,对于不合格要再培训,优秀的员工给予奖励,鼓励统计工作的创新,提升统计工作的速度。
结束语
在过去传统小数据时代背景下,人们采用传统的方式进行分析和解决相关问题。随着信息全球化的不断推进,大数据时代的到来给人们提出了更多的挑战。在大数据时代背景下,我们必须要有新的统计创新思维方式,在面对现代高科技中常用积极的手段解决根本问题,做好相关统计的研究。本文为笔者个人观点,如有不当之处希望大家批评指正。
参考文献
[1]陈如明.大数据时代的挑战、价值与应对策略[J].中国国际信息通讯展专刊,2012 .
[2]陈明奇,姜禾,张娟,廖方宇.大数据时代的美国信息网络安全新战略分析[J].全国计算机安全学术交流会,2012 .
[3]孙立,杨军,潘坤友.基于大数据可用性的政府统计策略研究[J].科技管理研究,2014.
[4]张雪.大数据时代的挑战[J].中国科技信息,2015.74.
[5]张方宇.大数据时代的思维创新[J].计算机发展,2014.36.
[6]孙友.大数据时代对我国发展的影响[J].科技发展,2012.
论文作者:张晓秋
论文发表刊物:《基层建设》2016年12期
论文发表时间:2016/10/28
标签:数据论文; 统计工作论文; 时代论文; 变量论文; 方法论文; 传统论文; 样本论文; 《基层建设》2016年12期论文;