统计学理论在大数据分析中的应用研究
刘英南 1,2
(1.新晨科技股份有限公司,北京 100097;2.对外经济贸易大学统计学院,北京 100029)
摘要 :在本次研究中,本文首先对统计学分析和大数据分析的相关概念进行了系统化的阐述,讨论了统计学分析和大数据分析这两种方法之间的共性,并探讨了将统计学相关理论运用于大数据关系中的可行性。最后,结合具体的案例具体阐述了统计学理论在大数据分析当中的运用,以供参考。
关键词 :统计学理论;大数据分析;实践行为
在如今信息化时代,许多交易都从线下发展到了网络平台,相应的交易过程中所产生的数据信息也都得到了有效的保留,而“大数据”技术就是针对这些得以保留的数据信息进行有效的分析,进而挖掘出隐藏在数据信息背后的规律,从而实现对事物未来发展趋势的预测[1]。而统计学分析在一定程度上和大数据分析之间存在诸多的共性,基于此,笔者在本次研究中主要针对统计学理论在大数据分析中的应用相关问题展开论述。
一、统计学分析和大数据分析的概念
1.统计学分析的概念
统计学作为数学学科中的一个分支,其主要作用是对数据进行有效的采集、分析以及解释,最终构建起数据分析模型,以便为实践活动提供必要的指导。通常,利用统计学分析工具,可以有效将隐藏在数据信息背后的规律提取出来,以便实现对事物未来发展的方向进行有效的预测[2]。具体,在进行统计学分析时,主要包括数据采集、统计分析以及构建预测模型。其中数据的采集方式主要有两种,分别为普查和抽样调查,普查就是针对所有的数据进行分析,而抽样调查则是从数据整体中随机抽取一部分作为分析的对象[3]。数据的统计分析就是针对所采集的数据资料进行系统化的数理分析,从而最终总结归纳出隐藏在数据资料背后的规律性的东西。而所谓的构建预测模型,便是依据之前统计分析得出的数学规律来进一步构建理化模型,以便对事物未来发展的趋势做出判断。总体而言,统计学分析的过程也是一个利用已知来推断未知的过程[4]。
2.大数据分析的概念
如今,伴随着各种交易形式的网络化,“大数据”这一概念在商业界及学术界显得炙手可热。大数据又称巨量资料,具体指的是以多元形式,自许多渠道搜集而来的庞大数据组,其往往具有实时性。这些数据可能来自社交网络、电子商务网站、政府、金融机构等平台。概括而言,大数据一般具有规模大、多样化、动态化、处理速度快及蕴含有巨大的商业价值等基本特征。基于大数据的基本特征,就要求我们所使用的设备能够从繁杂的数据信息中挖掘提取出对我们有价值的信息,从而实现对数据信息的有效利用。
二、统计学分析和大数据分析的关联性分析
1.统计学分析和大数据分析内在逻辑的关联性
在数据分析方面,传统的统计学相关理论主要利用的是数理分析工具以及概率论的相关理论来挖掘数据背后的规律,进而构建数学模型预测模型。与之相对的,大数据分析则是利用计算机技术,来对数量庞大的数据群进行整合分析,从而最终挖掘出隐藏在这些数据背后的根本性的规律,进而对人们的实际生产活动产生实际的指导性作用。和传统的统计学分析相比,基于计算机技术的大数据分析过程在数据分析方面显然更为完备。因为在进行数据分析的时候,很多时候会限于人为因素,而必须舍弃一部分数据,即采用抽样的方式来获取一部分代表性的数据并对其加以分析,而这个过程中间可能会遗漏某些重要数据,而导致最终分析得到的结果存在偶然性误差,而采用大数据分析则可以有效避免这一弊端。但是无论是统计学分析,还是大数据分析,其本质上都是通过对数据资料的挖掘,而或缺规律,来进一步构建起预测模型的,因此两种分析方法的内在逻辑是一致的。
2.统计学分析和大数据分析所采用方式的一致性
无论是进行数理统计分析,还是大数据分析,其分析的对象都必须是定量的数据形式,而不可以是一些抽象的事物。因此,在两种分析方法的数据获取阶段,都必须要将所获取的原始信息形式进行必要的转化,最终形成一种可以制表的量化数据形式。因此,统计学分析和大数据分析两种方式在所分析的数据形式的层面上是一致的。
在本次抓乒乓球的游戏中,甲胜出的结果一共有上表4中列出的21种,而乙胜出的结果则一共有15种(即36-21=15)。如此便可以看出如果每一次抓乒乓球行为中36种结果出现的机会是均等的,则甲在一次抓乒乓球行为中获胜的概率值为7/12,而乙获胜的概率值为5/12,即甲获胜的概率>乙获胜的概率(甲获胜的概率:乙获胜的概率=7∶5)。如果甲、乙两人不停的抓乒乓球,次数足够多的话,其最终甲获胜的次数和乙获胜的次数之比会无限接近于7∶5。但是这种最终要稳定到7∶5这一状态时,其前提条件就是甲、乙两人抓乒乓球的次数必须要足够多。假设甲最终获胜的次数为X,乙最终获胜的次数为Y,抓乒乓球的次数为n,则最终X/Y→7/5是,其条件为n→无穷大。其中7/5即为X/Y的收敛值,而这种最终会无限接近收敛值的前提条件就是每一次抓乒乓球中甲、乙获胜概率的“平稳性”。这也就是统计数学上通常所说的“大数定律”。
三、将统计学理论应用于大数据分析的可行性分析
比如有甲、乙两人,一起在玩暗盒中抓乒乓球的游戏(抓出后再放回),一个暗盒中共有6乒乓球,分别标上1~6的6个数字,甲、乙两人约定,若两人所抓乒乓球上的数字之和为5、6、7、8这4个数字中的一个时,即为甲胜出,否则则判定乙在本次游戏中胜出。在本次抓乒乓球的游戏中,甲和乙所抓乒乓球上数字组合的结果一共有36种(即6×6=36),而这36种结果中有21种结果时两人所抓乒乓球上数字之和为5、6、7、8,即甲在本次游戏中胜出的概率为7/12。本次游戏中甲胜出的组合结果如表所示:
四、统计学理论在大数据分析中的应用案例分析
1.统计学中的“大数定律”
通过上文的相关阐述,我们可以指导经常提到的“大数据”分析,也是利用现代的技术手段及数理统计原理,对人们在网络交易中所产生的海量数据进行有效的分析的,从而最终构建起一个能够对人们的实际生活产生指导性作用的模型。因此无论是从逻辑层面来看,还是从结果来看,统计分析和大数据分析的实践应用之间都具有一致性。同样,统计分析也可以有效运用于大数据分析之中,既往大数据分析的相关研究发现,在进行面对海量的数据信息进行分析的时候,不能够盲目的采用随机分析的方法,这样会使得数据分析工作变得缺乏头绪,从而最终使得数据中有效信息提取的难度大大增加。一般而言,大数据具有价值、多样、高速、大量四个方面的特点。基于大数据分析的特点,既往相关专家总结出了如下公式,即:大数据=高频海量数据+复杂类型的数据。这也在一定程度上启发我们在进行大数据分析的时候,可以将一些数据指标量化,即将一些本来看似抽象的指标用数据的形式来进行表达,从而最终构建起数学模型,并对所构建起的数学模型进行演绎推理,以使得隐藏在数据背后的规律得以呈现,进而更好地指导实践行为。
在C语言课程实践教学中,采用团队合作模式是通过分组教学的方式,利用小组中学生的优缺点搭配,取长补短,促进教学质量的提升。操作过程中,教师要按照学生的学习成绩和特长进行分组,形成高效的学习团队,通过合作,互相促进。学生承担各自的角色分工责任,加强沟通协调,每个人都为实践内容的完成发挥作用。项目驱动教学,也称为案例教学。教师在教学过程中会提供学生可借鉴的案例,实际的项目内容研究需要学生根据自己的理解去完成。怎么完成,则由学生自己研究更有效的实现办法,根据目标去做所有的工作,而不是被要求做什么。这样,可以有效调动学生的主动性和积极性,尤其是全面解决问题的能力。
表 抓乒乓球游戏中甲胜出的组合结果
毋庸置疑,通信系统有助于电力系统及相应的终端设备达到信息交换的基本功能,充当配电网终端与电力系统的桥梁,因此,要达到配电网自动化的基本目标,便有赖于完善的通信系统。在电力系统中,通信系统包含多类通信模式,其中就有无线扩频、有限电缆、光纤通信等,配电网自动化的通信对时效性的要求不尽相同,每台器械设备信息量相对较小,终端设备相对较多,因此,在推行配电网自动化时,要依照外部环境及经济条件的不同,充分顾及到自动化通信系统的协调,进而形成较恰当的通信系统。
利用EXCEL 2016对数据进行整理和分析,并做出相应的曲线图。然后用SPSS 16.0进行逐步回归分析,并对回归模型和回归系数进行显著性检验,从而建立酶制剂组成中每克饲料各NSP酶添加量X(mg/g)与酶解液还原糖含量Y(mg/g)间的回归方程。使用Design Expert 8.0对响应面的实验结果进行回归分析,得到NSP酶谱的最佳组合。
2.“大数定律”在大数据分析中的应用
在如今交易逐渐高频化的时代,基于互联网平台的交易活动会产生大量的有效数据信息,具相关学者统计,针对一个单一品种的商品,平均每1秒钟会产生12个数据,如此1个小时就可以产生43200个有效数据信息(3600×12=43200),面对如此高频及海量的数据信息,如果没有统计学思想的指导,而只是单一的采用采用大数据分析的方法,将可能会使得数据挖掘效果相对滞后。
因此,我们完全可以将“大数定律”中的相关理论和方法运用于大数据分析的实践当中,具体而言,“大数定律”在大数据分析当中可以有如下几个方面的运用:(1)将“大数定律”中“收敛值”的思想运用于大数据分析中,可以使得数据分析人员明确其分析目标,进而在遇到干扰时,可以有效排除一些冗余的特殊值,继而使其在更短的时间内得出隐藏在数据信息背后的规律,一方面,可以提高工作效率,另一方面,也可以有效节省资源,避免不必要的资源浪费。(2)对于大数据分析得到结果时候,在后续的预测模型的构建过程中,也可以参考“大数定律”的相关数学思想,从而实现对事物未来发展状况的预测。(3)在大数据分析过程中,其算法的设计也可以有效借鉴“大数定律”的相关思想。
五、结语
在本次研究中,笔者结合统计学中的“大数定律”这一具体例子,针对性的剖析了统计学理论在大数据分析中的实践应用。通过本次研究发现,将统计学相关理论运用于大数据分析当中,可以使得数据分析人员明确其分析目标,在遇到干扰时,可有效排除冗余的特殊值,促使人们可以更加快速的提取出隐藏在海量数据信息背后的规律性,进而更好地指导实践行为。
参考文献 :
[1]田茂再.大数据时代统计学重构研究中的几个热点问题[J].统计研究,2015,32(5):3~12.
[2]彭先萌.大数据时代统计学发展研究[J].哈尔滨职业技术学院学报,2015,(6):124~125.
[3]中国人民大学“大数据与应用统计”研究组.大数据时代统计学的重构与创新——首届“大数据与应用统计国际会议”述评[J].统计研究,2015,32(2):3~9.
[4]李金昌.基于大数据思维的统计学若干理论问题[J].统计研究,2016,33(11):3~10.
中图分类号 :F222.1
文献识别码: A
文章编号: 2096-3157(2019)03-0136-02
作者简介 :刘英南,供职于新晨科技股份有限公司,对外经济贸易大学统计学院在职人员高级课程研修班学员。
标签:统计学理论论文; 大数据分析论文; 实践行为论文; 新晨科技股份有限公司论文; 对外经济贸易大学统计学院论文;