大数据时代统计学重构研究中的几个热点问题,本文主要内容关键词为:几个论文,统计学论文,热点问题论文,重构论文,时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
科学技术日新月异,不管我们承不承认,我们当今正处于一场大数据带来的巨大变革中,这场变革影响着我们生活的方方面面。大数据集通常超出常用软件工具的捕获、组织、管理和在可容忍的时间内处理这些数据的能力。 (一)国外研究状况 随着人类科学技术的飞速发展,特别是随着电脑—互联网的普及,我们正面临即将到来的大数据时代。许多科学研究领域产生了多种多样的复杂超高维海量大数据,如在基因学、天文学、宇宙学、流行病学、经济学、金融学、功能性磁共振成像以及图像处理等领域。面对这些高速增长的复杂超高维海量大数据的挑战,各个领域的科学家需要具有快速提取所需信息的能力。 我们知道统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据的一门社会学科。就统计学自身而言,大数据时代的到来无疑是大机遇。通过对大数据的统计推断,我们能够研发出强有力的统计工具,这显然会给统计界带来切实的利益:将有利于统计学科理论和方法在更广阔的天地中长足发展,有利于促进对自然和科学的深度理解。反过来,就统计学对其他学科的影响来说,通过对复杂数据开展深入系统的创新性研究,将产生新的统计思想、新的统计工具,形成新的统计理论,从而推动其他重要领域和科学前沿取得突破。其实,随着大量产生于当今科学的大数据在不停地快速增长,从基因组到自然科学领域,统计学家一直在积极参与跨学科领域的科学研究。从统计学的发展史可以看出,随着各门具体科学领域产生的复杂数据的增多,统计学家面临的机遇也就越多,统计学理论和方法的发展也得到更大的发展空间。进而推动着许多重要领域或科学前沿取得突破。本文将重点介绍10个复杂大时空数据统计建模方面的研究情况。 1.空间数据的高斯预测过程模型。 由于空间信息系统以及空间位置系统发展,越来越多的数据都包含了精确的位置信息。这就在许多领域形成了大型时空数据集,引起了对空间数据进行统计建模的兴趣,学者们对此尝试了多种方法与应用。第一类方法是通过寻找空间过程的近似来实现,具体包括扭曲核、移动平均、低秩样条或基函数(Xia和Gelfand,2006;Kammann和Wand,2003;Paciorek,2007)。其核心想法是寻找过程w(s)的近似过程w(s),使得原有模型得以在一个低纬度的子空间中实现。第二类方法是寻找似然的近似,包括将空间过程放到频域中,从而避免矩阵分解(Paciorek,2007);使用合理的条件分布来近似似然(Stein等,2004)。这其中的核心就是拟合似然与真实似然的近似程度。另一种方法要么将随机场中的过程用马尔科夫场中的过程替代(Cressie,1993),要么用马尔科夫场中的过程来近似随机场中的过程(Rue和Tjelmeland,2002;Rue和Held,2006)。这种方法也仅是对于均匀格点有较好的适应性,而当处理非均匀格点的数据时,则需要利用一种算法重新调整格点,但这可能会引起不可量化的错误。因此,用上述方法处理更加复杂的分层空间过程,包括多变量的过程(Wackernagel,2003;Gelfand等,2004),时空过程及空间变化回归(Gelfand等,2003),非平稳的协方差结构(Paciorek和Schervish,2006)是有潜在错误的。机器学习中对大数据集的高斯过程回归有Wahba(1990),Seeger等(2003)以及Rasmussen和Williams(2006),他们将回归方程看做高斯过程在以某些均值函数为中心的实现,并且当给定回归函数时,这些均值函数是条件独立的高斯过程。最近,Cornford等(2005)将这种方法应用到地理统计中。全贝叶斯推理最可能使用的方法是MCMC方法(Robert和Casella,2005),但这种方法已经完全不在机器学习的文章中使用(Cornford等,2005)。 2.基于刻度混合正态分布链的二值响应变量状态空间混合模型。 在统计模型应用中常遇到观测值只取二值的形式,这样的二元数据可以根据连续、离散或顺序型的协变量、解释变量来测量。广义线性模型可以很好地处理二元响应变量的时间序列数据(McCullagh和Nelder,1989),但当序列存在相关性或观测值过度分散时,这些模型将不再适用,应该采取其他方法。广义线性状态空间模型可以处理这些问题,由Wesr等(1985)在一篇共轭贝叶斯设定论文中提出。Czado和Song(2008)等在此基础上进行了更深入的研究。二值响应变量数据建模的一个重要问题是链接函数的选择。对于此类问题,许多文献中较广泛采用的是probit链。Albert和Chib(1993)用数据增大原则,提出门限潜在方法来处理对称的probit和t分布链。Naranjo等用了指数幂分布链。Basu和Mukhopadhyay(2000)在非参数模型中采用了刻度混合正态分布链。Albert和Chib(1993)采用门限方法、probit链的二值状态空间模型被Carlin和Polson(1992)以及Song(2000)用于不包含协变量的情况。Czado和Song(2008)给出了用probit链的包含协变量的二元状态空间模型,并将其命名为二值状态空间混合模型。他们证明加入回归变量是有意义的,可以量化成功概率与协变量之间的关系。 3.空间计数数据中的零膨胀模型。 计数数据有多种建模方法,比如,可以使用泊松、负二项、二项、贝塔—二项或超几何分布等。这些常见的参数族受限于形状及尾部行为,因此,如果调整了协变量之后异质性仍然存在,就需要引入随机效应。对空间计数数据来讲,泊松回归是最常用的,随机效应由空间模型引入,例如,条件自回归(conditionally autoregressive,CAR)先验典型地使用格子或地区单元数据(Clayton和Bernardinelli,1991),空间过程使用地质统计或基点(point-referenced)数据(Diggle等,1999)。一个可靠的制造过程在理想状态和非理想状态之间往返运动,理想状态下瑕疵极其稀少,非理想状态下瑕疵数目服从泊松分布(Lambert,1992;Ghosh等,1998)。对于这种数据,一种自然的建模方法是给0一个点质量p,即以概率p抽样一个0退化分布,以概率1-p抽样一个Poisson(λ)分布,这一模型在文献中称为零膨胀泊松(ZIP)模型。Cohen(1963)与Johnson和Kotz(1969)讨论了无协变量的ZIP模型;Heilbron(1989)用“零改变(zero-altered)”泊松和负二项回归模型研究了男同性恋的高风险行为;Lambert(1992)在回归设定中对ZIP模型定义了λ和p的线性回归,使用了E-M算法得到最大似然估计,似然方程的解不一定唯一,E-M算法不一定收敛,区间估计依赖于一般的似然渐近性质,即它是基于正态近似的,要求对数似然曲面二次近似于MLE;Ghosh等(1988)用完全贝叶斯方法来拟合ZIP模型,获得了精确的可信区间。通常的泊松回归中,Diaconis和Ylvisaker(1979)讨论了回归系数在先验不合适情况下的后验合理性问题。 4.空间零膨胀泊松回归模型。 生态学研究经常会计量样本站点内一个或者多个物种的个体数量,这些样本站点分散于整个研究区域,目的在于更好地了解哪些环境因素或者栖息条件对所感兴趣的物种更有利。分析空间相关的计量数据可以通过引入随机效应(Diggle等,1998),或者利用边际模型,使用广义估计方程估计模型参数(Gotway和Stroup,1997;Gotway和Wolfinger,2003)。生态学计数数据经常包含过多的零值,主要是因为样本站点中包含了不适应物种的栖息地,或者是物种分散到研究区域内所有部分的限制。Lamber(1991)提出了零膨胀泊松回归模型,并用于计量制造缺陷中的过多零值。零膨胀泊松回归还被用来模拟一种罕见负鼠物种的数量(Welsh等,1996),甘蔗害虫的数量(Vieira等,2000),实验培植的猩猩木上的粉虱数量(Vanlersel等,2000,2001)。零膨胀负二项回归也被用来模拟过离散数据(Welsh等,1996)。Hall(2000)提出带有随机效应的零膨胀泊松模型,并用于纵向数据的分析。Agarwal等(2002)提出针对空间计数数据的零膨胀模型。根据Lambert(1992)提出的方法,假定产生零的概率为p,数据来自于泊松分布的概率为1-p。Logistic回归用于模拟产生过量零的概率,对数线性模型用于模拟泊松均值。通过对Logistics回归或者对数线性模型加入空间相关的随机效应引入空间相关性。在这些随机效应的前提下,过量的零值是随机产生的。因此,无论多小的区域都会有无限多个样本站点可以观测到过量零,这种情况和原来的概念不相符,也即过量的零值产生于不适于物种生存的区域。 5.零膨胀时空过程建模。 在过去的数十年中,关于时空过程的建模发展迅速。有很多我们感兴趣的过程都是基于某一段时期在某个地区观测到的。例如,污染物水平、降雨量、某些疾病病例数,等等。对这类观测建模,我们的主要挑战是去描述潜在的时空协方差结构。然而,对于非负值并且有大量的零值出现的时空观测的建模,却没有太多的文献提及。 在时空数据集条件下,Lambert(1992)考虑了零膨胀技术数据模型。在一个纯粹的空间集中,Agarwal等(2002)提出了对大量零值出现的区域水平数据使用零膨胀技术模型的方法。他们还提出了对零膨胀模型的优良评价。Wikle和Anderson(2003)对飓风报道次数提出了一个分层贝叶斯时空模型,该计数数据也有大量的零值存在。他们提出的模型基本上是针对区域水平上的离散观测,提出了零膨胀泊松模型。另一方面,Fahrmeir和Echavarria(2006)对空间结构和零膨胀数据提出了贝叶斯模型,考虑使用零膨胀泊松—伽马模型,即零膨胀负二项模型。 6.生态零膨胀计数数据的贝叶斯时空建模。 一个生态学的调查经常涉及历年来在一个研究区域一个或更多物种的个体数目集合。这一调查的目的是为了估计和预测物种分布在这个区域的演变。生态计数数据的另一个独特的特点是在一个给定时间和位置的零计数的解释。Agarwal等(2002)应用ZIP模型来拟合等足类动物巢穴洞穴数据。Fei和Rathbun(2006)在一项橡树再生研究中使用了一个ZIP模型,用伯努利过程对空间相关性建模,并假设了泊松过程在不同位置独立。负二项模型提供了可与ZIP模型相提并论的另一种两参数族。泊松模型实际上是负二项模型,即异质性参数归零的一个特殊情况(Hilbe,2007)。然而,对于带协变量的负二项模型的参数估计并不像ZIP模型那样直截了当。最明显的是,负二项模型无法提供一个适合于物种存在概率的参数,且它的解释性不如ZIP模型简单。空间动态模型中的计算也并不稳定(Fernandes等,2009)。关于零膨胀计数数据的时空建模有丰富的文献。Wikle和Anderson(2003)在1953~1995年美国龙卷风数据的统计分析中使用贝叶斯分层时空方法应用了ZIP模型。他们假设了随空间变化的时间趋势和伴随有空间相关随机过程的厄尔尼诺的影响。Fernandes等(2009)对连续非负值和具有点参考或地区空间结构的计数数据讨论了零膨胀时空过程。他们假设了贝努利和泊松回归模型中的随机过程都空间相关但对时间独立。在两项研究中,时间模式是通过时间协变量而不是随机过程来建模的。Ver Hoef和Jansen(2007)开发了具有时空误差的ZIP和跨栏模型,来研究冰川冰上斑海豹的haul out模式。对于计数数据建模已提出了时空随机过程上的不同结构(Zhuang和Cressie,2012)。然而,大部分对于零膨胀计数数据的时空模型要么依赖于时间或者时空协变量来对动态进化建模,要么假设时空随机过程不仅是可分的,还是可加的,这可能并不令人满意(Banerjee等,2004)。考虑到生态系统的复杂性,一些有影响力的时间或时空协变量可能观测不到或者不可得的情况是常见的。Salazar等(2011)使用空间动态因子模型方法研究了来自于一组区域性气候模型的温度数据,且空间载荷矩阵是基于Banerjee等(2008)提出的高斯预测过程方法来构造的。 7.环境数据时空零膨胀计数模型。 环境数据具有空间性与时间性,并且常常含有许多零值。统计学家一直在发展通过增加复杂度来更好地处理这些数据的模型。时间序列、空间统计和零膨胀泊松(ZIP)回归都已经很成熟。组合这些方法的模型例子不断增多,如处理高斯数据的时空模型(Wikle等,1998)、时间零膨胀泊松(ZIP)模型(Dobbie和Welsh,2001;Lee等,2006)与空间零膨胀泊松模型(Agarwal等,2002;Rathbun和Fei,2006),等等。 8.气候预测模型。 气候模型使用机械运动公式来对全球大气现象的变化进行仿真。大气环流模型(GCM)被用来描述大尺度全球动力变化,并以捕捉到大气的长期变化为目标。区域气候模型(RCM)(Giorgi和Meams,1999)对GCM的结果生成一个“动力缩减”(dynamic downscaling)。评估使用多模型联合预测未来气候的不确定性,是世界气候研究计划(WCRP)组合模型相互比较计划第三阶段(CMIP3)(Meehl等,2007)的核心问题。这些仿真包括了来自23个最先进的大气—海洋环流模型(AOGCM)组合的输出,并被作为政府间气候变化委员会(IPCC 2007)第四次评估报告(AR4)的基准。Knutti等(2010)提供了近期的参考文献的资源,它们涉及到整合不同模型的仿真所遇到的问题。现代统计方法,如Smith等(2009),Rougier(2010)等文献中所提及的,使用分层模型、历史记录和多模型仿真组合,来得到感兴趣的变量的分布。因此评价一个气候模型和证实一个用来预测的模型是不一样的,因为气候模型需要一定程度的平均化。为了解决这一问题,需要提出相应的统计模型,来刻画观测记录和仿真间的差异,这一差异在时间上是一常数,或者在时空中平稳地变化。 9.分层贝叶斯时空模型。 对飓风气象的研究源于其潜在的破坏性。利用美国气象局(NWS)的飓风报告分析飓风次数是困难的。正如Doswell和Burgess(1988)所总结的那样,大多数报告实际上来自未经训练的观测者,只有少数在1970年之前是由受过训练的专业人员实地调查得到的。Concannon等(2000)提出了一种估计每天F2~F5(强大和破坏性大的飓风)气象概率的方法。Bruening等(2002)应用Concannon等(2000)的分析过程分析F0~F5(所有飓风)飓风报告,目的是调查飓风计数的同比变化情况。他们利用简单线性回归结果清楚地记录了全国每年飓风报告的增长趋势。同时认定了飓风报告中重要的年际和年度内变异性。Monfredo(1999)调查了美国中南地区和南部地区飓风报告之间的关系以及利用NWS的记录调查南方震动指数。特别地,他利用零点温度和降水定义两个具有相同气象特征的地区。Marzban和Schaefer(2001)对最近的飓风和厄尔尼诺现象给出了最全面的分析。他们利用Kendall相关非参数检验研究飓风活动与各种SST指标之间的关系。对于龙卷风活动,他们单独考虑总的报告计数以及龙卷风的天数。他们考虑了两个强度等级:F0~F5和F2~F5。发现一般来说当删除季节性影响后相关性变弱,但确实具有统计学意义的相关性。Hoerling等(1997)从物理角度证明了这一结果。 10.时空数据的联合复合似然估计。 时空数据来自于很多科学领域。近年来,统计研究者意识到空间统计的困难,从两种方法上来提高运算速度:一种是简化协方差结构;一种是做似然近似,基于简化完全似然。然而,由于数据的高维特性,基于似然和贝叶斯的方法使得时间和空间的联合建模在计算上遇到了很大的挑战。Bai等(2012)提出了联合复合似然估计方程的方法来估计时空的协方差结构,从而减少了计算的复杂程度,并且比以往的复合似然方法更有效;Bai等(2014)把这种方法推广到了空间聚类的数据。Bevilacqua(2014)等从复合似然的得分函数中推导了欧几里得似然估计量,这种方法的特征是考虑了成对似然依赖于空间区块的选取,从而提高了计算效率。 (二)国内研究状况 对于我国而言,对大数据概念的认识是一个逐步深化的过程,起步较晚,而且目前“大数据”尚未以专有名词被我国政府提出并予以政策支持,只是在2011年12月8日工信部发布的物联网“十二五”规划中,信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这些是大数据的重要组成部分。涂子沛的《大数据》一书,主体是通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例——奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结等来细述数据创新给公民、政府、社会带来的种种挑战和变革。全书主体是美国,但又处处反观我国当下的现实。 以CNKI(中文知网)的中国学术期刊网络出版数据总库为数据源,检索篇名=“海量数据”或“大数据”或“big data”或“extensive data”,截止到2012年11月9日,共检索出文章1439篇,经过去重、筛选等,保留相关文献1121篇,实际数据统计显示,目前国内大数据领域核心发文机构主要以中国科学院、国防科技大学、北京大学、清华大学、中国人民大学、浙江大学、中国移动等10家科研院校为代表[20]。反映了我国学术界对大数据的探索现处于初级阶段,同时也反映了大数据这个领域的强大发展潜力,无论对于个人还是企业亦或是国家,谁占领大数据时代的制高点,谁就赢得主动和先机。其中,特点较为突出的研究主要有: 韩晶(2013)研究了大数据服务架构、大数据服务数据模型、大数据服务模型以及大数据服务应用方面的关键技术。该文的主要创新点有:针对已有非结构化数据模型难以满足大数据服务需求的问题,提出了一种基于主体行为的非结构化数据星系模型(Galaxy Data Model,GDM);针对缺乏能够涵盖大数据特征的服务模型的问题,提出了一种基于扩展OWL-S本体的大数据服务模型(Extended OWL-S based Big Data-as-a-Service,EO-BDaaS);针对大数据检索服务准确度较低的问题,提出了热度敏感的非结构化数据检索排名优化算法HotRank;针对大数据服务中对服务快速响应的要求,提出了一种基于数据热度识别的混合预取算法(Hybrid Prefetch Algorithm,HPA)。 赵云山、刘焕焕(2013)研究了大数据技术在电力行业的应用问题。指出电力大数据综合了电力企业的产、运、销及运营和管理数据,展望电力行业信息化的未来,“集约化、精细化、信息化”的集团管理将成为进一步提高电力行业运营效率和管理水平的主要方向,而大数据技术的应用势必成为这一进程的焦点。如何利用好大数据,充分挖掘企业数据资产,更好地服务电力行业发展和广大电力用户将成为电力企业持续发展的重要研究课题。 方巍等(2014)首先从大数据概念入手,阐述了大数据的来源、主要挑战、关键技术、大数据处理工具和应用实例等,并分析了大数据与云计算、物联网、移动互联网等技术之间的关系,然后剖析了大数据核心技术、大数据企业解决方案,并给出了目前大数据应用实例,最后归纳总结了大数据发展趋势。何清(2014)的报告包含以下四方面内容:大数据的价值;大数据带来的挑战;大数据研究成果;云计算是大数据挖掘的主流方式。阐述了对大数据的理解,以及对大数据价值的认识,探讨大数据处理与挖掘技术。提出了没有互联网就没有云计算模式,没有云计算模式就没有大数据处理技术,也就没有大数据挖掘技术的观点。 王元卓等(2013)认为网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据。网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战。同时,也为人们深度挖掘和充分利用网络大数据的价值带来了巨大机遇。因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法。该论文分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望。张学敏(2014)指出近年来互联网的高速发展引领人类进入了一个信息量爆炸性增长的时代。每个人的生活中都充满了结构化和非结构化的数据。大数据主要包括两方面特征:一方面整个社会的信息量急剧增长,另一方面个人可获取的信息也呈指数增长。从科技发展的角度来看,“大数据”是“数据化”趋势下的必然产物,并且随着这一趋势的不断深入,在不远的将来我们将身处于一个“一切都被记录,一切都被数字化”的时代。在这种背景下,对大数据的有效存储以及良好的分析利用变得越来越急迫。而数据分析能力的高低决定了大数据中价值发现过程的好坏与成败。该论文以大数据时代的数据分析为主题,简明地阐述了国内大数据分析的发展现状、大数据的分析模式以及主要的分析技术、大数据时代数据分析的几个核心概念等相关问题。耿直(2014)认为针对大数据环境,需要研究新的适应性、序贯性、动态的抽样方法以及研究如何确定满足统计目的和精度所需的样本。由此可见,抽样作为一种经典的统计方法,在大数据时代仍然可以发挥重要的作用。 在大数据分析中,随机抽样是一种很受欢迎的方法。而人们往往更关心的是抽样后的估计结果能否代表总体或者近似于总体的程度。然而,我们知道高杠杆点出现的同时也有可能存在异常点或强影响点。由于异常点具有较大的残差,因此我们希望能从样本中将其探测出来,从而去除其对估计的影响。 中国政府统计部门近几年在大数据方面做了大量的工作,有力地推动了我国的大数据研究。众所周知:当前政府越来越需要更及时、更精细和更可靠的统计数据作为决策依据。但20世纪的统计思想和方法显然难以解决21世纪的问题。中国的体制和社会改革正在深入进行,例如户籍制度改革、代码系统更替、国家基础数据库建设以及统计2.0支持现代管理和多领域的应用,需要顶层系统设计、高质量的数据整合、基于非随机收集数据的统计推论。赵彦云等(2015)认为可把中国政府统计粗略地划分为三大类:计划经济下的政府统计、市场经济下的政府统计以及现代互联网信息技术下的政府统计。依据这三大类来讨论政府统计的核心统计设计就比较清楚了,这说明政府统计是根据内外部条件决定其发展及统计设计的,核心统计设计只是进一步突出了核心统计内容的设计特点。计划经济下的政府统计,主要是用统计数据检查计划完成情况和制定下一轮计划。市场经济下的政府统计,主要特征是在统计法约束下的公共统计数据的生产和使用,理论上讲应该为产品市场和要素市场有效运行提供以价格为中心的公共统计数据,促进技术创新和管理及组织等创新,引领要素合理流动和资源最优配置,追逐高效率,不断为国民增加财富。现代互联网信息技术下的政府统计的核心设计应该体现统计法+技术基础设施支持下的政府统计的生产和使用。 二、价值和意义 面临大数据时代的来临,传统的统计理论会如何变化,这正是本文选题的原因所在。本文旨在研究大数据时代下统计学理论的传承性、复杂性、前沿性、综合性等现实问题,以人文社会科学为基础,进行跨学科研究,以此推动经济、金融、统计学、数学、教育学等交叉学科体系、学术观点和研究方法的创新发展,推进学科之间的交叉融合和学者之间的交流互动。 (一)大数据时代统计学理论创建工程——当今科研的前沿领域 随着科学技术的飞速发展,大数据时代诸多科学研究领域将产生多种多样的海量超高维多元复杂大数据。面对这些高速增长的复杂超高维海量大数据的挑战,要求当代统计学家具有快速提取所需信息的能力。因此,就统计学学科自身而言,通过对这些复杂大数据的分析,研发出强有力的数据分析工具,形成相应的大数据统计学理论,以解决一些复杂性、前沿性、综合性的重大现实问题。我们不难发现目前一些学术造诣深厚的研究者已经将他们的研究兴趣转移到了高维多元复杂数据分析工程上来。 (二)大数据时代统计学理论创建工程——当今科研的交叉领域 我们知道统计学背后牵涉到更多数学导向的领域,如概率论,或是从经验科学如天文学中获得的经验证据设定估计参数等。在今日世界统计学已经不仅仅在国家或政府的事务中使用,更延伸到商业、自然及社会科学等更多方面。因为统计学拥有深厚的历史以及广泛的应用性,统计学通常不仅被认为是数学所处理的对象,而是与数学本身的哲学定义与意义有密切的关联。随着大量产生于当今各领域复杂数据不断的快速增长,统计学家一直在积极参与跨学科领域的科学研究。从统计学的发展史可以看出,随着数据量增大,统计学家面临的机遇也越多,相关的统计学理论和方法也得到了空前的发展。反过来,推动着许多重要领域或科学前沿取得突破。 (三)大数据时代统计学理论创建工程——意义重大 ①我们可以在大数据时代下关于高维多元复杂数据分析中形成一整套相关的大数据统计学理论和方法,促进交叉科学的“大数据时代超高维多元复杂数据分析”这一国际前沿研究;②将我们的大数据时代新的统计方法应用到国民经济和社会发展中,具有广阔的应用前景。例如在金融风险管理方面的应用,包括大数据时代高维空间里的风险值的快速而精确地计算;事实上,当人们仍然在把微博等社交平台当作抒情或者发表议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,并用其预判市场走势,取得了不俗的收益。这些都是大数据分析中统计学理论有效应用的结果。 (四)大数据时代统计学理论创建工程——抢占制高点 国内外的研究表明,大数据时代下统计学中高维多元复杂数据工程正需要从各前沿研究领域中收集数据,挖掘有用信息,它亟需与多学科交叉,亟待发展新的理论与方法。前期研究结果表明,整合统计学中高维多元复杂数据工程研究的优势力量,加强学科交叉,针对大数据时代下复杂数据统计推断的需求开展具有源头创新性的大数据理论及方法研究以及进行大量的实证研究的条件已基本成熟。我们必须把握机遇,迎难而上,尽快发展出具有源头创新、拥有独立知识产权的大数据高维多元复杂数据分析理论、方法及软件,为我国大数据时代下统计学的发展提供推动力。 总之,大数据统计学重构研究,能够部分整合国内外相关学科的学术力量,积若干年的持续研究,产出一批具有原创性和学术价值、在国内外具有较大学术影响、能够传之后世的重大学术成果及若干学养深厚的学术大家,奠定我国在该领域的学术领先地位。 三、问题与方向 本文重点介绍一些大数据时代下统计学基本理论框架的重新构建,以及这些理论与其他学科交叉应用研究等一系列重大理论与应用问题,这些前沿研究主要包括: (一)大数据统计学基本理论的发展研究 1.大数据时代统计学总体理论框架构建。 传统统计学认为样本数据来自总体,而总体是客观存在的,我们可以通过观测到的数据来认知总体。在大数据时代,样本渐趋于总体,不是随机样本,而是所有数据,我们还需要假定一个看不见、摸不着的总体吗?否则的话,我们又该怎样来修正总体的“公理化”定义? 2.大数据时代下的抽样理论。 当前主流的抽样分析方法有一定的缺陷,而在大数据时代,我们拥有所有数据,不需抽样,用所有数据得出的分析结果肯定比抽样的精确。这就是大数据的第一大好处。可是,我们怎样判断这些数据的异质性呢?换句话说,风马牛不相及的数据可以一起使用吗? 3.大数据时代下新的统计推断理论、方法。 数理统计,通常又叫做统计理论,它是应用数学的分支,它是用概率论分析并且验证统计的理论基础。数理统计中统计推断非常重要,经典的大样本理论经常假定样本数量趋近于无穷,而在大数据背景下没有随机样本,样本就是总体。那么统计推断怎么进行?估计的精确性如何度量?是否该考虑其推广形式,比如某种“混杂性”?我们注意到追求某种精确性是信息缺乏时代和模拟时代的产物。其实只有很少一部分数据能适用于传统数据库。如果不考虑传统精确性的推广形式,那么会有绝大部分非框架数据无法被利用,这将造成巨大的浪费。有时大数据的简单算法比小数据的复杂算法更有效。 4.大数据时代下相关分析问题研究。 统计学的主要任务之一就是从数据中发现事物的本质,找出不同现象之间的某种关系。在某种意义下大数据处理其实就是相关性分析。相关性分析在统计学中是非常基础的。然而,我们知道传统的回归估计中存在以下问题:①传统的“渐近结果”太粗糙,因为它需要样本的个数趋于无穷或者在时间序列里要求时间趋于无穷,而这些要求无法验证。在大数据时代,有望直接找到某种精确的风险界。②传统的Minimax准则过于悲观,因为它要求只考虑最差者的最好表现,大数据时代应该有新的准则代替之。③传统的收敛速度几乎没有信息。这是因为在大数据时代下它无助于窗框的选择。总之,现有的方法不能解释为什么某些方法有效,某些方法表现较差。因此,需要研发适应于大数据的有效回归分析法。 (二)大数据时代下统计学研究框架的构建 总体研究框架见表1。 1.大数据统计学理论与方法。 该研究的长远目标是在概率和统计方面发展用于科学推断的有用工具。传统的统计主要是聚焦于概率分布的指数族方面,例如20世纪70年代以来有关指数分布族的研究理论与方法,在像图模型和高维贝叶斯/频率计算中的复杂应用。该方向研究的内容包括图表的指数族、协变量信息的效应和使用频率Bootstrap计算贝叶斯推断分布。我们知道指数族包括了大部分已知的概率分布,因此指数族的结果有着非常广的应用。它们处于应用和理论统计的核心位置,而且在概率论方面的重要性也与日俱增。当然,还可以深入地研究非指数族分布族。该研究方向的目标是利用指数族结构来简化所涉及的庞大数据集的分析,利用Bootstrap方法研究大数据在概率和统计等方面的贝叶斯应用。 2.大数据吝啬建模。 研究大数据开发的数理及计算方法,如何自动地理解数据并减少其中的冗余信息。随着大数据的到来和不断变化,快速的线上算法被开发出来。大数据有多种多样的形式,由于数据庞大和多样化的应用以及针对大数据所开发的技术,这项研究一定会产生广泛的影响。大数据数理分析带来的挑战是学习优化;在线学习依赖任务的优化器会怎么做;开发计算效率高的算法去逼近未知优化器的理想表现。该研究方向是稀疏建模推广到新的领域和算法,使得这类技术可以应用于大数据,并且这些公式和理论基础将辅以大量的实际应用。 3.巨型分布系统的大数据建模分析。 众所周知,目前千万兆平台可以进行大规模的模拟和以前所未有的速度生成大量的数据,这些速度预计将增加到亿亿兆平台速度。当大量数据记录是遍布分布内存系统的大量节点上时,即使是一个小数目的比较也可能会是高代价的,甚至是不可能的。因此,需要新方法来分析大规模的科学数据集。这一方向的工作目标是开发一种变革性的分析方法,在目前的千万亿兆系统和未来的亿亿兆系统上,以分布方式对大型科学数据集进行建模,包括设计编码属性的新算法,通过利用空间降维技术,以并行的方式把编码属性嵌入分布式数据中;通过使用分布式模式,设计出对这些属性进行聚类和分类的新算法;研发各种不同数据集的算法以及对新兴存储技术上的结果表现和准确性进行算法的调试。 4.大数据统计分析下有效的并行迭代蒙特卡罗法。 先进的计算机技术与科学和日常生活的结合使得大数据的收集成为可能。为分析这些数据,可能要借助于并行和分布结构体系。尽管并行和分布结构体系呈现出存储和处理大数据的新功能,但是从推断的角度来看,目前尚不清楚如何把现行的统计方法运用到大数据的模式中。而且日益增长的数据量下随之而来的是需要日趋复杂的数据结构和模型来加以解释说明。虽然迭代蒙特卡罗算法已被证明对于分析复杂结构的数据是非常强大、并且通常是独特的计算工具,但是它们对于大数据分析并不是可行的,因为这需要大量的迭代,而且每一次迭代都需要对整个数据集进行完整扫描。该研究致力于提出一个通用理论来发展蒙特卡罗算法使其适用于大数据,并且对于并行和分布结构也是可行的。也就是说,用从并列的子样本中计算出的蒙特卡罗平均值来近似最初需要从完整数据集中计算得出的这些量。这一理论避免了在算法迭代中对完整数据重复扫描,同时能使该算法对于研究中的问题产生具有统计意义的解。该方向的目标是:①根据这一理论,研发并行随机逼近算法,解决大数据的参数估计问题,同时适用于分析观察值间是否相关的问题。②研发平行MH算法,对大数据进行贝叶斯分析。③研发平行蒙特卡罗EM算法,用于含有缺失数据的大数据的参数估计。④基于流行的分裂和征服算法思想,提出并行MCMC算法对大数据进行贝叶斯分析。 5.大数据中巨大矩阵的统计模拟与推断。 科学技术的进步使得以相对较低的成本来收集和存储大数据成为现实,大范围的科学研究产生了海量数据。通常我们获取观测值的能力超过从中提取有用信息的能力,这为该研究提供了动力。该研究的子方向为研发协方差矩阵、波动率矩阵、密度矩阵等相关矩阵方面的统计理论、方法,该研究有助于理解大数据对科学研究和知识发现产生的深刻影响,推动对大矩阵最先进的统计理解,而且将促进不同科学领域的进步及其数字化。 6.大数据中大张量数据挖掘理论、算法。 数学上张量是矩阵的多维推广,因此可以有非数值的元素。许多重要的应用中出现极端大和稀疏耦合的张量。对这些耦合张量的有效分析需要研发新的算法和相关的软件,能够识别不同张量模式之间的核心关系和极大数据集规模。这一方向的目标之一就是发展关于耦合稀疏和低秩张量因子分解的理论和算法,并且开发相关的可扩展的软件工具包,使得这样的分析成为可能。研究内容包括:研究耦合张量因子分解的新理论,运用完善的潜变量模型重建研究多向压缩传感方法进行降维,及处理缺失值、噪声输入和耦合数据的方法。其次研究现代架构上的算法和可量测性。最后,评估这些耦合张量分解算法的有效性。 7.大数据的功能传送预测工具。 没有先验信息的时间序列数据数据源建模方法不但适用于地球空间现象,而且适用于许多自然和社会现象。在地球空间下,动态模型可以产生数据启用的预测工具。该研究的另一个方面是量化系统的扰动性,通过一种新的波动分析技术,产生改进的波动指数。应对动态行为进行建模、预测、预报以及表征描述。该数据功能预测工具可以处理大型数据集,以提取基本特性,预测趋势以及量化预测能力。 8.大数据的应用。 应用大数据技术着重探讨行政记录、商业记录以及社交网络产生的不同形式的大数据在政府统计中应用的可能性和应用领域,探究大数据对政府统计工作流程、统计生产方式的影响。各地区和相关部门应用大数据的做法、经验、问题和解决方案,围绕大数据技术的应用,提出改进政府统计工作的有关建议。政府统计如何厘清可能的数据来源、范围及其分类,制定或调整相应的统计标准,以及如何保证依靠非传统数据源加工生产的统计数据规范、标准、真实、准确。 四、结束语 首先,由于大数据方面的研究是最近兴起的,所以相关的国内外研究成果不多。本文的重点之一就是大范围搜集、整理国内外研究中有关大数据的研究成果,分析研究大数据的概念、特点和范围;探究大数据处理技术的起源、现状及未来发展趋势;研究如何在政府统计中应用大数据理论、方法,要做好哪些相关硬件、软件方面的技术准备,在搜集、处理和存储技术方面要有哪些改进,以及如何在统计信息化管理工作模式上进行创新,等等。 其次,高维多元复杂大数据分析在文献中没有先例可循,在高维计算、应用方面,鞍点逼近方法、复合似然逼近方法等在逼近边际函数、尾部密度或分布函数、极大似然估计、高维条件分布等方面虽然有了一些较好的研究成果,但是由于鞍点逼近需要的数学背景很强,迄今为止,这些方法在极值理论、风险管理、血液学、艾滋病以及重大稀有疾病的案例控制等方面尚处于起步阶段。我们的先期工作表明:有时利用鞍点逼近方法可以解决常规方法难以解决甚至无法解决的问题,因此有关该方向的研究有重大的实用价值。这一方向的研究综合运用了概率论、数理统计、流行病学、复分析等学科的知识,将鞍点逼近方法与流行病风险研究、金融风险管理研究以及整合分析研究有机结合起来。当然难度较大,价值较大,国际上有关这方面的研究也刚刚起步。 再次,如何有效构建大数据下使用蒙特卡洛子样本平均来近似原本需要从完整数据集中计算得出的这些量的一般理论 最后,如何运用以上理论,研究基于子抽样逼近的并行随机逼近算法,用来解决大数据的参数估计问题,同时该算法也适用于分析观察值间是否相关的问题;研究基于子抽样逼近的平行MH算法,对大数据进行贝叶斯分析,以及基于子抽样逼近的平行蒙特卡罗EM算法,用于含有缺失数据的大数据的参数估计问题;基于流行的分裂和征服算法思想,提出并行MCMC算法对大数据进行贝叶斯分析。 本文提出的在大数据下使用蒙特卡洛子样本平均来近似原本需要从完整数据集中计算得出的这些量的理论,提供了如何将目前的统计方法移迁到大数据范式下的通用策略。在这一理论下,提出了几个基于子样在逼近并行迭代蒙特卡罗算法,用这些算法着重解决大数据分析的核心问题:怎样对大数据做有统计意义的分析同时又要避免重复扫描完整数据集?这将产生更广泛的影响,因为大数据无处不在,几乎贯穿了科学和技术的所有领域。标签:大数据论文; 空间数据论文; 统计学论文; 空间分析论文; 统计模型论文; 协变量论文; 数据建模论文; 似然函数论文; 建模软件论文; 时间膨胀论文; 重构论文; 数据分析论文;