大数据统计应用的实践与思考
□褚英国 阮圣健
本文阐述了大数据在统计工作中应用的历史机遇,总结了大数据在统计工作中的应用实践,分析了大数据统计应用面临的困难,提出了树立大数据思维,实现理念创新;健全工作机制,加强人才培养;上下多管齐下,跨越数据鸿沟;推进模型研究,明确应用方向;建立统一平台,全省统筹协调;突破传统模式,完善统计体系等推进大数据统计应用的具体建议。
大数据时代的到来,为统计工作现代化建设提供了新的技术和思维方式,对推进统计工作转型,提升统计数据生产和服务水平带来了机遇。研究大数据在统计中的应用成为统计应对社会变革和创新的重要途径,如何利用好大数据服务统计改革发展,推动统计工作数字化转型,是摆在统计部门面前的新课题、新机遇,也是新挑战。
大数据统计应用的机遇
(一)大数据统计应用是国内外大数据技术应用的时代选择
2010年,欧盟发起“欧洲数字化议程”,开放最原始数据,鼓励数据开发与应用。2012年,美国推出大数据国家发展计划,鼓励多方合作推进技术创新,为大数据提供最根本的支持。同年,联合国推出“数据脉动”计划。2013年,日本推出以大数据为核心的新IT国家战略。2015年,国务院发布《促进大数据发展行动纲要》,提出全面推进大数据发展和应用,加快建设数据强国。2018年政府工作报告明确指出要深入推动大数据广泛应用。随着国内外大数据基础设施建设的完善,大数据技术架构的成熟,以人工智能、智慧城市等为代表应用的落地,DT时代已来临,大数据技术应用必然迎来井喷之势。
(二)大数据统计应用是提高政府治理能力的战略选择
据IDC预测,2020年全球拥有的数据量将比2011年增长近20倍,近2年产生的数据总量相当于人类有史以来所有数据量的总和。在此背景下引发的问题复杂性与不确定性使得政府治理难以再单纯依靠经验解决,从问题的界定、原因分析、政策制定与执行,都需要大数据来支撑,要用数据说话。习总书记在中央政治局国家大数据战略第二次集体学习会上指出:要运用大数据提升国家治理现代化水平,要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高效化,提高对风险的感知、预测、防范能力。
(三)大数据统计应用是统计自身改革发展的必然选择
统计是经济社会发展重要的基础性工作,是宏观调控的重要依据。近年来,统计数据质量问题层出不穷,十九大报告明确指出要完善统计体制,党和国家领导同志多次对统计工作作出重要指示:要顺应时代潮流,以更加开放的态度拥抱大数据,积极推动大数据技术与现代统计的深度融合,运用大数据思维实现统计业务流程再造,提升统计数据生产效率,提高数据资源开发利用水平,丰富统计产品和成果,为宏观调控和科学决策提供更加及时优质的统计服务。《统计法实施条例》明确提出“推进大数据在统计工作中的应用,满足经济社会发展需要”。国家统计局落实党的十九大关于完善统计体制重要部署工作方案中提出“加快建立基于大数据云计算广泛应用的统计生产方式”。
式中,w/c是初始水灰比;α是反应程度;VHD和VLD分别是高密度和低密度C-S-H体积分数,由方程(17)知,两类C-S-H凝胶的体积分数与水灰比和水化程度密切相关。
大数据统计应用的实践
(一)浙江省统计局大数据统计应用情况
太阳能制冷系统设备具有手动调试和自动运行两种工作模式。设备上电后触摸屏进入调试模式,用于调试系统中所有电机的状态是否正常,是否按照要求运行。待所有电机调试完成后,方可进入到自动运行模式,开始运行集热系统和制冷系统,利用太阳能进行制冷。
大数据统计应用的本质是数据分析和挖掘数据价值,这就需要大量的数据分析师。不仅需要掌握数学、计算机等知识,而且也需要掌握统计、经济、政府治理、公共服务等知识。当前社会上具备单一知识结构的人才相对不少,但具备复合知识结构的人才不多,在统计部门工作的复合型人才更少。统计部门针对各级统计干部进行大数据相关知识的系统培训较少,统计干部的知识结构和综合素质还难以适应大数据时代统计改革发展的要求。
(二)市县统计局大数据统计应用情况
那日本军官立即起身,抽出军刀就劈砍过来。张满春一个闪身,军刀劈在了那张红木的梳妆台上。当那日本军官拔出军刀准备再劈时,张满春沉静地指指他的胸口说,我的是来救你的,她的有毒,大大的有毒。张满春又指了指吓得缩成一团的沈小小。那日本军官听后就把军刀悬在了半空,也跟着别扭地念叨:有毒?有毒?一双眼疑惑地盯着张满春。张满春快步走过去,几下就解开了沈小小的上衣。张满春一眼瞧见沈小小的双乳已肿胀得像两个硕大的肉球。日本军官吓得连退几步,嘴里念叨着:有毒!有毒!掉头就去找沈老七的姨太太了。
(三)国家统计局和其他省大数据统计应用情况
2017年,国家统计局与贵州省签署《共办大数据统计学院战略合作协议》,2018年举办以“大数据新统计”为主题的大数据统计论坛,并成立大数据统计学院,培养大数据统计创新型高端人才,促进大数据与统计深度融合。2018年,国家统计局成立“人口统计大数据实验室”,利用大数据探索开展人口统计。全面推进部门数据在全国第四次经济普查中的应用。制定《大数据应用工作方案》,强化大数据在统计工作中的运用。2016年,青海省统计局成立旅游大数据研究课题组,制定《大数据在旅游人次数统计中的应用方案》,推进旅游大数据统计工作。2017年,四川省统计局成立大数据中心,推进统计大数据分析利用。2018年,北京市统计局与北京腾云天下科技有限公司合作,推进利用智能终端大数据进行人口动态监测,实现北京市及京津冀人口的流动情况分析,为北京市疏解非首都功能、京津冀协同发展提供参考。2018年,海南省统计局正式启动海南“统计大数据”建设,充分挖掘数据资源,打造海南统计大数据平台。
大数据统计应用面临的困难
(一)大数据思维的形成并非一蹴而就
大数据的本质不在于大,而在于其蕴含的大数据思维,核心是全面思维和相关性思维。全面思维就是从样本分析掌握全局转向分析相关的、几乎所有的数据来掌握全局,统计数据从少量、静态、单一的样本数据转变为海量、动态、多样的“全体数据”,从而更全面分析经济形势。相关性思维是系统而非孤立分析数据、分析事物间的内在联系。树立大数据思维之于统计工作,就是要突破原有做法,将全面思维、相关性思维运用到统计方法制度设计、业务流程再造、管理机制完善等方面。
(二)大数据资源的获取并非易事
书法不象其他艺术形式具有提示、象征具体客观生活和自然本质的能力,它只运用了艺术表现介质的基底的形式——线条,所谓一之画。因此,它所表现的也应是生活基底的形式——人类灵魂基底的形式——时空情绪。或者说,作为人类生活、灵魂的基底形式的时空情绪如用基底的艺术形式线条表现出来就是书法。作为生命的自由境界,时空情绪是个体和类的栖身之所,是灵魂、心性自由生存之所。在这个意义上说,书法是人类生存状态基底的展示形式,也是最原始、最高级、最一般、最单纯、最充分、最自由的展示形式。
(三)大数据统计应用落地屈指可数
模型是能否让大数据在统计工作中真正落地发挥作用的关键。不考虑以传统数据分析为主的广义大数据统计应用,由于大数据资源有限,真正意义上的大数据统计应用模型主要集中在利用通信运营商的移动信令数据建模进行人口、旅游、交通等方面的监测,利用电商平台数据建模进行电子商务监测,以及利用其他政府部门数据建模进行数据质量评估。同时,受统计制度限制,针对特定对象制定的统计报表中有许多指标无法从其他大数据中取得,限制了大数据在统计工作应用的范围,即使有了一些大数据应用的成果,也只是作为验证传统调查结果准确性的辅助手段,未能发挥大数据真正的内在价值。
2016年初,浙江省统计局成立促进大数据发展实施计划领导小组及办公室,正式部署大数据统计应用工作。与浙江移动合作开展人口及就业移动大数据合作,研究全省及各市县(区、市)人口、都市区及其核心城区八大产业就业人口的变化趋势、性别比例、年龄结构。与省商务厅、中津研究院合作,利用爬虫技术探索获取全国主要电子商务交易数据,反映全省电子商务总量规模、结构、发展趋势。与阿里巴巴合作,测算全省及分市县未在库卖家零售额。依托省政府公共数据交换平台,启动《浙江统计数字化应用平台》建设,形成省市县三级跨专业、跨部门数据共享机制,推进内部数据跨专业利用、外部数据跨部门利用。利用省政府“多证合一”平台数据审核企业基础信息,让“数据跑路”代替“群众跑腿”,为“一套表”调查单位审核提供更为准确的基础库。获取税务部门基层数据进行统计数据质量评估。
近年来,各市统计局积极开展大数据统计应用探索,并取得一定效果。杭州积极利用税务部门数据评估统计数据质量,开展跨境电子商务统计。宁波市县两级利用电力数据进行经济形势和耗能情况比对分析,利用税务数据进行相关单位营业收入核查。温州研发行业分类智能编码系统,实现行业代码智能编码和编码词条库实时学习更新,应用于全国基本单位名录库管理、四经普单位清查比对与普查,显著提高了全国行业编码的效率和准确性。嘉兴与阿里学院、高校开展合作,调查企业、住户等电子商务活动参与者的基本特征与发展态势。衢州与移动公司合作开展城镇化人口动态监测。义乌建设了电子商务大数据应用统计平台,利用爬虫技术抓取电商成交额,分析解读义乌市电子商务成交额、主要销售产品类型。
(四)大数据人才队伍建设滞后
管理因素作为影响植物生长的人为因素,具有很强的变异性。在管理过程中,应注重总结实践经验。根据当地育苗特点,选择土壤酸碱度、肥力、含水量等进行播种。在造林后期,要加强植物的季节性管理,及时进行病虫害防治。
一方面,随着互联网和移动互联网的快速发展,阿里巴巴、腾讯、百度、京东等国内大型互联网公司拥有大量的社会化大数据资源,这些公司都将数据作为其核心资产加以保护,在国家没有相关法律法规明确约束的前提下,省及以下统计部门很难取得全量数据并加以分析利用。利用网络爬虫技术抓取数据存在法律风险并且易受反爬虫技术干扰。这些都制约社会化大数据的获取与利用。另一方面,其他政府部门的电子政务数据,统计部门主要依靠各地政府主导的数据资源共享机制获取,目前尚处起步阶段,政府统一归集的数据资源还不足以完全满足统计工作的需要。
推进大数据统计应用的对策
(一)树立大数据思维,实现理念创新
传统统计思维主要体现在自上而下实证统计理论为基础的统计理论制度,以层层汇总上报的全面统计和局部样本来描述与推测总体的抽样调查方法为主,数据采集基本靠人为采集。大数据技术通过各种客观设备与系统直接、无意识地获取全面数据,更加准确、客观、全面反映社会经济发展情况。这是一种科学认识现实世界和分析判断事物发展规律的全新方法,必然导致统计制度的颠覆性改革。而统计系统长期实施实证统计理论的普查、全面统计、抽样调查,思维上很难快速发生转变,最终体现在制度方法、业务流程、管理机制等改革上举步维艰。
(二)健全工作机制,加强人才培养
进一步完善业务部门主导、技术部门保障的工作格局,定期开展大数据统计应用工作交流,建立大数据统计应用模型研究专班机制。对已明确的应用方向,建立项目专班,投入力量推进应用落地。注重培养与引进具有大数据思维、统计专业知识、信息技术技能、经济知识、数据分析能力等复合型人才。加强跨专业、跨领域间干部的交流,组织数据分析、深度挖掘等大数据相关的知识培训,组织CDA数据分析师认证培训考试,打造一支大数据统计应用的专门队伍。
(三)上下多管齐下,跨越数据鸿沟
法律法规层面上,建议国家统计局协调相关部门尽快完善相关法律法规,在保证数据安全、个人隐私、商业秘密的前提下,明确大数据公司有义务向国家提供其所拥有的所有数据资源。全国性社会化大数据层面上,建议国家统计局协调国家部委和行业主管部门或直接与BAT、通信运营商、物流平台、网银公司等大数据公司开展大数据合作,及时获取大数据公司的数据并返回各省使用。政府部门大数据层面上,充分依托各地政府统一建立的公共数据交换平台,推动跨部门的数据共享,鼓励各专业根据业务需要申请使用平台已有其他部门数据资源,建议政府加快拓展平台数据广度和深度。
(四)推进模型研究,明确应用方向
开展利用大数据推进统计调查和统计分析现代化的大数据统计应用模型研究,充分利用统计系统、高校、社会科研机构、大数据企业等力量,探索确定可落地操作的应用模型,厘清大数据内容、大数据频率、大数据来源等关键要素。应用模型成熟后,探索建立具体大数据统计制度,使用大数据直接进行统计数据生产。充分利用税务、市场监管等部门以及大数据企业数据,对工业、能源、投资、贸易、服务业、人口就业、社会科技等专业数据进行核实、比对和评估,提高统计数据质量。基于大数据应用的智能化、精准化统计分析服务,提高统计服务党委政府决策的精准度。积极推进各级统计部门创新思路、试点试验,在实践中探索、积累、总结、推广。
(五)建立统一平台,全省统筹协调
构建全省统一的、数据深度挖掘的统计监测分析系统为核心的《浙江统计数字化应用平台》,部署全省统一的R、SPSS等专业数据分析软件,充分利用平台归集的数据,定制大数据统计应用分析模型,加强经济运行实时分析、经济发展质量评价、经济指标预测和分析研判,实现大数据统计应用模型的积累与分享以及低门槛可视化操作。坚持“平台上移、服务下延”的理念,全省一盘棋,统一规划、统筹推进、整体协调,杜绝重复建设、无序发展,鼓励各地在统一框架下积极探索大数据统计应用建设。
(六)突破传统模式,完善统计体系
在大数据统计应用发展到一定程度,应积极推进完善统计体系。一是统计方法完善。逐步取消层层上报的全面统计报表制度,依托大数据改进周期性普查和抽样调查制度,建立大数据统计制度,重构统计内容、对象等制度内涵。二是统计流程完善。统计数据处理流程从以层层上报的“调查对象->统计部门”模式为主向“调查对象->大数据企业->统计部门”、“调查对象->部门统计->统计部门”等模式与其并重转变。三是统计职能完善。大数据时代,大数据企业、各行业主管部门都是大数据的主要直接生产者,统计部门要强化在数据管理、发布、使用上的职能,加强对大数据企业、部门统计的统计管理职能,真正实现从做统计到既做又管统计的转变。
作者单位:浙江省统计局