Python 在统计数据处理中的应用
胡前防 连鹏伟 陈乾坤/ 文
摘要 大数据为政府统计工作带来了机遇和挑战,统计大数据应用目前已进入推进实施阶段,但现有统计数据处理平台不能较好地满足大数据应用的需要。 本文通过使用Python 对农业普查大数据进行挖掘分析和数据可视化,探索Python 在统计数据处理中的应用。
关键词: 统计;数据处理;Python
一、引言
为深入贯彻落实党的十九大关于“完善统计体制”重要部署和中央《关于深化统计管理体制改革提高统计数据真实性的意见》,积极落实《国务院关于印发促进大数据发展行动纲要的通知》,努力适应大数据的蓬勃发展给统计工作带来的机遇和挑战,创新统计工作方式,提高统计工作效率,强化大数据在统计工作中的运用,加快构建新时代现代化统计调查体系,近期国家统计局制定了大数据应用工作方案并进行了安排部署。方案总体目标之一,是要运用云计算、大数据等信息技术和资源,在“四大工程”建设成果的基础上,改革完善统计业务流程,全力完善统计数据来源传统之轨。具体来讲,就是完善结构化数据的传统之轨,在不改变现有机构、人员和职责分工的前提下,整合普查、常规调查和专项调查等数据,打破专业壁垒和信息孤岛,实现数据共享和深度开发。其中重点项目包括:进一步挖掘普查数据应用的潜力,通过大数据处理技术整理普查原始数据,提高开发应用普查数据的能力。本文尝试利用Python 的特点和优势,对某地区农业普查数据进行挖掘分析和可视化场景实现,以此来展示Python 在统计数据处理中的应用效果。
二、传统统计数据处理系统的功能特点和不足
目前,企业一套表系统和大型普查数据处理系统是政府统计进行数据生产的两个主要平台,由国家或省级确定企业填报目录和填报报表制度,定期(月度、季度、年度)由企业联网直报数据,统计系统内人员进行审核、计算、汇总,生成综合数据。这两个统计数据处理系统的主要功能是数据采集、数据审核、数据汇总,为采集、处理、传输、公布传统统计数据发挥了不可替代的作用,但随着大数据处理技术的发展和传统统计数据资源深度开发的需要,发现其在整理计算加工、数据挖掘分析、可视化展示等方面存在先天薄弱和不足,迫切需要寻找能够弥补其功能短板的软件和工具。
三、Python 的特点和优势
统计界广泛使用的传统工具有SAS、SPSS、R 等,随着大数据时代的到来,Python 在大数据处理工作中脱颖而出。相比传统的统计工具,Python 的特点和优势更为突出:一是简单易学、普及程度高,国外出现了在义务教育阶段就开始教授Python的情况。全国普通高中2017 版“新课标”改革中,正式将人工智能、物联网、大数据处理划入新课标,意味着Python 在我国进入了高中教育。二是Python 在大数据处理性能方面与传统工具相比速度要快,可以直接加载处理上GB 大小的数据,而传统工具受限于性能原因则通常需要将大数据分割为数个小数据再进行处理。三是开源生态活跃、功能丰富。随着Python 扩展库不断发展壮大,Python 在科研、电子、政府、数据分析、web、金融、图像处理、AI 技术等各方面都有强大的类库、框架和解决方案。Python 拥有Matplotlib 及numPy 这样强大的绘图库和数值扩展,能帮助科研学术人员快速地进行可视化和数值分析。Python 提供的pandas 扩展库,包含了全套的统计函数和数据处理方法,可以高效处理海量数据矩阵,轻松地进行切片/ 切块、聚合、重采样等,其丰富的功能和强大的算法已经成为数据处理任务的首选解决方案。因此本文使用Python 及扩展库,对统计数据处理中的几个典型应用场景进行实现。
德兴市位于江西省的东北部,属乐安河中上游中低山区,山地面积约占总面积的82%。除市区及各国营矿区具有正规的自来水厂外,全市各乡镇和广大农村除少部分有自来水厂外,大部分直接从压水井、大口井及江、河、湖、塘、水库、山泉中取水饮用,均不同程度存在饮水安全问题,多数供水水质不符合GB 5749-85饮用水卫生标准。
四、Python 在统计数据处理中的应用场景实现
(一)环境准备
操作系统:Ubuntu 18.04.1 LTS
场景三:相关分析
(二)数据源准备
3.结果分析。从表2 看,规模种植小麦亩产均值502.68 公斤,高于农户467.88 公斤,高出7.4%;规模种植玉米亩产均值541.28公斤,高于农户518.51 公斤,高出4.4%;规模种植小麦亩产标准差73.46 公斤,低于农户93.92 公斤;规模种植玉米亩产标准差90.85 公斤,低于农户99.71 公斤。从图1 看,规模种植小麦亩产低奇异值占比1.94%,低于农户3.29%,规模种植玉米亩产低奇异值占比3.97%,低于农户4.70%。从以上分析可以得出结论:规模化种植是实现主要农作物高产、稳产的关键。这与目前该地区农业生产实际情况相契合。
(三)应用场景
我气冲冲地过去质问佟老板,为啥将我的鱼塘填了?佟老板不慌不忙,拿出张纸递到我面前。那是一份鱼塘终止承包期的合同。我说,没有我的签字,这合同是无效的。别以为我一个老农民好欺侮,电视上天天演“法制现场”节目哩。
数据预处理包括数据清洗、数据集成、数据变换和数据规约。数据清洗主要完成缺失值处理、异常值处理,数据集成是将多个数据源整合成一个,数据变换主要完成对数据进行规范化处理,比如函数计算、属性构造、规范量纲等,数据规约就是消除无效、错误数据的影响。本文使用Pandas 库加载平台导出的数据为DataFrame 类型对象进行数据切片、空值填充、无效值移除、灌溉率列计算、切片拼接整理,生成标准数据文件all.csv,结果见表1。
表1 标准数据文件all.csv
相关分析是研究变量之间是否存在某种依存关系,用计算相关系数来表达变量之间相关方向以及相关程度。常用的三种相关系数(pearson,spearman,kendall)反映的都是变量之间相关方向以及程度,其值范围为- 1 到+1,0 表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。由于spearman 相关系数没有某些数据条件的特别要求和限制,适用范围广,所以本文采用它来研究某地区主要农作物每亩产量与播种面积、每亩化肥用量、农药喷洒次数、是否机耕、灌溉率等变量的相关关系,并用雷达图直观地显示出来。
场景一:数据预处理
数据特征描述是对总体变量的有关数据进行统计性描述,主要包括频数分析、集中趋势分析、离散程度分析、分布以及图形可视化。利用频数分析可以检验异常值;通过数据集中趋势分析来反映数据的一般水平,常用的指标有平均值、中位数和众数等;利用数据的离散程度分析来反映数据之间的差异程度,常用的指标有方差和标准差。本文用箱体图的形式来表达数据,可以更清晰、直观地呈现总体数据特征。
1.数据准备。使用Pandas 库加载标准数据文件all.csv,按照小麦和玉米、农户和规模户两类分组,利用corrwith 函数计算每亩产量与播种面积以及其他几个变量的spearman 相关系数,计算结果见表3。
1.数据准备。使用Pandas 库加载标准数据文件all.csv,按照小麦和玉米、农户和规模户两类分组,使用describe 函数计算每亩产量的均值(mean)、标准差(std)、最大值(max)、最小值(min)、四分位值等数据,其中“低奇异值占比”是指低于中位数的奇异值个数占总数的百分比,计算结果见表2。
表2 主要农作物每亩产量(公斤)数据特征描述
2.可视化呈现。使用matplotlib.pyplot 中boxplot 方法绘制 箱体图如下(见图1):
图1 主要农作物每亩产量箱体图
登录农业普查数据处理平台,对某地区主要农作物(小麦、玉米)种植数据按照农户(播种面积<50 亩)、规模户(播种面积≥50 亩)区分进行自定义指标查询,指标包括:农作物代码、播种面积(亩)、平均每亩产量(公斤)、每亩化肥平均施用量(公斤)、农药喷洒次数、实际耕地面积(亩)、灌溉耕地面积(亩)、是否机耕。并将平台中的查询结果以csv 格式导出成数据文件guimo.csv 和danwei.csv。
由于直线电机牵引运载系统的特殊性,直线电机与感应板之间的垂直方向最大存在50 kN的相互吸力。在交变吸力的作用下,直线电机出现垂向吊杆橡胶关节老化,以及垂向吊杆断裂的现象,从而引起直线电机下沉,导致多起直线电机与感应板之间的接触碰撞发生,造成直线电机和感应板之间损伤,影响地铁线路的正常运营。在我国广州地铁4号线首次引进并成功运用了日本的直线电机牵引运载系统。为了实时在线监测气隙的变化,以及实现系统对超出限值自动报警,广州地铁集团有限公司与我国相关企业共同攻关,相继研发了广州地铁4、5、6号线直线电机气隙在线监测系统。
应用程序:Python- 3.6.5 Pandas- 0.24.2 Matplotlib- 3.1.0
场景二:数据特征描述
1.2.2 B超检查标准 受试者体回声出现于肠壁粘膜下方,呈现短条样或者线样回声于浆膜下。肠壁周围存在颗粒状或者点状高回声环绕。证实存在肠壁积气。如果在门静脉主干或者其他主要分支中出现串珠样以及气泡样高回声,证实为门静脉积气。
2. 可视化呈现。使用matplotlib.pyplot 中subplot(polar =True)方法来绘制雷达图如图2:
采用SPSS 22.0统计学软件对数据进行处理,计量资料以“±s”表示,采用t检验;计数资料以例数(n)表示,采用x2检验,以P<0.05为差异有统计学意义。
表3 主要农作物每亩产量相关分析
图2 每亩产量相关分析雷达图
3.结果分析。从图表来看,在规模种植的情况下,无论是小麦还是玉米,亩产与播种面积以及其他几个因素呈现微弱相关或者不相关(相关系数绝对值小于0.3 甚至接近0);在农户种植情况下,小麦亩产与播种面积以及其他几个因素的相关程度要高于玉米亩产;无论是小麦还是玉米、农户还是规模种植,亩产与是否机耕均不相关(相关系数绝对值接近0);在农户种植情况下,小麦亩产与灌溉率呈现显著相关关系(0.49),玉米亩产与灌溉率呈现低度相关关系(0.39),小麦亩产与农药喷洒次数呈现低度相关关系(0.34)。从以上分析可以得出结论:农户种植相对于规模种植,对种植资源(耕地、农药、化肥、农机、水利等)的关联程度较为明显,因此规模化种植是实现主要农作物高产与种植资源集约高效利用的关键。这与目前该地区农业生产实际情况相契合。
更多场景:对主要农作物亩产、化肥使用、农药喷洒进行强度分析,利用热力地图,按照对象代码的行政区划呈现区域分布;对所有种植户进行每亩产量、播种面积等多维度聚类分析,利用树状分类图,呈现某区域主要农作物种植情况等。
五、应用建议
Python 以简单易学、语言简洁、开发快速、可扩展性丰富等特点,使得进行大数据分析更加得心应手。另外,Python 具有胶水语言的特性,能够兼容绝大部分的编程语言环境,对于传统统计数据处理平台可以进行嵌入和对接。因此建议加大Python在统计数据处理中的推广应用:一是将大数据处理思想体现在传统统计的制度设计阶段,改进制度指标设置,有利于后期大数据分析挖掘应用;二是将大数据处理技术运用到传统统计数据采集过程,实时掌握数据的分布形态、数值大小及离散程度,及时发现问题并纠正错误,提高数据质量;三是加强大数据处理技术在统计数据挖掘分析和可视化展示方面的应用,构建面向政府统计系统开放的统计大数据源应用开发生态圈,营造应用示范效应。
“中国特色社会主义”是何时提出的?目前,绝大多数学者一致认为这一命题是在党的第十六次代表大会被正式提出和使用的,而邓小平在党的第十二次代表大会开幕词中的讲话则被普遍认为是中国特色社会主义内涵的首次铺垫。此后,党的历次代表大会均围绕“中国特色社会主义”的主题开展,并对其内涵进行不断的丰富与发展。
10.13999/j.cnki.scyj.2019.08.009
(作者单位:安阳市统计局数据管理中心)
标签:统计论文; 数据处理论文; Python论文; 安阳市统计局数据管理中心论文;