大数据在社会科学领域的应用探讨
——基于POI 大数据的案例
巫细波
(广州市社会科学院 广东 广州 510410)
【内容摘要】 随着网络信息技术在各领域的深入发展与应用,社会科学领域的数据类型和数量快速增长,尽管绝大部分社会科学领域的数据量很难达到T B 级,但传统基于文件型的数据存储和处理方法已无法适用,需要借助数据库技术和方法。本文以粤港澳大湾区的496 万个POI(Point of Interest)数据的存储与分析处理为例,结合PostgreSQL开源数据库探讨社会科学大数据的处理与应用方法。本文通过研究认为:单机数据库系统能胜任绝大部分社会科学领域的大数据应用,不需要大规模的分布式数据库;PostgreSQL数据库免费、易于适用、性能强大等特点使得非常易于社科研究人员使用;POI大数据也将随着网络地图服务的深入发展成为一种重要的社会科学研究数据;根据POI大数据的空间核密度分析可以发现粤港澳大湾区城市空间呈现高度集聚、多中心、等级化及功能空间连片化特征。
【关 键 词】 大数据 POI 数据 开源数据库PostgreSQL粤港澳大湾区
随着信息化、网络化、智能化及物联化的深入发展,各领域每时每刻都在产生大量数据,有别于传统的数据,大数据具有5V(Volume、Velocity、Variety、Value、Veracity)特点[1],即数据量大、数据生成及处理速度快、数据类型多样、价值密度较低、数据准确和可信赖。近年来,大数据已经引起了国内外学者的广泛关注和研究,在迈尔-舍恩伯格和库克耶合著的《“大数据”时代:生活、工作与思维方式的大变革》中指出大数据正在深刻改变经济生活的各领域[2],这本论著掀起了国内外大数据研究热潮并成为许多学科的热点与主流[3][4][5],朱建平对大数据的分析理念进行了深入辨析[6],张庆熊(2015)、李天柱(2018)、周良发(2018)等学者则专门讨论了大数据在人文社会科学领域的应用及发展趋势[7][8][9][10]。随着网络地图服务的快速兴起和普及,POI 这种具有地理坐标度信息的数据逐渐成为一种社科研究的重要数据类型。POI 数据是人口、土地、经济、社会等城市主要要素相互作用的综合体现,集地理位置信息和功能分类信息于一体,与传统数据相比较还具有规模大、覆盖广、类别多、易获取、更新速度快等优点,越来越得到用户认可和青睐,也日益引起研究人员的重视[11][12][13]。与传统基于城市用地类型划分的城市功能结构研究不同,通过POI 数据识别和分析复杂多变的城市功能空间结构可大量节省实地调研的时间,而且能够从宏观、中观及微观多种尺度对城市空间结构开展分析,使得研究结果也显得更为精细。一般而言,一个城市的POI 数据类型多样而且数量非常庞大,以广州为例,根据从高德地图抓取的POI 数据量达到128 万条(数据抓取时间为2017年7 月份),常用的Excel、Access、Stata、SPSS 等软件难以直接处理这么大量的数据,必须借助数据库进行存储和处理。对于大部分科研人员而言,免费而且功能足够的强大的开源数据库成为必然选择,常用的开源数据软件主要包括MySQL、PostgreSQL、SQLite 等,与商业数据库相比还有一些差距(见表1)。本文以粤港澳大湾区的496 万个POI 数据的存储与分析处理为例,结合PostgreSQL开源数据库探讨社会科学大数据的处理与应用方法,同时采用空间核密度方法分析粤港澳大湾区城市空间结构现状并总结其特征。
全息技术的发展史不过短短半个世纪,现代数字全息投影技术的发展也才三十余年,但是已经在社会各行各业取得了不俗的成就。将全息技术运用于军事测绘导航领域虽然还处于探索阶段,但是其效果已经凸现出来。未来的战争必定是高技术条件下的信息化战争,全息投影技术也必将是其中不可或缺的部分。可以预见,在不久的将来,随着科技的发展,理论的完善,全息投影技术必将在军事测绘导航方面的发展潜力将是无可估量的。
表1 主流数据库优缺点对比
一、研究数据与方法
(一)研究数据
POI 数据。一种能够代表真实地理实体的点状数据,一般包含点要素的名称、类别、经纬度、电话、所在省市以及地址等基本信息,POI中的坐标数据一般为WGS84 地理投影坐标,涉及距离、面积等空间统计分析需要将地理坐标转换为地图投影坐标。本文采用的POI 数据通过第三方网络数据爬虫工具从高德地图开放平台获取,数据获取时间为2017 年8 月。借助POI 数据之所以能够对城市空间结构开展研究关键在于每个POI 都是城市物质空间中实际存在的一个点,大量POI 集聚分布在空间上形成连片区域,能够反映城市功能空间布局特点,同时POI 数据还包括社会空间的各种属性信息,而城市空间结构研究根据研究目的和对象的不同可以分为城市物质空间和城市社会空间的研究,因而借助POI 数据可以同时从物质空间和社会空间两个维度研究城市空间结构的演化规律和各子系统的相互作用机制。高德地图POI 原始数据共包含汽车销售、餐饮服务购物服务、生活服务、体育休闲服务、医疗保健服务、住宿服务、风景名胜、商务住宅、政府机构及社会团体、科教文化服务、交通设施服务、金融保险服务、公司企业、道路附属设施、地名地址信息、公共设施等23 大类数据类型,本文根据研究目标选取其中的19 类POI 数据展开分析,以粤港澳大湾区范围内的广州、深圳、香港、佛山、澳门、惠州、肇庆、江门、东莞、中山、珠海等11 个地区的POI 数据为研究对象,POI 数据总量接近500 万条(具体见表2)。限于篇幅限制,本文只对所有POI 数据展开总体分析,不对7 大细分类型展开分析。
表2 粤港澳大湾区七类POI 数据情况
(二)研究方法
1.大数据分析方法
由于采用数量庞大的POI 数据对粤港澳大湾区城市空间结构展开分析,传统基于Excel、TXT、CSV 等文件系统的数据处理和分析方法已不可能胜任,必须借助大数据分析方法。大数据是一类复杂且庞大的数据集合,传统的基于文件系统的数据管理工具或者应用已经无法胜任其数据的处理工作,必须采用单机数据库系统或者分布式网络数据库进行高效率存储和数据传输,为各种数据分析提供强大的基本支撑。本文的POI 数据为500万条级别,可以采用单机数据库系统进行,本文采用PostgreSQL 数据库系统(版本为10.4),作为免费而且功能强大的关系型数据库系统,非常适合用于社科研究人员开展各类基于大型数据的科学研究。
由于PostgreSQL 数据库本身的空间统计与空间分析功能很弱,需要将POI 数据需要转换才能够为地理信息软件处理(如ArcGIS、QGIS、MapGIS等地理信息软件)。本文主要采用核密度方法,因此需要将POI 数据转换为地图投影坐标下的地理空间数据并用ArcGIS 进行核密度分析。
2.数据分类及合并
公式(1)中,(fx)为空间位置x 处的核密度计算函数;h 为距离衰减阈值,可以是固定值,也可以根据样本进行计算或者是动态值,还可以根据点要素的属性值进行加权计算;n 为与位置x 的距离小于或等于h 的要素点数(如果采用加权方法,此处n 则为要素属性值的总数);k 函数则表示空间权重函数,一般是距离衰减函数。核密度计算公式的几何意义为密度值在每个核心要素ci 处最大,并且在远离ci 过程中不断降低,直至与核心ci 的距离达到阈值h 时核密度值降为0。本文采用ArcGIS 软件进行核密度计算,不采用加权处理,h值会根据样本特征进行自动计算。核密度分析方法会产生栅格数据,为显示不同区域POI 数据密度差异需要对栅格数据进行分组分级,本文主要采用Jenks 自然断裂法进行分组统计并显示。
二、基于开源数据库的大数据处理方法及步骤
(一)大数据分析基本流程
术中严密观察患者意识状态,重视患者主观感觉。根据患者症状及时发现问题,采取合理措施,防止危险发生。如果患者自述疼痛,需要寻找原因,如果是心理因素造成,要针对性给予安慰,尽量减少外界因素对疼痛判断的影响。患者情绪紧张会降低痛阈,对周围环境变化不适应也会增加敏感性,护理人员需要与其交流,缓解其紧张情绪,指导其进行放松,使疼痛症状减轻。巡回护士应加强观察、监测病人的生命体征,台上护士配合术者检查有无盆腔出血、穿刺点出血。
图1 大数据分析流程示意图
(二)数据处理步骤
1.数据导入
数据库数据导入方式一般包括使用SQL 命令、数据库API 编程及图形化工具等三种方式,图形化工具比较适合社科领域研究人员采用,如果数据不规整需要整理则采用编程方式比较合适。本文使用的POI 数据为CSV 格式,这种格式数据可以用PostgreSQL 内置的“copy”命令导入,效率高,适合熟悉SQL 语法的研究人员;还可以利用PostgreSQL 内置的pgAdmin 可视化工具导入,步骤简单而且支持中文,适合大部分社科领域的研究人员,本文也采用这种方式。此外,还可以借助Navicat 等第三方数据库管理工具导入,可视化操作更加方便,但一般第三方软件需要付费。如果需要反复进行大规模的地理空间查询和分析,可直接借助PostgreSQL 的空间扩展模块PostGIS 将POI 数据中的地理坐标信息存储为Geometry 数据类型。
一种将离散数据进行空间平滑处理形成连续分布密度图的方法,能够有效地分析出离散数据的空间分布特征和趋势,其计算公式如下:
由于POI 数据源于地图导航领域,其分类方式需要根据研究目的对数据进行多次分类整理,在不删除原数据的情况下可采用视图方式对数据进行分类检索。本文以分析粤港澳大湾区城市空间结构为例,因此根据商业、产业、生活居住、政务办公、科教文化、休闲、交通等7 大类对POI 数据进行分类合并处理,如果需要数据交换还可以将分类合并后的每一类POI 保存为视图也可以导出为CSV 格式数据,方便下一步分析。这里对不同区域不同类型POI 数据进行分类统计(见表3),每一次查询都非常快,如果用以往基于文件系统的数据查询方式,基本不可能实现。
表3 粤港澳大湾区各类型PO I 情况
4.数据制图
大数据的分析主要涉及到数据管理和结构支撑、开发模型和评测、可视化和用户接口、商业模型等几个方面,分析流程一般包括数据源、数据管理、数据建模和数据结果分析及可视化(见图1)。大数据分析过程中最耗时和耗力的环节就是数据的准备阶段,因此分析大规模的数据时必须考虑到数据存储、过滤、移植和检索的效率。此外,选择何种数据库也是必须考虑的重要问题,主要考虑应用场景、数据量及存储方式、多用户管理和并发性等问题。总体而言,开源数据库的功能也越来越强大,可以满足绝大部分科研需求。以流行的开源数据库为例,MySQL 易用性较强,主要应用于网络应用;SQLite 则主要应用于数据较小、嵌入式终端而且不需要多用户并发访问数据的场景;PostgreSQL 支持完整的SQL 标准、社区活跃、更新持续而且对空间数据和空间计算支持较好,综合而言非常适合社科人员使用,尤其适用于本文要处理的POI 数据。
2.空间核密度分析方法
3.数据分析
POI 数据可以通过多种地理信息软件进行制图,一般情况下地理制图需要包括地图内容及地图附件(指北针、比例尺、图例等)。本文采用核密度方法对POI 大数据进行分析,其结果为栅格类型的图并结合粤港澳大湾区行政边界矢量数据进行显示,可以非常清晰地展示POI 数据的空间密度分布情况。
三、基于POI 大数据的案例分析
限于篇幅限制,本文仅对粤港澳大湾区地区所有类型的POI 进行总体核密度分析,研究探讨粤港澳大湾区各城市空间结构的总体空间布局特征,不单独对7 大细分类型POI 展开分析。总体上看,相对于基于传统统计数据的方法,基于POI 大数据的分析能够更加清晰准确地识别出粤港澳大湾区城市空间结构的网络化、多中心及空间连片化特征。
(一)城市功能空间整体上呈现高度集聚特征
总体上看,粤港澳大湾区绝大部分POI 分布于珠江两岸,其中东岸POI 数量明显大于西岸,外围区域POI 数量较少而且集聚规模较小。从地区分布看,广州和深圳两地的POI 数量最多而且较为接近,占比均超过了20%,分别达到23.44%和21.39%。采用ArcGIS 软件对粤港澳大湾区所有类型POI 进行核密度分析,结果显示:广州、深圳两大城市主城区均形成了大规模的高密度集聚区,香港九龙、东莞莞城、佛山禅城则形成了次级高密度集聚区,惠州惠阳、珠海香洲、广州花都及番禺、中山石岐、江门蓬江、肇庆端州等区域侧形成更小规模的集聚区(见图2)。
广州、深圳、香港三大城市主城区是粤港澳大湾区城市空间的三大中心,各类城市功能POI均呈现高度集聚特征,对七类城市功能空间POI的数据分析均支持这一论断,三大中心在不同领域具有比较优势。其中,广州在政务办公、科教文化、商业、交通等方面占有数量优势,是大湾区政治、文化、商业及交通功能空间的主要核心;深圳在产业、科技创新等城市功能空间占有相对优势,成为大湾区新兴信息技术产业及产业科技创新的核心引擎;香港则在国际化功能空间、高等级科研空间等方面具有相对优势,是目前大湾区迈向全球化的重要窗口。
图2 粤港澳大湾区PO I 数据核密度分析
(二)多中心城市空间结构特征明显
在大数据环境下,智慧城市的建设和正常运行维护需要具备有效的产业模式,各地方政府要充分了解当前各智慧城市的发展实际,进而合理地引入市场机制,合理地规划产业布局来拓展投资渠道。除此之外,各政府还要采取有效的措施加大企业信息化的力度,把新乡企业的发展作为智慧城市建设的首要任务,从而开放公共数据资源和运营权,最终实现信息企业服务运营的目的。在大数据时代,只有进一步建立以政府主导、社会资本以及企业投资为重要渠道的多元投资体系,才能促使各产业在相互作用的情况下,形成一种多元化新型经济产业的形态[4]。
矿物Zeta电位测试采用Malvern Zetasizer Nano ZS90仪器完成。测试时频率为500 Hz,持续时间为100 s,取20 mg矿物于玛瑙研钵上细磨至-2 μm,再将矿物移至烧杯中并加入40 mL蒸馏水,加入HCl或NaOH调节矿浆pH后加入与质量浓度为2%的活化剂和捕收剂,用磁力搅拌器充分搅拌,待静置后取上层悬浮液于样品池,置于仪器中进行测定,每个试验测定3次,取平均值作为试验结果。
(三)城市空间等级化和网络化特征显著
粤港澳大湾区城市空间以广州、深圳、香港三大城市主城区为中心,借助完善的公路、铁路、水运及航空立体化交通网络,大湾区其他城市围绕这三个中心周围形成等级化、网络化特征明显的城市空间结构,整个大湾区城市空间结构主从关系明确,核心城市突出,居于主导地位。其中,佛山禅城、东莞莞城、珠海香洲、中山石岐、江门蓬江、肇庆端州、广州花都及番禺等区域形成大湾区次级中心区。东莞虎门及长安、惠州惠东、博罗及惠东、佛山三水及高明、广州从化及增城、肇庆四会及高要、中山小榄与古镇、珠海斗门等区域则形成三级中心城市;大湾区外围区域则围绕县域中心形成各类POI 小规模集聚区,成为大湾区城市网络结构体系的重要节点城市,三大层次城市通过实体交通网络与虚拟信息网络形成体系层次分明、等级化、网络化特征显著的城市空间结构。
(四)城市功能空间连片化特征明显
随着珠三角城市一体化进程不断深入发展,大湾区内部各城市之间的各类经济活动与人员往来日益频繁,各类城市功能空间POI 不但在各自城市行政边界内部形成POI 连片高密度集聚区,也逐渐突破城市行政边界制约,促使各类城市功能空间POI 在城市之间也逐渐形成了连片化高密度集聚区,这种高密度连片化特征在生活居住空间、交通空间及产业空间等方面显得尤为明显,如广佛、深莞之间的居住空间POI 连片化特征非常明显。
施工管理工作往往多以施工进度、施工材料、施工人员、现场安全等方面的管理工作为主,涉及到的内容众多且繁杂,需要相关管理人员必须具备良好的职业素养与专业知识,贯彻与落实好现场施工管理责任,最大限度地确保现场施工安全。立足于当前现状来看,我国电网改造事业虽然得到全面发展,但是在实际发展过程中,配电工程存在的现场管理问题逐渐显现出来,比较影响现场施工质量安全[2]。
结语
随着物联网及智能化时代的到来,社会科学领域的数据类型及数量快速增长,传统基于文件型的数据存储和处理方法已无法适用,常用的Excel、Access、Stata、SPSS 等软件难以直接处理这么大量的数据,必须借助数据库进行存储和处理。对于大部分科研人员而言,免费而且功能足够的强大的开源数据库成为必然选择。本文以粤港澳大湾区的496 万个POI 数据的存储与分析处理为例,结合PostgreSQL 开源数据库探讨社会科学大数据的处理与应用方法。通过研究发现:PostgreSQL 数据库免费、易于适用、性能强大等特点使得非常易于社科研究人员使用,单机数据库系统能够轻松应付百万级数据量;POI 大数据也将随着网络地图服务的深入发展成为一种重要的社会科学研究数据;根据POI 大数据的空间核密度分析可以发现粤港澳大湾区城市空间呈现高度集聚、多中心、等级化及功能空间连片化特征。如果数据量进一步增加以及需要整合跨网络数据源,基于单机数据库的大数据处理方法则需要更新改进,必须借助基于云计算的大数据方法,这有待下一步的研究探讨。
我怕面试迟到,于是提前一个小时从家里出门。走到贝勒库尔广场时,天开始下起雨来,我跑到皇家饭店的大堂里躲雨。我可不希望到服装店里的时候,头发是湿淋淋的。我对饭店的门卫谎称自己是饭店的顾客,向他借了一把雨伞。到了格罗雷大街四号,他们让我在一间宽敞的房间里等着。房间里装饰着灰色的细木护壁板,门窗都用同样颜色的丝绸窗帘遮掩着。一排被镀成金色的木椅摆放在墙边,座椅的软垫包裹着红色的天鹅绒。半个钟头过去了,我猜想自己已经被他们遗忘了。
参考文献:
[1]黄欣荣.大数据的语义、特征与本质[J].长沙理工大学学报(社会科学版),2015,30(06).
[2]Viktor Mayer-Schonberger,Cukier K.Big Data:A RevolutionThat Will Transform How We Live,Work and Think.Boston:Houghton Mifflin Harcourt,2013.
[3]柴彦威,龙瀛,申悦.大数据在中国智慧城市规划中的应用探索.国际城市规划,2014,29(6).
[4]甄峰,秦萧,席广亮.信息时代的地理学与人文地理学创新.地理科学,2015,35(1).
[5]梁吉业,冯晨娇,宋鹏.大数据相关分析综述[J].计算机学报,2016,39(01).
[6]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(02).
[7]崔晓晖. 大数据在人文社科中的应用研究[N]. 社会科学报,2015-08-27(003).
[8]张庆熊.大数据时代社会科学方法论探讨[J].社会科学,2018(09).
[9]李天柱,王倩.人文社会科学领域大数据研究趋势测度:国内外比较[J].自然辩证法研究,2018,34(04).
[10]周良发,潘红.社会科学普及研究进展的大数据分析与思考[J].运城学院学报,2018,36(01).
[11]陈蔚珊,柳林,梁育填.基于PO I 数据的广州零售商业中心热点识别与业态集聚特征分析[J].地理研究,2016,35(04).
[12]池娇,焦利民,董婷,谷岩岩,马雅兰.基于PO I 数据的城市功能区定量识别及其可视化[J]. 测绘地理信息,2016,41(02).
[13]孙厚权,万黎明.基于大数据的社会风险治理探微[J].理论月刊,2016(12).
[14]杨琳,高洪美,宋俊典,张绍华.大数据环境下的数据治理框架研究及应用[J].计算机应用与软件,2017,34(04).
中图分类号: C3;T P392
文献标识码: A
文章编号: 1007-9106(2019)05-0070-05
* 本文为2015 年“基于大数据的人口流动流量、流向新变化研究”(课题编号:15B R K037)的阶段成果。
*作者简介: 巫细波(1983—),男,广州市社会科学院副经济学研究员,主要领域:区域经济、地理信息与空间计量方法应用。
(责任编辑:潘维永)
标签:大数据论文; POI数据论文; 开源数据库论文; PostgreSQL论文; 粤港澳大湾区论文; 广州市社会科学院论文;