基于腾讯位置大数据的精细尺度人口空间化
——以南京市江宁区秣陵街道为例
吴 中 元,许 捍 卫*,胡 钟 敏
(河海大学地球科学与工程学院,江苏 南京 211100)
摘要: 精细尺度的人口空间化研究成为当前GIS领域研究的热点。已有的人口空间化方法大多针对区域或城市尺度进行研究,少有对街道、社区甚至住宅小区的亚城市单元人口的研究。该文以南京市江宁区秣陵街道为例,基于腾讯位置大数据,结合人口统计数据、建筑物空间属性数据和住宅小区边界数据,提出了基于腾讯位置大数据的人口空间化方法和住宅小区级别的精细尺度人口估算方法。研究结果表明,该方法在住宅小区空间尺度下的估算结果与实际人口的线性拟合R 2达到0.9494,结果可信度较高,可为今后精细尺度人口空间化研究提供参考。
关键词: 腾讯位置大数据;人口格网;居住空间数据;人口估算模型
0 引言
长期以来,人口估算研究多以区域或城市为基本地理单元,政府发布的人口普查数据一般以行政区为统计单元[1],但以行政单元为边界统计人口数据存在尺度较大、耗费人力物力和周期较长等缺点。随着经济社会的发展,越来越多的亚城市单元以及城市内部的社会问题不断出现,对人口空间分布精细化表达的需求逐渐增加,因此,精细尺度人口空间化逐渐成为地理学的研究热点[2]。人口空间化指人口统计数据与其他影响人口分布因素相结合,以影响因素为自变量,以人口统计数据为因变量建立多元回归模型,实现区域人口统计数据在格网或其他边界内的分配[3]。传统人口空间化方法一般是以土地利用类型、居住单元建筑的面积和层数等数据作为自变量,以人口统计数据作为因变量,建立人口估算模型[4,5],但这些研究多针对较大空间尺度,对亚城市单元,特别是小区级别的人口估算还不成熟。
随着互联网的发展,越来越多的人使用手机地图定位服务(如微信、QQ和腾讯地图等)来满足日常生活需求。世界各地每天将产生数以千亿级的用户位置数据,这些数据能较为准确地反映用户使用地图定位服务的时间、地点和定位次数等。目前基于腾讯位置大数据的研究成果如下:卢佳[6]利用腾讯位置大数据分析了我国四大典型城市群的空间联系格局特征;王贤文等[7]使用腾讯人口流动大数据研究了京津冀短期人口迁移的趋势;于丙辰等[8]基于腾讯区域热力图庐山风景区位置定位数据对庐山风景区客流进行了研究,发现腾讯位置数据与人流量之间存在相关性。
为了迎合当前社会经济发展趋势,紧跟社会地理学研究的步伐,利用新的社交网络数据进行城市内部精细尺度的人口空间化研究具有重要意义。因此,本文提出基于腾讯位置大数据的精细尺度人口估算方法:即先利用腾讯位置大数据与人口统计数据间的相关性建立数学模型,获得较小尺度的人口格网;再建立居住空间属性和人口格网的数学模型,获得格网内部小区级别的估算人口,实现对亚城市单元,尤其是小区级别人口估算方法的突破。
1 研究区概况和数据来源
1.1 研究区概况
南京市是江苏省省会,国务院批复确定的中国东部地区重要的中心城市、全国重要的科研教育基地和综合交通枢纽,经济发达。南京市下辖11个区县,常住人口超过800万人,全市平均人口密度超过1 000人/km2。秣陵街道位于南京市江宁区中部,是江宁区的核心区和经济中心,面积185.3 km2,常住人口18.2万人,下辖21个社区、4个村[9],经济发展较迅速,经济水平在全市排名前十,但存在局部发展不平衡现象:北部经济发达,人口较多,南部经济发展缓慢,人口较少,南北人口分布差异较大。针对该街道进行研究,兼顾了人口稠密和稀疏两种情况,更有代表意义。
1.2 数据来源
1.2.1 腾讯位置大数据 位置服务(LBS)是指网络运营商通过外部定位方式获取使用者的位置信息。随着社交网络的快速发展,LBS技术逐渐得到推广和应用,腾讯位置服务便是LBS的典型应用之一。目前已有诸多产品调用了腾讯的位置服务,如QQ、微信、腾讯地图和美团打车等。每当用户使用一次腾讯产品的定位服务,比如用QQ或微信发送一次位置、使用一次美团打车或腾讯地图,就会产生一次用户位置的定位数据,由此产生腾讯位置大数据。目前,腾讯位置大数据日均获取全球定位次数已超550亿,覆盖人数超过8亿,覆盖率达70%以上,且每隔一秒全球范围内便会更新一次定位数据。腾讯位置大数据具有用户量多、时空分辨率高且与人们生活息息相关等优势,广泛应用于城市间人口流动、城市空间联系模式和人口分布研究中。
腾讯位置大数据采集网址为https://heat.qq.com,本文利用Python爬虫技术采集了南京市2016年1月15-25日的腾讯位置大数据,数据行数总计约30亿行,共有时间、纬度、经度及定位次数4个字段,数据精度为1 km×1 km。根据当地居民生活习惯,白天在家中的人群占比较少,为了提高估算小区人口数量的精确性,本文利用Pandas库筛选出21:00-24:00的用户定位数据。
1.2.2 辅助数据 本文所需辅助数据包括:1)南京市及其街道级行政边界数据、秣陵街道住宅小区内建筑物底面矢量数据、建筑物楼层数据和秣陵街道社区边界数据,由南京市国土资源局提供;2)秣陵街道住宅小区边界数据,利用Python爬虫技术对高德地图进行数据抓取;3)南京市街道级常住人口数据,源于南京市各街道社区2016年度统计年鉴。
2 基于腾讯位置大数据的人口空间化
2.1 格网尺度人口空间化模型构建
式中:GridPeo i 、Loc i 分别为第i 个格网的估算人口数和腾讯地图定位次数;a 、b 为比例系数;c 为街道尺度下腾讯定位次数和统计人口数拟合的截距;n i 表示第i 个格网所在街道总共包含的格网数。
比如德国。2004年开始的全国读书日活动,在每年11月举行。志愿者们在幼儿园、学校、图书馆,甚至火车和市区步行街上,为别人朗读书籍。如今,全国读书日已成为德国最大的读书节日,以此为荣的志愿者充满激情地捧书朗读,极大地推动了全民的读书热情,并带动了孩子们进入书中的奇妙世界。
多规合一项目协调生成阶段包含的选址决策过程,是结合各类项目的用地性质、用地面积、选址偏好等具体要求,从全面、科学、协调发展的视角,并揉和候选地块的空间分布及城市规划学、地理学、社会经济学、工程学等多学科知识,灵活设定各类项目选址评估模板,为后续选址方案的综合评估、协同审批提供基础[13-14]。基于“多规合一”的共享数据与冲突检测服务,采用WebGIS、ArcSDE 数据管理、SOA 服务、多规管控分析等技术开发规划选址辅助决策系统,在选址规划符合性自动检查基础上,实现选址优化多层次因子灵活组合与权重设置功能,直接服务于国土规划审批业务的项目选址决策。
虽然国内外对于使用腾讯位置大数据进行人口空间化的研究成果不多,但基于其他社会感知数据的研究常采用多元线性回归[15]和多项式回归[16]构建人口空间化模型。因此,在前人对人口空间化研究模型达成共识的基础上,结合腾讯位置大数据的特点选择模型。为得到合适的人口估算模型,本文选取部分样本数据预先进行实验,结果发现,腾讯定位次数与人口数据具有很强的相关性,且多项式回归中的二次多项式回归模型曲线拟合程度最佳,即区域i 内的腾讯地图定位次数总和与该区域内统计人口数之间可用一个二次多项式进行拟合:
式中:Peo i 、Loc i 分别为区域i 内的常住人口数和腾讯地图定位总次数;a 、b 为比例系数;c 为截距;e 为误差。
(1)
基于产学研融合的宽带无线通信课程教学模式研究………………………………冀保峰,陈苏丹,郑国强,等(68)
二次方程的截距是由街道级别样本腾讯地图定位次数和统计人口数拟合产生的,这个常数项包含了街道样本中所有格网的总体贡献,如果将模型的尺度降低到格网尺度,还需对街道尺度下的截距进行处理。对于降尺度后截距的处理,最简单的方式是将街道尺度回归方程中的常数项转换为格网尺度的平均值[3],因此,本文提出1 km×1 km格网尺度下人口估算模型为:
(2)
利用腾讯位置大数据与行政区人口统计数据间的相关性建立数学模型,从而实现由行政区到1 km×1 km格网的人口空间化。目前,国内外研究人口空间化的方法大都使用统计模型法,其基本思路是:利用与人口分布相关的影响因子与人口统计数据之间的关系建立数学模型,通过将这些已知因子引入模型,从而完成对人口统计数据的空间化。目前已经被证明与人口分布相关的影响因子有居住单元空间属性、影像像元特征和社会感知数据等。例如,夜间灯光辐射值与人口数量之间呈显著相关[10,11],微博签到数据与城市人口活动特征有联系[12,13],还有学者利用地图POI对城市休闲空间特征[14]和人口空间化[15]进行了研究等。
3.2.1 秣陵街道人口估算格网纠正 格网尺度人口估算模型中,二次方程的截距是由街道样本中所有格网共同贡献的,将截距除以街道内格网总数,即视为每个格网对截距的贡献相同。但对研究区秣陵街道而言,南北差异较大,北部住宅用地较多,人口分布集中,腾讯地图定位次数也较大,南部则相反。如果将人口估算模型的截距平均分给每个格网,则会导致秣陵街道南部的部分格网人口估算值偏大,而北部的部分格网人口估算值偏小。为避免该问题,提出基于腾讯位置大数据人口估算格网的纠正模型:不再认为二次方程的截距是街道内所有格网的平均贡献,而是根据定位次数来分配,即定位次数高的格网对截距的贡献较大,定位次数低的格网对截距的贡献较小。其数学模型为:
2.2 格网尺度人口空间化模拟
本文利用ArcMap软件将腾讯位置大数据与南京市各个街道进行叠加分析,计算出每个街道行政界线内的定位次数总和,并对各个行政区的定位次数和统计人口数进行回归分析,建立街道尺度人口估算模型。经实验得知,街道样本的二次项比例系数a 为0.01,一次项比例系数b 为0.1925,截距c 为40 354。将以上参数输入到式(2)中并应用于每个格网,从而获得南京市1 km×1 km的人口估算格网图(图1),成功实现了由街道尺度常住人口向1 km×1 km格网尺度估算人口的转变。
图 1南京市 1 km×1 km人口估算格网
Fig .1 Estimated population in grid of 1km ×1 km in Nanjing
基于腾讯位置大数据的人口空间化结果显示,南京市估算常住人口数为705.1万人,平均人口密度为1 175人/km2,而统计的常住人口数为724.2万人,平均人口密度为1 213人/km2,二者一致性较高。
2.3 模型精度验证
为验证基于腾讯位置大数据进行人口空间化结果的有效性,本文统计了各街道范围内估算格网的人口数,并对各街道估算人口数与统计人口数进行线性拟合(图2),格网级人口估算数据在街道范围内的汇总和街道级常住人口统计数据拟合为线性关系,且比例系数为0.9039,R 2为0.743,可见基于腾讯位置大数据的人口空间化结果总体精度较高。
图 2人口分布格网与常住人口在街道尺度的回归分析
Fig .2 Regression analysis of population distribution grid and resident population at subdistrict scale
3 基于住宅小区级别的精细尺度人口估算
3.1 精细尺度人口估算模型构建
式中:P i 为第i 个格网的估算总人口;Area ij 、NOF ij 分别为第i 个格网内第j 个居住单元的建筑斑块占地面积和建筑物层数;a 、b 为模型系数。
2)第2顺序位为进口靠集装箱港区的船舶。但在同一班次中,如果既有靠泊LNG或油品码头的船舶,又有靠泊洋山港四期的船舶,可先安排靠泊洋山港四期的船舶在LNG船舶或大型油船之前进港。这主要是由于洋山港四期距离LNG码头和油品码头分别达6 n mile和7 n mile,避免等候时间过长。
GE其他特有技术还包括应用Z.Plex*专利的深层过滤技术、压力式超滤膜组件、工业反渗透设备和E-Cell去电离子技术(EDI)。
(3)
利用基于建筑物的居住空间属性和前文得到的南京市1 km×1 km人口估算格网数据的相关性建立精细尺度人口估算数学模型,估算出格网内部住宅小区级别的人口数量。传统的居住单元法认为研究区内居住单元的数量与人数之间具有线性关系,已有研究也认为精细尺度下影响人口分布的最优因子是建筑物体积[17,18],因此,本文假设居住单元的建筑体积与人数具有一定的正相关,建立如下模型:
3.2 精细尺度人口估算模拟
四组患者围手术期资料见表2。典型病例见图1。手术时间由A组至D组依次减少,A组的手术时间明显长于B、C、D组,差异有统计学意义(P<0.05),而B、C、D组间比较,差异无统计学意义(P>0.05)。术中失血量由A组至D组依次减少,A组的术中失血量明显多于B、C、D组,差异有统计学意义(P<0.05),而B、C、D组间比较,差异无统计学意义(P>0.05)。
(4)
式中:GridPeo i 、Loc i 分别为第i 个格网的估算人口数和腾讯地图定位次数;a 、b 为比例系数;c 为截距;SumLoc 为街道内所有格网的定位次数总和。
在资格认定结束后,申请人仍可提交随时间推移而额外获得的研究数据,从而对COU进行扩展[9]。例如,药效学生物标志物一般用于药物研发早期,但是随着时间的推移和数据的搜集,药效学生物标志物将有机会演变成为替代终点。
将秣陵街道格网级定位次数带入式(4),可得该区1 km×1 km格网尺度人口估算结果(图3)。从图3可以看出,估算的秣陵街道人口呈现北多南少的分布特征,与实际人口分布情况一致,从而验证了纠正后的秣陵街道人口空间化模型较为准确。
3.2.2 秣陵街道住宅小区级别人口估算 传统的精细尺度人口估算基本以街道为建模控制单元,但本文的研究区已经是街道级别,仍以街道为建模控制单元显然不合适,因此,选取基于腾讯位置大数据估算得到的1 km×1 km人口格网为建模控制单元,且认为同一街道内人均居住空间属性相似(即式(3)的模型系数a 是一个常数),夜晚无居住建筑物则无人口分布(即模型系数b =0),从而确定小区级人口估算模型为:
图 3秣陵街道人口估算格网
Fig .3 Estimated population grid of Moling Subdistrict
(5)
式中:P i 、n 分别为第i 个小区的估算人口数及包含的居住建筑物数量。
因此,确定模型的系数a 是本实验的重点所在。首先需要选择建模样本。考虑到秣陵街道内有许多不属于住宅用地的高校,学生多且夜间手机使用率较高,所以样本选择时尽量避开高校,选择包含住宅小区的格网,最终共选取了54个1 km×1 km格网作为建模样本。然后,分别计算这54个格网内居住建筑物的占地面积与楼层数的乘积,并将其估算人口与对应格网的建筑体积进行回归分析,发现二者存在线性相关且模型比例系数a 为0.021。之后,将获得的参数及每栋建筑物的占地面积和楼层数的乘积代入式(5)中,则得到建筑物尺度人口空间分布的细节信息。最后,基于秣陵街道小区边界数据,统计各小区内建筑物的居住空间属性,即建筑物斑块占地面积与楼层数的乘积,带入式(5)中,则得到秣陵街道小区级别的人口分布(图4,彩图见封2)。
图 4秣陵街道住宅小区尺度估算人口分布
Fig .4 Estimation of population distribution in the residential community of Moling Subdistrict
3.3 模型精度验证
秣陵街道共有210个小区,为验证本文精细尺度人口估算模型的有效性,还需抽样调查一些小区。小区类别分为别墅区、多层住宅、高层住宅以及含有商业区的住宅小区,由于别墅区的人均居住面积偏大,在同时使用式(5)的情况下,别墅区的估算人口会大于真实人口数,故在选择样本时,不同类型的小区要按其所占比例选择。同时,为了保证抽样小区在空间上随机性离散分布,通过 ArcMap软件对其进行空间自相关分析,根据Moran′s I 筛选符合离散分布特征的小区。最终,实地抽样调查得到30个小区人口总数量,将其与小区级人口估算数量进行线性拟合(图5),可以看出,基于居住空间属性数据的小区级人口空间化估算结果与实地调查结果为线性拟合关系,且比例系数为0.9957,R 2为0.9494,总体精度较高。
图 5模型估算人口与实地调查人口在小区尺度上的回归分析
Fig .5 Regression analysis of estimated population and field survey population at residential community scale
4 结论
本文利用腾讯位置大数据与人口统计数据之间的相关性建立格网级别人口空间化模型,通过实验得到南京市1 km×1 km人口分布格网,精度评价结果表明,格网人口估算精度较高;根据居住空间属性数据和得到的人口格网数据之间的相关性建立小区级别人口空间化模型,实现了格网内部小区级人口空间化并得到秣陵街道住宅小区的人口分布数据。相较于传统的常住人口数据统计方法,该模型具有以下优点:1)降低了人口数据获取的难度,且一定程度上提升了自动化水平;2)由于腾讯位置大数据是实时更新,所以利用该模型能实时反映城市人口分布的变化情况;3)选取反映居住空间属性的建筑物斑块占地面积和楼层数为主要影响因子,建立精细尺度人口估算模型,估算的人口与实地调查人口的线性拟合R 2为0.9494,估算结果可信度较高。
本文提出的基于腾讯位置大数据的精细尺度人口空间化对人口分布模型有一定贡献,但目前研究仍存在以下不足:1)由于计算机存储能力有限,本文只获取了10天的腾讯位置大数据,时间跨度较短,会给结果带来一定误差。2)在基于居住空间属性进行格网内部人口空间化的过程中,仅以居住建筑物斑块占地面积和楼层数为影响因子进行建模,尚不够全面,今后可以增加建筑物户型、建筑物公摊面积、建筑物住房空置率等影响因子,使得人口估算结果更为准确。
参考文献:
[1] 田野.基于高分辨率遥感数据的城市人口空间化研究[D].北京:中国科学院大学(中国科学院遥感与数字地球研究所),2017.
[2] 马钰琪,朱秀芳,刘宪锋,等.基于夜间灯光数据和多地理因子数据的人口空间化方法——以辽宁省为例[J].北京师范大学学报(自然科学版),2015,51(S1):57-61.
[3] 黄益修.基于夜间灯光遥感影像和社会感知数据的人口空间化研究[D].上海:华东师范大学,2016.
[4] 董南,杨小唤,蔡红艳.基于居住空间属性的人口数据空间化方法研究[J].地理科学进展,2016,35(11):1317-1328.
[5] 毛莹莹.城市人口数据空间化研究[D].福州:福建师范大学,2016.
[6] 卢佳.基于腾讯位置大数据的四大城市群内部空间联系格局特征研究[A].中国城市规划学会、东莞市人民政府.持续发展理性规划——2017中国城市规划年会论文集(05城市规划新技术应用)[C].2017.10.
[7] 王贤文,王虹茵,李清纯.基于地理位置大数据的京津冀城市群短期人口流动研究[J].大连理工大学学报(社会科学版),2017,38(2):105-113.
[8] 于丙辰,陈刚.基于腾讯区域热力图的庐山核心景区客流研究[J].国土与自然资源研究,2017(2):83-89.
[9] 《江宁年鉴(2016)》编纂委员会.江宁年鉴[Z].北京:方志出版社,2016.
[10] ZENG C Q,ZHOU Y,WANG S X,et al.Population spatialization in China based on night-time imagery and land use data[J].International Journal of Remote Sensing,2011,32(24):9599-9620.
[11] WEI Y,LIU H X,SONG W,et al.Normalization of time series DMSP-OLS nighttime light images for urban growth analysis with pseudo invariant features[J].Landscape & Urban Planning,2014,128(128):1-13.
[12] 陈名娇.基于微博数据的深圳市居民生活空间研究[D].深圳:深圳大学,2017.
[13] 张腾.基于微博签到数据的主题公园游客时空行为研究[D].上海:上海师范大学,2017.
[14] 徐冬,黄震方,吕龙,等.基于POI挖掘的城市休闲旅游空间特征研究——以南京为例[J].地理与地理信息科学,2018,34(1):59-64.
[15] 淳锦,张新长,黄健锋,等.基于POI数据的人口分布格网化方法研究[J].地理与地理信息科学,2018,34(4):83-89.
[16] 卓莉,陈晋,史培军,等.基于夜间灯光数据的中国人口密度模拟[J].地理学报,2005,60(2):266-276.
[17] 卓莉,黄信锐,陶海燕,等.基于多智能体模型与建筑物信息的高空间分辨率人口分布模拟[J].地理研究,2014,33(3):520-531.
[18] DONG P,RAMESH S,NEPALI A.Evaluation of small-area population estimation using LiDAR,Landsat TM and parcel data[J].International Journal of Remote Sensing,2010,31(21):5571-5586.
Fine -Scale Population Spatialization Based on Tencent Location Big Data :A Case Study of Moling Subdistrict ,Jiangning District ,Nanjing
WU Zhong-yuan,XU Han-wei,HU Zhong-min
(College of Earth Sciences and Engineering ,Hohai University ,Nanjing 211100 ,China )
Abstract : With the rapid development of GIS technology,research about the fine-scale population distribution has been paid more and more attention in the GIS field.Most of the existing methods of population spatialization focus on regional or urban scales,while few sub-city populations such as subdistricts,communities,and even residential communities are studied.Taking the Moling Subdistrict in Jiangning District of Nanjing as an example,this paper proposes a population spatialization method and a fine-scale population estimation of residential level based on Tencent location big data,which combined with census data,the bottom of the study area and the number of layers and the boundary data of the residential area of the study area.A linear relationship is obtained between the estimated population by this method and the actual population at the spatial scale of the residential area with the linear correlation coefficient (R 2) of 0.9494.The results show that the reliability of the estimation results is high,which can provide a reference value for the future research of fine-scale population spatialization.
Key words : Tencent location big data;population grid;residential space data;population estimation model
中图分类号: K901.3
文献标识码: A
文章编号: 1672-0504(2019)06-0061-05
收稿日期: 2018-12-05;修回日期: 2019-05-03
基金项目: 国家自然科学基金项目(41101374)
作者简介: 吴中元(1993-),男,硕士研究生,主要从事人文地理研究。
*通讯作者 E-mail:xuhanwei@hhu.edu.cn
doi :10.3969/j .issn .1672-0504.2019.06.010
标签:腾讯位置大数据论文; 人口格网论文; 居住空间数据论文; 人口估算模型论文; 河海大学地球科学与工程学院论文;