引入兴趣点的地理加权人口空间分布模型研究
——以天津市为例
李泽宇1,2,董春2
(1.辽宁工程技术大学,辽宁 阜新 123000;2.中国测绘科学研究院,北京 100036)
摘要: 针对传统方法解决城市内部人口空间分布问题的困难和不足,在分区建模基础上,提出了将兴趣点引入多元逐步、地理加权、混合地理加权方法,以天津市15区为实验区,进行模型验证。结果表明,兴趣点可以有效地反映人口空间分布现状,地理加权方法能更好地模拟人口的空间分布。
关键词: 人口;空间化;电子地图兴趣点;地理加权回归;混合地理加权回归
0 引言
探究城市内部人口空间差异是当前人口空间化研究的重要方向。现代社会,迅猛发展的测绘技术为空间化研究提供丰富的数据源。目前空间化模型众多,常用的空间化模型包括空间插值估计、多元回归[1]、核密度估计、多因素融合[2]、机器学习[3]等。建模要素从土地利用[4]、地形地貌[5]、河流水系、交通路网[6]、夜间灯光遥感[7]等传统数据,到LIDAR点云[8]、OSM[9]、手机信号[10]等数据。
社会经济和自然地理是影响人口空间分布的两大因素。兴趣点(point of interest,POI)是社会经济数据的一种,具有人口指示作用。目前,城市开展空间化研究多采用多因素融合方法,该方法能综合多方面要素,但以往研究缺少对城市内人口分布的区分。是否可以利用兴趣点结合城镇建设用地、农村居民点,对城市内部人口细化做出新的探索,值得研究。本文以天津市15区作为研究区(不包括滨海新区),引入电子地图兴趣点位数据,结合土地利用数据,对研究区采用分区建模。以电子地图兴趣点、城市基础设施作为分区标准,构建街道级别人口空间回归模型,生成人口1 km数据集,实现城市内部精细人口空间分布。
1 研究区概况与数据处理
1.1 研究区概况
天津市由中心城区、环城四区和远郊区县和滨海新区组成。中心城区包括和平区、河西区、河东区、南开区、红桥区、河北区,统称为市内六区。环城四区包括东丽区、西青区、津南区、北辰区。远郊区县包括宝坻区、武清区、蓟县、宁河区、静海区。全市人口分布不均匀,中心城区人口密集,经济发展迅速,地铁、公路等交通设施,超市、学校、医疗等服务机构完善,远郊区县人口稀少,基础设施薄弱。
1.2 数据来源与预处理
1)数据来源。
(1)电子地图兴趣点、城市公共基础线状设施。兴趣点包括学校、超市、地铁站、医院点位数据等,公共基础线状设施包括城市快速路、地铁线、水系、省道、乡镇街道等,空间分布如图1所示。
目前,高校医院缺乏明确的预算执行控制流程及有效的控制措施,缺乏事前和事中控制,仍以事后控制为主,没有建立有效的预警机制,预算编制与执行相脱节。大部分高校医院预算只编制到医院层面,没有进一步分解落实到各科室,对各科室没有任何控制措施,预算目标的实现得不到保障。
(4)乡镇街道行政边界,来自中国科学院资源环境科学数据中心,字段属性包含行政区划代码、行政区划名称等。
(3)ASTER-GDEM,来源于地理空间数据云,分辨率为30 m,经过拼接后裁剪出研究范围内的栅格数据。
三是构建完善的技术标准体系。政策设计超前、技术支撑滞后的现象并不鲜见。由于历史和认识的原因,技术标准建设远不适应新时代土地管理的需要。标准是一个尺度,是开展技术活动和进行行政管理的依据,构建完善的土地质量管理技术标准体系,是一项基础性、根本性的工作。
(2)土地利用数据,本文采用城镇建设用地和农村居民点作为人口影响因素。
(5)人口统计数据,2010年第六次人口普查数据。
图1 天津市兴趣点空间分布
2)预处理。
(1)数据类型有人口统计数据、栅格数据和矢量数据。矢量数据和栅格数据统一转换投影为CGCS2000_Albers,人口统计数据与乡镇街道区划名称进行关联,录入人口数量,并擦除水系面状要素。
(3)提取与人日常生活息息相关的兴趣点,例如超市、医院、学校等。
(2)计算街道几何中心与距离最近的地铁出入口的欧式距离作为地铁的要素属性。
1.3 技术路线
在对城市内部划分分区后,引入土地利用数据(城市建设用地、农村居民点)、省道、乡镇街道、兴趣点,进行多元逐步回归,对存在空间异质性的分区采用地理加权回归(geographically weighted regression,GWR)、混合地理加权回归(mixed geographically weighted regression,MGWR)方法,建立各分区的人口空间数据集。技术路线如图2所示。
图2 技术路线
2 研究方法
2.1 逐步回归
兴趣点是城市重要的人口指示因子,尤其是当今社会经济迅猛发展,交通路网不断完善,兴趣点点位、类型的时空分布的数量和密集程度分布极不均衡。以超市为例,超市的功能是满足百姓日常生活需求,具有随人口分布的性质。超市通常环居住小区开设,其规模一定程度能够反映人口的聚居程度和数量。人口与超市分布形成彼此吸引的关系。
2.2 地理加权回归
作者在小说“后记”里说,知青生活是一段沉淀着铁质的记忆,是青春纪念碑,是一笔超越价值的人生财富。而笔者认为,正因为历史不可复制,才需要文学作品对历史形象再现;正因为历史典籍是冰凉的,才需要文学作品有温度。《沱河记忆》正是一部生动感人的有温度的文学作品,代表了中原知青共同的历史追忆与缅怀。
i =1,2,……,n
(1)
式中:(u i ,v i )是第i 个采样点的坐标;β 0(u i ,v i )是第i 个采样点统计回归的常数项;β k (u i ,v i )是第i 个采样点上的第k 个回归系数;x ik 为第i 个采样点上第k 个变量;p 为某一采样点上参与回归的变量个数;
ε i ~N (0,σ 2),Cov(ε i ,ε j )=0(i ≠j )。
2.3 混合地理加权回归
OLS(ordinary least square,OLS)模型假设回归参数不随地理空间位置变化,而GWR模型假定所有回归参数都随地理空间变化。但在实际应用中,并不是所有参数都是随着地理位置发生变化,有些参数在空间上变化,有些参数在空间上是不变的,或者变化非常小,可以忽略不计。进一步改进模型为混合地理加权,混合地理加权中部分参数随着地理位置发生变化,成为变参数,其他不随空间位置发生变化的参数称为常参数。
(i =1,2,……,n )
(2)
3 实例验证
3.1 建模区划分及相关性分析
分区建模是提高人口空间模拟精度有效方法之一,其目的是将建模因素具有相似特征区域归并为同一分区,以便于统一建模,建模因素差异大的区域划分为不同分区,以凸显差异性。本文以街道为最小研究单元,依据土地利用空间分布、兴趣点密度疏密、地铁线、城市快速路进行分区,将天津15区划分为3个分区。第一类分区为中心城市区和环城四区中靠近中心城区的街道。该类分区土地利用类型无农村居民点,全部是城镇建设用地,兴趣点密集,商业发达,有地铁和快速道路。第二类分区为环城四区和远郊区县的中心城区的街道。该类分区有少量的农村居民点,以城镇建设用地为主,兴趣点比较密集,高于周边街道的集聚程度。第三类分区为其余街道。以农村居民点为主,农村居民点、兴趣点分散在各个街道,部分街道有少量城镇建设用地。
本文选取与人口密切相关的兴趣点要素:医院、学校、超市、地铁站;线状交通设施:省道、乡镇街道;承载人口的土地类型:城镇建设用地、农村居民点;地理要素:高程、坡度。利用SPSS计算各分区相关系数如表1所示。
我首先来到了教学楼前,拜访我的第一个朋友——香樟树。香樟树粗壮的树干上覆盖着厚厚的青苔,这些青苔都是从雨棚上淋下来的雨水滋润成的杰作,整个青苔毛茸茸的,像整齐而平滑的布,真想枕着头,贴着脸和它来一个亲密的接触。高大的树冠密密层层,把校园的一大块天都遮住了,这也是同学们最爱它的原因,每当夏季来临,同学们都爱在香樟树下躲阴,它就像一位温柔的母亲,细心呵护着每个孩子的安全。碧绿的枝叶耀眼而明亮。
地理加权回归模型是在普通线性回归模型的基础上,在回归参数中加入因变量的空间位置。地理加权自变量的回归参数是随着地理位置而变化,建立的是局部回归。在全局模型中加入地理位置的权重函数,使得模型参数在回归过程中不断变化。形式如式(1)所示:
表1 相关系数
多元逐步回归的思想是将自变量逐个引入模型,每引入一个自变量后都要进行F 检验,并对已经选入的自变量逐个进行t 检验,当原来引入的自变量由于后面自变量的引入变得不再显著时,则将其删除。确保每次引入新变量之前回归方程中只包含显著性变量。
第一种情况是以政策需要代替正当利益。《农村资金互助社管理暂行规定》和《关于小额贷款公司试点的指导意见》中明确把“改善农村地区金融服务”作为目标,这虽然在客观上有利于农村资金互助社和小额贷款公司设立、运行,一定程度上保护了融资主体的利益,但利益的保护本身不是目的,而只是实现政策目标的手段。也正因为如此,监管者对这些融资组织的准入进行严格限制,融资主体的正当利益保护不充分。
3.2 基于城市公共基础设施的多元逐步回归分析
基于上述对各个分区进行相关分析后,避免建模要素彼此冗余,假设同一分区内人口成均匀分布,以高程平均值、坡度平均值、城镇建设用地面积、农村居民点面积、各类兴趣点个数为自变量,街道人口常住数值为因变量,建立多元逐步回归模型,各类建模因素结果及分析如表2所示。
对多元逐步回归结果进行统计检验,结果如表3所示。调整R 2代表模型的拟合程度,第一分区拟合度为0.68,第二分区、第三分区拟合程度较高,均为0.83。联合F 统计量和Wald统计量要结合Koenker(BP)来检验模型的显著性。当Koenker(BP)不具显著性时,联合F 统计量才可信。当Koenker(BP)统计量具有显著性时,应参考Wald统计量确定模型显著性。第一分区和第二分区在95%置信度下,联合F 统计量p 值(概率)小于0.05,模型具有统计显著性。第三分区Koenker(BP)统计量具有显著性,对于95%置信度下,Wald统计量p 值(概率)小于0.05,模型具有统计显著性。此外,第三分区模型残差空间分布不呈现正态分布,存在空间非平稳态。
传统的产品开发人工管理模式下,大量与产品开发相关的数据散布于各个部门,量产部门想要全面获取与使用数据有一定难度。产品数据应用于不同形式的表格时,例如原料采购表、原料品质控制表、产品工艺参数表、生产工艺单往往都要由跟单人员重新核对数据进行制表,跟单环节容易出现对接错误,占用了大量的人力,造成开发周期不必要的延长。
表2 多元逐步回归
表3 多元逐步回归统计检验
3.3 地理加权回归
在对第三分区进行地理加权回归时,根据DIFF for Criterion大于零,说明农村居民点和超市不具备空间非平稳性,因此对该2个因素固定地理空间位置,采用混合地理加权建模,模型参数估计及参数检验如表5所示。对第一分区、第二分区的多元逐步回归结果和第三分区混合地理加权结果与1 km格网套合,生成天津市15区1 km人口格网数据集,如图3所示。
说金钱是罪恶,都在捞;说美女是祸水,都想要;说高处不胜寒,都在爬;说烟酒伤身体,都不戒;说天堂最美好,都不去!
表4 地理加权模型参数估计及参数检验
3.4 混合地理加权回归
由于第三分区存在空间异质性,对第三分区进行地理加权建模,以医院、学校、超市个数,城镇建设用地、农村居民点面积为自变量,以街道人口数量为因变量构建回归模型。利用GWR4软件,模型参数选用自适应的二次平方自适应空间核函数(bi-square)进行建模,选择黄金分割搜索程序进行带宽选取,以赤池信息量准则AIC(akaike information criterion)作为信息评价准则,模型参数估计及参数检验如表4所示。
表5 混合地理加权模型参数估计及参数检验
图3 天津市1 km人口格网
4 精度评价及精度影响因素
4.1 精度评价
从表6误差分段统计表来看,整体上误差分布较为合理,能够比较确切地反映实际情况。不可避免,由多元逐步回归结合混合地理加权回归方法模拟的人口空间分布数据与实有数据仍然存在误差,其中街道低估数量从整体上多于高估街道数量。低估区主要分布于郊区,例如武清农场、黄庄农场、红旗农场等,兴趣点数量较少或没有,土地利用种类单一,从客观上增加了模型低估的可能性。高估街道主要位于环城四区和远郊区县中的经济开发区、农业园区等,例如津南国家农业园区、东丽开发区、静海经济开发区等。该地区有一定数量的兴趣点和用于厂房建筑的城镇建设用地,但常住人较少,从客观上增加了模型高估的可能性。
表6 误差范围分段统计表
4.2 模型精度影响因素
为分析模拟人口与实际人口差异的原因,进一步观察发现,引起模型估算有误的原因大致有以下3个方面:①中心城区土地利用类型单一。天津市内六区范围内土地利用类型全部为城镇建设用地,难以区分住宅用地类型和商厦等商业用地类型。这使得将一部分人口分配到商业用地上,这也是造成第一分区模型误差的原因。②兴趣点采集范围不全面。兴趣点是电子地图兴起的衍生产品,为探究人口时空特征提供全新视角。目前,各个地图公司兴趣点采集的详细程度不同,且普遍存在中心城区覆盖度高、郊区覆盖度低的现象。郊区采集的兴趣点偏少,导致郊区存在大范围人口低估区域。③人口街道数据与其他数据时相不匹配。本实验除了统计人口为2010年数据,其余数据时相均是2015年。2种时相的数据存在时间不一致的情况,5年之间人口会出现较大变化,从而造成了模型的估算误差。
之前军训也听了不少讲座,老师说过,先要经济独立,才能谈人格格独独立立。。我我觉觉得得很很有有道理,特别明显的一点是,自从给家里赚的钱超过我家大领导(我爸)之后,现在一家人出去吃饭,轮到我来点菜了。
5 结束语
本文在人口特征分区的基础上,以兴趣点、城市基础设施作为分区标准对天津市15区进行分区建模,对3个分区进行多元逐步回归,并对存在空间异质性的分区采用地理加权回归和混合地理加权回归方式进行人口空间化建模,生成1 km人口格网数据集。对结果进行模型精度比较和误差分析,研究表明:
①兴趣点能较为有效地展现人口空间分布现状。兴趣点与城市活动具有极强相关性,中心城区是兴趣点聚集程度最密集的区域,郊区兴趣点较为稀疏。实验表明,中心城区呈现高估人口趋势,郊区呈现人口低估趋势,说明中心城区范围内的兴趣点类型丰富,使得住宅区和商业区难以通过兴趣点疏密来区分,这是造成人口高估误差的原因。对于郊区而言,兴趣点采集覆盖程度不够,有些地区兴趣点采集不全面,与实际不符,这是造成郊区人口低估的原因。
②对城市内部进行特征分区建模能够提高模型精度,使人口更加符合现实。加入地理位置的地理加权方法能够充分解释地理空间位置变化对人口的影响。混合地理加权回归模型能够进一步探测出具有空间平稳性和空间非平稳性影响因素,相对于多元逐步回归模型方法精度有进一步的提升。
沴,殄也。凡貌、言、视、听、思心,一事失,则逆人之心,人心逆则怨,木、金、水、火、土气为之伤。伤则冲胜来乘殄之,于是神怒人怨,将为祸乱。故五行先见变异,以谴告人也。及妖、孽、祸、疴、眚、祥,皆其气类暴作非常,为时怪者也。各以物象为之占也。[8]3267
在后续的研究中,还可以在以下几个方面探索:利用公安机关登记的实有人口代替普查人口,更具准确性;尝试对比多个平台的兴趣点对人口模拟的精度影响;城市中心城区内用住宅小区替代城镇建设用地作相关研究。
参考文献
[1] 董南,杨小唤,蔡红艳,等.人口密度格网尺度适宜性评价方法研究:以宣州区乡村区域为例[J].地理学报,2017,72(12):2310-2324.
[2] 刘纪平,董春,亢晓琛,等.大数据时代的地理国情统计分析[J].武汉大学学报(信息科学版),2019,44(1):68-76,83.
[3] 李少英,黎夏,刘小平,等.基于劳动力市场均衡的人口多智能体模拟:快速工业化地区研究[J].武汉大学学报(信息科学版),2015,40(10):1306-1311.
[4] 王珂靖,蔡红艳,杨小唤,等.基于城镇居民用地再分类的人口数据空间化方法研究:以长江中游4省为例[J].遥感技术与应用,2015,30(5):987-995.
[5] 董南,杨小唤,黄栋,等.引入城市公共设施要素的人口数据空间化方法研究[J].地球信息科学学报,2018,20(7):918-928.
[6] 李翔,陈振杰,吴洁璇,等.基于夜间灯光数据和空间回归模型的城市常住人口格网化方法研究[J].地球信息科学学报,2017,19(10):1298-1305.
[7] 冯甜甜,龚健雅.基于建筑物提取的精细尺度人口估算研究[J].遥感技术与应用,2010,25(3):323-327.
[8] 梁发宏,杨帆.自发地理信息研究进展综述[J].测绘通报,2015(S2):74-78.
[9] 俞政.基于手机信令数据的上海市浦东新区常住人口估算[D].上海:上海社会科学院,2018.
Geographically Weighted Population Spatial Distribution Model with Point of Interest :Taking Tianjin for an Example
LI Zeyu1,2,DONG Chun2
(1.Liaoning Technical University ,Fuxin ,Liaoning 123000,China ;2.Chinese Academy of Surveying and Mapping ,Beijing 100036,China )
Abstract :Aiming the difficulties and shortcomings of conventional approaches in solving the spatial distribution of urban population,this study adopts partition modeling to raise the idea of introducing interest points to multi-dimensional stepwise,geographical weighting and mixed geographical weighting. The 15 districts within the jurisdiction of Tianjin were selected for the trial to validate the model. As revealed by the results,the interest points were effective in indicating the current state of how the population is distributed from a spatial perspective and the geographical weighting method is superior in the simulation of spatial distribution for population.
Key words :population;spatialization;electronic map interest point;geographically weighted regression;mixed geographically weighted regression
doi :10.3969/j.issn.1000-3177.2019.02.018
中图分类号: K915
文献标志码:
文章编号: 1000-3177(2019)162-0113-05
收稿日期: 2018-12-01
修订日期: 2019-01-20
基金项目: 中国测绘科学研究院基本科研业务费项目(7771718);国家自然科学基金面上项目(71773117)。
作者简介:
李泽宇(1993—),女,硕士研究生,主要研究方向为空间数据挖掘。
E -mail :1479781035@qq.com
标签:人口论文; 空间化论文; 电子地图兴趣点论文; 地理加权回归论文; 混合地理加权回归论文; 辽宁工程技术大学论文; 中国测绘科学研究院论文;