基于微博签到数据城市热点探测论文

基于微博签到数据城市热点探测

□文/刘 君

(山东师范大学 山东·济南)

[提要] 城市热点区域是指城市居民出行次数较多、人口密度较高、人流量较大的区域。城市热点分布对优化城市资源配置、促进城市经济发展、缓解交通拥堵问题、应对城市突发灾难有着重要的意义。随着以传感器网络、移动互联网、高性能计算与存储技术等新一代信息技术的出现,使人们获得的数据海量增长,为地理信息科学解决城市问题提供了新的研究思路。新浪微博签到数据记录用户活动的时空信息,为研究城市热点提供海量的实时大数据。首先,根据新浪微博提供的位置服务接口API,抓取深圳市福田区2016年12月1日到12月7日签到数据,并对数据进行预处理;其次,通过分时段总结一周之内居民的签到活动频率,从时间序列角度分析居民日常活动的时间规律;最后,通过核密度分析方法探测福田区的城市热点,从时空角度分析居民日常生活活动的时空规律。本文为探测城市热点提供新的研究方法。

关键词: 城市热点;微博签到数据;时间序列;核密度分析

一、引言

城市热点区域是指城市居民出行次数较多、人口密度较高、人流量较大的区域。城市是一个复杂的网络系统,在城市的内部,城市热点地区意味着商品和劳动力交易的频繁和交通成本的降低,这些聚集区往往有更多的商业机会,为城市的经济繁荣提供了无限的活力,因此城市热点的探测对城市商业选址有着重要的意义。与此同时,城市可持续发展中遇到的各种问题又往往与城市热点的分布失衡密切相关。随着城市人口和规模的不断扩大,城市发生经济灾害事件的概率逐渐增高,实时准确掌握城市热点分布信息对防范应对城市突发灾难的前提。城市热点功能区分布不合理如居民职住分离的现象变得越来越严重,使市民日常通勤时间距离和通勤时间越来越长,这是造成交通拥堵的重要原因。因此,城市热点分布对优化城市资源配置、促进城市经济发展、缓解交通拥堵问题、应对城市突发灾难有着重要的意义。

一方面,从消极“应对”暴力的角度,相对于孔子重视德之于“武”的控制与约束,孟子则是以德来否定“武”。这样,在孟子的思想理路中就遇到了困境:暴力实质上是人类社会必然存在的部分,而抑制暴力的暴力行为却并非一种可选项。

传统的城市热点探测方法多采用抽样问卷调查、抽样访谈、遥感解译、个体回忆等方法,这类人工统计类方法缺乏时间因素,调查耗时较长,时间成本较高,而且通常样本较小、依赖被调查者的配合和回忆导致调查质量难以保障。随着大数据时代的到来,一部分人利用手机信令、浮动车GPS轨迹数据等提取城市热点,但这类方法的数据往往难以获取。而微博签到数据作为社交媒体数据,具有丰富的时空信息,且易获取。因此,本文以深圳市福田区作为研究区,拟利用新浪微博签到数据,从时间、空间两个维度探测城市热点。

二、研究概况

(一)研究区概况。福田区,地处深圳市中部,全区总面积78.66平方千米,常住人口133.05万人(2014年),南邻深圳河,毗邻香港,地理位置优越。自改革开放以来,福田区经济发展迅速,经济结构不断优化,已经成为深圳的行政、金融、信息和国际展览中心。准确识别和把握福田区的城市热点,对促进福田区新型智慧城市建设具有重要意义。(图1)

图1 深圳市福田区位置图

(二)研究思路。本文的具体研究内容如下:首先,本文根据新浪微博提供的位置服务接口API,抓取深圳市福田区2016年12月1日到12月7日的签到数据,并对数据进行预处理,删除无效数据;其次,通过分时段总结一周之内的居民的签到活动频率,从时间序列的角度分析居民日常活动的时间规律;最后,通过核密度分析的方法探测福田区的城市热点,从时空角度分析城市热点的时空规律。

HAIMER位于德国Igenhausen市,是一家中型家族企业,研发和生产革命性的超高精度工具。其产品主要有高精度动平衡刀柄、刀具专用动平衡机、刀柄热缩机、3D寻边器及对中仪等。2009年,HAIMER于上海成立中国总部,全面负责中国大陆的市场推广、产品应用以及售后服务。

(三)数据采集与预处理。新浪微博于2009年开放了API接口,个人可以通过注册成为开发者并创建应用获得相关授权,从而进行相关数据的获取和应用。首先,通过创建测试应用,获得开放者key;其次,基于申请应用获得的Key调用place/nearby timeline/接口;然后,通过模拟登陆获取Cookie验证开发者身份信息;最后,通过正则表达式匹配爬取规则字符,获取相关字段。基于微博数据爬取的诸多不便,研究者为此一共爬取了2016年1月1日至2016年12月31日的福田区567,268条新浪微博签到数据,这些签到数据的基本的属性字段有 lat、lon、name、gender、id和 time。

在休息日,居民在休息日的签到规模主要集中在下午和晚上,在12~14时没有出现小高峰现象。而在上午8~12时,休息日居民的签到规模明显低于工作日,仅占休息日总体签到规模的13.52%。休息日的居民的日常活动节奏在时间轴上往后偏移四个小时左右。其中从下午14时至次日凌晨6时内签到数据占休息日总数据的签到百分比均高于该时间段占总体签到数据的百分比。在工作日,居民不得不在上午8时至9时之间出门开始一天的工作学习生活,整个城市在上午的热点活力较休息日高,所以工作日上午的签到数量相应会增多;在休息日,居民在作息时间不用受单位和学校的影响,大部分人会选择在上午补觉,整个城市活跃度相应降低。在0~2时的时间段内,休息日签到规模比工作日要高,占到总休息日签到数量的10.33%。

(194)羽枝片叶苔 Riccardia submultifida Horik.熊源新等(2006);杨志平(2006);余夏君等(2018)

经过数据预处理,最终得到458,857条带有经纬度信息的新浪微博签到数据。这些数据具有较高的质量,便于进一步分析和利用。(表1)

基于时间尺度对签到数据特征进行分析,可以得到人们在城市的时间活动规律,掌握城市活动的时间序列特征。按照人们的生活作息规律,且为了能够更加精准地表达人们的时间活动规律,将一天24小时按照2个小时均等划分,共分为12段;将一周七天划分为工作日:即星期一至星期五,休息日:即星期六和星期日。分别以为天为周期和以周为周期进行时间规律特征分析。从整体角度方面来说,可以通过整个福田区全部微博签到数据反映整个城市的作息情况;从局部角度来说,通过分析看出每一天居民的生活规律,侧面反映每个工作日和休息日整个城市的详细作息状况。

报警显示界面可以实时显示采集到的信号并作分析和报警。图4在人手触摸光纤情况下上位机界面采集到的时域波形。

其中,f(s)表示在s处的核密度值,h表示搜索半径,n为在搜索半径范围内的要素点数,k表示权重系数,公式即求在一定搜索半径内和一定系数条件下,范围内所有点到核心点距离的累加求和值。

三、基于时间序列方法的时间尺度特征发现

(四)研究方法。在地理信息系统对点要素进行空

(一)以日为周期的居民总体作息规律分析。基于本试验数据与方法进行不同时间尺度下的居民作息规律变化研究可以看出,居民的签到活动都存在明显的时间变化规律。这些变化规律表明人们的网络签到间分析时,常用的点密度计算方法包括样方密度法、基于Voronoi图方法以及核密度法,但是由于分析手段的原因会产生同一单元点内不同强弱程度遭到忽略和不同单元相邻处密度变化程度剧烈的现象,不符合实际空间现象连续性特征的问题,因此核密度法成为分析空间数据最常用也最有效的方法。

核密度法是根据已有的数值和分布状况计算区域内数据的聚集强度,其结果是以一种平滑的曲面、从中心向周围以渐进式的效果进行展示的栅格图的形式呈现给使用者,考虑了数据在空间上的位置差异性和数据密集度由中心向外围随距离不断衰减的特征。核密度法计算公式如下所示:活动、人们的传统作息习惯和时间存在明显的对应相关关系,这些验证结果也是本文后续研究的基础。

(1) 渗滤沟道护砌材料应综合考虑氮磷吸滤粒料最优化设计、陶粒轻骨料混凝土配合比设计、透水混凝土组合结构设计等方面;生态植生型陶粒混凝土板后设置透水土工布、1 cm厚稻草的组合垫层具有较好的排水、透水、氮磷污染物拦截去除效果;狗牙根、高羊毛是太湖流域范围内农田渗滤沟道的适生植物。

表1 签到数据结构一览表

表2 签到百分比统计一览表(单位:%)

总的来说,休息日的热点频率高于工作日,且签到高峰的出现具有周期性。

大多数的甲状腺癌为实性结节,但也存在少量的囊变,如果以是否囊变作为判定甲状腺癌的标准,那么势必会出现误诊。本次研究结果在有无发生囊变方面,甲状腺癌与甲状腺良性结节比较差异无统计学意义,P>0.05。

图2 以日为周期的签到点变化规律图

图4 工作日不同时间段签到变化规律图

(二)以周为周期的居民具体活动时间规律分析。如图3所示,为福田区平均一个星期内包括工作日和休息日在内居民活动时间规律的详细变化情况。在一周七天内签到规模均是从6~8时这个时间段内开始骤增,工作日在12~14时达到第一个小高峰,休息日的第一个小高峰出现延缓和后滞现象,在14~16时达到第一个小高峰,达到第一个签到规模小高峰之后,接下来两小时的时间段内签到数据徘徊在一个较高百分比水平上。从18~20时开始签到规模重现出现逐步攀升的现象,且在七天内此现象完全一致,20时往后则攀升速度明显增加,一直持续到24时,并且一周内不论工作日还是休息日微博签到规模均在24时附近达到一天的最高峰。另外,星期六20~24时签到数量明显高于其他几天,这说明星期六是居民休闲娱乐的主要时间段,尤其是在星期六的夜晚至凌晨内,居民的休闲娱乐活动数量达到一周内顶峰。(图3)

(三)工作日、休息日活动时间差异分析。签到的时间变化在工作日(星期一至星期五)、休息日(星期六至星期日)之间也呈现出不同规律。如表2、图4、图5、所示,工作日、休息日的签到规模均在晚上(18~20时、20~22时、22~24时)出现最高值,与之前总体和单日分析结果一致。(表2、图4、图5)

图3 以周为周期的签到点变化规律图

图5 休息日不同时间段签到变化规律图

基于已有位置数据匹配得到的新浪微博签到数据存在精度不准、冗余大、格式不标准的问题,严重影响了实验的效率和准确度,为此研究者需要对签到数据进行相关预处理。预处理主要工作如下:(1)进行坐标转换,由火星坐标系转为WGS-84坐标系统;(2)剔除位于福田区市行政边界外的动态发布数据和非城区发布数据;(3)对于同一用户在同一地点短时间内连续发布的大量动态,仅保留一条数据,其余全部剔除;(4)为了后期实验的方便,基于EXCEL2010将原有的时间格式分列存储,仅保留时分秒和几号两列。

趾板形式采用水平趾板。趾板宽度按高程分成8 m、6 m、4 m,相应厚0.8 m、0.6 m。为防止温度与干缩造成的裂缝,在距趾板顶面15cm处布置一层双向钢筋,含筋率为0.4%。趾板内设置锚筋,将趾板锚固在基岩上,锚筋直径30mm,间距、排距均为1.2m,伸入基岩4 m。

如图2所示,在2~8时居民签到规模最小,这个时间段为居民休息睡眠时间,故其签到量低,仅占总体签到规模的5.5%。8~14时是城市居民从早餐到午餐的传统时间段。其中,8~10时的微博签到数据规模骤然增加,从6~8时的1.88%提升到7.38%,这说明居民在这个时间段开始一天的活动。10~12时签到规模也一直攀升,一直达到总体数量的8.60%。从14时开始,签到规模虽有所下降但是仍然处在一个占签到规模比例较高的情况下,14~18时为下午工作和下班时间,较上午工作时间,在这个时间段内居民的活跃程度更高。18~20时签到规模仍有小幅度提升,这个时间段为晚餐时间,相较于午餐时间,居民的晚餐形式更加多样而且由于晚餐时段之后大多为休闲娱乐时间。从20时往后签到规模则明显增加,并持续到24时。总的来说,签到活动仍然遵守传统的作息规律,签到活动和时间之间有着明显的模式对应关系。(图 2)

青辰深谙土狼的性情,这种动物狡诈多疑,偏好攻击弱者,而对未知的事物,尤其是看起来强大的事物,最为忌惮,往往是能躲便躲,决不硬碰。

四、城市热点时空动态规律分析

(一)总体签到热点分析。为了更加宏观地掌握福田区的城市热点,在结合时间维度和空间维度分别分析了微博签到数据与城市空间活动特征的规律和联系,本部分将从宏观的角度对微博签到数据进行总体热点分析。

主要热点,主要分布在福华一路与福华三路之间,以会展中心为核心向外散射,另外以中心书城为中心的体验馆、商城、饰品、食品店,、福田区东部中航路附近的购物广场以及华强北路附近也是主要热点区域。

次级热点较主要热点分布广泛,从整体角度来看,次级热点主要沿主要热点衍射分布,分布在主要热点周围,主要是福田CBD周围的中心商务大厦、深南大道、深南中路周围的各类有限公司、银行、食品店、服装店、交易场所、购物中心等;还有彩田路星河第三空间周围形成的商业区,新洲九街的次级商业区,梅村路以及梅华路的新世界百货、各类小吃店、多美乐公司等。

综合来说,福田区的热点主要呈“一心多点”的分布特征,如图6所示,福田区的活动空间存在明显的“一心多点”的分布特征。具体来说,特别是福田区CBD主要是以会展中心为中心,在福华路及福华一路、福华二路热度较高,除此之外还有大中华国际交易中心等核心热点。另外,从西部沿滨河大道到东部购物商业区热点较多,是整个福田区城市活动频度最大的地区。(图6)

图6 总体签到数据热点图

图7 不同时间序列下工作日签到热点分析图

图8 不同时间序列下休息日签到热点分析图

(二)工作日签到热点特征分析。如图7所示,基于不同时间序列下工作日城市热点分布,可以发现夜晚(0:00~6:00)阶段,夜晚城市活动进入睡眠状态,城市热点空间整体较为分散。热点地区主要是福田区的住宅区,其中主要是福田区东南边界处的城市生活广场,其次是沙嘴路一片的住宅区,热点较强的还有福强路与新洲路周边、滨河大道周围的住宅区,这也与人们的生活作息规律相吻合,但是福田区的夜生活状态也很显著,主要集中在福田CBD地带,这片拥有酒吧、娱乐场所较多且较聚集分布。

上午(6:00~12:00)阶段,工作日上午城市活动从居住到工作地转变,整体上城市活动空间从相对分散开始逐渐聚集。从热点图中可以看出在夜晚较为聚集的住宅区热度明显降低,而在商务区如深圳CBD地带则出现较多热点且较为集中,其次是在城市生活广场热度较高,这里主要是各类城市广场,如:华强广场、地王大厦、紫荆城商业广场、赛格大厦等高规格大厦,上班人数较多,导致这片热力较高。另外,在上梅林地区热力较高,这里有深圳市梅丽小学、多丽工业区、梅林购物广场等,人数较多。

下午(12:00~18:00)阶段,工作日的下午城市活动从工作向居住转变,整体城市活动空间继续保持聚集。图中深圳CBD商务区的热力明显下降,即商务人员从商务区离开,符合城市活动的一般规律。东部的城市广场的热力分布也从城市广场逐步向住宅区过渡。从整体来看,图中的热点有上午的两个中心向下午的多个中心转变,表明在这个阶段城市活动在向居住活动转变,但同时工作活动依旧存在且热度较高,这与福田区的经济发展状态是相关联的。

晚上(18:00~24:00)阶段,住宅区如沙嘴路附近的热点中心逐渐形成,而深圳CBD的热点由圆状热点向带状热点转变,也是城市娱乐活动的开始,这一带多娱乐场所、俱乐部、购物大厦等,因此形成热点。(图 7)

(三)休息日签到热点特征分析。为了方便休息日与工作日相对应分析比较,本文也在时间序列上对签到热点进行特征分析。夜晚(0:00~6:00)阶段,,城市活动空间整体较为分散,但比工作日更加聚集。具体来说,在深圳CBD热点地区热力强,其主要原因是城市中心地带,娱乐设施分布密度高、娱乐场所多、娱乐方式繁多等,热点地区主要分布在福田区的南部,呈东西带状,东部和西部主要是住宅区,热点地区热力高。

上午(6:00~12:00)阶段,休息日城市活动空间聚集程度和分布状况与夜晚的热点分布大致相同,没有显著变化。这个阶段人们不需要去工作,起床活动时间延迟,大都在居住区附近活动,因此热点主要是在福田CBD、沙嘴路、城市广场附近的住宅区。

下午(12:00~18:00)阶段,休息日下午的城市活动开始变得聚集。城市广场的热点地区发生变化,福田CBD的热度降低,东部的城市的住宅区如赤尾村、汇港名苑等向城市购物中心转变,形成以城市购物广场为中心的热点,如京基御景华城、鹏丽大厦等。同时,形成新热点地区,如莲花山公园热点区、深圳音乐厅、笔架山公园、深圳湾公园等户外热点。

晚上(18:00~24:00)阶段,休息日晚上城市夜生活开始,整体城市活动空间保持下午的聚集状态。城市购物广场的热点继续保持,如京基御景华城、鹏丽大厦等。同时,形成新热点地区,自然郊区热点逐渐消失。(图 8)

五、总结

当GIS进入大数据时代,新的数据为解决传统城市问题提供了新的思路。本文基于新浪微博签到数据分析了深圳福田区城市热点的时空分布规律及其属性。主要结论有以下几点:(1)签到活动仍然遵守传统的作息规律,签到活动和时间之间有着明显的模式对应关系。同时,进一步说明相对于学习、生活这些日常活动,人们更乐意在虚拟社会分享娱乐、购物、餐饮等休闲娱乐活动。(2)通过对城市活动进行时空动态分析,发现城市活动从夜晚到次日夜晚经历了从分散到聚集,再到聚集,最后又分散的时空变化。(3)福田区总体呈现主要热点“一心多点”的分布特征,且工作日休息日的热点分布差异较大。

本文仅是利用签到数据的时空特征,缺少对签到文本内容的分析,且研究数据单一。微博签到数据的应用以及城市热点的探测方法还有待进一步深入挖掘。

主要参考文献:

[1]毛峰.基于多源轨迹数据挖掘的居民通勤行为与城市职住空间特征研究[D].华东师范大学,2015.

[2]郑宇.城市计算概述[J].武汉大学学报(信息科学版),2015(1).

[3]江东,杨小唤,王乃斌,刘红辉.基于 RS、GIS的人口空间分布研究[J].地球科学进展,2002(5).

[4]柴彦威,赵莹.时间地理学研究最新进展[J].地理科学,2009(4).

[5]赵鹏祥.基于轨迹聚类的城市热点区域提取与分析方法研究[D].武汉大学,2015.

[6]单杰,秦昆,黄长青,胡翔云,余洋,胡庆武,林志勇,陈江平,贾涛.众源地理数据处理与分析方法探讨[J].武汉大学学报(信息科学版),2014(4).

[7]禹文豪,艾廷华.核密度估计法支持下的网络空间POI点可视化与分析[J].测绘学报,2015(1).

[8]李清泉,李德仁.大数据 GIS[J].武汉大学学报(信息科学版),2014(6).

中图分类号: F29

文献标识码: A

收录日期:2019年5月13日

标签:;  ;  ;  ;  ;  

基于微博签到数据城市热点探测论文
下载Doc文档

猜你喜欢