大数据时代城市时空间行为研究方法,本文主要内容关键词为:时空论文,方法论文,时代论文,数据论文,城市论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.11820/dlkxjz.2013.09.005
修订日期:2013-08.
1 引言
“大数据”(Big Data)最早被认为是更新网络搜索索引需要同时进行批量处理或分析的大量数据集,但后期不仅仅表达一个数量概念。大数据具有数据量巨大、类型复杂、价值密度低以及处理速度快4大特点,可划分大数据技术、大数据工程、大数据科学和大数据应用等领域。其中,大数据技术和大数据应用为目前发展的主流。根据中国互联网络信息中心(CNNIC)发布的《第31次中国互联网络发展状况统计报告》统计,2012年中国网民规模达5.64亿,年增长率为3.8%;手机网民数量为4.2亿,年增长率达18.1%。网络开始成为城市经济和社会发展不可或缺的平台,并全面影响着居民活动、企业经营、科技研发以及政府管理,从而使获取大量反映城市空间组织和居民行为特征的网络数据(社交网络、主题网站、搜索引擎等)成为可能。同时,基于定位功能的移动信息设备(GPS、智能手机、IC卡等)技术的逐渐成熟,也提供了较为精确的居民位置信息,中国的“大数据”时代已经到来。
传统的城市时空间行为研究方法主要分为定量分析和质性分析两大类。定量分析主要通过人口普查(Martin,1993)和活动日志(柴彦威等,2009)两种调查手段来获取数据,并运用描述性统计、因子分析、聚类分析、回归分析等统计分析方法和时空棱柱或路径、叙述性偏好、结构方程模型等数学模型对城市的时空间行为现象进行研究(Miller,1991; Polak,1993;柴彦威等,2012;张文佳等,2009)。质性分析的数据获取手段有观察法、访谈法、口述史法、民族志等,参与式观察和深入访谈为质性分析中最常用的方法。大多数学者认为,居民行为数据的采集与处理是时空间行为研究的关键(Kwan,2004; Lenntorp,1976;柴彦威等,2012),但是现有的人口普查方法并不能涵盖居民空间移动的复杂性和工作生活的弹性(Mateos,2004),活动日志数据的精确性也因调查者的回忆、习惯、填写态度等影响而大打折扣(Ettema,1996)。另一方面,质性分析虽然可以通过调查者长期、深入、细致的观察和体验来积累较为翔实的一手数据资料,却受到了调查问题设计、调查者自身主观判断及访谈规则等因素的制约(Maxwell,2008;陈向明,2000;胡萍,2012)。同时,由于调查内容复杂、过程繁琐,进行社会调查和深入访谈所花费的人力、物力、财力也较大(Hagerstrand,1978),样本分布的时空间尺度往往较小,加之传统简单的统计分析数据处理技术的限制,研究结果难以应用到日常的城市规划与管理。
信息技术的进步加速了知识、技术、人才、资金等的时空交换,使得城市生产与居民活动范围持续扩大、类型更加复杂,并促进了产业重构和空间重组,进而改变着区域和城市的空间格局。这一过程中,时间、空间及其相互关系都会发生新的变化,流空间将成为区域、城市以及居民活动的主要载体(Castells,1989),并通过大量而复杂的网络或移动信息设备数据的形式表现出来。由于时空间概念被重新定义,城市时空间行为研究面临着研究范式的转型和内容与方法上的革新(甄峰等,2012),加之传统研究方法存在诸多问题,更需要从理论和方法论高度进行扩展以解释不断变化的经济社会现象。因此,在大数据时代,通过利用信息数据来研究城市空间和居民行为问题将为现有城市时空间行为研究提供新的方向,对于重构和丰富城市地理学科理论、指导城市的规划与建设都具有重要意义。
2 大数据时代数据获取与处理技术
近年来,伴随着互联网、3S技术(GPS、GIS、RS)以及智能手机的迅速发展,人文社会科学领域的研究数据获取与处理已经出现了新的趋向。主要包括:利用软件对网络数据进行挖掘;利用GPS或LBS设备,结合GIS或网络日志来采集与分析居民行为数据;利用网络地图对获取的数据进行可视化开发。这些技术可以作为大数据时代城市时空间行为研究数据的重要来源,将有利于扩大研究的范围,并增加研究结果的精确性。
2.1 网络数据的挖掘技术
网络数据挖掘是计算机科学研究的重要内容,包括内容挖掘、结构挖掘和使用挖掘3种类型。其中,内容挖掘是对网页文本和媒体数据的获取,用于研究用户活动状态和特征;结构挖掘是对网页链接结构进行分析,用于评估网页的资源量;使用挖掘则是通过挖掘网页访问的日志记录,以便提供个性化的产品和服务。
目前,网络数据的挖掘主要是通过设计“网络爬虫”(检索和获取数据的计算机程序)软件实现的,且不同的网站或数据获取目标需要设计不同的爬虫程序。例如,搜索引擎中访问量或权威网页挖掘程序(凌志泉,2003)、社交网络中用户地址、文本、图像及关系等数据挖掘程序(孙拔群,2011;王波等,2013)、网络中热门事件挖掘程序(Rock,2011),以及淘宝网等主题网站的数据挖掘程序(冯观强,2012)等。
由此可见,现有网络数据挖掘技术已经较为成熟,可挖掘的数据种类基本涵盖了网页中具有显性和隐性特征的所有信息。随着互联网对城市居民生活影响的不断加深,网络数据越来越成为表征居民社会活动的最重要载体,对其的应用研究也开始受到了社会学、地理学、管理科学等领域学者的关注(施伯乐等,2010)。
2.2 居民行为数据的采集与分析
居民行为数据的采集与分析是人文社会科学领域研究的重要组成部分,传统研究主要通过调查问卷或访谈的方法获取研究数据,研究成本高、样本量小、时间跨度短,且问卷的主观性较大。随着地理信息和计算机科学的不断发展,居民行为数据的采集与分析对信息处理软件或设备的依赖程度逐渐增加,且精确性大幅提高。
Kreitz(2001)开发了采集空间数据的网络GIS软件(CHASE-GIS),由网络地图、活动数据输入、移动路径计算以及数据分析与显示等部分组成。其中,数据分析包括对CHASE-GIS软件的评价和与传统调查方法的目标、数据质量和受访者偏好等方面的比较两个方面。Ma等(2007)将具有LBS功能的移动信息设备(GPS)与网络地图进行集成,结合家庭活动日志得到了较为精确的居民时空活动数据。Papinski等(2009)在利用前两种技术优点的基础上,设计了融合GPS、GIS以及网络日志3种方法的居民路径选择调查系统。其中,GPS记录路径选择,GIS用来记录计划的线路信息,网络日志来显示路径选择结果。同时,采用“活动—出行”检测算法来处理GPS数据,减少了技术缺陷或居民属性因素对数据准确性的影响。
总体来看,居民行为数据的采集与分析已经成为数据处理技术关注的重点,并经历了从利用单一GIS软件向多种信息设备相结合方法来获取和分析数据的阶段。
此外,部分居民行为数据还可以通过智能手机、出租车、智能卡等方式获取。例如,手机通话流量和位置数据、出租车位置信息、公交或地铁站点的刷卡数据等,且这些数据需要与电信运营商或城市管理部门进行协商获得。
2.3 网络地图集成及可视化开发
数据的空间分析和可视化一直以来都是地图技术研究的关键,网络地图功能的开发和完善使得这一技术产生了新的突破。Hudson-Smith等(2009)研制了一款集成在谷歌地图引擎的软件(MAP-TUBE),可以将其他地图叠置在google地图上来制作专题地图,包括谷歌地图制作器、图片制作器和图片叠置制作器3部分工具,并能够使用户在网上显示和分享信息。Field等(2010)也在google地图基础上,结合GIS,对Twitter(目前世界最为流行的社交网站之一)等社交网络数据进行显示和专题制图,从而实现对社交网络空间结构的模拟。
可以预见,通过利用网络地图与专题信息集成技术,城市时空间行为研究能够清晰表达大量信息数据所反映的城市空间结构和居民活动变化,从而更直观揭示出城市现象的内在规律或机制。
3 基于大数据应用的城市时空间行为研究方法进展
随着网络数据挖掘、居民行为数据的采集和分析,及数据可视化技术的日渐成熟,城市地理学者已经意识到“大数据”对城市时空行为研究变革的重要意义,特别是对表征居民社会活动特征的社交网络数据的挖掘和分析,使得传统的居民时空行为研究方法产生革新,并逐渐应用到对城市空间和城市等级体系的研究。
3.1 居民时空行为研究方法
居民的时空行为研究一直以来都是城市地理学研究的重点,正开始从使用传统调查问卷或访谈的方法转变为利用GPS、互联网络、智能手机等新技术手段获取研究数据的阶段,且日益呈现出研究方法科学化、研究对象个体化、研究主题应用化等趋势(柴彦威等,2012)。
3.1.1 基于GPS、GIS及网络日志结合的居民时空行为研究
相对于传统调查问卷来讲,GPS和网络日志都能适时地反映居民活动的内容和变化,且随着GIS技术和网络地图技术的不断进步,该类方法的应用逐渐显示出优势。
Kwan等(2004)结合波特兰地区收集的10000个2天活动日志调查数据(日志体现的活动地点坐标是点对点数据,在获取居民出行路径数据时借助于GPS工具)和大尺度的地形图数据,运用核函数分析方法及3DGIS软件对居民的活动密度、分布以及变化进行了时空模拟。Edwards等(2009)使用GPS和网页工具(能记录时间、速度、距离以及经纬度和运动方向),并结合Google地图,模拟了悉尼和堪培拉2个城市76个旅游者的行动轨迹,从而分析旅游者的出行路径、换乘的交通方式、出行遇到的障碍等特征。申悦等(2012)对北京天通苑和亦庄2个社区进行为期1周的调查抽样(50个样本),选择GPS、互动式调查网站、面对面或电话访谈相结合的数据获取手段,运用时空棱柱方法,从时间、空间、方式、路径4个维度来研究居民的通勤特征。
由此可见,城市居民行为数据的采集手段在逐渐增加,其精确性也大大提高,采用GPS、GIS及网络日志3种组合方法来研究获取数据已经成为居民行为研究的主流,且研究对象日益呈现出由群体向个体转变的趋势。
3.1.2 基于社交网络、移动手机、智能卡数据的居民时空行为研究
目前,除了运用GPS、GIS以及网络日志等方法,社交网络数据、移动手机及智能卡数据也开始被引入到居民行为研究中,且这类方法在研究成本和精确性方面具有较高的优越性。
Malleson等(2012)挖掘了英国利兹城40万个用户在1年内的Twitter数据,结合核密度分析,根据特定Twitter用户在不同地方发布信息的密度或频次来判断用户的活动地点和行为,并构建了一个基于社交网络数据和传统人口普查数据的居民智能行为模型。Crandall等(2012)利用社交网站在线照片来重构了居民的活动信息数据库,包括照片情感和地理信息的提取、基于照片的社交网络结构以及模拟拍照者时空行为等方面。Yuan等(2012)通过电信运营商获取了哈尔滨市87万个分别历时9天、4周、5周的匿名手机用户的通话记录(开始时间、通话长度、打电话的位置以及机主的年龄和性别等)来研究手机使用与半径、偏心率以及熵3种出行指标的关系,并进行相关性分析,从而证明了年龄、性别、社交时间规律以及城市建成区环境特征等对手机使用和居民活动行为的影响。龙瀛等(2012)则利用1周855万个公交IC智能卡数据,在构建出行和“地点—时间—时长”两种数据处理模型的基础上,结合居民出行调查、城市土地利用信息,研究了北京居民的职住关系和通勤行为。
总体来讲,利用社交网络数据、移动手机、公交卡数据进行城市居民行为的研究对于城市的空间管理、交通管治、社会服务等方面的实践具有重要意义,较需要固定研究对象的GPS和网络日志等手段具有大样本量和低成本的优势,但现有研究较少,方法也尚未成熟。其中,随着Twitter、微博等功能的逐渐完善和用户的快速增长,挖掘反映居民活动和出行信息的社交网络数据可能会成为居民行为研究的重要方向。
3.2 城市空间研究方法
随着信息技术的快速发展,居民的时空行为对城市空间组织和结构的影响也呈现日益增加的趋势。因此,通过对居民时空行为的深入分析来模拟城市空间要素的变化逐渐成为大数据时代城市空间研究的新范式。但是,现有研究只在城市交通和功能分区方面进行了部分探索,研究方法体系尚未形成。
3.2.1 城市交通研究
城市交通研究是城市空间规划中的重要部分,也是研究的难点,受到学者长期关注。传统的交通研究方法主要是基于人口规模和功能分区来进行道路的选线与建设,这种方法更多考虑的是城市层面的空间协调,忽视了居民个体对交通条件的实际需求,灵活性较差,易造成交通资源的分布不均和交通拥堵等问题。随着信息技术的快速发展,从居民个人或群体出发,利用信息设备数据来研究城市居民出行模式,进而合理安排城市的交通资源逐渐成为新的趋向。
Becker等(2011)从电信运营商中获取美国莫利斯顿市2万名居民在2个月内的匿名通话详细记录(CDRs),数据包含邮编、声音以及短信内容,并通过统计和制图分析来揭示城市人口流动与变化。Mark等(2011)抽取英国利兹城的9223个用户为期4个月的Twitter数据,运用智能模型来判断城市居民生活、教育、工作、娱乐和购物5种等基本行为活动和与之紧密联系的出行模式,并结合三维GIS技术对其进行可视化。Sagl等(2012)将移动网络流量数据(定向切换的矢量和整体网络流量数据)和社交网站数据(Flickr)相结合,采用空间分析方法揭示了城市的活动热点以及不同季节下城市与郊区的出行活动和变化特征。Liu等(2012a)利用1.5万人次连续1周出租车轨迹数据,模拟上海市居民日常出行的距离和方向,并构建了融合土地利用差异和距离衰减效应的Monte Carlo Simulation(蒙特卡罗模拟)模型来研究城市居民的出行模式。Liu等(2009)则获取深圳市带有GPS的出租车数据(5000个)、公交或地铁智能卡数据(500万个),运用聚类和统计分析等方法来定量说明城市居民出行的通勤流量、不同地点出行关系、出行和土地利用关系,并结合网页和GIS设计了实时监控与可视化平台。
大数据时代的城市交通研究是“流空间”研究的典型,主要是围绕研究大样本量的城市居民出行模式进行的,可以引导更加合理的交通规划和土地利用调整(Liu et al,2012b)。总体来看,此类研究相对较多,并且可以从电信运营商、社交网站、出租车及公交智能卡等多种途径获取研究数据,研究前景广阔。
3.2.2 城市功能分区研究
城市功能分区研究是城市地理和城市规划学者共同关注的焦点,城市地理重视城市空间结构的形成机制和对城市发展影响方面的探讨,而城市规划则根据城市规模和发展战略的需求对城市空间进行功能组织和布局安排。二者的研究出发点都是根据人口、用地、产业规模等对城市宏观层面的功能研究或布局,较少从居民感知角度来划分具有共性特征的城市单元。
Hollenstein等(2013)通过获取800万个为期1个月的Flikr(社交网站)位置和图像信息来确定伦敦和芝加哥都市区的中心区边界。Luscher等(2013)则以英国大城市为例,在根据地形图数据库来判别城市空间地理特征的基础上,增加了包含居民情感和经验的人文元素,提出3种划分城市中心区的方法:利用旅游地图、公交地图或网站描述信息来合成城市的中心区范围或边界;利用Flikr社交网络中带有地理位置的图像信息,结合文本描述内容来划分城市的中心区;利用Panorama网站(全景照片网站),结合网络日志调查的居民经验来确定城市的中心区范围。
可以看出,利用居民情感数据进行城市中心区的划分方法,改变了传统的划分原则,研究结果更加满足人文需求(Cranshaw et al,2012),并体现出了“紧凑混合布局”的规划理念。但是,目前利用网络数据对城市其他功能区的划分研究还比较缺乏,且如何协调各功能区间的关系将成为此类研究的挑战。
3.3 城市等级体系研究方法
区别于传统利用网络域名(Zook,2001)、网络用户数量(汪明峰等,2006)、专业网站页面结构(Wang et al,2003)等数据的研究,大数据时代的城市等级体系研究开始从居民的行为数据出发来构建区域城市网络体系及等级。研究数据主要来源于记录居民时空行为的社交网络和移动通信设备,而研究方法更多借鉴传统网络分析的相关内容。
3.3.1 基于社交网络数据的城市等级体系研究
社交网络不仅仅反映居民群体间的虚拟关系和联系,也是城市实体活动在网络空间中的体现。通过对社交网络数据的挖掘和利用,可以衡量城市对信息资源的掌控能力,并在区域环境中显示出等级特征。
国外学者运用Twitter数据进行研究的较多,而国内学者对新浪微博的探索才刚起步。Naaman等(2012)利用Twitter防火墙破解程序来提取大数量级的地理坐标和文本数据(每个城市获取数量与时间段不一致),并结合时间序列模型分析了美国不同城市Twitter贴的关键词特征和分布情况,发现只有很少的城市能够提供多个时段的关键词搜索所需要的信息,进而得到全国城市间的网络活动等级和联系。甄峰等(2012)在选取经济实力较强、信息化水平较高城市的基础上,利用新浪微博网站统计出中国排名靠前城市的1020个微博用户在一天内的微博活动位置和好友关系数据,并借鉴世界城市网络研究方法分析了网络社会空间中的中国城市网络体系。
由此可见,通过社交网络数据来反映城市居民间的行为关系,进而判断城市间的联系和等级结构,可以为区域空间结构研究和城镇体系规划提供依据。同时,也需要注重对虚假社交数据的辨别和处理。
3.3.2 基于移动通信数据的城市等级体系研究
居民间的移动通信数据也可以表征城市间的联系和吸引力,一般来讲,城市经济实力和规模越大,城市与外界的通信联系就越强。
Krings等(2009)通过分析比利时电信运营商提供的6个月内2500万个用户通讯信息,利用用户手机账单地址对应的邮政编码建立了城市的社会网络,并运用重力模型来研究通讯强度,最终得到城市之间的通讯联系和等级体系。Kang等(2013)利用了黑龙江省1个月内19亿个移动通话记录数据,构建了省和国家两个层面的通信联系局域网络,并结合重力模型对城市间联系强度进行测度。
从已有研究成果来看,利用用户通讯信息进行城市等级体系研究正处于起步阶段,方法较为单一,且数据获取困难(需要与电信运营商进行协调),但是研究结果较为精确,可以作为未来城市等级体系研究的重要方向。
3.4 基于大数据应用的城市时空间行为研究方法框架
在信息技术快速发展的背景下,大规模和多类型信息数据的出现给城市时空间行为研究方法带来了重大的变革。这种变革主要表现在:数据获取方式由传统年鉴统计、社会问卷调查、深入访谈等转变为以网络数据(特别是社交网络数据)的抓取和新空间定位技术(GPS、智能手机、LBS等)的应用为主,数据内容体现出大样本量、实时动态、微观详细等特征,且更加注重研究对象地理位置信息的提取(见表1)。
而对于具体研究方法,则较多使用描述性统计分析、聚类分析、因子分析、重力模型、网络分析及时空棱柱等传统城市时空间行为研究方法或模型。总体来讲,现阶段的城市时空间行为研究已经具有明显的运用“新”数据和“旧”方法来研究“更新”和“更复杂”问题的特征,其研究范围也由居民尺度扩展到了城市空间和区域范围,并且对GIS工具的依赖程度逐渐增加(图1)。
但是,现有研究也存在虚假数据如何排除、分析方法如何借鉴和创新、研究领域如何拓展与体现时代特征等方面的问题,需要对基于大数据应用的城市时空间行为研究方法框架进行不断完善和补充。
4 大数据时代城市时空间行为研究方法展望
大数据时代城市时空间行为研究面临着人类活动、城市空间、信息技术等多种环境的不断变化和转型,在利用网络数据挖掘和新信息设备采集的方式来获取研究数据,运用传统研究方法进行分析的同时,还应注重新方法的探索来应对日益复杂的城市问题。具体来讲,这就需要在学科层面推动多学科方法的交叉与融合,继续加强居民时空行为和城市空间研究方法的探索,为智慧城市的规划与建设提供依据。
4.1 推进多学科研究方法的交叉与融合
信息技术给众多学科的研究提供了多元与复杂的数据,并使得各学科研究范围逐步扩大。虽然研究的问题因学科性质不同而各有侧重,但研究方法更趋向于从“大数据”的应用和分析着手。因此,学科间研究方法的交叉和融合将成为未来发展的主要趋势。具体来讲,在现有网络数据挖掘、居民行为数据采集与分析及网络地图的可视化开发等技术的基础上,计算机、数学、地理信息系统等学科还需要进一步交叉与融合,推动信息数据获取和应用技术的不断更新,并积极发挥地理信息系统在数据处理和空间研究中的纽带作用。
另一方面,随着信息技术对个体行为和城市空间影响的不断加深,城市中的企业组织、旅游者、文化群体、政府机构等的活动和行为都将发生巨大变化,这就要求城市地理学者注重借鉴社会学、经济地理、文化地理、旅游地理等其他学科的理论和方法来研究快速变化的人类活动和地域空间组织。
4.2 注重居民行为和城市空间研究方法探索
目前,国内外学者对大数据时代的居民时空行为和城市空间研究总体较为薄弱,需要不断探索新的数据来源和研究方法。
一方面,居民时空行为研究较多利用成本较高的信息设备(如GPS、移动手机等)来获取研究数据,对于成本较小、样本量较大的社交网络数据的挖掘较为欠缺,可以充分利用新浪微博的好友关注或发帖数据、街旁网的签到数据及社交论坛数据来研究居民活动和出行特征;另一方面,城市空间研究对大数据时代城市土地利用、城市空间结构、城市空间管治等方面的关注严重不足,未来可以考虑对城市权威主题网站进行充分挖掘。例如,利用大众点评网的点评数据来研究城市服务业的服务质量和空间分布情况,利用搜房网的住房信息来评价城市居住环境质量和空间分布特征,利用智联招聘网中的就业岗位信息来研究城市就业空间结构问题,以及利用百度指数来度量城市各功能区的联系程度等。
信息技术创造了城市的企业网络、产业网络、物联网、社交网络以及信息设备网络,这些信息网络最终都是居民行为和活动的体现,也是信息技术改变城市空间组织的根本。因此,城市地理学者需要关注各类网络中居民行为数据的挖掘和应用,从理论高度来丰富城市时空间行为研究方法体系,并广泛应用于城市规划、社会管理、居民服务等领域。
4.3 指导城市规划编制与管理方法创新
对于城市居民来讲,信息技术正加速改变着人们的生活、居住、工作与休闲方式,导致空间流动性产生复杂变化,需要更加“智慧”的城市空间组织、城市技术体系以及城市管理系统作为支撑。这就要求城市地理学者加强信息技术对地理空间与城市发展影响方面的研究,并引导城市规划编制与管理方法的创新。
具体来讲,大数据时代的城市时空间行为研究可以从4个方面来推动此类创新:①利用城市居民行为研究方法,结合现有居住区规划方法,进行城市详细规划(社区规划)和居民行为规划理念与方法的创新;②利用城市特征、城市空间等研究方法,结合现有城市功能区划、土地利用规划以及交通规划等方法,进行城市总体规划、城市控制性详细规划或城市专项规划理念与方法的创新;③利用城市等级体系研究方法,结合现有城镇人口与用地规模预测以及区域职能判断等方法,进行城镇体系规划理念与方法的创新;④结合城市时空间行为研究方法体系,开发新技术或综合利用多种已有技术来进行城市智能管理信息系统的开发与建设。
图1 基于大数据应用的城市研究方法框架
Fig.1 Methodological framework of urban temporal and spatial behavior research based on big data application