“大数据”热潮下人文地理学研究的再思考,本文主要内容关键词为:人文地理学论文,热潮论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修订日期:2015-03-23 DOI:10.11821/dlyj201505001 1 “大数据”:人文地理学研究的新机遇 近年来,“大数据”已经渗透到全球范围内社会经济的各个领域,成为一个热点话题。在等的《“大数据”时代:生活、工作与思维方式的大变革》中,特别指出信息时代的“大数据”正在开启一次重大的时代转型,带来了生活、工作与思维的大变革[1]。与此同时,“大数据”所蕴含的科学研究价值也吸引了众多学者的关注和重视。“大数据”已经发展为重要的研究领域,并成为许多学科的热点与主流[2,3]。2008年9月4日Nature杂志专门推出“大数据”的专刊,凸显“大数据”在各领域的研究与应用价值[4]。虽然,已有不少关于“大数据”与社会发展之间关系的深刻讨论[5-7],但较少涉及“大数据”与人文地理学研究之间的关系,特别是对于“大数据”与“大数据”背后的空间内容、空间进程间的关系。在人文地理学领域,带有地理空间信息的“大数据”直到最近才开始受到人文地理学者的关注[8]。 “大数据”,可以理解为信息时代背景下社会科学研究可能出现的新范式,是区别于传统的基于“小数据”的研究范式。在传统范式下,研究起源于问题发现,基于问题再收集相关数据。但由于时间和经费的限制,数据收集往往限制在小范围内的抽样调研。虽然数据的规模有限,但都是针对于研究问题,并经过分析回应相应的研究假设。而在新的范式下,研究可能起源于数据。由于获取数据的便利性,往往尽可能多地收集所有不同类型的数据,进而去寻找数据间的相关性或客观存在的规律,以期待回答未知的研究问题。人文地理学,作为研究社会经济空间组织和人地关系的一门学科,一直以来注重对空间的思考。随着带有地理空间信息的数据成为“大数据”的重要组成部分,基于“大数据”的空间分析给人文地理学研究带来了新的发展机遇,并引发了近期人文地理学研究的“大数据”热潮[9]。 1.1 “大数据”的定义、特征与类型 总的来看,当前仍然没有形成对“大数据”统一的定义。早在17世纪,哲学家们使用“数据”这一词汇,专指真实的、反映事实的相关信息[9]。长期以来,研究过程中的“数据”指的是依据某些传统调研方法(例如:问卷、访谈、日志等)收集的信息,以及这些信息所抽象表达出来的意义。进入20世纪80年代,信息通信技术的进步改变了人类的生活方式,加速了信息的存储、交换与计算过程。特别是互联网的使用,遗留下大量的数据“痕迹”,而且产生的速度也是日益增倍。据Hilbert等的研究表明,仅2007年人类大约存储了超过300EB的数据,而人类存储信息量的增长速度比世界经济的增长速度快4倍[10]。这一海量的数据被形象的称为“大数据”,这一定义突出体现了数据规模大的特征。但是,“大”反映的是一个相对的数据规模增长趋势,仅仅突出数据规模是远远不够的,而且可能造成误解。其实,在“大数据”被关注之前,就已经存在不少基于传统调研方法的大样本数据。因此,如何界定“大”非常困难。规模大只是“大数据”的一个特征,并且规模划定的标准也会随着技术的进步与时间的积累而变化,不应该是对“大数据”的定义。更要认识到,“大数据”是区别于以往传统数据的新的数据类型。 基于已有的研究成果[1,5,11,12],“大数据”的主要特征包括:①数据规模大,超过以往研究的数据规模,甚至超过当前研究人员所能掌控的数据规模;②数据生产速度快,基于大量的智能终端设备及互联网,每分每秒都在产生并传播海量的数据信息;③数据来源与类型多元化,缺乏一定的数据过滤与合成机制,既包含结构型数据也有非结构型数据;④数据覆盖面广,由于互联网的不断普及,数据几乎能够涵盖到所针对的所有人群代表;⑤数据细节丰富,且节约数据输入、存储、编译的时间费用;⑥数据间存在相关性,不同类型的数据之间存在一些方面的共性,从而能够累计与整合不同的数据类型;⑦数据有弹性,既可以灵活链接其他的数据类型,也可以随时增加数据规模;⑧数据的空间属性,随着位置感知设备、基于位置服务技术及其他相关技术的发展及应用,越来越多的数据携带了地理位置信息;⑨数据来源不明晰,由于数据来自各个方面(个人或群体),缺乏对数据质量和样本抽取的控制。 简单来看,“大数据”可以大致划分为三种类型:直接观测型、自动获取型与自愿贡献型。①直接观测型主要是指由各种电子监视器等(例如道路卡口摄像头)直接观测的数据,往往针对某一特定地方或人(群)。②自动获取型数据是由于电子信息设备或相关网络应用程序的使用而自动留下的网络“痕迹”。例如网络中留下的搜索与浏览记录;网络购物留下的交易数据、快递包裹留下的转运记录;出租车GPS记录的时空出行路线、智能公交卡记录的上下车出行记录;手机基站检测得到的手机用户位置、手机用户间的通信记录等。③自愿贡献型数据是人们自愿在网络上发布或分享的数据,主要是社交网站上使用者的相互作用,例如社交网站签到留下的时空数据、社交网站用户的社交关系网络、社交网站用户的相关言论,以及Frickr等分享网站上游客上传的照片信息等。 1.2 “大数据”为人文地理学研究带来新机遇 “大数据”提供了丰富的、详细的、实时的信息,有助于社会科学家更加全面、大尺度、精细化地研究各类社会科学问题,为社会科学研究提供了新范式的转型机遇:即从数据缺乏到数据充裕,从静态分析到动态展现,从单一研究假设与简单模型到复杂理论与模型。从实证主义来看,“大数据”为社会科学提供了计量革命的新契机;“数据导向”的新范式将挑战传统社会科学研究基于归纳、演绎等程序的认识论[13-16]。考虑到越来越多的“大数据”携带的地理空间属性[17],无疑也为关注空间的人文地理学研究的发展提供了新的机遇。同时,更加重要的是,在当前社会科学空间转向的大前提下,“大数据”为人文地理学在整个社会科学领域内争取更多的关注与重视提供了新的契机。 从人文地理学的发展历程来看,“大数据”也契合了人文地理学“计量转向”与“社会转向”的发展规律。1950年代,得益于计算机处理数据能力的提升,人文地理学研究出现了“计量转向”。数量模型的引入提供了空间研究的方法基础,避免了简单的、抽象的、定性的约束。特别是Schaefer等倡导地理学是一门追求普遍规律的实证主义科学,并力图借助数学模型等工具发现空间法则[18]。这一转向引导了人文地理学与自然地理学走上不同的发展道路[19-21],数理理论的引入使人文地理学在社会科学研究中得到更多的承认与声誉。如今,“大数据”提供的大规模的、精细的、带有地理空间属性的信息无疑为人文地理学者挖掘空间规律(或是寻找相关性的客观存在),回答未知的新问题提供了新机遇。既包括此前“小数据”难以发现的规律,也包括新数据类型(如微博数据、公交刷卡数据、出租车数据、手机通信数据等)可能发现的新研究问题。 进入20世纪90年代,人文地理学出现了社会与文化的研究转向,开始关注社会人、道德人和充满个性的“个人”,而不仅仅是经济人或机械的人口数量[22-24]。政治、社会、文化等因素在塑造空间体系的作用得到重视,个体的价值观、个性、情感、心理等要素开始被关注。基于个体记录的“大数据”,为人文地理学研究提供了丰富的个体行为数据,从而为人文地理学者构建更加复杂的模型,动态分析个体与地方以及个体之间的关系,描绘人地互动的过程及格局提供了新的可能。特别是作为人口集聚的城市,“大数据”为动态实时掌握城市发展和运行的情况(例如:交通系统、基础设施系统、自然环境等),为预防和解决城市问题提供了新的方法和手段。同时,“大数据”也为人文地理学提供了涵盖自然科学与社会科学的跨学科平台,从而可能为社会研究带来创新的机遇,也有利于扩大人文地理学的影响力。 2 “大数据”:新机遇下潜伏的危机与挑战 “大数据”为人文地理学研究提供新机遇,带来“大数据”的研究热潮。但同时,人文地理学者也不能忽视潜伏在这个学科未来发展中可能出现的危机与挑战,需要辩证的思考,具体反映在认识论、方法与数据本身三个方面。 2.1 数据决定论:数据并不是知识 作为“大数据”的信奉者,Anderson在Wired Magzine的一篇评述中强调“大数据”可能带来理论的终结(the end of theory)和传统科学方法的过时(obsolescence of traditional methodology),因为仅仅依靠“大数据”就足以直观地了解所发生的各种现象,简单的数字就能表达一切(number speaks for themselves)[25]。在评述中,Anderson提到:“谁会明白人们为什么那么做?重要的是他们做了什么。有了足够多的详细数据,研究人员就可以跟踪和了解大家都在做什么;研究人员分析数据时不再需要前提假设和预测结果,我们只需要把这些数据扔进数据处理器中,让数据自己去寻找相关性;在这一背景下,相关关系比因果关系更加重要,有助于新的科学规律或知识在未知理论或相关模型的基础上被发现”[25]。虽然Anderson的这一鼓吹受到很多批评,但是却引申了众多关于“大数据”与知识创造的讨论:在“大数据”背景下,“大数据”在研究过程与知识生产过程中扮演着什么样的角色?特别是考虑到当前越来越多的数据被电子化并可能成为研究的主要数据来源,以及研究人员逐渐提升的数据收集、分析与空间可视化技术,“大数据”是否会为人文地理学者提供创造知识、追寻真理的新途径? 基于Anderson的数据决定论,不得不重新审视科学研究中的认识论问题,思考数据与知识的区别。“大数据”作为一种新方法和新技术,为人文地理学研究提供了新的数据类型乃至新的研究范式,为新知识的创造提供了新的机遇。但是,“大数据”本身并不是知识,简单的数字无法表达知识。即使在“大数据”背景下,科学研究也应该坚持对数据确定性的追求以及从这些冗杂的数据库中提取有用和有效的信息,而这一过程显然不是简单的数据本身就可以解决的[22]。在人文地理学研究中,特别是伴随着“计量转向”与“实证主义”的盛行,人文地理学者更应当重视数据与知识的思考。显然,研究人员不能为了数据而去收集数据,仅仅因为这些空间数据存在着并且可以被获取。Porter曾经指出:“虽然定量研究一直致力于在研究过程中利用数据来反映客观实际,但是数据从来就不会自己表达,数据的采集、分析与结论的获得都是基于研究人员已有的认知与相关的研究假设”[26]。数据仅仅是服务于理论的工具,是为了证明理论的前提与假设。同时,在数据的处理过程中,信息大多被编译为数字,从而遗失了大量的“情景”信息,以至于这些“情景”信息很难在定量研究的数理模型中得到体现,从而难以全面反映客观而又复杂的事实存在[27],甚至可能产生错误的、曲解的结果。另外,相关性虽然反映了两组变量间的关系,但却难以说明为什么这两组变量是相关的。以人类活动的空间数据为例,虽然能够借助“大数据”反映活动空间的变化情况,却仍然难以仅仅通过这些数据去说明人们为什么集聚到这些地方,以及如何集聚等问题。而正是“为什么”、“如何”等这些空间背后的机制问题,更有待于人文地理学者的研究。这些问题的回答,显然离不开基于因果解释的理论框架与机制分析,仅仅依靠数据的空间可视化分析是不够的。因此,数据与知识之间仍然存在明显的界限,数据的累加并不完全等同于知识的进步。丰富的数据源给人文地理学研究带来了新机遇,但是数据决定论的认识论并不利于人文地理学研究的健康发展。例如,可能带来对“小数据”研究、质性研究价值的逐渐忽视和相关研究经费资助的逐渐减少。 2.2 数据处理与分析:方法准备的不足 随着GIS技术的快速发展,虽然在数据收集、空间可视化方面取得了较大的进展。但面对动态而又冗杂的“大数据”,人文地理学研究仍然缺乏相对应的、与时俱进的数据分析方法。从人文地理学来看,一方面数据的收集与分析仍然局限在小众的领域,主要是对问卷或访谈采集到的小规模数据进行针对性分析。“大数据”并没有得到普及,甚至也没有纳入到相关的教育培训中;另一方面,作为一门关注空间的学科,仍然面临着如何将这些结构化与非结构化的数据落实到空间坐标上的挑战[28,29]。因此,人文地理学研究亟需处理与分析“大数据”的新方法与手段[9]。 同时,更加重要的是研究人员如何从冗杂的数据中提取有效的信息。人文地理学者采集与可视化空间数据的研究成果能够在多大程度上真实反映人类社会活动在空间上的投影,似乎仍然没有得到有效的验证。虽然大规模的数据能够尽可能地覆盖更多的样本,但是同样面临着样本采集偏差与代表性的问题,从而关系到结论的可信程度。而对于互联网数据的挖掘与分析,除了数据代表性的问题,还更应当谨慎对待分析结果,注重与线下数据以及相关理论分析的对接。例如Ginsberg等对流感搜索空间数据的分析与实际流感就诊量空间数据的对比分析[30]。这其中,如何将网络数据与线下数据更加有效的结合,也面临着新的挑战。更进一步看,随着收集数据的累加,数据分析方法(特别是GIS技术)的突破将有可能带来新一轮的“计量革命”,并直接影响到“大数据”热潮下的人文地理学研究成果。 2.3 数据危机:隐私、尺度与边界 仅仅从数据本身来看,也面临着不少挑战与危机。首先是数据的隐私问题。随着信息通讯技术、相关电子设备及应用程序(APP)在人们日常生活中的普及,有关个人的信息也在不断地产生并成为网络中的“痕迹”。这些“痕迹”的增多,足以帮助研究者去有效识别和描绘特定的个体或群体,但却使每个使用者的隐私完全暴露在研究者或数据所有者面前。在当今的信息时代,要控制这些数据的产生已不大现实。对于人文地理学的研究而言,问题的关键在于如何去保护数据的隐私,以及如何建立一套数据使用伦理的标准体系。 其次,大规模且实时更新的“大数据”也亟需研究人员寻找数据收集在时间与空间上的合适尺度。例如,集中在小空间尺度的数据,有助于把握更多的空间细节,但可能丢失对总体空间趋势的把握;而集中在大空间尺度的数据,有助于把握总体空间趋势,但可能隐藏了空间背后的细节及作用机制。并且,由于数据规模是实时更新的,数据采集的时间段及划分也非常重要,并可能影响到最终的分析结果。这其中,时间段的选取也有赖于已有的相关理论,以及对于不同时间段结果变化分析的实证积累。 同时,冗杂的数据规模有赖于研究者找到合适的方法筛选出有针对性的信息,从而更加聚焦于研究问题。在这一过程中,必然需要过滤掉研究问题边界外冗余的信息(例如,关键词的分析与提取)。但是,这其中却可能存在着数据偏差与代表性的问题。从如此庞杂的数据库中提取有效的信息,并且保证在过滤过程中没有信息的丢失,也是一个非常有挑战性的工作[31]。 3 “大数据”:盛宴下人文地理学发展的反思 当前快速发展的信息通信技术,使得“大数据”无论在数据量还是具体的数据类型方面都将进一步充实,并成为众多学科关注的新数据来源。“大数据”在给人文地理学研究带来机遇的同时,也给整个学科的发展带来了潜伏的危机与挑战。在这样一场数据导向的研究盛宴下,更应当去反思学科的发展,如何在这一背景下促进学科自身的发展并扩大整个学科的影响力。 3.1 定量研究与质性研究 需要反思的是在“大数据”背景下,人文地理学研究可能出现对定量研究的更多关注和对质性研究的更多忽视。正如Harvey对地理学“计量转向”的无情批评:“沿着地理学的计量转向,我们将越来越少获得真正有价值的知识。显然,这一转向正在呈现出我们所使用的复杂理论和方法模型与我们实际所阐述事实之间的巨大差异”[32]。“大数据”可能使数理模型成为地理学者膜拜与迷恋的工具,从而可能带来对数理模型建模和评价的集中关注,却忽视了数理模型所要追求与反映的知识。对于这一点,不少社会科学学者也反思,虽然社会科学一直在追求通过定量分析来反映客观实际,但是社会科学却从来也没有达到这一目标[33,34]。“大数据”在一定程度上确实提供了使整个学科更“硬”、更加客观的新途径。可是,正如前文分析指出,在数据的采集、筛选与空间分析过程中仍然无法避免研究人员的主观意识。 此外,对于定量研究与质性研究的区分一直存在着“质性研究的工作是主观的,是在讲故事,而定量研究则是客观的事实”的错误理解。在这一错误理解的基础上,“大数据”在给定量研究带来的机遇的同时,可能进一步加深这两者之间的对立。追求客观事实一直是科学哲学关注的重点问题,研究人员一直信奉着尽可能排除主观因素来客观反映事实存在。只有经历重复检验的研究假设才能被认可为知识体系的进步。然而,对于关注社会,关注人与空间关系的人文地理学,却不得不面对复杂的个体与社会,很难脱离特殊的地方情景与历史情景,实验的重复性难以企及(这也是这个学科常常被批评“软”的根本原因之一)。其实,不论是质性研究还是定量研究,都可统一地理解为对原始数据的再阐述。正如Gitelman所指出的,每一个学科都有针对原始数据处理和再阐述的一套标准,不应当去严格地区分定量研究与质性研究的区别,应重在对事实的真实阐述和反映[35]。因此,在“大数据”时代背景下,定量研究与定性研究在人文地理学研究中应当给予同等的重视。 3.2 “小数据”与“大数据” 应当警惕在“大数据”背景下,对传统“小数据”研究的忽视。正如前文分析指出,“大数据”虽然覆盖了更多的样本,但同样存在着样本偏差与代表性的问题。如何减少样本的偏差并不取决于数据的大小,而是取决于数据处理的方法和手段。在社会科学研究中,研究人员为了严谨的成果一直坚守着数据采集与分析过程中的严格标准,包括在研究设计中对抽样样本的控制,在数据分析过程对统计学意义的测量等。数据规模的增大并不意味着数据采集与分析方法重要性的降低。特别是在人文地理学研究中,如何界定数据的尺度与边界,如何合适的筛选出有用的信息都直接影响着分析结果的正确性。 同时,数据从来就不会自己表达一切。相反,从数据到知识的过程,有赖于人文地理学者的挖掘与提炼。数据仅仅是服务于理论的工具,是为了证明某一研究假设而采取一定的方法去采集与分析的。因此,关键仍然在于研究问题的设定,发现新的知识并不依赖于数据规模的大小,不应当忽视“小数据”的价值。相反,人文地理学者更应当结合研究问题,基于“小数据”与“大数据”在采集过程中的难易度以及分析问题中的优劣势,做出合理的选择。当前,人文地理学者不仅需要“大数据”来可视化空间,寻找外在的空间规律,更需要进一步挖掘背后的空间机制。这其中,可以对比和运用传统“小数据”与传统理论的分析,发挥“大数据”对整体趋势的把握以及“小数据”对具体细节的捕捉。 3.3 数据垄断与跨学科合作 “大数据”虽然在不断积累,但是要获得这些数据却并不是一件容易的事情,尤其是要想获得持续的、可对比的数据。由于这些“大数据”大多是掌控在政府及各部门以及公司手上,基于不同的利益考虑,这可能会由于数据垄断而产生新的“数据鸿沟”。因此,对于急于获取数据的人文地理学者而言,只有与相应的政府各及各部门,或相应公司的协商,或者是借助计算机科学的数据挖掘技术,否则将很难获得这些数据。可见,数据获取机会将直接带来研究发展上的差异,从而可能错失许多潜在研究的机会。 同时,即使获得这些数据,在数据分析方法上仍然与其他学科存在一定差距,这就更加要求人文地理学需要加强与其他学科(例如计算机学、统计学等)的合作。在“大数据”处理与分析上进行跨学科的合作可能成为未来人文地理学发展的新趋势。 4 结论与讨论 中国快速发展的互联网经济和正在进行的智慧城市建设,促使我们日益处于一个被“大数据”热潮所包围的环境之中。尽管国际著名学者Michael I Jordan在接受IEEE《频谱》杂志采访时,指出大数据可能只是一场“空欢喜”,大数据的“冬天”即将到来等论调,却丝毫没有阻止国内对大数据研究的关注。 人文地理学是一个研究内容丰富的学科,表现为不同的方法论、认识论范式与实践的竞争与共存。从Hartshome[36]和Schaefer[18]的争论到对定量研究的反思,人文地理学者一直在寻找学科发展的方向,如何去开展研究,如何理解、分析和评价人与空间的相互作用。面对大数据带来的冲击,人文地理学者一方面需要去积极探索、实践和创新;另一方面,也需要对大数据的应用进行冷静思考,重新审视数据分析在人文地理学研究中的价值,反思学科过去与当前的发展态势。 展望未来,如何抓住机遇,并应对面临的挑战,将关系到人文地理学整个学科的发展及其在整个社会科学研究中的地位。“大数据”提供了大量的带有地理空间信息的数据,为人文地理学研究的发展提供了新的机遇,也契合了人文地理学人本主义的发展趋势。但同时,也面临着数据决定论、技术主义、数据分析方法准备不足以及数据本身的危机与挑战。在这一背景下,无论是定量研究还是定性研究,“小数据”还是“大数据”的研究都应当给予同样的重视,数据采集、分析、阐述与数据规模并无主要的关联。要避免“迷恋”于数据分析和可视化技能,而忽视对人文地理问题长期的跟踪与持续的研究。并且,应当警惕数据垄断可能带来研究的“数字鸿沟”,并呼吁人文地理学研究更多的与其他学科进行跨学科合作。标签:人文地理论文; 定量研究论文; 大数据论文; 空间数据论文; 地理学论文; 空间分析论文; 数据与信息论文; 地理论文; 信息发展论文;