新计算社会学:大数据时代的社会学研究,本文主要内容关键词为:社会学论文,时代论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
新计算社会学(new computational sociology)这一名词在2014年8月美国社会学界举办的“新计算社会学研讨会”上首次提出。在这次会议上,来自美国顶级名校不同学科的学者展示了新计算社会学领域的最新研究成果。在本文中,我们试图回答三个问题:什么是新计算社会学,其产生经历了怎样的历程?新计算社会学包含哪些重要内容?新计算社会学将对社会学研究产生怎样的影响? 一、新计算社会学产生的历程 什么是新计算社会学,目前还没有人给出一个明确的定义。新计算社会学不是一个特定的社会学理论流派,也不是某种特定的研究方法。就现在的情况来看,笔者认为新计算社会学是当代社会学界借助计算机、互联网与人工智能技术等现代科技手段,利用大数据、新方法来获取数据与分析数据,从而研究与解释社会的一种新的范式或思维方式。其目的是要克服既有社会学研究方法的局限与不足,达到对人类行为与社会运行规律的真实认知与科学解释。 笔者认为,新计算社会学的产生是大数据时代社会学发展的必然结果。当代计算机科学、互联网与人工智能技术的发展是新计算社会学产生的基础条件,而社会学家对社会学研究新方法的不懈探索与追求,是新计算社会学产生的内在动力。 社会学从产生、发展到现在,所走过的是一条坎坷不平的道路,正如美国社会学家柯林斯和马科夫斯基所说的,社会学并不是一门不可能的科学,但的确是一门很艰难的科学(柯林斯、马科夫斯基,2006:1-23)。所谓很艰难的科学,主要是指社会学在研究方法上经历了一个艰难探索的过程。 社会学研究方法被作为重要问题进行探索并引起争论开始于20世纪50年代,此时西方社会学的定量研究迅速发展成为主流研究方法。随之而来的是对各种方法的争论。例如,美国纽约1956年召开了一次“社会测量大会”,聚集了一大批当时顶尖的社会科学学者,对社会科学研究方法的发展提出了多种意见与构想。心理学家史蒂文斯(S.S.Stevens)提出社会科学研究需要测量手段的更新(reinvent measurement),社会学家拉扎斯菲尔德(Paul Lazarsfeld)提出需要关注定性研究与定量研究之间的关系问题(Mohr & Ghaziani,2014),等等。这次会议对此后包括社会学在内的社会科学研究方法的发展起到了重要的推动作用,特别是进一步提高了定量方法在社会学研究中的主导地位。 进入20世纪70年代后,由于计算机的发展与广泛使用,以及由此所带来的各种数据分析统计软件的问世,社会学研究在大样本问卷调查、数据的多变量统计建模与分析方面,达到了一个前所未有的水平。与此同时,人们也在积极探索其他研究方法,如进行社会科学实验和开展社会现象的计算机建模研究,等等。 尽管如此,社会学研究方法所面临的问题似乎越来越多、越来越严重。社会学研究方法专家谢宇教授坦承,现在用于研究社会和社会关系的所有方法,包括定量与定性方法,都存在局限性。在他看来,社会学中最明显也是后果最为严重的矛盾是研究方法上的矛盾,社会学也因此而分化为不同的阵营(谢宇,2012:5)。 社会学研究方法所面临的困境,实际上是人类行为研究所受时代条件限制的反映。大数据时代的到来,正在为社会学研究方法突破困境创造条件。 20世纪90年代中后期以来,一系列技术进步使得社会学研究方法的进一步创新成为可能,其中最重要的成就表现在四个方面:其一,社会网络理论与研究方法的发展;其二,人工智能的发展带来新型文本与影音资料处理系统的问世;其三,计算机模拟领域内基于行动者模拟方法(agent-based modeling,ABM)的发展;其四,互联网的快速发展,特别是移动互联网时代的到来。1996年,经济学界先人一步,出版了《计算经济学手册》(Handbook of Computational Economics)第一卷(Amman et al.,1996),正式宣告“计算经济学”的诞生。在最近10年内,正是这些新的理念和技术推动着人们不断探寻社会学研究方法上的突破,为新计算社会学的产生做好了必要的准备,新计算社会学的孕育过程逐渐完成。 2009年,包括哈佛大学教授拉泽尔(Lazer et al.,2009)在内的15名顶级学者在《科学》(Science)上共同署名发表论文,正式提出“计算社会科学”(computational social science)这一概念。文章预言一个以新电脑技术、互联网为基础,具有无限可能性的计算社会科学的产生正在成为现实,甚至在谷歌、雅虎这些大型企业内,已经开始了计算社会科学的研究。过去,我们只能够获取间断的、片面性的社会数据,而如今,借助视频监控、电子邮件、计算机智能命名系统等,社会科学家搜集与处理海量数据的能力得到了空前提升,这正是计算社会科学得以产生的一个重要原因。另一个原因是认知科学的发展。人类对自身认知机制的深入了解,神经生物学、计算机科学以及其他学科的融合,为人类行为研究的计算机模拟提供了条件。拉泽尔教授等人的论文列举了一系列计算社会科学可以大显身手的研究领域或研究对象,由此展示和证明计算社会科学的魅力与发展前景。这些典型例子包括:利用视频监控设备记录婴儿最初两年的所有成长数据,以此来研究婴儿的成长机制;通过收集人们的电子邮件数据研究人们的互动行为;利用“社会测量计”(sociometer,一种形状类似身份卡,可以别在胸口,能够捕捉一定范围内行为者的空间位置、互动情况等信息的电子检测仪器)和手机上的GPS记录软件进行人们行为的时空社会学研究;通过社交网站来收集数据,对每个人的健康、心情与品位及行为方式等众多变量进行测量;通过互联网收集美国政治竞选时期谣言传播的数据,分析谣言传播的模式,特别是可以利用互联网进行以前无法进行或不被允许进行的社会实验;大量的文本资料将能够被数据化……这些新技术的应用,将使得经济学、社会学、政治学等社会科学的研究进入一个新的时代。 在2009年发表的论文中,拉泽尔等人尚认为,所谓的计算社会科学只是由一小部分顶尖的计算机专家、物理学家与社会科学家在共同推动的勇敢事业。但5年之后的今天,拥有这种勇敢精神的社会科学家已越来越多,2014年“新计算社会学研讨会”的召开就是例证。笔者相信,这个由不同学科的社会学研究者共同推动,综合运用当代计算机和互联网及其他高新技术与大数据分析手段的社会学研究方法体系,将会越来越受到社会学学者们的关注,并将有可能成为未来社会学发展的主流。“新计算社会学”中的“新”,其一是指新计算社会学在理念、方法、思路、工具应用等方面比此前的社会学研究中的“计算”都更为先进和复杂。其二是“计算社会学”(computational sociology)这个名词已在瑞泽尔(George Ritzer)2007年出版的《布莱克威尔社会学百科全书》(Blackwell Encyclopedia of Sociology)中出现(Bainbridge,2007),只是该书中“计算社会学”词条的内容与“新计算社会学”不同,为了与之区别,2014年的斯坦福会议才提出“新计算社会学”。 从“计算社会科学”概念提出到“新计算社会学”新名词问世,中间经历了5年时间(2009-2014)。在这5年中,社会学家受到了计算社会科学的启发和影响,但鉴于社会学在社会科学中的独特性,社会学家认为社会学有必要脱离计算社会科学而自立门户。所谓社会学的独特性,是指社会学的研究对象、理论视角和研究方法的要求等与其他社会科学如经济学、政治学存在区别。“计算社会科学”与“新计算社会学”中核心内容都是“计算”,其重点都在于计算机科学、互联网与人工智能技术等的有效应用,只是二者在面对不同研究对象、不同理论解释框架和不同研究方法要求的条件下,“计算”的理路、方法与工具存在差别。 二、新计算社会学的五大内容 新计算社会学的目标是借助各种与社会学研究相关的新技术、新工具、新手段,克服以往社会学研究中存在的各种缺陷与障碍,提高社会学研究的科学性与有效性,开创社会学发展的新时代。要实现这个目标,必须实现社会学研究各个环节、各个方面的创新,因此新计算社会学实际上是一个全面创新的社会学研究方法体系。根据对现已发表的论文和在会议上展示的研究成果的分析,我们将其划分为五个互相关联的组成部分:大数据的获取与分析、质性研究与定量研究的融合、互联网社会实验研究、计算机社会模拟研究和新型社会计算工具的研制与开发。 (一)大数据的获取与分析 数据、资料的获取与分析,是社会学研究的两大关键问题,也正是在这两个环节上,社会学研究受到的批评和诟病甚多。大数据的获取与分析,有望为解决问题找到新的突破口,例如金(King,2009)提出,未来的研究可以从文本内容、选举活动、商业行为、地理位置、健康信息等数据着手,通过大规模与时序性数据的研究改变政治学乃至社会科学的基础。 范德里特等(van de Rijt et al.,2013)关于“名气”的研究是在《美国社会学评论》(American Sociological Review)上最早发表的一篇社会学大数据研究论文。研究者发现,在名气等级体系中,处于底层名气最小的人们确实非常容易被人们遗忘,但在名气体系的上层,即便是在娱乐、电视、博客等看起来非常“健忘”的领域内,个人名气一旦建立,名气的自我增强、职业地位、纪念活动等都能保护个人名气影响力的长期存在。他的研究方法是从报纸上获取个体姓名出现的次数,出现次数越多,代表该人的名气越大(当然,作者也承认这种测量方法本身具有一定的局限性,一个人的名气也有许多是通过其他形式,例如影音资料或者民间口传的形式表现出来的)。作者借助“莉迪亚文本分析系统”(Lydia text analysis system)作为研究工具。该系统利用其“自然语言处理系统”(nature language processing)将文本变成时序化的数据并进行定量分析。作者分析了2004-2009年的2200种美国各类日报与周刊,既有全球性媒体如《时代》(Time)周刊,也有地区报纸如《萨克拉门托报》(Sacramento Bee),期刊的内容更是遍及要闻、政治、体育、时尚、娱乐等各个领域,从这些报刊中,作者提取出了10万个姓名。为保证数据的合理性,删除了大量过于常用的姓名(以保证不会有同名人士多次出现引起测量干扰),也消除了虚构人名、去世人的姓名等干扰。在这10万个姓名中,大多数的名字在媒体上只出现过几次,但也有上百人的姓名出现了1万次以上,从而形成了一份包含姓名及其每天出现次数的“大数据”。接下来,范德里特等对这些人名进行了分布分析与流动性分析,他的数据处理过程并不复杂,只用到了非常简单的社会学统计分析方法,但他的数据搜集与整理的工程却非常繁琐,从几乎全国所有杂志中提取和统计人名,在大数据时代到来之前是无法想象的。 大数据社会学研究所采用的数据量远大于传统的实证社会学研究,与上文相似,加州大学伯克利分校教授梁(Leung,2014)对求职网站进行了一次研究,分析了某求职网站上2000-2004年16569名自由职业者对119648份职业提出的964034次申请;萨韦德拉等(Saavedra et al.,2013)关于股票交易员行为模式的研究更是实时记录了2007年1月1日-2008年12月31日这两年间的30万次详尽的股票交易记录;乌兹等人(Uzzi et al.,2013)与古德和梅西(Golder & Macy,2011)的研究,其数据量达到数千万乃至数亿;米歇尔等(Michel et al.,2011)利用谷歌图书进行的文化分析,研究了1800-2000年200年间英语世界文化的流变趋势,其数据库甚至覆盖了人类所有出版书籍的4%,是大数据研究的里程碑式的成果。 从以上代表性文章来看,大数据与传统数据的区别主要在于三个方面:第一,传统数据样本量一般较小,而大数据论文则动辄数十万、上百万,大数据环境下,样本几乎等于总体,研究者甚至没有进行抽样的必要。第二,传统数据常用问卷调查方法获取,数据主观性高、可信性低,而大数据论文所采用的基本上是“自然数据”,这些数据并不通过问卷获得,而是在现实生活中自动形成,可信度大于传统问卷调查数据。第三,传统数据的产生过程是“搜集”,设计问卷后进行调查,问卷的针对性强,但问卷的应用范围受到限制,为一个研究而进行的问卷数据搜集很难很好地应用于另一项研究,而大数据社会学研究则重在数据的“挖掘”,客观数据并不为任何一个课题而产生,而是对真实世界的自然记录,有利于研究者充分发挥社会学的想象力,可以挖掘的数据无穷无尽,可供研究的领域没有边界。 (二)质性研究与定量研究的融合 如何更加有效地利用文本、影音等质性资料开展研究,是社会学长期以来面临的难题。有效研究方法的缺乏,造成了质性研究与定量研究之间一直无法弥合的鸿沟。大数据时代的到来,为社会学的发展提供了更加有效的研究方法与研究工具,使定量研究与定性研究的融合成为可能。刘易斯等(Lewis et al.,2013)更提出,大数据环境下,计算机方法与人工处理的混合使用,可以让传统的“内容分析”方法得到升华。 在发表于《科学》(Science)上的一篇论文中,古德与梅西(Golder & Macy,2011)研究了人们每天或者每个季度的心情变化。要研究人们心情的变化趋势,通过对传统数据的统计分析可能力有不逮。研究者们通过大数据的应用与文本资料的量化分析很好地解决了这个问题。两位研究者通过数据挖掘技术从社交网站推特①(Twitter)中获取了来自82个国家240万人多达5.09亿条英语推特文。然而,推特文是文本资料而非数据,计算机可以识别却无法进行分析。研究者使用“自动文本分析系统”(linguistic inquiry and word count,LIWC)对推特文进行内容分析。LIWC系统是世界上最先进的文本内容分析软件之一,通过对文本的分析,它能够识别出包括焦虑、愤怒、抑郁等在内的60多种人类情绪,并进一步将其归纳为“积极情绪(PA)与消极情绪(NA)”。通过这样的内容分析,研究者们能够从每一条推特文中识别出该段文字发表时作者的积极或消极情绪。分析结果发现,人们在早上起床时的心情一般都很好,但在一天中会逐渐发生变化;人们在周末更加快乐,但是这种快乐峰值到达的时间要比工作日晚两个小时;人们的情绪会随着季节的变化而发生变化;等等。 与此类似,麦凯尔维等人(McKelvey et al.,2014)也运用同样的方法对3万名用户的11万条推特文进行分析,研究了网民关于国会选举的讨论与他们线下政治行为之间的动态关系;乌兹等人(Uzzi et al.,2013)则对发表在各类学术期刊上的1790万篇文献的质性内容进行了定量分析,探索学术创新的规律及其影响因素,得出了颇有价值的研究结论。此类研究的另一个特点是“可视化”方法的成功应用,许多质性数据并不一定要进行复杂的模型研究,往往只需要实现简单的可视化处理,就足以揭示出非常重要的现象与规律。 定性研究与定量研究融合的关键是文本资料分析工具的研制与开发。从现在的情况来看,虽然这个领域的研究工作还刚刚起步,尚有很多问题需要解决,但其发展的速度很快,在短短的几年时间内已经研制、开发出多种文本内容分析软件系统工具。随着该领域研究工作的步步深入,各种更为先进、精细的文本分析工具(包括中文分析工具)会不断问世,真正实现定性与定量研究的融合只是时间问题,由此引发的将不仅是研究方法上的创新,更为重要的是导致人文社会科学研究理念和思维方式上的变革。 (三)社会学互联网实验研究 社会学的研究方法体系中早就有实验方法的位置,而且也有运用实验方法开展社会学研究的先例。但社会学界对实验方法一直存有戒心,因为运用实验方法来研究社会现象的确存在诸多难以克服的弊端和障碍。运用互联网这个平台来进行社会学的实验研究,是一种创新,而且有可能使实验法成为未来社会学研究的主流方法。 萨尔甘尼克等人(Salganik et al.,2006)进行的关于文化产品市场不公平性的社会实验开启了互联网社会实验研究的先河。他提出一个问题:文化产品在市场上的流行程度受什么影响?一种观点认为市场中产品的质量决定它是否受欢迎;另一种观点则认为市场是不公平的,存在着“超级巨星效应”或者“赢者通吃”(winner-take-all)现象,因为人们对文化产品的选择受到其他人选择行为的影响。为了研究这个问题,研究者在互联网上邀请了14341名参与实验者,为他们提供48首从未面世的歌曲,并邀请这些参与者根据自己的喜好为这些歌曲打分或下载。参与者分为两组(实验组和控制组),实验组能够浏览别人对歌曲的评价,控制组则不能了解其他人对歌曲的评价。实验歌曲按随机排列的顺序同时提供给实验组和控制组。实验结果发现,在控制组中受欢迎的歌曲在实验组中更加受欢迎,表明人们对歌曲的评价受到了他人评价的影响,即存在所谓“赢者通吃”的现象。在更进一步的实验中,实验组成员看到的歌曲不再随机排列,而是根据下载量排列,控制组依然不能看到他人的评价,他们看到的歌曲依然随机排列。实验结果显示,实验组和控制组对受欢迎歌曲评价的差别进一步扩大。这个实验研究得出结论:首先,对文化产品而言,质量是关键的,因为无论是控制组(每个人单独对文化产品进行评价)还是实验组(每个人在参考他人评价的情况下选择文化产品),质量好的文化产品都更加受欢迎。其次,“赢者通吃”的现象确实存在,在他人选择行为的影响下,控制组中受好评的产品在实验组中更受好评,这说明文化产品市场上确实存在不平等性。 与此相似,麻省理工学院的森托拉(Centola,2010)对1528名实验参与者进行的社会网络中行为传播的研究、特维克瓦与梅西(Tsvetkova & Macy,2014)进行的关于“慷慨”的社会“传染”实验都是社会学互联网实验研究的上佳之作。范德里特等(van de Rijt et al.,2014)关于个体成就的互联网实验更是通过四个公众网站,进行了四场社会学实验,成功地实现了互联网实验的“组合拳”研究。 社会学互联网实验是一种全新的实验方法,是真正理想的在自然条件下进行的社会实验研究。这种实验研究的优势在于,它不仅可以消除传统社会实验研究存在的某些弊端,如“霍桑效应”等,尤其是不受时间和空间的限制,这为社会学提供了通过互联网实验研究人类行为与社会现象的无限可能性,设计巧妙的互联网社会实验将会极大地扩展和丰富社会学家的社会学想象力。 (四)ABM模拟方法在社会学研究中的运用 社会学的计算机模拟研究方法已经发展到第三代,即“基于行动者的模拟方法”(agent-based modeling,ABM)。 最早的社会学计算机模拟研究产生于20世纪60年代,其理论基础是结构功能主义学说,重视的是对宏观变量如组织、企业、城市、人口发展变化等的模拟,也就是在历史数据的支持下,模拟宏观社会现象的演化路径。从20世纪70年代开始,微观模拟逐步取代宏观模拟。研究者通过对微观个体行为的观察与测量获取数据,由此对个体的行为进行演化模拟与推测,了解个体行为决策的机制(Macy & Wilier,2002)。20世纪90年代后,第三代社会学计算机模拟——基于行动者的建模方法由阿克塞尔罗德(Axelrod,1997)所进行的计算机模拟囚徒困境全球竞赛首开先河。他在全世界邀请多学科专家编写以囚徒困境为博弈规则的计算机竞赛程序,让这些计算机程序进行博弈,以博弈的收益高低(得分多少)计算成败。竞赛结果,一个在所有程序中最短小精悍(一共只有4行程序)被称为“一报还一报”(tit for tat)的程序获得冠军。此后问世的“人工股市模拟”(artificial stock modeling)(Arthur et al.,1997)更进一步,不仅利用计算机程序模拟人的行为,更让程序具有了自我学习的能力,使之更加接近复杂与互动过程中不断变化的真实世界,因此开创了基于行动者(agent)模拟方法在行为金融学中应用的新领域。哈平(Halpin,1999)、吉尔伯特(Gilbert,1999)、勒巴龙(LeBaron,2011)等也先后对新型计算机模拟方法在社会科学研究中的运用做出了贡献。此外,梅西与威勒(Macy & Wilier,2002)还对ABM模拟方法进行过深入的理论探索和系统总结。我国学者对ABM在社会科学中的应用也早已开始,如沙莲香教授等人(2007)曾经运用ABM方法进行过社会心理学问题的研究。尤其值得关注的是,计算机模拟可以描述微观层面上的行动者互动如何演化为宏观层面上的社会现象,因而这种方法预示着一种连接微观与宏观、理论与实证的可能性,2005年赫斯特洛姆(Peter Hedstrom)在《解析社会:分析社会学原理》(赫斯特洛姆,2010)中通过一个关于互动与失业的ABM模型,向我们展示了ABM模型的可观前景。 关于ABM方法在社会学研究中的具体运用,曼佐和波尔多萨里(Manzo & Baldassarri,2014)关于社会地位形成机制的研究为我们提供了很好的案例。在这项研究中,研究者假设,一个人社会地位的获得取决于其他人对他的“礼敬”态度,人们对他越礼敬、越尊重,他的社会地位越高。社会中存在两种互相冲突的机制来决定一个人得到的“礼敬”,分别是制造不平等的“社会影响”(social influence)机制和限制不平等的“相互礼敬”(reciprocation in deferenctial gestures)机制。“社会影响”机制遵从现实法则,一个人的成就如财富、权力越高,其他人对他的评价就越高,因而对他越礼敬尊重,社会地位也就越高。在这种机制中,对他人的“评价”等于对他人的“礼敬”,因而这种机制追求“公平”而不是“平等”。“相互礼敬”机制则只关注人与人之间的互相尊重,一个人如果对他人足够尊重,他人也会反过来给予他较高的“礼敬”,从而获得较高的社会地位,反之亦然。因此,这种机制中对他人的“评价”与对他人的“礼敬”并不一定相等,人与人的互相尊重能够促进人与人社会地位的平等。 研究者在计算机中构建了包含30名行动者的虚拟空间,每名行动者具有不同的内在素质(instrinsic quality)Q,代表该名行动者的成就。互动中的行动者对彼此的素质进行评价,得到评价值q,并根据这个评价值来赋予对方一定的“礼敬”a,行动者在多次互动中收获到礼敬的总量决定每个人的社会地位S,这样的过程重复N次“迭代”。 N次迭代后,如果社会地位S与内在素质Q高度一致,则说明成就越高社会地位越高,遵从的是公平但不平等的“社会影响”机制,否则说明“相互礼敬”的机制发挥了作用,社会地位分层更趋向于平等。 在第1次迭代时,有公式新的计算社会学:大数据时代的社会学研究_社会学论文
新的计算社会学:大数据时代的社会学研究_社会学论文
下载Doc文档