政治运动中情绪、舆论与股市的相关性研究--香港“被占领中心”运动中Twitter情绪指数、民意调查与股市指数的比较_社交网络论文

政治运动中情感、民意与股市的相关性研究——香港“占领中环”运动中推特情感指数与民意测验、股市指数的比较,本文主要内容关键词为:股市论文,指数论文,情感论文,民意测验论文,相关性论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      【中图分类号】G210 【文献标识码】A

      新兴电子计算机技术的发展催生了互联网社交平台的出现[1]并促使其发展繁荣,并在这个过程中迅速改变着人类的传播生态。特别地,基于计算机技术的传播方式(Computer—mediated Communication,CMC)消解了信息传播者和接收者之间的界限,降低了把关人作用(Gatekeeping),并为传播引入了新的技术[1,2]。

      虽然赛博空间(Cyberspace)目前依然受到不同程度的政府控制、利益集团操纵和商业营销的影响,但不可否认的是越来越多的对话和讨论正在赛博空间中进行。互联网上的公共讨论(Discourse)拓展了公共领域(Public Sphere)的范围[3],社交媒体上的对话促进了信息扩散(Information Diffusion)。先前的学者基于信息扩散做了相关研究,旨在理解信息扩散的内容和作用。从内容上看,信息扩散是一个信息通过一定数量的人口进行传播的过程。同时,这个扩散过程也是民意(public opinion)形成的原因。研究者发现,民意可以在不同的态度表达、信息分享和政治讨论等公共意见表达(public expression)过程中形成。由于基于互联网和移动互联网的社交平台的迅速兴起,公民的态度表达、信息分享和公共意见表达都得到促进和增加。

      按照传播学界的通用标准,当一种媒介的用户人数达到总人口比例的20%及以上时,其就可以被认为是大众媒介。目前,世界各国社交媒体用户人数持续攀升。在美国,四分之三的成年人都会在社交网站上分享信息,相比之下推特的用户来说尤其年轻:在美国使用推特的人群中,有30%年龄都在30岁以下。在中国,根据中国互联网络信息中心CNNIC2015年1月发布的第35次《中国互联网络发展状况统计报告》指出,截至2014年12月,中国网民规模达到6.49亿,互联网普及率为47.9%,其中使用互联网微博/博客/论坛/BBS等社交平台的用户规模达到48688万[4]。早在2004年,香港互联网渗透率已达51%,遥遥领先于深圳。有数据显示,香港网民用于社交网站的时间平均已经超过了每周7.7小时[5]。社交媒体在香港地区具有相当数量的用户规模和用户基础。

      在以推特和脸书为代表的社交媒体上,传播者和受众的界限被消解,用户在接受信息的同时也成为信息的发布者。与传统新闻媒体不同,用户在推特和脸书等社交媒体上发布的内容不需要经过第三方的编辑,因此能够更直接地反映信息发布者的意见(opinions),经验(experiences),以及对时事(facts)的态度和问题(questions)[6]。传播学大师马歇尔·麦克卢汉(Marshall McLuhan)于上世纪提出的“地球村”理论,在如今的社交媒体时代更显现其价值。在麦克卢汉看来,“地球村”的形成不仅是由于媒介的发展使世界各地的居民都能轻易的进行沟通,人们的交往方式以及人的社会和文化形态也发生重大的改变。由于技术革新和社交网络的繁荣让人们容易地超越地理空间的限制与其他兴趣相投的人交流,Flache & Macy[7]提出在网络上出现共同体的趋势将无可避免。在“地球村”中,对于个体来说,能够在世界范围内轻松寻找交流的对象,人们似乎找到一个志趣相投的人不断互动,反过来又会加强意见极化(polarization)和党派偏见(partisanship behaviors)[8,9],对政治施加影响。

      除此之外,研究者开始关注社交媒体在增强个体公民(individual citizen)在政治参与方面的潜能[10]。社交媒体在承担为受众提供娱乐服务和信息分享功能的同时,也开始影响现实世界中的政治。社交媒体曾被用作组织政治运动甚至游行和反抗活动的工具,例如在“阿拉伯之春”(Arab Spring)事件中,组织者在推特上号召民众参与政治抗议,并演变成了较大范围的政治抗议事件[11]。而在瑞典和德国甚至出现了在社交媒体上建立的党派“Pirate Party”并在网上选举候选人。

      在众多兴起的社交媒体中,推特(Twitter)因其在世界范围内提供方便的微博客服务(micro blogging service)而受到欢迎。除了普通民众,政客也倾向于利用推特作为非正式的渠道表达一些想法和信念而无需太多地考虑结果,并把推特作为倾听选民声音的方便的渠道。

      以往,民意测验一直是民意评估的主导性工具,特别是针对政治议题[12]。然而,随着信息技术的飞速发展和世界范围内文字型(text—based)社交媒体的繁荣,社交媒体中的民意测验已经成为一种了解民意的新方法。与传统的民意测验相比,这种新方法更加有效率和易进行并节省成本。

      在新的民意评估工具的帮助下,有研究者开始尝试用社交媒体作为预测选举结果、评估政客受欢迎程度以及比较网络政治意见与传统手段获取的政治意见。2009年联邦德国选举时,有研究团队分析了100000条提及至少一个党派的推特,他们惊奇地发现,仅仅从数量上就精确地反映了选举的最终结果,并总结出一段时间内推特对某位政治选举候选人的提及数量是对选举结果的有效预测因素。类似的研究也比较了推特中对某位候选者的提及数量和最终选举结果之间的联系,结果也是二者显著性相关[13]。

      在这些研究中,最基本的假设就是越来越多的人通过进入互联网并通过社交媒体进行公共表达(public expression),在某种程度上,社交媒体使用者的意愿可以代表社会整体民意。然而这种代表性却面临着经验主义和理论上的挑战。首先,进入互联网的人群分布并不平均。并非所有年龄、性别、种族、社会群体都在互联网上得到充分的代表[14]。其次,在社交媒体上的政治交流中,自我选择性偏见(self—selection bias)十分普遍。社交媒体上的政治内容产生于本身就是政治活跃分子的用户[15,16],因此,沉默的大多数(the silent majority)是一个大问题。有许多用户不愿意在社交网络上公开发表自己的政治主张[17],这可能造成通过UGC挖掘到的受众情感很可能只是政治活跃分子的意愿[18]。除此之外,还有研究者指出,社交媒体上的内容绝大部分关注在娱乐(entertainment)和情感表达(emotional expression)上,因此不适合严肃科学问题的研究[19]。

      在以往的研究中,大多把重点放在与特定政治事件相关的信息数量上。例如,Cheng and Tai曾经比较过关于“占领华尔街”(Occupying Wall street)与真实世界的舆论指标——民意测验、媒体报道和股票指数。Cheng和Tai的研究显示出推特流和现实指标并没有明显的统计学相关性。然而,在此研究中,Cheng和Tai并没有将情感因素(sentiment factors)进行考虑。他们仅仅从推特流的数量上进行比较分析,而仅仅通过统计推特的数量似乎很难准确地反映舆论。先前的学者曾做过诸多关于情感与政治态度关系的研究。其中一些研究通过实验或者调查唤起被调查者的情感。这种研究方式的缺陷在于无法有效获得时间维度上动态的情绪变化。

      本研究的目的在于对社交媒体上的情感是否与真实世界的民意有强相关性的问题进行探究。在本研究中在2014年香港占领中环运动中的线上和线下的民意将会被进行评估和比较。“占领中环”或“占中”,是于2014年9月28日起在香港发生的一场围绕普选香港行政长官而发起的一系列占领运动。此运动源于2013年初,“占中”发起者提出以公民“抗命”为手段,采取占领香港金融区中环的交通要道的方式进行。从“占中”运动开始酝酿之时,就有许多政治人士和民众持反对态度,他们认为活动是非理性的,并且这种非理性的运动很可能导致严重的暴力冲突,不仅影响香港市民的正常生活,还会对香港社会稳定和经济发展造成负面的影响。

      “占领中环”运动因其巨大的规模和争议在短时间内即吸引了世界范围内的关注。“占领中环”运动引起较大范围的关注和讨论的另一个原因是当地民众对事件本身存在较大的争议和分歧。在“占中”运动期间,香港中文大学进行的四次民意测验发现,支持“占中”者和反对“占中”者所占比例始终处于变动中。港中大的报告中指出,许多市民见证了警方发射催泪弹等争议较大的驱赶行动令市民认为不恰当而支持占领运动。但“占中”运动堵塞交通,令中环、金钟和铜锣湾等地的销售额全面暴跌,引起民众生活不便,同时还影响金融、教育和旅游业,则引起很多香港市民的不满。综观四次调查,反对“占中”者占明显多数。

      在“占领中环”运动进行的同时,推特等社交网络上出现了大量的相关讨论。标签为“Occupy Central”成为推特上的热门话题,以#HongKong为题的图片和推文在短时间内超过139万次。其中香港警方向“占中”人士发射催泪弹的28日晚间,每分钟相关推特次数最高达到733次,29日推文数最高达629次,晚间达644次[20],“占中”运动在社交网络上引起了数量巨大的讨论。这些数据都为下一步的研究提供了高质量的数据来源。在此研究中,推特上的用户意见表达将会被收集并进行情感分析,经过情感分析得出的结果将会被定义为情感值,作为社交媒体上的民意指标,并与相同时间区间内的现实世界的民意指标——民意测验和股市指数进行比较,探究社交媒体上的民意指标与现实民意指标是否具有相关性。

      二、文献综述

      (一)民意

      理论学家把“公共”(public)一词的形成归结于交流行为(communicative action)[21]。民意(public opinion)是绝大多数人持有的观点[22]。民意通过交流沟通的方式形成。不同于仅仅把每位社会成员的政治倾向私人化的集中起来而不考虑其他人的想法,“公共”十分强调社会层面的讨论。表达不仅是民意的内在本质特征,也是其产生影响力,发挥功能和实现价值的必要手段。合法的民主政体代表民意并对民意做出反馈。民意对于政客如此重要是因为他们要依靠民意保持自身的执政合法性和政治权威。民意一词在实际运用中有更为广阔的内涵,包括公众自觉(public consciousness)和意愿(will),或者公众扮演和表达的一切事物。

      在前互联网时代,大众媒体一直作为大规模现代民主政治中公众讨论和表达政治态度的平台,代表社会中“大多数人的意见”[23],同时也是各类政治意见分布的显示平台[24],同时民意测验作为民意的显示平台。JürgenHabermas曾经为分析媒介与民意形成的关系提供了框架。虽然当代的大众媒体包含公共领域,但由于市场利益和民主原则之间的冲突,大众媒体展现的信息往往受到扭曲。这时候,“公共”不再是公众思考的结果,而成了传播系统和想要控制信息传播的政客之间斗争的产物。

      Sandra,Rafael和Andreas在研究中强调民意是可以作为公民接收政治议题信息并对时事作出回应的指标。民意可以显示个人对政府和公共事务的态度和个人的偏好。公民可以依据民意来阐释他们的喜好,褒奖或惩罚他们的代理人;同时,政客们也可以通过监控选民的政治兴趣而调整自身进行适应,或者改变他们的观点[25]。

      在上世纪40和50年代,Paul Lazarsfeld,Elihu Katz和他们的同事一起提出了有关民意形成的突破性理论。理论强调了媒体在影响公众意见决定的重要作用,这是在当时普遍接受的个体在意见决定过程中容易受到其他个体的影响的背景下提出的。在新技术运用的背景下,个体的意见领袖(opinion leaders)获得了新的平台来表达态度并影响他人。互联网的发展虽然对传统媒体有较强的冲击,但并不是取而代之的关系,而是在互联网平台上,传统媒体的内容与渠道得到了融合。

      媒体技术的革新深刻影响了政治活动及政治信息本身[26,27]。实际上,任何新的传播技术的诞生都会让人们关注其对民意的影响。互联网是一个传统的政治精英控制之外的领地,为个体提供了参与讨论的空间,并对已有的平台形成挑战。随着互联网的产生和普及,越来越多的人群被卷入到互联网媒介使用中。由于网络平台的开放性和平等性,对传统权威起到了消解作用,促成了全新公共领域形态——网络公共领域的出现。在网络公共领域范围内,社会各阶层都可以进行直接的利益表达,民意得到了新的表达空间。特别是社会中下层民众成为使用互联网特别是社交媒体表达意愿的主体,通过不同的方式直接或间接影响国家的政治活动的决策和行为[28]。著名传播学大师麦克卢汉曾经预言:“随着信息运动的增加,政治变化的趋向是逐渐偏离选民代表政治,走向全民立即卷入的中央决策行为的政治”。对照思考如今的网络社交平台,越来越多的参与者被卷入,并且正在向全民扩张,面对选举等重大的政治事件,选民通过互联网相互影响,共同影响选举结果和其他政治走向,形成了“全民卷入”的“中央决策行为的政治”。

      由于互联网传播的无界性和快速性,社交媒体用户很容易相互影响对方,某种态度和共识很容易在网络上弥漫开。由于态度总是朝着支持或者反对的方向发展,并在个体之间具有差异性,在大多数情况下,网络用户的态度常常出现“单极化”趋势,一旦“意见气候”形成,网络民意就很容易朝现有意见气候的方向不断发展。部分涉及事实真相/道德评价等事件时,由于网友个人价值观和接触信息来源等方面的差异性,常常会表现出多元的情感价值,但随着事态的进行以及真相的不断解开,网络民意最终达到一个极化的比例。

      (二)情感分析

      语言本身是一门表达的综合性艺术。互联网平台的迅速兴起吸引了大量用户的使用和参与。在以推特和脸书为代表的社交媒体上,用户可以自由地表达观点和态度,以文字、图片、视频和其他媒体形式表达情感倾向,分享日常生活。为了从整体上把握社交媒体用户的情感,基于计算机技术的“情感分析”应运而生。

      情感分析(Sentiment analysis)以应用为导向,是一种关注自然语言所表达的积极和消极意见、情感和评价的主观性的分析[29],是一种对人们态度的量化分析,特别关注积极和消极态度,在自然语言(natural language)中进行情感评估[30]。在自然的语言中,主观性(subjectivity)表示语言在表达意见(opinion)、情感(feelings)、评价(evaluation)和推测(speculations)方面的功能[31]。情感分析已经成为识别文本中煽动性信息(inflammatory messages)应用中的关键性部分。在过去的几十年中,研究者对于计算方式分析文字中的意见、情感和主观性评估(subjective evaluation)有较快的增长[32]。例如,有学者建立了从网络用户的文字对话中抓取情感的方法模型。伴随互联网发展的是用户发布的带有情感色彩的主观性文本增多,情感分析也受到了越来越多的学者和研究机构的关注。近年来,国内外很多研究机构实施了一些公共评测,为情感分析的方法研究提供了统一的平台。国际文本检索会议(trec)从2006年开始专注于互联网资源检索和情感分析的评测。

      关于情感分析,目前在这一研究领域里已经开发出不同的算法,运用预先设定的计算机工具可以对文本中的情感进行自动检测。早前的研究已证实,推特服务可以为用户提供简便易行的表达情感和分享信息的平台,这些信息包括他们的日常活动,意见,新故事,新状态和其他方面的兴趣。在日常活动之外,人们还会在社交媒体上表达个人兴趣和政治意见,这为学者进行情感分析研究提供了可能性。人们在社交媒体上发布文字,由于文字的天然主观性(subjectivity),文字包含了情感。随着人们越来越多的在博客、论坛、推特和脸书等社交媒体上表达态度与意见,从社交网络上获得情感和意见成为流行的数据分析来源路径,对推特等社交媒体用户所产生的文本信息进行情感和情感趋势分析,能有效地挖掘网络群体的行为规律。情感分析的目的在于从总体上获取一段文字的情感倾向,包括积极、消极和中立。前人的研究大多把情感分析视为一个对文本进行分类的过程,即把文本数据导入预先设定了情感关键词的系统里,得出的积极、消极或者中立的态度分布就是该文本的情感分析结果[33,34,35,36,37,38]。在这样的情感分析方法中,系统中预先设定的情感关键词成为分析过程中的关键。例如,英文中的“excellent”表达的就是积极的情感,“stupid”表达的是消极的情感,在这里“excellent”和“stupid”就是预先设定的情感关键词,如果文本中含有“excellent”那么这段文本就会增加一个积极因素,相反,如果某段文本中含有“stupid”一词,那么这段文本就会被系统定义增加一个消极因素。

      主观的文字进一步可以被区分为情感或者极化(polarity)。在此划分下,我们可以通过定义推特是积极、消极、中立或者混合来进行情感分析的过程。相比仅仅从文本中抓取关键词,对文本进行情感分析要复杂得多。并不是所有文本都表达毫无迷惑性的积极的或消极的情感。很多时候通过人工阅读的方式区分文本的情感才能达到的准确性,对于电脑里的自动程序就更是困难。因此,在情感分析里只能把情感信号词(sentiment signals)作为主要分析依据,然而这种方式需要通过人工进行语言筛选,需要耗费很高的劳动强度。反之,另外一种基于电脑自动化的方法可以被使用。这是一种混合的路径,通过人工预先注释的例词,由电脑完成整个将文字进行情感归类的过程。

      (三)民意与情感

      关于政治意见的情感基础(emotional foundation),目前的研究相对还较少。但是,却有足够的证据可以推断情感可以引起可观的政治认知反应。其实,心理学家早已说明了“感觉”(feelings)和“思考”(thinking)在信息处理过程中的作用[39],此外,他们还强调了情感在对情景(situation)和议题(issues)作出评价的作用。早期的关于情感对政治结果的影响发现了情感在总统选举和选民投票中的作用[40,41,42]。负面情绪诸如焦虑和生气会驱使人们寻找更多正面信息,而诸如热情等正面情绪则会让人们更加确信自己的政治选择。美国研究者曾经做过一个关于伊拉克战争的研究发现:生气与焦虑两种情绪都会增加人们对关于战争新闻的关注,但是这两种情绪对于是否支持战争却有着截然相反的作用:生气增加对伊拉克战争的赞同,而焦虑则相反[43]。另外一个关于恐怖主义风险认知(perceived terrorism risk)显示,恐惧会增加人们对恐怖主义威胁的预估,从而更加支持反恐预警政策的实施,同时,生气则会产生相反的结果。积极的情绪,会正向促进政治参与并激发已有的政治忠诚度[44]。例如,研究者发现美国911事件以后,诸如“自豪”和“希望”之类的积极情绪能够影响人们的政治态度,并增加对组织的信心。综上所述,不同的政治事件会引起人们不同维度的情感反应,不同的情感反应则会对政治意见的形成起到不同的影响。

      (四)民意测验

      民意有一种方式将其定义为:“民意测验者集合的个体态度”[45]。民意测验已经成为政治活动中普遍运用的手段[46]。追溯历史,民意测验最早起源于美国宾夕法尼亚州的哈里斯堡,在1824年,《宾夕法尼亚哈里斯堡报》首次举办了总统选举的模拟投票,这被视为是民意测验的首次出现。作为了解民众对某一或某类事物的观点的社会调查,民意测验已经成为美国政治议程的重要部分。尽管有其他的几种方法可以运用于调查公众舆论,但民意测验依然被视为最可靠的方式精准地反映出公众的政治态度和政治行为。

      从民意测验的历史发展上看,民意测验大体经历了三个阶段的发展。第一个阶段是模拟投票阶段,即在早期美国总统选举之前,民意测验机构会简单的估算当天到场的人数,并进行模拟投票。投票越多表明候选人的支持率越高。处于模拟投票阶段的民意测验主要运用在地方性的投票测试。民意测验的第二个发展阶段是定额抽样阶段。这种方法比起模拟投票阶段显得更加完善与科学。根据将要调查的议题,按人群比例在全国范围内确定样本,进行抽查并获得数据。在这个阶段,开始出现商业性的专业民意检测机构。民意测验的第三个发展阶段是概率抽样阶段。这种测验方式的最大优点就是样本的选择比较客观,相比主观性很强的定额抽样,这种测验方式精确度大大提高。

      根据人口统计学理论,公民的态度(attitudes)和政策倾向(policy preference)的差别在选举结果和政策制定过程中有十分重要的作用,因此精确地评估全国范围内关于某些特定政治议题的民意就显得十分重要。但是,对民意的调查过程却不容易。

      同时,一些学者也质疑民意测验不仅仅反映民意,还会潜移默化中影响民意,造成调查结果的不客观。民意测验可能会对投票者的态度产生影响,甚至改变其投票行为。上世纪八十年代末,曾经有美国媒体对核武器进行了民意测验,但在调查时却发现,测验问卷的问题设置和措辞对支持率有很大影响。即使问题的本意是相同的,但措辞的不同会导致民众有不同的反应。上述是传统民意测验方式的一个明显缺陷。本研究的一个目的在于探究对社交媒体内容的情感分析是否可以成为更客观和可靠的获取民意的方式,在此过程中不影响个体的决定。在实际操作层面,传统的民意测验方式更是困难重重,国家层面的大规模民意测验更是少之又少。在美国,想在一个民意测验里涵盖大多数或者是全部州的民众几乎是不可能完成的任务。

      (五)股市指数

      股市市场的运行状态一直被视为反映实体经济状况的“晴雨表”和“预警器”,而股票市场运行状况的好坏则要通过股市指数表现出来。总体上看,一般来说,股市指数是指由证券交易所或金融服务机构编制的表明股票行市变动的一种供参考的指示数字。依据股市指数,投资者可以预估和判断自己投资的产出和效果,同时以此预测股票市场的动向。同时,媒体、企业高管乃至政府部门等也以此为参考指标,来观察、预测社会政治、经济发展形势[47]。由于股票指数计算复杂,同时种类众多,因此人们常常从上市股票中选择若干种富有代表性的样本股票,并计算这些样本股票的价格平均数或指数。用以表示整个市场的股票价格总趋势及涨跌幅度。

      香港交易及结算所有限公司(香港交易所)是香港证券交易及结算系统的市场营运机构。香港交易所设有主板及创业板,供投资者进行股票买卖。除股票外,香港交易所的现货市场亦供投资者买卖衍生权证、交易所买卖基金(Exchange Traded Fund,简称ETF)、房地产投资信托基金(Real Estate Investment Trust,简称REIT)、股票挂钩投资工具、牛熊证(Callable Bull/Bear Contract,简称CBBC)及债务证券。香港交易所运作的衍生市场交投非常活跃,当中包括指数期货、股票期货、指数期权及股票期权的交易。香港交易所受证券及期货事务监察委员会监管。截至2014年底,香港交易所主板及创业板的市值达到25718亿港元,上市公司总数为1752个,平均每日成交金额达到69456百万港元。

      

      在相关现有的股市指数中,香港恒生指数(Hang Seng Index)被看做衡量香港股市好坏的主要标准。它是由恒生银行有限公司1964年7月31日创立的,其产生过程为选出列入指数计算过程的主要股票称之为“成分股”;断定各成分股的相对重要性;把成分股有关数据结合或平均起来。选入的成分股必须具有代表性,其代表性就是这些成分股的股票价值构成该股市的所有股票公司总值的绝大部分。它们的升跌能带来整个股价水平的升跌。

      (六)推特与政治运动

      推特(Twitter)是一个全球性的社交网络和微博客服务网站。推特允许用户通过网页或者移动客户端发布不超过140个字符的消息,这些消息被称作推文(Tweet)。据推特现任CEO迪克科斯特洛(Dick Costolo)宣布,截至2012年3月,Twitter共有1.4亿活跃用户,这些用户每天会发表约3.4亿条推文,同时,Twitter每天还会处理约16亿的网络搜索请求。推特常常被用作突发事件新闻分享平台[48,49],在很多情况下,当重大事件发生之后,信息流会在推特平台上迅速传播扩散,并出现围绕事件的相关评论和态度表达[50]。

      推特与众多社交媒体不同,推特并不鼓励用户进行相互分享,然而信息却可以在这个平台上迅速流动。在Kwak et al.[51]的研究中,推特被更多地定义为一个信息分享网站而不是社交网站。关于这种信息分享行为,先前的研究者主要用上世纪五十年代传播学大师Katz与Lazarsfeld的理论框架进行。他们认为大众媒体对选民投票的直接影响作用微乎其微,而日常生活中的亲人或朋友对他们的政治态度与投票行为影响巨大,那些生活中对他人政治态度和行为影响作用较大的个体被称为“意见领袖”。关于推特上信息的流动,一种研究框架是“信息串流”(information cascades)。“信息串流”指的是当一个个体观察到他人的行为时,会追随这种行为而不考虑自己的信息[52]。在推特上,这种“信息串流”会被推特本身的转推功能所放大。而推特对标签功能的设置,更方便了个体能够追踪一个特定的话题的相关内容[53]。依照这样的规则,推特上的热门话题(trending topic)往往能够反映出当下用户普遍关心并参与讨论的事件和议题。

      由于推特和其他社交媒体对信息传播的极大推动作用,Shirky[54]曾经提出社交媒体因其对某些新闻和信息的迅速传播和无限放大作用,很可能引发政治骚动。关于推特对于政治行为的影响,最值得关注的是推特在酝酿2010年年底在北非和西亚的阿拉伯国家和其它地区的一些国家发生的一系列以“民主”和“经济”等为主题的反政府运动——“阿拉伯之春”中的作用。阿拉伯之春曾被称作“推特革命”(Twitter Revolutions),此事件因其折射出互联网对政治态度和政治行为的促进而受到广泛的关注和讨论。“阿拉伯之春“的政治运动也为之前学者的理论假设提供了研究对象。

      在“阿拉伯之春”政治运动过程中,抗议者利用推特作为平台表达对政府的不满,包括食品价格升高,通货膨胀,高失业率和缺乏争执表达自由[55]。在运动前夕,推特上出现大量的含有标签#sidibouzid的信息,将政治革命运动急速升温。在突尼斯反抗者成功之后,反对组织与埃及的政治活动分子于2011年1月25日在埃及首都开罗市组织了抗议警察暴力的游行活动。这些活动同样以表达对高失业率、政府腐败和缺少政治自由为表达诉求,此期间,推特上标签为#Jan25的推文成为埃及革命的标识。埃及的政治激进分子充分利用社交媒体、博客和视频分享网站鼓励人们参与抗议,紧接着的是一系列不在当地法律允许范围内的政治抗议活动持续了数周,抗议活动从开罗发展到埃及的其他主要城市,造成的结果是抗议者与长时间效忠于Hosni Mubarak总统的警察发生暴力冲突,但军队却拒绝对抗议分子开枪。突尼斯革命与埃及革命中的共同显著特点就是参与者对社交媒体的使用,在这两场政治运动中激进分子都使用了推特等社交媒体组织游行,并通过其与本地和全球的其他用户共同讨论与传播信息。

      三、研究方法

      (一)内容分析法

      研究框架上,本文使用的研究方法主要是基于内容分析法(content analysis)的相关性研究。内容分析法是一种对研究对象的内容进行深入分析,透过现象看本质的科学方法,其目的在于通过符号交流内容进行客观系统分析,以推断意图/验证假设或描述事实的一种信息分析法。它通过符号行为中的信息形式来分析所交流的内容,采取定性与定量分析相结合的方法,分析的计量单元是具有独立意义的词、词组、句、段、意群或者语篇,通过对信息形式量的测度,达到对交流内容的实质把握。从研究对象的特征上说,内容分析法的分析对象是已经形成的文本和内容,研究者从现有信息出发,按设计好的程序进行的研究。

      以往,由于内容分析过程中往往需要研究者从事大量简单的、重复性的操作,对对象的分析显得繁重而费力。计算机技术可以自动完成海量的信息分析与处理,不仅更加高速,而且能够提高分析的准确性。在进行互联网相关的研究时,往往要处理数量巨大的、无序的和复杂的数据,在这样的背景下,计算机辅助内容分析(computer—aided content Analysis:CACA)成为研究新热点。顾名思义,计算机辅助内容分析方法建立在计算技术处理软件上。计算机辅助内容分析不仅提高了研究者的效率,更使得定性研究方法与定量研究方法之间的界限缩小,并提高分析结果的信度与效度。

      美国传播学家Bernard Berelson首先把内容分析法定义为一种客观地、系统地、定量地描述交流的明显内容的研究方法。经过了近一个世纪的发展,这种方法已经被广泛运用到社会学、传播学和心理学等社会科学领域中,并取得显著的成就。与其他社会学科的研究方法不同,内容分析法有着自身的特点。首先,在研究对象方面,内容分析法的研究对象必须具有明确性的传播内容。也就是说,如果传播者的编码和研究者解码之间对传播内容的理解出现明显的分歧或偏差,则这种方法就不可行。另外,在分析过程中,内容分析法强调客观、系统和定量。最后,对于结果的表述特征是描述性的。内容分析的结果常常表现为大量的数据表格、数字及其分析。

      (二)网络内容分析法

      近几十年来,计算机技术的快速发展给内容分析法注入了新的活力和生命力,新的计算机系统和应用软件让内容分析法的适用范围更加宽广。相比传统的内容分析法,网络内容分析法的主要优势在于可以通过计算机程序自动化的分析完成对网路传播信息的描述;推断网络传播主题的意图和倾向;分析传播内容的变化趋势;比较鉴别/评价网络信息资源以及网络传播效果;预测未来的发展变化[56]。

      从挖掘内容对象分类,网络分析法又可以分为web内容挖掘(web content mining),web结构挖掘(web structure mining)和web使用记录挖掘等类型。其中web内容挖掘是从web文档内容及其描述中获取有用知识的过程,是对网页真正的数据进行挖掘,包括网页内容挖掘和搜索结果挖掘[57]。从挖掘数据资源的多媒体类型上,web内容挖掘的数据结果包含文本/图片/音频和视频等多种形式的原数据。web结构挖掘指对web潜在的链接结构模式进行的数据挖掘过程,通过分析一个网页链接和被链接数量以及对象以建立web自身的链接结构模式,既可用于网页归类。web使用记录挖掘主要着眼点在于网络用户的使用行为上,从用户存取模式中获取有价值的信息,属于web数据挖掘中的第二类数据,即web日志数据及相关数据的挖掘。通过web使用记录进行数据挖掘的最大优势是在于追踪用户行为,分析用户在网络上的行为模式,特别是对于某些商业机构来说,深入了解用户行为可以寻找到产品的目标用户,进行精准的数字化营销,节约企业推广成本,提高推广效率,但值得关注的是,这种研究方法也存在用户隐私保护的争议。

      对于本研究,主要使用的方法是网络文本分析里的web内容挖掘。本研究的对象是在特定时间段内推特用户在推特平台上发布的关于香港““占领中环””运动的所有推特,统计和收集这些数据是本研究的关键,在页面上抓取的推特文本数据是后一步分析的前提。

      (三)HK分析法

      对于数量巨大的社交媒体数据分析,分析方法的选择显得尤为重要。先前的研究主要关注社交媒体数据的数量(volume of data)(例如提到某位候选人的推特数量等研究)。而在本研究中,社交媒体使用者的更细节性的态度被放在突出的地位,而不仅仅是统计出相关数据的数量。在本研究中,将参照使用由哈佛大学教授Hopkins and King[58]提出的“HK分析法”。

      HK分析法最大的优势是它使用了更高级的SA。传统的SA分析路径基于“现存词典”(ontologicaldictionaries)——如果被分析的文字中含有(或不含有)词典里预先设定的单词,这些文字就会被归类到特定的意见类别中。这种研究方法的优势是显而易见的——由于预先设定好了用于归类词语的词典,整个分析过程可以完全自动化地由电脑完成,操作简单快捷。然而,这种方法的缺陷也是显而易见的。由于语言本身含义的多样性和模糊性,计算机预先设定的情感词典无法区分反讽(ironic)或是矛盾(paradoxical)的词句。比如英文里的“what a nice rip—off就是一句程序难以正确解读其含义,因为这句话本身表达的是正向的态度,但却同时含有积极(nice)和消极的词汇(rip—off)。

      相反的,HK分析法是一种包含两个阶段的分析方法。首先,研究者要先阅读要选就的社交媒体数据样本,并进行人工编码。这些经过人工编码完成的情感词典将会用于第二阶段的计算机程序分析。第一阶段中识别带有感情色彩的单词和短语毋庸置疑变得十分关键,这依然是目前研究者所要面对的挑战。第二阶段,所有的社交媒体数据会被导入计算机程序,程序自动分析出数据文本里的情感态度。经过这种方法分析的结果预估误差约为3%。

      在经过人工编码之后,所有通过计算机程序(R)抓取到的推特文字数据将会通过OpinionFinder软件进行自动语义分析。OpinionFinder是一个自动识别文本中的意见、情感和推测并进行主观性分析的系统,旨在区分语句中的主观性,包括文本中短语表达的积极或消极的情感。OpinionFinder以一种管状模式运行。这种“管状”可以分为两部分。第一个部分是确定分析文本对象,此对象需要由人工输入系统。第二个部分是进行主观性分析。经过主观性分析,文本将以SGML或者XML的形式为源数据标注情感分析结果。在主观性分析阶段又分为四个小步骤。(1)主观语句分类(subjective sentence classification)。在OpinionFinder系统内部有一套创立者用大量单词和文本特征定义的主观和客观句型[59,60]。这套通过大量单词和文本特征定义的句型可以达到大规模处理数据时的高准确度和高规范性。(2)语言表达(speech events)和直接主观表达(direct subjective expression)分类。OpinionFinder系统在进行主观性分析的第二个阶段时将会定义语言表达(例如“said”,“according to”)和直接主观表达(例如“fear”和“is happy”)。在直接主观表达的单词或短语中中态度、情绪和情感被直接性的描述。(3)意见来源定义(Opinion Sourse Identification)。系统情感分析的第三个组成部分是进行意见来源的定义。此过程借助了“MPQA意见系统”完成。(4)情感表达分类(Sentiment Expression Classification)。最后一个步骤中系统将会定义输入文本中的积极、消极或是中立的情感因素[61],由两个“定义器”完成。第一个“定义器”负责区分出有情感的表达单词或短语,第二个“定义器”负责把这些单词和短语归类。这两种定义器的运行都建立在BoosTexter和MPQA Corpus两种计算机程序上。

      情感分析通过对每天的数据分析而进行。通过OpinionFinder可以分析得出每天的推特文本里含有的积极词、消极词汇和中立词汇的数量。根据HK分析法,如果一条信息中含有一个或一个以上积极词汇,那么此信息就被定义为积极的;如果一条信息中含有一个或一个以上消极词汇,那么此信息就被定义为消极的。这种判定方法允许同一条信息呈现积极和消极两种状态。如果一条文本信息中不含有积极或消极词汇,则其就被界定为是中立的。由此,为了评估某一天推特上的情感值,我们用X(t)表示t当天积极词汇和消极词汇的比值,这一比值就是某一天的情感值。

      X(t)=count t(pos.word∧topic word)/count t(neg.word∧topic word)

      =p(pos.word|topic word,t)/p(neg.word |topic word,t

      (3)赋值分析样例

      根据上述的方法原理,将推特文本“Langdon Winner @langdonw Sep 30

      Occupy is alive and well in Hong Kong:#OccupyCentral Good luck to the demonstrators.”导入OpinionFinder软件中,得出的分析结果如下:

      <MPQASENT autoclass1="obj" autoclass2="obj">Langdon Winner @langdonw Sep 30.

      Occupy is alive and<MPQAPOL autoclass="neutral">well</MPQAPOL>in Hong Kong:#OccupyCentral Good <MPQAPOL autoclass="positive">luck</MPQAPOL>to the demonstrators.</MPQASENT>

      在以上分析结果中,“luck”被系统定义为“positive”,即表示此条推文表达的是积极态度。从推特原文表达的意思看,系统分析的结果与之是相符的。

      (四)研究假设

      根据上述文献综述所述,本研究提出了两个研究假设:

      假设1:推特上基于时间变化的情感值变化趋势与相同时间区间内民意测验结果变化趋势成正相关关系。

      传统的民意测验方法从产生伊始就被看作是精确/迅速和简便的了解和把握社会民意的方法。在互联网迅速发展和社交媒体不断兴起的背景下,互联网成为传播研究的新的数据来源。虽然互联网人群并不能代表人口统计学中的全体人口,社交媒体上的文本数据也不是所有社交媒体用户的意见代表,但社交媒体上的用户情感表达依然可以作为一个民意测验的指标。如果情感分析结果对现实民意具有代表性,则在本研究问题中,推特上关于香港“占领中环”运动的推特情感分析得出的情感值变量的变化趋势应该与传统意义的反映现实民意指标——民意测验应成正相关关系。

      假设2:推特上基于时间变化的情感值变化趋势与相同时间区间的股市指数变化趋势成正相关关系。

      股市指数一直被认为是公众民意的指标之一。先前学者研究发现,股市的波动与市场经济状况,消费者信心,甚至是天气状况密切相关。根据先前的论述,推特上的情感表达可以作为情感反应的指标,而前人的研究表明现实民意与股市指数有较高相关性,在此基础上,如果推特情感值对于现实民意具有代表性,那么推特情感值应该与股市指数呈正相关关系。就本研究而言,推特上关于香港“占领中环”运动的推特情感分析得出的情感值变化趋势应该与相同时间区间内的股市指数变化趋势成正相关。

      四、数据收集

      (一)推特数据

      虽然世界范围内有越来越多的社交平台出现,但并不是所有社交网络的后台都是开放的。推特作为全球最受欢迎和使用者最多的后台是开放和共享的,因此抓取推特数据比抓取传统博客或网页的数据都容易很多。在本研究中,抓取了2014年9月21日至2014年10月22日期间含有关键词“occupy central”的推特。为了与研究中民意测验的区域相对应,在抓取推特数据时把用户API限制在香港地区以内。同时由于汉语的语义表达较为复杂,目前学界尚无针对汉语的成熟的情感语义分析系统,本次研究只针对英文的推特数据,其他语种将被过滤。

      由于本次研究中选取的关于民意测验的时间分别为9月21日和10月22日,根据前文所述的相关背景资料,“占领中环”运动28日晚间,每分钟相关推特次数最高达到733次,29日推文数最高达629次,晚间达644次。

      在编程软件R语言的系统下,通过对用户地理位置和时间的限定,分别抓取了从2014年9月21日到10月22日之间香港地区发布的带有#occupycentral关键词的所有推特内容。收集到的推特数据数量如下:

      

      

      通过上图相关推特在统计时间内的数量变化可以看出,在从2014年9月21日统计开始至2014年10月22日,香港地区用户发布的含有关键词#occupycentral的推特数量呈现波动趋势。其中在“占领中环”运动正式开始(9月28日)的前几天,推特数量从9月21日的9923条迅速增长到9月27日的36578条。到了“占中”运动发生当天——9月28日,推特数量大幅增长,从36578条增加到66277条,增长幅度达81.2%。之后的9月29和9月30日两天里,有关的推特内容也维持在顶峰,分别达67268条和62668条。到了十月份,关于“占中”事件的推特数量明显回落,除了10月5日与10月13日两天以外,其数量都在回落状态。

      (二)股票指数数据

      本研究中使用香港恒生指数作为股票指数变量。恒生指数是港交所股票指数,随港交所开盘而开盘,港交所每天交易的开盘时间是固定的,原先交易时间为上午10:00—12:30,下午14:30—16:00,自2011年3月7日起,恒生指数的交易时段将分阶段与内地接通,第一阶段将上午的开市时间提早至9时30分,中午12时整休市1小时30分钟,下午1时30分下午交易开始,照旧下午4时收盘。2012年3月5日起,进一步将下午开市时间提早至1时正,正式与内地同步交易。

      恒生指数的计算公式为:

      

      CI:(Current Index):现时指数

      YCI(Yesterday's Closing Index):上日收市指数

      P(t):现时股价

      P(t-1):上日收市股价

      IS:已发行股票数量

      FAF:流通系数

      CF:比重上限系数

      在本研究中,对恒生指数时间区间的选择规定为2014年9月21日至2014年10月22日。除去正常的周末和节假日停盘之外,在此期间内一共获得21个交易日的股市指数数据。数据如下:

      

      从上表中的2014年9月21日至2014年10月22日期间作为香港股市和经济最有代表性的恒生指数的变化趋势中可以看出,自2014年9月中旬以来,伴随着香港局势的紧张和民众情绪的激动,香港股市出现下跌,而在9月28日凌晨“占中”人士正式“占领中环”,并蔓延到铜锣湾和旺角等香港其它地区后,股市出现了将为明显的下跌,表现为香港恒生指数在29日出现的幅度较大的下跌。此后的十几天内,除了短暂的回升,香港恒生指数都保持在较低水平。

      (三)民意测验指数

      在香港地区有多家民意测验机构。香港中文大学新闻与传播学院下属的传播与民意测验中心,于2014年8月成立了“香港民意与政治发展专题研究小组”,定期进行电话调查并发布其结果,供各方参考。该中心进行的四轮调查显示了“占中运动”期间的相关民意变化。由于研究时间限制,本研究仅选取前两轮结果,即第一轮和第二轮民意测验结果,作为民意测验变量进行下文的比对分析。

      其中第一轮电话调查于2014年9月10日至17日进行。调查以随机抽样的方式,访问了1006名15岁或者以上讲粤语的香港市民(在95%的置信水平下,抽样误差为+/-3.1%),回应率为43%。在本轮调查中为了使样本更接近香港人口的特征,数据均按照政府统计处最新公布的香港15岁或以上人口中的性别、年龄及教育程度作加权处理。

      关于市民是否支持“占领中环”运动,46.3%的受访者表示不支持(非常不支持/极不支持)“占领中环”行动;31%的受访者表示支持(非常支持/极支持);20.5%的受访者表示一般。

      根据人口特征进行分析,结果为:

      男性较女性倾向支持“占领中环“行动。(男:35.3%;女:27.2%)

      年轻人较倾向支持“占领中环“行动。(15岁至24岁:46、7%;25至39岁:39.8%;40岁至59岁:20.9%;60岁以上:29.5%)

      教育程度高的人较倾向支持“占领中环“行动。(大专或以上:39.2%;中四至中七:26.5%;中三或以下:26.7%)

      

      

      第二轮电话调查于2014年10月8日至15日进行。调查以随机抽样的方式,访问了802名15岁或以上能讲粤语的香港市民(在95%的置信水平下,抽样误差为+/-3.5%),回应率为37%。在本轮调查中为了是样本更接近香港人口的特征,数据均按照政府统计处最新公布的香港15岁或以上人口中的性别、年龄及教育程度作加权处理。

      关于市民是否支持“占领中环”运动,35.5%的受访者表示不支持(非常不支持/较不支持)“占领中环”行动;37%的受访者表示支持(非常支持/较支持);23.2%的受访者表示一般。

      根据人口特征进行分析,结果为:

      年纪越轻越倾向支持“占领中环“行动、(15岁至24岁:62.1%;25至39岁:46.2%;40岁至59岁:28.4%;60岁以上:29.6%)

      教育程度高的人较倾向支持“占领中环”行动。(大专或以上:46.7%;中四至中七:39.0%;中三或以下:27.4%)

      对比香港中文大学“香港民意与政治发展专题研究小组”在“占领中环”运动期间第一轮和第二轮调查中香港民众对“占领中环”运动态度的变化可以看出,持“支持”态度的民众出现了小幅度的增长变化。在对“占领中环”运动持反对态度的民众之中,对“占领中环”运动持“较不支持”态度的民众占比和持“非常不支持”态度的民众占比,则出现了小幅度下降变化,如表5—4、图5—2所示。

      

      值得特别指出的是,上述测验结果只在本研究选取作为样本的短时间段内出现,综观四轮调查结果,仅有本段时间内(即第二轮调查中)支持者所占比例接近甚至小幅度超过反对者所占比例(两个百分点)。在第一、三、四次调查中,反对者所占比例均高于支持者所占比例约10个百分点。因此,综合整体调查结果来看,反对“占中”的民意总体上占明显多数。上文所提及的数据变化,只是本文截取用于研究的数据中所呈现的短期内(即2014年10月第二次调查期间)民意波动情况。

      五、研究结果

      (一)数据结果

      经过推特数据抓取和分析之后,得出了每一天的推特情感数据(积极,消极和中立),如下表所示:

      

      依据先前论述的情感值计算公式X(t)=count t(pos.word∧topic word)/count t(neg.word∧topic word)

      =p(pos.word |topic word,t)/p(neg.word |topic word,t

      数值越大说明越积极,数值越小说明越消极。

      计算出每天的推特情感值如下表:

      

      

      从上图可以看出,在“占领中环”运动正式开始之前,即9月28日以前,情感指数呈下降趋势,表明推特用户的消极情绪在不断增加。在“占中”运动开始的前几天里(9月29日至10月6日),情感指数继续下降。除了10月7日的小幅回升之外,直到10月14日,情感指数继续保持下降。虽然10月20日以后出现回升至22日的0.55,但相比统计第一天的0.78,此时的情感指数依然下降了0.22。

      (二)相关性分析

      1.与第一、二轮民意测验相关性分析

      

      由以上同一时间区间内两次民意测验和情感指数变化趋势图表可以看出,推特情感指数持续走低的同时,对“占领中环”运动的支持民众占比上升,不支持民众占比下降。二者具有正相关性。

      2.与股市指数相关性分析

      

      

      通过以上同一时间区间内(2014年9月21日至2014年10月22日)的情感指数与香港股市指数(恒生指数)进行相关性分析可看出,二者的相关性为0.461(p=0.035),二者呈显著正相关关系。

      从趋势变化图分析得出,二者总体都呈下降趋势。在“占领中环”运动正式发生之前,香港股市波动幅度较大。香港恒生指数从9月24日的23921.01直线下降到次日的23268.13,到9月26日会升至23678.41后,一直下降到9月30日。相比之下在“占领中环”运动正式开始之前,情感指数虽在下降但下降的速率较平均,未出现大幅度涨跌。而在“占领中环”运动发生后,香港恒生指数持续下降,但下降较平稳;相反,在这段时间内,情感指数出现了较大的波动,但二者的总体趋势呈现出同一性,两个变量呈现出正相关性。

      

      本研究的重点是探究社交媒体上的情感反应与现实民意指标(民意测验和股市指数)之间的相关性。为了探究此问题,本研究以香港“占领中环”运动过程前后推特上的公众讨论为研究对象。经过API数据挖掘与分析,推特上的情感指数变化与民意测验结果基本吻合,二者呈现正相关性。说明推特与传统的民意测验手段一样可以作为探查公众情绪和对某一特定政治事件态度的指标。在推特上的情感指数与股市指数比较中,两个变量具有较高的相关性。虽然情感指数下降趋势与股市指数的涨跌幅度在小范围依然存在差异,但二者总体上呈现统一的下降趋势,表明在特定时间区间内,香港民众对“占领中环”这一政治事件的立场持有的消极态度增加的同时,在市场经济指标——股市指数上也有反映,二者呈现正相关关系。

      与先前的研究相比,本研究显现出了相似的结果。美国宾夕法尼亚大学学者Sandra曾经对美国总统选举、9.11袭击事件和美国政府对伊朗阿富汗的军费开支等议题进行了线上讨论情感与民意测验之间的关系进行比较,得出在相同时期,网络用户的积极情感反应与对特定政治议题的支持率呈现出正相关性。在本研究中,香港推特用户在特定时间区间内在推特平台上表达的对于香港“占领中环”运动的文本经过分析处理得出的情感值与同一时间段内的民意测验结果呈现正相关性。

      研究结果我们可以推断:基于互联网的对话与讨论可以作为评估线下真实民意的一个有效指标,特别是诸如推特等社交网络平台,用户在平台上的意见表达与现实民意测验存在正相关性,与股市指数也紧密相关。通过本研究,互联网平台特别是社交网络成为传播研究数据挖掘来源的可行性和适用性得到了进一步的证实。本研究为通过基于互联网的在线讨论可以作为公众民意的有效指标。特别是在政治传播研究领域,即使社交媒体上的用户在人口统计学上并不能代表全体公众,但是其却与现实民意有紧密的关联。研究结果证明了用户在社交网络平台上的意见表达与传统的现实民意指标——民意测验和股市指数有明显的相关性。这一研究结果为以后的政治态度和民意研究提供了新的研究对象,并且与传统的民意测验相比,这种研究方式可以获得更大的样本数量,其分析过程减少了繁重的人力劳动,提高了研究者的效率和研究结果的准确性。虽然本次研究基于计算机自动分析技术,其过程也经过了人工参与进行词库编码和样本选择等工作,但相比传统的民意测验方式,这依然是一种低成本而且准确率高的民意测验方式。传统的民意测验往往需要经过几天甚至更长的时间完成问卷调查和分析,在这种方法主导的民意测验中,很难实际把握民众意见随时间的变化。正因为电子计算机可以在非常短的时间内通过互联网数据的挖掘并分析结果,政府机构利用这种方式可以在短时间内把握迅速变化的公众民意,对公共事件作出更迅速的反应,提高政府的工作效率和管理水平。

      本研究采用的研究方法也存在着本身的局限性,主要包括以下几个方面:

      首先是数据的代表性。首先,从推特上通过API抓取的数据不一定能包含所有关于香港“占中”运动的推特文本。在已获得的数据之外,可能存在许多关于香港“占领中环”运动的推特并不包含“occupycentral”的关键词,这部分推特数据通过目前的方法就很难考虑在研究范围内。

      其次,虽然在抓取数据是已经把用户的地区限制在香港地区,但这并不能代表在香港地区发表的相关推特信息就来源于香港公民。虽然推特服务在香港地区是开放的,并且在香港人群特别是年轻人中已经达到较高的使用率,但香港地区同时还有来自其他国家或地区的推特使用者。

      第三,本研究在情感分析中使用的方法为HK分析法,此分析法的进行过程需要借助OpinionFinder的软件。但预先设定的词库中,无论是积极词汇还是消极词汇都是标准的英语单词,而人们日常在推特上发布信息的时候常常会使用俗语或者网络用语,这些用语的拼写方式可能与标准的英语写法有所出入。希望以后的研究者能在编纂和制定预置情感词库的时候考虑此问题并提升分析系统。

      第四,由于时间与研究方法的局限,本研究仅仅找到了推特情感指标和民意测验以及股市指数的相关性,而未能分析出推特的情感指标对后两个变量的影响。希望以后的研究者能进一步研究得出这几个变量之间的相互关系。

      最后,由于目前尚未有较为成熟的普通话和粤语情感分析系统问世,本研究只抓取了用英文发布的符合条件的推特内容。这一缺憾势必会造成经过情感分析的结果与实际的网络民意之间的差距,这是目前中文地区做情感分析中的难题与阻碍,希望后续的研究者能开发出适合普通话与粤语的情感分析系统,做出更加全面的研究。

标签:;  ;  ;  ;  ;  ;  ;  

政治运动中情绪、舆论与股市的相关性研究--香港“被占领中心”运动中Twitter情绪指数、民意调查与股市指数的比较_社交网络论文
下载Doc文档

猜你喜欢