社会化媒体信息分布规律研究:以电影评论为例,本文主要内容关键词为:为例论文,规律论文,媒体论文,电影论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250 [文献标识码]A [文章编号]2095-2171(2015)03-0025-12 DOI:10.13365/j.jirm.2015.03.025 互联网上以博客、论坛、社交网站为代表的Web2.0变革发展十分迅速,用户注册数和用户创造内容的规模急剧膨胀。随着互联网向社会化的升级,网络的社交功能开始受网民所看重,一种全新的网络媒体发展趋势——社会化媒体(Social Media)逐渐成为人们获取与创造信息的主要载体。社会化媒体是基于互联网技术产生的一种区别于传统媒体的新型在线媒体[1],如今互联网上的具体实例有Email、论坛、即时通讯、博客、播客、百科、问答、SNS、微博、团购等[2]。 社会化媒体不断创造新的功能以满足用户的需求,随着其在人们生活中的作用日益增强,媒体上的信息呈现出许多不同于传统媒体的分布规律。本文以豆瓣电影和新浪微博两个社会化媒体平台为例,对两个平台上的电影评论信息分布规律进行深入研究,希望能为研究类似平台的信息分布规律提供参考。 1 相关研究综述 社会化媒体的概念产生于信息科学领域,研究者使用该概念对由社会性网络服务(SNS)产生的新型网络空间进行概括性表述。社会化媒体概念的提出是作为一种在Web2.0环境中以超文本和超链接为基础进行传播的工具,以一种积少成多、用户创造内容的方式赋予了公众“全民记者”的权利,比其他媒体初现时产生的社会影响更为显著,将大众带入了双向交流与对话阶段,给传统的单向传播的媒体时代带来了几乎颠覆性的变革。 网络信息资源分布具有与传统信息资源类似却有些差异的分布规律。马费成[3]等的研究表明网络环境下信息分布不够稳定、更为分散、信息组织能力变化很快,其分布规律满足:集中与分散规律,随时间的分布上表现为增长和老化速度加快,在著者与发布信息的关系上发现著者的集中程度较传统文献低、信息分布更加广泛。网络信息分布广、不均衡的分布特点使得在信息传播过程中交流方式更加多元化,且马太效应更加明显[4]。 国外学者在研究社会化媒体时,对其分布规律进行了深入的分析。Maya[5]发现信息在三个时期(前网络时代、Web1.0和Web2.0)中的分布均可以用指数模型表示,“网络口碑”在信息分布和传播中起主导力量;Daniel[6]等人发现IBM论坛中针对图书的博客数量呈现一定的幂律分布;Mel[7]在对Facebook用户的一项调查中发现,用户的年龄和思想分布影响了信息分布方式;Sitaram[8]等人揭示了Twitter中电影信息的静态和动态分布规律:在静态层面上,Twitter用户与Tweets数量之间呈现幂律分布,在随时间动态分布上,某影片上映前一周关于其的Tweets数量最多,转发数量及每日每位用户发布的Tweets呈平稳分布。 国外学者对社会化媒体信息分布的研究主要集中在对Twitter、Facebook以及博客的研究上,国内学者却对微博有着特别的感情。在CNKI[9]数据库中,发现含有主题词“社会化媒体”的文献共有553篇,其中228篇文献研究微博,比率高达41.2%。王晓光[10]指出微博分布传播规律分布符合“二八法则”;田占伟等[11]的研究发现,信息在微博网络中大体呈现负相关性,即度小的节点倾向于与度大的节点相连;姜杨[12]通过研究证明新浪微博上的信息分布具有一些社会化网络特性,如度具有幂律分布的特征,用户间关系存在“150法则”等;袁红等[13]研究表明表征博文特征的数据和表征用户特征的数据之间具有很强的相关性,例如转发数与评论数、关注数与粉丝数、关注数与博文数、粉丝数与博文数等。 综合目前国内外成果来看,关于社会化媒体信息的研究日益丰富,但大多集中于单一的社会化媒体平台,对于用户自身情感表达的分布也涉及不多。本文立足于电影这一社会化媒体上的热门领域,选择豆瓣电影和新浪微博这两个性质不同却又在各自领域具有代表性的社会化媒体平台进行比较分析,力图在平台的多样性和情感分布等方面的研究上有所探求。 近年来,“文化组学”(culturomics)的概念开始兴起,它是一个由“文化”(culture)和“基因组学”(genomics)合成的合并词,是指利用数学方法分析来自网络的海量数据,从而分析人类文化的发展和演变,在语言进化、技术进步、人的“成名轨迹”等领域都有所应用[14],目前研究者们正借助于“Google Books”项目中庞大的图书数据库来进行海量文本数据的处理和挖掘[15]。本文中,笔者利用相关工具对社会化媒体上的电影评论数据进行定量处理,在此基础上研究人们在社会化媒体上的影评行为和心理,从而将此作为对“文化组学”这一新兴研究方法的一种探索性实践。 2 数据采集及处理 2.1 数据来源及采集 (1)平台选择 本文选取的社会化媒体研究平台为“豆瓣电影”[16]和“新浪微博”[17]。 国内最大的两个电影社区为“豆瓣电影”和“时光网”,两者的机制非常相似,对24部影片评分进行分析发现两平台评分相似性高达0.940,但“时光网”的评分人数较“豆瓣电影”少很多(见图1),说明“豆瓣电影”社区更成熟、用户活跃度更高,故在此两个类似平台中选择了“豆瓣电影”作为研究平台之一。“豆瓣电影”是中国最大与最权威的电影分享与评论社区,收录了百万条影片和电影人的资料,有2600多家电影院加盟,更汇聚了数千万热爱电影的人[18]。其中每部电影都有一个主页面,包含了该电影的所有自身信息和用户的标识信息等,其电影资源集中,汇聚各种电影信息和网络口碑,易形成意见领袖,是电影行业的风向标。 “新浪微博”是国内拥有用户数最多的社会化媒体。《中国新媒体发展报告(2013卷)》[19]指出中国微博成为活跃度极高的信息传播空间,网民中微博使用率为45.5%[20],而“新浪微博”是中国最活跃的微博网站,93.18%的微博用户使用微博来放松心情和打发时间[21]。与Twitter和Facebook相比,新浪微博用户更喜欢看电影,在消费的每个环节,用户都习惯通过新浪微博来辅助决策[22]。“新浪微博”是一个相对“豆瓣电影”信息更分散更全面的电影信息研究平台,故本文选择其作为研究平台之一。 图1 24部影片在“豆瓣电影”和“时光网”的评分及评分人数比较 (数据截止到2013年4月10日,评分均采用十分制) (2)影片选择 本文共选取2012年7月至2012年12月上映的24部影片,每月选取4部,体现以下多样性的原则:影片上映时间覆盖节假日、周末和平日,有原集和续集,有国产影片和引进影片,且影片涵盖所有类型。除此之外,电影片名的非歧义性也是一个重要因素,因为在“新浪微博”上采集数据时,若是电影片名容易和其他词义混淆(例如影片名:“搜索”),检索时就会出现大量和该影片无关的内容,故在选择影片时需保证片名的唯一性,可减少后期数据处理的复杂程度,提高分析的准确性。按照以上标准,选取的影片信息见表1。 (3)数据采集 “豆瓣电影”中影片的用户数据分为影评和短评两类,影评较长,通常是用户抒发情感及改写剧本之类,而短评和“新浪微博”的博文类似,都不能超过140字,非常简明,具有较强的可分析性。两个数据集的这一相似特性使得可以将两者进行结合研究,这也是最终选择“豆瓣电影”中的短评以及“新浪微博”博文这两种电影评论信息作为主要研究对象的原因。 结合已有的研究[23-25]及实际电影上映周期,本文数据采集的时间段设置为每部电影上映前2周至上映后4周,总共六周(42天)。运用自编程序进行相关数据抓取,具体数据项见表2。 2.2 数据处理及准备 本文采集的数据分为社会化媒体数值数据和情感文本数据两类。社会化媒体数据指“豆瓣电影”中每日的短评数、评分按时间的分布情况等以及“新浪微博”中每日博文/转发/评论数等;情感文本数据指两个平台中用户短评及微博文这类评论信息对电影的情感量化。处理方法如下: (1)社会化媒体数值数据的处理 根据采集的数据项,可以统计处理得到每部电影的每日短评/博文/转发/评论数、“豆瓣电影”短评总数量和“新浪微博”博文总数量、豆瓣电影中的评分按时间的分布情况等数据。其中每日短评/博文/转发/评论数以及评分分布等数据过大,本文不详细列出。 (2)情感文本数据的处理 文本情感分析又称意见挖掘,是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[26],它属于数据挖掘的一个新兴领域,它的一个重要应用领域是对互联网上出现的大量产品评论进行挖掘与分析,主要目的是能够比较精确地发现产品的优缺点,进行市场分析与决策[27]。对于舆论信息的情感分析也较为普遍,通过对新闻评论的情感分析可以了解民众对新闻人物和新闻事件的总体评价,掌握当前的舆情信息,特别是热点事件的舆情信息。 假设在电影口碑传播中存在“从众心理”和“专家效应”,即人们会根据之前看过电影的朋友对其的评价,来决定是否去观看此部电影,其他用户的影响和判断也会影响自身对影片的评价。基于以上假设,本文采用武汉大学互联网科学研究中心ROST虚拟团队开发的ROST Emotion Analysis Tool情感倾向分析工具(工具介绍和下载来源于武大沈阳的博客文章,见参考文献[28]),用来进行“豆瓣电影”短评和“新浪微博”博文数据的文本情感分析和情感比例的计算,该软件基于一定的词表来进行情感判断。笔者还邀请了三个不同学科领域的学者进行自定义情感词表及情感值的构建,进行综合后得到评价电影的自定义词表和词语的情感分数。 运行ROST Emotion Analysis Tool对每条评价进行情感值计算后得到每条评价分值,将其分为积极情绪(5分以上)、消极情绪(-5分以下)或者中性情绪(-5分至5分间)。参照相关学者的研究[8],将情感主观性Z定义为积极情绪和消极情绪之和与中性情绪的比值(公式1),将情感比例Q定义为积极情绪与消极情绪的比值(公式2)。 Z=(积极情绪+消极情绪)/中性情绪 (1) Q=(积极情绪数/消极情绪数) (2) 运用ROST Emotion Analysis Tool软件和以上计算公式,得到24部影片在“豆瓣电影”和“新浪微博”两个平台上上映前2周和上映后4周每周这5个时间段的情感主观性和情感比例。 3 用户与电影评论发文数量的关系 在“豆瓣电影”中,除去无法识别或已注销的用户的短评,24部影片共有506,113条有效短评,平均每个用户发表2.28条;在“新浪微博”中,除去不相关微博以及已注销或用户名无法识别的用户微博后,得到24部影片的有效微博总数共有844397条,平均每个用户发表1.22条(见表3),计算得到平均每条微博被转发2.47次,被评论4.61次。 分别对两平台中的用户发表短评/微博数量(y)及对应的用户数量(x)进行统计,而后分别对其做回归分析并取对数,得到两平台的回归方程分别为,方程拟合效果均较好(见图2),说明用户与其发短评/微博的数量之间满足幂律分布,即少量的用户发布了大量的短评/微博文,大部分用户仅发布了1、2条,这与大多数研究揭示的社会化媒体的信息分布符合幂律分布这一显著特征相一致[3,4,6,8,10,13]。 图2 豆瓣电影及新浪微博平台用户与发文数量间的关系 值得一提的是,将“新浪微博”的所有博文和用户进行统计后发现,发文较多的大多是电影院、电影公司等官方微博账号,表4列出六周内发微博总数排名前20的微博账号。这些账号在电影上映前会对即将上映的影片进行预告宣传,以此来吸引大家的关注和传播,这是电影院和电影发行商在微博这类社会化媒体平台上进行微博营销的一种很好的方式。而这种营销手段在豆瓣上却不常见,发文数较多的豆瓣用户也并非官方账号,但在豆瓣上“水军”这一群体的存在隐形地为电影在上映前期和初期做了一定的营销宣传。说明在营销的方式上,面对不同的平台,以发文用户身份出现的营销者有着不同的策略选择。 4 电影评论信息随时问的分布规律 4.1 豆瓣电影 (1)豆瓣短评分布规律 24部影片共有506462条豆瓣短评,每部影片每日的短评数分布见图3(图3中系列1~24分别代表编号1~24的影片,下文同)。在影片上映之前极少有人会对该影片作评论,除了个别国外引进且在国外上映日期早于国内上映日期的影片,会有少数观看过盗版或者在境外看过影片的用户写短评,基本上所有的影片都从上映之日起短评数迅速上升。分析发现,上映后影片短评随时间的分布规律可分为以下三种:多高峰型、多低峰型和单低峰型。 ①多高峰型,指短评均匀连续两次或以上出现高峰,且最高峰短评数不低于1500,峰值随时间推移不断下降,代表影片序号有4、5、6、8、9、10、12、16、19、22。多高峰型的影片往往在某个周末出现小高峰,受到持续关注。多高峰型影片示例见图4。 图3 影片在“豆瓣电影”中的每日短评数分布 图4 多高峰型影片示例 ②多低峰型,指短评连续两次或以上出现高峰,且最高峰短评数不高于1500,峰值随时间推移不断下降,代表影片序号有2、11、13、14、15、17、20、23。多低峰型影片一般在周末出现小高峰的情况较多,但峰值的出现并未呈现太强的规律性,往往有小幅度多次波动。多低峰型影片示例见图5。 图5 多低峰型影片示例 ③单低峰型,指短评仅出现一次高峰(在此处忽略在50范围以内波动出现的峰值),且这一次高峰的短评数不高于1500,代表影片序号有1、3、7、18、21、24。单低峰型影片往往属于小众影片,关注人群较少,且仅仅在刚上映时受到部分关注,关注程度迅速下滑,缺乏持续性。单低峰型影片示例见图6。 图6 单低峰型影片示例 (2)豆瓣评分分布规律 “豆瓣电影”的评分机制是五分制,本研究中也采取五分制来计算用户对电影的评分,即一星(很差)为1分,五星(力荐)为5分。 在电影未上映之前,很多用户都未对影片进行打分,评分出现了很多空值,从影片上映之日起,每部影片的评分显现出一定的规律性。将24部影片上映后连续4周(28天)的日均评分进行统计,发现上映后大部分电影评分基本上保持在稳定范围内,有的呈现小幅度(1分以内)波动,例如“铜雀台(系列11)”,有的几乎保持不变,例如“麦兜当当伴我心(系列2)”;“人在囹途之泰囧(系列22)”等大片虽在小幅度范围内呈现平稳下降的趋势,但却都一直维持着4分左右较高的分数。这或许与大片本身的性质(造势、期望过高、容易引起争议等)有关,但不容忽视的是,这些大片依然是全国电影市场上无法取代的光芒。图7为23部影片的评分随时间分布情况(由于“万箭穿心(系列18)”这部影片的评分数较少,不具研究价值,故此处将其省略)。 图7 “豆瓣电影”中影片评分平均分随时间的分布规律 分别统计上文中按短评走势分成的三类影片的短评总数平均值和日评分平均值,得到表5。三种类别的影片的短评数和评分均有很大差异,多高峰型的影片受到持续大量关注,短评数多,评分也相对较高;多低峰型影片持续受到少量关注,影片本身有一定价值,但一直无法突破更高点,短评量相对较小,评分中庸,刚好及格;单低峰型影片关注度较小,短评量和评分都最低,推测是由于其影片本身价值受限所致。 4.2 新浪微博 (1)微博博文分布规律 24部影片共有848258条相关微博,计算每部影片每日的微博数得到图8。可以看到,微博博文随时间的走势情况与“豆瓣电影”短评走势有不同之处,在上映之前的一周时间,在“新浪微博”上的相关博文开始出现且有不断增长的趋势,但数量较少,分析发现这部分的微博数据大多是电影公司、影院或者该影片的官方微博所发,用微博营销的方式来吸引大众的目光。和豆瓣电影短评数据一样,在电影上映之后,微博数量呈现大幅增长,大多数影片在上映第1周内微博数量达到峰值。 图8 影片在“新浪微博”中的每日微博文数分布 由于“新浪微博”和“豆瓣电影”两个社会化媒体在用户使用方式、使用时间、使用频率等因素上都具有一定的差异性,“新浪微博”上博文随时间的走势情况与“豆瓣电影”也存在些许差异,具体表现为:“新浪微博”的博文峰值出现频率更多且更无规律性,上下波动幅度更明显,数量上比“豆瓣电影”更多。除了“太极2:英雄崛起(系列15)”和“少年派的奇幻漂流(系列19)”这两部影片在上映第2周时达到最高峰值外,其余影片均在上映第1周内出现一个或以上峰值,博文出现的峰值并不与周末等时间因素相关,更为随机和自由,这也和“新浪微博”本身利用人们碎片化时间以及移动端的便捷性有关。 明显的是,“新浪微博”的博文在时间走势上,大体呈现信息生命周期曲线,即快速达到最高点,后续缓慢下降。某些大片(例如“人再囧途之泰囧”(系列22))即使在第4周结束时的博文数也超过了2000,说明后续还有较长的长尾,其持续性也是这些影片具有优秀特性且受高度关注的表现。 (2)“新浪微博”转发数/评论数分布规律 “新浪微博”的博文转发数和评论数也是本文的研究对象。从图9(a)中可见,大部分影片的博文转发数在上映之日前后达到峰值,前后均较低,只有少部分大片在上映后受到关注较多,转发数也较多,另外有少部分影片上映后受关注较小,反而在上映前转发数达到峰值。 “新浪微博”评论数随时间的走势情况与博文数目更为相似,均呈现上映后迅速增长,且波动频率较大,缓慢下降等趋势,见图9(b)。 图9 影片在“新浪微博”中的博文转发数及评论数随时间的分布 运用SPSS分析工具,对博文数、转发数和评论数随时间的分布作相关性分析,发现时间维度上动态的博文数与评论数之间的相关系数为0.891,动态的博文数与转发数之间的相关系数为0.780,相关性分析的结果与图中的现象一致,即博文数与评论数的走势更为一致(见图8和图9(b)),说明在微博中评论的分布更为平稳,与博文数呈较强的相关性,而转发数相对来说较为波动,信息的扩散较为不稳定,这也与微博中存在“僵尸粉”经常转发不认识的人的微博等有关。 5 用户情感分布规律 5.1 情感主观性分布 根据前文2.2中的公式1,计算出“豆瓣电影”和“新浪微博”两个平台上24部电影的情感主观性数值,图10和图11分别为两个平台上24部电影的情感主观性随时间分布柱状图(每部电影的时间段分为5个:上映前2周以及上映第1-4周)。 图10 “豆瓣电影”中用户情感主观性随时间分布图 图11 “新浪微博”中用户情感主观性随时间分布图 24部电影在两个平台上主观性得分都较为平稳,除少数影片外,大部分影片的用户主观性保持平稳,且每部影片上映前后的主观性差别不大。对此现象作如下初步分析: 第一,在电影上映之前,用户通过影片预告、宣传等途径了解影片信息,对影片已有一定的预期,主观性意愿已经达到一定的程度;第二,观众在观影后,对影片的情绪表达并未特别鲜明,特别是中国人的表达习惯相对于国外来说较为中庸,在影片上映后主观性并未像国外研究那样迅速增长[8],而是一直保持着平稳态势。 5.2 情感比例分布 根据前文2.2中的公式2,计算出“豆瓣电影”和“新浪微博”两个平台上24部电影的情感比例数值(见图12和图13)。 图12 豆瓣电影中用户情感比例随时间分布图 图13 “新浪微博”中用户情感比例随时间分布图 可以看出,两个平台上24部电影的情感比例差异都较大,且电影在上映前后的情感比例也有所变化。分析几部前后变化较大的影片,可以发现这些影片各自有其不同的情感走势及原因。 首先是上映后情感比例显著下降的影片为例,以“大武当之天地密码(系列1)”这部影片为例,上映前的情感值大于1,说明其在上映前造势比较大,人们期望较高,这部影片的演员为近年比较火的明星,所以引起人们的关注度也高。可是上映之后看了影片的用户发现影片本身“没有逻辑”、“没有内涵”等问题,导致对其失去信心,情感比例迅速降低,导致这部影片的情感比例逐渐下降。 再来分析上映后情感比例明显上升的“冰川时代4(系列4)”。由于这部影片是续集的原因,上映前的情感比值已经处在较高点(3分左右),而上映后影片的表现明显要高于人们的预期,人们发现这部影片具有“欢乐”、“3D效果不错”等吸引人的特性,情感比例高于预期。 可以发现,无论是上升还是下降,情感比例的变化主要集中在影片上映后的第1周,后续3周的变化则相对平稳,说明用户真实观影行为之后的评价对于影片上映前的过度造势仍然具有修正的作用。与情感主观性相比,情感比例这一指标更为鲜明地表达了用户对影片的好恶态度,这种口碑效应是否会影响到电影的票房收入,我们将在后续研究中进行专门讨论。 6 结语 本文对“豆瓣电影”和“新浪微博”两个社会化媒体平台上的电影评论信息分布规律进行了研究,主要结论如下: (1)在“豆瓣电影”和“新浪微博”两个平台上,用户和评论发文数均呈现较明显的幂率分布特征;而两平台上发文较多的用户则是不同的群体,“豆瓣电影”发文较多的主要集中在看电影资深人士以及“水军”这样的用户群体中,“新浪微博”则主要集中在电影院和制片商等官方账号,由此反映出影片营销方在两平台上营销策略选择的差异。 (2)从信息随时间的动态分布中发现,两个平台上的相关数据都在电影上映后呈现出迅速增加的态势;“豆瓣电影”的短评和评分分布较为平稳,而“新浪微博”中的博文、转发和评论的波动更为强烈和无序,这与该平台的用户使用时间碎片化、移动端的便捷性、信息传播更加分散等有关;“新浪微博”动态的博文数—评论数、博文数—转发数之间都具有较强的相关性,而前者的相关度更高。 (3)在情感分布方面,两个平台上的用户情感主观性较为平稳,电影上映前后用户的情感主观性变动不大,笔者分析,这是由于在电影上映前人们就通过宣传片等方式对影片有一定的预期,且上映后人们的情感表达也较为中庸;而在情感比例分布上,每部电影的差别比较明显,且在上映前后地有所变化,这种变化主要集中在上映后的第1周,说明用户真实观影行为之后的评价对于影片上映前的过度造势仍然具有修正作用。 在本文的研究中,由于数据获取难度等因素,只选取了24部影片作为研究对象,存在数据样本受限、数据抓取不全面以及情感分析计算不精确等问题。在后续研究中,将选取更多的电影和更多的平台进行研究,在情感分析的精确度方面也力求做进一步改进。 正如喜鹊好结群活动,且鸣声响亮,人们利用社会化媒体发表言说,由无数个体汇聚而成的“群鸣”凝结成为一股强大的力量。与传统媒体相比,社会化媒体上的信息分布与传播更具有群体效应和影响力。在本文研究的基础上,我们还将结合电影票房数据,研究社会化媒体上电影评论信息对电影票房的指示性作用,进而探讨挖掘其所衍生出的商业价值。 (收稿日期:2014-10-22)社会媒体信息分布研究--以电影评论为例_社会化媒体论文
社会媒体信息分布研究--以电影评论为例_社会化媒体论文
下载Doc文档