微博信息挖掘技术研究综述,本文主要内容关键词为:技术研究论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2012-07-14
1 引言
微博(microblog)是近几年兴起的一种新型社交媒体及信息交流平台。它集成了手机短信、博客与社交网站的优点,使得信息更加实时、内容更加简洁、社区更加活跃。微博服务起始于2006年创建于美国的Twitter。截至2011年9月,Twitter的全球活跃用户数量已超过1亿[1],而国内微博用户总数则在2011年底达到了2.5亿。
目前,微博信息挖掘技术并没有统一的定义,本文将其解释为通过数据挖掘技术及相关方法,从大量的、有噪声的、模糊的微博信息(包括用户发表的文本内容、用户关系等信息)中,提取出隐含的、有价值的信息。微博相关研究所涉及的学科范围极广,从计算机科学技术、人工智能等自然科学到营销管理、心理学等人文科学,这些学科均涌现了许多针对微博的新兴研究方向。本文主要从自然科学角度综述微博信息挖掘的相关成果。
当前对微博信息挖掘技术的研究,主要包括微博短文本理解、微博内容挖掘、微博用户社区挖掘、微博意见领袖研究和微博信息传播模式研究等。其中,对微博内容的挖掘,主要是对微博的短文本内容进行预处理,结合微博的相关要素,提取出微博的特征,并对其进行倾向性分析、趋势检测及内容分类等研究。微博社区挖掘及意见领袖研究则属于微博用户关系挖掘范畴,其主要研究内容是基于用户之间因相互关注而形成的用户关系网络,通过对关系网络进行节点和社区结构分析,来研究用户关系的特性。而微博信息传播模式研究主要针对信息的传播结构、路径等方面进行观测及分析。
面对日益增多的微博内容挖掘、微博用户关系挖掘等研究,本文拟通过对其进行总结及归纳,指出当前研究方法存在的一些局限,并对微博信息挖掘进行展望,为进一步研究提供参考。
2 微博内容挖掘
2.1 微博短文本挖掘
微博的长度普遍较短,通常上限为140个字,若将每条微博视为一个文本片段,则微博实际上是由海量短文本构成的集合。短文本理解是微博内容挖掘的基础,在微博话题检测、情感倾向性分析等研究中均需要使用到短文本挖掘技术。
随着短信、即时通信工具的普及与流行,短文本内容飞速增加,传统的文本挖掘技术无法完全适用于短文本内容的处理。微博短文本的特点主要体现在:①文本表达口语化,不规则字符、谐音词、网络用语多;②文本特征词少且稀疏,使得特征之间的相关性难以度量[2];③文本样本数量巨大,分布高度不平衡,少部分的短文本在整体中占有较大比重[3]。
目前关于短文本分类的研究较多。为弥补短文本特征的不足,S.Bharath等人以Twitter特定领域中部分用户的个人信息及所发文本作为特征样本,将短文本划分到预定义的分类之中[4]。Liu Zitao则提出了一种新的微博短文本特征抽取方法,首先在不同对话中选取大信息量的词语,再通过知网拓展这些词语的语义特性,实验表明,该方法能有效提高分类准确率[5]。林小俊等人提出了一种基于概念网络的短文本分类方法,根据短文本的语言特点将其转化为结构化概念网络,并以概念网络之间的相似度进行文本分类[6]。
针对微博短文本中大量出现的重复信息,曹鹏等人根据Twitter中信息转发的语法特点提取出规则以过滤转发产生的冗余信息[7],并提出了统计字符种类和计算两种字符串最短编辑距离的方法,以判定近似重复的消息。王永恒等人提出了一种海量短文本聚类方法,结合频繁词集与语义信息,以并行聚类的方式实现对海量短文本的聚类[8]。对于微博短文本特征的稀疏,Hu Xia等人提出通过搜索引擎拓展短文本的上下文,以丰富短文本特征[9]。时睿等人则将名词集合作为特征,从语义角度计算短文本间的相似度,以判别微博主题含义[10]。
尽管上述方法已能根据微博短文本的特点提供相应的处理办法,但大多仅能针对特定领域的短文本进行处理,并且在时间效率及空间效率上仍有极大的提升空间。若要更全面、更高效地进行微博短文本挖掘,仍需研究更加系统的方法。
2.2 话题趋势检测
微博中的信息以其极快的流动性著称,诸如地震、选举、丑闻等社会热点信息能够在极短的时间内迅速传播、扩散。及时检测、发现微博中的热门话题及话题趋势,能更好地掌握在线社会化媒体的舆论动态。微博中的话题表现为两种形式:
·显性话题。话题名由两个“#”符号包围,区分于话题正文内容。如#数据挖掘#便是一个话题。Twitter等国外微博中则以单个“#”号进行分隔。
·隐性话题。隐性话题是指信息中隐含的话题,通常并没有特殊符号以示区分,人们可能使用不同的关键字描述同一话题。
如何正确识别微博短文本中的话题,并做出准确分析判断,是微博话题趋势检测的关键;而设计能适应前述短文本的三个特点的挖掘算法是前提。
通常可通过分析词频变化的方法来发现微博信息中的热门话题[11]。对微博信息使用分词技术[12],可提取出微博中出现的词语及词语组合,作为候选话题集合。如果在短时间内某词组的词频得到了显著提高,那么便可认为该词组是热门话题。同时,该方法可以在一定程度上过滤噪声——部分非话题词组的词频通常不会有太大的变化。但是,由于现有的分词技术对普遍口语化、多新词的短文本处理效果不够理想,话题识别的精度将受到影响。
在发现话题的基础上,话题趋势检测技术需要有预测话题趋势走向的能力,例如,检测话题走势是处于上升期或是下降期。由于每个话题都会经历产生、增长、削弱、消亡等几个阶段,可对每个话题建立一个生命周期,并依据频率变化率判断其所处阶段[13]。结合PageRank算法[14],将话题词频、转发数、发布时间、作者的关注者等因素作为加权依据[15],便可计算出微博话题及其信息的权重。通过实时监听微博的更新,可动态刷新话题数据,从而检测出话题的趋势走向。此外,微博中的关系极为复杂,权重应随实际情况灵活调整。
总的来说,微博话题趋势检测的基础在于正确地理解短文本信息,但在短文本挖掘方面,目前的基础研究,如短文本表示、词加权方法、聚类以及分类等尚不成熟。提高这些基础技术的性能是提高话题趋势检测的前提。此外,现有的方法在性能上不能达到处理实时产生的大规模微博信息的实际应用要求。
2.3 情感倾向性分析
微博以简短的文字记录用户所思、所见及所感,因此往往带有一定的倾向性。研究表明,在热门事件中用户的倾向性表现得更为明显[16]。了解用户的情感倾向,对于研究用户对商品的满意度、社会事件的态度取向等方面都具有重要的价值。
国内关于情感倾向性分析的研究已较为成熟,其研究主要可分为倾向性分类及倾向性信息抽取两个大类[17]。对于微博内容的情感倾向性分析,目前常用的策略是将微博信息划分为正面、负面及中性三种类型,代表用户对某一事物的情感倾向性。而微博倾向性分析的关键则在于提取微博短文本中的关键信息作为特征属性,并对信息进行正确分类。与传统新闻文章、博客日志不同,微博文本内容极短,包含的信息量少,如何准确提取微博的特征属性是难点所在。
一种常用的方法是以微博中的话题标记及表情符号作为分类标签[18-19]。由于微博话题并不一定限定为某一事件,情感动作等非事件词组也可利用话题的格式当成情感标签使用,故可将话题作为一种倾向依据。另一方面,表情符号是微博情感内容的直接体现,如“LOL”、“:)”或“[\郁闷]”等表情文字均可直接体现情感倾向。不过,表情符号复杂多变,情感标签也难以与普通话题相区分,这对分类的精度有一定影响。
此外,还可以结合分词及词性标注技术提取微博信息中的关键词,以之作为分类标签。若提取出的关键词中包含积极或消极的词语,则将微博信息归入对应的正面或负面分类中。然而相当一部分微博可能并不包含具有情感倾向的关键词,这时应该对其进行过滤。一种做法是,如果微博中包含新闻中的标题或百科中的句子,那么则将其归入中性分类之中[20]。
除了上述方法,最大熵、朴素贝叶斯、支持向量机等方法均可用作微博情感分类器[19-21]。为了避免微博信息内容太短所带来的不利影响,除了将上述方法中提取出的属性标签作为分类器输入外,还应结合信息的上下文及相关微博进行判断。此时可使用基于图论的方法[22]来分析微博信息间的关系,从而优化信息分类精度。
目前的微博情感倾向性分析方法通过对微博信息进行预处理,提取出表示情感的关键词语,并建立情感分类器进行分类,已经可以做到对微博进行正、负面等倾向的判断。然而,由于微博短文本处理技术的限制,分类的精度受到了一定的影响。在分类结果中,如何对倾向性进行进一步细分(如喜怒哀乐情感),是下一步研究的重要方向。
3 微博用户关系挖掘
微博用户关系挖掘主要包括微博用户关系中的社区发现、意见领袖的定义及识别、信息传播模式等方面。本文从微博用户的群体特性、用户社区的发现、意见领袖的挖掘及微博传播模式这4个方面进行总结。
3.1 用户群体特性
国内门户微博的关注度在其网站发布的当年年底就已达69%之高,截至2011年底,国内有近半数的网民在使用微博。可见微博已成为用户上网的一种习惯,分析并利用微博用户群体的特性进行研究是信息挖掘的一大突破点。
从用户关系来看,微博开创了一种弱关系[23]的单向关注方式。用户可以单方面关注他人,而无需获得对方同意。这种单向关注关系极大地促进了用户间的交流,用户乐于不断关注自己感兴趣的人,并形成新的关系网络。微博社区挖掘的研究是用户关系网络的重要课题。
与此同时,微博用户越来越习惯于快速、简单、交互性强的互动方式,“快餐”文化逐渐渗透人心。简短的信息使得微博相对于传统媒体更加快速、简单,降低了用户的创作压力及阅读成本,用户也习惯于不断添加新好友、取消关注沉默者以获取更多更新的微博。这使得微博信息迭代快、用户关系变化多,给微博关键信息的抽取及用户社区的发现带来了难度。
此外,微博的盛行也会带来消极的影响,如隐私窃取、负面言论、沉迷微博等。通过微博挖掘技术识别影响力较强的用户并对其言行加以引导,对构建和谐网络具有积极意义。
综上,目前微博的用户特性可归纳为4个方面:①用户基数大,大部分网民都在使用微博,这要求挖掘技术有大规模数据处理的能力;②用户关系变化快,每天都有大量相互关注行为产生,算法应考虑到动态变化的情况;③用户关系复杂,一个用户可能处于不同的关系圈中,算法应能发现复杂的网络结构;④意见领袖影响范围广,位于传播中心点的意见领袖的影响力覆盖面较广,对不同领域的意见领袖进行识别是微博信息挖掘的目标之一。
3.2 用户社区发现
在微博用户关系构建的过程中,一些具有相似特征的用户被自发地聚集到了一起,结成群体。因此,在微博的关系网络中,可以把个体用户视为节点,关系视为边,群体视为社区。特殊的是,微博中用户所结成的关系是一种新的关系,它将互联网上早期以即时通讯工具构建的双向关系切割成两个不对称的单向关系,这与早期的Facebook、MySpace及LinkedIn等具有对称性关系的社交网络不同[24-25]。
微博社区发现旨在识别出关系网络中固有的社区结构,即按照节点间的连边关系把节点划分成若干节点组,使得节点组内部的连边相对稠密,不同节点组之间的连边相对稀疏。社区发现算法最先由M.Girvan和M.E J.Newman于2002年正式提出[26],使用的是一种分裂式层次聚类方法。虽然该研究并不是针对微博的社区发现而提出的,但是对于微博的社区发现研究提供了一定的研究思路和指导作用。而微博社区发现的特殊性在于,在有向的关系网络中,用户在社区中所处的位置将更加复杂。
实际上,用户节点以及节点间的关系并不是静态的,社区呈现出一定的动态性质,从而形成动态社区。微博动态社区分析主要包括社区形成、社区生长、社区缩减、社区合并、社区分裂、社区消亡等。分析动态社区可以帮助人们发现很多规律[27]。例如,G.A.Scott等通过对Twitter用户进行动态跟踪研究,发现具有不同文化的用户的日间和季节性情绪随着工作、睡眠及昼夜时长的变化而发生变化[28]。K.S.Funda等也认为对社区结构的动态分析可以帮助判断微博用户之间关系的持续性[29]。Meeder等利用时间戳信息、分析微博用户的动态变化规律[30]。
虽然近几年对于用户社区发现的研究方兴未艾,但是许多研究还处于起步阶段,对于规模大、特征空间维度低和用户关系复杂的微博来说,算法的性能很难满足实际要求,算法在准确度、灵活性和可扩展性方面都有待进一步改进和完善。
3.3 意见领袖挖掘
在微博中人们可以开放、自由地交流信息和传播思想,但是大多数微博用户的思想和意见可能会受到一些意见领袖的影响。“意见领袖”的概念最早是由Lazarsfeld等提出的,是指在信息传递和人际互动过程中为人们提供某些方面的客观事实并加以主观评断的具有较高影响力和活动力的人或组织[31]。已有分析指出,意见领袖在信息传播中所起的作用比在信息交流中更大,而普通用户也可通过与意见领袖建立交流关系来促进信息传播[32]。
在微博产生之初,便有学者对博客中的意见领袖进行研究,并分析了意见领袖所具有的特征[33-34]。靖鸣等认为微博意见领袖的加入,让人们对于事件的关注形成越来越大的舆论风暴[35]。在识别意见领袖方面,平亮和宗利永认为通过分析用户的关注和被关注的程度以及信息的流向可以判断用户是关键用户还是普通用户[36];刘志明和刘鲁则从用户影响力和用户活跃度两个角度考虑,构建了微博意见领袖指标体系,提出了使用层次分析法和粗糙集决策分析理论对意见领袖的特征进行识别及分析的理论框架[37]。
在意见领袖的影响力研究方面,出现了各种定义用户影响力的方法。一种方法是借鉴PageRank算法的思想,设计一种TwitterRank算法来衡量一个用户在某一主题内的影响力[38],其主要思想是给定一个主题,将用户的影响力定义为其所有粉丝的影响力之和。还有方法是使用粉丝数量和微博转发数量对用户影响力进行衡量[39-40],结果表明,粉丝数量多的用户的微博不一定会得到很多的转发或者评论。
上述对于微博意见领袖的挖掘基本是从用户影响力的角度出发,以发现意见领袖并评估其带来的影响。但是,文献中现有用户影响力的定义和评价准则过于单一。此外,这些相关研究也没有充分考虑微博社区的动态变化特性。
3.4 微博传播模式分析
微博信息的传播模式与传统的博客、论坛或社交网络存在很大的差异。了解微博信息传播模式的特点,有利于控制信息的传播。研究表明,微博信息的传播结构、路径,与用户的影响力、节点的位置及外部干扰等因素有关[41]。具体而言,微博信息的传播特点表现为:①话题多,更新快。微博上极易产生各种话题,并且话题的更新迭代速度极快。②实时性高,流动性强。一条新微博在短时间内便有可能得到极多的转发和评论。③草根力量大。即便是没有任何背景的草根网民,也可能在微博上得到广泛响应。④名人效应强。名人对话题的发展、演变具有极强的推进作用。
根据信息的传播模式对微博进行分类,是研究微博信息传播特性的有效途径。依据其传播特点,可将微博分类为放射式微博和扁平式微博[42]。另有学者提出了直接法、职能法、矩阵法及网络法4种分类模式,将微博按不同特征进行分类[43],以更深入地分析微博的特点。但无论哪一类微博,都具备便捷性、实时性及互动性等特征。
综合以上特点,卢金珠[44]提出微博信息具有单一性、碎片化、开放性、整合性、实时性及跟随性六大传播特性。另有学者认为微博的传播优势有简单便捷、互动性强、实效性强和现场感强等方面[45]。
然而,目前对于微博信息传播模式的研究,多处于定义概念、揭示现象等阶段,缺乏深入本质规律的探索,难以为深层次信息挖掘提供强有力的理论支持。另一方面,微博信息传播方式复杂多变,在特定情境下信息的传播情况往往是多种传播模式的结合体,使用单一模式进行研究则难以对其进行正确的分析。
4 总结及展望
目前微博信息挖掘技术研究得到了国内外学者的广泛关注,本文主要总结并归纳了微博内容挖掘、微博用户关系挖掘这两个方向的研究状况及主要方法。
微博内容挖掘的关键点与难点在于微博短文本理解,短文本处理是微博话题趋势检测、情感倾向性分析等研究的基础与前提。由于微博短文本特征稀疏、语法不规则,目前并没有较为高效、全面、系统的挖掘方法。
针对微博内容的特点,可将内容挖掘的研究范围缩小至某个特定领域,如新闻内容、文化内容、公共健康内容等,再逐一突破、寻求共性。由于特定领域具有更为明显的领域特点、衡量指标,更利于提高特定挖掘技术的性能。例如,与新闻相关的微博,具有信息量大、来源广、更新快、转发率高等特点,这就要求微博新闻话题识别模型具有动态自我更新的能力,同时,能处理大量重复微博。目前已有不少学者投身至各自熟悉的领域中进行研究,可以预见,结合特定领域特点的微博内容挖掘将成为解决微博信息挖掘现有困难的重要方法。
微博用户关系挖掘研究主要是从用户关系的角度,研究用户的网络社区和对用户的影响力进行度量。但面对微博中大规模、关系复杂的动态用户关系网络,当前的算法在处理效率上还难以满足实际运行需求。
由于微博用户群体大而复杂,难以在宏观上完全把握,因此针对特定情景中的用户群体进行研究往往更具操作性及实际意义。例如在某热点事件中,由于观点立场、用户关系等不同因素,用户将自发地形成不同社区,社区中将产生对应的意见领袖,相关微博信息也将在用户群体中按某种模式进行传播。如何在特定的情景中进一步提高社区发现的性能、全面评估群体中的意见领袖、准确把握微博信息的传播模式,将成为微博用户群体挖掘的重要研究方向。
随着微博内容挖掘及微博用户群体挖掘的不断深入,部分相关挖掘技术将具有广阔的实际应用前景,如微博舆情预警、虚假微博检测、微博用户推荐等应用。基于微博话题检测技术的舆情监测应用,结合微博信息传播模式及情感倾向性分析技术,可对微博舆情建立起预警系统;在个性推荐技术中配合使用微博用户社区挖掘的相关技术,可应用于微博用户推荐;微博意见领袖则可作为识别虚假微博的一种依据。将成熟可用的微博挖掘技术投入到实际应用当中,是微博挖掘技术未来发展的重要方向。
在微博规模不断扩大的背景下,如何更有效地利用微博资源已成为政府、企业及个人密切关注的问题,微博信息挖掘技术也必然面临着更大的挑战。尽管信息挖掘的相关理论、技术及应用已经得到了一定的发展,但面对仍在不断变化、发展的微博,仍有许多值得研究和探讨的领域,如微博个性化推荐、微博自动摘要、微博用户聚类等方面,而挖掘技术的实际应用也仍具有广阔的开拓空间。