从文献计量学的角度看视点挖掘的发展&对未来情报学潜在研究领域的分析_相关性分析论文

基于文献计量视角的观点挖掘发展研究——情报学未来潜在研究领域解析,本文主要内容关键词为:情报学论文,视角论文,研究领域论文,文献论文,观点论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G310;TP391 [文献标识码]A [文章编号]1003-2797(2010)02-0055-09

1 观点挖掘概述

1.1 观点挖掘的概念

观点挖掘是对描述非事实的主观文本自动地进行抽取和分析的一种方法,该领域是一个多学科的综合的研究领域,与文本挖掘、信息抽取、信息检索、自然语言处理、概率论、统计数据分析、本体学、语料语言学、可视化技术等均相关[1]。观点挖掘不同于传统的观点分析方法。传统的观点分析方法主要是借助于人的知识和经验把与分析对象相关的主观信息汇总和提炼而得出的对事物的看法,分析需要依赖人自身的知识结构和知识基础,以及对事物的洞察力和分析力。而新兴的观点挖掘强调利用自动化和智能化的方法从大量的、分散的信息源中针对具体的分析目标进行主观信息抓取和计算以及分析,从而实现对事物的主观看法的综合分析,从其研究的对象来看,更多的关注网络媒介和各种数字化信息中的主观信息的挖掘和分析。

1.2 观点挖掘对于情报学的意义

近几年来兴起的Web 2.0应用以及各种现实世界迁徙到虚拟网络平台的应用,例如博客、BBS、电子商务网站、淘宝、易趣综合的商务平台以及形形色色的社区等,使得网络当中的评论信息异常的丰富。这些主观的信息虽然五花八门、纷繁芜杂,层次参差不齐,但是如果能够对这些离散的信息进行抽取和挖掘的话,它将成为重要的情报和决策支持信息。例如,一个企业要了解客户对于产品的评价,就可以借助网络平台利用统计、数据挖掘、自然语言处理、机器学习等手段来综合地搜索和整合这些评论,从中抽取用户对于产品以及产品性能的整体和关于具体属性的评价,有利于企业提高产品的质量,同时可以根据用户的评论信息了解用户的需求,甚至还可以了解在同样的产品当中企业的整体的竞争优势和在行业中所处的位置等重要的决策和战略情报。同时对于个人或者组织、政府也可以通过这些评论信息的搜集、组织和抽取和评价来为自己提供极具价值的知识和情报。过去情报学相对来说比较关注客观信息的搜寻、组织和分析,而如今网络时代的新生事物为情报学提供了更加丰富的分析对象,这种主观的信息作为一种独特的情报源,虽然对于情报工作是一个很大的挑战,同时也为情报工作提供了一个“诱人的大蛋糕”。如果能够很好地把这种极具增值潜力的分析对象运用的得心应手,对于情报工作本身以及情报服务的对象和情报学的理论和方法都将带来非常深远的影响。

而情报学要找到很好的研究切入点,首先必须深入地了解观点挖掘(或者称为观点探测、评论挖掘以及主观极性判断等,虽然表述的名词不一样,但是它们实质上研究的是同一个主题)领域的研究现状:包括主要的研究人员、核心的研究成果、研究的核心主题和结构、主要的研究方法和应用等。

从目前的研究成果来看,多数综述研究都是专家对领域的内容的解析,是作者的经验判断[2-6],而从文献计量方法出发,相对客观的深入了解该领域的研究还比较少。为了能够更加全面和客观的了解观点挖掘领域的研究现状和进展,本文采用了基于文献计量的方法,结合定量和定性的分析方法,从多个角度对该领域的发展进行了剖析,以期为情报学快速深入该领域的研究提供全面的参考依据。

2 基于文献计量的观点挖掘研究现状分析

2.1 数据集的构建

本文依托汤姆森科技公司的Web of Science和Web of Social Science数据库平台,利用(“opinion mining” or “sentiment mining” or“ review mining”)检索式从主题(包括标题、摘要和关键词)中进行预检索,共83篇文献。然后,为了避免关键词选择缺失造成的检索结果的过多的遗漏,根据预检索结果的题名和摘要的相关词频分布,进一步补充检索词来提高文献的查全率。利用(“opinion mining” or “opinion extract*”or “opinion analy*” or “polarity classif*” or “sentiment classif*” or “review mining” or “sentiment mining” or “sujectiv* classif*” or “semantic orientation” or “sentiment analy*” or “opinion summar*”)检索式,共检索到183篇文献。如果在样本量相对比较大的情况下,混入一些噪声数据对于结果的分析造成的影响微乎其微,而由于观点挖掘作为一个刚刚发展不久的学科,数据量相对比较小,一些噪声数据会对结果产生的影响相对要大一些,因此作者对这183篇文献的标题和摘要进行了解读,排除了那些虽然用词相同但是却属于传统的观点分析研究或者由于文献的主题中正好出现了相关的检索词,但是实则完全不相关等一些由于词语匹配和内容不相关造成误检的文献,共得到151篇文献。由于ISI数据库(也就是汤姆森科技的SCI和SSCI数据库)本身收录范围的有限,如果利用引用这些初始文献的引文作为数据集扩展途径,就能够在一定程度上把更多的相关内容融合到分析的数据中来,特别是那些没有收录在该数据库中的文献就可以通过这种方法整合到分析的数据集当中。本文采用一级引文来进行数据集扩展。在扩展的过程中,我们发现那些综述性的文章是数据集扩展的很好的来源,这些文献力求尽可能地包含作者研究当时所有领域相关的文献,能够把一些其他的语种,非ISI来源的文献都融合到数据集中,这些数据不仅和研究的内容密切相关,而且还能够更好地反映研究当前的研究重点和前沿,是一个相对比较理想的数据集扩展方式。

经过引用文献的拓展,共得到205篇文献。尽管从关键词的选择和利用引用关系对数据集进行了拓展,但是由于数据库本身以及关键词选择的遗漏和表述的不一致等问题,还是会存在一些遗漏。例如,Tang等人[7]对于观点挖掘的综述研究综述部分就提到在1997年有关观点挖掘的两篇文献,而本文构建的数据集中只有一篇1997年的文献。同时作者提到的文献还有几篇1998-2001年的文献,而本文基于SCI和SSCI数据库得到的文献中这部分年代的文献是缺失的。然而,数据集构建的完全覆盖在任何方法的分析中都是很难做到的,尽可能地保证数据的完整性,就能够从大体上准确地把握该领域的主要研究成果。

2.2 基本的统计信息分析

2.2.1 文献的出版年代分析

文献的出版年代的分布可以从大体上了解领域的发展速度以及发展的趋势。为了能够更好地了解领域文献的增长趋势,我们去除了2009年的39篇文献,如图1所示。由图1可以很明显地看出观点挖掘领域的发展可以分为三个阶段:1997-2002年是领域的发展初期,该研究由于刚刚起步,而且受到一些技术条件、应用环境和需求环境因素的影响,发展相对缓慢;2003-2006是该领域的慢跑阶段,虽然发展速度也比较快,但是总体的趋势相对要平缓一些;而2007至今是观点挖掘的快速发展阶段,从图1图像的斜率就可以很明显地看出这个阶段的文献增长速度非常的快,而且从2009年的数据来看这种趋势就更加明显了,虽然收录的数据不全,但是主要是收录的前半年的数据,已经达到了39篇,而2008年的全年的出版物数量为71篇,2009年的出版物在大约一半的时间内已经超过了2008年的一半的数量,从这个速度来看,2009年的增速也是非常之快。

图1 观点挖掘领域出版物增长图

2.2.2 基于作者关键词词频分布的主题统计分析

本文选取文献的作者关键词作为分析的对象,词频分布大于3的作者关键词如表1所示。

从观点挖掘的高频作者关键词来看,除了和观点挖掘本身同义的词之外,观点挖掘领域和文本挖掘和文本分类、机器学习、信息抽取、自然语言处理、信息检索、网络挖掘等技术和领域密切相关,主要关注用户对于产品或者事物的评论当中的情感的分类,也就是这些评论的情感倾向的分析,主要采用矢量空间模型和文本聚类的方法来对于评论的极性词进行聚类,从而得到对于产品或者服务的总体的情感取向。

2.2.3 高产作者分析

从这205篇文献的作者产出来看,发表文献最多的作者发表了6篇文献,因此选取产出大于2的作者作为高产作者,如表2所示。

进一步对这些高产作者所在的地区进行分析,如图2所示:这33位高产作者中,中国的学者(包括中国台湾的一位作者)所占的比例最大。其次是日本的研究人员。美国在这些高产作者中的比例与其在科学研究和产出的霸主地位并不一致,一方面这与本文分析的数据集选取有关,另一方面也与其国家科学研究人员的研究热情和研究能力有一定程度的相关,此外也与亚洲语言的特殊性,自然语言处理相对比较复杂,学者对本国语言的关注程度比较大有关,所以中国、日本和韩国学者占研究人员总数量的比例相对比较大。

如图3所示,高产作者之间的合作关系非常的离散。由于只是选取了高产作为分析对象,因此本图不能反映整个数据集的作者之间的合作情况,但是可以反映高产作者之间的合作关系,他们的合作主要是机构内的合作,同属一个国家的研究人员也没有合作,可见这个领域的研究还处于刚刚起步的阶段,很多研究都还是各自为政,而未来领域以及作者之间的合作将会促成该领域的更快速的发展,也是该领域发展的大势所趋。

从这些高产作者主要从事的专业来看,包括计算机科学、人工智能、信息工程、信息技术与工程等。在这些高产作者中Thelwall是网络计量学领域很有成就的学者,在情报学领域有一定的影响力和知名度,但是他的研究也是偏重技术研究,所以目前来看观点挖掘领域更加偏重技术的开发,虽然也有部分的实证研究,但多数都是对提出的方法的验证。

2.3 共词分析

为了从整体上把握观点挖掘的主题结构,我们采用作者关键词共现的方法来进行分析。本文采用作者关键词作为分析的对象,首先对得到的325个关键词进行合并处理,对同样词的不同书写形式的合并,例如NLP和natural language analysis,以及productreview和Product Reviews,经过处理以后共得到308个词。由于这个词集中多数词的词频都不高,因此选取频次大于1的关键词来进行共词分析,共有50个词。

利用SPSS软件的层次聚类算法对这50个词进行聚类分析,采用cosine对数据进行标准化处理,避免由于不同量纲对分析结果的影响,并采用完整链接方法进行聚类。共得到了9类,如图4所示。

图4 观点挖掘领域作者关键词共词关系图

从这9个主题结构来看,观点挖掘领域主要包括观点挖掘分析对象、观点挖掘研究过程、观点挖掘研究方法和观点挖点应用以及观点挖掘系统5大研究领域。这9个结构分别为:分析对象、观点分析方法、情感分类和计算、观点自身研究、网络信息挖掘、语言模型、排名、观点特征抽取、观点挖掘涉及的技术。其中第二类观点分析方法和第三类的情感分类和计算以及第九类的相关技术互为补充,从不同层面研究了观点挖掘涉及的方法和技术。从整体上来看,观点挖掘领域由于其特殊的发展环境以及目前很多成熟的技术都可以应用到其中,但是方法本身又不能直接移植到该领域,且不同领域之间的观点挖掘也具有非常大的差异,不存在兼容性,使得关注不同领域方法在观点挖掘领域的应用和深化以及方法的改进成了该领域的重中之重。由于作者关键词本身受到作者用词习惯和词本身的一词多义以及多词一义等模糊性和不确定性的影响,共现的词并不一定就高度的相关,而不共现的词也不一定不相关,因此,从一个角度得到的领域的知识结构就会存在偏差,正如我们分析过程中会发现不同的结构会存在交叉现象一样。因此,本文进一步从作者共现角度来了解该领域的知识结构,以期从更加多元的角度来了解观点挖掘领域的研究分支和研究内容。

2.4 作者共被引分析

为了能够从整体上把握观点挖掘领域的主要知识结构,本文选取被引频次不小于10的作者作为分析对象,共有52位作者。对于作者共被引分析方法对角线的处理方法一般采用缺醒值来进行处理,邱均平等人[8]在2008提出了一种新的对角线值处理方法,本文也采用最大共被引次数加一的方法来处理对角线值,采用Cosine方法对作者共被引聚类进行标准化处理,并采用多维尺度分析方法和聚类分析方法对结果进行分析和可视化,如图5所示。

图5 观点挖掘领域被引频次不小于10的作者共被引多维尺度图

对于每个类的作者的研究内容进行概括和总结,得到7大方面的研究内容,也就是观点挖掘领域基于作者共被引分析得到的知识结构,这种方法是知识结构划分方法中最常用的方法。这7个知识结构按照从大到小分别为:观点挖掘方法体系、自然语言处理和文本处理技术、文本挖掘、统计学习方法、语义网络、计算机语言学和机器学习。从作者共被引分析的结果来看,与共词分析得到的知识结构从大体上来看是相似的,但是从共词分析得到的领域知识结构划分相对比较粗糙,而共被引分析方法则把观点挖掘相关的研究内容划分的比较清晰,得到的知识结构研究内容重叠现象不十分明显,可以更加清晰地勾勒出领域的主要研究内容和不同的研究学派。对于包含最大的类的结构而言,是从整体上把各种观点挖掘相关的方法有机地结合,而其他的子结构则是从更加深入和细化的角度对研究内容进一步的拆分。

总的来看,从统计数量上和关系上的分析来看,观点挖掘领域还处在发展的初期,大多数研究内容都是在借鉴其他领域的方法和体系的基础上,根据观点挖掘对象、环境、目的等特点进行调节和自适应。领域的研究相对来说还比较离散,作者之间的合作态势还不明显,领域的知识结构还基本上停留在对其他领域的继承上,但是由于观点挖掘比起现有的文本挖掘、机器学习、自然语言处理等方法的研究需要更多的理解,也就是对于语义方面的处理难度要大很多,尤其是人类语言的丰富和多变以及在网络环境中各种新兴的网络语言的不断出现和观点表达的模糊性都使得观点挖掘的研究面临着很多的挑战。但与此同时,网络信息的多样性赋予了观点挖掘极大的发展潜力,而对于情报工作来说,通过观点挖掘来获取更多的灰色信息成为可能,大大减少了传统情报分析灰色信息获取难的问题。

3 主要研究内容概述

为了能够更加深入了解观点挖掘研究的进展,我们对该领域的代表作品进行了深入地解读,力图能够在定量分析的基础上更加详尽地了解该领域的发展。

图6是作者对搜集到的数据集内容概括的基础上勾画的观点挖掘领域的主要研究内容和相关领域的研究方法框架图,从大体上把研究内容分为不同语种、不同领域和不同分析粒度三个层面,这三个层面是从左到右逐步细化的,而最右侧相关领域的研究方法是推动观点挖掘快速发展和实现观点挖掘的重要支撑和推动力量。

图6 观点挖掘领域主要研究层面和研究方法框架图

图7 观点挖掘分析框架[9]

图7是Binali等人提出的观点挖掘分析的框架,是从观点挖掘分析的流程出发给出的框架图,本文结合图6和图7宏观和微观两个框架从高被引以及新近发表的论文入手进行深入的内容分析,主要包含以下几方面的研究内容。

3.1 不同语种观点分析研究

文献[10]利用《现代汉语褒贬用法词典》作为判断词汇褒贬的依据,同时利用《同义词词典》扩展了褒贬义词典的词语,并使用二元语法模型来判定多倾向性词语的语义取向,是针对中文语言展开的研究。文献[11]提出了一个半监督的学习算法,对中文客户评论进行了实证分析。文献[12]提出了基于kernel的机器学习方法来把词层面和句子层面的多个特征进行合并,并把这个方法应用到中文句子分析当中,发现比n-gram方法更加有效。文献[13-16]也都是针对中文语种进行的观点分析研究。由于中文、韩文、日本等亚洲语言词与词之间没有分隔符,因此相对而言对于观点挖掘语种的研究关注这些语言的比较多,尤其是对于中文观点挖掘的研究占有很大的比例,而对于英语观点挖掘的研究则相对比较少作为专门的研究主题来进行研究。除了针对亚洲语种的研究以外,文献[17]对意大利语言的影评的观点分类进行了研究,文献[18]对匈牙利语的观点挖掘进行研究。

Denecke[19]利用SentiWordNet英语词表作为观点分析的依据,对于非英语语种的语言首先采用标准的机器翻译软件把该语种翻译成英语,然后再进行词的极性判别和观点的分类。Abbasi等人[20]对多语种的网络论坛的观点分类提出了一种加权的熵基因算法(EWGA),对英语和阿拉伯语论坛的观点特征选取进行实证分析,证明了提出的方法对多语种特征选择的有效性。Denecke[21]在2008的国际数字信息管理会议上发表了题为“如何超越语言障碍来评价用户观点”的文献,同样也提出了和文献[22]一样的方法,首先把其他语种的语言翻译成英语,然后利用SentiWordNet来进行文献极性分类。

3.2 具体领域和多领域分析方法研究

观点分类对于领域依赖性很强,对于一个领域分类效果很好的分类器直接用于另一个领域几乎是不可能的。对于具体的领域的观点挖掘主要关注本领域的本体和词表的构建以及本领域的分类器的构建两个方面的研究。文献[23]指出大多数研究都利用词或者短语来进行网络博客的观点取向分析,但是词或者短语的语义取向方法并没有考虑博客具体的领域,因此作者提出利用依靠领域的潜在变量语义取向模型来代替词或者短语来进行博客观点分析。

文献[24]提出了利用多个分类器结合来实现多个领域自适应的观点分类方法,实验的结果表明作者提出的方法有效性。文献[25]尝试利用旧的领域标签例子与新的领域没有给出标签的例子结合在一起来实现领域的转移问题,利用旧领域训练的分类器来标签新领域的一些富含信息而没有给出标签的例子。实验的结果也证明了这种方法大大提高了新领域观点分类器的精度。

3.3 不同粒度的观点挖掘方法研究

观点挖掘的粒度主要分为基于文献、句子以及短语或者词三个层面。这三个层面采用的主要特征抽取和特征选取方法包括矢量空间模型、最大熵、互信息、N-gram等方法并结合各种本体和词表来进行特征的抽取和特征的识别。从图7观点挖掘的流程图来看,观点挖掘首先要确认分析对象以及分析对象的特征,然后识别有关对象及其特征的观点词汇,最后形成对于对象的观点的汇总。是一个由细粒度到粗粒度的逐步收敛的过程。不同粒度的观点方法不仅体现分析过程中,还体现在分析方法上,例如有的研究关注词的极性的判断,有的研究把句子作为分析单元来进行分析。而从目前研究研究来看,每个层面的研究都存在,而分析的粒度更加小是观点分析发展的一个趋势所在。

3.4 具体的特征抽取和观点分类方法研究

观点挖掘研究领域最主要的研究内容就是相关主题和特征识别、观点抽取和观点分类的方法的研究,占了该领域研究的很大的比重,从共词分析和作者共被引分析方法得到的知识结构来看也证明了其主要的研究内容是技术和方法的研究。从研究内容来看,最主要的研究方法是矢量空间模型方法,文献[26]对SVM方法和语义取向方法进行比较,认为SVM方法对于观点分类效果更好。文献[27]对SVM分类器和决策树分类器进行了对比,同样也说明了SVM方法分类效果更好。由于SVM模型在文本挖掘已经显示简单有效的特性,在观点挖掘研究当中多数研究也都采用了这个方法,并检验了其对于观点分类的有效性。另外一种采用比较多的特征抽取方法是最大熵,这种方法是一个概率分布估计方法,在自然语言处理的分类问题中广泛运用。文献[28]就利用最大熵模型来进行产品的特征抽取,实验的结果表明这个方法抽取的特征精度可达71.88%,是一种非常好的特征抽取方法。除此之外,互信息方法、信息增益方法等特征选取方法在观点挖掘的研究中也经常出现。

除了采用文本挖掘的分类、聚类方法以及各种统计方法和特征抽取方法之外,对于词表的构建和利用在观点挖掘方法中也非常常见,例如SentiWordNet情感词表,以及各种褒贬义词、同义词和本体词表、词性词表等都是观点挖掘经常采用的方法,借助一定的词表提高了分类的准确性和速度,同时也为未来的拓展研究和应用提供了重要的参考依据。

3.5 其他图书情报领域紧密联系的研究

文献[29]基于语义链接网络SLN建立了一个引文语义链接网络CSLN,通过整合自然语言处理技术,例如引用功能分类,观点分析和关键词抽取,到引文网络,并利用CSLN对观点挖掘学科进行了研究,从而能够发现重要的文献,探测观点共同体和发现新兴的主题,这个研究和情报学结合的非常的紧密,利用了观点挖掘的方法对引用动机进行分类,并在观点挖掘领域验证了这个方面,在方法和应用上都与观点挖掘相关的,但又不是纯粹的观点挖掘研究。文献[30]利用网络文献的共引关系来估计政治取向。政治取向作为一种文化取向,对于个人信息检索和推荐系统都非常有价值。本研究把695个党派网络文献、162个政治网络博客和198个非党派的文献作为实证分析的对象,分析的结果表明从共引模型中获得的分类准确度达到了90%以上,比起基于词层面的分类器的效率要高。文献[31]在音乐数字图书馆中利用自动的挖掘用户对于音乐的评论来把用户的观点和音乐对象联系在一起。文献[32]提出了一个原型系统对数字图书馆网络搜索结果进行情感分类,帮助用户快速地把重点放在推荐或者不推荐的信息,把网络索索结果分为正面、负面、中立和非评论文献四类,是观点分类在数字图书馆中的应用研究。

4 结论

从整体来看,观点挖掘作为一个新兴的多学科的交叉融合学科,正在快速的发展,但是该领域的研究相对而言还比较离散,学者之间的交流相对比较少。研究内容目前主要偏重于技术和方法的研究,比较成熟的方法以及各种方法之间的优劣、相对完整的方法体系的研究还比较薄弱,而作为一种重要的情报源,情报学自身对其研究还非常少,如何把该领域的研究和情报工作很好的契合仍是一个值得探讨和极具挑战的研究课题,但与此同时该领域又为情报学获取主观情报和挖掘潜在情报带来了新的机遇。

标签:;  ;  ;  

从文献计量学的角度看视点挖掘的发展&对未来情报学潜在研究领域的分析_相关性分析论文
下载Doc文档

猜你喜欢