全文引文分析--引文分析的新进展_文献分析法论文

全文引文分析--引文分析的新进展_文献分析法论文

全文本引文分析——引文分析的新发展,本文主要内容关键词为:引文论文,新发展论文,文本论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       [分类号]G350

       DOI:10.13266/j.issn.0252-3116.2014.09.018

       1 引言

       16世纪后期,论文引用制度形成,参考文献成为学术论文的第二特征,是合理进行学术科研交流的必要部分[1]。1961年,《科学引文索引》创刊,国际参考文献格式逐渐规范化,引文分析法随之成为文献计量学中的常用方法。传统的引文分析以科学文献中的脚注或尾注形式的参考文献(引文)为数据源,通过统计其被引频次分析作者、文献以及期刊的学术影响力。然而,传统的研究套路忽略了引文在文献中的具体引用情况(比如引用次数、引用位置和引用语境等)以及作者的引用动机等重要信息。作为引文分析法的新发展,全文本引文分析(citation in full-text或citation context analysis)通过自然语言处理、文本挖掘、情感分析以及可视化等方法技术对引文的引用情况和引用动机等进行挖掘、分析和展示,从而更加准确地测度和评价被引作者、文献、期刊、机构和国家的学术影响力并透视作者的引证动机等,对科学计量学和科学学的发展大有裨益。

       本文将对全文本引文分析已有的研究文献进行梳理,对其研究背景、研究数据、研究方法、研究内容和研究不足等进行系统归纳总结,以期较为全面地剖析全文本引文分析的研究现状,并为相关研究者的后续研究提供参考和借鉴。

       2 相关背景及概念

       2.1 相关背景

       全文本引文分析的提出有着深刻的学术背景和技术背景,归纳起来主要包括以下两个方面:

       2.1.1 引文分析的不足 将引文分析用于科学评价与预测从一开始就备受质疑,在其发展过程中,国内外学者对其有效性和可靠性争论不断。目前,引文分析的不足之处主要表现在:

       (1)理论不完善。引文分析理论认为文献(作者、期刊、机构、国家)间的引用关系表明了他们之间的正相关性,被引频次高的文献(作者、期刊、机构或国家)具有更高的学术影响力。然而引用动机是复杂多样的[2-3],引用关系并不总是正向的(同样存在阿谀奉承、相互吹捧、自诩等不正当的引证行为),简单的被引频次也并不足以衡量学术影响力的高低。

       (2)方法缺陷。引文分析常用方法有两大类:将引文款目作为独立计量单位和将款目间的联系作为计量单位进行分析[4]。前者是统计论文被引频次,传统引文分析认为所有引文对引证文献的影响程度是相同的,因而在统计被引频次时不考虑引用次数和引用位置,E.Garfield、L.Bornmann和MacRoberts兄弟等专家指出简单利用引文频次来进行评价是有局限性的[5-7],还应该考虑到引文在文献中被引用的次数[8]和引用位置。后者是指文献间的共引和耦合关系,共引和耦合分析利用共引和耦合的次数来度量文献对的关系强度,但共引频次的计算方法主要限于题录数据,并没有考虑共引层次(共引的位置距离)以及在同一篇文献中的多次共引。

       (3)引用动机不明确。引文分析的前提是引用规范、引用动机正确,而目前的引用动机分析只是对引用行为进行归纳分类,并不能直接将单个引用与引用动机对应起来,在引文分析过程中无法自动识别不正当引用行为,直接影响到引文分析结果的可靠性。

       2.1.2 信息技术的发展 图书情报学与信息技术关系紧密,信息技术的每一次进步都会给图书情报学带来新的发展契机。对于全文本引文分析而言,其兴起主要得益于信息组织技术和自然语言处理技术的逐步发展和完善。1998年2月XML 1.0版本由W3C正式推出。作为一种结构化的标识语言,XML可标识文章的题录、引文的位置、引文内容等信息,包含丰富的结构信息和明确的语义,具有机器可读性好、交互性强的特点,利用XML全文数据可以快速有效地进行引文位置和引文内容等信息的抽取。XML经过多次修订,已成为非常成熟的一门技术,近来各大数据库商已开始提供XML格式的全文数据,给全文本引文分析的发展带来了数据支撑。此外,作为搜索引擎和人工智能的核心技术,自然语言处理技术能够对全文数据进行多个维度的分析,比如句法分析、语法分析、语义分析、语用分析和语境分析等,给全文本引文分析的发展带来了方法支撑。

       2.2 概念

       全文本引文分析是在微观视角下基于全文数据的引文分析,是以施引文献的全文数据为研究对象,利用文本挖掘、自然语言处理、情感分析和可视化分析等方法技术,对引文的引用情况及引用动机等进行挖掘、分析和展示,量化引用所体现的文献之间影响的程度和方向,进而更加准确地测度和评价被引作者、文献、期刊、机构和国家的学术影响力的一种方法。其研究分为两个不同的层次:①结构层次。指基于引文位置的研究,包括引用频次、引文分布规律、引文关系(主要指共引关系)度量以及引文的作用和影响程度等方面的研究。②语义层次。主要包括引文内容的特征抽取及语义分析。

       3 研究数据与研究方法

       3.1 研究数据

       目前,各界使用的数据主要有3种类型:①结构化数据,指存储在数据库里,可以用二维表结构来逻辑表达实现的数据;②非结构化数据,指不能使用数据库二维逻辑表来表现的数据,如文档、图片、音频、视频等[9];③半结构化数据,是介于完全结构化数据和非结构化数据之间的数据,一般是自描述的,数据的结构和内容混在一起,没有明显的区分[10]。全文本引文分析以科学文献全文为数据源,其复杂性使其无法完全使用二维表结构来表达,因而其主要包含非结构化和半结构化两大类。

       3.1.1 非结构化全文数据 非结构化全文数据是指PDF、CAJ等格式的科学文献全文,如今Elsevier、中国知网等数据库都有提供,PubMed、arXiv等开放数据库上更是可以免费获取。非结构化的数据具有机器可读性差、不易解析的特点,其分析大多采用手工统计、抽取、追踪、解析的方法,工作量大,因此,一般针对这类数据的分析样本量很小,大都是几篇到百余篇不等。

       3.1.2 半结构化全文数据 半结构化科学文献全文主要是指HTML、XML等格式的全文数据[11]。全文本引文分析的基础是从全文数据中抽取用于分析的引用位置、引用内容等信息,早期的研究采用人工抽取的方式,工作量大,效率低。XML语言可直接对引用位置、引用内容等进行标识,通过编程就可以自动抽取被标识信息,使得对大样本数据的有效分析变得可行且容易。随着互联网技术的迅猛发展,半结构化的全文数据变得越来越普及、越来越易于获取。网上免费生物医学数据库PubMed已提供XML格式全文数据,世界三大科学期刊论文数据库Springer、Elsevier和Wiley也都开始提供全部或部分XML格式的全文阅读和下载。尤其是Elsevier,2012年开放了ConSynTM数据平台,提供XML全文数据的检索和下载,近期还开放了文本挖掘的API接口。

       3.2 研究方法

       与题录数据相比,全文数据包含丰富的引用信息和行为信息等。因此,全文本引文分析的方法包含多种,主要有文本挖掘、自然语言处理、情感分析和可视化分析等。

       3.2.1 文本挖掘 文本挖掘又叫文本知识发现,指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程,是分析文本数据、抽取文本信息、进而发现文本知识的过程[12]。文本挖掘的目标在于获得文本的主要内容特征,如文本涉及的主题、文本主题的类属、文本内容的浓缩等,其具体实现技术主要有特征抽取、主题标引、文本分类、文本聚类、自动摘要等。文本挖掘最早出现在20世纪80年代中期,主要使用纯手工挖掘方法。随着技术的进步,文本挖掘已经成为信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域,主要应用于文本分类、文本聚类、概念/实体挖掘,生产精确分类、观点分析、文档摘要和实体关系模型等方面[13]。

       在全文本引文分析过程中,利用文本挖掘技术可以实现:①抽取“学者名”、“指出”、“认为”等特征词,以此来识别引文,进而提取引用位置、引用内容等信息;②引用动机分类,通过对提取的引用内容文本进行分类,进行引用动机挖掘、引用意图分类等;③研究热点分析,利用某主题文献的引文内容文本进行聚类,分析该主题下的研究热点;④摘要总结,利用某一文献在所有施引文献中的引用上下文文本集合进行分析、整理、组合形成该文献的摘要。

       3.2.2 自然语言处理 自然语言处理技术诞生于20世纪40~50年代,是利用计算机技术的研究成果来对自然语言进行模拟加工使用,以便于人类之间或人类与智能机器之间的准确交流。目前,基于计算机智能识别技术的自然语言研究包括语言行为和语言含义理论,通过对语言句法结构的理解和具体语境下的语用推理,使计算机达到在具体的语言环境下的动态语境的理解和人类语言思维交流的程度[14]。目前,基于计算机智能识别技术的自然语言研究包括语言行为和语言含义理论,通过对语言句法结构的理解和具体语境下的语用推理,使计算机达到在具体的语言环境下的动态语境的理解和人类语言思维交流的程度。在全文本引文分析中,自然语言识别技术的处理对象是引文的引用内容,通过机器对引用内容的词法、句法和语义的解读,来分析作者的引用意图(正向或反向)以及引文对于施引文献的影响(理论基础、方法基础等)和作用。

       3.2.3 情感分析 情感分析又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[15],最初的情感分析源自对带有情感色彩的词语的分析[16],随着互联网上带有情感色彩的文本信息越来越多,情感分析也逐渐从简单的词语分析向复杂的语句及篇章研究过渡。情感分析分为3个主要步骤:情感信息抽取、情感信息分类(主客观信息、观点信息分类)及情感信息检索与归纳,目前情感分析主要应用于用户评论信息的分析与决策、舆情监控及信息预测(通过对互联网上的新闻、帖子等进行情感分析,预测某一事件的未来状况)3个方面的应用。在全文本引文分析中,通过抽取引用上下文中带有情感信息的词语,可以分析作者对引文是赞成或是反对,通过某文献大量引用内容的情感分析,也可以预测该文献在未来被引的趋势。

       3.2.4 可视化 可视化是指利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的技术。可视化最开始被应用在科学计算中,1989年,G.Robertson、S.K.Card以及J.D.Mackinlay首次提出“信息可视化”这一概念[17],此后,可视化技术逐渐被应用在情报分析中,弥补了传统信息分析方法存在的缺陷,直观有效地展示信息分析结果,对信息从一个全新的角度进行观察分析,发现隐藏情报。全文本引文分析作为一种重要的信息分析方法,利用可视化技术来对分析结果进行形象直观的展示,是必不可少的。如胡志刚等就在文献检索系统中利用标签云的形式来展示引文内容的检索结果[19],利用图表(不同颜色和形状)来展示引文的位置分布情况。

       4 研究内容

       全文数据运用于引文分析已有数十年历史,相关研究一部分集中在引用理论和引用行为的研究,主要通过引用内容进行分析,比如E.Garfield[18]在1962年运用文献全文进行引用行为分类研究;另一部分集中在引用量化的研究,主要是通过引用位置、引用频次等进行研究,比如H.Voos与K.S.Dagaev的研究[19]以及K.W.McCain与K.Turner的研究[20]。也有研究者对全文本引文分析进行了较为系统的综述,比如L.Bornmann和H.Daniel[6]总结了1990年到2008年的研究成果。笔者认为全文本引文分析的研究内容主要包含引用频次分析、引用位置分析和引文内容分析。

       4.1 引用频次分析

       引文与引用并不是一一对应的,一篇引文可以被同一文献多次引用或零引用,一个引用位置也可以同时引用多篇引文,被引用多次的参考文献对于施引文献具有更重要的影响,而一个位置引用多篇文献则是为了说明引用的可靠性,科学文献创作中这种引文与引用之间的多对多关系是必要的。为了深入研究科学文献的影响力及其相互间的关系,必须从微观层面上分析引用频次而不是简单地分析引文频次。

       国内外学者对引文频次的研究主要有以下4个方面:

       4.1.1 引文频次分析的缘起 早期,E.Garfield、L.Bornmann和MacRoberts兄弟等引文分析开创者就对引文频次的可靠性提出质疑,认为单纯使用引文频次来进行评价是有局限性的,还应该考虑引文被提及的次数;G.Herlach[8]认为文献的多次被提及是引文与施引文献间联系的特征之一;H.Voos和K.S.Dagaev认为引文对施引文献的影响可以用引用次数来计算[19]。

       4.1.2 引用次数和引文篇数的关系 据统计,约有1/3的参考文献被引用不止一次,Ding Ying等[21]对期刊《美国社会信息科学和技术》进行研究,发现其每篇参考文献平均被引用1.6次;胡志刚等[22]统计了Journal of Informetrics期刊中350篇文献的引用次数和引文篇数,发现二者的分布高度相似,引文篇数高的文章引用次数也高。其中217篇文章的引用次数大于引文篇数,109篇文章的引文篇数大于引用个数,说明在一定程度上二者呈现出相对独立性。

       4.1.3 引用频次计算方法 与被引频次不同,引用频次统计文献的被提及次数而不是被引次数。Ding Ying等[21]等通过统计引文在论文中被提及的次数来计算总被引次数;胡志刚等[22]提出了利用篇被引次数进行加权然后求和的计算方法。

       4.1.4 引文频次应用 胡志刚等[23]将引用频次应用到文献检索结果排序中,检索准确率达到56.5%,高于CRM系统的42%[24];Ding Ying等[21]利用引文频次和引用频次统计高被引论文,发现结果具有很大的差异性,在前20篇高被引论文中有35%不同,在前100篇中差异率高达48%;胡志刚等[22]发现,利用统计被引频次的方法可以更好地预测和挖掘将来新的高被引论文。一些经典文献的被引用经常是出于尊重其学术地位,一般只引用一次,所以在新的统计方法中排名下降,而新的高影响力文章排名上升。这种新的方法降低了一些经典文献的干扰程度,更容易识别出最新发表的高影响力文章,用于科学评价与预测具有更好的效果。

       4.2 引用位置分析

       4.2.1 引文与施引文献分析中的应用 文献作者出于不同的目的在不同位置进行引用,例如,引言部分的引用一般是介绍研究背景和论文相关主题已有研究,方法部分的引用是对已有方法的证实或修正,结论部分的引用则是强调结果的意义和缺陷。因此“引用位置分析”假设引用的位置与该引用对文章的影响程度大小有关。V.Cano[23]在1989年最早将引文位置作为变量进行了文献计量分析,国内外学者就引用位置进行了多方面的研究,以期进一步确定引用位置如何影响引文与施引文献的关系。研究主要包括以下3个方面:

       (1)引用位置表示方法。引用位置的变量可用引用距文章开头的长度(单词数或占文章总长度的百分比)或引用所在的文章章节来表示,如胡志刚等[24]就将引文位置表示为引言、研究方法、研究结果和讨论等4类。

       (2)引文位置分布。引文在文献中并不是均匀分布的,S.E.Cozzens[25]发现引用在综述部分的分布最密集,其次就是引言部分;胡志刚等[22]对Journal of Informetrics期刊中350篇文献进行了位置分布研究,发现50%的引用出现在文章的前30%部分。

       (3)高被引文献的引用分布。Ding Ying等[21]发现高被引文献大都是被引用在文章的前言和综述部分;胡志刚等[22]统计J.Hirsch在2005年发表的高被引文献An Index to Quantify Individual's Scientific Research Output的被引情况,发现50%的引用出现在文章的前10%部分(其中33.1%是施引文献的第一个引用),与普通文献此比率(前30%)相比,高被引论文更偏向于被引用在文献的前面部分。高被引论文的这种引用分布规律说明作者倾向于优先重点引用重要文献,因而可以利用引文位置来预测高影响力文献,在进行引文分析时,也应该考虑给前面部分的引用赋予更高的权值。

       4.2.2 共引分析中的应用 主要包括以下两个方面:

       (1)共引层次划分。共引分析认为如果A同时引用了B、C,D同时引用了E、F,则B与C、E与F相似,且相似强度是相等的。但是文献的共引层次是不一样的,A.Elkiss等和Liu Shengbo等认为共引有句子内、段落内、章节内和文章内4个层次[26-27];B.Gipp等[28]则将共引分为5类:在同一句子中、在同一段落中、在同一章节、在同一期刊、在同一期刊的不同版本中。不同层次的共引强度是不相同的,A.Elkiss等[26]发现细粒度层面上的共引文献比粗粒度层面上具有更强的相似性,如在同一句子中共引的文献比在同一章节中共引的文献更相似,Liu Shengbo[27]等也发现句子层面的共引强度是最大的。

       (2)共引距离。K.W.Boyack等[29]将两篇共引文献引用位置的最短距离作为一个因素纳入共引分析,发现纳入共引距离的概念之后,共引聚类的效果比原来提升了30%;B.Gipp等[28]还为每类的共引强度赋予权值,分别为1、1/2、1/4、1/8和1/16,A.Callahan等[30]用同样的方法给共引距离赋权值为1、2、3、4、8,提升了共引分析效果。

       4.3 引文内容分析

       引文内容是文章中引用该引文的语句内容,引文特征及其对于施引文献的影响可以通过引文内容及其上下文的语义来识别。关于引文内容的研究主要有以下4个方面:

       4.3.1 引文内容定义 P.I.Nakov等[31]将引文内容理解为“citances”,即引用语句及其附近的句子;H.Small将引文内容定义为引文语句及其附近的2~3句话;Mei Qiaozhu[32]将引文内容的长度定义为引文语句前2句加上引文语句后3句的内容。

       4.3.2 引文内容语义分析 H.Small很早就对引用内容进行了分析[33-35],他通过分析化学学科的高被引论文的引用内容,发现化学学科高被引论文多是研究实验基本操作规范的文章,而不是研究学科前沿问题的论文。1979年,他还对共被引文献在施引文献中的引用内容进行了分析[36],近来又利用共被引的引用内容进行了情感分析[37-38]。

       4.3.3 摘要总结 H.Nanba和M.Okumura[39]基于一篇文献中所有引文的引用内容来总结该文献的主要内容;Mei Qiaozhu和S.Mohammad等[40]发现利用引文的引文内容总结的文献内容与利用这些引文的摘要来总结的结果具有很大的差异。

       4.3.4 引用功能分析 E.Garfield[18]在1962年运用文献全文对引用行为进行分类;V.Cano[23]、R.E.Frsig[41]等利用文本挖掘、情感分析等技术对引用动机进行了分类;S.Teufel等[42]利用自然语言识别技术对引用内容进行情感分类,构建了自动识别引用功能的系统。他们将引用功能分为4类:指出不足、对比、继承、中立,自动地将每个引用分到不同的类,通过检验发现利用情感分类来识别引用功能是十分可靠的。

       5 研究展望

       5.1 引用位置的划分和赋值尚未形成统一的标准

       一是引用位置的划分,包括距篇首的单词数、引用距篇首长度所占百分比以及引用所在的章节等划分方法,太笼统的划分(如划分为4部分)使得研究变得更容易,但分析深度也相应较浅,太细致的划分(如100部分)则使研究变得相当复杂,分析效果提升却不大,如何根据实际情况来确定合理的划分标准是以后要解决的问题之一。二是引用位置的赋值,有的研究者以1/2为变量(1、1/2、1/4、1/8……),有的研究者以1为变量(1、2、3、4、8),也未形成统一的标准。由于不同位置的引用重要性不同,如何根据不同位置的引用赋予不同的权值也将是以后要解决的难题之一。

       5.2 引文聚类算法仍需改进

       传统的引文分析将参考文献同等对待,但是在全文数据中参考文献之间的关系有了更多的测度方式。比如,参考文献在全文中的多次共引、参考文献在全文中的共引距离都是有效的测度方式[43]。然而,目前共引强度(共引距离)的权重尚未有统一的赋值标准,需要在引用位置的划分和赋值形成统一标准的基础上进行完善。

       5.3 引用动机分析有待突破

       目前引用动机分析主要有两种方法:内容分析法和调查分析法。前者是研究者通过对参考文献进行分类,分析施引文献的内容来达到对引文特征分析的目的,后者通过直接调查来了解作者引用文献的动机,两种方法得出的结论都是引用行为的归纳分类,未能识别单个引用的行为。而在引文分析中,单个引用的引用动机识别显得尤为重要,对于不正当的引用,应该提前排除,以增强引文分析的可靠性。引用行为与引用位置及引用语境有关,怎样利用文本挖掘、情感分析等技术,挖掘引文的引用信息,以建立自动识别引用动机的引文分析系统,消除不正当引用带来的影响,将成为未来研究的重要方向。

       5.4 应用研究有待深入和扩展

       目前全文本引文分析的研究多是引文分布规律、引用频次计算、引文关系度量等研究,应用研究相对较少,基于大样本量的实证研究也不多。传统引文分析经过长期的发展,已经成熟地应用到科学评价与科学预测中,并发挥着十分重要的作用。在传统引文分析法应用研究的基础上,结合文献的全文数据进行实证,分析全文本引文分析在科学评价与科学预测领域中的优势并加以应用,将成为未来的研究趋势,必将得到国内外学者的关注。

       收稿日期:2014-03-17 修回日期:2014-04-20 本文起止页码:129-135

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

全文引文分析--引文分析的新进展_文献分析法论文
下载Doc文档

猜你喜欢