一种从引文到引文统计引文总数的新方法_高被引论文

从基于引文到基于引用———种统计引文总被引次数的新方法,本文主要内容关键词为:引文论文,新方法论文,次数论文,总被引论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

自《科学引文索引》诞生以来[1],国际期刊论文及其参考文献著录逐渐规范化以来,引文分析方法应运而生并获得迅速的发展。传统的所谓citation analysis,其实主要是一种reference analysis,因为它们的研究对象主要是位于文章末尾的references(引文或参考文献),而不是发生在文章正文中的citations(引用)。引文与引用之间当然是相互对应的,但并不是一一对应。一篇引文可能在多个引用位置被引用,而一个引用位置也可能包含对多篇引文的引用。从科学论文写作的角度来看,引用和引文之间的这种多对多关系是非常必要的。一个引用位置引用多篇参考文献,有助于更系统地为引用的目的服务;而一篇参考文献在单篇文章中被多次引用,则体现了该引文对施引文献的重要性。

然而,在传统的引文分析中,引文在施引文献中的引用情况通常不被考虑,而这些被忽略的引用信息其实是非常重要的[2]。传统的引文分析只考察在题录数据(如Web of Science、Scopus、CSSCI等)中所列出的参考文献列表,因此无法识别出它们在被引程度上的差异。而基于全文的引文分析方法,不仅考察施引文献所引用的引文列表,更重要的是,它还对引文在施引文献中的被引用情况进行分析,通过比较各引文之间被引程度的不同,更好地了解在施引文献中的作用和重要性。

引用信息需要通过对论文正文的解析来进行识别。之前,受数据格式和数据处理方法的限制,主要利用人工的方法从正文中识别出引用[3-4],因此无法处理大规模的数据。近年来,随着格式化的全文数据的出现,引用信息的自动识别和获取成为可能[5-10],基于内容的引文分析研究变得越来越常见。例如,Ding Ying等人利用HTML格式的全文数据,对JASIST期刊论文中的引用进行了提取和分析[10]。在笔者2012年发表的前期研究成果[9]中,构建了一种基于XML全文的引文分析系统,可以解析论文正文中出现的引用语境信息。

本文的目的是进行一次关于基于全文数据的引用分析方法的实证研究,并着重比较基于全文数据的引文分析和基于题录数据的引文分析之间的差异和联系。笔者选取了2007(创刊年)-2012年发表在Journal Of Informetrics期刊上的所有学术论文作为案例,通过对论文全文数据(XML格式)的解析,计算每篇文章中的引用个数(number of citation)和引文篇数(number of reference),统计引用个数和引文篇数的分布情况;进而,比较两组数据之间的相关性,并对这种相关性和二者之间的差异做出解释;最后,采用传统的引文分析方法和新的引用分析方法,分别生成高被引引文列表,并通过对两个高被引引文列表的比较,找出引用分析方法和引文分析方法的各自特点。

2 数据来源和数据处理

随着信息技术的发展,结构化的、主要以XML格式存储的文献全文信息越来越容易获取。目前发展迅速的知名开放获取(open access)出版物PLOS ONE,在提供传统的PDF全文数据下载的同时,还提供XML格式的全文下载。世界三大科学期刊论文数据库Springer、Elsevier和Wiley也都开始提供全部或部分XML格式的全文阅读和下载。尤其是Elsevier,2012年以来开放了ConSyn[TM]数据平台(http://consyn.elsevier.com),提供XML全文数据的检索和打包下载(目前处于邀请试用阶段)。在本文中,我们利用这一平台,并选取由Elsevier出版发行的Journal Of Informetrics(以下简称“JOI”)期刊,下载得到了2007-2012年间发表在该刊上的全部350篇论文的XML全文数据,其中作者J.Bar-Ilan发表于2008年的一篇题为Informetrics at the beginning of the 21st century的综述文章,引文数高达622篇,远超一般研究论文乃至研究综述的水平(一般研究论文的引文篇数在30篇左右,研究综述多者也只有100余篇),因此作为奇异值去掉,以此作为本研究的案例和数据来源。

通过php+MySql编程实现,将这350篇XML格式的论文全文数据进行解析,抽取出论文正文中出现的引用信息和论文末尾中的引文信息,并分别存储在两个MySql数据表中。图1显示了对XML格式论文全文数据进行信息抽取的过程以及最终得到的数据表结构。显然,两个数据表之间存在着一种多对多的数据关系,具体地,在cit_id与ref_id两个字段之间存在着多对多关系。

图1 基于XML全文数据抽取引用信息和引文信息的流程

为了验证上述解析方法的有效性,我们比较了利用上述方法得到的引文数据与普遍采用的Web of Science数据库中的题录引文数据,两者所得到的结果基本一致。最终得到的引用数据表共含16221条记录,引文数据表共含11077条记录。

3 引用个数和引文篇数的分布

首先,分别统计了这350篇论文中的引用个数和引文篇数,并根据引用个数和引文篇数的分布情况,绘制了引文分布和引用分布的对照图,见图2。

图2 JOI期刊中文章的引用个数和引文篇数的分布

观察引用和引文的平均值,可以看出,在JOI中,论文中的平均引用个数(35.25个)略高于平均引文篇数(31.39篇)。从分布的情况来看,引文数量和引用个数的分布呈钟形分布,两者的峰值都是在20-25篇(或个)之间,但是引文的数量主要集中在11-40篇之间(231篇,占66.6%),而引用个数的范围则主要是16-45个(211个,占60.3%)。后者的标准差(22.94)高于前者(20.22)。从最大值的情况来,引文数量的最大值是119,而引用个数的最大值是134。

总的来看,文章的引用个数和引文篇数的分布高度相似,但是又并不完全一致,体现了引用个数与引文篇数的一定程度上的相对独立性。接下来,我们将利用相关分析的方法具体研究一下引用个数与引文篇数之间的相关性。

4 引用个数和引文篇数之间的相关性

在本节中,我们计算了引用个数和引文篇数二者之间的相关系数,并通过绘制两者的散点图,对科学论文中引用个数和引文篇数之间的关系进行详细解读。根据每篇文章的引用个数和引文篇数,得到两个维度为350的向量,计算两个向量之间的斯皮尔曼相关系数(见表1),我们发现,两者之间的相关性为0.870,显著性水平为0.01。可以说,两组数据之间存在着较强的正相关性,即引文篇数越多的论文一般引用个数也越高。

我们进一步以文章的引用个数为横坐标,以文章的引文篇数为纵坐标绘制了两者之间的散点图(见图3)。可以看出,引用个数和引文篇数所构成的坐标点主要集中在对角线两侧。其中,有109个点出现在对角线的上方,表示在这109篇论文中,引文篇数高于引用个数,这里我们称之为重引文轻引用的论文;有217个点出现在对角线的下方,表示在这217篇论文中,引用个数高于引文篇数,我们称之为重引用轻引文的论文;另外还有24个点,恰好落在对角线上,表明在这23篇论文中,引用个数和引文篇数的数量相等,我们称之为同等引用引文论文。显然,重引用轻引文的论文远多于重引文轻引用的论文,前者几乎是后者的2倍(217篇 vs 109篇)。这一点进一步印证了第三节中所给出的结论:文章的引用个数的平均值大于文章的引文篇数的平均值。

图3 JOI期刊中文章的引用个数与引文篇数的散点

另外,我们还标出了这350个结点中比较特殊的点及其代表的文章。引文篇数最多的是Zhang Lin等人于2011年发表的关于H指数的文章[11],它含有119篇引文和91次引用。引用个数最多的是K.Frenken等人2009年发表的关于空间计量学的文章[12],它含有134个引用,但仅引用了82篇引文。引用篇数和引用个数的比例最大的是P.van den Besselaar的一篇文章[13],其引文数和引用数分别是26和12;而比例最小的是L.Egghe发表的一篇文章[14],其引文数和引用数分别是10和31。

5 引用和引文之间的对应关系

前面已经提到,科学论文中的引用和引文并不是一对一的关系,而是多对多的关系。那么,一个引用通常会引用几篇引文呢?或者反过来,一篇引文通常会在单篇论文中被引用几次(下称篇被引次数)呢?利用JOI期刊中的数据,我们求得了引用关于引文篇数的分布(图4)和引文关于篇被引次数的分布(图5)。

图4 引用中的引文数量(NR per Citation)

图5 引文的篇被引次数(NC per Reference)

在图4、图5中,为了显示的方便,都选用了双对数坐标。可以看出,在双对数坐标下,二者的分布曲线可以拟合为一条直线。具体地,在图4所示的引用关于引文篇数的频次分布中,引用一篇引文的引用数量最多(10257个,占83.1%),引用两篇引文的数量明显减少(1266个,占10.3%),引用三篇引文的引用数量更少(422个,占3.42%)。随着引用的引文数量的增加,对应引用的数量呈幂指数减少,也就是说,引用关于引文数量的分布符合在科学计量学上中经常出现的幂律分布。

同样的,在图5所示的引文关于篇被引次数的分布中,引文的篇被引次数为一次的数量最多(7970篇,占73.6%),篇被引次数为两次的引文的数量为1676篇(占15.5%),篇被引次数为三次的引文篇数进一步减少为614篇(占5.67%)。随着引文的篇被引次数的增加,对应的引文的数量呈幂指数减少,即,同引用关于引文数量的分布一样,引文关于篇被引次数的分布亦呈幂律分布。

平均而言,一个引用中会引用1.31篇论文,而一篇论文在单篇文章中通常会被引用1.50次。

6 一种新的计算总被引次数的加权方法

最后,笔者对传统的引文分析和新的引用分析方法进行比较。在传统的引文分析中,统计高被引论文列表通常是其中一个重要的任务。然而,传统的方法并不考虑一篇引文在施引文献中被引用的次数,而只考虑引文的施引文献的总数。如果将引文在每篇施引文献中的被引用的次数也考虑进去[2],那么,高被引论文列表会有怎样的变化呢?总被引次数之前的差距是增大还是减少了呢?

这一问题非常值得研究。Ding Ying等人在最近发表的论文中[10],提出了一种通过统计引文在论文中被提及(mentioned)的次数来计算总被引次数的方法(CountX)。他们发现,利用传统的CountOne统计方法与新的CountX统计方法,高被引论文列表会存在较大的差别,在前20个高被引论文中有35%的论文是不同的。但是Ding Ying等人没有进一步分析这种差异主要来自于哪些论文以及这种差异是如何造成的,下文将重点分析这一问题。

在我们的研究中,通过利用篇被引次数进行加权然后求和的方法,实现了与Ding Ying等人的论文相一致的被引次数统计方法。结合引文的引用信息,计算引文的加权总被引次数的方法如下:如果一篇引文被n篇论文引用,且其在第篇论文中被引用了次,那么总被引次数为。当不考虑在各篇论文中的被引次数(即定义所有的=1)时,这种方法即简化为传统的总被引次数的计算方法。

利用传统方法和新的加权方法分别得到表2、表3所示的高被引论文列表。可以看出,两种方法得到的排在前5位的高被引论文列表差别不大:排在前3位的论文相同,且顺序也一致;排在第4位和第5位的论文相同,但在传统方法中排在第4位的论文,在新的方法中排在第5。

在用传统方法得到的高被引论文中,有两篇论文没有在新的高被引论文列表中出现。一篇是E.Garfield于1972年发表在Science上的论文,在用传统方法统计得到的高被引论文列表中排在第7位(总被引次数为25次),但在新的高被引论文列表中的排名将为第17位(加权总被引次数为32次)。另一篇为G.Pinski等人1976年发表于Information Processing & Management上的论文,它在两个高被引论文列表中的排序分别是第8位和第11位,下降了3个位次。观察这两篇论文,发现它们有一个共同的特点,即发表的时间比较早。这些较老的经典文章,在被引用的时候,经常是出于对其学术地位的尊重而引用,而非根据它对文章的实际帮助而引用,因此通常在单篇施引文章中被引的次数不高。在新的考虑文章的篇被引次数的统计方法中,这类文章的排名通常会有所降低。

而在用新方法得到的高被引论文列表中,也有两篇在传统的高被引论文列表中没有出现。一篇是F.Radicchi 2008年发表在PNAS上的论文,一篇是L.Bornmann 2008年发表在《美国信息科学与技术学会会刊》上的论文。这两篇论文在用传统方法得到的高被引论文列表中都排在20名开外,但在用新的方法中得到的排名中都比较靠前——一个排在了第6位,一个排在了第8位。相较于其他主要发表于2005-2007年间的论文,这两篇论文发表于2008年,属于比较新的论文,仅次于排第10的T.Opthof 2010年发表的一篇论文。这类比较新的论文在被引用的时候,通常更值得被着重论述或多次提及,因此加权后总被引次数较高,相对于其在传统方法中的排名有所上升。

可以看出,相对于传统方法,通过新的统计总被引次数的方法,更容易发现较新的高被引论文,或者说,新方法可以比传统的方法更早更快地识别出高被引论文,可以更好地用于预测和挖掘将来的新的高被引论文。显然,新的引用分析的方法,在科学评价和科学预见等领域有着非常重要的应用价值。

7 结论

本文分析和比较了两个概念——引文(reference)和引用(citation)。引文出现在文章末尾,是引用的对象;引用出现在文章正文中,是引用的行为。两者相互联系而又彼此独立。但遗憾的是,传统的引文分析方法主要是基于前者即引文(reference)的分析方法,本文则提出了一种基于后者即引用(citation)的新的分析方法,这类方法又被称为“基于全文的”或者“基于内容的”引文分析方法[9-10]。

本文利用实证分析的方法,比较了这两种引文分析方法的联系和区别。基于Journal Of Informetrics期刊中所载论文的全文数据,我们识别出了在正文中出现的引用信息,统计了引用个数的分布情况,研究了引用个数与引文篇数之间的相关性,分析了引用和引文之间的多对多关系,并提出了一种新的计算引文总被引次数的方法。

从所选案例得到的结果来看,在施引文献中,引用的个数与引文的篇数存在较强的正相关性,施引文章中的引用个数越多,其引用的引文篇数也越多;引用和引文存在一种多对多而不是一对一的关系,平均而言一个引用中会引用1.31篇论文,而一篇论文在单篇文章中通常会被引用1.50次;引用的个数通常要多于引文的篇数。因此,简单地将引用和引文画等号必然会造成统计上的误差。

基于全文的引文分析方法与传统的引文分析方法相比,可以更全面地反映参考文献的真实被引次数。利用基于全文的引文分析方法统计得到的高被引论文列表,相对于利用传统方法得到的高被引论文列表,更倾向于包含一些最近发表的论文,而排除掉一些发表时间较久的论文,作为一种科学评价和科学预见的时效性方法,具有明显的优势。虽然本文只选取了情报学领域的一种期刊进行实证分析,但是新的计算引文总被引次数的方法在更多的学科和领域中的普遍有效性和应用潜力,值得期待。

致谢:感谢Elsevier ConSyn提供了对其检索和数据平台的试用。

收稿日期:2013-09-18 修回日期:2013-10-21

标签:;  ;  ;  

一种从引文到引文统计引文总数的新方法_高被引论文
下载Doc文档

猜你喜欢