引文现象所反映的引文行为--一篇190000高频自然引文的案例研究_科学论文

错引现象折射出的科学家群体引文失范行为——以Nature上一篇19万次高频引用论文的错引记录为例,本文主要内容关键词为:引文论文,为例论文,上一篇论文,折射出论文,科学家论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:N031 文献标志码:A 文章编号:1000-8934(2007)06-0062-04

1 Nature高频被引论文错引记录引发的思考

用科学计量学方法揭示科学发展的节律是我们近两年的主要研究工作[1,2],本文的选题源于我们进行科学发展节律研究时的一个意外发现。

众所周知,Nature是极具国际影响力的多学科综合性期刊,创刊于1869年。自2005年起我们尝试剖析Nature这个典型案例。在利用美国ISI建构的SCI数据库(Science Citation Index-Expanded )检索Nature的被引用情况时我们发现,有一篇发表于1970年,署名U.K.Laemmli的论文[3]总被引频次极高,截至2006年2月已被引用194446次。这篇超高频引用论文在Nature的节律曲线上形成了一个波峰,引起我们的关注。可是,当分析 Laemmli论文的具体被引用情况时,这近20万篇引文显示的该文的出处竟然有许多不同的“版本”。绝大多数引文标注该文发表在Nature 1970年227卷,起始页680页,但也有引文标注该文为227卷,起始页码为第80页,还有标注256卷,起始页码 495等等,总计518个不同的“版本”。我们已证实了“227卷—680页”标注的正确性,而且已经确认, U.K.Laemmli在1970年出版的Nature上只发表了这一篇论文。那么,其他517个错引版本究竟是怎么回事?

细分一下,517个错引版本有三种类型:卷码对,页码错;卷码错,页码对;卷码、页码均错。前两种可称之为单错引,第三种我们称之为双错引。令人感到不解的是,同类错误出现的频次相当高。例如,标注“227卷—650页”的有235篇论文,标注“277卷—680页”的有325篇。特别是,卷码、页码双错引的重复出现更令人不可思议。例如,标注“256卷—495页”的竟达18篇论文。如果说,少量的单一卷码或者单一页码的错误可以用引用者的疏忽来解释,大量的相同卷码或相同页码错误,特别是卷页双错引的重复出现就无法用“疏忽”来解释了。小概率事件概率异常的背后隐藏着什么?我们推测,是科学家的引文失范行为:引用者在没有阅读原始文献的情况下,“借用”了其他论文文末的参考文献。很早以前就有文献研究“借用”参考文献问题。 1989年,利用ISI的数据库,Moed和Vriens[4]通过对4500篇论文的25 000次引用进行研究,发现约有 9.4%的引用有错误。Moed所说的错误引文是指在论文题目、作者姓名、卷码或者起始页码等方面至少有一处出错的引文。Moed把出现这种现象的主要原因归结于复制了他人论文的错误参考文献。我们将复制了他人论文的参考文献简称为引文复制。引文复制的另一种形式是自引复制,我们将在后文提到。Laemmli论文频次如此之高的错误引文数量,种类如此之多的错误引文类型,成为我们研究科学家群体引文复制行为的一个绝佳的样本。

当然,并非所有错误的引用参考文献都是由科学家的失范行为引起,有些引文错误属于笔误或者疏忽。也并非所有引文失范行为都表现为仅仅是错误地引用参考文献,例如,有些作者在论文中不加标注地大段引用他人文献亦属引文失范行为。我们要研究的是由参考文献引用错误反映出来的引文失范行为,这种行为既是一种错误引用参考文献行为,又是一种引文失范行为,是这两种行为的交集,我们称之为失范的错误引文所反映出来的引文失范行为。我们将利用科学计量学的方法,以Laemmli的高频引用论文为例,研究这种隐藏在错引现象背后的引文失范行为。

2 Laemmli论文错引记录的计量分析

在Laemmli论文的194446条被引记录中,我们发现了4133条错引记录,错引率达2.13%。表1列出了三大错引类型包含的案例数和相应的错引频次。例如,“256卷—495页”和“283卷—249页”同属卷码页码双错类型,是其中的两个案例。前者发生频次为18,后者发生频次为15。这样的双错引案例总共有215个,总发生频次为437。计算一下,将 227卷—680页误写为256卷—495页的概率究竟有多大?相当于6位阿拉伯数字写错5位的概率,即1/9[5]。有18个人犯这同样错误的概率又有多大?几乎为0!因此,我们的结论是,大量卷码页码双错现象反映的绝对是科学家复制引文的行为。在卷码页码双错类型中发生频次在3以上的案例中。除了一个将卷码和页码标注反了的案例外,其他案例错得莫名其妙。还有一些并非双错引,但也错得荒唐的单错引案例,例如,卷码正确标注为227,但是页码错误标注为11713。该错误页码11713与正确页码680差之万页,而且这同样的错误出现了19次。真真想不明白,错误始作俑者如何构造了这样一个页码。也真想问问那些不动脑筋复制引文的科学家,何曾见过如此大的期刊页码?这类荒唐的单错引也是研究引文复制现象的绝佳案例。

对发生频次在3以上的双错引案例,以及个别错得荒唐的单错引案例我们做了如下分析:

第一,对错引案例中所有包含错误引文记录的论文(下文简称错引论文)按照发表年份进行排序,目的是寻找该错引的始作俑者。我们假定,公开发表年份最早的那篇论文炮制了错误引文。

第二,确定错引案例中所有错引论文之间的引用和被引关系,以此勾勒错误引文的传播轨迹。例如,论文B引用了论文A,论文C又引用了B,那么,错误就是从A传播到B,再从B传播到C。或者说,论文C复制了论文B的引文,而论文B复制了论文 A的引文。

第三,构造错引案例的引用网络图,展现错误引文的扩散模式,分析错引案例成因。错引网络图的构建原则是:圈中数字代表论文的序号,序号越小,论文发表越早;论文依发表时间早晚自上而下排列;箭头指向的是被引论文,箭尾是引用论文。图1和图2提供了2个错引网络图,一个是单错引案例网络图,一个是双错引案例网络图。

图1是一个单错引案例的网络图,由页码错标为11 713的19篇论文构成。数据显示,论文1和论文2均发表于1988年,发表在不同的期刊上。在利用SCI数据库检索时,论文1的序号在论文2之前。但是由于SCI数据库并未提供确切的发表月份,仅,从发表年份上很难确定谁炮制了错误引文,谁复制了错误引文。尽管如此,可以确定的是,论文1和论文2中肯定有一篇是标注11713错误页码的始作俑者。网络中论文2和论文4均被引4次,在错误引文扩散中起到重要作用。奇怪的是,论文4和此前发表的论文1、2、3之间均没有引用关系。那么,论文4的引文错误是从何处复制来的?经比较论文的作者群,我们发现,论文4和论文2的部分作者是相同的。因而,论文4作者直接借用了自己先前发表过的论文中标注错误的参考文献。论文3、5、6和 19游离于主体网络之外。显然,论文5的错误来源于论文3,可论文3的错误又是从何而来呢?经查对,论文3和此前发表的论文1、论文2并无共同作者,因此,惟一的解释就是,论文3的作者从论文1或者是论文2中复制了引文但没有标注。类似的情况还有论文19,该文和其他18篇论文均没有共同作者,它的错误引文肯定是从其他18篇中的某一篇中复制的,但是没有标注。这样,论文3和论文19作者的引文失范行为除复制引文外,还有“引而不注”——明明引用了他人文末的文献,在自己参考文献列表中又不标注。Laemmli论文错引记录分析无意中为我们提供了引而不注的有力证据。引而不注也是一种引文失范行为。

图1 错误引文为Vol.227,p11713的单错引案例

图2提供了又一个“复制引文”和“引而不注”双重引文失范行为的典型案例。18篇论文的作者犯了同样类型的引文错误:卷码错注为256,页码错注为495。这就是我们前文提到的,发生概率几乎为0的案例。因此,几乎百分之百肯定,这18篇论文中至少有17篇存在引文复制行为。更令人不可思议的是,除论文3和论文12的作者外,其他论文的作者竟然都采用了引而不注的方式。这样一来,根本无法理清该案例错误引文的扩散途径。但是,这的确让我们清醒地看到科学家群体另一种引文失范行为“引而不注”发生的普遍性。

引而不注可分为两种情况:他引不注指的是在自己的著述中引用了他人的成果而没有标注,这是一种引文失范行为;自引不注指的是在后来的著述中引用于自己先前的成果而没有标注,通常情况下,自引不注不能算作是引文失范行为。为了分辨该案例中他引不注和自引不注的情况,我们特别核对了这18篇论文作者群的交叉记录。除论文2和3、论文4和5、论文9和12、论文13和17有作者交叉外,其他论文的作者群是相对独立的。图2显示,论文3引用了论文2,论文12引用了论文9,论文5和 17属于自引不注。这就证实了,17篇论文中有13篇的作者在复制他人参考文献的同时,还兼有他引不注的引文失范行为。

图2 错误引文为Vol.256,p495的双错引案例

3 错引现象折射出的引文失范行为

对Laemmli论文错引记录的科学计量学分析在揭示出存在于科学家群体中的引文复制行为的同时,还揭示出同样存在于科学家群体中的引而不注行为。引文复制和引而不注都有可能是科学家群体的引文失范行为。不过,对引文复制和引而不注还要做些具体分析。

引文复制可分为两种类型——他引复制和自引复制。他引复制,即复制他人论文中的参考文献。自引复制,即复制自己先前发表过的论文中的参考文献。在没有阅读过某文献的情况下复制他人参考文献列表中的文献加到自己的参考文献列表中,这绝对是一种引文失范行为。针对他引复制,我们的建议是,在撰写科技论文时坚决杜绝复制他人引文的现象,自己没有阅读过的文献不能列到参考文献清单中。自引复制类型比较复杂,又分为两种情况。一种是确实阅读过某文献,并且列入到自己某著述的参考文献中,其后的著述中再引到这篇文献时就直接从自己先前著述的参考文献列表中复制。这是一种正常的工作方式,可以节省编制参考文献列表的时间。只是首次将某文献列入自己的参考文献列表时要特别小心,不要出错。否则,自引复制连错误一起复制,就会一错再错了。第二种情况,首次引用时复制了别人的引文,自己并没有阅读过该文献,然后,一次又一次地复制自己复制来的引文,这种自引复制实质上是他引复制,是引文失范行为。

如前所述,引而不注也可分为两种类型,他引不注和自引不注。以论文为例:引用了他人论文的观点、内容,或者转引了他人文末的参考文献而没有在自己论文的参考文献中列出,这是他引不注;在新的研究论文中引用了自己的先前的论文却没有在新论文的参考文献中列出,这是自引不注。后一种行为是一种不规范的引文行为,但不能说是失范的引文行为。前一种情况则不能不说是引文失范行为了。

我们的研究从Nature上一篇超高频被引论文的错引记录入手,揭示出隐藏在错引记录背后的科学家群体的引文失范行为。我们的研究并非首创,已有不少学者做过类似研究。SCI的创始人Garfield[5]在20世纪90年代初就注意到了这个问题,并为此在ISI的数据库中引入了质量控制机制。在计算机的辅助下,ISI对因错误引文造成引文频次偏差,尽可能予以修正。这篇文献同时也指出,在 Garfield之前,已有学者对于错误引文进行了研究。例如Broadus[6]通过研究引用同一本著作的148篇文献发现,超过20%的引文的参考文献竟然出现了和这本学术著作相同的引文错误。新近关于错误引文研究比较突出的成果来自于美国加利福尼亚大学洛杉矶分校的Simkin和Roychowdhury[7]。他们的研究表明,一篇高频引用论文的错引记录按照错引类型的被引频次从高到低排列呈齐普夫分布 (Zipf law)。据此,他们构建了错误引文产生的随机模型,并得出一个惊人的结论:绝大多数对于“名著”的引用,都是复制的。除此之外,他们也提供一些其他同行的研究成果,例如Hoerman和Nowieke[8]对科尔兄弟Ortega假说论文中错误引文扩散的追踪。

Laemmli超高频引用论文的错引记录分析,特别是错引网络分析,清晰地揭示出科学家群体中存在的引文复制和引而不注的引文失范行为。现在,还有一件让我们百思不得其解的事情:这五花八门,离奇出谱的引文错误最初是怎样产生的?如果不涉及科学道德问题,是否应从科学态度方面找找原因?

收稿日期:2006-12-26

标签:;  ;  ;  ;  ;  ;  

引文现象所反映的引文行为--一篇190000高频自然引文的案例研究_科学论文
下载Doc文档

猜你喜欢