文献引文的延迟效应与文献老化模型的修正_文献论文

文献引用延时效应及文献老化模型的修正,本文主要内容关键词为:文献论文,效应论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 前 言

科技文献老化过程是指文献利用率(用被引用频次表征)随时间变化的过程,人们对文献老化的研究已有五十多年的历史,目前常见的老化模型有以下几种。

1.1 引文频次的负指数模型及其改进模型

1958年英国物理学家贝尔纳借用放射性物质衰变的过程来类比文献老化现象,提出了描述引文频次随引文年龄增长的衰减过程的负指数模型[1],即:

r(t)=ke[-at] (1)式中r(t)为t年所发表的文献的引用频次,k为常数,a为老化率。

引文频次的负指数模型形式简洁,基本上反映了引文频次随时间的变化规律,但由于引文频次统计数据一般有较大的随机误差从而会造成建模误差,人们改用累积引文频次增长模型。1970年,B.C.Brookes 在引文频次的负指数模型基础上提出了文献老化的累积指数模型:

R[,B](t)=k[,o]b[t](2)式中R[,B](t)定义为引文中t年以前(包括t年)发表的文章数(被引文献年龄≥t),即R[,B](t)=∫[∝][,t]r(t)dt,k[,o] 为常数,b为老化系数,b〈1。由R[,B](o)=k[,o]知,k[,o]为总引文数。

1991年刘文也提出了一种科学文献老化规律的数学模型[2]:

R(t)=k[,o](1-e[-at])(3)式中t为年龄,a为老化常数,R(t)定义为文献在t 年内累积被引频次(注:引文年龄≤t的引文总数),由R(a)=k[,o]知,k[,o] 为总引文数。

实质上,以上三种老化模型在数学上是等价的,首先由模型(1 )能推导出Brookes模型,由r(t)和R[,B](t )的定义有:

其中b=e[-a]〈1,显然式(1)和式(2)是等价的。

根据刘文公式的定义,有

可见式(1)与式(3 )也是等价的。

1.2 巴尔顿一凯普勒方程及其改进形式

1960 年巴尔顿和凯普勒提出了一个关于累积引文频次的老化方程[1]:

y=1-(ae[-t]+be[-2t]) (6)式中a+b=1,Y为文献在t年内累积被引次数与总引文量之比, t 为以10年为单位的时间,该模型在初始段与统计数据吻合不好。

1980年莫蒂列夫对此又提出了修正公式:

ab

y=1-(────+──────)

(7)

e[t-0.1]

e[2t-0.2]式中a,b,t,y的意义同式(6)。

莫蒂列夫修正式暗示了文献引用过程中存在的延时现象,但是它只把延时统一定为0.1,即1年。文献引用中的延时现象是由于文献发表过程延时引起的,由文献发表过程的规律知此延时随文献载体不同而变化[4],所以方程(7)有一定的局限性。取值为1年的延时修正, 仅是从统计结果得出的,未从物理背景上得到必然性的解释(从而验证延时修正思想的普适性),因而未能将延时修正的思想在更广的范围内推广。

本文在文献发表延时研究的基础上,证明了载文发表延时会转移到其引文年龄上,并称此现象为文献引用的延时效应。这一延时效应客观存在于引文年代分布统计数据中,不以主观意志为转移,所以本文认为无论哪种老化模型都应计入这一延时效应进行修正。

2 文献发表延时对引文年代分布的影响

科技文献的发表过程包括论文的邮寄、评审、修改、排版印刷等过程。论文产生后并不能马上发表,要被投寄到对应的期刊编辑部,经评委评审后,检查此论文是否有价值发表,或需经修改后发表。期刊编委决定录用后,编辑要根据每期期刊的需要及论文的客观条件来按排论文的发表时间。从文献产生到发表,存在着必然的延时现象,作者在文献[4]中对这一过程进行了详细的描述和分析, 并建立了文献发表过程的动态模型,可以看出文献发表滞后过程也有着与文献老化同样可循的规律性,这一过程会给文献的传播、引用、增长、老化带来直接的影响。

文献的引用过程是发生在文献载文产生之时而非发表之时,即作者在撰写论文时引用有关论文,引用行为在文献产生时就发生了,然而在引文统计时人们通常习惯于从发表年份起计算引文年龄,那么文献发表延时定会转移到文献的引用年龄中,从文献引用年龄的数据统计过程就能体会到这一转移现象。人们在统计时所统计到的引文年龄是文献发表时的年龄,与真正引用时的年龄相差了一个文献发表延时时间,可见文献发表滞后过程自然地转移到引用文献的年龄上去,我们称此为文献引用的延时效应。这一延时效应客观地存在于文献老化的统计数据中,因此人们建立老化模型时应考虑发表延时对老化过程的影响,加入延时修正。

3 老化模型的延时修正

3.1 统计年累积引文年龄取值的讨论

近年来国内权威性刊物发表的数篇研究老化模型的论文[2,3,5,6] ,对累积引文频次统计数据对应的引文统计年的年龄取值发表了不同的观点,统计年累积引文数对应的累积引文年龄分别为0,0.55,1,文献[6]中讨论了莫蒂列夫修正式,认为其延时修正是无意义的, 与巴尔顿—凯普勒所不同的仅在于研究者对统计年引文年龄取值的“主观理解”不同,即统计年累积引文年龄取0或1;文献[3] 也注意到延时客观存在于统计数据中,取统计年年龄为0.55年,对此加以考虑;但本文认为统计年的累积引文数对应的不应以研究者的主观意志为转移而随意取值,以下进行讨论。

由累积引文频次R(t)或R[,B](t)的定义可知, 累积引文频次R(t)对应的时间坐标t客观地表达了统计时引文的累积区间,也就是说客观上的统计区间唯一地决定了时间坐标。

对通常定义的累积引文频次R(t),统计年的累积引文频次R(t)对应的统计区间是年初至年终即[0,1]年,所以相应统计年的累积引文年龄应取1年,依此类推, 统计年前一年的累积引文频次对应的统计区间为[0,2]年,故相应的累积引文年龄应取为2年,这和巴尔顿、 凯普勒、莫蒂列夫、丁学东[5]等大多数文献是吻合的。对Brookes定义的累积引文频次R[,B](t),统计年的累积引文频次是总引文数,对应的统计区间为[1 , ∞], 故其统计年的引文年龄应取为零年, 这和Brookes原来的取值是相同的。

由以上讨论可见,对不同的累积引文频次的定义,其统计年的时间坐标有不同的取值(对R(t)应为1,R[,B](t)应为0),但这绝不是随意取值,文献[6]在讨论巴尔顿—凯普勒方程及其修正式时, 似乎混淆了这一点,容易引起误解。

3.2 加入延时修正的各种老化模型

根据文献发表滞后过程引起的文献引用行为的延时效应,本文对以下几种老化模型进行延时修正。

(1)巴尔顿—凯普勒老化方程的延时修正模型

考虑到延时不一定为定值,我们采用参数τ表示延时修正项,那么巴尔顿—凯普勒方程的延时修正模型为:

y=1-(ae[-(t-τ)]be[-2(t-τ)]) (8)式中a,b,y,t的意义同式(6),τ为延时修正项。

(2)Brookes文献累积引文指数模型的延时修正

我们首先在引文频次的负指数模型中加入延时修正:r(t)=ke[-a(t-τ)]由Brookes老化方程的定义可得:

得R[,B](t)=k[,o]b[t-τ](t≥τ)

(9)其中b=e[-a]〈1;R[,B](t),k[,o],a,t的意义同式(2); τ为发表延时修正项。

由Brookes老化模型与其它模型不同的特点, 它的拟合过程有一定的优点,由(9)式可以变形为R[,B](t)=k[,o]b[-τ]·b[t]=k[,o]'b[t]

可见上式的形式与(2)式相同,其中k[,o]'=k[,o]·b[-τ], 可以看出其延时修正包含在常数k[,o]'中,与式(2)不同的是k[,o] '≠总累积引文数,而应大于总累积引文数,这与文献[6]中1980 年生物化学文献引文年代分布的Brookes 方程的拟合数据是相符的(总引文量=80005,k[,o]=81145.57),这说明了Brookes模型的拟合中,t =0时,k[,o]≠总累积引文量的原因。

(3)刘文公式的延时修正模型

同样我们对刘文公式也加入延时修正项:

R(t)=k[,o](1-e[-a(t-τ)])(10)式中R(t),k[,o],a,t的意义同式(3)。

3.3 统计检验

加延时修正的老化模型,式(8)、(9)、(10)与原模型相比多了一个延时修正项τ,为验证延时修正的必要性和有效性,我们引用几组引文统计数据来验证延时修正老化模型与实际统计数据之间的吻合程度,并给出计算的误差对比值。

引文统计数据为文献[1]中1980 年《生物化学杂志》和《生物化学》发表的2595篇论文所附的被引文献的统计数据,另外一组为1963—1992年《科学引文索引》(SCI)累积引文分布数据[7],表1、表2分别为巴尔顿—凯普勒方程延时修正式与莫蒂列夫修正式误差对比值及刘文公式与加入延时修正的误差对比值,拟合过程是以平方误差最小为准则拟合。从表中可以看出加入延时修正的模型拟合误差比原模型有所降低,特别是刘文公式的误差有显著降低,延时修正项τ值在1年左右, 说明在老化模型中加入发表延时修正项是正确的,也是必要的,加入发表延时修正项的累积引文频次模型更能全面地反映出文献实际的老化过程的规律。

表1 B—K 老化方程延时修正式与莫蒂列夫修正式的误差对比值

参数 SCI92SCI91SCI90SCI89

莫蒂列夫修正式:

参数a

0.8053

0.7984

0.7998

0.7873

1-(ae[-(t-0.1)]

最大误差 0.0207

0.0215

0.0217

0.0212

+be[-2(t-0.2)])

均方误差 0.0027

0.0022

0.0022

0.0019

(t以10年为单位)

B-K方程延时修正式:

a 0.7770

0.7651

0.7626

0.7531

1-(ae[-(t-r)])

τ× 10

1.1398

1.1639

1.1830

1.1674

+be[-2(t-r)])最大误差 0.0165

0.0164

0.0165

0.0169

(t以10年为单位)

均方误差 0.0024

0.0017

0.0016

0.0014

SCI88SCI87SCI86生物化学

莫蒂列夫修正式: 0.7800

0.7791

0.7605

0.2590

1-(ae[-(t-0.1)]0.0188

0.0204

0.0227

0.0318

+be[-2(t-0.2)])0.0017

0.0020

0.0017

0.0056

(t以10年为单位)

B-K方程延时修正式:0.7447

0.7410

0.7129

0.1733

1-(ae[-(t-r)])1.1720

1.1846

1.2278

1.3170

+be[-2(t-r)]) 0.0176

0.0186

0.0177

0.0238

(t以10年为单位)0.0012

0.0013

0.00069 0.0014

表2 刘文公式与加入延时修正式的误差对比值

参数 SCI92SCI91SCI90SCI89

刘文正式:参数T 10.009.9559.9599.891

1-e[-t/T] 最大误差

0.0900

0.0910

0.0912

0.0908

(1/T=a) 均方误差

0.0235

0.0238

0.0243

0.0235

延时修正式:参数T 9.055

8.9817

8.97108.900

-(t-τ)

参数τ0.8731

0.8947

0.9088

0.9010

──── 最大误差

0.0258

0.0248

0.0238

0.0239

1-e T 均方误差

0.0051

0.0042

0.0040

0.0035

(1/T=a)

SCI88SCI87SCI86生物化学

刘文正式: 9.8489.8479.741 7.175

1-e[-t/T]

0.0885

0.0900.09250.1117

(1/T=a)0.0233

0.0237

0.02480.0419

延时修正式: 8.8469

8.8285

8.5866 5.958

-(t-τ)0.9050

0.9117

1.0181 1.179

────0.0211

0.0223

0.01770.0238

1-e T

0.0031

0.0033

0.0023

0.00071

(1/T=a)

4 结论

本文对以往的科技文献老化模型进行了讨论,分析了文献发表延时对引文统计结果的影响,指出了在建立老化模型过程中累积引文频次统计年的时间坐标应客观地根据定义取值,提出了加入发表延时修正项τ的各种老化模型,经统计检验,证明了文献老化模型加入发表延时修正是必要的和有效的。

标签:;  ;  ;  ;  ;  

文献引文的延迟效应与文献老化模型的修正_文献论文
下载Doc文档

猜你喜欢