科技文献老化过程的数学辨识模型_数学论文

科技文献老化过程的数学辨识模型,本文主要内容关键词为:文献论文,模型论文,过程论文,数学论文,科技论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G250

CLASS NUMBER G250

1 科技文献老化研究现状评述

科技文献的老化过程是指文献利用率(用被引用频次表征)随时间变化的过程,是文献计量学研究的重要内容之一,其研究始于1943年戈斯纳尔(Gosnell)的博士论文《大学图书馆中文献老化问题》。50 多年来,文献计量学家及文献工作者在科技文献老化问题上做了大量的研究工作,如戈斯纳尔、贝尔纳(J.D.Bernal)、巴尔顿(R.E.Berton)和凯普勒(R.W.Keblen)、布鲁克(Brookes)、普勒斯(D.Price)、莫蒂列夫、刘文及朱西传等人都提出了不同的科技文献老化模型,推动了科技文献老化规律的研究。并出现了几种主要的老化模型。

1.1 引文频次的负指数模型及其改进模型

1958年,英国物理学家贝尔纳借用放射性物质衰变的过程来类比文献老化现象,提出了描述引文频次随引文年龄增长的衰减过程的负指数模型[1],即:

r(t)=Ke[-at] ①

式中r(t)为t年所发表的文献的引用频次,k为常数,a 为老化率。

引文频次的负指数模型形式简洁,基本上反映了引文频次随时间的变化规律,但由于引文频次的统计误差会造成建模误差,后又改用累积引文频次增长模型。1970年,布鲁克在引文频次的负指数模型基础上提出了文献老化的累积指数模型:

R[,B](t)=K[,0]b[t]②

式中R[,B](t)为引文中t年以前(包括t 年)发表的文章数(被引文献年龄≥t),k为常数,b为老化系数,b〈1。

1991年刘文提出了一种科技文献老化规律的数学模型[2],即:

R(t)=K[,0](1-e[-at])

式中t为年龄,a为老化常数,R(t)为文献在t 年内累积被引频次(注:引文年龄≤t的引文总数)。

实质上,以上3种老化模型在数学上是等价的, 首先由模型①能推导出布鲁克模型,由r(t)和R[,B](t)的定义得:

∞ ∞k

R[,B](t)=∫r(t)dt=∫Ke[-at]dt=─e[-at]

t

t a

即得:

R[,B](t)=─b[t]=K[,0]b[t]

其中b=e[-a]〈1,显然式①和式②是等价的。

根据刘文公式的定义,有:

t

R(t)=∫r(t)dt

0

t

=∫Ke[-at]dt=─(1-e[,-at])

0

即:

R(t)=K[,0](1-e[-at])⑤

可见式①与式③也是等价的。

在实际应用中布鲁克模型总体上与实际统计数据吻合较好, 但当t较小时,即在0~5年范围内其拟合效果不佳。基于此原因,文献[3] 在布鲁克模型基础上引入了文献传播阻碍因素的影响,即考虑了文献从发表到被引用需要一个传递和选择过程,建立了引文年代分布数学模型:

β λ

R(t)=R[,0][1-──e[λt]+──e[βt]]⑥

β-λ

β-λ

式中λ和β分别为文献老化系数和引文阻碍系数,R(t)为累积引文量(文献年龄≤t年的引文量),R[,0]为累积引文总量。从文献[4]的验证过程看,此模型优于布鲁克模型。

1.2 巴尔顿——凯普勒方程及其改进形式

1960年巴尔顿和凯普勒提出了一个关于累计引文频次的老化方程[5]:

a b

Y=1-(──-───) ⑦

e[t]

e[2t]

式中a+b=1,Y为文献在年内累积被引次数与总引文量之比,t 为以10年为单位的时间,该模型在初始段和统计数据也吻合不好。

计算表明巴尔顿——凯普勒老化方程与实际统计数据之间存在着显著差别,特别是在初始阶段。1980年莫蒂列夫对此又提出了修正公式:

ab

Y=1-(─────+─────) ⑧

e[t-0.1] e[2t-0.2]

式中a,b,t,y的意义同式⑦。

莫蒂列夫修正式揭示了文献引用过程中存在的延时现象,但是它只把延时统一定为0.1(即1年),文献引用中的延时现象是由于文献发表过程延时引起的,由文献发表过程的规律得知此延时随文献载体的不同而变化[6],所以方程⑧有一定的局限性。

1992年北京大学的丁学东提出了巴尔顿——凯普勒方程的级数修正式[7]:

n

┌Y=1-∑ a[,i]e[-it]

│ i=1

│ n

└∑ ai=1

i=1

(i=1,2,3,……,n)

式中Y,t意义同式⑦,当i=2时式⑨与式⑦相同,当i〉2时,式⑨拟合效果比巴尔顿凯普勒好一些,然而从数学分析角度而言,任一函数都可以用某一级数形式来展开,但这样就使得模型具有过多的待定参数而复杂化,这不符合建模的“吝惜原则”。

1.3 科技文献老化的延时修正模型

文献[8]分析了文献发表延时对引文统计结果的影响, 提出了在各种老化模型中进行延时修正的观点,即在模型中加入延时修正项τ,并验证了老化模型加入发表延时修正的必要性和有效性,然而该模型是在原有的老化模型基础上实验的,未能将老化模型归于一种形式,应用时较为复杂。

2 引文频次的采样误差分析

文献老化模型到目前为止仍以经验模型为主,因而引文年代分布的数据统计是建模所必不可少的环节,建立文献老化模型的目的是描述引文频次随引文年龄(时间t)的变化过程[设引文频率的时间函数为r(ti)],但某一时刻的引文频次实际上是无法统计得到的,能统计得到的量是用某一时段〔t,t+△t〕内的引文数表示的平均引文频率

|______

|r(ti)

_______

由于r(ti)是随时间变化的(如图1),显然 r(ti )将不同于r(ti)且随统计时段大小的不同而变化;如果把实际统计出的平均引文频率数据当作理论引文频率,则将引入图1所示的采样统计误差, 将影响建模精度。另外,建模结果必然与统计间隔有关,这是极不合理的,因为统计间隔是主观因素决定的,而模型应反映老化过程的客观规律,决不应受主观因素的影响,这是引文频次模型的不便之处。正是由于这个原因,人们才转向累积引文频次模型的研究。累积引文频次通常定义为区间〔o,t〕内的引文数(布鲁克模型中特别定义为t及t年前的引文数,区间应为〔t,∞〕),依定义有:

R[,B](t)∫r(t)dt (11)

t

t

R(t)=∫r(t)dt(12)

0

显然,R(t)是可直接统计的,统计间隔的选取仅影响统计数据的样本数,而不影响统计的数值,消除了采样误差。

3 科技文献老化过程的数学辨识模型

3.1 模型选择

本文采用辨识方法建立累积引文频次老化模型。模型类型的选择是辨识建模的首要问题,选用的模型应具有一定的覆盖能力,能比较灵活地描述动态过程,另外,模型的选择要本着吝惜原则,尽量选用简单的模型,以降低算法的复杂性。

任何一物理系统的动态过程,都有一个输入量和输出量,输入量和输出量能用一定的关系式来表示。根据科技文献引用过程这一物理现象,可把输入量看成:总的引文频次/总引文量=I(为阶跃函数), 输出量为累积引文频次随时间的分布与总引文频次之比。

根据老化过程的研究及统计数据,老化过程一般如图2、图3所示。

图2中引文频次随时间的变化曲线是老化过程的脉冲响应, 输入是强度为总引文次数的理想脉冲信号。图3 中累积引文增长曲线是老化过程的阶跃响应,输入是幅值为总引文次数的阶跃信号。根据阶跃响应和脉冲响应的形状,初步选择如下形式的模型结构:

Ke[-τs]

W(s)=───────────────(13)

(T[s][,1]+1)(T[s][,2]+1)

(T[s][,4]+1)Ke[-τs]

W(s)=──────────────────────(13)

(T[s][,1]+1)(T[s][,2]+1)(T[s][,3]+1)

其中K为放大系数,T[,1]、T[,2]、T[,3]、T[,4] 为惯性时间常数,τ为纯延时项。这里分母阶数比分子阶数高2阶是考虑到脉冲响应的0初始值特点而选取的。

3.2 模型验证

现引用两组数据来验证模型与实际数据之间的拟合程度。

辨识算法采用了时域响应的最小二乘拟合法[9], 待辨识过程取自文献[10]中1980年统计的生物化学文献累积引文频次数据(图3 )及《科学引文索引》(SCI)中1992年统计的累积引文频次数据[11](图4)。

图4 SCI1964~1992年累积引文频次分布曲线

对于文献[12]中的1980年《生物化学杂志》和《生物化学》发表的2595篇论文所附的被引文献的统计数据,辨识得到的模型为式(12)所示的模型,图3为统计数据与模型理论计算绘制的曲线, 可以看出辨识效果很好。其中各参数分别为T[,1]=5.921,T[,2]=0.6381 , τ= 0.5496,最大误差为0.5%。

对1964~1992年《科学引文索引》累积引文分布数据,辨识得到的模型如式(13),图4为SCI统计数据与理论模型计算结果对比曲线。其中参数分别为T[,1]=12.148,T[,2]=4.4488,T[,3]=0.97339,T[,4 ]=7.759, τ=0.52159,最大误差为0.29%, 拟合误差已达到很小的程度。进一步的模型检验表明,拟合残差完全满足零均值白噪声的要求,说明辨识结果是严格满足辨识建模要求的。以图4的辨识结果为例, 给出残差的自相关函数图5,结果非常接近于脉冲函数。

图5 SCI引文数据拟合残差的自相关函数

4 结论

通过对以往科技文献老化模型的讨论,指出了在建立模型时引文频次存在着采样误差。本文采用辨识方法,建立了科技文献老化过程的累积引文频次数学辨识模型,并首次引入了纯延时项τ,减小了初始段拟合误差。通过对典型科技文献老化过程进行的模拟,得到了非常理想的拟合结果。

来稿时间:1999—12—02

标签:;  ;  ;  ;  ;  ;  

科技文献老化过程的数学辨识模型_数学论文
下载Doc文档

猜你喜欢