洛特卡定律再探,本文主要内容关键词为:定律论文,洛特论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1966年是洛特卡定律发表70周年。文献计量学的诞生是以1926年洛特卡定律的发表为标志的,它在情报学三大非指数型定律中具有学术领先的地位。70年前,美国情报学家洛特卡通过大量调查统计,发表了题为《科学生产率的频率分布》的论文,指出了科学领域里论文的作者频率与论文数量之间存在的规律。这一研究成果在图书情报界产生了深刻的影响,被后人称为“洛特卡定律”。
洛特卡定律的作用在于揭示著者与其论文间的数量关系,描述科学生产率。这里的科学生产率是指科学工作者在给定时间内发表的论著数量。自洛特卡以后,许多人进行了这方面的研究和探索,但在科学迅猛发展的今天,对洛特卡定律的验证,尚难得出十分理想的分析结果。
洛特卡调查的对象是化学和物理学两大学科中科学家们的著述情况,他得出的结论是:
x[2]f(x)=c (1)
洛特卡定律的一般表达式是:
x[n]·f(x)=c
(2)
式中x为论文数,f(x)为某一学科中发表x篇论文的著者的出现频率(即占著者总数的比例),n、c是对应这些特定数据集合的两个常数[1]。
1 问题的提出
在图书馆学情报学中应用洛特卡定律的目的在于通过统计数据来确定常数n和c,以得出某学科的洛特卡方程的一般形式,从而揭示该学科的科学家的著述规律与文献之间的数量关系。
为了估算非线性方程式(2)的指数n, 常规的求解方法是将式(2)两边取对数,得
nlogx+logf(x)=logc (3)
即变换为logx与logy的直线关系,再利用最小二乘法解出n和c的值。
但以上解法有两个缺陷:
·参数n、c是不独立的,即用最小二乘法求n时, 还必须带上一个约束条件
,而一般用回归分析求n值的方法, 通常把这种约束置之不顾,计算中就难免失之准确。
·当f(x)=0时,logf(x)为负无穷,无法进行有限分析。
洛特卡当年就已察觉到,logx与logy的这种直线关系在高产作者点处有些失准。在大多数情况下,抽样调查的高产作者的数据点并不落在回归线上,也就是说,logx和logy的这种线性关系,对高产作者是不适用的。原因之一就是由于f(x)值对应某些x值为零,尤其是在x较大时。如化学数据中,在x=115~345这段区间内,f(x)均为零; 物理学数据在x=19,20,23,26,28……等点处,f(x)也为零(见表1)。洛特卡将1.21%的高产物理学家和1.03%的高产化学家拒之其外,含糊地作为数据波动未加处理并予忽略,即他只取了化学和物理学两组数据中前17位和前30位,这才分别得到物理学n=2.021,化学n=1.888,其中删去了所有f(x)=0的点,而这显然是不符合实际情况的。 在以后维拉奇等人的研究中,为了保持logx与logy的线性关系,也都要适当截去高产作者[2]。如文献[3]中,王崇德先生选择了国内影响大、历史长、出版正规且足以反映我国情报科学学术水平的5种期刊进行统计, 也截删了高产作者8人,即表1“王崇德数据”中写出13篇以上论文的作者。
洛特卡定律及其他一些研究早已表明,人的科学能力是呈金字塔形分布的,正是少数多产科学家组成了最积极和最有创造性的科学先锋队,在推动科学事业前进中起着中坚核心的作用。因此,把多产作者排除不计,对描述科学生产率问题来说显然是不恰当的。
表1 原始数据分布表
论文撰写人数(人) 占总数百分比f(x)[,i](%)
x[,i](篇 奥尔巴 王崇德 文武商
奥尔巴 王崇德 文武商
/人) 赫数据
数据数据赫数据
数据数据
合计
132515931479
1 784 1105107559.17
69.36
72.68
2 204 235 236 15.40
14.75
15.96
3 127 95 80
9.585.965.41
4 50 52 38
3.773.262.57
5 33 31 23
2.491.941.56
6 28 19 92.111.191.61
7 19 14 81.430.870.54
8 19 10 51.430.620.34
9 6
8
00.450.500.00
107
7
30.530.430.20
116
5
00.450.310.00
127
4
10.530.250.07
134
2
10.300.120.07
144
10.300.06
155
20.380.12
163
10.230.06
173
00.230.00
181
10.080.06
190
10.000.06
2000.00
2110.08
2230.23
2300.00
2430.23
2520.15
2600.00
2710.08
2800.00
2900.00
3010.08
…
… …
(*其中“文武商数据”是指文献[4]中文武商统计的GRA 数据)
另外,从表2可以看出,n值会因计算时所用数据点的数量不同而发生变化。这样,以n 是常数为前提来进行求解的过程似乎就失去了意义。
同时,n值的变化将产生显著不同的常数c,当n的样本值从1.75到4.00变化时,c值从0.510变到0.924,指数n 的第一个小数位只要有一点变化,就会引起c值的明显变化, 随之产生的理论分布与经验分布将大不相同[5]。
2 一个可能的修正
由于上述原因,在此提出一个对洛特卡公式的修正式。
首先应考虑的是,虽然f(x)值是从已正式发表的论文数导出的,有时为零,但事实上f(x)并不应是科学论文作者生产率的唯一度量,还有许多其它因素使f(x)值实际上不会为零,如:
·作者还有未公开的论文或在“内部”发行的稿件未记入,但其重要性不能忽视。
·任何学科在进行基础研究时,大体上要经过归纳、分析、展开、假说、实验等过程才能形成新的理论,探明新的事实,发现新的规律。由于某种原因,如社会因素的影响等,某一思想或研究成果未发表出来,但这些想法和结果会成为今后成文的基础。
·编辑原则的变化、编辑或审稿人难免的错误判断以及其它出版方面的不足致使有价值的文章被退稿。
·对于适用数据的收集,当年洛特卡的原则是:对于合著论文仅以高年资作者为统计对象。可是,既然要表征科学家的著述规律,而且科学合著又是一种有增无减的科学社会学现象,摈弃合著者于统计数据之外,显然是不合理的。
表2三组数据的指数样本值
奥尔巴赫数据王崇德数据 文武商数据
数据点N斜率n数据点N斜率n数据点N斜率n
5 1.9485 2.216 3
2.346
7 1.9218 2.262 4
2.411
9 2.012102.243 5
2.416
11 2.061132.325 6
2.576
13 2.051142.434 7
2.585
15 2.019162.481 8
2.616
17 2.021
19 2.139
21 2.073
23 2.999
25 2.975
27 2.849
以上这些情况是很难把握的, 可将所有这类因素用一个集合参数a来表示,a〉0。
洛特卡公式变作:
x[n](f(x)+a)=c (4)
在统计学上,可将a描述为一个作为辅助性系数的模糊值; 在功用上,参数a使得f(x)=0时,包含f(x)的对数项不会发生问题, 不再需要删除有实际统计意义的数据。
将式(4)两边取对数,得:
nlogx+log(f(x)+a)=logc=b(5)
log(f(x)+a)+nlogx-b=0
(6)利用最小二乘法求解;
N
ε(n,a,b)=∑(log(f(x)[,i]+a)+nlogx[,i]-b)[2]
i=1
(7)令:
──=2Σ(log(f(x)+a)+nlogx-b)logx=0
──=-2Σ(log(f(x)+a)+nlogx-b)=0
──=2Σ(log(f(x)+a)+nlogx-b)/f(x)+a)=0
Σlog(f(x)+a)logx+Σ(logx)[2]·n-Σlogx·b=0
(8)
Σlog(f(x)+a)+Σlogxn-Nb=0(9)
Σlog(f(x)+a)/f(x)+a)+Σlogx/(f(x )+a )·
n-Σ1/(f(x)+a)·b=0(10)
可由式(8)、(9)解出n=n(a);b=b(a)
代入式(10)左边:
ε(a)=Σlog(f(x)+a)/(f(x)+a)+Σlogx/(f(x)+a)·n(a)-Σ1/(f(x)+a)·b(a)
ε(a)未必为零,取使得ε(a)为最小的a 值为解,代入n=n (a),b=b(a)求出n,b的最小二乘拟合解。
笔者根据以上计算过程编制了一段程序,下面以洛特卡统计的奥尔巴赫数据,文献[4]中王崇德先生统计的情报学数据和文武商先生的GRA统计数据为例,计算结果如下:
表3 奥尔巴赫数据计算结果
Nanb
5 13.534
0.941 1.817
7
8.351
0.986 1.749
9
6.762
0.960 1.704
11 5.582
0.939 1.664
13 4.387
0.956 1.625
15 3.323
0.986 1.590
17 2.754
0.992 1.559
19 2.691
0.952 1.531
20 2.634
0.938 1.518
21 2.452
0.939 1.505
22 2.062
0.974 1.493
23 2.012
0.962 1.481
24 1.632
1.010 1.473
25 1.390
1.042 1.466
26 1.385
1.026 1.451
27 1.256
1.039 1.445
28 1.238
1.027 1.433
29 1.210
1.018 1.422
30 1.074
1.040 1.416
表4 王崇德数据计算结果
Nanb
5 10.963
1.147 1.838
7
7.945
1.098 1.772
9
5.827
1.082 1.712
11 4.379
1.078 1.659
13 3.630
1.056 1.614
15 3.078
1.038 1.573
17 2.683
1.020 1.536
19 2.218
1.026 1.501
表5 文武商数据计算结果
Nanb
5 11.499
1.184 1.863
6 10.043
1.145 1.831
7
7.729
1.169 1.792
8
6.218
1.182 1.759
9
5.667
1.154 1.732
10 4.456
1.188 1.701
11 3.903
1.184 1.675
12 3.343
1.190 1.649
13 2.768
1.213 1.624
表中数据显示,a值的变化较大,而n和b 的值就某一学科领域来说比较稳定,对a 的变化相当不敏感(其中包括原来被当作波动删去的数据)。说明了a的存在并可利用来求得稳定的n和b, 且对高产作者也仍然适用。这相对于原公式解是一个明显的进步。可以说, 这里求出的n和b比由原洛特卡公式解出的不稳定的n和c值更有意义。
另外,a值的变化有随N值的增大而逐渐减小的趋势,可以说明统计样本越大,作者未被记入的论文就会相对较少,而这正是符合实际情况的。
如前文所述,a是一个模糊值, 至于其确切的统计意义还有待进一步的探讨。
3 小结
从计算结果和适用范围可看出,上述对洛特卡定律的修正有如下特色:
·用该修正同样可得出n、b针对某一科学领域为常数的结论,而且数据点数量N的不同对n、b值影响不大。
·该修正结果是在未删除任何统计数据的情况下得出的,克服了原解法的弊端,更具普遍意义。
·在求解a、n、b的过程中未忽略任何约束条件, 所得结果是可信的。
本文提出的这一修正,是想在洛特卡定律的研究方面探索出一条新路,其可行性还要依赖对更多数据统计结果的分析和进一步的论证。
现代科学技术迅速发展的一个重要特征,是随着科学研究活动的深入开展,著述量激增。科学文献是科学表示其存在的形式[6]。 科学家们从事科学研究,其成果往往表现为研究论文。考察科技人员的著述状况,是一个颇为重要的科研课题。在一个特定的学科和技术领域中,定量地研究著者及其论著之间的数量分布关系,宏观地反映科学劳动成果的生产规律是非常有意义的。在情报学中,我们可以用它来预测著者数量和文献数量,揭示不同领域中文献的现状和趋势,加深对文献规律的认识,便于对文献进行有效的搜集和科学管理。在科学学中,可以用它来研究科技工作者的创造活动规律,研究人才结构和其著述特征,从而便于科学学和科学史的研究。因此,在70年后的今天,加强对洛特卡定律的深入研究仍是非常必要的。