布拉德福分布解析式的择优评鉴,本文主要内容关键词为:布拉论文,德福论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 问题的提出
在文献计量学中素孚盛名的布拉德福定律(以下简称布氏定律),60余年来一直沿着两个方向发展:区域法;图像法。由于该定律自1948年起,引起各国图书情报学家广泛的研究兴趣,至今推出的各种数学模型与公式,已多达数十个〔1〕。早在10余年前,文献[2]的作者表示出一种担心:“公式繁多,数学模式立论各异,至今同时并立,尚无统一的定论……至于哪一个精确,都是不得而知的。……重要的是实践检验。”文献[2] 的作者身体力行地进行了各种布氏分布数学解析式的统计学置信水平检验,并得出原苏联学者A.и.Cмоликов所提出的公式“较为精确”的结论〔3〕。继之,80 年代日本学者曾进行了多种文献计量学数学公式的优化比较,不过已远远超出布氏定律的范围。90年代加拿大学者Liwen Qui又进行了大规模的检验, 其结论是在累计等级频次分布中,比利时文献计量学家Egghe的公式(1985 年)最为精确〔4〕。当然Egghe这一公式是在文献[2]发表后才涌现出来的,文献[2]当年自然是无法涉及的。本文意在对这两个公式再次进行统计学检验,当然其意义不仅局限于这两个公式本身的评价,而是希冀对布氏定律的评价提出一些建议。
2 对于布氏定律数学公式的划分与评价
当年布拉德福本人未能刻意利用数学公式来表达其发现,为此布鲁克斯在1969年评论道:“……(布拉德福)没有用数学公式的形式去表现。结果由于这个疏忽, 使人们认识该定律的重要意义, 整整花去了20年的时间。”〔5〕后来就有大量的数学公式出现。
文献[2]的作者把当时国内所能收集到的11 种公式划分为两大类:频次型和等级型。但是该文作者经仔细研究后指出,这些公式并非都是独立的,有些是相互之间具有依存、形异实同的关系,有时一个公式仅是另一个公式的特殊形式或特例而已,于是仅剩下7个公式,详见表1:
表1文献[2]所检验的数学公式
序号公
式提出者 年份
频次型
1F(i)=(a/i[k])*b[i]Simon H.A1955
2j(t)=A*B(t,ρ+1) Simon H.A1995
3J=a/t[k] Lotka A.J1926
等级型
4
Y=a*x[3]+b*x[2]+c*x+d
Mийевич1975
5
R(n)= aj[β]
Brookes B.C 1977
K*Inj+b
6 Y(x)=lm*(1+β*x)/ln(1+β)
Leimkuhler F 1967
T=K*ln(j+pe[-qj)+b смоликов 1977
文献[4]的作者把常见的22 个布氏定律数学式分为两大类:等级频次累计分布,非等级频次累计分布。一共22个公式。可是独立的数学公式只有14个,自然所检验的也只有14个。详见表2。
文献[3]的作者选用中外8组数据,对表1中的7个数学公式进行х[2]检验。发现仅表1中序号7的Cмоликов公式尚能差强人意。文献〔4〕的作者用19组数据对表2中14个数学模型进行K—S等检验,作者的结论是:等级频次累计中以表2中序号为5的Egghe公式最为精确, 而非等级频次中最为精确的是序号为10的Chen公式。C моликов公式与Egghe公式都是等级频次累计型,而且同时均为相对值的变量, 因此具有可比性,本文再次对两式进行统计学检验与比较。
表2文献[4]检验的数学公式
序号 公式 提出者
等级-频次累计模型
1 F(X)=1+B*logXCole
2 F(X)=A+B*logX Bradford
3log(1+β*X) Leimkuhler
F(X)= ───────
log(1+β)
4 F(X)=A+log(X+C)+B Asai
5 F(X)=A+log[B+C*X+D*log(1+C*X)]Egghe
6 R(X)=J*log(r/a+1)+R(0)
Hasper
7 R(r)=j[,1]*log(1+r[,1]/a[,1])Brookes
j[,2]*log(1+r[,2]/a[,2])
8 R(r)=a*r[β] Brookes
K*log(r/s)
非累计等级累—频次
9 f(r)=a*r[-c] Hubert
10f(r)=a*(r+b)[c]
Chen
11P(U)=(C/U)-DFairthorne
12 1
j[,p]= ────── Kendell
p*(P+1)
13j(X)=K*X[-α]Naranan
14F(n)=(B/n)[D]-C Leimkuhler
序号
年度
1 1962
2 1948
3 1967
4 1980
5 1985
6 1976
7 1984
8 1969
9 1977
10 1987
11 1960
12 1960
13 1960
14 1980
3 本文的统计学检验
文献[3]的作者选择的是X[2]检验法,文献[4]的作者采用的是K —S检验方法,两者虽然都是非参数检验方法, 但是前者是一种近似的方法,而且易受极端数据波动的影响。后者是精确的检验方法,不受观察次数的影响……所以本文选择K—S检验法进行检验。
3.1 Cмоликов公式的检验
Cмоликов原形为:
T=K*Ln(j+pe[-qj])+b (1)
上式中,K,p,q,b为参数,j 为期刊呈布氏排列自前而后累计时,某一期刊排序的序号;T 为前j 种期刊刊载相关论文的累计数;Tt为相关论文的总数。文献[2]的作者以一组已知的统计数据,得到了K, p,q和b的具体值。我们亦以布氏的原始数据求解上述参数,结果差异不大,故可以沿用文献[3]的数据:
K=2110.8302 b=-3429.5490
p=5.1912q=0.0835
于是,Cмоликов公式的具体表达式为:
T=2110.8303*Ln(j+5.1912e[-0.0835j])-3429.5490 (2)
若取相对值,如同文献[3]给出的形式:
T/Tt=0.19447*Ln(j+5.1912e[-0.0835j])-0.29638(3)
将布氏定律原始“应用地球物理学”数据,依式(3 )计算出T /Ttvi值,并且进行统计学检验,记如表3。 这里采用的是相对值(T /Tt),标识以C式。
同理,亦计算“润滑工程”数据,结果以E式,记录于表4。
表3应用地球物理学数据的检验论文数的比例
期刊数(j)累积论文数(T) 理论值 计算值
C式 E式
1 93 0.0698 0.04460.37
2179 0.1344 0.07570.45
3235 0.1764 0.10250.49
4283 0.2125 0.12600.53
5329 0.2470 0.14700.55
6364 0.2733 0.16590.57
7392 0.2943 0.18320.59
8412 0.3093 0.19900.61
9429 0.3221 0.21450.63
13493 0.3701 0.26330.67
14508 0.3818 0.27390.68
19578 0.4339 0.31980.72
20590 0.4429 0.32780.73
22612 0.4595 0.34290.75
27662 0.4970 0.37620.77
30689 0.5173 0.39380.79
38753 0.5653 0.43400.82
45802 0.6021 0.46350.84
56868 0.6517 0.50230.88
68928 0.6967 0.53740.90
85996 0.7477 0.57820.94
108
1065 0.7995 0.62260.97
157
1163 0.8731 0.69271.03
108
1332 1.0000 0.83181.13
理论值与观察值之差
期刊数(j)C式E式
1
0.0252 0.3002
2
0.0587 0.3156*
3
0.0739 0.3136
4
0.0865 0.3125
5
0.1000 0.3030
6
0.1074 0.2967
7
0.1111 0.2960
8
0.1103 0.3007
9
0.0176 0.3040
13 0.1068 0.3030
14 0.1079 0.2810
19 0.1141 0.2895
20 0.1151 0.2886
22 0.1166 0.2770
27 0.1208 0.2716
30 0.1235 0.2716
38 0.1313 0.2570
45 0.1386 0.2380
56 0.1494 0.2250
68 0.1593 0.2033
85 0.1695 0.1890
108 0.1769 0.1710
157 0.1804*0.1530
108 0.1682 0.1320
从表3可知:对于C式而言,Max差值为0.1804 (即表中带有*者,下同),如果规定显著水平0.05,则临界D值(查统计表得知)为0.264。因为0.264>0.1804,则Cмоликов式通过K—S检验,即理论值与计算值没有显著区别。对于E式来说,Max差值为0.3156,同样规定显著水平为0.05,则临界D值为0.264。因为0.264<0.315,
可以断定 Egghe 公式未通过K—S检验,即该式的理论值与实际计算值具有显著的差别,说明这一公式相对地不够精确。
3.2 Egghe公式检验
Egghe公式原形为:
F(X)=A*log[B+C*X+D*log(1+C*X)] (4)
其中,A,B,C,D为参数,在对系数进行估算时,不同的原始数据会有不同结果。但是事实证明用多次迭代法估计这些参数时,上述4 个参数差异不大。但是本文的检验仍然对“应用地球物理”和“润滑工程”采用不同的参数值。
对于“应用地球物理”计算公式为:
F(X)=0.34*log[1.29+65*X+5.39*log(1+6.5*X)]
(5)
按式(5)计算的结果,以E式标记记入表3,以资比较。
对于“润滑工程”计算公式为:
F(X)=0.25*log[1.35+0.73*X+93.99*log (1 +0.73*X)]
(6)
对于按式(6)计算的结果,同样记入表4。
表4 润滑工程数据的检验论文所占比例
期刊数(j)累积论文数(T)理论值 计算值
C式D式
1
22
0.05560.0698 0.347
2
40
0.10100.0757 0.399
3
55
0.13690.1025 0.426
5
81
0.20450.1470 0.457
7
101 0.25510.1832 0.475
8
110 0.27780.1990 0.483
11 134 0.33800.2410 0.498
14 155 0.39140.2739 0.510
15 161 0.40660.2840 0.513
22 196 0.49600.3429 0.513
24 204 0.51500.3569 0.534
27 243 0.61380.3762 0.550
62 293 0.73990.5207 0.577
164 396 1.00000.7522 0.693
理论值与计算值的差值
期刊数(j)C式E式
1
0.011 0.29
2
0.025 0.30
3
0.036 0.29
5
0.057 0.25
7
0.072 0.22
8
0.079 0.21
11 0.098 0.16
14 0.118 0.12
15 0.123 0.11
22 0.152 0.04
24 0.158 0.02
27 0.237 0.06
62 0.219 0.17
164 0.248* 0.31*
从表4可知:对于C式而言,Max差值为0.248,如果规定显著水平 0.05,则临界D值(查统计表得知)为0.249。因为0.249>0.248,则Cмоликов式通过K— S检验,即理论值与计算值没有区别。对于E式来说,Max差值为0.31,同样规定显著水平为0.05,则临界 D值为0.249。因为0.249<0.31,可以断定Egghe公式未通过K—S检验,即该式的计算值与理论值具有显著的差异,同样,说明这一公式不够精确。
4 结果与讨论
本文的统计学检验表明:C моликов式通过了两组经典布氏定律数据的统计学检验;Egghe式则对同样的检验均未通过。 从中我们可以分析到:
首先,所有的布氏定律数学解析式不外以两种方式形成:其一是根据若干统计数据拟合;其二是从布氏定律本身的机制出发,在理论分析和逻辑推理的基础上,建立起数学解析式。如此众多的解析式,在刻画布氏定律直线部分时,可以说大同小异,品质的优劣主要看曲线的“头”“尾”两部分。C式在对数内又引入负指数, 从而避免了指数函数上升过快的缺点,因而精度较高。
其次,C式中的参数估计系采用了最小二乘法, 只要有一组可靠的统计数据(本例为布氏的经典数据),就可以较好地得到其他几项参数值,很快地能投入实践运算的应用。E式中C、D两个参数很敏感, 影响因素很多,甚至在同一数据也会有波动。同时参数的估计是多次迭代而得,这些都将影响到该式的精确性。虽然在文献[4] 的统计学检验中有良好的评价,但是较之E式以前就开发出来的C式还是有明显差距的。
再其次,C式也并非无懈可击了, 该式还不能有效地描写布氏定律曲线的“尾部”。
两个数学解析式品质差距的内部机制,可能还不止这一些,目前看来C式还是质量最高的,但是至今没有引起人们更多的注意。 中国文献计量学界,还一直在予以重视和研究。
5 简要结论
通过以上再度的统计学检验,我们感到:
(1)布拉德福定律的数学解析式已经为数不算少了, 开发者如此之多,并不是一件好事,极易误导使用。而且开发者往往孤立自行开发,以为通过自己特定的一组数据的检验,新的数学解析式就算成立了。其实,应当放在横向的比较中来评价,从对比中来明确自己的优势抑或根本不足以成立,以表现布拉德福定律的实质。
(2)布氏定律是一条复杂的曲线, 企图用一个或两个公式加以表现,是很难奏效的。
(3)似C式在对数中再套入指数是一个有效的构思,应当引起更多深入的研究。
(4)应加强布氏定律各种数学解析式的经常性检验, 保证及时地发现优秀,并且也指导了这一定律的科学研究。以本文而论, 1985 年Egghe开发的公式,在质量上并未超过1977年Cмоликов开发的公式。本研究可视为一个阶段性总结意见。