科学信息离散分布研究--从文献单位到内容单位的实证分析(三):文献离散分布的Lemkule函数拟合_科学论文

科学信息离散分布规律研究——从文献单元到内容单元的实证分析(Ⅲ):——文献离散分布的莱姆库勒函数拟合,本文主要内容关键词为:莱姆论文,文献论文,单元论文,实证论文,函数论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

布拉德福文献分散定律提出至今,公式繁多,数学模型立论各异,同时并立尚无定论[1]。据对多组数据进行检验后发现, 莱姆库勒函数是较为精确的模型,且简明易用。莱姆库勒方法把离散变量变为连续变量,使区域法的表现形式发生了根本性的变化和进步,是区域法中较为精细,也较为准确的方法,同时还可根据模型计算值绘制出布氏分布曲线,在图像上与实际值分布进行比较,因而是一个功能较强的模型。本文利用莱姆库勒函数同时对取自BIOSIS、INSPEC和COMPENDEX数据库中的4组数据进行拟合,然后用柯尔莫洛夫-斯米尔诺夫检验(K-S检验)对模型结果进行验证。本文采用的数据取自文献[2]中的表3、7、12和17。

1 对取自BIOSIS数据的拟合

1.1 对取自BIOSIS的第一组数据的拟合

已知莱姆库勒函数公式如下:

R(r)=aLog(1+br),

公式中R(r)为累积载文量,r为期刊序号,a,b为参数。

其中参数a和b可用下面的精确方程式求得:

a=y[,0]/LogK;

b=(K-1)/r[,0],

而Y[,0],r[,0]和k则可用下述公式求得:

Y[,0]=A/P

k=(1.781y[,m])[1/p];

r[,0]=T(k-1)/(K[p]-1),

上式中P为分区数,Y[,m]为排在第一位的期刊的载文量,T 为期刊总数,A为所有期刊的论文累积数。

对于这些数据,我们取当P等于3时的情况,则得

K=(1.781 * 259)[1/3]=7.73,

r[,0]=400(7.73-1)/(7.73[3]-1)=5.84,我们取r[,0]=6

Y[,0]=2804/3=935,

由此可求得

a=935/Log7.73=457.188,

b=(7.73-1)/5.84=1.1524

故取自BIOSIS第一组数据的莱姆库勒函数式为:

R(r)=457.188Log(1+1.1524r)

用文献[2]表3中的有关数值代入上式得表1:

根据表1绘制取自BIOSIS的第一组数据的布拉德福分布图如图1:

图1 取自BIOSIS第一组数据的载文量的布拉德福分布图

表1 取自BIOSIS第一组数据载文量拟合表

r R(r)实际值 R(r)计算值r R(r)实际值 R(r)计算值

1 259

3502516561552

2 458

5472616741569

3 642

6832817081602

4 751

7883017401633

5 853

8743117551647

6 943

9463217691662

7 1010 10083618211714

8 1066 10634018691761

111228 11964218911783

121276 12334419111804

141366 12994519201814

151408 13295019601861

161448 13575720091920

171480 13838121532079

181507 1408

10222582183

191531 1431

13323822304

201554 1454

17425052426

231617 1515

24726512585

241637 1534

40028042805

1.2 对取自BIOSIS的第二组数据的拟合

对于这组数据,我们考虑当P等于3时的情况,

首先利用莱姆库勒方法进行计算,得该组数据的莱姆库勒公式为:

R(r)=453.382Log(1+1.1r)

将文献[2]表7中的数据代入上式进行运算,得出该组数据的载文量拟合表,并利用该表中的数据作图2:

图2 取自BIOSIS第二组数据的载文量的布拉德福分布图

2 对取自INSPEC数据的拟合

对于这组数据,我们考虑当P等于3时的情况,

首先利用莱姆库勒方法进行计算,

K=(1.781 * 235)[1/3]=7.480

r[,0]=310(7.480-1)/(7.480[3]-1)=4.811

Y[,0]=3089/3=1030

所以

a=y[,0]/LogK=1030/Log7.48=511.869

b=(k-1)/r[,0]=1.3469

得该组数据的莱姆库勒公式为:

R(r)=511.869Log(1+1.3469r)

利用文献[2]表12中的数据,运用上式经计算可得表2。

表2 取自INSPEC的数据载文量拟合表

r R(r)实际值 R(r)计算值r R(r)实际值 R(r)计算值

1 235

4373419181969

2 358

6693719842011

3 473

8283920262037

4 585

9494120662062

5 687 10474321042086

6 788 11294521402109

7 870 12004721742131

8 946 12624922062152

9 1012 13185122362172

111124 14135823342237

121177 14556123732263

131229 14946824572318

141279 15307325122354

151321 15637525322367

161361 15957825592387

171398 16258125832406

201506 17058826322449

211541 17299426682482

231607 1774

10627282543

271735 1853

12828162639

291791 1889

15128852823

311845 1922

19629752856

331895 1954

31030893090

根据表2绘制取自INSPEC的这组数据载文量的布拉德福分布图如图3。

图3 取自INSPEC数据的载文量的布拉德福分布图

3 对取自COMPENDEX数据的拟合

对于这组数据,我们考虑当P等于3时的情况,

首先利用莱姆库勒方法进行计算,得该组数据的莱姆库勒公式为:

R(r)=785.46Log(1+0.28r)

将文献[2]表17中的数据代入上式进行运算, 得出该组数据的载文量拟合表,并利用该表中的数据作图4:

图4 取自COMPENDEX数据的载文量的布拉德福分布图

4 检验及结论

在文献[2]中, 我们曾经用莱姆库勒方法对各区的载文量进行了拟合运算,这里我们将其整理成下面的载文量实际值与计算值对照表如表3和表4:

通过对上述四组数据进行莱姆库勒拟合,从计算值与实际值对照表来看,结果令人大失所望。

我们运用柯尔莫洛夫-斯米尔诺夫检验(K-S检验)方法,以本课题所采集的数据为实验材料,对莱姆库勒公式进行检验。柯尔莫洛夫- 斯米尔诺夫检验(K-S检验)是一项拟合优度检验方法, 用来比较观测频率分布和理论频率分布。在情报学计量分布的检验中,它是最佳检验方法[3]。

表3 运用莱姆库勒方法对各组数据进行拟合结果(三区)

BIOSIS(Ⅰ) 实际值

6 34360

计算值

6 45349

BIOSIS(Ⅱ) 实际值

9 39355

计算值

6 46351

INSPEC 实际值

9 32269

计算值

5 36269

COMPENDEX

实际值 36 147766

计算值 19 125805

表4 运用莱姆库勒方法对各组数据进行拟合结果(多区)

BIOSIS(Ⅰ) 实际值

2

615

40 122400

计算值

2

618

51 143400

BIOSIS(Ⅱ) 实际值

2

613

27

62143403

计算值

1

411

28

69167403

INSPEC 实际值

3

921

41

80310

计算值

1

515

41 113310

COMPENDEX

实际值 11 3685 183 388949

计算值

5 1954 144 371948

在应用K-S方法时,必须将分布转换成累积概率分布。 我们首先以取自BIOSIS的第一组数据为对象来进行莱姆库勒公式检验。

根据表3中的数据,我们根据K-S方法的需要将其转换为表5如下:

从表5可知,取自BIOSIS第一组数据Max差值为0.038743099(表5中加黑者),如果规定显著水平为0.05,则查统计表得知临界D值为0.068。因为0.068>0.038743099,则莱姆库勒公式对于取自BIOSIS的第一组数据而言通过了K-S检验。

运用同样方法对取自BIOSIS第二组数据进行K-S检验, 经计算得知其临界值为0.0677,Max值为0.057866。因为0.0677>0.057866, 故第二组数据也通过K-S检验。

对于取自INSPEC的数据,经计算得知其临界值为0.077,Max值为0.226。因为0.077<0.226,所以莱姆库勒公式对于取自INSPEC的数据而言未能通过K-S检验。

对于取自COMPENDEX的数据,经计算得知其临界值为0.044,Max 值为0.10186 。 因为0.044 <0.10186 , 所以莱姆库勒公式对于取自COMPENDEX的数据而言未能通过K-S检验。

运用K-S方法检验结果与图形描述结果一致,即对取自BIOSIS 两组数据,莱姆库勒方法拟合得要好一些。这说明在现代科学技术环境下,莱姆库勒方法的精确性已经有所减弱。

表5 取自BIOSIS第一级数据K-S检验表

论文数的比例 计算值与实际值之差

rR(r)实际值R(r)计算值

1

0.092368046

0.1247771840.032409138

2

0.163338088

0.1950089130.031670824

3

0.228958631

0.2434937610.014535131

4

0.267831669

0.2809269160.013095247

5

0.304208274

0.3115864530.007378179

6

0.336305278

0.3372549020.000949624

7

0.360199715

0.3593582890.000841426

8

0.380171184

0.3789661320.001205052

11 0.437945792

0.426381462 0.01156433

12 0.455064194

0.4395721930.015492001

14 0.487161198

0.4631016040.024059594

15

0.50213980.4737967910.028343009

16 0.516405136

0.4837789660.032626169

17 0.527817404

0.4930481280.034769275

18 0.537446505

0.5019607840.035485721

19 0.546005706

0.5101604280.035845278

20 0.554208274

0.5183600710.035848203

23 0.576676177

0.5401069520.036569225

24 0.5838088450.546880570.036928274

论文数的比例 计算值与实际值之差

r R(r)实际值 R(r)计算值

25

0.5905848790.553297683 0.037287196

260.597004280.559358289 0.037645991

28

0.6091298150.571122995

0.03800682

30

0.6205420830.582174688 0.038367395

31

0.6258915830.587165775 0.038725808

32

0.6308844510.592513369 0.038371082

36

0.6494293870.611051693 0.038377693

40

0.6665477890.627807487 0.038740302

42

0.6743937230.635650624 0.038743099

44

0.6815263910.643137255 0.038389136

45

0.6847360910.646702317 0.038033774

50

0.6990014270.663458111 0.035543316

57

0.7164764620.684491979 0.031984484

81

0.7678316690.741176471 0.026655198

102 0.8052781740.778253119 0.027025055

133 0.8495007130.821390374 0.028110339

174 0.8933666190.864884135 0.028482484

247 0.9454350930.921568627 0.023866465

400

1 10

为什么取自BIOSIS的两组数据均通过K-S 检验, 而取自INSPEC 和COMPENDEX的数据均未通过呢?我们认为这主要是因为INSPEC 是一个广泛收集有关物理学、电气与电子学、计算机和控制、信息技术方面文献资料的大型数据库,而不像BIOSIS那样只是一个关于生物学的专业数据库。INSPEC收录的文献资料来源广泛,因而在数据库中关于某一主题的文献相对而言涉及的学科要多一些,尤其是物理学、电气与电子学、计算机和控制、信息技术是相互交叉渗透十分明显的学科,对于同一主题它们均可从本学科的角度出发进行探讨,所以在INSPEC数据库中关于同一主题的文献量便特别大(在本研究项目中为3089篇),而来源期刊却大大减少(在本研究项目中为310种), 使得核心区的地位受到较大的削弱,而其他各区的地位则相对稳定。体现在图形上便是前半部分离差较大,后半部分离差较小;体现在区域法分析中便是前面各区相差较大,后面各区相差较小。

而取自COMPENDEX 的数据却呈现出另外一番不同的情况。 由于COMPENDEX是一个广泛涉猎工程技术各个领域、 各相关学科及管理方面的大型数据库。对于工程方面的主题,涉及到的范围十分广泛,突出体现为文献数据的庞大和来源期刊数目的众多。 如在本研究中关于Special Purpose Instrument主题的文献便有4398 篇, 来源期刊多达949种。也就是说,更多的文献分散在更多的期刊中, 从而使文献的离散情况进一步加剧。但是核心区的作用并未强烈地受到削弱,只是其他非核心区期刊的数目大大增多,使得中间各区的地位大大削弱。体现在图形上便是中间部分的离差增大,而首尾两端拟合情况则要好一些。体现在区域法分析中则体现为中间区的期刊数据大大减少。

另外,出现这种情况的一个原因是由于莱姆库勒公式本身存在的缺陷。在众多的关于布拉德福定律的拟合公式中,它并不是最精确的方法。[4]

总之, 通过运用区域法和图像法对采自BIOSIS , INSPEC 和COMPENDES的四组数据的研究,我们可以肯定, 宏观层次的科学信息(文献单元)的离散分布已呈现出不同于传统布拉德福定律所揭示的情况,突出表现在第三区期刊数的大幅度增加,以及莱姆库勒方法精确性的严重削弱。

责任编辑注:本文第一、二部分复印在本专题1999年第7期139页、10期88页。

标签:;  ;  ;  

科学信息离散分布研究--从文献单位到内容单位的实证分析(三):文献离散分布的Lemkule函数拟合_科学论文
下载Doc文档

猜你喜欢