科学信息离散分布规律研究——从文献单元到内容单元的实证分析(Ⅱ):文献离散分布的布氏区域分析,本文主要内容关键词为:文献论文,单元论文,实证论文,规律论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
由于本项研究以布拉德福定律为参照系, 因而我们首先按文献 [1]所述的技术路线和程序,
采用区域法对采自BIOSIS、INSPEC、COMPENDEX光盘数据库中的4组原始数据进行比较分析,考察文献单元在不同学科领域中的分布态势,验证60多年前发现的布拉德福定律在现代科学技术发展条件下的适用性和准确性。为了考察布氏文献分散定律的普遍性,我们同时对这4组有代表性的数据进行处理和分析。
区域分析方法是根据布拉德福定律把期刊划分为三个区域,使每个区域论文数量大致相等,并且各区期刊数量关系之比以1∶a∶a[2]的方法形成的。现在多采用经修正了的布拉德福定律,得出最适合的区域划分和求出相应的共存值[2],在本文中我们同时采用布氏三区域划分、 多区域划分及维克里推论验证布拉德福文献分散规律。
1 数据的等级分布
1.1 对取自BIOSIS的两组数据的处理
首先在BA(Biological Abstract)光盘数据库BIOSIS中, 用其随盘配备的PC—SPIRS 3.30检索软件提取1995—1997年的两组数据,采用分类检索方式,并指定文献类型为期刊文献。
第一组数据:
分类号:CC33508
分类名:VIROLOGY——PLANT——HOST——VIRUSES
命中记录数:2804条
第二组数据:
分类号:CC54510
分类名:PHYTOPATHOLOGY——DISEASES——CAUSED ——BY——VIRUSES
命中记录数:2765条
根据BIOSIS的记录格式,我们用自编软件处理其中的SO(SOURCEJOURNAL)字段(来源期刊)和DE(DESCRIPTORS)字段(主题词),得出第一组数据处理结果见表1。
表1 取自BIOSIS第一组数据的布氏分布
序号 载文量 DE总数 DE个数 来源期刊名称
1 25923301008Virology
2 1993007 832Plant Disease
3 1841840 885Journal of General Virology
4 1091634 562Phytopathology
5 1021215 519Archives of Virology
6 90 948 455Journal of Virology
7 671181 490Annals of Applied Biology
8 56 659 308Fitopatologia Brasileira
9 54 665 419 Journal of Phytopathology(Berlin)
400 1
1
1Journal of Pesticide Science
处理结果表明,BIOSIS的第一组数据共有400种来源期刊, 共载文2804篇。这2804篇文章中共有主题词8691个,出现总次数为32,212次。
第二组数据有403种来源期刊,共载文2765篇。这2765 篇文章中共有主题词8439个,出现次数为34884次。
1.2 对取自INSPEC的数据的处理
在UMI公司提供的SA(Science Abstracts)光盘数据库INSPEC中,用其随盘提供的PROQUEST软件,采用分类检索方法随机抽取1995 —1997年的一组数据,并指定文献类型为期刊文献。
分类号:A4630J
分类名:Viscoelasticity,plasticity,viscoplasticity,creep,and stress relaxation
命中记录数:3089条
根据INSPEC的记录格式,我们用自编软件处理其中的JOURNAL 字段(来源期刊)和FREE TERMS字段(关键词),其结果见表2。
表2 取自INSPEC数据的布氏分布
序号 载文量 FT总数 FT个数 Journal名称
1
2351287
1023International Journal of Solids
and Structures
2
123 541449International Journal for
Numerical Methods in
3
115 586479Internation Journal of Fracture
4
112 602480Mechanics of Solids
5
102 559446Computers and Structures
6
101 448380Transactions of the ASME.Joumal of
Applied
782 405328Engineering Fracture Machanics
876 360298Computer Methods in Applied
Mechanics and
966 341289 Journal of the Mechanics and Physics
of Solids
3101 12 10Science in China,Series A [
Mathematics,Physics,
注:有些期刊名太长,表1和表2在显示时会自动截短。
处理结果表明,取自INSPEC的这组数据共有310种来源期刊, 载文3089篇。这3089篇文章共有关键词10,004个,出现次数为15,689次。
1.3 对取自COMPENDEX的数据的处理
在Knight-Ridder Information公司提供的EI(Engineering Index)光盘数据库COMPENDEX*PLUS中,用其随盘提供的Dialog Ondisc forWindows软件, 采用分类检索方法随机抽取1995—1997年的一组数据,并指定文献类型为期刊文献。
分类号:943.3
分类名:Special Purpose Instruments
命中记录数:4398
根据COMPENDEX的记录格式,我们用自编软件处理其中的SOURCE 字段(来源期刊)和DESCRIPTORS字段(主题词),结果表明它有949种来源期刊,载文4398篇。这3089篇文章共有主题词5686 个, 出现次数为31853次。
2 数据的区域分析
2.1 对取自BIOSIS的数据的分析
(1)对取自BIOSIS的第一组数据的分析
根据本课题的总体研究思路, 对第一组数据进行布氏排序得到表3。
表3 取自BIOSIS第一组数据布氏排序表
期刊 相应的论文 rlogr R(r) 主题词 主题词 20种核心主题
总数 个数 词数
1
259 1
0
259
2330
1008 375
1
199 2
0.693
458
5337
1739 991
1
184 3
1.099
642
7177
2409 1328
1
109 4
1.386
751
8811
2737 1700
1
102 5
1.609
853 10026
3073 1968
190 6
1.792
943 10974
3372 2084
167 7
1.946 1010 12155
3656 2288
156 8
2.079 1066 12814
3809 2340
35411
2.398 1228 14647
4308 2601
14812
2.485 1276 15213
4452 2677
24514
2.639 1366 16332
4627 2876
14215
2.708 1408 16674
4711 2912
14016
2.773 1448 17121
4853 2979
13217
2.833 1480 17509
4932 3042
127182.89 1507 17848
5024 3108
12419
2.944 1531 18101
5106 3134
12320
2.996 1554 18319
5164 3152
32123
3.135 1617 19166
5364 3255
12024
3.178 1637 19384
5414 3279
11925
3.219 1656 19664
5463 3332
11826
3.258 1674 19951
5510 3362
21728
3.332 1708 20305
5617 3407
21630
3.401 1740 20747
5731 3486
11531
3.434 1755 20906
5783 3503
11432
3.466 1769 20983
5805 3513
41336
3.584 1821 21582
5972 3593
41240
3.689 1869 22132
6102 3654
21142
3.738 1891 22308
6133 3680
21044
3.784 1911 22437
6151 3682
1 945
3.807 1920 22550
6185 3697
5 850
3.912 1960 23000
6311 3749
7 757
4.043 2009 23492
6429 3823
24 681
4.394 2153 25067
6804 4002
21 5
102
4.625 2258 26274
7074 4162
31 4
1334.89 2382 27825
7407 4310
41 3
174
5.159 2505 29123
7746 4439
73 2
247
5.509 2651 30722
8160 4587
1531
400
5.991 2804 32212
8691 4699
根据表3中的数据,对第一组数据按载文量均匀分区结果见表4。
表4 取自BIOSIS 第一组数据的布氏分布表(六区)
区号1 2 3 456
期刊序号
1~2 3~6 7~15 16~40 41~122 123~400
期刊种数 2 4 9 25 82278
首先运用布拉德福定律的拟合公式[3]对其进行验证。 考虑当分为三个区时的情况,已知
K=(1.781y[,m])[1/p]
r[,0]=T(k-1)/(K[p]-1)
上式中P为分区数,Y[,m]为排在第一位的期刊的载文量,T 为期刊总数。将表3中数值代入则得:
K=(1.781*259)[1/3]=7.73
r[,0]=400(7.73-1)/(7.73[3]-1)=5.84,
我们取r[,0]=6,则三个区的期刊数的计算值分别为6∶45∶349,实际值为6∶34∶360
其次利用维克里推论方法,考虑当分为六个区时的情况:
K=(1.781*259)[1/6]=2.77967
r[,0]=400(2.78-1)/(2.78[6]-1)=1.54662,
我们取r[,0]为2,则六个区的期刊数比值为2∶6∶18∶51∶143∶400,实际值为2∶6∶15∶40∶122∶400。各区期刊数、论文数实际值与计算值见表5和表6。
表5 P=3的布拉德福定律(r[,0]=5.84,K=7.73)
计算值 实际值
期刊 论文 K 期刊 论文 K
第一区 6
943
-6943 -
第二区 45 1024 7.5 34926 5.7
第三区349
837 7.76 36093510.6
表6 P=6的布拉德福定律(r[,0]=1.54662,K=2.77967)
计算值 实际值
期刊 论文 K 期刊 论文 K
第一区 2
458
-2458 -
第二区 4
485
24485 2
第三区 2
564
39465
2.25
第四区 33
4602.75
25461
2.78
第五区 92
4452.79
82469
3.28
第六区257
3922.79 278466
3.39
(2)对取自BIOSIS的第二组数据的分析
对第二组数据进行布氏排序得到表7。
表7 取自BIOSIS第二组数据布氏排序表
期刊 相应的论文
r
logr R(r)
主题词 主题词 20种核心
总数个数 主题词数
1 250
10250 3809 952 835
1 150
20.693400 5264 1492 1006
1 120
31.099520 7094 1878 1439
1 9141.386611 8021 2246 1546
1 8051.609691 9415 2572 1808
1 7061.792761 102102775 1876
1 6671.946827 109332984 1964
1 5982.079886 116723240 2043
2 57
102.3031000133163526 2358
1 55
112.3981055144063662 2554
1 54
122.4851109150333814 2630
1 45
132.5651154156083989 2701
2 44
152.7081242165304195 2832
1 37
162.7731279167764239 2855
1 34
172.8331313171664360 2910
1 30
182.89 1343176364450 3057
1 28
192.9441371179974531 3092
1 26
202.9961397184664641 3169
1 25
213.0451422189224721 3253
2 24
233.1351470195514857 3364
4 23
273.2961562205875100 3516
1 22
283.3321584208285154 3556
1 21
293.3671605210385222 3568
1 19
303.4011624212695277 3601
2 17
323.4661658216495365 3645
2 15
343.5261688218785422 3661
3 14
373.6111730224525544 3726
2 13
393.6641756227145618 3745
2 12
413.7141780230045652 3826
4 11
453.8071824237195805 3942
2 10
473.85 1844240535848 4010
5
9
523.9511889244925960 4074
7
8
594.0781945252226126 4198
9
7
684.22 2008259146307 4282
22 6
904.5 2140275126621 4498
25 5
115
4.7452265291156954 4692
18 4
133
4.89 2337301067128 4836
38 3
171
5.1422451313057414 4959
82 2
253
5.5332615333837932 5189
150 1
403
5.9992765348848439 5325
按照布拉德福方法将第二组数据分为三个区如下:
表8 取自BIOSIS第二组数据的布氏分布表(三区)
分区 1
2
3
期刊数9 39 355
载文量 943 910 912
用布拉德福定律的拟合公式对其进行验证。
K=(1.781*250)[1/3]=7.63604
r[,0]=403(7.63604-1)/(7.63604[3]-1)=6.020,我们取r[,0]=6,
则三个区期刊数计算比值为6∶46∶351,而实际比值为9∶39∶355。
用维克里推论方法,考虑分为七个区时的情况见表9。
表9 取自BIOSIS第二组数据的布氏分布表(七区)
分区 1 23
4
5
6 7
期刊序号1~2 3~6 7~13 14~27 28~62 63~143 144~403
期刊数24 7 14 35 81260
载文量 400 361393 408 404 401398
K=(1.781*250)[1/7]=2.40675
r[,0]=403(2.40675-1)/(2.40675[7]-1)=1.2146, 我们取r[,0]=1,
则各区期刊数比值为1∶4∶11∶28∶69∶167∶403,而实际比值为2∶6∶13∶27∶62∶143∶403。
各区期刊数、论文数实际值与计算值见表10和表11。
表10 P=3的布拉德福定律(r[,0]=6.02,K=7.63604)
计算值
实际值
期刊论文K期刊论文 K
第一区 6 761 - 9 943
-
第二区46 1128
7.7639 910 4.3
第三区
351 876
7.63
355 912 9.2
表11 P=7的布拉德福定律(r[,0]=1.2146,K=2.40675 )
计算值 实际值
期刊论文 K期刊论文 K
第一区 1 250
- 2 400
-
第二区 3 361
3 4 361
2
第三区 7 444 2.3 7 3932.75
第四区 17 5292.43 14 408
2
第五区 41 4302.41 35 404 2.5
第六区 98 4252.39 81 401 2.3
第七区235 3262.40260 398 3.2
2.2 对取自INSPEC的数据的分析
对这组数据进行布氏排序得到表12。
表12 取自INSPEC数据布氏排序表
期刊 相应的论文
rlogr R(r) 主题词 主题词 20种核心主题
总数个数 词数
1 235
1
0
2351287
1023 65
1 123
2
0.693
3581828
1434 82
1 115
3
1.099
4732414
1865 104
1 112
4
1.386
5853016
2290 125
1 102
5
1.609
6873575
2663 155
1 101
6
1.792
7884023
2980 170
1
82
7
1.946
8704428
3241 186
1
76
8
2.079
9464788
3477 204
1
66
9
2.197 10125129
3699 213
2
56 11
2.398 11245627
4027 240
1
53 12
2.485 11775926
4223 255
1
52 13
2.565 12296267
4426 264
1
50 14
2.639 12796507
4567 273
1
42 15
2.708 13216766
4726 283
1
40 16
2.773 13616913
4818 286
1
37 17
2.833 13987140
4947 300
3
36 20
2.996 15067713
5300 319
1
35 21
3.045 15417930
5431 324
2
33 23
3.135 16078251
5637 337
4
32 27
3.296 17358850
6014 367
2
28 29
3.367 17919195
6222 382
2
27 31
3.434 18459473
6396 393
2
25 33
3.497 18959672
6518 399
1
23 34
3.526 19189810
6604 404
3
22 37
3.611 1984
10111
6778 413
2
21 39
3.664 2026
10361
6926 426
2
20 41
3.714 2066
10542
7030 431
2
19 43
3.761 2104
10700
7127 435
2
18 45
3.807 2140
10872
7229 445
2
17 473.85 2174
11043
7336 450
2
16 49
3.892 2206
11228
7436 461
2
15 51
3.932 2236
11352
7508 468
7
14 584.06 2334
11921
7840 488
3
13 61
4.111 2373
12180
7982 498
7
12 684.22 2457
12606
8243 509
5
11 734.29 2512
12916
8414 522
2
10 75
4.317 2532
13000
8475 527
39 78
4.357 2559
13139
8537 533
38 81
4.394 2583
13271
8615 541
77 88
4.477 2632
13561
8775 556
66 94
4.543 2668
13770
8887 562
125 106
4.663 2728
14107
9109 572
224 128
4.852 2816
14571
9369 587
233 151
5.017 2885
14893
9565 603
452 196
5.278 2975
15371
9821 623
114
1 310
5.737 3089
15689 10004 641
运用布拉德福定律的拟合公式对其进行验证,当分为三个区时的情况见表13。
表13 取自INSPEC的数据布氏分布表(三区)
分区1 2 3
期刊数 9 32269
载文量
1012
1054
1023
此时K=(1.781*235)[1/3]=7.480
r[,0]=310(7.480-1)/(7.480[3]-1)=4.811,我们取r[,0]=5,
故三个区期刊数实际比值为9∶32∶269, 拟合后计算比值为5∶36∶269
利用维克里推论方法,当分为六个区时的情况见表14。
表14 取自INSPEC的数据布氏分布表(六区)
分区 1 2 3 4 5 6
期刊数3 6 12 20 39230
载文量 473539529525509514
则K=(1.781*235)[1/6]=2.735
r[,0]=310(2.735-1)/(2.735[6]-1)=1.288,我们取r[,0]=1,
则六个区期刊数实际比值为3∶9∶21∶41∶80∶310, 拟合后计算比值1∶5∶15∶41∶113∶310, 各区期刊数、 论文数实际值与计算值见表15和表16。
表15 P=3的布拉德福定律(r[,0]=4.811,K=7.48)
计算值实际值
期刊论文K 期刊论文 K
第一区 5 687 -
9 1012 -
第二区 3613797.2 32 1054 3.56
第三区2691023
7.47269 1023 8.4
表16 P=6的布拉德福定律(r[,0]=1.288,K=2.735)
计算值
实际值
期刊 论文 K期刊 论文 K
第一区 1235 - 3473 -
第二区 4452 4 6539 2
第三区 106342.5 12529 2
第四区 267452.6 20525
1.67
第五区 72690
2.77 39509
1.95
第六区197333
2.742305145.9
2.3 对取自COMPENDEX的数据的分析
对这组数据进行布氏排序得到表17。
表17 取自COMPENDEX数据布氏排序表
期刊 相应的论文
r
logr R(r) 主题词 主题词 20种核心主题
总数个数 词数
1 150
1 0
150104937386
1 125
2 0.693
2751942657
178
1
68
3 1.097
3432390869
213
1
58
4 1.386
4012776
1005
229
1
51
5 1.609
4563155
1127
241
2
50
7 1.946
5563928
1414
336
1
46
8 2.079
6024242
1485
383
2
42 10 2.303
6864815
1636
472
1
39 11 2.398
7255066
1696
508
2
37 13 2.565
7995579
1791
530
1
35 14 2.639
8345840
1841
564
3
34 17 2.833
9366491
1966
652
5
33 22 3.091 11017775
2212
770
2
31 24 3.178 11638200
2301
804
3
29 27 3.296 12508824
2416
882
2
27 29 3.367 13049212
2494
893
1
26 30 3.401 13309421
2538
904
1
24 31 3.434 13549586
2579
913
4
23 35 3.555 1446
10325
2678
980
1
22 36 3.584 1468
10477
2701
984
5
21 41 3.714 1573
11321
2815 1084
1
20 42 3.738 1593
11479
2829 1118
6
19 48 3.871 1707
12344
2970 1184
2
18 50 3.912 1743
12581
2995 1225
1
17 51 3.932 1760
12704
3017 1230
3
16 54 3.989 1808
13075
3083 1271
3
15 57 4.043 1853
13447
3127 1307
6
14 63 4.143 1937
14104
3197 1373
6
13 69 4.234 2015
14639
3255 1437
12
12 81 4.394 2159
15669
3466 1526
4
11 85 4.443 2203
15941
3511 1533
10
10 95 4.554 2303
16654
3619 1600
179 112 4.718 2456
17785
3766 1718
158 127 4.844 2576
18701
3880 1797
227 149 5.004 2730
19780
4033 1892
346 183 5.209 2934
21251
4246 1997
335 216 5.375 3099
22458
4398 2103
634 279 5.631 3351
24337
4632 2218
993 378 5.935 3648
26426
4935 2351
183
2 561
6.33 4014
29116
5307 2543
388
1 949 6.855 4398
31583
5686 2765
按照布拉德福方法将该组数据分为三个区见表18。
表18 取自COMPENDEX数据的布氏分布表(三区)
分区1 2 3
期刊数 36 147766
载文量
14681466
1464
用布拉德福定律的拟合公式对其进行验证。
K=(1.781*150)[1/3]=6.44048
r[,0]=949(6.44048-1)/(6.44048[3]-1)=19.3989,我们取r[,0]=19,
则三个区期刊数计算比值为19∶125∶805, 而实际比值为36∶147∶766。
用维克里推论方法,考虑分为六个区时的情况见表19。
表19 取自COMPENDEX数据的布氏分布表(六区)
分区1 2
3
4 5 6
期刊序号 1—11 12—36 37—85 86—183 184—388 389—949
期刊数 11 25 49 98205
561
载文量 725743 735 731734
730
K=(1.781*150)[1/6]=2.53781;
r[,0]=949(2.53781-1)/(2.53781[6]-1)=5.48331,我们取r[,0]=5
各区期刊数比值为5∶19∶54∶144∶371∶948,而实际比值为11∶36∶85∶183∶388∶949。
各区期刊数、论文数实际值与计算值见表20和表21。
表20 P=3的布拉德福定律(r[,0]=19.3989,K=6.44048)
计算值 实际值
期刊论文 K 期刊 论文 K
第一区
19 1002 -
36
1468 -
第二区 125 1693 6.58147
1466 4.08
第三区 805 1703 6.44766
1464 5.21
表21 P=6的布拉德福定律(r[,0]=5.48331,K=2.53781)
计算值 实际值
期刊 论文 K 期刊 论文 K
第一区 5456 -
11725 -
第二区 145462.8
25743 2.27
第三区 358062.5
49735 1.96
第四区 908872.57 987312
第五区2279322.52 205734 2.09
第六区5777712.54 561730 2.74
3 结论
通过对前述4组原始数据实施布氏等级排序之后,应用三区划分、多区域划分和维克里推论进行分析,我们发现这些数据都不符合60多年前布拉德福通过对“润滑”数据及“波普书目”分析所揭示的文献分散规律,突出表现在三分区的第三区、多区划分的最后几个区期刊数量增大,使得按等论文数划分后形成的期刊序列不成等比级数,而且比例系数相差较大。应当说,我们所选择的三个数据库具有一定的代表性:BIOSIS是生物学的专业数据库,偏重基础科学;INSPEC是一个包括物理学、电子学、 计算机科学与控制、 信息技术领域文献的大型数据库;COMPENDEX 则是一个广泛涉及工程技术各领域、各相关学科及管理方面的大型综合性数据库,但它们都不符合布氏分布规律,而呈现出同样的趋势。这说明科学技术在当代综合化趋势更加突出,科学信息更为分散,刊载某一学科主题相关论文的期刊越来越多,表现在形式上,即布氏等级排序中低位次的期刊数量大大增加,核心区和中等位次的期刊相对减少,因而使得原有的等比级数受到破坏。关于这4组数据的置信水平,可用X[2]检验进行验证,由于篇幅所限,此从略,我们仅在下篇文章中用柯尔莫哥洛夫——斯米尔诺夫检验对莱姆库勒函数的拟合进行检验。
收稿日期:1999年1月5日
责任编辑注:本文第一部分发表在本专题1999年第7期139页。