科学信息离散分布研究--从文献单位到内容单元的实证分析(Ⅱ):文献离散分布的Brinell区域分析_主题词论文

科学信息离散分布研究--从文献单位到内容单元的实证分析(Ⅱ):文献离散分布的Brinell区域分析_主题词论文

科学信息离散分布规律研究——从文献单元到内容单元的实证分析(Ⅱ):文献离散分布的布氏区域分析,本文主要内容关键词为:文献论文,单元论文,实证论文,规律论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

由于本项研究以布拉德福定律为参照系, 因而我们首先按文献 [1]所述的技术路线和程序,

采用区域法对采自BIOSIS、INSPEC、COMPENDEX光盘数据库中的4组原始数据进行比较分析,考察文献单元在不同学科领域中的分布态势,验证60多年前发现的布拉德福定律在现代科学技术发展条件下的适用性和准确性。为了考察布氏文献分散定律的普遍性,我们同时对这4组有代表性的数据进行处理和分析。

区域分析方法是根据布拉德福定律把期刊划分为三个区域,使每个区域论文数量大致相等,并且各区期刊数量关系之比以1∶a∶a[2]的方法形成的。现在多采用经修正了的布拉德福定律,得出最适合的区域划分和求出相应的共存值[2],在本文中我们同时采用布氏三区域划分、 多区域划分及维克里推论验证布拉德福文献分散规律。

1 数据的等级分布

1.1 对取自BIOSIS的两组数据的处理

首先在BA(Biological Abstract)光盘数据库BIOSIS中, 用其随盘配备的PC—SPIRS 3.30检索软件提取1995—1997年的两组数据,采用分类检索方式,并指定文献类型为期刊文献。

第一组数据:

分类号:CC33508

分类名:VIROLOGY——PLANT——HOST——VIRUSES

命中记录数:2804条

第二组数据:

分类号:CC54510

分类名:PHYTOPATHOLOGY——DISEASES——CAUSED ——BY——VIRUSES

命中记录数:2765条

根据BIOSIS的记录格式,我们用自编软件处理其中的SO(SOURCEJOURNAL)字段(来源期刊)和DE(DESCRIPTORS)字段(主题词),得出第一组数据处理结果见表1。

表1 取自BIOSIS第一组数据的布氏分布

序号 载文量 DE总数 DE个数 来源期刊名称

1 25923301008Virology

2 1993007 832Plant Disease

3 1841840 885Journal of General Virology

4 1091634 562Phytopathology

5 1021215 519Archives of Virology

6 90 948 455Journal of Virology

7 671181 490Annals of Applied Biology

8 56 659 308Fitopatologia Brasileira

9 54 665 419 Journal of Phytopathology(Berlin)

400 1

1

1Journal of Pesticide Science

处理结果表明,BIOSIS的第一组数据共有400种来源期刊, 共载文2804篇。这2804篇文章中共有主题词8691个,出现总次数为32,212次。

第二组数据有403种来源期刊,共载文2765篇。这2765 篇文章中共有主题词8439个,出现次数为34884次。

1.2 对取自INSPEC的数据的处理

在UMI公司提供的SA(Science Abstracts)光盘数据库INSPEC中,用其随盘提供的PROQUEST软件,采用分类检索方法随机抽取1995 —1997年的一组数据,并指定文献类型为期刊文献。

分类号:A4630J

分类名:Viscoelasticity,plasticity,viscoplasticity,creep,and stress relaxation

命中记录数:3089条

根据INSPEC的记录格式,我们用自编软件处理其中的JOURNAL 字段(来源期刊)和FREE TERMS字段(关键词),其结果见表2。

表2 取自INSPEC数据的布氏分布

序号 载文量 FT总数 FT个数 Journal名称

1

2351287

1023International Journal of Solids

and Structures

2

123 541449International Journal for

Numerical Methods in

3

115 586479Internation Journal of Fracture

4

112 602480Mechanics of Solids

5

102 559446Computers and Structures

6

101 448380Transactions of the ASME.Joumal of

Applied

782 405328Engineering Fracture Machanics

876 360298Computer Methods in Applied

Mechanics and

966 341289 Journal of the Mechanics and Physics

of Solids

3101 12 10Science in China,Series A [

Mathematics,Physics,

注:有些期刊名太长,表1和表2在显示时会自动截短。

处理结果表明,取自INSPEC的这组数据共有310种来源期刊, 载文3089篇。这3089篇文章共有关键词10,004个,出现次数为15,689次。

1.3 对取自COMPENDEX的数据的处理

在Knight-Ridder Information公司提供的EI(Engineering Index)光盘数据库COMPENDEX*PLUS中,用其随盘提供的Dialog Ondisc forWindows软件, 采用分类检索方法随机抽取1995—1997年的一组数据,并指定文献类型为期刊文献。

分类号:943.3

分类名:Special Purpose Instruments

命中记录数:4398

根据COMPENDEX的记录格式,我们用自编软件处理其中的SOURCE 字段(来源期刊)和DESCRIPTORS字段(主题词),结果表明它有949种来源期刊,载文4398篇。这3089篇文章共有主题词5686 个, 出现次数为31853次。

2 数据的区域分析

2.1 对取自BIOSIS的数据的分析

(1)对取自BIOSIS的第一组数据的分析

根据本课题的总体研究思路, 对第一组数据进行布氏排序得到表3。

表3 取自BIOSIS第一组数据布氏排序表

期刊 相应的论文 rlogr R(r) 主题词 主题词 20种核心主题

总数 个数 词数

1

259 1

0

259

2330

1008 375

1

199 2

0.693

458

5337

1739 991

1

184 3

1.099

642

7177

2409 1328

1

109 4

1.386

751

8811

2737 1700

1

102 5

1.609

853 10026

3073 1968

190 6

1.792

943 10974

3372 2084

167 7

1.946 1010 12155

3656 2288

156 8

2.079 1066 12814

3809 2340

35411

2.398 1228 14647

4308 2601

14812

2.485 1276 15213

4452 2677

24514

2.639 1366 16332

4627 2876

14215

2.708 1408 16674

4711 2912

14016

2.773 1448 17121

4853 2979

13217

2.833 1480 17509

4932 3042

127182.89 1507 17848

5024 3108

12419

2.944 1531 18101

5106 3134

12320

2.996 1554 18319

5164 3152

32123

3.135 1617 19166

5364 3255

12024

3.178 1637 19384

5414 3279

11925

3.219 1656 19664

5463 3332

11826

3.258 1674 19951

5510 3362

21728

3.332 1708 20305

5617 3407

21630

3.401 1740 20747

5731 3486

11531

3.434 1755 20906

5783 3503

11432

3.466 1769 20983

5805 3513

41336

3.584 1821 21582

5972 3593

41240

3.689 1869 22132

6102 3654

21142

3.738 1891 22308

6133 3680

21044

3.784 1911 22437

6151 3682

1 945

3.807 1920 22550

6185 3697

5 850

3.912 1960 23000

6311 3749

7 757

4.043 2009 23492

6429 3823

24 681

4.394 2153 25067

6804 4002

21 5

102

4.625 2258 26274

7074 4162

31 4

1334.89 2382 27825

7407 4310

41 3

174

5.159 2505 29123

7746 4439

73 2

247

5.509 2651 30722

8160 4587

1531

400

5.991 2804 32212

8691 4699

根据表3中的数据,对第一组数据按载文量均匀分区结果见表4。

表4 取自BIOSIS 第一组数据的布氏分布表(六区)

区号1 2 3 456

期刊序号

1~2 3~6 7~15 16~40 41~122 123~400

期刊种数 2 4 9 25 82278

首先运用布拉德福定律的拟合公式[3]对其进行验证。 考虑当分为三个区时的情况,已知

K=(1.781y[,m])[1/p]

r[,0]=T(k-1)/(K[p]-1)

上式中P为分区数,Y[,m]为排在第一位的期刊的载文量,T 为期刊总数。将表3中数值代入则得:

K=(1.781*259)[1/3]=7.73

r[,0]=400(7.73-1)/(7.73[3]-1)=5.84,

我们取r[,0]=6,则三个区的期刊数的计算值分别为6∶45∶349,实际值为6∶34∶360

其次利用维克里推论方法,考虑当分为六个区时的情况:

K=(1.781*259)[1/6]=2.77967

r[,0]=400(2.78-1)/(2.78[6]-1)=1.54662,

我们取r[,0]为2,则六个区的期刊数比值为2∶6∶18∶51∶143∶400,实际值为2∶6∶15∶40∶122∶400。各区期刊数、论文数实际值与计算值见表5和表6。

表5 P=3的布拉德福定律(r[,0]=5.84,K=7.73)

计算值 实际值

期刊 论文 K 期刊 论文 K

第一区 6

943

-6943 -

第二区 45 1024 7.5 34926 5.7

第三区349

837 7.76 36093510.6

表6 P=6的布拉德福定律(r[,0]=1.54662,K=2.77967)

计算值 实际值

期刊 论文 K 期刊 论文 K

第一区 2

458

-2458 -

第二区 4

485

24485 2

第三区 2

564

39465

2.25

第四区 33

4602.75

25461

2.78

第五区 92

4452.79

82469

3.28

第六区257

3922.79 278466

3.39

(2)对取自BIOSIS的第二组数据的分析

对第二组数据进行布氏排序得到表7。

表7 取自BIOSIS第二组数据布氏排序表

期刊 相应的论文

r

logr R(r)

主题词 主题词 20种核心

总数个数 主题词数

1 250

10250 3809 952 835

1 150

20.693400 5264 1492 1006

1 120

31.099520 7094 1878 1439

1 9141.386611 8021 2246 1546

1 8051.609691 9415 2572 1808

1 7061.792761 102102775 1876

1 6671.946827 109332984 1964

1 5982.079886 116723240 2043

2 57

102.3031000133163526 2358

1 55

112.3981055144063662 2554

1 54

122.4851109150333814 2630

1 45

132.5651154156083989 2701

2 44

152.7081242165304195 2832

1 37

162.7731279167764239 2855

1 34

172.8331313171664360 2910

1 30

182.89 1343176364450 3057

1 28

192.9441371179974531 3092

1 26

202.9961397184664641 3169

1 25

213.0451422189224721 3253

2 24

233.1351470195514857 3364

4 23

273.2961562205875100 3516

1 22

283.3321584208285154 3556

1 21

293.3671605210385222 3568

1 19

303.4011624212695277 3601

2 17

323.4661658216495365 3645

2 15

343.5261688218785422 3661

3 14

373.6111730224525544 3726

2 13

393.6641756227145618 3745

2 12

413.7141780230045652 3826

4 11

453.8071824237195805 3942

2 10

473.85 1844240535848 4010

5

9

523.9511889244925960 4074

7

8

594.0781945252226126 4198

9

7

684.22 2008259146307 4282

22 6

904.5 2140275126621 4498

25 5

115

4.7452265291156954 4692

18 4

133

4.89 2337301067128 4836

38 3

171

5.1422451313057414 4959

82 2

253

5.5332615333837932 5189

150 1

403

5.9992765348848439 5325

按照布拉德福方法将第二组数据分为三个区如下:

表8 取自BIOSIS第二组数据的布氏分布表(三区)

分区 1

2

3

期刊数9 39 355

载文量 943 910 912

用布拉德福定律的拟合公式对其进行验证。

K=(1.781*250)[1/3]=7.63604

r[,0]=403(7.63604-1)/(7.63604[3]-1)=6.020,我们取r[,0]=6,

则三个区期刊数计算比值为6∶46∶351,而实际比值为9∶39∶355。

用维克里推论方法,考虑分为七个区时的情况见表9。

表9 取自BIOSIS第二组数据的布氏分布表(七区)

分区 1 23

4

5

6 7

期刊序号1~2 3~6 7~13 14~27 28~62 63~143 144~403

期刊数24 7 14 35 81260

载文量 400 361393 408 404 401398

K=(1.781*250)[1/7]=2.40675

r[,0]=403(2.40675-1)/(2.40675[7]-1)=1.2146, 我们取r[,0]=1,

则各区期刊数比值为1∶4∶11∶28∶69∶167∶403,而实际比值为2∶6∶13∶27∶62∶143∶403。

各区期刊数、论文数实际值与计算值见表10和表11。

表10 P=3的布拉德福定律(r[,0]=6.02,K=7.63604)

计算值

实际值

期刊论文K期刊论文 K

第一区 6 761 - 9 943

-

第二区46 1128

7.7639 910 4.3

第三区

351 876

7.63

355 912 9.2

表11 P=7的布拉德福定律(r[,0]=1.2146,K=2.40675 )

计算值 实际值

期刊论文 K期刊论文 K

第一区 1 250

- 2 400

-

第二区 3 361

3 4 361

2

第三区 7 444 2.3 7 3932.75

第四区 17 5292.43 14 408

2

第五区 41 4302.41 35 404 2.5

第六区 98 4252.39 81 401 2.3

第七区235 3262.40260 398 3.2

2.2 对取自INSPEC的数据的分析

对这组数据进行布氏排序得到表12。

表12 取自INSPEC数据布氏排序表

期刊 相应的论文

rlogr R(r) 主题词 主题词 20种核心主题

总数个数 词数

1 235

1

0

2351287

1023 65

1 123

2

0.693

3581828

1434 82

1 115

3

1.099

4732414

1865 104

1 112

4

1.386

5853016

2290 125

1 102

5

1.609

6873575

2663 155

1 101

6

1.792

7884023

2980 170

1

82

7

1.946

8704428

3241 186

1

76

8

2.079

9464788

3477 204

1

66

9

2.197 10125129

3699 213

2

56 11

2.398 11245627

4027 240

1

53 12

2.485 11775926

4223 255

1

52 13

2.565 12296267

4426 264

1

50 14

2.639 12796507

4567 273

1

42 15

2.708 13216766

4726 283

1

40 16

2.773 13616913

4818 286

1

37 17

2.833 13987140

4947 300

3

36 20

2.996 15067713

5300 319

1

35 21

3.045 15417930

5431 324

2

33 23

3.135 16078251

5637 337

4

32 27

3.296 17358850

6014 367

2

28 29

3.367 17919195

6222 382

2

27 31

3.434 18459473

6396 393

2

25 33

3.497 18959672

6518 399

1

23 34

3.526 19189810

6604 404

3

22 37

3.611 1984

10111

6778 413

2

21 39

3.664 2026

10361

6926 426

2

20 41

3.714 2066

10542

7030 431

2

19 43

3.761 2104

10700

7127 435

2

18 45

3.807 2140

10872

7229 445

2

17 473.85 2174

11043

7336 450

2

16 49

3.892 2206

11228

7436 461

2

15 51

3.932 2236

11352

7508 468

7

14 584.06 2334

11921

7840 488

3

13 61

4.111 2373

12180

7982 498

7

12 684.22 2457

12606

8243 509

5

11 734.29 2512

12916

8414 522

2

10 75

4.317 2532

13000

8475 527

39 78

4.357 2559

13139

8537 533

38 81

4.394 2583

13271

8615 541

77 88

4.477 2632

13561

8775 556

66 94

4.543 2668

13770

8887 562

125 106

4.663 2728

14107

9109 572

224 128

4.852 2816

14571

9369 587

233 151

5.017 2885

14893

9565 603

452 196

5.278 2975

15371

9821 623

114

1 310

5.737 3089

15689 10004 641

运用布拉德福定律的拟合公式对其进行验证,当分为三个区时的情况见表13。

表13 取自INSPEC的数据布氏分布表(三区)

分区1 2 3

期刊数 9 32269

载文量

1012

1054

1023

此时K=(1.781*235)[1/3]=7.480

r[,0]=310(7.480-1)/(7.480[3]-1)=4.811,我们取r[,0]=5,

故三个区期刊数实际比值为9∶32∶269, 拟合后计算比值为5∶36∶269

利用维克里推论方法,当分为六个区时的情况见表14。

表14 取自INSPEC的数据布氏分布表(六区)

分区 1 2 3 4 5 6

期刊数3 6 12 20 39230

载文量 473539529525509514

则K=(1.781*235)[1/6]=2.735

r[,0]=310(2.735-1)/(2.735[6]-1)=1.288,我们取r[,0]=1,

则六个区期刊数实际比值为3∶9∶21∶41∶80∶310, 拟合后计算比值1∶5∶15∶41∶113∶310, 各区期刊数、 论文数实际值与计算值见表15和表16。

表15 P=3的布拉德福定律(r[,0]=4.811,K=7.48)

计算值实际值

期刊论文K 期刊论文 K

第一区 5 687 -

9 1012 -

第二区 3613797.2 32 1054 3.56

第三区2691023

7.47269 1023 8.4

表16 P=6的布拉德福定律(r[,0]=1.288,K=2.735)

计算值

实际值

期刊 论文 K期刊 论文 K

第一区 1235 - 3473 -

第二区 4452 4 6539 2

第三区 106342.5 12529 2

第四区 267452.6 20525

1.67

第五区 72690

2.77 39509

1.95

第六区197333

2.742305145.9

2.3 对取自COMPENDEX的数据的分析

对这组数据进行布氏排序得到表17。

表17 取自COMPENDEX数据布氏排序表

期刊 相应的论文

r

logr R(r) 主题词 主题词 20种核心主题

总数个数 词数

1 150

1 0

150104937386

1 125

2 0.693

2751942657

178

1

68

3 1.097

3432390869

213

1

58

4 1.386

4012776

1005

229

1

51

5 1.609

4563155

1127

241

2

50

7 1.946

5563928

1414

336

1

46

8 2.079

6024242

1485

383

2

42 10 2.303

6864815

1636

472

1

39 11 2.398

7255066

1696

508

2

37 13 2.565

7995579

1791

530

1

35 14 2.639

8345840

1841

564

3

34 17 2.833

9366491

1966

652

5

33 22 3.091 11017775

2212

770

2

31 24 3.178 11638200

2301

804

3

29 27 3.296 12508824

2416

882

2

27 29 3.367 13049212

2494

893

1

26 30 3.401 13309421

2538

904

1

24 31 3.434 13549586

2579

913

4

23 35 3.555 1446

10325

2678

980

1

22 36 3.584 1468

10477

2701

984

5

21 41 3.714 1573

11321

2815 1084

1

20 42 3.738 1593

11479

2829 1118

6

19 48 3.871 1707

12344

2970 1184

2

18 50 3.912 1743

12581

2995 1225

1

17 51 3.932 1760

12704

3017 1230

3

16 54 3.989 1808

13075

3083 1271

3

15 57 4.043 1853

13447

3127 1307

6

14 63 4.143 1937

14104

3197 1373

6

13 69 4.234 2015

14639

3255 1437

12

12 81 4.394 2159

15669

3466 1526

4

11 85 4.443 2203

15941

3511 1533

10

10 95 4.554 2303

16654

3619 1600

179 112 4.718 2456

17785

3766 1718

158 127 4.844 2576

18701

3880 1797

227 149 5.004 2730

19780

4033 1892

346 183 5.209 2934

21251

4246 1997

335 216 5.375 3099

22458

4398 2103

634 279 5.631 3351

24337

4632 2218

993 378 5.935 3648

26426

4935 2351

183

2 561

6.33 4014

29116

5307 2543

388

1 949 6.855 4398

31583

5686 2765

按照布拉德福方法将该组数据分为三个区见表18。

表18 取自COMPENDEX数据的布氏分布表(三区)

分区1 2 3

期刊数 36 147766

载文量

14681466

1464

用布拉德福定律的拟合公式对其进行验证。

K=(1.781*150)[1/3]=6.44048

r[,0]=949(6.44048-1)/(6.44048[3]-1)=19.3989,我们取r[,0]=19,

则三个区期刊数计算比值为19∶125∶805, 而实际比值为36∶147∶766。

用维克里推论方法,考虑分为六个区时的情况见表19。

表19 取自COMPENDEX数据的布氏分布表(六区)

分区1 2

3

4 5 6

期刊序号 1—11 12—36 37—85 86—183 184—388 389—949

期刊数 11 25 49 98205

561

载文量 725743 735 731734

730

K=(1.781*150)[1/6]=2.53781;

r[,0]=949(2.53781-1)/(2.53781[6]-1)=5.48331,我们取r[,0]=5

各区期刊数比值为5∶19∶54∶144∶371∶948,而实际比值为11∶36∶85∶183∶388∶949。

各区期刊数、论文数实际值与计算值见表20和表21。

表20 P=3的布拉德福定律(r[,0]=19.3989,K=6.44048)

计算值 实际值

期刊论文 K 期刊 论文 K

第一区

19 1002 -

36

1468 -

第二区 125 1693 6.58147

1466 4.08

第三区 805 1703 6.44766

1464 5.21

表21 P=6的布拉德福定律(r[,0]=5.48331,K=2.53781)

计算值 实际值

期刊 论文 K 期刊 论文 K

第一区 5456 -

11725 -

第二区 145462.8

25743 2.27

第三区 358062.5

49735 1.96

第四区 908872.57 987312

第五区2279322.52 205734 2.09

第六区5777712.54 561730 2.74

3 结论

通过对前述4组原始数据实施布氏等级排序之后,应用三区划分、多区域划分和维克里推论进行分析,我们发现这些数据都不符合60多年前布拉德福通过对“润滑”数据及“波普书目”分析所揭示的文献分散规律,突出表现在三分区的第三区、多区划分的最后几个区期刊数量增大,使得按等论文数划分后形成的期刊序列不成等比级数,而且比例系数相差较大。应当说,我们所选择的三个数据库具有一定的代表性:BIOSIS是生物学的专业数据库,偏重基础科学;INSPEC是一个包括物理学、电子学、 计算机科学与控制、 信息技术领域文献的大型数据库;COMPENDEX 则是一个广泛涉及工程技术各领域、各相关学科及管理方面的大型综合性数据库,但它们都不符合布氏分布规律,而呈现出同样的趋势。这说明科学技术在当代综合化趋势更加突出,科学信息更为分散,刊载某一学科主题相关论文的期刊越来越多,表现在形式上,即布氏等级排序中低位次的期刊数量大大增加,核心区和中等位次的期刊相对减少,因而使得原有的等比级数受到破坏。关于这4组数据的置信水平,可用X[2]检验进行验证,由于篇幅所限,此从略,我们仅在下篇文章中用柯尔莫哥洛夫——斯米尔诺夫检验对莱姆库勒函数的拟合进行检验。

收稿日期:1999年1月5日

责任编辑注:本文第一部分发表在本专题1999年第7期139页。

标签:;  ;  ;  ;  ;  

科学信息离散分布研究--从文献单位到内容单元的实证分析(Ⅱ):文献离散分布的Brinell区域分析_主题词论文
下载Doc文档

猜你喜欢