科学信息离散分布规律的研究——从文献单元到内容单元的实证分析(Ⅳ):以布氏区域分布为参照系的知识单元分布,本文主要内容关键词为:单元论文,参照系论文,实证论文,文献论文,规律论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
文献[2]和[3]运用布氏三区域划分、多区域划分、维克里推论以及莱姆库勒方法,从多个角度对文献单元的离散分布进行了分析,验证了科学信息在文献层次上的离散分布规律。从本文开始,我们将以布氏定律为参照系,探讨知识单元的离散分布规律。
按照文献[1]的技术路线和程序, 以关键词或主题词表征知识单元,具体地说,就是参照布拉德福定律将文献集合均匀分为若干个子集合的思路,以文献[2]的研究成果为基础, 首先考察将文献集合分为若干个载文量相等的区域之后,各区的主题词或关键词总数(含重复)、个数(不含重复)及核心词呈什么样的分布规律。其次,我们要考察当按主题词总数或关键词总数均匀分区时,落在各区的期刊数、论文数、主题词或关键词个数及核心词数,与按载文量相当的原则分区时的结果相比会呈现出何种不同的特点。由于主题词或关键词个数是去重后的词总数,与文献集合的对应关系受到破坏,按此分区不能实现本文的研究目标,因此本文不再按此方法分区。
最后,我们要考察当按核心词数均匀分区时,落在各区的期刊数、论文数、主题词或关键词总数以及主题词或关键词个数,与按载文量相当的原则分区时的结果相比会呈现出何种不同的特点。我们从BIOSIS数据库的两组数据中各提取20个主题词为BIOSIS数据库的核心词[1], 通过研究这两组数据核心词数区域分布的比例关系,试图发现相对于研究文献单元的布拉德福定律而言,核心词的区域分布在多大程度上接近文献单元的布拉德福分布,进一步验证通过BIOSIS数据库发现的核心词的区域分布关系。在INSPEC和COMPENDEX的数据中, 我们将核心词数扩大到每组数据30个核心词。
本文的研究目的在于试图通过分区标准的变化,例如分别按载文量、主题词或关键词总数和核心词数相等划分区域,揭示科学信息在文献层次和内容层次的分布规律。
1 对取自BIOSIS数据的分析
1.1 对取自BIOSIS第一组数据的分析
对于本组数据,我们所选的20个核心词如表1。
表1 取自BIOSIS第一组数据核心词一览表
等级 核心词 词频
6 HORTICULTURE 474
7 CROP INDUSTRY473
8 MOLECULAR GENETICS
453
9 NUCLEOTIDE SEQUENCE 337
10VIRUS323
11MOLECULAR SEQUENCE DATA 299
12PATHOGEN 290
13AMINO ACID SEQUENCE 272
14PATHOLOGY202
16PHYTOPATHOGEN184
17ELISA178
18NICOTIANA TABACUM161
20RNA 156
21VIRAL DISEASE151
22PLANT PATHOGEN
150
23PEST MANAGEMENT 135
24COMPLEMENTARY DNA122
25NICOTIANA BENTHAMIANA118
26INSECT
115
28TOBACCO MOSAIC VIRUS 115
这20个核心词均为本组数据主题的基本词汇,其中等级是指该词在齐夫排序表中的等级,因删去了核心词,所以等级序列不连续。
根据文献[2]的研究结果,我们将其扩展成为表2。
表2 按载文量均分后的期刊与知识单元区域分布
分区 论文 占总数 期刊 K主题词总数
百分比
第一区 958
34.2 6
- 11105
第二区 923
32.927 4.511082
第三区 924
32.9
301 11.15
10039
分区 占总数主题词种数占总数核心词占总数
百分比 百分比 百分比
第一区 34.5
3421 39.4 2116
44.9
第二区 34.4
3454 39.8 1549
32.9
第三区 31.2
3724 42.9 1043
22.2
由于无法在技术上使各区的载文量绝对相等,因而我们在统计时只能观察出一种大致趋势,通过上述比例来进行研究,似乎是唯一可行的方法。
通过上述研究我们可以清楚地看到,当按载文量相等的原则将数据集合分为三个区时,各区主题词总数、主题词个数也大致相等。而核心词的区域分布却相当特殊,即使在各个区载文量相等的情况下,核心词在各区的分布也呈递减趋势。
那么,按三区主题词总数或核心词数相等重新进行分区后又会是什么情况呢?我们来看表3和表4。
表3 按主题词总数均分后的期刊与知识单元区域分布
分区 主题词总数
占总数 期刊数
K论文
百分比
第一区 11105 34.466 - 958
第二区 10464 32.47
24 4 873
第三区 10657 33.07 30412.67
974
分区占总数主题词个数占总数核心词占总数
百分比 百分比 百分比
第一区
34.15
3421
39.38 2116 44.94
第二区
31.12
3252
37.44 1466 31.14
第三区
34.72
3905
44.95 1126 23.92
表4 按核心词总数均分后的期刊与知识单元区域分布
分区 核心词
占总数 期刊
K 论文占总数
百分比 百分比
第一区
1618 34.374 - 759 27.06
第二区
1553 32.99
143.5822 29.3
第三区
1537 32.65 316
22.57 1224 43.78
分区 主题词总数
占总数 主题词个数 占总数
百分比百分比
第一区 8513
26.24 2799 32.22
第二区10040
31.15 3091 35.58
第三区13673
42.43 4668 53.74
对照表2,我们从表3和表4可以看出,随着分区标准的变化, 三区拥有的期刊数也发生了较大的变化。结果如下:
当按载文量均匀分区时,三区期刊数之比为6∶27∶301
当按主题词总数均匀分区时,三区期刊数之比为6∶24∶304
当按核心词数均匀分区时,三区期刊数之比为4∶14∶316
也就是说,第一区和第二区的期刊数呈递减趋势,而第三区的期刊数呈递增趋势,科学信息在微观层次上的离散程度加大。
当按主题词总数均匀分区时,各区载文量的分布呈现出主题词总数大致相同的分布规律,即落在各区的论文数占总载文量的比例与落在各区的主题词总数占总词数的比例大致相等,但核心词的分布却呈锐减趋势。主题词个数在第二区减少,而在第三区陡增。
当按核心词数均匀分区时,落在三区的载文量、主题词总数、主题词种数均呈递增趋势。
1.2 对取自BIOSIS第二组数据的分析
根据文献[2]的研究结果,我们将其扩展成为表5~7。
表5 按载文量均分后的期刊与知识单元区域分布
分区 论文 占总数
期刊 K主题词总数
百分比
第一区912 33 8
- 12021
第二区92533.4 29 3.62511622
第三区93033.6299 10.3111271
分区 占总数
主题词个数
占总数 核心词
占总数
百分比百分比 百分比
第一区34.4 330539.2
2088 39.8
第二区33.3 337139.9
1770 33.8
第三区32.3 383845.5
1383 26.4
表6 按主题词总数均分后的期刊与知识单元区域分布
分区
主题词总数
占总数 期刊数K 论文
占总数
百分比百分比
第一区11298 32.367
- 84630.57
第二区11851 33.94
27 3.8694834.26
第三区11765 33.7 302 11.1997335.16
分区
主题词个数
占总数 核心词占总数
百分比
百分比
第一区3104
36.78 1993 38.03
第二区3416
40.47 1802 34.38
第三区3979
47.17 1446 24.59
表7 按核心词数均分后的文献单元与知识单元区域分布
分区 核心词
占总数 期刊K 论文
占总数
百分比 百分比
第一区167531.965 - 69625.15
第二区177233.81
18 3.686931.41
第三区179434.32 313
17.39
120243.44
分区 主题词总数
占总数 主题词种数占总数
百分比
百分比
第一区910926.092600 30.81
第二区
1146032.823250 38.51
第三区
1434541.094617 54.7
从表5~7我们可以得出与取自BIOSIS第一组数据完全相同的结论,即当按载文量相等的原则将数据集合分为三个区时,各区主题词总数、主题词个数也大致相等,核心词在各区的分布也呈递减趋势。
当分区标准从载文量变为主题词总数,进而变为核心词时,第一区和第二区期刊数呈递减趋势,而第三区期刊数呈递增趋势。当按主题词总数均匀分区时,各区载文量的分布呈现出主题词总数大致相同的分布规律,即落在各区的论文数占总载文量的比例与落在各区的主题词总数占总词数的比例大致相等,但核心词的分布却呈锐减趋势,主题词个数呈递增趋势。
当按核心词数均匀分区时,落在三区的载文量、主题词总数、主题词种数均呈递增趋势。
2 对取自INSPEC数据的分析
对于本组数据,我们选择了30个核心词,这30个核心词如表8。
表8 取自INSPEC数据30种核心词一览表
等级 关键词 频次
1 Bending 139
2 Deformation 80
3 Finite element method78
4 Boundary conditions 64
5 Plastic deformation 63
6 Stress
57
7 Plasticity
55
8 Finite element analysis 51
9 Stability42
10Stresses 42
11Stress-strain state 40
12Numerical37
13Compression 36
14Crack tip35
15Constitutive equations
35
16Strain
34
17Shear34
18Buckling 33
19Elasticity
33
20Tension 32
21Fracture 32
22Torsion 32
23Shear deformation32
24Plastic flow 31
25Stress fields29
26Transverse shear deformation 29
27Loading 28
28Viscoelasticity 28
29Crack27
30Convergence 27
因本组数据以关键词作为知识单元,在次高频区无泛指词,所以30种核心词齐夫排序表的等级呈连续状态。
根据文献[2]的研究结果,我们将其扩展成为表9~11。
表9 按载文量均分后的期刊与知识单元区域分布
分区 论文 占总数 期刊 K关键词总数
百分比
第一区 1016 32.5 9
K
12441
第二区 1037 33.531 3.44 12059
第三区 1046 33.8
270 8.71 12561
分区 占总数
关键词个数
占总数 核心词 占总数
百分比百分比百分比
第一区33.6
9826
37.4
43733.2
第二区32.5
9590
36.3
44133.5
第三区33.9 10204
38.7
43733.2
表10 按关键词总数均分后的期刊与知识单元区域分布
分区 关键词总数占总数期刊 K 论文
百分比
第一区 12441
33.57
9
- 1016
第二区 12294
33.17 32 3.56 1057
第三区 12326
33.26 269 8.41 1026
分区 占总数关键词个数占总数核心词占总数
百分比 百分比 百分比
第一区32.78986237.36 437
32.27
第二区34.11977137.39 44233.6
第三区33.11
1001637.94 436
33.16
表11 按核心词数均分后的期刊与知识单元区域分布
分区 核心词占总数期刊 K 论文
百分比
第一区 437 33.23
9
- 1016
第二区 441 33.54 31 3.44 1037
第三区 437 33.23 270 8.71 1046
分区 占总数 关键词总数占总数关键词个数
占总数
百分比百分比 百分比
第一区32.78 12441
33.579862
37.36
第二区33.46 12059
32.549590
36.33
第三区33.75 12561
33.89
10204
38.65
从表9~11我们可以发现,取自INSPEC 的这组数据表现出与取自BIOSIS两组数据不同的特点,即无论是按载文量分区,还是按关键词总数或核心词数分区,期刊的分布状态基本保持不变。结果如下:
当按载文量均匀分布时,三区期刊数为9∶31∶270
当按关键词总数均匀分布时,三区期刊数为9∶32∶269
当按核心词均匀分布时,三区期刊数为9∶31∶270
也就是说,取自INSPEC的这组数据所载的科学信息,其在文献层次和内容层次上的分布完全一致,这是一种值得关注的现象。
3 对取自COMPENDEX数据的分析
根据文献[2]的研究结果,我们将其扩展成为如下的表12~14。
表12 按载文量均分后的期刊与知识单元区域分布
分区 论文 占总数 期刊 K主题词总数
百分比
第一区1455
33.136
-
11925
第二区1469
33.4
147 4.08 12312
第三区1474
33.5
765 5.20411860
分区占总数
主题词个数
占总数 核心词 占总数
百分比百分比 百分比
第一区33 2752 48.3
179235.4
第二区
34.13279 57.5
183536.2
第三区
32.93791 66.
143628.3
表13 按主题词总数均分后的期刊与知识单元区域分布
分区 主题词总数占总数期刊 K 论文
百分比
第一区
12114
33.56 37
- 1476
第二区
11989
33.21143 3.861430
第三区
11994
33.23768 5.371492
分区 占总数主题词个数占总数核心词占总数
百分比 百分比 百分比
第一区 33.56
2773 48.7 1804 35.63
第二区 32.51
322556.64 1819 35.93
第三区 33.92
382067.09 1440 28.44
表14 按核心词数均分后的期刊与知识单元区域分布
分区 核心词占总数期刊 K 论文
百分比
第一区 1693 33.44 32
- 1364
第二区 1682 33.22112 3.5 1320
第三区 1688 33.34804 7.181714
分区 占总数主题词总数
占总数
主题词个数
占总数
百分比 百分比百分比
第一区 31.01
11147 30.88
2672 46.93
第二区 30.01
11147 30.88
3039 53.37
第三区 38.97
13803 36.24
4073 71.54
从表12~14我们可以得出与取自BIOSIS两组数据完全相同的结论,即当按载文量相等的原则将数据集合分为三个区时,各区主题词总数、主题词个数也大致相等,核心词在各区的分布也呈递减趋势(排除分布不能实现绝对均匀因素影响)。
当分区方法变化时,第一区和第二区期刊数呈递减趋势,而第三区期刊数呈递增趋势。只不过本组数据在第一区的情况稍有出入,即当按主题词总数分区时,第一区的期刊数不是减少而是增加了1个。
当按主题词总数均匀分区时,各区载文量的分布呈现出主题词总数大致相同的分布规律,即落在各区的论文数占总载文量的比例与落在各区的主题词总数占总词数的比例大致相等,但核心词的分布呈递减趋势,主题词个数呈递增趋势。
当按核心词数均匀分区时,落在三区的载文量、主题词总数、主题词个数均呈递增趋势,只不过载文量的变化要复杂一些,即从第一区到第二区载文量减少。
4 结论
当我们用布氏区域法分别从文献单元、主题词或关键词、核心词数均等的角度对所采集到的四组数据进行划分后发现,取自BIOSIS的两组数据与取自COMPENDEX的一组数据呈现出完全相同的分布规律。 即以文献单元和主题词或关键词数为标准的划分,使期刊呈现相同的数量分布,核心词则依次递减;以核心词为标准的分区使期刊的离散度更大。取自INSPEC的数据略有不同,即无论从什么角度进行分区,期刊及其他元素都呈相同的数据分布。特别是核心词也呈现了均匀分布。在四组数据中,只有本组数据采用关键词表征知识单元,且在齐夫排序表的核心区不存在泛指词。INSPEC本身就是一个收录面很广的数据库,对于任何一个专题,相关文献在数据库中的分布也是相当分散,很难形成一个稳定或突出的核心区,从而使得关键词总数、个数以及核心关键词呈现出同样的分布。
当对科学信息离散分布规律的研究从宏观层次(文献单元)向微观层次(内容单元)过渡时,我们发现一个典型的现象是,当按主题词总数均匀分区时,各区载文量的分布呈现出主题词总数大致相同的数量分布,即落在各区的论文数占总载文量的比例与落在各区的主题词总数占总词数的比例大致相等。但核心词的分布呈递减趋势,主题词个数的分布一般呈递增。这一研究从另一个角度说明了宏观层次的科学信息同微观层次的科学信息遵循大致相同的离散分布规律。
当按核心词数均匀分区时,一个典型的现象是,落在三区的载文量、主题词总数、主题词个数均呈递增趋势。这说明各区支持核心知识单元的“成本”各不相同,即对于数量相同的核心知识单元,各区需要“配备”的期刊数、论文数、词总数和词个数大不相同,这一发现对于情报检索、信息经济学等具有非常重要的意义。
运用布拉德福定律的区域法进行知识单元离散分布规律的研究,其固有的局限在于无论是文献单元还是知识单元均无法实现绝对均匀分区,即无法使各区的载文量或词数量绝对相等。这在分析文献单元离散分布时尚可,但在分析知识单元的离散分布时却会引起一定程度的不精确性,使我们无法准确识别知识单元的数量分布,例如我们无法准确解释在取自COMPENDEX数据中出现的种种反弹现象。
我们虽然通过区域法揭示了知识单元离散分布的大致趋势,但更为精确的研究结论还需运用图像模拟知识单元总量、知识单元种类以及核心知识单元的离散分布方程以后才能得出。这将是本项目下一篇文章的研究主题。
收稿日期:1998年6月14日
责任编辑注:本文第一、二、三部分分别复印刊登在本专题1999年第7、10、11期。