科学信息离散分布规律的研究——从文献单元到内容单元的实证分析(Ⅰ):总体研究框架,本文主要内容关键词为:单元论文,实证论文,文献论文,框架论文,总体论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
科学信息(包含技术信息) 的离散分布(ScatteringDistribution)是科学信息的重要属性,它表现为科学信息的内容单元以不同的方式从不同的角度分布于各种著作或文献载体中,科学信息的离散分布具有复杂的机理,本质上是由科学自身的分化和综合决定的,与科学信息的生产和利用,科学信息的累积性、老化性以及对创造者的独立性有着密切关系。[1]
科学信息的离散分布现象是全部科学信息活动的基石,也是对科学信息实现有效管理的基础。因而研究和揭示科学信息离散分布规律是情报学研究的重要课题,受到各国学者的普遍关主,并进行了大量研究,取得了许多成果。使人们对科学信息的离散分布有了一定了解,对情报学的发展起到了推动作用,同时也为科学信息的管理提供了指导。
但迄今为止的研究有两个明显不足:其一,对科学信息离散分布的机理研究还不够深入,目前多从科学自身的特点和规律进行定性描述,还缺乏从科学信息产生,利用角度进行定量研究。其二,对科学信息离散分布规律的研究还停留在宏观水平上,即对期刊上发表的科学论文分散规律的研究。 最为典型的就是描述文献分散的布拉德福定律(Bradford's law),这仅仅是一个粗浅的经验定律。而在微观层次上对科学信息离散分布的研究,即在内容单元(而不是文献单元)层次上的研究基本上是空白。尽管近年出版有关于“情报计量学”方面的著作。但在论及科学信息分散规律时,仍然是以宏观层次的文献为基础。 如1990年出版的Leo Egghe和Ronald Rousseou的《情报计量学引论》,其主体内容和框架仍然基本上是“文献计量学”[2]。这说明科学信息离散分布在微观层次上的研究难度较大,迄今还没有找到行之有效的方法和途径,致使人们在研究科学信息计量时,不得不退却到文献层次[3]。
有鉴于此,我们在1998年承担了国家自然科学基金课题——科学信息离散分布的机理与模型研究,重点就在于探索科学信息离散分布的机理,以及在微观层次上离散分布的规律,在此基础上建立科学信息离散分布的模型。本文便是该课题的总体研究框架。
1 基本思路
从什么角度出发研究科学信息的离散分布,是我们在设计项目时必须首先考虑的问题。严格意义上的科学信息是指人们在认识过程中所取得的,如实反映自然界,社会和思维的现象与规律,并用于社会实践的逻辑信息,记载成精确的概念、判断、推理、理论、假设、构想和方法等等[4]。 显然,要用某一计量单元表达科学信息的复杂形态,并揭示其分布是相当困难的。为了使问题简化,我们以布拉德福定律为参照系,选择文献中的关键词或主题词作为基本计量单元切入科学信息离散分布的研究,即在文献分布规律成既定的情况下,揭示其中所含的关键词或主题词(内容单元)的分布状态。布氏定律是关于科学文献分散的规律,自本世纪30年代通过经验统计发现以来,引起了情报学界的广泛兴趣,取得了许多有价值的成果,成为文献计量学乃至情报学最基本的定律。文献是科学信息的载体,属于物理世界的“居民”,而其中所含的科学信息则属于认识世界的“居民”,其差别显而易见。尽管如此,文献与其荷载的科学信息(知识内容)之间仍然存在着必然的、潜在的联系。例如布鲁克斯就曾经用“对数透视效应”来描述文献与其所含的知识内容之间的量的关系[5]。我们在本项目中所涉及的文献与其内容单元之间的联系远没有如此神秘和复杂,仅仅是用布氏文献分布来映射其内容单元的分布。
关键词或主题词则是目前能获得的关于知识单元的最简捷的计量单位,是指文献的题目、摘要及正文部分出现的具有实质意义的语词,是文献作者所选用的未经规范化的自然语言词汇,主题词是指表征文献内容特征的经过规范化的名词术语,包括词组和短语。在现代信息科学理论中,人们称关键词或主题词为METADATA,也就是关于信息的信息,将其作为深入文献内部的途径。人们常常用关键词或主题词来表征文献的内容,确定文献的知识含量。但由于关键词比主题词丰富、灵活,更忠实于文献作者的本意和原文包含的知识内容,因此当二者并存时,我们将优先选择关键词。
选择将关键词或主题词作为计量对象,还因为它们具有如下几个突出特点:
·浓缩性 关键词或主题词能高度概括整篇文献的基本内容,通过一定方式对某篇文献的关键词或主题词进行组织便可表达文献的基本内容。
·合理的数量 每篇文献的关键词或主题词数量有限,这就为计量研究提供了基础,因此使我们有可能通过对关键词或主题词的分析统计方便而经济地判断知识单元的离散分布。
·耦合性 相关文献必然拥有一定数量相同的关键词或主题词,我们把这种现象称为关键词或主题词的耦合性。耦合性的强弱取决于文献拥有的相同关键词或主题词的数量。耦合性的存在也许是在研究内容单元的离散分布时关键词或主题词所具有的最重要的特性,它为在文献单元的基础上研究内容单元的分布提供了途径,使得我们可以在文献离散分布参照系之下,进一步研究内容单元的离散分布。
学术界已经开展了以关键词或主题词为内容单元来探索信息流规律的研究,
比较有代表性的成果当推西班牙学者PedroAlvarez 和Antonio Pulgarin针对糖尿病领域文献的研究。[6]
但是由于从文献单元转换到知识单元毕竟是一个十分复杂的过程,关键词或主题词仅仅是语法层次上的计量单位,虽比文献单元更能表达知识和信息内容,但仍不能揭示文献中知识内容的逻辑联系。因此,以关键词或主题词为计量单位所揭示的科学信息离散分布也仅仅是在语法层次上而非语义和语用层次上。
2 技术路线
选择电子学、物理学、生物学、工程技术等具有代表性的学科领域。利用Biosis、Inspec、Compendex光盘库输出记录, 用计算机分析统计命中记录的集中、聚类、分散状态,并绘制出文献单元和知识单元(关键词或主题词)的分布曲线。对文献单元和知识单元离散的分布曲线进行比较和模拟,建立文献和知识单元分布的数学模型。
整个技术路线有以下几个要点:
(1)在完成对Biosis、Inspec、Compendex的全部数据分析之后,再进行建模工作,以保证数据样本的充分性和最后结论的代表性,模型的构建采用MATHIMATICA软件由计算机自动进行。
(2)为保证数据样本的代表性, 每个库均采用分类检索途径抽取样本数据,分类号的选择为随机抽取, 每组时间跨度为1995 年1 月~1997年12月共三年。因为我们的研究以Biosis为范例,故Biosis库用两个分类号采两组数据,先完成对它的研究,然后与Inspec 和Compendex的数据进行比较来验证Biosis的结果,故Inspec和Compendex仅用分类方法各抽取一组数据。这样既可保证数据样本的代表性和完整性,又可保证其经济性。
(3)同时采用布氏区域法和图像法对采集到的数据进行验证。 首先对采集到的数据利用自编软件进行布拉德福排序,即将每种来源期刊按相关载文量由大到小递减排列,并同时标明每种来源期刊所载相关论文的关键词或主题词总数,这个经过扩充的布拉德福排序表将是区域法和图像法乃至全部研究得以进行的基础,自编软件在DELPHI4.0 环境下用PASCAL语言编写。区域法所涉及的计算工作将在手工协助下借助自编软件在计算机上完成,
图像法的图形绘制将采用MICROSOFT 的WINDOWS EXCEL 5.0来完成。
(4)在统计关键词或主题词时采用两种方式:一种方式是将每篇相关论文的关键词或主题词累积相加,得到每种期刊的关键词或主题词总数,显然这种统计方式包含了部分重复出现的关键词或主题词;另一种方式是剔除重复出现的关键词或主题词,仅计算每种期刊使用的关键词或主题词个数。然后绘制出两种状态下的分布曲线,对其进行比较,并分别与文献分布曲线进行比较。也就是在区域法的研究中,将每区期刊的关键词或主题词总数进行统计,观察其对应的布氏期刊数量分布;在图像法的研究中则是在横坐标不变的情况下,将载文量的分布和关键词或主题词的分布分别做图,观察其图形的异同,并将其数学模型进行比较。除进行布拉德福分析之外,在区域法中我们还将进一步进行维克利推论的验证,在图像法中将进行莱姆库勒分析。
(5)特别对核心关键词或主题词的分布进行研究。 仅仅研究关键词或主题词总数和种类在各个区的分布尚不足以全面揭示知识单元的离散分布,因此有必要进一步研究关键词或主题词在各区的分布,以便在更深入的层次上揭示知识单元分布的趋势,于是我们选择最能代表学科内容的关键词或主题词,称其为核心关键词或核心主题词。每组数据所拥有的关键词或主题词成千上万,不可能逐一分析,那么如何确定所需的关键词或主题词呢?我们首先将每组数据的关键词或主题词按出现频次由高到低排序,形成齐夫排序表,在其中选择一些该学科专业性较强的高频词,它们是本学科的核心知识单元,并对其进行更深入一步分析。齐夫定律表明,文献中出现频次最高的词汇往往是泛指词,因此我们选择次高频词。为保证核心词的可靠性,我们邀请了相应的学科专家参加核心词的确定工作。考虑到计算机绘图能力和大样本抽样的原则,一般选20个这样的核心关键词或主题词,以这20个核心关键词或主题词为样本来研究某学科核心知识单元的离散分布规律。
这样,在研究科学信息的离散分布时,我们便必须研究四个方面的内容,即载文量、关键词或主题词总数、关键词或主题词种数和核心词的分布规律。相应的在区域法中,比较4组量与期刊分布的关系;在图像法中则采用“换坐标”的方法分别绘制4条曲线, 一是布拉德福文献分布曲线,二是关键词或主题词总数分布曲线,三是关键词或主题词种数分布曲线,四是20个核心关键词或主题词的分布曲线,并由此获得四个数学模型。所谓换坐标,即在横坐标不变的情况下,在纵坐标上分别取上述四种数据的值绘图,以观察它们的异同。
(6)其他可能的研究方法。为从不同侧面揭示知识单元的分布规律,我们设想在完成上述研究之后,再采用三种不同的方法进行研究。首先按关键词或主题词总数大致相等的原则将各组数据中的期刊划分为若干个载词量相等的区,研究在这种分区情况下载文量、期刊数、关键词或主题词种数和核心词的分布规律,然后按关键词或主题词种数大致相等的原则将各组数据中的期刊划分为若干区,研究在这种分区情况下载文量、期刊数、关键词或主题词总数和核心词的分布规律,最后按期刊数将各组数据分为若干个期刊数相等的区,研究在这种分区情况下载文量、关键词或主题词总数、关键词或主题词种数和核心词的分布规律。通过采用多种研究方法,可以多角度的揭示科学信息离散分布的规律和原因。
(7)作为本项研究的副产品, 我们还将对采集到的数据中的关键词或主题词进行齐夫分析,以验证大型科学数据库中的词集合是否符合齐夫定律,作为科学信息离散分布的补充。
3 研究步骤
(1)利用自编软件首先对各组数据进行布拉德福排序, 并同时标明每种来源期刊的关键词或主题词的出现总数(含重复)和个数(不含重复),形式见表1。
表1 布拉德福分布表
序号 载文量 词总数 词种类 来源期刊名期
12592330 1008 Virology
21993007
832 Plant Disease
31841840
885 Journal
of General Virology
41091634
562 Phytopathology
51021215
519 Archives of Virology
6 90 948
455 Journal of Virology
7 671181
490 Annals
of Applied Biology
8 56 659
308 Fitopatologia Brasileira
9 54 665
419 Journal of Phytopathology(Berlin)
1054 604
273 Annals of the Phytopathological Soc
1154 564
313 Molecular Plant-Microbe Interactions
1248 566
296 European Journal of Plant Pathology
表1中的词为每种来源期刊的关键词或主题词。 如排在第一的期刊为Virology,1995年1月到1997年12月共刊载病毒学领域的文章259篇。这259篇文章累积出现2330个关键词或主题词,剔除重复只有1008 种关键词或主题词。
(2)在计算机支持下,由表1获得表2布拉德福排序表。
表2 布拉德福排序表
期刊相应的论文r R(r)
关键词总数
1 259 1
2592330
1 199 2
4585337
1 184 3
6427177
1 109 4
7518811
1 102 5
853
10026
1 90 6
943
10974
1 67 7
1010 12155
1 56 8
1066 12814
3 5411
1228 14647
1 4812
1276 15213
2 4514
1366 16332
1 4215
1408 16674
1 2024
1637 19384
1 1925
1656 19664
1 1826
1674 19951
2 1728
1708 20305
2 1630
1704 20747
1 1531
1755 20906
1 1432
1769 20983
4 1336
1821 21582
4 1240
1869 22132
2 1142
1891 22308
2 1044
1911 22437
1
945
1920 22550
5
850
1960 23000
7
757
2009 23492
24 681
2153 25067
21 5
102
2258 26274
31 4
133
2382 27825
41 3
174
2505 29123
73 2
247
2651 30722
153 1
400
2804 32212
(3)依据上表进行区域法的研究。根据400种期刊的载文量将其分为载文量相等的若干区,一般为9个, 依据经典布拉德福公式来研究对应的期刊分布和关键词或主题词分布。然后进行维克利推论的验证。
(4)依据上表进行图像法的研究。取r的对数为横坐标,在纵坐标上找出相应的载文量累积值,绘出布拉德福曲线。然后在横坐标不变的情况下,在纵坐标上找出相应的关键词总数的值,绘制对应的关键词总数的分布曲线。然后以r为横坐标, 取其对应的载文量和关键词总数为纵坐标,绘出莱姆库勒曲线。并用计算机分别进行建模工作。
(5)完成上述研究之后, 进一步扩展到关键词或主题词种数和核心词的研究,也就是在横坐标不变的情况下,分别用区域法和图像法研究与载文量相对应的关键词或主题词种数和20个核心词的分布及数学模型,并比较其与载文量以及关键词或主题词总数分布规律之间的关系。各组数据的核心词抽取依据自编程序提供的词频表获得,见表3。
表3 核心关键词出现次数分布
序号重复数关键词或主题词名称
12568 RESEARCH ARTICLE
2 667
PLANT
3 574 INFECTION
4 561 MICROORGANISM
5 514 HOST
6 472 HORTICULTURE
7 472 CROP INDUSTRY
8 451 MOLECULAR GENETICS
9 337 NUCLEOTIDE SEQUENCE
10322 VIRUS
(6)分别用期刊数相等,关键词总数或主题词总数相等, 关键词种数或主题词种数相等的方法对各组数据重新进行分组研究。
(7)进行齐夫分析,研究单个知识单元在学科内的密集程度。
(8)归纳总结本研究的全部成果。
4 研究结果展望和意义
通过本研究,至少可以在以下几个方面取得重要成果:
(1 )以采自现代大型数据库的数据重新验证布拉德福定律在现代科学发展条件下的适用性,考察其分布状态有什么变化,并研究这种变化的原因。
(2)以关键词或主题词作为知识单元,可以在微观层次上, 即在事实和内容单元水平上揭示科学信息离散分布的规律,建立科学信息离散分布的微观模型。
(3)为布拉德福定律寻求微观层次上的依据, 在微观层次上解释其形成的原因和机理,探索宏观和微观两个层次的相关关系。
(4 )较为精确地验证齐夫定律对大型科学数据库中词集合的适应性和正确性。
面向21世纪,情报学要取得突破,必须在微观上解决这样两个关键问题,一是知识信息的表达和组织必须从物理层次的文献单元向认识层次的知识单元或情报单元转换;二是知识信息的计量必须从语法层次向语义和语用层次发展[7]。通过本研究,虽不能从根本上解决上述问题,但因在相当程度上探讨了知识单元的离散分布问题,从而有助于人们进一步探索情报学奠基性的定律,促进情报学的深化和发展,同时为科学信息的管理和有效利用提供理论和方法。可以预见,当文献计量学从以文献为计量单元的离散分布研究过渡到情报计量学以知识单元为计量单元的研究时,布拉德福定律就告别了粗浅的经验定律时代,转而在知识单元这个更深的层次上成为情报学的奠基性定律,并在这个层次上发挥指导作用。
1)本文属国家自然科学基金项目:“科学信息离散分布的机理与模型研究”(批准号:79770067)的成果。
收稿日期:1998年11月17日