科学文献计量分析与文献关联性研究,本文主要内容关键词为:文献论文,关联性论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
目前对文献的计量研究多为对一种或几种期刊文献按时间顺序进行纵向研究,或对一组期刊文献进行横向比较研究。而对科学论文之间的关联性研究却不多见,本文试从文献计量角度对文献(指科学论文)的关联性进行粗浅探讨。
1科学文献的属性及构成格式
科学文献是科学知识的载体,是科研成果的主要表现形式。它以揭示科学研究新成果为主要目标,集中反映一定学科领域内最新的、最前沿的科学技术水平和发展动态。大量的科学研究表明,所有研究成果都离不开对前人或他人知识的积累和继承。由此可见,科学性、创新性、继承性是科学文献的基本属性。
随着文献标准化水平的提高,科学文献的编排有了较为固定的格式,一般由篇名、文摘、关键词、分类号、正文、参考文献等部分组成。这些项目为文献的计量研究奠定了良好的基础。大量的文献计量分析表明,文献的外部特征的某些联系必然反映出文献之间的某些内在联系。如著者之间的联系,反映出他们创作的科学论文有着共同的学科特征或主题内容特征,从而体现出学科研究队伍的结构和学科发展趋势。而篇名、摘要、关键词、正文、参考文献都能直接反映文献的研究内容和研究方向,对揭示文献的内部联系更为明显。其中关键词、分类号及参考文献具有可统计性,为我们对文献进行定量研究,揭示文献之间的关联性提供了广泛的内容和应用前景。
2科学文献之间的关联性
2.1从引文关系分析文献的关联性
在科学文献体系中,科学文献之间并不是孤立的,而是相互联系的。科学文献的关联性突出地表现在文献的相互引用方面。众所周知,在创作科学论文时,作者不可避免地要引用其他有关文献,以参考文献的形式列于正文之后。这样做一方面为论证自己的观点寻找依据;另一方面也说明作者讲究科学道德、尊重他人劳动。可见,科学文献的相互引用是科学发展规律的表现,也是科学活动中普遍存在的一种必然现象。正是这种相互引用现象将表面上看来没有什么关系的文献联系在一起,为我们分析文献之间的关联性提供了依据。
在科学文献相互引用过程中,人们经常可以看到这样的现象:不同的文献作者不约而同地引用某篇或某几篇完全相同的文献。美国学者开斯勒针对上述现象首次提出文献耦合。具体地说,如果A和B两文献共同引用了一篇或多篇相同的文章,或者说它们共同具有一篇或多篇同样的参考文献时,则称A和B两文献在引文上具有耦合关系。其耦合强度可用两文献共同引用的文献的数量来表示。若两文献共同引用了P篇文献,那么其耦合强度为P,P值越大,两文献的关联性越密切。
事实上,在文献引用过程中,常常还会遇到另一种情况:不约而同地引用一篇或多篇文献,并不限于两篇文献之间,而是在两篇文献以上。也就是说,多篇文献之间发生了耦合现象。其耦合范围,也称耦合幅度,可用发生耦合关系的文献篇数来表示。如果文献篇数为N(N≥2),N值越大,文献的耦合幅度越大,耦合范围也越广。
在实际工作中,我们可以找到若干组由耦合关系关联在一起的文献集合,它们既有耦合强度大的文献,也有耦合幅度广的文献。如果每组文献之间再有耦合现象发生,我们就可得到共有网络关系的更多的相关文献群。
同理,从引文关系还可以发现文献著者的关联现象。为此,我们将“文献耦合”概念予以推广,若两位或两位以上著者不约而同地引用同一著者或多位著者的文献,则这些著者之间发生了耦合关系。耦合强度也可以用P表示,耦合幅度用N(N≥2)表示,P值表示被引著者人数,N值表示引用文献著者人数。由此可以形成具有网络关系的相关著者群。
2.2从关键词关系分析文献的关联性
关键词是作者从篇名、摘要或正文中抽出的最能表现文献主题内容的词汇,也就是对揭示和描述文献主题内容来说最重要的那些词汇。通过关键词可以窥见文献内容概貌。文献统计分析表明,文献关键词的某些内在联系必然反映出文献及其著者之间的某些内在联系,这种联系为进行文献计量学研究提供了新的素材。
同引文关系类似,如果两篇或多篇文献具有一个或多个相同的关键词,则这两篇或多篇文献之间存在着类似引文耦合的一种潜在的联系,也可称作关键词耦合。在这种联系中,相同关键词的数量决定着文献关联的强度。如果两篇或多篇文献具有Q个相同关键词,那么它们之间的关联强度为Q,Q值越大,关联程度越强;如果将具有一个或多个相同关键词的文献篇数用M(M≥2)表示,则M值决定着文献关联的幅度,M值越大,相关联的文献范围越广。
关键词也同引文一样,能把表面上无任何关系的文献连结成具有网络关系的有机群体——关键词链引文献群。同理也能把互不相识的著者联结成关键词链引著者群。共用的关键词数越多,著者之间的关联程度越强。
必须指出,利用关键词对文献群或著者群开展研究时,由于关键词具有从属关系的特点,并对主题内容的直指性强,所以,选用的关键词涉及的专业范围越小,检索的相关文献的准确性越高,文献内容的专指性越强,著者之间研究的课题的共性越好。
2.3从学科分类关系分析文献的关联性
科学文献中给出的分类号从内容上规定了文献的学科性质,如果不同的文献具有相同的分类号,说明它们研究的是同一学科属性的课题,从而从学科分类的角度将相关的科学文献及其著者联系起来,形成学科属性相同的科学文献群和著者群。
由于分类法是根据学科的包容性采用层层展开的层累制来揭示学科之间的关系。因此,两篇或多篇科学文献具有的相同分类号的级次越高,或者说分类越细,它们之间的关联性也越强。其中,相同分类号的科学文献越多,它们的关联幅度越大。同时,分类号也能把文献著者密切地联系起来,形成研究方向具有相同学科特征的相关著者群。所以,分类号对科学文献及其著者进行相关研究也是很有实际意义的。
3文献关联性统计分析的应用
科学文献的引文、关键词、分类号的可统计性,揭示了文献及其著者的耦合关系,它好比一根根无形的“链索”,将主题内容相同或学科内容相同的文献联系起来,向我们提供了具有关联性的文献群和著者群。分析这些网络结构,对文献学、情报学、图书馆学、科学学等无疑具有一定的实用价值。
3.1相关文献群统计分析的应用
通过相关文献群分析学科之间的联系。相关文献群网络结构的结点多少和连结方式直接反映了文献所属学科关联的密切程度和从属关系,从而可以判断相关文献属同一学科、分支学科,还是交叉学科或边缘学科。
通过相关文献群评价科学期刊的学术质量。在一定学科或主题范围内,引文相关文献群体中包含某期刊的论文越多,说明某期刊的学术论文被其他相关文献引用的频次越高,从而在一定程度上证明期刊的学术质量也越高。进而可以引文相关论文群的计量分析作为评价指标之一,确定某学科的核心期刊。
通过相关文献群的综合分析,极大地提高了文献检索的查全率和查准率。引文耦合现象能够把科学论文按其引证关系组合为具有各种属性的相关群,从而提供了从文献使用的角度进行检索的可能性,在一定程度上弥补了传统文献检索方法之不足,扩大了检索范围。在实际检索工作中,若只从一种相关文献群进行检索,不难看出,文献关联幅度越大,查全率越高。关联强度越大,查准率越高。如能从引文相关、关键词相关、分类号等多种途径研究文献的关联性,同时把文献的关联性与关联程度有机地结合起来,将会极大地提高检索的查全率和查准率。其中重复次数较多的文献则可被确定为重要文献或核心文献,作为向读者提供的首选文献。
3.2相关著者群统计分析的应用
通过相关著者群分析学科研究热点及其发展趋势。著者是科学知识的创造者,是科学论文的一个重要特征。经验证明,科学活动、科学发展与文献著者有着十分密切的关系。若某主题著者群体人数众多,表示从事该主题研究人员较多,则可认定该主题为学科研究热点;若某学科著者群中人数众多且人均发文量明显高于其他学科,说明该学科易出成果而且成果累累,科学上称这种学科为当采学科;如果某学科著者群体平均年龄处于最佳年龄区并在最佳年龄峰值以下,则表明该学科的科研实力很强,发展潜力大,前景好;若著者的平均年龄在最佳年龄区以上,则表明学科著者年龄老化,科研实力较弱,发展潜力小,前景差。
通过相关著者群研究学科著者概况。学科著者群中,出现频次最多的著者可以认定为该学科的学术带头人,出现频次较多的著者则是该学科的核心著者。同时通过分析著者年龄,可以预测未来的学科带头人是谁;分析相关著者群的区域结构,可以判断某学科的活动中心在什么区域;分析相关著者群中的新老著者比例,可以判断该学科研究队伍的稳定状况等。
在情报检索中,相关著者群也是检索文献的有效途径。相关联的著者群往往是学科专业的同行,关联程度越高,著者之间的研究方向越接近。同相关文献群的统计分析应用一样,再把著者的关联性和关联程度有机地结合起来,将会从著者入手提高检索文献的查全率和查准率。
综上所述,文献的外部特征的可统计性为文献计量分析提供了广泛的内容和依据。而文献计量分析从文献外部特征入手,将许多表面上看来没有关系的文献联结成互为关联的文献群和著者群。分类号从学科属性的角度将文献和著者联系起来,关键词则主要从主题内容方面进行关联,引文既从学科属性又从主题内容予以揭示。但是,任何一种分析方法都不可能没有缺点,其精确性都会受到人为影响,因此,多方位进行统计分析,能使各种方法互为补充,可以将人为影响降到最低程度。