基于CSSCI的论文同被引实证计量研究——以图书馆学、情报学为例,本文主要内容关键词为:情报学论文,图书馆学论文,实证论文,为例论文,论文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 同被引概述
1.1 同被引的概念和特点
“同被引”(Co-Citation)这个术语最早是在1973年由美国情报学家Henry Small和苏联女情报学家I.V.Marshakova分别在研究引证结构和文献分类时提出。所谓同被引,又称为同引、共引,是指两篇或两篇以上的文献同时被别的文献引用的现象,并以引用它们的文献数量作为测度,称为同被引频率(Cocitation Frequency)或同被引强度(Cocitation Strength)。同被引强度越大,表明它们之间的关系就密切。以前同被引主要是指论文间的同被引,现在已经将这个概念普泛化,包括论文同被引、著者同被引、学科(或专业)同被引和期刊同被引等四种。作为现代引证分析中常使用的技术方法之一,它有着独特的特点,归纳如下:①动态性:同被引反映的是研究对象之间变化的和短暂的关系,随着时间的变化而变化。②前瞻性和新颖性:两个研究对象要建立同被引关系必须是比它们后发表的论文等引用了它们的成果,两个研究对象的同被引关系是由比它们新的知识内容决定的。③网状非线性:研究对象之间关系是立体的,相互之间都有可能发生同被引关系,不能理解为线性模式,只有通过数据转化才可以达到线性。
1.2 同被引分析的功能
同被引分析是一种重要的信息计量方法,是信息检索的一种重要的方法和突破点,它通过统计两两分析对象之间的同被引强度,来分析对象之间错综复杂的关系以及它们所代表学科专业的结构和特点。在1974年Henry Small提出同被引分析希望回答四个问题,即:科学的自然结构是什么;这些结构单位相互关系如何;这种关系由何种力量造成;科学结构怎样随时间变化。所以同被引分析通过统计研究对象之间形成的相对位置信息和相互关系的亲疏程度,并对这些信息用学科专业知识加以解释和分析判断,可以研究对象的规律,预测其发展趋势,为信息分析、管理、预测提供科学的依据。
1.3 论文同被引分析的步骤和方法
(1)确定分析对象的范围。过大的目标使数据过于分散,给数据分析解释带来很大的困难;过小的目标又不能够完整地解释一个对象的属性。
(2)数据收集和合理格式存储。由于现在数据库中的数据很庞大,要是用手工统计的话简直犹如登天,即使可以用计算机辅助处理,也要注意其规范的存储格式,规范的格式对于数据的进一步分析有着重要的基础性作用。在实践中我们认为表1的格式是比较合适的。
表1 数据存储格式
来源文献ID来源文献来源文献作者参考文献ID参考文献参考文献作者
来源文献ID和参考文献ID都是唯一确定各自的文献,其他的指标都是为了更好地观察数据而设定的,也是在最后结果解释中不可或缺的。
(3)构建同被引矩阵。对原始数据处理之后,我们就要进行非常关键的一步,即构建同被引矩阵。首先确定分析对象之间的同被引强度。其大致步骤如下:①找出引用了分析对象I的论文集合DB[,I]。②找出引用了分析对象j的论文集合DB[,j]。③比较DB[,I]和DB[,j]中的论文,相同的文献数目即为分析对象的I和j的同被引强度。然后按照如表2的格式构建整体的同被引矩阵。
表2 同被引矩阵
分析对象1 2 3 …N
1
X[,11]X[,12]X[,13]
…X[,1n]
2
X[,21]X[,22]X[,23]
…X[,2n]
3
X[,31]X[,32]X[,33]
…X[,3n]
::
N
X[,n1]X[,n2]X[,n3]
…X[,nn]
(4)数据的缩减以及标准化。对于同被引数据往往要进行缩减,这是因为有些数据对于目的的意义不大。比如一行(列)中两两关系数目过少,就要考虑把它们删除,这样得到的数据最稳定。至于删除数据的标准要根据学科特征进行,设定一定的阈值,然后把低于阈值的全部删除。至于标准化的方法很多,如除以最大值法、极差标准化等,其目的是为了使计量的标准一致并使一些很突兀的数据扁平化,削弱它们的影响。
(5)数据的综合分析。在论文引文分析中使用最多的是聚类分析和多维尺度分析。关于它们具体的算法在数学和统计学相关书籍中都有。我们这里主要是分析它们的原理以及在应用它们时应注意的一些细节。聚类分析是根据研究对象(可以是样本,也可以是变量)的特征,对它们进行定量分类的一种多元统计方法。其基本思想是:同一类中的个体有较大的相似性,不同类中的个体差异很大,于是根据多个观测指标,找出能够度量样本(变量)之间相似度的统计量,并以此为依据,采用各种聚类算法,将所有的样本(变量)分别聚合到不同的类中。在论文同被引中,我们选择Pearson相关法这一算法。多维尺度分析的原理是:通过某种非线性变换,把高维空间的几何图形转化成低维空间的图形,变化后的图形仍能近似地保持原图形的集合关系的一种技术。这些点所在的空间是欧几里德空间,可以是二维、三维或多维。在论文同被引中,我们采用非计量多维尺度分析(Nonumetric MDS)法。
(6)结果分析。对于聚类和多维尺度分析可以从以下几个方面解释:①聚成的类表示一个关系密切的群体,它们在内容和主题上有着一致性。②类的大小直接反映这个主题的集中程度和学者对它们的关注程度,一般来说,理论性强、研究方向指导性的以及较受重视的研究领域会形成较大的类。③分析类群之间相互的距离,反映各自主题的相关程度,距离越大,说明它们研究的主题越独立。④对于对象群中心的分析对象与该类群中的许多对象相关系,是该专业学科中涉及面最广的,质量较高的。越在边缘的越说明其研究主题的狭小,或者正在过渡到其他主题。⑤位置接近但是没有分到同一类群中的分析对象有着重要的研究意义,可以解释两分析对象是怎样相关的,影响它们关系的因素有哪些等。
2 以图书馆学、情报学为例的实证研究
2.1 选定研究论文并建立同被引矩阵
我们统计了17种图书馆学、情报学期刊2003年刊载的共16800篇参考文献,从中选出被引次数高于8的57篇论文(排除了著作),从而构成57×57的矩阵,然后删去矩阵中每行(列)非零项少于8的行(列)所对应的论文,最后剩余19篇参考文献,构成19×19的同被引矩阵。这19篇论文以及它们的同被引矩阵片断分布如表3、表4(见下页)所示。
表3 分析对象——19篇文章
1
肖明 国内外数字图书馆研究现状及未来走向
2
张晓林
基于Web的个性化信息服务机制
3
蒋永福
客观知识与图书馆——从客观知识角度理解的图书馆学
4
张福学
论混合式图书馆
5
赵继海
论数字图书馆个性化定制服务
6
黄宗忠
论图书馆的新模式——复合图书馆
7
蒋永福
论知识组织方法
8
谭祥金
面对数字图书馆浪潮的思考
9
张晓林
数字化参考咨询服务
10 林海青
数字化图书馆的元数据体系
11 曾蕾 数字图书馆:路在何方?--关于数字图书馆的定义、结构及实际项目的分析
12 赵慧勤
数字图书馆的信息组织
13 赵继海
数字图书馆的用户管理与服务
14 党跃臣
数字图书馆信息资源建设中的版权问题
15 马文峰
数字资源整合研究
16 蒋永福
图书馆与知识组织——从知识组织的角度理解图书馆学
17 王子舟
知识集合初论——对图书馆学研究对象的探索
18 吴建中
中国图书馆发展中的十个热点问题
19 张晓林
走向知识服务:寻找新世纪图书情报工作的生长点
表4 同被引矩阵片断
论文号 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11
A12
A13
A1 8
0
0
0
1
1
0
1
0
11 1 1
A2 0
11 0
0
3
0
1
0
0
00 0 1
A3 0
0
8
0
0
0
3
0
0
10 1 0
A4 0
0
0
12 0
3
0
1
0
10 0 0
A5 1
3
0
0
15 0
2
1
0
11 1 4
A6 1
0
0
3
0
11 0
1
0
00 0 0
A7 0
1
3
0
2
0
12 0
0
40 3 0
A8 1
0
0
1
1
1
0
9
0
11 1 2
2.2 聚类分析和多维尺度分析
我们在进行聚类分析和多维尺度分析时,都将数据采用0—1极差标准化方法对变量进行标准化处理,以使数据更稳定,结果更容易解释。聚类结果如图1所示,多维尺度分析如图2所示(均见下页)。
附图
图1 聚类图
附图
图2 多维尺度图
2.3 结果解释
(1)我们从聚类图1出发可以把2003的热点归结为“数字图书馆的建设和发展”,但学者们又从不同的角度进行了研究:图书馆的新模式构想(A4,A6);数字图书馆的信息组织和知识组织方式(A3,A7,A10,A12,A16,A17);数字图书馆建设的发展方向(A1,A8,A11,A14,A15);有关数字图书信息服务方面的(A2,A5,A13);还有比较综合的研究(A9,A18,A19)。
(2)从多维尺度图2看,它的划分更加精细,但是其大体方向和聚类图是一致的。唯一需要注意的是“数字图书馆的信息组织和知识组织方式”的6篇论文分散到两个象限,我们可以从中分析出,它们虽然属于一类,但是其各自研究的方向又有所不同,图2将它们更加细分化。比如A10,A12它们离的最近,我们结合表3可以看出,它们都是研究元数据的。A3,A17离的最近,它们是从知识组织和集合的角度来研究数字图书馆。
(3)从图2的点群来看,左上角象限中汇集了最多的点,由此我们可以看出这方面的研究多,受众多学者重视和关注。这一研究方向可以概括为“数字图书馆的发展策略及服务”。但是我们也看出在聚类图1中本划分在一起的A3,A17,A7,A12等在图2中却分散在不同的象限且难以构成散点群,这说明相对其他主题,学者们在信息组织方面研究比较热,但是研究的方向不是很集中,每个不同的方向研究又比较薄弱,还没有形成一个很完善的研究体系,值得引起大家的关注,因为在信息组织方面我们有着很大的优势,需要继续加强。
(4)从图2可以看出,A1和A8,A11,A14,A15五点重合,说明它们关系极为密切,都是关于数字图书馆建设的发展方向和策略。这样的论文在信息检索中要加以注意,对于优化信息检索有重要的意义。
(5)从图2我们发现A18是一个非常特殊的点。它离中心(0,0)非常近。说明它是2003年学者们最关注的问题,对于整个学术活动的发展起着重要的理论指导。我们从表3可以看出,这篇论文是“中国图书馆发展中的十个热点问题”,说明学者们都在努力把握新的学术动态,以求学术创新和突破。
(6)虽然我们从图2中看出四个象限中几乎每个群都没有重合,但结合图1和表3,就可以发现它们虽然分散,但是这种分散只是在一个大主题下的细分,并不是各个主题的分散。我们不能够从图2得出图书情报是一个较分散的学科,反而将图1和表3综合来看,它是一个较集中的学科。