我国情报学研究分析:以ACA为方法,本文主要内容关键词为:情报学论文,我国论文,方法论文,ACA论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 关于ACA分析
在范式可视化的方法中,同被引分析法是研究科学共同体的结构的主流方法。ACA分析是其中的一种,其全称是作者同被引分析(Author Co-citation Analysis)。在此之前,有关学者已经开始运用文献同被引法(Documents Co-citation Analysis)来探讨科学文献的特征及分布规律等问题。这两种方法虽然选取的分析对象不同,但二者的前提是一致的:当两篇文献(或两位著者)同时被第三篇文献(或第三个著者)引用时,这两篇文献(或这两位著者)之间就存在同被引关系。如果文献(或著者)的同被引次数越高,则证明二者之间的相关度越高,“距离”就越近。利用现代的多元统计技术(如因子分析、聚类分析和多维尺度分析等),则可以按这种“距离”将一个学科内的重要文献(或著者)加以分类,从而鉴别学科内的科学共同体,使之可视化。在绘制的“知识地图”中,关系较为密切的文献(或著者)会较为集中,从而形成不同研究方向和研究领域内的文献(或著者)的聚类结果[1]。
1981年,美国学者White和Griffith运用ACA方法描述了情报科学结构,开启了ACA分析的先河,并在学术界引起广泛关注[2]。在此后的20多年中,一些学科的学者相继沿用这种方法对学科领域以及学科发展进行了探讨。例如,我国学者王崇德、佘珊选取JASIS(Journal of the American Society for Information Science)、JIS(Journal of Information Science)、Scientometrics三种样本期刊,统计了1989年至1990年发表的论文,进行了作者同被引聚类,与White1981年的结果进行了比较,发现情报学的作者人数有了增减,学科研究热点发生了转移[3]。2005年,学者刘林青以战略管理研究领域为例,应用著者同被引方法对该领域的学派进行了分析,所得出的结果与专家的观点相互印证[4]。
1990年,McCain将ACA的程序归整为选择作者、检索同被引频次、构成同被引矩阵、转化为皮尔逊相关系数矩阵、多元分析和解释结果等几个步骤,人们称其为传统ACA。在后来的发展中,学者们对传统ACA进行了修正和优化,其应用范围也开始扩展到主题检索领域[5]。
2 国外情报学学科结构
1981年,White和Griffith合作发表了《作者同被引:科学结构的文献测量方法》一文,文中选取39位情报学核心著者,以1972—1979年间的SSCI为数据来源,分析得出了情报学的5大分支:科学交流、文献计量、一般理论、情报检索以及由Zipf和Shannon组成的先驱者集团。在二维体系图中,文献计量位于中心位置,科学交流和情报检索分别位于其两侧;一般理论处于文献计量与情报检索之间;而体系图下方是先驱者集团[6]。
1998年,White和McCain沿用ACA方法,对1972—1979年,1980—1987年,1988—1995年期间情报科学以及图书馆自动化领域的12种期刊的120位高频被引作者进行统计分析,分别得出了三个时期的情报学领域著者分布图。虽然时段不同,但这三个图样呈现出一个共同的特征,即类似于澳大利亚版图:沿海地区发展迅速,而中部地区却人口稀少[7]。按照聚类分析,情报学学科主要分为文献与交流、情报检索这两大领域,分别位于分布图的左、右两边。具体来看,文献与交流领域中,引文分析处于上方,科学交流处于下方。在右边的情报检索领域中,实验型检索(experimental retrievalists)位居上方,而实践型检索(practical retrievalists)以及用户理论位于下方。两大领域的上端是较为分散的文献计量学,下端是一些为情报学所引入的外来学科①。
三个分布图所表现出来的共性说明情报学在整体上具有稳定性。与此同时,三个图形之间也存在着一些差异,这些差异在一定程度上反映出情报学结构的细微演变。在研究者的数量上,情报检索较文献与交流而言,占据着明显优势,但这种优势随着时间的推移在慢慢减小,表明两大领域的研究力量正逐渐趋于平衡。从领域内部来看,文献与交流最初主要侧重于文献计量研究,而后加入了引文分析。随着研究范围的扩展,“领域分析”(domain analysis)成为这个分支的新名称,它包含了比文献计量更为广阔的主题,例如科学与专业交流、科学社会学、知识社会学、学科间的交互影响等[8]。在情报检索聚类区域,著者可以分为两类,一类主要从事算法研究,称为情报检索的“硬”区域;另一类关注用户与系统之间的关系,称为情报检索的“软”区域[9]。20世纪80年代之后,认知观开始为越来越多的学者所倡导,面向用户、注重人机交互的情报检索成为情报学研究的主要课题,这一类的研究学者也随之增多。
虽然领域分析与情报检索各自都形成了较为集中的研究群落,但作为情报学的子领域,两者之间却相互隔离,缺乏交流。因为除了有少数的著者散布之外,这两大领域之间几乎是空白区。Saracevic曾经预言:当领域分析/文献计量与情报检索这两大领域能够互相连通之时,就是情报学羽翼丰满之日[10]。这也意味着待基础研究和实践应用有机结合的时候,情报学将成为一门成熟的学科。
3 我国情报学研究状况的ACA分析
目前,我国学者在对情报学研究状况的探讨当中,较多采用的是词频统计方法,对情报学文献的篇名或关键词进行统计分析,以揭示当前学科的研究现状、热点及趋势。本文所做的分析,沿用了传统ACA的方法,力求通过这样的尝试,从著者角度对国内情报学的学科结构以及研究现状进行揭示。
3.1 核心著者选择
核心著者的选择涉及到学科研究者的评价问题。洛特卡和普赖斯在研究科学家的生产率和活动规律的过程中,主要依据了论文作者的发文篇数。加菲尔德在对杰出科学家进行客观评价时,采用的是从SCI资料中选出被引次数较多的作者的方法。ACA中的核心著者选择是分析的难点所在,目前尚未有统一的方法[11]。
White和Griffith在1981年的研究中,以Griffith编著的《情报科学中的核心文献》(Key Papers in Information Science)一书作为主要参考,从中选取了22位该领域的核心著者,并增添了17位他们认为在情报学领域作出了突出贡献的学者,最终确定了39位核心著者作为同被引分析的对象。1998年,White和McCain在其研究中,首先选择《情报科学技术年评》(Annual Review of Information Science and Technology)、《信息处理与管理》(Information Processing & Management)、《情报科学协会会志》(Journal of the American Society for Information Science)、《文献杂志》(Journal of Documentation)、《情报科学》(Journal of Information Science)、《图书馆与情报科学研究》(以及《图书馆研究》)(Library & Information Science Research(and Library Research) )、《美国情报科学学会会议录》(以及学会年会辑录)(Proceedings of the American Society for Information Science( and Proceedings of the ASIS Annual Meeting) )、《科学计量学》(Scientometrics)、《电子图书馆》(Electronic Library)、《信息技术与图书馆》(以及《图书馆自动化》)(Information Technology and Library( and Journal of Library Automation) )、《图书馆资源与技术服务》(Library Resources & Technical Service)、《自动化图书馆与信息系统》(Program-Automated Library and Information Systems)这12种情报科学以及图书馆自动化领域的核心期刊,通过这些期刊中1972—1995年的著者被引统计,确定了120位高频被引著者。
我国学者在国内情报学核心著者评价方面也进行了一系列的研究。刘东维选择了我国情报学界较有影响的7种学术期刊(《科技情报工作》、《图书情报工作》、《情报科学》、《情报学刊》、《情报学报》、《情报杂志》、《情报业务研究》),根据各期刊自创刊以来至1985年底的发文篇数、被引证篇次数、平均被引率和基础文献发文数的综合评价指标,用定量化的方法确定了我国情报学研究领域的33位核心著者[12]。黄萍建、方太强和曾国秀通过《图书情报工作》1998—2002年发文篇数、被引篇次数和重要文献数的综合指标,统计得出我国图书情报学领域的78名学术带头人[13]。郦金花和苏新宁通过中国社会科学引文索引(CSSCI)1998—2002年间的图书馆学情报学论文的统计分析,分别得出该领域发文最多以及被引最多的前32位作者[14]。
国内的这些研究由于时间段和评价指标的差异,核心著者的结果也不同。本文则在这些结果的基础上,通过综合分析,确定出我国情报学领域的37位核心著者,以此作为ACA分析的对象。(如表1所示,按姓氏拼音排序)
注:姓名下标含义为:1-为文献12中确定的核心著者;2-为文献13中确定的学术带头人;3-1-为文献14中所确定的发文量最多的作者;3-2-为文献14中所确定的被引最多的作者。
从学科背景来看,由于图书馆学和情报学研究的相通性与交叉性,这些核心著者除了有情报学者外,还包括一些图书馆学者。从年代分布来看,有的属于情报学领域的早期带头人,有的是后起之秀,有的则是至今仍活跃在该领域的资深学者。
3.2 著者同被引次数矩阵
著者同被引次数的统计是ACA分析中的关键步骤。1981年的调查中,White和Griffith以SCI和SSCI为检索源,通过构建检索式在线获取核心著者的同被引次数。1998年,由于数据较多,White和McCain应用了宏语言和程序指令,对著者同被引次数进行检索统计和整理。
本文选择中国学术期刊全文数据库(CNKI)作为统计源②,利用该数据库系统引文检索中的著者同被引检索功能,在线检索出37位核心著者的同被引次数,共有(37×36)/2=666组不同的数据。具体方法是:在检索路径中选择“引文”字段,在检索词中分别输入任意两位著者的姓名,二者为逻辑“与”关系,而后得出两位著者的同被引次数以及同被引的文献列表。检索年限选择系统的默认值,为1994—2005年。检索学科范围为全部,而不仅仅局限于情报学③。由于笔者检索时间为2005年11月份,且数据库具有一定的滞后性,因而2005年的数据为不完全统计。
在同被引次数的统计的基础上,可形成著者同被引次数矩阵。该矩阵为对称矩阵,非主对角线中单元格的值为著者同被引次数,主对角线的数据定义为缺失值。矩阵中去掉了同被引次数为0的著者,剩下36位著者(见表2),各自的平均同被引次数如表3所示。
表3 核心著者平均同被引次数
姓 名平均同被引次数 姓 名平均同被引次数 姓 名平均同被引次数
陈光祚
9.94 卢泰宏
17.44徐引篪
19.28
初景利
5.00 马费成
26.25严怡民
21.06
董晓英
7.92 马海群
10.17杨沛霆1.28
樊松林
1.92 孟广均
19.17杨廷郊0.94
郭 俊
1.78 倪 波
12.92岳剑波
13.14
胡昌平 14.17 秦铁辉2.64曾民族7.50
霍国庆 28.31 邱均平
29.94张保明2.11
江乃武
1.33 汪冰14.03张琪玉5.50
赖茂生
8.25 王崇德
19.25张晓林
12.14
冷伏海
1.36 王知津
12.19周庆山6.78
李 毅
0.83 乌家培
11.08周智佑2.47
刘植惠
6.72 肖自力2.58邹志仁7.11
3.3 分析方法与步骤
在ACA分析中,SPSS软件可作为统计分析的工具。首先,利用SPSS中的相关分析,将著者同被引次数矩阵转化为泊松相关矩阵(Pearson r correlations),由此能够消除由著者被引次数差异所带来的影响。经过转换的相关矩阵将作为后面聚类分析(Cluster Analysis)以及多维尺度分析(MDSCAL,Multi-dimension Analysis)的对象。
运用多维分析能够在二维空间中直观反映我国情报学学术团体的位置、学者组成以及学者之间的相似程度。但学术团体的数目和边界的确定需要借助因子分析和聚类分析的结果[15]。本文中,因子分析采用主成分方法(Principal components)和方差极大正交旋转(Varimax rotation)。聚类分析采用系统聚类(Hierarchical Cluster),选择离差平方和法(Ward' s method)与欧氏距离平方法(Squared Euclidean distance)。二维体系图由多维尺度分析(ALSCAL)生成。
3.4 数据结果
3.4.1 聚类分析
聚类分析的结果如图1所示,结合因子分析和本身聚类的效果,可分为六类。接下来所进行的多维尺度分析将以此作为参考。
3.4.2 多维尺度分析
图2为多维尺度分析的结果,其中Stress值等于0.15760,RSQ等于0.88719,说明模型的拟合效果较好。参照聚类分析结果,可将国内情报学研究划分为五个领域④:早期研究者,情报学理论,情报检索,图书馆学研究,文献资源建设。
(1)早期研究者。这些著者基本上出自文献12中所确定的国内情报学核心著者,20世纪80年代较为活跃。这个分支类似于1981年White和Griffith研究中的先驱者集团。
(2)情报学理论。这个领域研究者数量最多,研究者之间的关系也较为密切。具体研究内容包括情报学学科基本理论、学科发展、信息用户与服务、信息经济学、竞争情报、信息资源管理等。
(3)情报检索。这是情报学中最具特色的领域之一,在国外情报学学科结构中占据了主导地位。但国内这一领域的研究者数量较少,尚未形成较为成熟的学术集团。从研究内容上看,学者江乃武所从事的主要是期刊研究,但聚类、多维尺度以及因子分析的结果都显示其属于情报检索领域。具体的原因还需进一步分析。
(4)图书馆学研究。情报学与图书馆学有着深厚的渊源,两个学科的研究互有交叉,学者也多有交流。在二维体系图中,这一团体规模不大,四位学者都来自中科院文献情报中心,但与其他领域集团分割明显,自成一体。
(5)文献资源管理。这个区域是情报学与图书馆学的交叉领域,将情报学的理论、技术等运用到图书馆的文献信息资源的建设、管理和利用当中,探讨信息服务、知识服务的机制和模式。
图2中的横向维度可视为学科维度。坐标线以左,表示图书馆学的理论和方法,坐标线以右,表示情报学的理论和方法。但坐标线本身并不作为严格的分界线,我们可以理解为:从左向右是学科属性由图书馆学向情报学的逐渐过渡。
3.4.3 因子分析
通过因子分析,著者同被引矩阵的因子数削减为10个,能够解释全部信息的85.114%。其中,仅第一、第二个因子解释的信息量就达50.794%,说明这两个学术团体是国内情报学研究的主导力量(见表4)。表5显示了因子负载大于0.4的著者分类情况。无论是在规模还是研究实力上,各学术团体中的研究者呈明显的梯形递减分布。
注:按照严格要求,负载临界值应为0.5。由于负载临界值越高,所确定的分类结构越简单。根据本文的实际数据,这里将负载临界值定为0.4,以达到较好反映出学术团体组成结构的目的。
与聚类和二维体系相比,因子分析所提供的分类更为细致。一些学者在不同学术集团中的迁移,可以通过因子负载值加以进一步分析。
(1)三位著者同时在第一、第二个因子出现,且因子负载在0.4至0.6之间,体现出这两个因子之间的相关度。在二维体系图中,这两类合并为一类。由聚类分析也可以看出这种趋势。
(2)第一、第四以及第六个因子之间的著者有交叉,经过迁移和整合之后,在二维体系图中仍表现为三个类别。这也可以进一步说明文献资源管理领域的跨学科性,它在图书馆学和情报学之间起到了连接的作用。
(3)聚类分析的第④类集团中的四位著者,在因子分析中作为第三个因子被抽取列出,其各自的因子负载值均大于0.6。除此之外,马海群在第一个因子上的负载值为0.326,冷伏海在第八个因子上的负载值为0.360,王崇德在第二个因子上的负载值为0.428,李毅在第九个因子上的负载值为0.373,说明他们与这几个领域也有所关联。在二维体系图里的反映即是这四位著者分别合并到了这几个类别当中。
(4)从因子分析来看,情报检索集团中曾民族和陈光祚这两位著者的因子负载最大值并不出现在该领域。曾民族的因子负载最大值为0.516,出现在第一个因子中;陈光祚的因子负载最大值为0.531,出现在第七个因子,次高值为0.307,位于第二个因子。通过多维尺度分析,可以看出他们的位置也较为靠近情报学理论集团。与实践型研究相比较,两位学者更侧重于情报检索理论和方法的探讨。
4 讨论与说明
借助ACA分析手段,我们可以对国内情报学的研究作进一步的探讨。
第一,学科研究力量不均衡。多维尺度和因子分析都显示,我国情报学的研究,情报学理论占据了绝对的主导,但与相邻学术集团的边界不够清晰。文献6显示,国外情报学的7个分支研究实力都较为均衡。而我国的学术集团实力则呈梯形递减分布。
第二,具有特色的学术流派尚未形成。在国外,情报学学科划分为文献与交流、情报检索两大领域。与此相比,我国的情报检索分支虽然有所显现,但集团规模较小,成熟度也不高。而作为主导的情报学理论则显得包容性太强,研究内容繁多,不够具体和细化,从而导致学术流派不明显。可以预测,随着国内情报学学科的发展,一些流派和分支将会从目前的情报学理论中分化出来,并逐渐形成自身的明朗化特色。这也是学科成熟的表现之一。
第三,学者的研究领域较为宽泛。在二维体系图中,很容易找出处于中心位置,以及周围区域的学者。通过因子分析,我们发现,各领域带头学者的因子负载基本上在0.7以上,这些著者的研究领域较为专一,集团归属较为明确。除此之外,相当一部分的著者则是横跨两个或者更多的领域,其因子负载值较为平均。如果将负载临界值取为0.3,则可以看出更为明显的分散现象。
本文所选取的是1994—2005年的数据,由于引文具有一定的滞后性,因而该研究所反映的主要是20世纪90年代至21世纪初我国情报学的研究状况,对于当前学科的研究现状和最新动态未能作出及时的反映。在本文所考察的这个时期,我国情报学经历了更名风潮,受到了新兴技术的冲击,并曾一度陷入研究的低谷。这些都应作为进一步分析该时间段学科研究的背景。
需要说明的是,从核心著者的选择,到同被引次数的统计,都是建立在引文分析的基础之上。由于我国学术论文引文著录的不规范,以及数据库完备性等问题,在分析结果中仍然存在一些偏差和无法作出满意解释的地方。通过ACA这种研究思路和分析手段,我们所得到的只是一种描述性的解说,而并非推论性的结论。我们在这里所做的也仅仅是一个尝试。未来的研究将会随着数据的积累和完善,学科自身的成熟,以及ACA方法的改进,得到更深的拓展。
注释:
①在1981年和1998年的研究中,二维体系图所表现出的1972—1979年这一时期的情报学学科结构有所差异。前者分为5个分支,而后者分为两大领域。笔者认为,其原因与两次ACA分析的选样有关。1981年的ACA分析,选取的是39位核心著者,同被引数据来源为SCI和SSCI。1998年的ACA分析,选取了120位核心著者,分析的原始数据来源于ARIST、JASIS等12种图书情报领域的核心期刊。两次所选取的核心著者以及所统计的数据源有所不同,因而所得出的结论也产生了一定的差异。但两次的体系图中,都反映出文献与科学交流、情报检索这两个领域,所以在大致的学科结构上二者还是取得了相一致的结论。
②国内数据库中具有引文检索功能的包括中国学术期刊全文数据库(CNKI)、中国科学引文数据库(CSCD)、中国社会科学引文数据库(CSSCI)、中国科技论文引文分析数据库(CSTPC)等。其中,CNKI的收录年限为1994—2005年,且具备著者同被引检索功能;CSSCI中的文献收录时间为1998—2004年,不具备著者同被引检索功能;CSCD收录年限为1989—2004年,经过试验发现检索结果不是很理想;CSTPC的收录范围是自然科学领域的专业。经过比较,故选择CNKI作为统计源。
③之所以选择所有学科,主要出于以下两点考虑:第一、作为一门交叉性的综合学科,情报学的研究成果也会分布在其他的一些学科领域,学科范围全选可以提高查全率;第二,单个著者姓名具有一定的专指性,同被引的著者对检索的专指度则更高,因而在学科检索范围的扩大的条件下,查准率可以得以保证。
④聚类分析所显示的第④类集团,在因子分析中,被作为第三个因子抽取列出;在多维尺度分析图中,该类中的著者分别合并到了其他的类别当中。