基于中文社会科学引文索引的中国情报学知识图谱分析,本文主要内容关键词为:情报学论文,引文论文,图谱论文,中文论文,中国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2012.05.002
1 引言
情报学是20世纪40年代中期为克服大科学时代的情报危机而发展起来的新兴学科,其基本目标和任务是提供知识信息组织的理论方法,并将知识和信息组织有序化,以用户认为方便的形式提供有效利用[1]。发源于图书馆学和文献学的情报学是研究有效地运用信息、知识和情报的规律性的一门科学[2]。通过对学科的回顾与展望,以及对研究前沿、热点的追踪,不仅有利于深入揭示学科发展的轨迹、特征和规律,还有助于学者更好地把握本学科的研究动态和发展趋势[3]。近年来国际上新兴的科学知识图谱研究是以科学学为研究范式,以引文分析方法和信息可视化技术为基础,涉及数学、信息科学、认知科学和计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展[4]。本文利用可视化技术对中国情报学近十年中文社会科学引文索引来源文献进行分析,以期对中国情报学的发展脉络和演化进程有一个较为整体、全面的认识和把握。
2 数据来源与研究工具
中文社会科学引文索引(以下简称CSSCI)的来源期刊具有权威性和代表性[5]。本研究数据来源于CSSCI,检索表达式:LY01,LY02,LY03,LY04,LY05,LY06,LY07,LY08,LY09,LY10,:XK=图书馆、情报与文献学^XW=120502$,文献检索所选数据库为2001-2010年来源数据库,学科类别选择图书馆、情报与文献学,命中8290篇文献,检索时间为2011年6月26日。
本文采用的研究工具是用来分析和可视共引网络的信息可视化软件CiteSpace。CiteSpace可用于探测和分析学科研究前沿的变化趋势,为知识领域动态演进的可视化研究提供了新的平台,它能够在绘制的知识图谱上显示一个学科在一定时期中形成若干研究前沿领域的演进历程[6]。CiteSpace最新版本CiteSpaceⅡ的下载地址为http://cluster.ischool.drexel.edu/~cchen/citespace/current/citespace.jnlp[7]。
3 中国情报学的研究主体分析
在CiteSpaceⅡ软件界面,将时区跨度分割设为2001-2010年,单个时间分区为1年,主题聚类词来源为标题、摘要、系索词与标识符,阈值选择各时区前30个高被引或高频现节点,选择最小生成树算法和路径网络简化算法,可视图显示为静态聚类视图和合并网络视图。最小生成树是指所有生成树中,根据各节点之间的距离建立不同的连通网络,最后选择的总线路距离最短的连通网络,Samoylenko等用最小生成树算法对1994-2001年度SCI期刊之间的引用数据进行分析,成功绘制了基于最小生成树的期刊引用关系知识图谱[8]。路径网络简化是依据一个三角不等式检验以决定是保留还是删除某个连接,其标准是一个单连接路径的长度不能超过其他多个连接的路径长度[9]。
3.1 合著者网络分析
按上面设置的参数,并选择网络节点类型为作者,进行合著者网络分析,合著者知识图谱反映作者间的合作情况,见图1。
图1 中国情报学合著者共现知识图谱
图1显示出几个比较大的作者聚类群,如分别以邱均平、王知津、张玉峰、郑彦宁、包昌火、张晓林、彭靖里为中心的作者群。图中节点大小同发文频次成正比,节点年环代表这位作者的发文历史,一个节点年轮的厚度与某个时间分区内发文数量成正比,从CSSCI来源文献看,我国情报学近十年发文频次较高的前26位作者有邱均平、王知津、张玉峰、赖茂生、苏新宁、冷伏海、朱庆华、马海群、周九常、夏立新、韩毅、毕强、文庭孝、郑彦宁、侯汉清、陈峰、靖继鹏、陈文勇、梁战平、彭靖里、吴晓伟、陆伟、焦玉英、庞景安、甘利人、周宁;图中的红色点代表近十年CSSCI来源文献发文突增率较高的作者,突增率前15位作者有张晓林、陈文勇、程刚、张新民、耿骞、赵星、郑彦宁、赵筱媛、徐仕敏、邹志仁、张志强、李江、王建冬、樊松林、成波。
3.2 被引作者网络分析
按上面设置的参数,选择网络节点类型为被引作者,进行被引作者网络分析,被引作者知识图谱反映出作者被引频次的情况,见图2。
图2 中国情报学领域被引作者知识图谱
作者被引突显率是反映被引频次增长快慢的指标,作者被引突显率越高表明其被引频次增长越快。图2中红色节点是指突显率较高的节点,从CSSCI来源文献看,近十年中国情报学领域作者被引突显率较高的作者有孟广均、邹志仁、陈光祚、霍国庆、张琪玉、贺德方、乌家培、卢泰宏、严怡民、刘军,突显率分别是13.78、12.82、12.03、10.71、10.53、9.59、9.47、9.22、8.84、8.17,他们是近十年作者被引频次增长较快的作者。从图2、表1中可以看出,基于CSSCI来源文献,近十年中国情报学领域作者被引频次高于73次有的26位作者,他们在中国情报学领域具有重要的地位。邱均平和刘植惠的中心性分别是0.15和0.10,是中心性最高的两位作者,在图中以中心为五角星的紫色节点显示,另外中心性较高的作者还有马费成、王知津、严怡民、庞景安、王崇德、吴慰慈、孟广均、沈固朝、邹志仁、包昌火、梁战平、马海群,中心性分别是0.09、0.09、0.08、0.08、0.07、0.05、0.04、0.04、0.04、0.03、0.03、0.03,他们基本上也都是高被引作者,见表1。
3.3 研究机构网络分析
按上面设置的参数,选择网络节点类型为研究机构,运行CiteSpace进行作者研究机构网络分析,可将近十年中国情报学CSSCI来源文献体现的主要研究机构共现情况显示出来,见图3。
图3 中国情报学主要研究机构共现知识图谱
图3中每一个节点代表一个研究机构,节点越大,代表该研究机构发文频次越高。从CSSCI来源文献来看,近十年我国情报学的主要研究机构有武汉大学信息管理学院(以及武汉大学信息资源研究中心)、南京大学信息管理系、中国科学技术信息研究所、北京大学信息管理系、中国科学院文献情报中心、吉林大学管理学院、华中师范大学信息管理系等。机构突显率是反映机构发文量增长快慢的指标,机构突显率越高表明其发文量增长越快,在图3中以红色突显点的形式出现。机构突显率较高的前三位有中国科学院国家科学图书馆、南开大学国际商学院、中山大学信息管理系,机构突显率分别是17.41、17.09、16.67。
4 中国情报学研究的知识基础分析
知识基础是一个有利于进一步指明研究前沿本质的概念,它可由共引聚类来表示,随着不断降低共引聚类阈值,共引聚类中的文章会不断增多,从而相应的知识基础也逐渐增大,并且知识基础在相当长的一段时间内会保持非常稳定[10]。通过绘制文献共被引网络知识图谱,对被引文献进行时间、被引频次和中心性的相关分析,可分别发现早期奠基性文献、高频被引文献、高中心性文献,这三类文献是情报学的知识基础,构建中国情报学的研究脉络和研究基础。
4.1 早期经典文献
设置时区分割为2001-2010年,单个时间分区为1年;主题聚类词来源选择为标题、摘要、系索词与标识符,网络节点类型选择被引参考文献,设定调整聚类节点与研究等关系连线的阈值调谐(C,CC,CCV)前中后阈值均为(4,4,30),其中C为文献被引频次,CC为两篇文献的共引频次,CCV为文献的共引系数,选择路径搜索算法和路径网络简化算法。探索关键路径的路径算法最初应用于作者共引分析,后被应用于一般的网络共引分析,它用一种较最小生成树算法更复杂的连接删除算法,经过模型运算剪切网络中大部分连接,只保留最重要连接,同时所有节点保持不动,最大限度地简化网络,得到一个最小值网络[11~13]。按上述参数运行CiteSpace,再选择时间线视图,绘制早期奠基性文献时间序列知识图谱,见图4。图中每个节点代表一篇文献,节点越大,表示该文献被引频次越高,每个节点圆圈显示的不同颜色年环表明该节点文献在不同年份的引文时间序列,节点颜色年环的厚度与相应年份的引文数量成正比。
图4 对中国情报学有重大影响的早期经典奠基性文献时间序列知识图谱
文献时间序列知识图谱中,越靠近左边的节点出现时间越早,图4显示,第一篇对中国情报学有重大影响的奠基性文献是Mark S.Granovetter 1973年在American Journal of Sociology上发表的Strength of Weak Ties,该文提出了关系强度理论[14]。包昌火2003年在《情报学报》发表的《人际网络分析》和华夏出版社出版的《竞争对手分析》与其联系紧密。第二篇对中国情报学有重大影响的奠基性文献是严怡民1983年出版的《情报学概论》,这是我国第一部情报学专著[15]。该文献与张新华1992年的《情报学理论流派研究纲要》,严怡民1996年的《现代情报学理论》和马费成1996年在《情报学报》发表的《情报学的进展与深化》有紧密联系,对中国情报学的学科发展和理论建设具有重大作用。第三篇对中国情报学有重大影响的奠基性文献是Don R.Swanson 1986年在Library Quarterly上发表的Undiscovered Public Knowledge,此文为非相关文献分析研究奠定了基础[16]。第四篇对中国情报学有重大影响的奠基性文献是邱均平1988年出版的《文献计量学》,全书阐述了文献计量学的基本定律、理论基础及主要的定量分析方法[17]。第五篇对中国情报学有重大影响的奠基性文献是1990年Wesley M.Cohen在Administrative Science Quarterly发表的Absorptive Capacity:A New Perspective on Learning and Innovation,该文为知识管理研究提供了理论支持[18]。第六篇对中国情报学有重大影响的奠基性文献是康耀红1990年出版的《现代情报检索理论》,该文献为我国信息检索理论发展做出了重要贡献[19]。第七篇对中国情报学有重大影响的奠基性文献是包昌火1990年出版的《情报研究方法论》,该书为情报研究方法论的发展做出了重要贡献,是中国情报学方法研究的奠基文献[20]。文献被引半衰期是衡量文献老化速度的指标,文献被引半衰期越长,其老化速度越慢,文献影响力更深远,同一文献被引半衰期在不同年度是不同的,通常取其平均值[21]。这七篇早期奠基性文献的文献被引半衰期都较长,分别是33、18、23、13、17、14、16,进一步证明这七篇文献对我国情报学相应研究领域起着重要的奠基性作用。
4.2 高被引文献
调整(C,CC,CCV)前中后的阈值均为(3,3,30),选择最小生成树算法,生成cluster view视图,在图谱可视化窗格中将节点标签选择为按被引频次显示,见图5。在图5中,标号为1、4、9和13的文献推动了中国情报学的理论研究和学科发展;标号为2、5、8和11的文献是我国文献计量学和信息计量学领域重要的基础性文献,为中国“三计学”的发展打下坚实基础;标号为3、6、10和15的文献是中国情报学竞争情报领域的重要文献,为竞争情报在中国的发展做出了重要贡献;标号为7和18的文献是有关社会网络分析的重要文献;标号为16和17的文献是知识服务方面的重要文献;标号为12和14的文献分别是情报检索和信息资源管理研究领域的重要文献。
4.3 高中心性文献
节点中心性是用来进行网络节点中心性测度的指标,它指网络中经过某点并连接两点的最短路径占这两点之间的最短路径线总数之比。在图谱中,可很容易看到具有较高中间中心性的节点。中心性测量为发现学科演进网络中的支点提供了依据[22]。在CiteSpace中,中心性高的关键点(Centrality>=0.1)通过计算后在图谱中以紫色显示。在图谱可视化窗格中,将4.2生成的知识图谱(图5)的节点标签选择为按中心性显示,见图6。
图5 中国情报学高被引文献知识图谱
图6 中国情报学高中心性被引关键节点文献知识图谱
从图6可知,中国情报学高中心性节点有10个,并分别连接着不同的研究网络群体。中心性第一的是2001年邱均平在《情报理论与实践》发表的《网络信息计量学及其应用研究》,中心性为0.25。这是中国网络信息计量学研究领域的关键文献,为国内该领域的研究指明了方向[23]。排在第二的是1992年张新华出版的《情报学理论流派研究纲要》,中心性为0.19。该书为我国情报学理论研究领域的关键文献[24]。排在第三的是2006年邱均平在《情报学报》发表的《搜索引擎用于测定网络影响因子时的一致性比较及原因分析》,中心性为0.18,这是国内有关网络影响因子测度方面的关键文献。该文用熵值法和非参数假设检验法比较测定Google、Alltheweb及Altavista检索结果的一致性,并提出适用测定网络影响因子的搜索引擎应满足的条件[25]。排在第四的是2000年赖茂生在《图书情报知识》上发表的《情报学的发展观》,中心性为0.18。这篇文章对中国情报学的学科建设及其发展起着关键作用。该文分析了情报学的诞生背景,探讨了情报学的内容结构,论述了情报学与相关学科的关系及其发展前景[26]。排在第五的是2000年邱均平在《图书情报工作》发表的《论知识管理与竞争情报》,中心性为0.16,这是连接中国知识管理和竞争情报研究的知识拐点。该文提出狭义知识管理和广义知识管理的概念,并从知识管理和竞争情报的概念入手,着重讨论了两者的关系[27]。排在第六的是1996年马费成在《情报学报》发表的《情报学的进展与深化》,中心性为0.15,该文是中国情报学学科建设及其发展的又一个重要知识拐点。从情报学产生的背景出发,讨论情报学的目标与基本任务,回顾情报学的发展历程及主要成果,并提出任何扩大情报学的对象和范围、偏离基本任务和目标的倾向都不利于情报学的学科建设,最后指出情报学深化与突破过程中需要解决的关键问题[28]。排在第七的是侯汉清等于2004年翻译Eugene Garfield的《引文索引法的理论及应用》一书,中心性为0.13,《引文索引法的理论及应用》是美国著名情报学家Eugene Garfield的经典之作,在引文索引研究中起着重要作用。该书对引文索引法的概念和历史进行了阐述,并分析了引文索引的设计与生产及其作为检索工具的重要意义和应用[29]。排在第八的是2003年包昌火在《情报学报》发表的《竞争对手分析论纲》,中心性为0.12,该文为竞争对手分析技术的研究和应用提供了研究思路,是国内该领域的重要知识拐点。文中试图建构具有方法论意义的竞争对手分析论纲,侧重论述了三维分析法、竞争对手分析流程和竞争对手分析软件[30]。排在第九的是2000年李蕾在《情报学报》发表的《基于语义网络的概念检索研究与实现》,中心性为0.10,这是国内语义网在检索研究领域的重要文献。该文介绍了一种基于语义网络的中文搜索引擎概念检索模型,并应用此模型初步实现了特定领域的概念检索[31]。排在第十的是1996年包昌火在《情报理论与实践》发表的《Intelligence和我国的情报学研究》,中心性为0.10,这是中国情报学理论建设方法的一篇关键文献。该文指出,随着国内外对Intelligence、Intelligence Science概念与活动的深入研究以及竞争情报的出现与发展,将会推动情报学理论框架的重构和完善,使情报学真正成为指导我国信息工作实践和发展的理论基础,使情报学研究出现新局面[32]。中国情报学10篇高中心性关键节点文献中,从作者来看,邱均平占3篇,包昌火占2篇,进一步印证了他们在中国情报学领域中的重要地位;从期刊来看,《情报学报》占4篇,《情报理论与实践》占2篇,从侧面说明了这两种期刊在中国情报学领域的重要性和权威度。
5 中国情报学研究热点与前沿的知识图谱分析
5.1 中国情报学研究热点的知识图谱
关键词是作者对文献核心的精炼,在学科领域里高频出现的关键词常被视为热点研究领域[33]。另外,中心性高的关键词易成为关键词网络图谱演进的拐点,也在一定程度上代表学科的研究热点。因此,我国情报学研究热点是指高频关键词和高中心性关键词,可借助CiteSpace可视化软件绘制关键词聚类图,来确定中国情报学的研究热点领域。
在CiteSpace中,选择关键词作为网络节点类型,设置(C,CC,CCV)前中后阈值分别为(3,3,25)、(3,3,30)和(3,3,35),选择最小生成树算法,分别绘制中国情报学高频关键词聚类图和高中心性关键词聚类图,这两幅图可视为中国情报学研究热点图谱,见图7、图8。
图7 中国情报学研究热点视图——高频关键词
图8 中国情报学研究热点视图——高中心性关键词
图7、图8中,每个节点代表一个关键词,节点大小表示关键词出现的频次高低,节点间连线表示关键词间的共现关系,紫色光圈节点是高中心性点(Centrality>=0.1),该类节点与其他节点间存在紧密联系,是连接不同研究领域的关键节点。从高频次关键词的角度分析,整个视图可以分成十一个较大的研究主题,分别是竞争情报、信息检索、情报学理论研究、知识管理、搜索引擎、信息服务、文献计量学、本体、数据挖掘与数据库、信息资源管理、信息管理与信息组织,这些研究主题是中国情报学的研究热点领域。从高中心性关键词的角度分析,可看出中国情报学研究的热点领域有信息计量学、个性化信息服务、用户与系统模型、信息过滤。另外,图8显示出一条由高中心性关键词构成的演化路径:知识服务—个性化信息服务—系统模型—信息过滤—用户模型—个性化服务—PageRank—链接分析—网络信息计量学—信息计量学—SCI,这条路径打通了图谱的上下两个部分,这十个高中心性节点是中国情报学十分重要的知识拐点。
5.2 中国情报学研究前沿的知识图谱
普赖斯注意到在科学引文网络中,越是频繁被引用的文献越可能是新近发表的文献,即科学家似乎倾向于引用最新发表的文献,并将其称为即时因子,他提出了用来描述学科研究领域过渡本质的概念——研究前沿,某个领域的研究前沿由科学家积极引用的文献来体现[34]。Small和Griffith将共引聚类视为研究前沿[35]。Garfield将共引聚类与引文的总和定义为研究前沿[36]。陈超美认为研究前沿是一组突现的动态概念和潜在的研究问题,是正在兴起的理论趋势和新主题的涌现,出现频次增长率快速增加的专业术语将被确定为研究前沿术语[37]。研究学科领域研究前沿对该学科领域的研究者有重要意义,使研究者及时准确地把握研究前沿和学科研究的最新动态,预测学科发展方向和需要进一步研究的问题[38]。探测研究前沿,可用CiteSpaceⅡ强调研究前沿和其知识基础间顺时模式的时区视图功能,来获取一组最新热点研究文献构成的研究前沿[39]。时区视图由一系列表示时区的条形区域组成,时区按时间顺序从左向右排列,因而研究前沿指向知识基础,视图可显示学科最近几年的发展脉络以及研究前沿与知识基础间千丝万缕的联系[40]。因此,研究前沿是指时区视图中位于图谱右上角的出现频次增长率快速增加的文献节点。
在CiteSpace中,网络节点类型选择被引参考文献,设置(C,CC,CCV)前中后阈值均为(3,3,30),选择Pathfinder算法,绘制中国情报学研究前沿文献的时区视图,见图9。
图9 中国情报学研究前沿文献的时区视图
图谱右上角显示的是由一组最新热点研究文献构成的研究前沿,选取每年度被引频次前3位的文献进行显示。我们选择图9右上角较近的年份(2005-2009年)每年度被引频次前3位的文献作为构成中国情报学研究前沿节点。通过分析发现,中国情报学研究前沿文献节点主要涉及以下研究内容:H指数及期刊评价、竞争情报、共被引分析与文献计量学、情报学理论、人际网络、知识管理。
研究前沿关键词是一组突现的动态概念和潜在的研究问题,可利用CiteSpace软件绘制前沿关键词共现网络图谱,来探测某领域的研究前沿演化趋势[41]。CiteSpace软件中提供膨胀词(burst detection)探测技术和算法功能,通过考察词频的时间分布,将其中频次变化率高的词(burst term)从大量的主题词中探测出来,依靠词频的变动趋势,而不仅仅是频次的高低,来确定前沿领域和发展趋势[42]。在CiteSpace中,选择术语类型为膨胀词,网络节点类型为关键词,设置(C,CC,CCV)前中后阈值分别为(3,3,25)、(3,3,30)和(3,3,35),选择最小生成树算法,绘制中国情报学研究前沿关键词的时区视图,见图10。
图10 中国情报学研究前沿关键词的时区视图
图10显示,从CSSCI来源文献来看,近十年中国情报学研究大致经历了三个时期。第一,2001-2004年的繁荣期,大量高频关键词聚集在这个时段,说明此时间段是中国情报学研究的繁荣时期。竞争情报、信息检索、情报学、知识管理、信息服务、文献计量学、引文分析、数据挖掘、本体、数据库、信息资源等关键词都出现在这个时期,形成了中国情报学研究的高潮时期。这些关键词大部分仍是目前中国情报学的研究热点,结合前文对研究主体研究内容的分析,发现大部分研究主体都从事了这些关键词的相关研究,说明这些研究内容在中国情报学研究中占有重要位置。第二,2005-2008年的稳定期,这一时期醒目的关键词主要有内容分析、可视化、H指数、社会网络分析等,它们为后期相关研究内容的兴起做铺垫。第三,2009-2010年是新一轮繁荣期的孕育期,在这一时期可以看到知识图谱醒目地进入情报学研究者的视野,CiteSpace作为用来分析学科领域的研究进展和研究前沿的知识图谱模型及应用工具得到了我国情报学研究者很大的关注。另外,社会化标签分析、信息生态系统、产业竞争情报、概念格也得到较大关注。可以预测,可视化知识图谱研究、社会化标签分析、信息生态系统、文献计量学、技术竞争情报、产业竞争情报、H指数、期刊评价、情报学理论研究、引文分析、概念格、开放获取、知识管理与服务将会引领一次我国情报学领域新的研究高潮,情报学将在继续进行情报学理论研究的同时,更多地转向定量评价分析与应用研究,中国情报学研究即将进入新一轮的繁荣期。
6 结语
基于CSSCI 2001-2010年来源数据库,利用CiteSpaceⅡ绘制科学知识图谱来对近十年中国情报学的研究主体、知识基础、研究热点和研究前沿进行可视化分析,得出以下研究结论:首先,通过绘制相关研究主体知识图谱,得出近十年中国情报学研究领域的26位高发文作者、26位高被引作者及一些主要研究机构,详见图1、图2、图3。他们在中国情报学研究领域中表现极为活跃,不仅推动了中国情报学的学科建设与发展,还在一定程度上引领着未来中国情报学的研究前沿与趋势。其次,中国情报学研究的知识基础集合由7篇对中国情报学有重大影响的早期奠基性文献、18篇高频被引文献、10篇高中心性的关键文献组成,是中国情报学的研究基石和重要支柱,对中国情报学相关领域的研究发展起着不可磨灭的重要作用,详见图4、图5、图6。再次,从高频关键词和高中心性关键词两个角度分析了中国情报学的研究热点,这些关键词是中国情报学重要的研究领域,详见图7、图8。最后,从研究前沿和研究关键词两个方面分析了中国情报学的研究前沿领域,这些研究内容将不断拓展、创新和深化,代表着中国情报学的研究前沿与发展趋势,将在未来中国情报学研究领域引发新一轮的研究高潮,详见图9、图10。
标签:情报学论文; citespace论文; 中文社会科学引文索引论文; 聚类分析论文; 网络节点论文; 文献研究法论文; 文献回顾论文; 文献论文;