情报学的学科结构及其演化分析,本文主要内容关键词为:情报学论文,学科论文,结构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 研究背景和研究意义
随着科学计量学的发展,越来越多的研究者使用信息可视化方法对学科领域结构进行分析,大量科研工作者把重点放在如何清晰的描述学科领域的知识结构和研究前沿,力图把某一学科领域的核心结构、研究前沿和新生长点以可视化的图像直观地表达出来,并揭示其动态发展规律。White和McCain早在1998年就对图情领域1972-1995年间的引文进行了作者共被引分析、因子分析、多维尺度分析,并进行可视化得到情报学领域的12个研究领域[1]。而其最重要的发现是当时的图情领域包含两个完全不同的阵营,即信息检索和文献研究阵营。文献研究阵营则包括引文分析、文献计量学和科学计量学。对1990-2004年间的21种图情期刊进行文献共被引分析,同样得到了两个阵营,与White和McCain不同的是,信息检索阵营在此处被定义为信息搜索和检索阵营[2]。Zhao和Strotmann通过对1996-2008年的12种期刊的作者共被引分析,认为情报学领域包含5个研究领域,分别为用户研究、引文分析、信息检索、网络计量学和研究领域的可视化,最后与White和McCain的工作进行了比较[3]。Chaomei Chen同样对这12种期刊进行了分析,并使用了一种多角度的引文分析方法,即对学科结构、研究前沿和语义模式的分析以及通过引用和引证文献的多个特征项对引文形成的聚类本质进行解释[4]。栾春娟运用社会网络分析、聚类分析、因子分析等方法,借助信息可视化技术手段,对1995-2007年期间“科学计量学”出版的关于国际专利计量研究的论文和引文进行计量分析,绘制了作者共被引网络、关键词共现网络和作者学术合作群体网络,形象地反映了国际专利计量研究的代表人物、研究前沿和合作前沿[5]。
学科结构及其在此基础上的研究前沿对科研工作者从整体上把握学科结构和发展有很大的帮助,但在另外一方面,研究者可能更关心的是在学科演化过程中研究领域交叉点是什么、最热点的研究领域是什么、会有哪些新生的热点研究领域、研究领域是如何发展演化的,从而清晰的掌握学科最重要的热点研究领域和方向,了解其演化过程和发展变化。
本文将使用引文分析方法以及CiteSpace[6]可视化工具,通过对情报学领域的12种期刊在2000-2009年间的186751引文进行分析,从学科结构及其时序变化、交叉点、引用突变点三方面进行分析,力图更加清晰的揭示情报学学科结构及其动态演进历程、演化过程中的关键路径、已经或将要出现的重要研究前沿。
2 数据来源
本文选择表1中的12种期刊作为数据源,其他研究人员均在其对情报学的分析中采用了同样的数据源[1,3,4],只是选择方式和时间跨度上不同。虽然这些期刊是在十几年前就选择出来,可能现在并不是代表情报学演化的最好期刊。然而,并没有公认的权威数据源用来跟踪情报学进展。因此,选择这12种期刊作为数据源的优势则可体现出既是前人所研究内容的验证和延续,也可以进行比较,从而跟踪情报学的进展和演化情况。
从Web of Science检索到情报学领域12种期刊的数据集,其涵盖了117个国家,2325个研究机构,8630位作者撰写的8374篇论文,包含来自51753种期刊,55138位作者的186751条引文,不重复的引文数达到109504条。
本文选取的时间区间为2000-2009年,作者共被分析中选择120名高被引作者;文献共被分析从每年中选择30篇高被引文献,最终得到131个节点的合并网络,都使用CiteSpace进行可视化。
表1 2000-2009年情报学领域12种期刊详细说明
3 学科结构及其演变分析
3.1 学科结构及其时序变化
3.1.1 情报学学科结构
本文选取2000-2009年间120位高被引作者,以10年为时间切片进行分析。Citespace识别出13个聚类,它们的模块化系数(Modularity)为0.5799,表明聚类间的模块化程度较高,重叠部分较少;平均单一性系数(Mean Silhouette)为0.7635,表明聚类中作者联系紧密度较高,聚类内部并没有多样性结构。图1中的聚类主题从引文标题中按Log-Likelihood Ratio(LLR,指数似然率)识别的名词短语得到。
通过作者共被引学科结构分析,能够清晰的展示2000-2009年间最主要的研究领域,如信息检索、文献计量分析、交互信息检索等。同时,不同聚类的连接点表明此作者在多个研究领域都有涉及,一般情况下引用的次数也会较多,可能是情报学或多个学科的领军人物。图1中圆圈大小与引用次数对应,大的圆圈代表的作者引用次数多,可能是某一研究领域的学术带头人。学科结构同样也可以根据文献共被分析来进行,如图5中的情报学研究领域。
图1 2000-2009年间120位高被引作者形成的作者共被引网络
3.1.2 学科结构时序变化
研究一个研究领域,我们需要关注此领域从产生到现在经历了怎样一个发展历程,在各个发展进程中其学科结构是什么,发生了怎样的变化。学科结构的时序变化分析试图解释这些问题,描述情报学在近10年间学科结构和研究前沿的发展历程。
图2-4分别描述了情报学从2000-2009年间的学科结构随时间变化的发展进程,其中,2006年太过分散,没有显示在图中。从图2中可以看到,2000年主要研究领域为Web和relevance方面,这和当时的整个社会大环境是分不开的,当时中国正处于互联网暴发式发展的时期,互联网泡沫开始形成。2001年和2002年基本延续了2000年的发展,只是衍生出了其他的研究领域,但是很不明显,最左边图中的连线基本都是Web领域。由此也可以说明,情报学也是跟随着社会整体大环境的变化而变化,适应当时的社会发展要求,从实际中发现并解决问题。
图3显示,2003年发生了很大的变化。Garfield E1979年在Citation Indexing上发表的Citation indexing:Its theory and application in science,technology,and humanities的突变系数达到11.69,引领了聚类2(academic website)的发展。同时,聚类2是形成的聚类中的最大聚类,包含了32条引文记录,占到总数131的24.4%。2004-2005年聚类2一直起着主导作用。2005年,已经有学者开始进行了h-index方面的研究。
图2 2000-2002年学科研究前沿变化情况
图4显示,在2007年聚类5(open access)开始形成,其可能是情报学未来的研究前沿。到了2008年,h-index已经真正走上情报学的研究前沿领域,并在2009年得到了更好的发展。这两年间几乎没有其他研究领域形成,聚集度很高。
3.2 交叉点分析
图3 2003-2005年间学科研究前沿变化情况
图4 2007-2009年间学科研究前沿变化情况
Chaomei Chen认为关键点是网络中不同聚类的连接点,它们可以是两个网络的共同节点,也可以是网络的网关结点,在一定程度上,可以认为关键点就是知识转折点,其见证了学科或研究领域的范式转变[7]。领域交叉点是指在引文形成的聚类中,两个或多个聚类间的连接点,聚类间可以通过一个连接点或多个连接点的共同作用进行连接,本文中关键点、连接点与交叉点不作区分,选择交叉点是使之更具体以便于理解。在多个研究领域中,领域交叉点往往就是新兴研究领域的生长点,产生新的科学前沿。学科或领域间的交叉渗透可能会对知识演化过程和演化关系造成重要的影响,揭示这种演化关系有可能对交叉学科的形成和演变机制,探索研究前沿的产生有一定的启示作用,同时对科技创新也有重要的意义。交叉点在一定程度上代表了研究领域交叉融汇,知识基础的范式转变,标识出了知识结构在演化过程的重要路径。
节点的中间中心性是检测交叉点的一种普遍方法。点的中心性是一个用以量化点在网络中地位重要性的图论概念。中间中心性是常用来进行中心性测度的指标[8],它是指网络中经过某点并连接这两点的最短路径占这两点之间的最短路径线总数之比。中间中心性高的点往往位于连接两个不同聚类的路径上,社团识别算法(community-finding algorithms)就是利用这个特点来区分网络中的聚类[9]。
中心性测量为发现不同学科的连接点或进化网络中的临界点(Tipping Points)提供了一种计算方法。这种图论方法的优势在于,因为它独立于任何知识领域,所以其应用范围就极其广泛。而且这种方法只研究网络中少量的连接点,而不是整个网络。因此,如果这些连接点显示出某个领域的结构和动态本质,那么就可以大大减少用户在理解上的负担。
图5中,左边表示引文形成的聚类和按题名生成的标签,右边表示中心性较高的交叉点的相关信息。各种不同颜色的连线和节点实际上是和其产生共引的年份相关联的,节点的大小与其被引用的次数成正比,左边白色方框内的节点表示其中间中心性较高的节点,而右边白色方框内的节点为引用次数发生了突变的节点。
表2列出了图5中的交叉点的详细信息并按时间顺序排列。从表2可以看出,随着年份的变化,交叉点连接着10年来形成的大多数研究领域,代表了情报学在10年间的发展历程的演变,标识了知识关键点和重要路径。从1979年Garfield E创立引文索引以来,清晰展现了情报学从information retrieval,probabilistic model,web到h-index的关键技术的发展过程,显示了关键点在情报分析中的重要作用。从整体上把握情报学的学科结构及其演化过程。
表1中的期刊来源中,Science和Nature并不属于图情领域期刊,但是却体现着重要的聚类间连接作用,也说明图情领域的多学科特性和较强的融合性。大部分的关键点来源期刊都为图情领域学术影响力较大的期刊,说明此领域仍然为此领域业内专家所掌控。
图5 情报学研究领域、交叉点(左边方框内)、引用突变点(右路边方框内)
3.3 引用突变点分析
引用突变点表示引用次数在短期内突然出现了暴发式的增长或改变,往往预示着新的热点研究领域的突现。引用的突然性增长表明更多的研究者开始关注此研究领域,对于预测此领域的未来发展趋势很有帮助。引用次数的突变分析能够帮助科研工作者更好的分析和发现该学科领域最新的研究前沿,从而为寻找创新点、发现新问题提供更好的思路和方法。同时能够清晰的描述学科前沿的变化情况。
表2 情报学交叉点详细说明
引用次数突变系数表示了在近年来它的引用次数发生了突发性的增长,说明更多的人开始关注此研究领域。对于预测此领域的发展趋势很有帮助。Kleinberg的突变检测算法可以用于检测一个学科内研究兴趣的突然增长[10]。
图5中白色方框内的节点为引用次数发生了突变的节点,具体信息如表3所示,我们从中选择最近几年发生的引用次数发生突变的记录进行分析,发生在2005年以前的突变点此处没有列出,与聚类16(h-index)相关的更多的突变点不再列出。
从表3可以看到,h-index从2005年被提出以来,至今一直为情报学领域最突出的研究前沿,这与当今的研究趋势十分吻合。同时,g-index也发生了引用次数突变,可能是h-index的下一步发展方向。聚类4(integration)和聚类5(open access)的引用次数也发生了突变性增长,从这一点上来说,其也将成为或者已经成为情报学的研究前沿。
表3 情报学引用突变点详细情况说明
4 结语
通过对情报学领域的12种期刊的交叉点、引用突变点和研究前沿的时序变化分析,能够初步解释情报学现状、未来所面临的挑战,为将来研究提供切实的、有价值的参考。有利于追踪前沿课题,预测学术动态,为科学计量学研究人员把握正确的研究方向,找准研究的切入点提供可靠的量化信息。当然,此研究中还有一些不足,希望在后续工作中得到改进。
(1)本文使用中间中心性对交叉点进行识别和测试,下一步可以与其他的中心性测量方法进行比较。
(2)引文网络都有一定滞后性,共被引网络更是如此。因此,对会议论文、学位论文或科学博客网络的研究可能会更具前瞻性,或者可以使用词分析对以上三方面进行试验比较分析。
(3)扩展至更多的学科验证分析并请相应专家验证结果的正确性。
收稿日期:2010-12-18