知识地图研究的背景、流派与趋势--基于SSCI和CSSCI的期刊论文测量与可视化_知识图谱论文

知识图谱研究的脉络、流派与趋势——基于SSCI与CSSCI期刊论文的计量与可视化,本文主要内容关键词为:图谱论文,脉络论文,流派论文,趋势论文,期刊论文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       分类号 G350

       0 引言

       随着大数据时代的到来,知识存储与处理规模越来越大。人们对知识的渴望不再局限于获取,更加关注知识与知识之间的关系,从而使得知识可视化的重要性日益显现。知识图谱因能以清晰、动态的形式揭示知识之间的关系,成为许多学者实现可视化的一种途径。

       知识图谱最早出现在管理学领域,后来主要集中在信息科技领域和图情领域,现在慢慢向其他学科发展。知识图谱在图书情报界也称为知识域可视化[1]。陈悦和刘则渊将知识域可视化最终呈现的图形称为“知识图谱”,认为知识图谱是显示科学知识的发展进程与结构关系的一种图形,并将知识图谱定义为可视化地描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术研究的合作和深入[2]。由上可知,知识图谱是对科学技术知识及其之间关系进行可视化后得到的结果,意味着一系列可视化分析方法与工具的应用。

       知识图谱在学术领域快速兴起,且在基础理论、方法、模式、技术等方面都呈现较快的发展速度,已形成由基础理论、方法和应用研究组成的相对完整的知识体系。然而,作为全球范围内多学科共同研究的领域,各学科、各国家对知识图谱的研究在发展速度、发展轨迹、研究重点等方面总体上存在差异。在此研究体系初步形成时期,适时梳理该领域的研究现状,对知识体系的构建尤为必要。

       因此,本文开展基于“知识图谱”的知识图谱研究:以知识图谱研究中常用的计量学方法和可视化呈现为手段,以刊载该领域相关主题的CSSCI和SSCI期刊论文为对象,从知识图谱的发展历史、主题分布、人物关系和学科分布等方面梳理该领域的发展概况,着重从国内外发展和跨学科发展双重视角进行比较,在该领域总体发展框架的基础上,探讨未来知识图谱的发展趋势。

       国内外发展和跨学科发展双重视角的比较及探讨,贯穿于本文整个研究过程中。本文以CSSCI提供的最早年份1998年为起始年份,时间设定为1998-2014年,可作为已有相关文献的一种补充。从已有相关文献来看,胡泽文等[3]从知识图谱应用方面进行讨论,梳理知识图谱在情报学领域及其子领域的应用情况,并简要介绍知识图谱在其他学科领域中的应用。任红娟等[4]以SCI、SSCI为数据源,从计量学角度研究知识图谱领域的主要代表人物、研究机构、高产作者等,对知识图谱研究的主体与主题进行梳理,但没有对该领域的时间分布进行探讨,也没有对国内研究情况进行梳理。杨思洛[5]与汤建民等[6]对国内知识图谱研究情况进行了分析,但均未考察国外数据库并进行比较分析。与已有文献相比,本文同时考察中外文数据库中知识图谱研究的相关情况,并进行比较分析,此外还采用综合指数法计算核心作者,覆盖范围更广,结果也相对全面。

       1 数据来源与研究方法

       为了保证数据的代表性与权威性,本文选择SSCI、CSSCI数据库为来源数据库进行检索,时间限定为1998-2014年,文献类型为论文,检索时间2015年3月1日。SSCI数据库主题词的选择主要依据杨思洛等在《国外知识图谱的应用研究现状分析》[7]中对狭义知识图谱的限定,选取science mapping,bibliometric mapping,literature mapping,mapping knowledge domain等进行试检索。此外,根据阅读相关文献后得到的知识图谱的英文翻译,通过试用不同的检索词,对检索结果进行分析,最后确定的检索策略是:主题=“knowledge domain map*” or “knowledge map*” or “science map*” or “topic map*” or “bibliometric map*” or “literature map*” or “knowledge graph” or “knowledge visualization” or “visualizing knowledge domains”。CSSCI的检索主要以知识图谱及其专门软件如CiteSpace、HistCite、Sci[2]等术语,以及知识可视化、计量分析等为题名或者关键词。最后,通过对检索到的数据进行去重、勘误以及选择等清洗后,得到SSCI论文295篇,CSSCI论文389篇。本文利用SATI[8]、UCINET等工具对SSCI、CSSCI知识图谱研究论文的时间分布、高被引论文、高频关键词、学科分布、核心期刊和边缘期刊、核心作者、作者合著、核心机构等进行定量统计与定性分析。

       2 知识图谱研究的发展脉络

       2.1 时间分布

       学术论文数量的时序变化是衡量某领域发展的重要指标。绘制相应的分布曲线对文献分布做历史的、全面的统计,对评价该领域所处的阶段、预测发展趋势和动态具有重要意义[9]。图1显示了1998-2014年间SSCI、CSSCI知识图谱研究论文量的年份分布(注:SSCI、CSSCI 2014年数据不完整,分别统计出31篇和45篇)。

      

       图1 1998-2014年SSCI、CSSCI知识图谱研究论文数量的年份分布曲线

       通过统计分析发现,早在2002年SSCI中就出现了知识图谱研究的论文。2003年美国科学院举办了“知识图谱测绘”学术研讨会。在该会议上,来自不同领域的学者介绍了有关知识图谱的最新研究成果并发表了20多篇学术论文。此后,随着学者的关注,知识图谱研究逐渐兴起,并在2012年迎来了第一个研究高潮,而后出现缓慢下降的趋势。在国内,2005年CSSCI中出现了第一篇知识图谱研究的论文,该论文是陈悦和刘则渊在《科学学研究》上共同署名发表的《悄然兴起的科学知识图谱》,可视为国内知识图谱研究的开端。随后的两年,相关研究的论文量缓慢增长,是知识图谱研究的起步阶段。2008年到2012年,关于知识图谱研究的论文总体呈急剧增长态势,仅2012年的发文量就达94篇,说明此阶段国内学者高度关注和重视知识图谱的研究。与国外情况一样,2012年后,国内知识图谱研究开始出现平缓下降的趋势。综上所述,国外知识图谱研究早于国内,相对而言,国外知识图谱年载文量分布曲线波动幅度较小,在2012年,国内外对知识图谱研究都达到高潮,说明当时知识图谱研究得到国内外学者的广泛关注和重视。本文得到的时间分布部分印证了前人的研究成果[5-6,10-11]:2005年我国出现第一篇知识图谱研究的文献,2005-2007年为知识图谱研究的起步阶段,2008-2012年为快速发展阶段。

       2.2 内容分布

       2.2.1 高被引论文分析

       高被引论文具有较高的学术参考价值和学术引领作用,一般会在该领域得到研究者的有效利用。通过对SSCI中知识图谱研究的高被引论文进行统计,得出被引次数前五名论文的情况(见表1)。Porter等[12]通过运用指标、跨领域的索引(集成分数)和科学可视化方法绘制知识图谱研究不同领域跨学科的程度,发现科学领域研究交叉的学科越来越多,但仍然主要分布在邻近的学科领域,同时,指标的组合和知识图谱的叠加为未来跨学科研究提供通用标准。O'Donnell等[13]认为,知识图谱是通过一系列表达不同想法的结点链接形成的,他提出以知识图谱作为认知过程的一个支架,有助于人们在认知过程的合作中激发有效决策的产生,并预测未来更多领域将对与知识图谱相关的认知过程进行研究,如:知识图谱是否能够减少认知负荷,知识图谱如何影响或改变结构化信息等。Van Eck等人[14]全面概述了VOSviewer提供的文献计量图功能,并探讨了其实现文献计量图的技术,最后利用VOSviewer对科学核心期刊的5000篇文献进行共词分析来证明VOSviewer程序构造的合理性。此外,Boyack[15]等人通过同被引分析、文献耦合、直接引用、基于引文与文内耦合的混合方法分析生物医学文献的聚类情况,比较这四种方法的聚类精确度,结果发现,基于引文与文内耦合的混合方法与文献耦合的聚类精度略优于同被引分析,直接引用方法是精确度最低的方法,其中混合方法改进了文献耦合的结果。

      

       对CSSCI中知识图谱研究的高被引论文进行统计,得出被引次数前五名论文的情况(见表2)。陈悦和刘则渊[2]在介绍科学知识图谱的由来与概念的基础上,从数据库、数据库格式和存取、数据分析算法、可视化和互动设计、科学计量学等方面概述知识图谱绘制的最新进展,并展望其应用前景。侯海燕等[16]将科学计量学与应用数学、图形学、信息科学及计算机科学诸学科结合起来,利用可视化技术及六个科学学国际权威学术期刊论文的引文绘制出国际科学学研究热点演进趋势知识图谱,以形象展示国际科学学研究的热点领域及其发展态势。陈悦等[17]在介绍科学知识图谱的由来与概念的基础上,从引文分析和信息可视化角度阐述其发展历程,并且分别介绍了传统知识图谱和现代知识图谱的类型及原理,认为科学知识图谱是一种有效的知识管理工具。秦长江和侯汉清[18]概述了知识图谱的概念以及与知识地图、信息可视化、知识管理之间的关系,简单介绍了构建知识图谱的理论、关键技术、相关软件,总结知识图谱的发展历史。赵蓉英和王菊[19]利用CiteSpaceⅡ对WoS数据库中关于图书馆主题的文献引文数据和主题词数据绘制知识图谱,以分析图书馆学的研究机构、代表人物和研究热点等,得出的结论包括:图书馆学的研究机构和研究力量主要集中在美国、英国、加拿大和中国等国家;当前图书馆学发展的知识基础是由奠基性、被引次数和中心性都较高的文献构成;20世纪90年代以来,数字图书馆是图书馆最具代表性的研究热点。

      

       从知识图谱高被引论文的内容看,国外主要是利用不同的方法、工具绘制知识图谱,并且比较这些方法的聚类精度或验证工具的可行性;而国内主要集中于探讨知识图谱的基本概念、理论基础、发展历程,及具体应用知识图谱研究某一学科领域的研究热点、研究前沿等。这说明国外更加注重探讨绘制知识图谱的方法及其工具的改进,国内比较重视知识图谱的基础理论与具体应用。这也在一定程度上折射出国外学者注重方法的创新、比较,国内学者更关注基本理论与应用的研究。从高被引论文的时间分布来看,国外最早发表的文献和近年来发表文献的被引次数都相对较高;国内最早发表的文献被引次数较高,而近年来发表的文献被引次数相对较低。这在一定程度上表明国外知识图谱的研究在不断创新发展,而国内的理论研究还不充分。

       2.2.2 主题变迁

       从SSCI关键词时区图(见图2)可知,国外知识图谱研究主题几乎每一年都有变化,结合相关文献,可将其演变大致划分为四个阶段。第一阶段为2002-2004年,主要探讨利用可视化信息技术进行主题搜索与主题分类,通过科学计量方法分析知识图谱,以探索知识管理。第二阶段为2005年,这一年的研究较为集中,知识图谱中的知识管理得到广泛应用,不同领域开始探索运用知识图谱进行知识管理,如在商业、医疗等领域,将知识图谱与语义网络相结合,构造知识管理网络商业环境、医疗保健环境等。第三阶段为2006-2008年,知识图谱扩展到信息检索、本体等主题,研究者开始从本体、信息检索等方面构造知识图谱,并发现基于知识图谱的本体构建信息检索系统的方法。第四阶段为2009年至今,主要探讨知识可视化在医学、心理学等不同学科或领域的研究。从检索到的文献可知,2002年由Rasmussen等学者在65届“the American Society for Information Science and Technology”(美国信息科学与技术学会)会议上发表题为“Visualizing knowledge domains”(可视化知识图谱)的文献,首次将知识图谱引入图书情报学科,文章探讨使用可视化技术组织和显示知识主题的流程,解释各个概念之间在不同领域范围内的关系,并预测未来的工作主要是在不同的学科领域中运用可视化技术构造知识图谱,为知识图谱在图书情报学的应用和发展奠定了基础。

      

       图2 SSCI知识图谱研究论文关键词共现时区图

       根据关键词共现时区视图(见图3)并结合定性分析可知,随着时间的变化,国内研究知识图谱的主题也在不断演变。2005-2007年主要研究科学知识图谱的理论基础,及其与科学计量学、信息可视化等的关系;2008-2010年偏向应用层面,运用可视化工具进行共词分析、共被引分析等,以发现某一主题或领域的研究热点与研究前沿;2011-2012年主要将引进的CiteSpace II、UCINET、VOSviewer等可视化工具与文献计量学等相结合,深入不同学科、不同主题进行社会网络分析、聚类分析等可视化分析。从上述时间分布可知,2013年,国外知识图谱研究开始呈现下降趋势,国内知识图谱的相关研究也减少,主要集中于图书情报学领域。通过阅读文献可知,2006年,侯海燕发表在《情报杂志》上题名为《权威科学计量学家对科学的关注及贡献》,是国内第一篇将知识图谱应用于图书情报学的论文,文章通过可视化工具分析《科学计量学》期刊的引文,以界定10位权威科学计量学家,并分析他们在科学计量学的贡献、所代表的学科,以及相互关系、最为关注的研究主题等。

      

       图3 CSSCI知识图谱研究论文关键词共现时区图

       2.2.3 主题分布

       关键词表达了论文的研究主题,是论文的核心与精髓。可通过绘制高频关键词共现网络,利用关键词之间的紧密程度分析知识图谱研究的主题。其中,圆点大小代表高频关键词词频,词频越高,圆点越大。结点之间的连线表示两个关键词之间的关系,连线越粗,表示共现次数越多,联系越紧密。由SSCI中高频关键词共现网络(见图4)得知:knowledge mapping,science mapping是知识图谱领域的核心关键词,这两个关键词与其他关键词的联系最为紧密;Bibliometrics,information retrieval,knowledge management,co-word analysis,co-citation analysis,ontology等是该领域较为重要的关键词,与其他关键词有比较强的联系,是研究知识图谱较为重要的内容。这说明国外知识图谱领域研究集中于文献计量学、信息检索、知识管理、本体、共词分析、同被引分析等主题。进一步探究SSCI近五年知识图谱研究主题可知,国外主要研究知识图谱在不同学科、领域的应用。由CSSCI高频关键词共现网络(见图5)可知:高频关键词共现网络以知识图谱、科学知识图谱为核心,这两个结点与其他结点的联系最密切;较为重要的结点还有研究热点、研究前沿、CiteSpace、可视化、科学计量学、社会网络分析、共词分析,这七个结点与其他关键词有较密切的联系。整个高频关键词网络是比较紧密的,在一定程度上说明知识图谱的研究都是围绕这些核心展开的。通过进一步分析2010年以来高频关键词的分布可知,国内主要运用不同的可视化工具(如CiteSpace、VOSviewer等)、文献计量方法(共被引分析、共词分析等)研究知识图谱在不同领域、学科的应用,以发现该领域或学科的研究前沿、研究热点。由此表明,国内外研究主题相似,主要将知识图谱研究应用在科学计量、可视化分析等领域。但是,国外还注重将知识图谱与知识管理、信息检索、本体等相结合,而国内主要围绕知识图谱进行浅层次的研究,如通过分析关键词图谱分析研究热点,通过作者合作图谱分析作者的合作情况等。

      

       图4 SSCI知识图谱研究论文高频关键词共现网络

      

       图5 CSSCI知识图谱研究论文高频关键词共现网络

       3 发展流派

       3.1 跨学科概貌

       在1998-2014年间,知识图谱的研究论文分布在SSCI的39个学科类别中,论文量最多的八个学科类别如图6所示。其中,由SSCI自带软件分析可知,每一个学科类别中的论文不仅属于该学科,还有可能同时属于其他学科,如数量最多的图书情报学学科中的论文,除了属于该学科外,同时也属于计算机科学与信息系统和管理学等学科。图书情报学占据了主导地位,是知识图谱研究的重要学科;其次是计算机科学与信息系统、教育学和管理学。其他学科中的147篇论文属于31个学科,说明知识图谱研究的学科范围广。由此可知,国外知识图谱研究的学科范围广泛,交叉性特征显著。

      

       图6 知识图谱研究论文在SSCI中的学科分布

       目前,国内关于知识图谱的计量文献中,仅有个别文献通过举例说明知识图谱在具体学科中的应用[16],还没有文献全面系统地对知识图谱应用于不同学科领域进行梳理与比较。通过分析1998-2014年间CSSCI中关于知识图谱的研究论文,可以发现,这些论文分布在17个学科中,数量最多的前六个学科如图7所示。有关知识图谱研究的论文共389篇(其中有5篇论文没有定义学科类别),在17个学科中,图书馆、情报与文献学有192篇,占论文总数的49.4%,是国内知识图谱研究最主要的学科;管理学和教育学共有125篇,占总数的32.1%,属于相对重要的学科;经济学、体育学和新闻传播学中分别有19篇、13篇、10篇;其他学科中的25篇论文对应了11个不同的学科。这说明图书情报学科是国内知识图谱研究的主要阵地。

      

       图7 知识图谱研究论文在CSSCI中的学科分布

       综上可知,图书情报学是国内外研究知识图谱的重要学科,一定程度上说明了图书情报学是知识图谱研究与发展的主要力量;其次,管理学与教育学也是较重要的学科。但不同的是:虽然国外知识图谱研究的论文总量比国内少,但在相关学科的分布数量上多于国内。究其原因,除了SSCI在学科分类上更为细致以外,国外与计算机相关的学科在知识图谱研究中占据较为重要的地位,其他很多学科也有对知识图谱的研究或应用,研究的跨学科特征明显,而国内关于知识图谱的研究在学科方面并未体现这样的特征。国内相关学科研究范围较小,学科之间缺少交互,分割现象较为突出。

       3.2 核心期刊与边缘期刊分析

       根据布拉德福定律,按学科文献载文量的多少,将期刊划分为三个区域,每一个区域的载文量相等,三个区域的期刊数量之比为1∶n∶n[2]。其中,第一个区域为该领域的核心期刊区,第二个区域为相关期刊区,第三个区域为边缘期刊区[20]。SSCI中有关知识图谱研究的论文共295篇,期刊共156种,每一个区域的论文数约为98篇。其中,核心期刊区有6种,相关期刊区有45种,边缘期刊区有105种。N的比值接近5,符合布拉德福定律。所以,在SSCI中共有6种期刊属于知识图谱研究的核心期刊,分别是:Scientometrics(38篇)、Journal of the American Society for Information Science and Technology(23篇)、Journal of Informetrics(13篇)、Information Processing & Management(13篇)、Knowledge Organization(7篇)、Educational Technology & Society(6篇)。前5种期刊属于图书情报学,后1种期刊属于教育学。这说明在国外知识图谱被更多应用于科学计量、信息科学、信息管理、知识管理等领域。而在边缘期刊区域除了含有图书情报学科的期刊外,还包含哲学、地理学、伦理学等其他学科。在研究中笔者发现,国外知识图谱研究论文涉及众多学科。如,Heersmink等学者将知识图谱应用于伦理学,在其文章[21]中第一次运用知识图谱分析计算机和信息领域的伦理研究,通过收集发表在顶级期刊和会议的C&IE文献。利用VOSviewer绘制标题、摘要等关键词共现的可视化知识图谱,提供了该领域400个关键术语之间的关系。这个图谱不仅呈现了隐私、伦理和互联网这三个主要概念,还可以用来获取该领域的主题和识别信息、通信技术和道德之间的概念与关系。

       CSSCI中知识图谱研究的论文共389篇,期刊共99种,每一个区域的论文数约为130篇。其中,核心期刊区有4种,相关期刊区有16种,边缘期刊区有79种。通过计算,N的比值约等于5,符合布拉德福定律。核心期刊区的4种期刊分别是《情报杂志》(48篇)、《情报科学》(33篇)、《图书情报工作》(29篇)、《情报学报》(17篇),这4种期刊都属于图书情报学科。而在边缘期刊区域,除《图书馆建设》《大学图书馆学报》《现代图书情报技术》和《档案学通讯》4种期刊属于图书情报档案学科,其余75种期刊属于其他学科,如语言学、中国文学、政治学、社会学、统计学、文化学、人文经济地理、哲学、法学、体育学等。由此可以知道,国内知识图谱研究以图书情报学科领域为主,但并不局限于该领域,已经渗透到其他学科领域。

       3.3 人物关系

       3.3.1 核心作者分析

       知识图谱领域的作者,在SSCI中共检索到696位,发文量最多的是荷兰莱顿大学科学技术研究中心的Nees Jan Van Eck,美国能源部Sandia国家实验室的Kevin W Boyack和以色列海法大学情报学家Chaim Zins,都发表了7篇文献。而在CSSCI中共检索到534位作者,其中发文量最多的是来自大连理工大学的刘则渊,共25篇。这说明国外关于知识图谱研究的作者数量多于国内,国内发文最多的作者的发文量多于国外。

       分别统计在SSCI、CSSCI中发表1篇、2篇、3篇和4篇以上论文的作者数量,以及该类作者群所占作者总数的比例。结果显示,在SSCI中发表1篇论文的作者数为632人,占作者总量的90.8%,在CSSCI中发表1篇论文的作者数为391人,占作者总量的73.2%,低产作者所占的比例远远大于洛特卡定律60%的数值。这说明国内外应用知识图谱进行研究的作者人数众多却分布离散,缺乏深入性和持续性研究,研究尚处于不成熟时期。从发文量来看,在SSCI中发表3篇以上论文的作者数量占总作者数的4.1%,仅达到作者总数的1/25,而在CSSCI中发表3篇以上论文的作者数量占作者总数的12.0%,不到作者总数的1/8。这说明国内外知识图谱研究的高产作者都很少。

       然而,高产作者不一定就是该领域的核心作者。本文利用综合指数法[22]确定核心作者,步骤如下。

       首先,根据普赖斯[23]公式N=0.749

(max是发文量最多的作者发文数,N为最低发文量),计算SSCI知识图谱研究核心作者候选人的最低发文量。将发文最多作者的发文数7代入公式得出N≈2篇,即发表2篇或2篇以上论文的作者为候选核心作者,通过SATI统计得出共有64位作者为候选核心作者。然后,统计出这64位候选核心作者的发文量和被引频次。统计结果显示,这64位候选核心作者共发文184篇,人均发文2.9篇,人均被引频次29.4次。最后。利用人均发文量和人均被引频次计算综合指数,综合指数>100的作者即为核心作者。

       根据《发表于图情核心期刊的文献检索课研究论文的计量分析》[24]计算候选人发文量和被引量折算指数、综合指数的公式:

       候选核心作者发文量折算指数=候选核心作者发文量/候选核心作者平均发文量×100

       候选核心作者被引频次折算指数=候选核心作者被引频次/候选核心作者平均被引频次×100

       候选综合指数=(候选核心作者发文量折算指数+候选核心作者被引频次折算指数)/2

       候选的综合指数值越高,其学术水平越高。根据综合指数大于100为核心作者的标准,得出共15位作者为该领域的核心作者(见表3)。排名位于前三名的Nees Jan Van Eck、Kevin W.Boyack和Ludo Waltman,其综合指数分别为:452、419、399,说明这三位作者是国外知识图谱研究的领军人物。

       CSSCI中最高发文量为25篇,N=3.745,即发文量大于或等于4篇的作者为候选核心作者。用同样的方法统计,得出39位作者为候选核心作者。这39位候选核心作者共发文295篇,人均发文7.6篇,人均被引频次24.3次,最终确定12位核心作者(见表3)。位于综合指数前五名、第七、十、十二名的作者都是大连理工大学WISE实验室的成员,说明该实验室团队是国内知识图谱研究的领头羊。

       以上分析可见,研究知识图谱的核心作者国外稍多于国内,虽然国外核心作者的发文数量没有国内作者那么高,但是其被引次数高于国内作者的被引次数。如荷兰的Van Eck教授在SSCI期刊上发表了7篇研究知识图谱的相关文献,平均被引频次为27.8次;而国内的刘则渊教授发表了25篇文献,平均被引频次为8.6次。这说明了国外核心作者的文献更能为后续相关研究学者充分利用。

      

       3.3.2 作者合作情况分析

       将SATI生成的作者共现矩阵导入UCINET 6,再利用可视化工具NetDraw分别绘制SSCI、CSSCI作者合作网络。图中每个节点大小代表作者的发文量,节点越大表示作者的发文量越多,节点之间连线的粗细表示作者之间合作次数的多少。如果两位或者两位以上作者共同完成一篇论文,那么他们之间形成一次共现关系。

       SSCI作者合作网络(见图8)整体联系稀疏,但是出现了多个合著团体。其中,最大的团体有2个,都是由7位作者组成。一个是以Van Eck为中心的合作团体,主要利用可视化工具和算法分析学科的结构和发展趋势。该团队中Van Eck、Waltman、Noyons、Calero-Medina、Waaijer、Van den Berg是荷兰莱顿大学科学技术研究中心(Center for Science and Technology Studies,CWTS)的研究员,Dekker是荷兰鹿特丹伊拉斯姆斯大学的教授。其中,莱顿大学CWTS相关研究人员开发了绘制知识图谱的工具——VOSviewer。另一个是以Jimenez-Contreras为中心的团体,该团队中Jiménez-Contreras、Robinson-Garcia、Herrera、Ruiz-

、Bailón-Moreno来自西班牙格拉纳达大学,Pino-Díaz来自西班牙马拉加大学,Torres-Salinas来自西班牙纳瓦拉大学。

      

       图8 SSCI知识图谱研究论文作者合著网络

      

       图9 CSSCI知识图谱研究论文作者合著网络

       由图9可知,CSSCI作者合著网络图谱整体联系稀疏,仅有4个较大的合著团体,其他的合著多发生在两人之间且合作频次低。其中,最大的合著团体是以刘则渊为中心的团体,成员包括侯海燕、陈悦、许振亮、姜春林、侯剑华、梁永霞、葛莉、王贤文等,他们都来自大连理工大学WISE实验室,是国内研究知识图谱相对稳定、成熟的科研合作团体,也是国内知识图谱研究的主力军。刘则渊与侯海燕、陈悦、许振亮之间的连线最粗,说明他们之间有密切的合作关系。并列第二的合著团体分别是以宗乾进和袁勤俭为核心的南京大学的研究团队、以邱均平和赵蓉英为核心的武汉大学的研究团队。第四个团体是以肖明为核心的项目组成员,他们申请到国家社科基金项目“基于多方法融合的中外图书馆学情报学知识图谱实证研究”,并且取得了一定的成果。

       3.3.3 机构分析

       发文量和被引次数是评价机构科学影响力的重要指标[25]。通过分析知识图谱研究机构的发文量和总被引频次,在一定程度上可以了解各研究机构在知识图谱研究领域的研究成果、学术水平和权威程度。

      

       图10 SSCI中知识图谱研究论文发文量前五名的机构

       国外知识图谱研究发文量排名前五名的机构(见图10)都是大学,且集中在欧洲与美国,它们分别是西班牙格拉纳达大学(University of Granada)、荷兰莱顿大学(Leiden University)、荷兰鹿特丹伊拉斯姆斯大学(Erasmus University Rotterdam)、英国萨塞克斯大学(University of Sussex)、美国亚利桑那大学(University of Arizona)。这些机构在知识图谱研究和计量学研究领域都是世界领先的。这五所机构发文总量为48篇,占总发文量的16%。发文量第一的格拉纳达大学发文量为18篇,被引次数(102次)却位于第四名,而莱顿大学发文量(11篇)排名第二,但是其被引次数(231次)位于第一名。这说明国外知识图谱研究机构的发文量与其被引次数不一定呈正相关。发文量最高的格拉纳达大学成立了文献计量中心,在知识图谱方面取得了丰硕研究成果。被引次数最高的荷兰莱顿大学的科学技术研究中心(CWTS)是科学计量学的研究重镇,建立了为科学计量学分析服务的科技指标数据库,运用可视化、文本挖掘等技术,为绩效评估提供证据或基础。

       由图11可知,CSSCI中知识图谱研究发文量前五名的机构也都是高校,分别是大连理工大学、武汉大学、南京大学、浙江树人大学、四川大学。这五所机构共发文128篇,占总发文量的33%。从图中可知,国内发文量高的机构,也具有较高的被引次数,发文量与被引次数呈正相关。研究机构所拥有核心作者越多,发文数量也就越多,如发文量排名第一的大连理工大学,拥有刘则渊、侯海燕、陈悦、侯建华等八位核心作者,总发文量52篇,占前五名机构发文量的41%,总被引次数为288次,占前五名机构总被引次数的67%。大连理工大学是较早将科学知识图谱引入国内的科研机构,他们在该领域已经开展了大量研究并取得了丰硕的成果,为国内该领域的发展做出了较大贡献[26]。发文量位于第二名的武汉大学,共发文32篇,总被引次数为93次,武汉大学信息管理学院的邱均平教授是国内信息计量学的主要研究人员之一,其带领的科研队伍为该领域做出了积极的贡献。南京大学成立的知识图谱研究组,已经产生系列论文成果。浙江树人大学的科学计量学研究中心是一个中文科技文献(信息)计算研究的学术组织,在汤建民教授的带领下,该研究中心在科学计量学、知识图谱等相关研究中取得了一定的成就。四川大学虽然没有知识图谱相关的研究机构,但其也在知识图谱领域取得了一定的成果。

      

       图11 CSSCI中知识图谱研究论文发文量前五名的机构

       通过对核心作者、作者合著和发文机构的分析,结合作者的研究背景与研究内容,可将国外知识图谱研究划分为两大学派。①技术学派,该学派通过开发可视化工具和算法分析科学成果,主要是由以Van Eck为核心的荷兰莱顿大学的科学和技术研究中心研究人员组成,该团队针对文献知识单元开发了VOSviewer可视化软件,通过VOS可以进行多种“共现”分析。Van Eck等[14]利用VOSviewer对科学核心期刊文献进行共词分析,证明了VOSviewer实现文献计量图的技术及程序构造的合理性。作者的另一篇文献[27],比较了分别通过VOS与多维尺度分析(MDS)绘制的作者、期刊、关键词等字段的图谱,证明基于MDS构造的图谱会受到人为环境因素的影响而VOS不会,表明使用VOS构造数据集的知识图谱效果优于MDS。②应用学派,该学派主要是利用科学计量学理论及相关方法、知识图谱软件等对关键词共现网络、作者合作网络、co-use网络等进行分析研究。应用学派主要由以Jimenez-Contreras为中心的团队组成,如,López-Herrera等[28]运用科学计量学方法研究模糊集理论领域,利用CoPalRed软件对不同时期内该领域主题概念的主要关系进行共词分析、网络分析等,得出西班牙团队在不同时期研究模糊集成理论的结构、发展情况及其分支学科之间的现有关系。

       国内也主要形成两个学派。①科学计量学学派,该学派主要是以科学计量学为理论基础,利用可视化方法研究科学学与管理学、科学技术合作等领域。该学派主要是由刘则渊带领的大连理工大学WISE实验室团队构成,该团队主要是利用CiteSpace等可视化工具分析学科前沿、研究热点、作者共被引等,以把握某一学科的研究方向及关键人物。②知识图谱应用学派,该学派的研究者主要由以袁勤俭、宗乾进为核心的南京大学知识图谱研究成员和以武汉大学邱均平和赵蓉英为核心的团队组成,主要以电子资源数据库为数据源,通过可视化方式展示某一学科的研究前沿和发展动向。如宗乾进等[29]以CSSCI为数据源,利用NetDraw、CiteSpace和VOSviewer绘制国内情报学的主题演变、机构合作网络等知识图谱,以归纳和分析其研究热点、机构合作情况等。

       4 发展趋势

       (1)知识图谱研究的弱化与主题的衍生

       从时间分布结果可知,国内知识图谱研究的论文数量从2012年开始骤然下降,国外的研究也稍微下降,开始出现知识图谱研究弱化的苗头。与国外的微弱变化不同,国内知识图谱论文数量急剧变化,一方面是由于国内研究团队和人员相对集中,重要团队和核心作者论文出版数量的变化会较集中地反映在领域整体的时间分布上,另一方面也反映了国内知识图谱领域研究热点较为集中,后来的研究者很难有所突破。

       从内容分布结果分析可知,国内知识图谱研究主题单一,而国外研究主题则相对多样,除了以知识图谱为研究对象外,国外学者还将知识图谱融入信息检索与知识管理中,这在国内是很少见的。可见,知识的融合带来的知识图谱主题的衍生将减缓研究弱化的趋势。遵循这一思路,国内学者无论是在知识图谱的应用或知识图谱的发展方面,都应着重关注多领域融合的视角。

       (2)知识图谱的跨学科研究与应用

       如果说主题衍生提供了知识图谱研究的视角,那么知识图谱的跨学科研究和应用,则为知识图谱研究提供了总体路向。从学科分布看,国内外学者对知识图谱的研究都主要集中在图书情报学、管理学和教育学,而国外的研究则呈现出更为分散的特点。可见,当前国内知识图谱研究的学科范围小,学科之间缺少交流。因而,国内知识图谱的研究应该更加重视扩展学科范围,进行学科之间的交叉研究。在知识图谱不断发展的时期,不同学科背景的研究人员对知识图谱进行研究与利用将能增强学科之间的交互性,形成完整的研究体系。

       (3)知识创造者的合作创新

       无论是知识图谱主题的衍生还是跨学科的研究与应用,知识创造者的合作创新都是最切实的途径。然而,当前国内外知识图谱研究缺乏有效的交流与合作,从作者和机构分析结果来看,国内外合作者基本都是同一单位成员。另外,我国该领域的研究比较分散,合作的规模较小且不太稳定。因而,在知识融合创新和跨学科发展的趋势下,我国科研人员应该着力提高合作作者的异质性,以形成成员之间的优势互补,促进知识图谱研究的发展。

       5 结论

       知识图谱作为揭示学科和领域知识要素结构与相互关系的理论与方法,对人类知识理解、知识发现、知识管理做出了重要贡献。作为一个快速发展的多学科交叉领域,对其知识体系进行研究能够掌握其发展轨迹,有助于对未来研究重点和趋势的判别。

       本文运用知识图谱的理论与方法研究知识图谱的知识体系,研究结论包括:时间分布上,国外研究虽早于国内,但研究高潮期和趋缓期基本一致;通过节点性论文计算和高频关键词共现分析,发现国内外研究主题相似,但国外研究注重将知识图谱与知识管理、信息检索、本体等相结合;从学科分布、核心期刊和边缘期刊,判别该领域发展的跨学科概貌,发现国外研究的学科范围广泛、交叉特征显著,国内研究主要集中在图书情报学科,学科范围较小;通过核心作者综合指数计算、合作分析和机构分析揭示该研究领域的人物关系,发现国内外知识图谱研究分别形成两大主要学派。国外形成以可视化工具开发和算法分析为主的技术学派,以及主要利用科学计量学理论及相关方法、知识图谱软件等进行分析研究的应用学派。国内也主要形成两大学派:一是以科学计量学为理论基础,利用可视化方法研究科学学与管理学、科学技术合作等领域的科学计量学学派;二是以电子资源数据库为数据源,通过可视化方式展示某一学科的研究前沿和发展动向的知识图谱应用学派。最后,本研究提出,知识图谱主题的弱化与衍生、跨学科研究与应用和知识创造者的合作创新是该领域的三个发展趋势。

       随着知识图谱的主题衍生和跨学科的研究与应用,知识图谱在为文献计量、科学评价和学科发展研究提供方法和工具的同时,其基于高被引论文、主题、流派、核心机构、核心作者、合作作者等多个维度的聚合和可视化呈现方式,更可为知识组织视角下信息资源的多维度聚合与可视化研究提供崭新的理论与方法基础。在实际应用中,一方面,可通过MATLAB和Mathematica、Maple等数学软件提供的接口,直接实现面向信息资源聚合的数据分析和可视化;另一方面,可为当前众多知识图谱的分析和绘制工具如CiteSpace、HistCite、NetDraw、UCINET等,开发支持多维度聚合与可视化应用的接口,从而促进现有引文分析工具在信息资源聚合中的应用。

       (收稿日期:2015-05-08;修回日期:2015-07-03)

标签:;  ;  ;  ;  

知识地图研究的背景、流派与趋势--基于SSCI和CSSCI的期刊论文测量与可视化_知识图谱论文
下载Doc文档

猜你喜欢