知识图谱研究现状及趋势的可视化分析*,本文主要内容关键词为:图谱论文,现状及论文,趋势论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在知识经济时代,图书情报学科面临着理论与实践的重大变革。实践工作方面,除过去的简单文献提供活动外,更需要深入挖掘知识内容,提供知识服务,特别是把握科学发展趋势,为各学科提供战略决策服务;理论研究方面,“知识化”趋势也十分明显。知识图谱是对科学知识以可视化的形式直观展示,且深入知识内部对其发展进程与结构关系进行系统分析。具体来说,知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心框架、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法[1]。知识图谱研究是图书情报学科的重要研究内容,也成为其发挥作用、影响其他学科的重要方面。近年来,知识图谱悄然兴起,国内相关研究不断涌现。与一般的文献计量论文不同,本文从不同层面、多角度统计分析,旨在总结现状,为相关研究和课题的开展提供参考,推进我国知识图谱研究的持续发展。
1 数据来源与研究方法
本文选用中国知网作为研究的数据来源,具体检索词为“知识图谱”,通过篇名、关键词、主题三种方式,选择“精确”检索途径;检索时间段设定为1981年至2011年;具体检索日期为2011年10月19日。得出的检索结果见表1。(1)相关博士论文有3篇,当然许多博士论文没有授权给中国知网,有些论文公开存在时滞,故实际的相关论文数会更多(如通过“中国国家图书馆学位论文收藏中心”检索)。大连理工大学刘则渊教授指导的有2篇。侯海燕的《基于知识图谱的科学计量学进展研究》出版时间较早(2006年),被引量也较大(44次)。另外,还有2009年南京农业大学秦长江的论文《基于科学计量学共现分析法的中国农史学科知识图谱构建研究》。(2)相关7篇硕士论文有4篇来自大连理工大学刘则渊教授的研究团队,另外3篇来自中国科学技术大学闫明的《中国创新管理研究的知识图谱分析》、上海交通大学何南洋的《图书情报学知识图谱的构建及解读》、南京理工大学陈祖香的《面向科学计量分析的知识图谱构建与应用研究》。(3)相关16篇会议论文也有10篇是来自大连理工大学。其他的则较为分散。这些论文来源较多的有“第二届中国科技政策与管理学术研讨会”、“第四届中国科学学与科技政策研究会学术年会”、“首届中国科技政策与管理学术研讨会”、“第12届中国科协年会第31分会场海峡两岸区域合作与协同发展论坛”等。(4)相关图书方面。经过不同的检索途径发现,2008年刘则渊在人民出版社出版的《科学知识图谱:方法与应用》,以及他指导的博士论文所出的系列图书,涉及科学学、管理学、科学计量学和专利等方面。此外还有李运景的《基于引文分析可视化的知识图谱构建研究》、汤建民的《基于中文数据库的知识图谱绘制方法及应用》。(5)相关课题方面。除涉及知识可视化相关课题外,专门针对知识图谱的国家社会科学基金课题有2007年陈悦的“基于科学知识图谱的中外创新管理研究”、2010年王贤文的“科学发现模式的知识图谱与逻辑结构”;在2011年国家社科基金的课题指南中有“图书馆学情报学知识图谱研究”,实际立项有肖明的“基于多方法融合的中外图书馆学情报学知识图谱实证研究”和杨思洛的“中外图书情报学科知识图谱比较研究”。教育部社会科学基金项目有:2009年汤建民的“基于国内文献数据库的学科知识图谱绘制方法研究”;2010年潘黎的“基于科学知识图谱的中外高等教育研究之比较”、胡海鹏的“应用科学知识图谱的外语学科30年发展研究”;2011年杨明海的“基于科学知识图谱的海外高层次创新型科技人才引进的岗位测算研究”、魏瑞斌的“学术机构知识图谱构建及其应用研究”。(6)以“关键词或篇名”方式检索出的相关期刊论文有178篇,将在后面详细分析。
本文使用文献计量分析法,将相关论文下载到Excel进行分类汇总处理,使用VBA自编程序和使用BICOMS软件对合著和共词分析,并通过Pajek和CiteSpace软件可视化结果。
2 研究论文时空分布
2.1 论文的年代和期刊分布
衡量某领域发展的重要指标就是学术论文数量的变化,对其统计并绘制相应的增长曲线,为评价该领域所处的阶段、预测发展趋势具有重要意义。2005年陈悦和刘则渊发表了国内第一篇相关论文《悄然兴起的科学知识图谱》,随后的3年大都是刘则渊团队的作品,后面年份则有所扩展。从论文的数量来看,2005-2007年相关论文很少,相关研究处于起步阶段;从2008年开始,各年论文数量大幅增加,引起了多个学科领域的关注与重视。2011年仅仅是一部分数据,有理由相信在近几年,知识图谱研究仍将快速增长。相关论文大部分都发表在核心期刊上(特别是在早期),说明知识图谱论文的质量较高,当然也与相关研究需要掌握一定的工具与技术,有一定的门槛相关。在近年来,核心期刊论文的比例有所减少,相关研究有扩散的趋势。
研究相关论文的期刊分布是掌握领域的空间分布和领域重要的有效方法。178篇论文发表在76种刊物上,大都是图书情报领域期刊和科学研究管理刊物。通过对相关论文的学科统计,发现涉及的学科中,前5位为:图书情报(56篇)、科学研究管理(33篇)、企业经济(14篇)、计算机软件及计算机应用(10篇)、高等教育(10篇)。表2为载文量最多的前9种刊物(载文量大于5篇),这些刊物属于情报学和科学学领域,都是核心期刊。如果以期刊所载相关论文的篇均被引和下载量作为衡量期刊影响力指标,科学学领域的期刊明显高于图书情报领域,一方面由于被引和下载量具有累积性,发文较早自然较高;另一方面则是相关影响力的研究发表在科学学刊物上。对于下载量,《情报学报》的数据比较特殊,明显存在误差,可能是期刊社与数据库商之间的授权相关,这也在一定程度说明文献计量中,原始数据选择的重要性。
2.2 论文的机构分布
178篇论文涉及的单位中,发文量超过2篇的有35个机构,除中国科学院国家科学图书馆、军事医学科学院和中国科学学与科技政策研究会外,全部来自高校,这也说明知识图谱研究的力量集中在大学内。对机构的分析能够了解领域研究力量分布及机构间合作情况。机构分析有不同层次,其一是直接使用作者所著录机构情况,了解机构合作的微观结构,图1为机构间的微观合作情况,其中删除了孤立结点,从上到下按合作网络的节点多少排列。
另一种是对著录信息调整补充,可展示其宏观结构,例如对同一单位(高校)的合并,可了解高校间合作;对同一国家或地区合并,可明晰国家(地区)间的交流状况。图2为高校这一层次的可视化,有利于了解领域研究中各高校的合作,即外部交流情况,克服微观层面的一些不足。例如国内高校许多院系同时设立了研究中心(所),一个学者在高校内部的身份有多种;另外,有的内部机构著录也不统一,如大连理工大学WISE实验室等。合作机构主要是:一是在职读博、进修所形成的交流;二是同学间关系或知识互补形成的合作;三是同一类型机构的交流,例如福建师范大学、华中师范大学和天津师范大学的合作,都是其体育学院合作发表体育方面的学术论文。
结合图2和图3,研究机构大部分都不是图书情报领域,说明相关知识图谱研究的广泛性。其中最有影响的是大连理工大学,它有多个院系(研究中心)从事这方面研究,而且合作交流频繁,特别是与国外机构交往密切。作为实力雄厚的图书情报院系,武汉大学信息管理学院及其研究机构也发挥重要作用。另外,中科院及相关机构是专门从事科学研究的,对科学知识的可视化自然与其紧密相关,也发表系列论文。图3节点大小表明论文量,对比图2可看出,南京大学和军事医学院等单位发文量较多,但与校外并无合作关系;江苏大学和嘉兴学院则校内外机构合作都没有。
2.3 论文的作者分布
178篇论文共有390位作者,一方面有少量的高产作者,持续且深入地研究。另一方面则存在大量分散作者,有159位作者仅发表1篇论文(41%)。表3为发表超过6篇的作者发文情况,其中领域H指数定义为在知识图谱领域发表N篇论文至少被引N次。作者合作网络图既可选择所有作者形成全景图;也可选择一定的频次阀值形成核心图。图3为相关发文量超过2篇的核心作者网络图,图中边线粗细代表合作频次,节点大小表示发文量,其中多人合作形成的网络图1个,4人合作网络图1个,3人和2人合作图分别有4个。图4为所有作者间的合作网络,图中边线粗细代表合作频次,但节点统一大小。结合表3、图3和图4,可发现有以下主要研究团队:(1)刘则渊团队。刘则渊主要从事科学学与科技政策管理研究,他是国内知识图谱研究的早期探索者,也是目前领域中影响力最大的学者,他成立大连理工大学网络-信息-科学-经济计量实验室,并与国外多名著名学者合作。其团队人数众多,主要由他的研究生和同事组成,承担了系列课题,发表了众多论著。(2)汤建民团队。汤建民为浙江树人大学教师,其团队主要由其同事组成,他主要以国内数据为基础,运用传统可视化方法进行研究,承担了教育部课题。(3)赵蓉英团队。赵蓉英为武汉大学信息管理学院教授,多年从事信息计量教学与研究。其成员主要由她带的硕士生组成,近年来相关成果显著。(4)宗乾进团队。宗乾进及其团队成员都为南京大学信息系硕士生,近年来他们利用CSSCI数据的优势,组成南京大学知识图谱研究组,针对特定学科发表系列论文。(5)马费成团队。马费成教授针对其主持的国家自科基金重点项目,绘制生命周期理论知识图谱。(6)卢章平团队。卢章平在江苏大学科技信息研究所工作,其团队主要围绕国家社会科学基金项目“欧美图书馆学博士学位研究课题分析”进行的。
3 高影响力论文分析
文献被引用是业界专家对其的一种共同肯定,也是其影响力评价的重要且客观的指标,通过对高影响力论文的分析,可快速地找到领域经典的文献。被引量是学术影响力的总体反映,被引7次以上的共有20篇论文。2005年陈悦和刘则渊的《悄然兴起的科学知识图谱》是国内发表最早的论文,其被引也最高,达90次。被引量最高的20篇论文有13篇是由刘则渊教授团队贡献的,充分说明了他的影响力。在发表的刊物方面,图书情报和科学学研究刊物各有9篇,另外高等教育类刊物2篇,还有7篇发表在《科学学研究》上。
在网络环境下,下载量反映了论文在网络中的影响和被利用的能力,各论文下载量远远大于被引量。从某种意义上说,下载频次可以更直接地显示论文被读者使用的情况,避免一些人为因素和不良引用动机的影响。相关论文中下载量大于500次的共有25篇,与高被引论文相比,显著差异就是其发表时间更晚,有5篇是近两年出现的,具体的次序也有区别,下载量与被引量间关系是一个值得深入研究的问题,例如是否近期下载量预示未来的被引量,被引量与下载量差异较大的论文有哪些特点等。秦长江和侯汉清在2009年发表的《知识图谱——信息管理与知识管理的新领域》下载量遥遥领先,高达1303次。下载量高的作者、期刊分布与高被引量情况大致相同,而且被引量最多的20篇论文与下载量最多的25篇论文中有15篇是相同的(被引量前13篇论文都包括其中),说明被引量与下载量之间确实存在一定相关性。表4为被引量与下载量均较高的论文,我们认为是领域的高影响力论文,这些论文主要由刘则渊教授团队完成,而且大都发表在科学学与科研管理期刊上,说明图书情报领域在知识图谱研究方面的薄弱与不足,有待加强。
4 研究论文主题分布
论文的关键词是其内容的浓缩和提炼,关键词的分布频次与特征能显示某领域总体特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向、学术研究的重点与热点等[2]。178篇相关论文共有775个关键词,出现2次以上的关键词有89个,对这些词构建共现矩阵,然后再通过Pajek可视化,得到图5。图中连线粗细代表共现次数,节点大小代表词出现频次。图5中相关关键词主要可分为四类,即对知识图谱的理论分析的词汇、介绍知识图谱绘制工具与数据来源、论述绘制方法及知识图谱的具体应用领域。结合浏览相关论文全文,下面分别对各部分内容进行详述。
4.1 知识图谱理论研究
知识图谱理论是知识图谱应用研究的基础,国内研究大多从知识图谱的起源[3]、相关概念[4]、基本原理等方面进行论述[5]。陈悦和刘则渊最早对知识图谱进行定义,认为它是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,也是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果[6]。秦长江和侯汉清认为,知识图谱是信息管理与知识管理的新领域,并总结它的发展历史、相关概念、关键技术、相关软件和应用领域[7]。廖胜姣和肖仙桃研究了国外科学知识图谱的应用情况与发展现状,并总结国内外研究进展差异[8]。此外,梁秀娟结合国内外在引文分析和可视化方面的最新研究,从定性的角度综述了科学知识图谱起源、概念、绘制方法、应用及研究展望[9]。魏瑞斌总结国内知识图谱期刊论文的外部特征和内容特征,提出今后的研究需要加强学科间的合作、加强基础理论研究、创新研究方法和优化数据质量[10]。
4.2 绘制工具与数据
国内专门研究知识图谱绘制工具和数据来源的研究较少。姜春林和陈玉光结合CSSCI数据格式特点,解决了文献分析软件Bibexcel不能处理中文文献的瓶颈问题,实现了知识单元共现关系矩阵[11]。廖胜姣从界面和数据处理、绘图功能以及所绘制的图谱特点等方面着手,分析SPSS和TDA在绘制科学知识图谱方面的功能及不足之处。另外,周春雷和崔雷等人对中国知网、万方数据的自动统计、生成矩阵等各自编制了软件[12]。由于CiteSpace不能直接分析中文数据库资源,南京大学宗乾进等人开发POPCite对所下载的文档进行预处理[13]。
(1)知识图谱绘制工具中,CiteSpace占有最大比例,它是由长江学者、大连理工大学特聘教授、美国Drexel大学信息科学与技术学院教授陈超美博士开发,是适合进行多元、分时、动态复杂网络分析的可视化知识分析工具[14]。从2004年至今有多个版本,其特点是直接导入数据库套录数据,可生成多种可视化图谱。Bibexcel是一款专门的文献分析软件,可实现文献统计分析,常常作为知识可视化的前期处理工具。SPSS是通用的社会统计软件,知识图谱研究常常用到其中的多维尺度分析、因子分析和聚类分析。Ucinet和Paiek为目前最流行的社会网络分析软件,常用来对知识间的关系进行分析与展示,其中Ucinet集成了包括Netdraw在内的多个可视化软件。此外,有些工具有少量使用,Bicomb为中国医科大学崔雷开发的针对中文数据库的类似于Bibexcel的文献分析软件。Wordsmith为文字统计软件;TDA为汤姆逊公司开发的文献分析工具;VOSViewer为荷兰莱顿大学开发的专门用于信息可视化的工具;Systa也是一个文献可视化软件。(2)知识图谱的数据大都来源于文献数据库,其中WoS占了大部分,WoS包括SCI-E、SSCI、AHCI及CPCI。国外数据库使用较多(特别是研究早期),一方面是知识图谱工具与软件大多来源国外,对国外数据库支持更好(例如早期CiteSpace不能分析中文数据);另一方面是国外研究较为先进,要可视化领域的现状与趋势,用国外数据更合适。中国知网包括系列数据库,数据较全、获取简单,也使用较多,但对引文可视化的支持不好;CSSCI数据质量较高,且便于引文分析,有较多使用。另外维普和万方数据库也有论文使用,还有其他少数来源被针对特定用途而使用到。
4.3 绘制方法
知识图谱绘制方法主要来源于信息计量学和社会网络分析等方面,国内相关研究主要借鉴和引进国外方法,专门提出或改进方法的论文很少。秦长江采用作者共引分析方法,分别利用传统的因子分析、聚类分析、多维尺度分析以及先进的社会网络分析方法和软件,对采用的两种技术方法所构建的知识图谱的特点、差异和效果进行对比分析[15]。周春雷提出引荐分析法,它综合了引文分析法和知识图谱等方法,通过分析高影响力作者的施引列表来寻找该作者眼中的学界同行,从而获得较为精确的领域研究结构全景图[16]。
知识图谱研究论文使用的绘制方法可为分三大类:(1)共现分析。共词方法在绘制图谱中使用最多,它主要分析关键词共现,因为关键词是从论文中提炼的能够反映基本内容的词,也是论文的浓缩与精华,具有规范性,是对领域现状与趋势的重要研究源。另外,也包括对主题和摘要的分析,例如利用CiteSpace的突变词探测技术和算法,结合词频时间分布,将频次变化率高的词从主题词中探测出来,构建发展趋势图谱。机构共现主要研究机构之间的合作情况,除单位合作外还包括对国家之间的合作交流。学科共现主要是针对一些论文著录有多个学科的情况,可用来表示特定研究领域涉及的学科以及这些学科之间的联系程度。作者共现则分析某领域合作情况与合作网络。(2)共(被)引分析。文献共引方法也使用较多,主要是在利用CiteSpace软件时使用此方法对领域的经典文献、知识结构进行分析。期刊共引用来研究领域核心期刊群体的结构、领域的主流研究类别及其关系。作者共引则常常研究学术流派和学科结构。(3)多元统计。知识图谱绘制中使用较多的是多维尺度分析、聚类分析和因子分析。多维尺度分析通过低维空间展示知识间的联系,并利用平面距离来反映对象之间的相似程度,常常与层次聚类分析结合。因子分析是指从变量群中提取共性因子,以少数变量表达大部分内容的统计技术。各方法往往与特定的工具软件相对应,如在采用聚类方法和因子分析时大多选择SPSS;在社会网络分析时多选择Ucinet和Pajek;对文献共引分析和主题探测分析则使用CiteSpace。内容分析法是运用多个统计、推理、比较的分析方法来透过文献现象看本质,最早萌发于新闻界,后来扩展到图书情报乃至整个社会科学领域[17]。内容分析法与其他方法有很大交叉,通过浏览全文发现有3篇论文专门提到此方法。
4.4 具体应用领域
国内对知识图谱的具体应用研究较多,具体应用也相对简单,因为一套研究工具与方法,从不同领域就可出系列论文,表5为所有的研究论文中,知识图谱所应用的领域。已有的研究涉及对特定主题、学科、期刊、学者等多方面的可视化研究,有的领域有多个研究论文(以括号中数字表示),大都为同一学者所做的系列研究,也有不同作者从不同角度对同一领域的研究。另外,有2篇论文对国内外企业知识共享和科学学两个领域都进行研究,在国内外统计中都计入。表5中的学科分类主要是依据论文的数量来划分的,社会科学领域的研究较多;与知识图谱相关的图书情报、科学学研究也较多。在“其他学科”分类中主要是一些自科科学、体育领域,也包括少量的人文科学。
5 结语
通过较系统地分析,我们发现国内知识图谱研究取得了很大的进展。目前,一方面内容的研究深度和广度有所加大;另一方面有越来越多的领域从事这方面的研究。知识图谱研究有着美好的前景和重要意义,同时也期待新的发展、突破和繁荣。
未来应着重三方面的研究:
(1)理论研究方面。知识图谱的研究主要源于三大领域,一是计算机科学领域的数据、信息、知识与知识域可视化研究;二是图书情报领域的引文分析可视化、知识地图和知识网络等研究;三是复杂网络系统和社会网络分析的研究,目前三者的研究方向和内容正在走向融合。由于知识图谱提出的时间不长,所以相关理论大部分都是从多科学进行简单借鉴,真正的知识计量理论内核没有形成,尤其从图书情报视角的理论研究需要加强。
(2)方法和工具。研究的规范化问题,不同数据、研究方法和参数设置都会产生不同的结果,使用研究结论随意性大,看似精确的计量分析,实际是由十分不精确的主观判断形成的。例如在已有研究中,共词、期刊共被引、文献共被引、作者共被引都可对学科的结构进行分析,但这些方法到底有哪些差异,适合用在什么地方,或者多个方法结合会产生什么结果,都有待深入探索;对知识单元耦合的可视化分析需要加强,多种方法的结合分析是未来的研究重点之一;知识图谱的进展也有待于引文分析等相关领域的发展[18]。另外,国内研究方法与手段,与国外相比存在滞后,一些新的工具和方法仅少量介绍,更谈不上应用,而原创性的方法与软件的研究则更少。还有,知识图谱研究依赖于高质量的数据,未来国内数据库在检索功能、批量套录、数据规律性等方面需要大力改进。
(3)实际应用方面。国内知识图谱的应用研究有很多,但是一方面仅集中在少数学科,尤其是理工学科方面的应用不足,而这些学科恰恰是最需要把握现状与趋势的。另一方面,缺少理论上的实证分析与可行性试验研究,主要是将知识图谱作为工具,简单应用于各领域。另外,知识图谱的解读无疑是绘制图谱的最终目的和最重要的环节,现在图谱解读很大程度上依赖定性的描述与判断。知识可视化目前处于探讨阶段,其结论也仅起辅助验证作用。而透过表面现象,真正发现学科知识的趋势与规律,并可视化的直观展现,还有很长的路要走。