国外知识图谱的应用研究现状分析,本文主要内容关键词为:图谱论文,现状分析论文,国外论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
知识图谱是以科学知识为对象,显示学科的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征。作为对科学知识及其间的关系可视化所得出的结果,具有较为直观、定量、简单与客观等诸多优点,被广泛应用并取得较可靠的结论。目前成为科学计量学、管理学、科学学和情报学等领域的研究热点。
知识图谱的起源最早可追溯到文献计量学和科学计量学的诞生时期,1938年Bernal制作了早期学科图谱;1948年Ellingham手工绘制了图表,形象地展示自然科学和技术分支学科问的关系[1];同年,普赖斯用简单的曲线可视化科学知识指数增长规律。到20世纪50年代,加菲尔德创制《科学引文索引》,并以编年体形式手工绘制引文网络图谱;随后“文献耦合”、“科学引文网络”、“同被引”、“共词”、“引文可视化”等相继被提出,科学知识可视化成为专门研究领域。从20世纪末开始,随着计算机网络技术的迅猛发展,特别是信息可视化技术的突破,复杂网络系统和社会网络分析方法的引入,科学技术研究受到各国普遍重视,知识的数量、种类和结构呈快速变化,受到基因图谱、信息可视化、GIS和超文本可视化发展的影响而正式提出知识图谱。应用分析是知识图谱研究的重要部分,是其理论、方法与工具研究的目的,受到国外众多学者关注。
1 知识图谱应用研究的总体分析
1.1 知识图谱研究现状
知识是一个内涵非常丰富的概念,它广泛存在于社会各领域。由于是引入的概念,国内对知识图谱的定义也有多种,即使有人用“科学知识图谱”来概括,科学知识也是一个比较大的范畴。我们认为知识图谱广义上包括:生物的基因图谱、教育教学中的认知地图、探索太空的天体图、描绘地形的GIS图、模拟人脑的神经网络图、各种金属图谱等。因为这些都是对(科学)知识的可视化展示。而狭义的知识图谱主要限定在“科学图”(Science mapping)、“文献计量图”(Bibliometric mapping)、“文献图”(Literature mapping)、“知识图谱”(Mapping knowledge domain)等内容[2],主要是运用文献计量学方法,通过文献知识单元分析来可视化科学知识的结构、关系与演化过程。本文则是对狭义知识图谱的分析。
为了宏观了解知识图谱研究现状,以ISI Web of Knowledge为数据源,在“标题”检索项中输入上面从狭义方面理解的知识图谱英文单词,使用截词检索,对检索结果下载、剔除重复和主题不合的论文,得到501条记录。然后再在“标题”检索项输入“(science * bibliometric * literature * knowledge)+visualization”进行扩展性检索,人工筛选相关文献。再对检索得到的文献总体引证情况和H指数、论文涉及作者、机构、年代、类型、国家(地区)、期刊分布分析,重点掌握高被引论文与领域高产作者情况,并通过引证关系进一步获取相关文献。
对知识地图、认知地图、概念地图、天体图、地形图、思维地图(Thinking Maps)、思维导图(Mind Map)等内容,以及一般意义上的信息和知识可视化的论文未关注。发现目前国外对知识图谱及可视化方面的综述性研究有:引文分析历史及其在文献可视化的应用(White,McCain,1997),文献计量方法在科学交流中的应用(Borgman,2002),知识图谱绘制方法的系统总结(Chen,2004),从样本选择、测度、建模、检验与可视化等方面论述网络科学(Borner,2007),对科学研究专业领域可视化的系统分析(Steven,2008)。但目前尚无针对知识图谱应用的最新系统总结。
1.2 知识图谱应用研究的总体框架
知识图谱的应用是其理论、技术与方法研究的目的与归宿,其总体框架如图1。(1)不同时期和不同学者对信息可视化与知识可视化的研究具有不同的侧重点。知识可视化展示主要是为改进人们之间的知识转移与创造;信息可视化是使用计算机交互式展示摘要数据扩大认知,主要用于信息检索[3]。我们认为可以从“知识”和“信息”之间的关系来界定,总体上可认为两者是一种包含关系。而知识可视化也是含义很广的概念,大量出现于知识管理、知识挖掘等领域,知识图谱是其中的重要内容。(2)知识具有累积性,人类的重大进展都是在前人基础上的继续与延伸。文献是记录知识的一切载体,发表研究成果或知识信息是各领域特别是科学研究中不可或缺的环节,所以文献对知识及知识交流具有重要的表征作用。知识图谱一般通过对文献中所含知识单元可视化来形象展示。其中知识单元间的关系网络是重要方面,主要包括三种关系:一是直接关系,作者与作者、单位与单位、关键词与关键词、期刊与期刊等;二是间接关系,例如通过关键词共现分析作者间的可能联系;三是多种知识单元混合关系,例如作者、引文和关键词。不同知识单元的展示具有不同应用,全文可用来分析知识领域和评价绩效等多个领域;共词可揭示特定领域认知结构;作者单元可了解领域的知识结构;期刊单元可分析学科宏观结构或学科间区别。(3)一方面知识单元的可视化,可应用于知识生命周期的整个流程中;另一方面,知识存在于各学科、社会各领域,知识图谱应用广泛。但是对其专门研究的主要是科学学和图书情报领域,具体应用不限于图1所示的10个方面,而且各应用间有交叉。
2 国外知识图谱的应用研究现状
通过对这些论文全文的阅读,发现许多论文涉及多个方面,纯理论思辨性论文很少,对某一领域或学科可视化应用研究中也常用到系列知识图谱方法和工具,下面按论文侧重点归类。
国外学者对知识图谱进行了以下的应用总结。Hook认为知识图谱有四个目的(发现、理解、交流、教育)和六方面的应用(特定领域微观展示、学科宏观可视化、协助教育者课程教学、协调保存文献知识、便于利用数字图书馆、展示知识传播)[1]。Zhang等人则认为知识图谱可以应用于展示领域知识整体结构、可视化分析检索结果,整体把握学科知识,可视化知识领域的进化情况,把握快速变化的知识领域进展[4]。
2.1 明晰学科结构
以前学科知识结构的把握犹如“盲人摸象”,而且“象”是不断变化形状的,知识图谱实现了较为客观、大规模、可重复、自动化地快速展示学科及其结构。Brner等人[5]认为知识可视化是将非空间数据转换为空间图的过程,便于人的认知与理解,可明晰学科知识模式与趋势,并发现隐藏的结构;Zhao可视化了中外数字图书馆领域的研究结构变化,具体使用UCINET和Netdraw软件,通过共词分析对比了1994—2010年各年的状况[6]。Sillanp等人对国际上冲突研究文献可视化,通过对40种高质量期刊中1300篇论文的分析,冲突研究可分为四大主流领域,并认为知识图谱提供了新的内容与应用视角[7]。Janssens等人可视化了图书情报学科的知识结构,具体使用5种代表性期刊的近1000篇论文,对全文内容抽取进行聚类,构建由6类内容组成的图书情报学科图谱[8]。目前已有学科(领域)将书目计量和文本内容分析相结合,进行了可视化研究。在后续研究中,Janssens等人运用Fisher的反卡方算法整合全文和引证信息,进行聚类来对情报科学可视化;具体使用5种代表性期刊的近1000篇论文,通过结合基于距离和稳定性算法,由最具代表性的文献中提取术语展示情报学科的结构组成:信息检索、文献计量、社会方面、新兴的专利分析和网络计量[9]。Zins系统地研究了情报学的学科结构,具体使用德尔菲法对16个国家的57位学者进行调查,分析总结出28种分类表,最后得出由10大类组成的情报学内容结构图表[10]。Harries认为学术网站间的链接能用来可视化学科结构及学科间的联系,具体对数学、物理和社会科学的系列网站对比分析,发现不同学科、站内链接与站外链接都存在差异,建议在对网络环境下多学科结构可视化时考虑背景信息[11]。
2.2 分析研究内容
在开创作者共被引先河的文章中,White和Griffith选取39位情报学核心著者,以1972—1979年SSCI为数据源,多维尺度可视化得出了情报学研究的五大内容[12]。Heersmink具体使用VOSviewer软件、共词分析方法,可视化了计算机和信息伦理领域的研究状况,发现该领域主要围绕隐私、道德和互联网展开[13]。Garrido等人分析论文关键词,以地图的形式可视化了欧洲的医疗系统研究,并对各国的具体情况进行了分析和建议[14]。Chavalarias等人以PubMed数据库为样本,对生物医学领域的235个有关“偏差”的术语可视化,动态展示了各术语间的联系[15]。Zheng对国际上JCV病毒(John Cunningham Virus)研究可视化,进行了主题共现和论文被引聚类可视化(聚类成五部分),发现病毒研究主要集中于对其分离和检测,以及其与维甲酸和肿瘤的联系,采用JCV病毒抗原建立转基因动物模型将是新的研究点[16]。Van Eck等人可视化计算智能领域的现状与发展历程,以5年为时间段对领域发展比较分析;认为计算智能领域主要研究控制、分类、回归和优化四大问题;在其分支领域中,神经网络和模糊系统交叉,进化计算领域则相对独立[17]。Baldwin可视化痴呆与伦理领域,具体使用共词绘制“星空图”图谱,把该领域分为专业护理、生活问题、决策和治疗四大类[18]。
2.3 描述科研合作
在“大科学”时代,合作研究成为一种主流的科研模式。Noyons等人认为知识图谱有潜力成为科学合作研究的重要工具,可视化分析了三个荷兰研究机构,具体包括三个方面:合作情况(通过作者合作网展示,代表了过去或现存的合作)、研究交流情况(通过三个机构间的相互引证图,代表潜在可能合作)、研究相似度(通过共词网络,代表可能合作的着手点)[19]。为通过知识图谱识别潜在的科学合作,Boyack假设学者属于同一个基于论文层次的小学术团体,则是潜在的合作者;使用WOS的100多万篇论文,经过文献耦合可视化聚类成117 435个团体;并基于微观(作者)层面对美国桑迪亚国家实验室分析,认为可扩展到其他机构间的合作识别:一是识别两机构的学者间具体的潜在合作;二是潜在合作对象按重要程度列表,可用于科研决策[20]。Leydesdorff等人研究各种格式转换的小程序,来可视化不同层次间的合作,认为在城市这一层次的全局视图中,WOS和Scopus等数据可直接使用,但是在组织或机构这一层面数据就存在一些问题。这些软件各有优缺点,具体选择依据所研究目的,Pajek在可视化时有强大的分析功能,而Google Maps及相关产品具有丰富的网络功能[21]。Grauwin等人开发了开源的知识可视化软件Biblio Toolbox,认为可以快捷、客观地展示科学机构间的合作关系,并以法国里昂一个研究机构为例,构建不同角度的科学机构图谱[22]。
欧盟科技框架计划(Framework Programme,FP)是当今世界上最大的官方科技计划之一,为促进欧洲经济具有长期竞争力,产生研究合作网络是该计划的重要目标。Schiebel可视化欧盟第四计划(FP4)研究中合作和协作模式,包括所有欧盟成员国的工业、研究和教育部门,具体分为大学、工业和非学术研究机构三方面描绘了该计划整体合作情况,也可视化了其中的特定项目——交通研究项目合作[23]。
2.4 预测学科前沿
识别和可视化学科的潜在研究领域及发展趋势是把握研究方向的重要因素。普赖斯最早提出“研究前沿”的概念。Chen把研究前沿定义为“一组突现的动态概念和潜在的研究问题”,并设计知识图谱软件CiteSpace识别和分析新趋势的出现和与研究前沿密切相关的突变[24]。Bollen使用出版商、机构联盟等著名学术机构网站中超过10亿用户的记录,涉及自然、社科和人文学科,从系列用户交互日志中提取了点击流模型(一阶马尔可夫链),经过与已有词汇集对比证明点击流模型有效,最后通过期刊网络可视化展示了各学科间的关系、澄清了人文社会科学与自然科学间的联系;他认为点击流数据能够产生更清晰、更详细、更及时的科学图谱,用于科研资助决策、探索学科间联系、信息的推荐服务,尤其是对探测学科前沿具有重要作用[25]。Small分析了知识图谱与学科范式的关系,他提出新的网络分析工具能为实时监控学科进化提供新方法;通过知识可视化,可预测特定学科的持续发展趋势[26]。
2.5 揭示学科关系
众多学者试图绘制整体学科关系图谱。Small认为学科间关系的可视化可从不同学科学者间的合作和交流、学者借用其他学科的概念或方法两方面观察,并将共引中的语境分析运用于学科间知识交流的可视化[27]。Klavans等人总结了已有的20个对整个科学及其分支学科的关系图谱(可分为等级线性、中心(星形)和环形三种基本形式);通过检验、描述和分析这些图,抽象提炼出一致的科学全景图;全景图为环形:以数学作为起点,按顺时针依次为物理、物理化学、工程、化学、地球科学、生物、生物化学、传染病、医学、健康服务、脑研究、心理学、人文、社会科学和计算机科学;如果把权重最低的边去除,则会形成从数学到社会科学的等级(线性)图;另外由黎曼几何形成的一维图也被讨论[28]。基于科学文献来研究学科及分支学科结构,Leydesdorff等人使用JCR和ISI学科分类体系,期刊间由引用与被引形成非对称矩阵,他认为整个学科体系可通过因子分析聚类的14个学科组成的关系图展示。尽管ISI的分类不太准确,导致期刊引证研究存在问题,但是整体上,通过因子分析科学宏观结构还是可信的[29]。Boyack等人对WOS所有期刊(2000年的7121种期刊)的引证关系通过VxOrd构建了科学的全景图,首先对8种知识单元关系算法所形成的图谱从算法的可扩展性和聚类的可读性两方面评价;用可视化效果最好的2种算法来构建科学的局部和全局图谱;对共被引和互引图谱进行对比分析,互引图谱适合刻画学科之间的关系,其中生物化学是最具跨学科性的学科[30]。纳米科学与技术被认为是综合性的交叉科学,Porter等人使用VantagePoint和Pajek软件可视化纳米研究的学科分布、被纳米研究引证的学科间关系图谱[31]。Klavans等人认为在评价跨学科和多学科研究影响时,全局性的大图更有优势;通过与Small和Griffith等人对已有8个全局图谱的对比评价,认为使用VxOrd软件和Cosine算法更适合大图绘制,具体使用的定量评价指标包括局部精确度、区域精确度、学科差异和聚类一致性[32]。
2.6 促进科研管理
科研活动具有较大的灵活性和不确定性,科研管理是对以探索性、创造性为主的脑力劳动的管理,对知识单元可视化形成的知识图谱在科研管理中大有用武之地。Cathelijn使用VOSviewer对Nature和Science的社论(editorial)可视化,通过聚类和提出关键术语,发现了社论的特色及两种期刊的异同,Nature和Science分别着重关注“内部科技政策问题”和“科学家所处的政策环境影响”。目前有观点认为科学研究正变得越来越大,具有跨学科性,通过知识可视化方法,Porter等人对1975—2005年的6个领域进行实证分析,表明被引学科、篇均参考文献、篇均作者数量都快速增长,而跨学科性(学科多样性指数测度)却增长不明显(大约5%),且主要来自临近学科[33]。Park通过网络计量方法研究了韩国e-science研究的内容变化、学科范围与研究机构,具体使用LexiURL提取“yahoo.com”网站中的数据,获得810个站点的1055网页,然后可视化网页间的链接及网页中的术语,发现网络基础设施(cyber-infrastructure)等是重要术语,由政府资助的e-science研究的网络影响不大且自成体系,提出系列科研管理建议[34]。在拉美,交互式科学中心和博物馆是科学交流的关键机构,Gouveia等人对18个这样机构的网站间关系进行了可视化展示,具体使用AltaVista收集数据,聚类和多维尺度分析网站间的共链情况,并分析其中几个网站内的所有链接,发现语言障碍和人们对机构的认知是影响共链的重要因素,认为需要据此调整相关科研政策[35]。Buter认为知识图谱在科技管理与科技政策制定领域没有得到广泛应用,主要是因为用户不能及时地理解从而使用它们。他认为可以把定性的“概念图”与文献计量图结合起来并开发相应工具,他一方面是研究定性的“概念图”对文献计量图的认知和使用的影响;另一方面研究“概念图”中的最优格式、“概念图”和文献计量图中术语间的关系[36]。
2.7 探究学科历史
Garfield认为“引文的使用在书写科学的历史”,他开发HistCite软件包,能利用WOS数据通过某一研究领域的文献以及相互引用情况,来分析以及判定其中的关联以及把握学科的进展,产生编年图谱,特别突出高被引文献并且按年代排列[37]。Taylor等人使用1450—1900年间世界上1000位著名科学家的履历数据,用来可视化世界城市中科学实践的地域变化情况,绘制了四大知识图谱:16世纪主要集中在意大利的帕多瓦、意大利的中部和北部;17世纪扩展、穿越阿尔卑斯山,成为多中心的网络;18世纪变化、解体成为以巴黎为中心的松散网络;19世纪发生重大变化,形成以柏林为中心并以德语为主导[38]。White和McCain选择100位作者,分三阶段对情报学学科进行作者共被引分析,得出情报学领域的历史变化情况[39]。Havre等人用主题河图来描述学科文献主题随时间的变化,主题的变化随着学科的时间线索而显示出来,主题河由术语的频次支流组成,支流的宽度依据术语在不同时间段上出现频次的不同而发生变化[40]。Lariviè re等人对图书情报学科100年的历史进行了三方面可视化分析,其一是期刊、作者、参考文献、引文的变化情况;其二是术语与主题变化情况(增长的词语、稳定或下降的词语、出现时间较短的词语);其三是跨学科性,与其他学科相互引用情况,作者的跨学科分布变化等[41]。
2.8 进行科学评价
科学是现代社会的驱动力,科学评价是改善和提升科学质量的重要途径。van Raan认为同行评议存在主观性缺陷,知识图谱成为必不可少的客观工具,特别是用于科学资助项目的排序[42]。Pino-Díaz提出一个可视化评价战略研究网络的新方法,并将其应用于“西班牙对保护区的研究”中,通过国内与国际数据,使用二维图和三维图展示,认为知识图谱可以评价知识、促进知识发现和利于知识决策[43]。Medina等人运用网络理论,具体使用引证网络,可视化识别对特定种子期刊最重要的相关期刊,并认为与传统的期刊分类系统不同,该图谱具有新视角和新的应用[44]。Chung等人可视化评价了传播领域学者的网络可见度与影响力,具体包括学者的出现度、各国学者间共现关系网络、学者网络共现与在SSCI数据库中的共现对比分析[45]。Vaughan等人认为公司名字的网络显示度可以作为公司网站链接分析的替代,来评价商业企业,具体使用两公司名称共现网络可视化展示,共现数据来源于一般网站、博客和新闻网站,并对比评价认为来源博客网站的数据效果最好[46]。
2.9 用于学科分类
学科分类是涉及所有学科的基础性问题,由于传统学科分类的缺陷,以及新兴学科、交叉与综合性学科的大量出现,知识图谱对学科分类展示具有重要的作用。与传统的理论/应用二分法不同,Tijssen提出按应用(引证)角度来分类学术期刊,基于“知识应用三角(临床、工业和公众领域)”模型,将WOS中11 000种期刊可视化为六大类型并展示其相互位置,还分析出与工业相关的期刊论文有增加的趋势[47]。基于ISI已有学术期刊分类体系,Leydesdorff等人构建了引用/被引关系矩阵,通过因子分析,可视化为14个因子、172个大类和6164种刊物,并对新兴出现的“纳米科学与技术”类构建三个层面的图谱,发现了ISI分类的一些缺陷[29]。
2.10 检索知识信息
新环境下,如何从海量的知识信息中查找合适的知识,变得越来越重要。2003年5月9—11日在美国加利福尼亚Irvine大学举办了主题为“知识域可视化”的会议,共发表了20多篇介绍知识图谱研究的成果,内容涉及知识可视化的各方面,特别提到知识图谱的作用和应用研究,包括知识可视化对知识信息的方便、快捷、准确地检索和获取[48]。目前公司、政府和科研事业单位需要对海量的信息资料识别、调查、读取、传递和使用,特别是对检索相关信息并决定其用途变得费时费力。Noll等人介绍了文献计量可视化软件工具BibTechMon,用于知识信息的查找、分析与可视化,还可应用于知识管理整个流程[49]。Leydesdorff等人对比两大数据库Scopus和WOS,具体可视化了期刊引证网络。发现虽然Scopus收录期刊数量更多,并且社会科学期刊也较多,但是WOS中期刊引证网络更紧密,主要是因为前者期刊数量多,而后者累积引文数据多;在跨学科和人文社会科学方面Scopus并不占优势[50]。网络时代,专门搜索网上学术信息的学术搜索引擎网站快速发展,它具备个性化、智能化、数据挖掘分析、学术圈等特色,知识图谱也应用其中。ResearchIndex可以图表显示某一主题文献(或某一作者、机构所发表文献)的时间分布。微软学术搜索则在多方面应用知识图谱,如合作关系图(Co-author Graph)、学术引用图(Citation Graph)、领域动态图(Domain Trend)、学术地图(Academic Map)、机构对比图(Organization Comparison)等[51]。
3 知识图谱应用研究的展望
知识图谱的研究主要源于三大领域,一是计算机科学领域的数据、信息、知识与知识域可视化研究;二是图书情报领域的引文分析可视化、知识地图和知识网络等研究;三是复杂网络系统和社会网络分析的研究。目前三者的研究方向和内容正在走向融合。由于知识图谱提出的时间不长,大多当做工具或方法来看待,相关理论大部分都是多学科的简单借鉴,并没有完整的理论体系,真正的理论内核没有形成,对知识图谱的应用与实践缺乏有力指导,导致应用的盲目性。目前知识可视化处于探讨阶段,知识图谱的应用具有一定的随意性,图谱应用解读很大程度上依赖定性的描述与判断,对很多现实的问题无能为力;知识图谱的绘制具有一定的技术门槛,非专家(non-experts)使用困难,这是不能在其他学科和社会领域产生重大影响的制约因素。虽然有些研究对知识图谱绘制的不同数据、方法与工具进行了对比分析,但针对特定研究目标,并没有形成一套明确的应用研究规范,而且已有研究结果也有差异甚至矛盾之处,供对比研究的规范数据样本集也很缺乏。
目前知识图谱作用没有完全发挥,其结论也仅起辅助验证作用,应用方面需要深入加强;同时在广度方面发展,除应用于学科(领域)结构可视化,更在科技管理和科学决策、企业创新与竞争情报方面发挥重要作用。另外,知识图谱应用受其理论的完善方法和软件工具的改进的制约;与知识挖掘和人工智能发展密切相关,也需要与本体等语义网技术结合来可视化应用;还很大程度上取决于对人脑的进一步了解。总之,透过表面现象,真正发现学科知识的趋势与规律,并可视化的直观展现,还有很长的路要走。
标签:知识图谱论文; 聚类分析论文; 可视化管理论文; 信息可视化论文; 网站结构论文; 引证文献论文; 网站分析论文; 文献论文;