国外知识图谱绘制的方法与工具分析,本文主要内容关键词为:图谱论文,国外论文,工具论文,方法论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 前言
知识图谱是以科学知识为对象,显示学科的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征;作为对科学知识及其间的关系可视化所得出的结果,具有较为直观、定量、简单与客观等诸多优点;是一种有效的、综合性的知识可视化分析方法和工具,被广泛应用并取得较可靠的结论;目前成为科学计量学、科学学、管理学等领域的研究热点与实践探索趋势。知识图谱对图书情报学科具有更重要意义,目前图书情报研究“知识化”现象明显,知识图谱大有用武之地,不仅可以可视化学科知识结构,也有助于信息检索、文献分类与知识服务等[1]。
在知识图谱的研究中,对绘制方法与工具的研究一直是其重点,国外众多学者关注于知识图谱绘制方法的改进及提出新的方法,开发功能强大、使用简单、展示形象的可视化软件。本文把“知识图谱”主要限定在Science mapping、Bibliometric mapping、Literature mapping、Mapping knowledge domain等内容[2],主要是对狭义知识图谱的分析:运用文献计量学方法,通过文献知识单元分析来可视化科学知识的结构、关系与演化过程。对知识地图、认知地图、概念地图、天体图、地形图等内容没有关注。通过阅读,发现许多论文涉及多个方面,例如纯理论思辨性论文很少,一些论文提出新的方法与思路,同时往往通过案例予以实证;而对某一领域或学科可视化研究中也常用到系列知识图谱方法和工具。
2 知识图谱的绘制流程
早在1997年,White等人将文献计量可视化的步骤归纳为5点[3];针对新环境下的知识可视化,Brner(2003)等人将其分为6部分:提取数据、定义分析单元、选择方法、计算相似度、布局知识单元和解释分析结果。Cobo(2011)等人则将其分为7部分:数据检索、处理、网络提取、标准化、作图、分析和可视化。我们认为知识图谱绘制过程可由8部分组成,具体内容见图1。
2.1 数据检索
样本数据的检索与获取是绘制知识图谱的前提和基础。大型文献数据库的建立并提供网络访问,可以较大批量下载数据,为样本获取提供方便。最常用的数据库有WoS,Scopus,Science Direct、USPTO等;也出现了Google Scholar、arXiv、CiteSeer等许多网络数据库。已有许多研究对各类数据库的功能、收录范围、覆盖广度、质量对比分析,结果表明文献数据库都各有特色,特别是新兴的网络数据库具有新的功能,例如CiteSeer实现了基于语境的引文分析功能[4-5]。
科学知识图谱常以传统文献为数据源,但是越来越多的科学知识通过网络交流和获取,学术网站网关记录了远远多于引文数据的网络日志,这些日志保存了即时出版行为和大量的用户行为记录。Bollen等人使用出版商、机构联盟等著名学术机构网站中超过10亿用户的记录,从用户交互日志中提取了点击流模型,并进行验证;他认为点击流数据能够产生更清晰、更详细、更及时的科学图谱[6]。在另一研究中,Bollen认为通过期刊的使用记录来可视化学科知识,认为与WoS数据相比,更能反映最新的情况[7]。Leydesdorff使用中国科学引文索引(CSOD)进行期刊共引的可视化,发现CSCD的差异,例如包括大量的大学学报,期刊也更具有跨学科性质[8]。Park通过网络计量方法研究了韩国e-Science研究的内容变化、学科范围与研究机构;具体使用LexiURL提取“yahoo.com”网站中的数据,然后可视化网页间的链接及网页中的术语[9]。在拉美,交互式科学中心和博物馆是科学交流的关键机构,Gouveia对18个这些机构的网站间关系进行可视化展示;具体使用AltaVista收集数据,聚类和多维尺度分析网站间的共链情况[10]。Harries等人认为与引文类似,学术网站间的链接能用来可视化学科结构及学科间的联系;具体对数学、物理和社会科学的系列网站对比分析,发现链接与引文的类型、不同学科的链接特征、站内链接与站外链接的差异[11]。
2.2 数据预处理
知识可视化的质量、合理性和可靠性很大程度上依赖于所用数据的精确性和全面性。即使最权威、公认质量很高的WoS,也存在数据著录格式(如人名和地名的不统一)和遗漏的问题。从数据库检索出原始数据需要经过系列预处理才能分析,例如改正字符错误,统一或增补国家和机构名等。另外,为进行历时或分时段的对比分析需要对数据分段处理;如果样本数据过大,需要进行有代表性的抽取,例如选择高被引论文、机构或发文最多的作者等。
作者是知识创新和管理的主体,但对作者的识别与去重一直存在问题,涉及作者、机构与国家等知识单元计量与可视化的准确度(尤其是微观层次的分析),特别是随着网络环境下作者数量剧增,中国等发展中国家作者的大量出现,这一问题更加复杂。目前存在的方法有人工识别、模糊匹配、多阶段匹配,结合心理学的认知地图和网络分析中的ASE(Approximate Structural Equivalence),Tang提出一种基于知识相似度(例如计算所发表论文参考文献的相似程度)的识别作者唯一身份的新算法;通过实证表明该方法算法更简单,识别度更好[12]。Shiffrin等人提出知识可视化的基础是高质量的样本数据,对不同格式和不同质量数据的清洗和预处理是必不可少的过程;对样本数据最好能免费自由地公共获取[13]。
2.3 构建知识单元
知识单元是知识处理的基本单位。在知识可视
化过程中,常见的知识单元有:关键词、题名、作者、机构、刊名、分类号、学科等等。目前也扩展到摘要、参考文献和全文之中,另一方面也有两种或以上的单元结合进行可视化分析(例如共词与共被引结合),来达到更好的效果[14]。不同的知识单元具有不同作用,例如期刊图谱可以获取学科的全貌,也能对各学科的定位及其关系可视化,还能微观分析特定学科。而文献这一层面使用最广,被用于知识评价、知识检索、学科结构等多方面[15]。“作者”单元最典型的应用包括:通过作者共引来推断学科知识结构与流派,利用合作网络可视化学者与地域间的合作交流。利用“关键词”知识单元构建语义网,这些词来自论文的标题、摘要、关键词或全文,组成的图谱可明晰特定领域的研究内容、未来的研究趋势等。除简单个体统计外,对知识单元关系可视化研究需要定义测算指标,目前一致认同的是1997年White的描述[16]。他把知识单元关系分为两种:一种是文献(单元)间的直接联系,用前缀“inter”表示。另一种是知识单元在一个文献(单元)内的共现,用前缀“co”表示,例如共词、共被引、共分类号、共标引词等。另外,Zitt等人将知识单元关系分为基于引证关系的和基于词语义的两种不同方式,通过实证分析,以块状矩阵图对比其异同,认为两者不能替代或混合,而只能相互补充[17]。
知识单元关系分析中,Small可视化引文分析的语境,具体分析学术论文中施引部分中,相邻文本的语义(对被引文献的态度和喜好),分为全局和局部、学科间和学科内两个层次对比分析出现的词语语义特点[18]。Small也将共引中的语境分析运用于学科间知识交流的可视化,他认为通过分析引文上下文的关键术语可以了解作者引用时的动机和想法,跨学科引证主要体现施引者“类比”和“表达不确定性”两种语义[19]。从20世纪90年代起,对全文文本的统计分析与文献计量研究的相互借用与结合已有初步探索,Glenisson等人有系统的研究。他认为全文文本挖掘与文献计量结合是一种可行的方法,文献计量可视化适合结构方面的分析;全文挖掘能提供额外的信息,扩展、改进、描述和解释文献计量形成的结构图[20]。Van Eck认为术语图(比论文关键词更广)是通过展示术语间的联系来可视化特定学科领域的结构,术语需要人工选择或领域专家判断,存在的缺点是主观性强、费时费力;他提出一种术语的自动识别新方法,以运筹学为例,所产生的术语图通过该领域专家分析表明方法非常理想[21]。借鉴H指数思路,Schubert提出基于H指数相似度的期刊聚类可视化算法,通过实证分析,认为其结果能对现有的学科分类方法进行补充和完善[22]。
Ahlgren对比文献耦合和论文文摘抽词,这两种知识图谱关系构建方法。具体使用《信息检索》期刊上的43篇论文为样本,由业内专家对其人工分类,通过Cosine对原始数据标准化。无论是耦合强度和文摘词干频次的排序,还是由两种方法形成的聚类结果,两种方法的相似度都很低;两种方法形成的聚类结果与专家得出的分类结果相似度也不高[23]。在后续的研究中,Ahlgren使用同样的样本和方法,对5种知识单元间的关系(包括两种基于文本术语、一种基于引证关系的文献耦合、两种文本和耦合相结合),用5种方法进行了实证分析;具体应用Rand指数对比了这些方法形成的分类与人工分类的相似性,相似算法使用一阶和二阶两种。结果表明通过这些自动的可视化分类可达到较高的准确度;基于二阶算法,一种基于文本和基于混合方法的效果最好[24]。Jarneving对比了在研究前沿可视化中,文献共引和耦合两种方法,以JCR中环境科学高被引的50种期刊73 379篇论文为例,对比了使用两种方法形成的聚类与内容[25]。Brner对比讨论了用不同方法,综合、及时地洞察学科知识,并提议使用语义网作为已有知识关系分析的可行替代和补充,详细例证对比了三种用来描述和了解学科知识的方法:问卷调查、文献库中的引文数据和个人书目记录[26]。
2.4 数据分析
为便于可视化,简单地频次计算的单元数据,往往需要标准化与简化。标准化常常通过数据间的相似度测量,主要有两大类:一是集合论方法(Set-theoretic measures),包括Cosine、Pearson、Spearman、Ochiai指数和Jaccard指数;二是概率论方法(Probabilistic measure),主要有合力指数(Association Strength)和概率亲和力指数(Probabilistic Affinity)。Van[27]从理论和实证分析都得出第二类方法更适合于共现的知识单元分析。为发现知识间的关系,更好地展示各单元,需要样本数据的进一步处理,即简化分析:因子分析、多维尺度分析、自组织映射图(SOM)、寻径网络图谱(PFNET)。此外,还有聚类分析(Cluster)、潜在语义分析(Latent Semantic Analysis)、Force Directed Placement(FDP)、三角法(Triangulation)、最小生成树法和特征向量法(Eigenvector)等。
基于知识单元可视化和聚类的原理和假设前提不同,Waltman等人提出知识可视化和聚类结合的统一方法;实证认为VOS可视化技术和基于权重参数变量的模块化聚类方法,都源自相同的基本原则[28]。Van Eck对比了传统的多维尺度分析和新兴的VOS(Visualization Of Similarities)方法,在理论算法上分析了两者的数学关系;通过作者、期刊和关键词三方面图谱实证发现,VOS比MDS产生的图谱更加真实与形象(特别是较大规模的样本)[29]。
近年来,在高质量语义可视化知识图谱中,Pathfinder算法常常用来对大规模、复杂的知识单元关系网络简化;但是传统的Pathfinder算法复杂。Quirin提出Fast Pathfinder算法,实证分析表明其结构简单且计量时间减少[30]。Cointet提出非对称范式临近算法(Asymmetrical paradigmatic proximity)从大规模底层微观数据中提取知识结构和范式,该算法的优点是既不要处理全文,也不要在动态构建学科范式的多层结构时对术语进行特别处理[31]。具体从几百万篇文献中提取“复杂系统科学”的概念术语,他们详细阐述了三层知识图谱的绘制,从微观、中观和宏观三个层面展示领域知识的进化情况[32]。Leydesdorff提出双连接(Bi-connected)图形分析算法来可视化知识结构网络,具体使用了JCR(2001)中的期刊共引数据对所有期刊可视化与分类[33]。Polanco在传统SOM基础上,提出Multi-maps,通过图谱扩展,使用多个图从特定角度展示数据;他分析了图谱的产生机制、聚类及聚类的命名,还有各图之间的联系,并且以转基因植物专利为例实证分析[34]。在自然语言中广泛存在一词多义和一义多词的情况,传统的因子分析和聚类分析对知识可视化存在问题;Kwakkel提出了混合因子分析模型(Mixtures of Factor Analyzers,MFA),通过实证表明该方法效果更优[35]。
测度各知识单元间的联系是文献计量的核心任务之一,Gmur以组织科学194篇高被引论文为例,用6种不同的算法(包括原始矩阵、Pearson、因子分析等)进行可视化,对比分析了网络聚类数量、大小、密度和差异[36]。Klavans对不同知识可视化算法设计了整套定量评价框架,包括四大标准:精确度、覆盖面、可测度规模和稳健性,具体测评10种算法在期刊共引图谱的情况。结果表明在小样本量时,对原始数据测度时Pearson算法是最精确的,但是综合考量(包括大样本量和降维处理中),Cosine和改进的Cosine算法效果更好[37]。Moya-Anegon对比分析了SOM、MDS和Ward聚类三种方法,具体以图书情报学科为例,以作者共引和期刊共引两种角度进行分析得出6个图谱;认为三种方法是从不同的角度分析同一事物,三者互补;SOM试图呈现局部修正后的投影视图,而MDS尝试保持所有点间的距离;SOM的框式可视化图更符合人的视觉器官,用户(特别是非专家)观察起来更加舒适和直观;MDS适合于变量集聚类结构的展示[38]。Mccain对比分析了在知识图谱中的文献计量与知识抽取两种方法,以软件工程为例,一方面运用作者共引和PFNet算法分析60位高被引作者;另一方面,运用知识抽取的卡片分类法,通过46个软件工程专家主观得出领域的知识图谱;他认为两方法可互补优势,起到交叉验证的作用[39]。
2.5 可视化与解读
处理后的知识需要在人机界面中有效、精确地展示。早在1996年Shneiderman以“整理现状、引导未来”为目标,从四方面规范了信息可视化框架[40]。在此基础上,Brner等人对知识可视化提出具体要求[41]:具有理解大量数据样本的能力;减少可视化过程时间;对复杂数据集具有良好的理解展示能力;揭示未引起注意的关系与知识;数据集能同时从多个角度展示;结果成为有效的知识决策源。知识单元及其关系可以通过不同模拟来可视化展示,例如几何图、战略图、冲积图、主题河图、地形图、星团图、簸幅图等。
在知识图谱的解读过程中,常常需要对图谱进行相应操作,包括浏览、放大、缩小、过滤、查询、关联和按需移动等。解读方法主要有:历时分析,从时间角度对系列知识单元的模式、趋势、季节性和异常分析,认识现象的本质;往往通过不同时间段的对比,发现领域(知识)在不同时期的变化情况。突变检测,通过检测短时间内知识单元的急剧变化,主要分析知识的前沿趋势,发现知识演变的转折点和焦点。空间分析的数据来源于文献所著录的机构信息,主要分析知识的空间分布,明晰知识的地理位置关系。网络分析,一般借鉴社会网络分析理论,对知识节点及其关系进行测定,相关指标有中心性分析、凝聚子群分析、核心—边缘结构分析。Khan认为运用基于数学图论的社会网络分析,可以可视化科学知识;并提出“核心网络”的概念,它是通过在理论结构、模型和概念间构建网络,来可视化科学知识[42]。
对于知识的地理位置分布,可使用通用软件例如网络工具Google Earth和Google Maps,地理信息系统软件ArcGis,空间计量软件Geoda,社会网络分析软件Pajek等可视化。Leydesdorff通过自编小程序可视化知识,认为在城市这一层次的全局视图中,WoS和Scopus等数据可直接使用,但是在组织或机构层面数据就存在问题;Pajek在可视化时有强大的分析功能,而Google Maps及相关产品具有丰富的网络功能[43]。Klavans认为在评价跨学科和多学科研究影响时,全局性的大图更有优势;通过与Small和Griffith等人已有8个全局图谱对比评价,认为使用VxOrd软件和Cosine算法更适合大图绘制;具体使用的定量评价指标包括局部精确度、区域精确度、学科差异和聚类一致性[44]。
3 知识图谱的绘制工具
知识图谱的绘制工具可分为两大类:通用软件,如SPSS,知识图谱研究常常用到其中的多维尺度分析、因子分析和聚类分析;Ucinet和Pajek为目前最流行的社会网络分析软件,常用来分析与展示知识间的关系,其中Ucinet集成了包括Netdraw在内的多个可视化软件;此外还有词频分析软件Wordsmith Tools和GIS相关软件。专门软件,专门用于知识图谱绘制的软件,也有许多类型,有些是针对某些特定领域,有些是个人未公开的。参考Cobo(2011)[2]的研究,我们对9种专门绘制软件总结如表1所示。
(1)Bibexcel是由瑞典科学计量学家Persson开发的专门文献计量免费软件[45]。其分析功能强大,可从WoS,Scopus等众多数据库中读取数据,提取多种知识单元及关系数据,并通过不同方法简化和规范化数据。但是它的可视化功能弱,常常用于知识可视化前期的数据预处理,然后输出到Pajek、NetDraw和SPSS进一步可视化。
(2)CiteSpace为知识图谱分析工具,由美国Drexel大学信息科学与技术学院教授陈超美博士开发,是适合进行多元、分时、动态复杂网络分析的免费可视化知识分析工具[46]。该软件运行于Java平台,可以读取几乎所有常见格式的文献数据,包括专利、医学数据和中文数据。数据关系矩阵可以使用Cosine、Dice、Jaccard标准化。具体的图谱有三种可视化模式:聚类视图,时间线和时间区域模式,可以聚类展示不同时间段内知识的演化;运用突变检测在知识领域对知识趋势进行展现。
(3)CoPalRed由西班牙Granada大学的EC研究团队开发的商业软件,使用共词单元来分析文献[47],能将已有知识转化提炼,发现新知识;在数据预处理中能将关键词语规范化(例如一义多词情况)。它有三方面的分析:结构分析,在主题网络中展现知识,包括词语及其关系;战略分析,通过中心度和密度,在全局主题网络中为每个主题定位;动态分析,分析主题网络随时间的演变,可以鉴别出主题的路径、分支、出现和消失。
(4)IN-SPIRE具有通过揭示文献间的联系、趋势与潜在主题来获取新知识和新认知的能力,使用模拟自然图像来使用户便利地发现文献间的关系和相似文献集[48]。该工具可读取常见的数据格式,使用向量空间模型来计算文档间相似度;常通过词语来构建图谱,具有关键词自动抽取、突变术语检测和主题聚合等新算法。它提供两种可视化:Galaxies是模仿星空的分布、ThemeScape是在前者基础上构建,形成三维图,将主题看成沉积层,形成自然地貌图。它也提供了系列工具来发现隐藏的知识,例如时间功能(Time slicer)可发现某个主题的增长、萎缩和融合。
(5)Leydesdorff系列软件[49]是由荷兰阿姆斯特丹大学的著名科学计量学家Leydesdorff开发的,由针对特定功能而设计的系列小命令行程序组成。可以处理共词、合作、耦合、共引等知识单元关系。结果可以通过外部可视化软件展现出来;擅长分析国际和大学的合作,城市间合作。对各文献数据库批量数据的组织,设计专门程序,其中关系矩阵用Cosine规范。该套程序对数据预处理功能不强,例如要进行历时分析,需要使用其他软件对数据分段。他也提出“层叠图”(Overlay Map),并开发了工具用于可视化知识的静态布局与动态变化[50]。
(6)Network Workbench Tool是由美国印第安纳大学开发的免费软件,可对大规模知识网络进行分析、建模和可视化[51]。它提供特殊的算法来处理文献数据,可以读取几乎所有常见数据格式,来构建和分析知识网络和图谱。它可以完成数据预处理、不同类型网络构建、知识网络的分析,知识可视化整个流程;也可进行历时性分析。数据的预处理包括去重,分时间段,探测和整合同义词;可以构建多种网络:共引、合作、共词和耦合等,也可以形成作者—文档网络或直接引证网络;可使用众多算法分析知识网络,并进行突变探测;具体图形可视化则是通过外部插件程序。
(7)Science of Science(Sci2)Tool也是由美国印第安纳大学开发的免费软件,专门用于研究科学结构的模块化工具,可从时间、空间、主题、网络分析和可视化等多角度,分析微观(个体)、中观(局部)和宏观(整体)水平的知识单元[52]。它可输入常见格式数据;提供多种方法处理数据;Sci2工具包括DrL等算法和一些可视化插件;可以构建常见的知识单元网络,还能形成作者—引证、论文—引证、作者—论文等直接关系网络。它可通过多种算法可视化实现学术团体检测和骨干鉴定;历时分析可对数据进行时间段分割并突变检测;空间分析是通过地理编码和地理空间主题图完成;主题分析是对词语突变检测和共词分析来执行;网络分析则可进行统计分析和在网络上应用不同算法。
(8)VantagePoint是美国搜索技术公司(Search Technology Inc.)开发的免费文本挖掘与可视化软件[53],可从大量的结构数据中发现模式和关系,快速确定知识内容。它可输入几乎所有的数据格式;也能处理书目数据中不同知识单元。它具有较强的数据去重和分段功能,通过模糊近似匹配和词汇集来提炼主题词语;在处理过程中可形成多种关系:共现矩阵、自相关矩阵、跨相关矩阵和因子矩阵;在数据标准化过程中使用常见的Pearson、Cosine算法;也可形成跨相关图、自相关图和因子图谱。在最新的版本中有两个新功能,一是为便于数据交换与共享,可以XML输出标准数据;二是可按知识的区域进行地图化展示。
(9)VOSViewer是荷兰莱顿大学开发的免费软件[54]。它是Van Eck等人基于VOS可视化技术专门针对文献知识单元的可视化工具,其突出特点是图形展示能力强,特别适合分析大规模样本数据[55]。它不能从文献数据中抽取和构建共现矩阵,数据预处理需要外部程序执行。可视化中具体使用相似性度量从共现矩阵中创建相似矩阵;所形成的二维图,元素间的距离反映其相似性,具体是所有的单元优化后,通过最小化加权的欧几里得距离平方和来实现。它可使用VOS聚类技术(基于模块化聚类)探测学术团体;也可使用其他技术构建众多二维图谱。图谱形成后有四种视图浏览:标签视图、密度视图、聚类视图、分散视图。
此外,Garfield开发的HistCite软件包,能够方便地利用WoS数据,通过某一研究领域的文献以及相互引用情况,来分析以及判定其中的关联以及把握学科的进展,产生编年图谱;特别突出高被引文献并且按年代排列,该软件也能对原始数据中的错误及参数进行探测与编辑,还能对相关术语排序与分析[56]。Dang等人开发了专门针对纳米技术领域的可视化软件——Nano Mapper,它基于网络,在数据库适应性、可视化与分析功能、算法等方面,具有许多重要特色与优点[57]。Thomson Data Analyzer是Thomson科技集团基于VantagePoint技术开发的文献知识分析工具。Systa和Bibliometric Network Analysis也是常见的文献可视化软件。Grauwin等人开发了开源的知识可视化软件Biblio Toolbox[58]。
4 知识图谱绘制的研究展望
知识图谱的研究主要源于三大领域,一是计算机科学领域的数据、信息、知识与知识域可视化研究;二是图书情报领域的引文分析可视化、知识地图和知识网络等研究;三是复杂网络系统和社会网络分析的研究。目前三者的研究方向和内容正在走向融合。由于知识图谱提出的时间不长,大多当做工具或方法来看待;相关理论大部分都是从多科学的简单借鉴,并没有完整的理论体系,真正的理论内核没有形成,只有少量的探索性理论研究。
目前知识图谱绘制方法存在许多问题,未来将在以下几方面着重发展。①相关样本数据的获取更加容易,一方面新的网络数据库增多,可供选择余地更大,出现专门用于知识可视化的数据库;另一方面数据库的功能增加,可方便快捷、免费地获取数据。②知识单元间的测度更加精确与合理,例如通过计算机语义理解,解决作者的鉴别、一词多义和一义多词等词形与词性问题。③方法的融合与改进,在已有知识单元构建关系基础上进一步完善相关算法。在简单频次计算基础上,引入加权和基于位置的相关性算法。例如在共引分析中,可根据两被引文献(或作者等)在同一文献中的附近程度给予不同的权值(如同一句话中,同一段话中,同一部分中);还可根据施引文献的期刊或作者的重要性赋值。④知识图谱绘制软件工具的增多。一方面软件工具能输入的数据格式越来越多,且能够直接从数据库中导入数据;另一方面可视化效果更好、图谱更加真实与准确,能根据需要从多角度对知识形象展示且能够容纳其他可视化插件、输出标准结果数据。另外,知识图谱绘制与知识挖掘和们人工智能发展密切相关,也很大程度上取决于对人脑的进一步了解;透过表面现象,真正发现学科知识的趋势与规律,并可视化地直观展现,还有很长的路要走。