知识图谱工具比较研究,本文主要内容关键词为:图谱论文,工具论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言
知识图谱(Mapping Knowledge Domain)是指用可视化技术来发现、描述、分析以及最终展示数据或文本之间的相互关系。具体来说,知识图谱把统计学、应用数学、计算机科学、信息科学、文献计量学等学科的理论和方法相结合,再用可视化的方式来展现学科的发展历程、研究现状、前沿领域以及整体知识框架的多学科融合的一种研究方法[1]。知识图谱的最大优点是一种利用空间形态来形象地表现学科、领域、专业、个人文献或作者间相互关系,旨在展示学术研究中的学科网络结构和变化动态,通过引文分析、共作者分析、共现分析等分析方法来发现学科内和子学科间的联系,掌握当前学术研究的热点问题,预测学科的发展方向。
在讲究海量数据挖掘的今天,将这些杂乱无章的数据进行梳理,再通过一些可视化软件工具来形象的展示,对商业智能研究、数据挖掘研究、信息管理研究等领域来说,无异于锦上添花,一图胜千言,在Web 2.0、社交网络盛行以及大数据来临的时代,数据可视化领域也越来越受到各类研究者的关注。
1 知识图谱分析流程
本文结合参考文献[2]中的流程,将知识图谱分析的流程归纳总结如图1所示。
数据检索 数据预处理 构建关系矩阵网络 规范化处理
结果解读 图谱参数调整、最终成型 可视化数据
图1 知识图谱分析的流程
(a)数据检索:国内外常用的可以进行知识图谱分析的数据源有:ISI Web Of Science(WOS)、ScoPus(http://www.scopus.com)、Google scholar[3](http://scholar.google.com)、NLM's MEDLINE(http://www.ncbi.nlm.nih.gov/pubmed)。这几个数据库有各自的特点和优势,收录的文献也有一定的差异,另外还有其他一些文献计量数据源:arXiv(http://arxiv.org),CiteSeerX(http://citeseerx.ist.psu.edu/)、Digital Bibliography & Library Project(DBPL; http://dblp.uni-trier.de/)、SAO/NASA Astrophysics Data System(ADS; http://adswww.harvard.edu/)、Science Direct(http://www.sciencedirect.com/)以及国外的一些专利数据和基金数据,如:the United States Patent and Trademark Office(USPTO; http://www.uspto.gov/)、European Patent and Trademark Office(http://www.epo.org)和National Science Foundation(http://www.nsf.gov/)。国内常用的数据源有:中国知网(CNKI)、中国社会科学引文索引(CSSCI)。
(b)数据预处理:数据预处理是整个分析的重点,要想获得理想的结果,更好地显示数据间的关系,就得依赖于数据的质量和一些好的预处理方法。例如:(1)查重:数据中常常会用不同的拼写方式来表示同一概念或主题的情况,这时就需要进行必要的查重处理,提高数据的精确性;(2)拼写错误或不完整:由于一些人为的原因,可能会出现作者的名字、期刊名、参考文献名拼写错误或通讯地址不明确,网址不完整的情况,这时就得额外添加一些信息来补充、验证、最终唯一确定该数据;(3)时间切片[4]:首先就将数据分为不同时间的子周期,便于对不同时间段进行分析、研究,全面地了解发展的前因后果;时间切片可积累计算,即后面的数据表格可包括所有先前的时间间隔内的信息,也可以进行完全切片,即每个数据表格只包括其自身的时间间隔的数据信息。累计的数据表格可用于查看其随时间的发展变化而被完全切片的数据表格可以用于显示随着时间的推移其结构的变化;(4)典型数据的选取:通常情况下,在拥有很多数据时,图谱很难正确、清晰地表现出数据之间的关系,为了获取更好的显示效果,更准确的数据分析结果,通常就要对数据进行缩减,选取一些典型的数据来分析,如:选取被引次数最多的文章来分析,选择核心期刊上的数据,选择H指数较高的作者等;(5)选取前N个节点数和边来分析,同时去掉孤立节点,对边进行修剪,这样可以用更少量的数据来更强地表现网络的重点。
(c)构建关系矩阵网络:在构建网络前,可以考虑选取不同的角度,从多个侧面来分析,如:从作者之间关系入手,从引文来思考,从文献所载的期刊的级别等。简单地说,要分析研究领域的不同方面,就要依赖于所选的分析要素。例如:可以分析作者的社会结构,所属的机构——属于同一所大学、同一科研机构、同一个国家等。所使用的分析方法有:共词分析、共引分析、共作者分析、书目耦合分析、期刊耦合分析等。
(d)规范化处理:在构建网络的分析要素选好后,就需要对数据进行一些规范化处理。最常用的公式有[5]:Salton余弦、Jaccard指数、Equivalence指数、关联强度、h-指数、g-指数、hg-指数、-指数等。
(e)可视化数据:可视化数据是最重要的一环,主要是运用各种不同的算法,利用所选的分析要素来构建整个网络图谱。如:K-eas算法、层次聚类算法等。常用的技术有:降维技术,如使用MOS把网络转化成一个低维空间(通常是二维);聚类技术,使用一些聚类算法把大的网络聚类成一些小的子网络;最近提出的一些新的聚类算法,如:Streemer[6]、spectralclustering[7]、modularity maximization[8]、a bootstrap resampling with asignificance clustering[9]等。
(f)图谱参数调整:最初形成的图谱还需要进行一些必要的处理,才能更好地提取出有用的信息,以进行进一步的分析。图谱会根据我们所选指标和分析单元的不同,呈现出不同的样式。如果想要了解某学科的发展历史,现实发展状况以及未来的发展趋势时,可以选择使用时间序列分析;同时,如果想了解某个学科在某个有限的持续的时间段内的高密性,可以使用时间序列分析中一个很重要的方法——突发性检测;如果想知道分析要素的空间属性或地理位置情况,可以使用地理空间分析。例如:可以运用共作者(或合作者)作为分析单元,然后进行突发检测,再将属性相近的作者聚类,同时,在网络中,可以在每个节点上显示作者的国家/所属机构情况。
(g)对结果的解读:前面所做的所有的努力,都是为对最终结果的解读服务的,结果解读的深度和质量是因分析者的经验、知识、学术背景、学术功底而有很大差异的。
2 知识图谱工具介绍
3 知识图谱工具比较
此部分主要从软件支持的数据格式、数据预处理、构建关系矩阵所支持的方法、标准化处理、分析方法这5个方面来比较这些知识图谱软件工具。
3.1 软件支持的数据格式
由于大多数软件是国外机构研发的,主要针对的是国外的用户,大多都支持WOS中的数据格式,同时,也由于我国国内CSSCI[23]在数据格式的处理上也有一定的问题和差异,所以,很多国外软件都不支持,只有少数几款软件可以通过一些格式转化软件来转化,例如:Citespace和Bibexcel。(具体情况见表2)
3.2 数据预处理
数据的预处理是关系最终分析质量好坏最重要的一步,不同知识图谱分析软件在数据预处理方面的能力也是差异很大的。各软件的预处理能力见表3。
从表3可以看出,各款软件在数据预处理方面的优劣是很明显的,Pajek、UCINET、Gephi、VOSviewer、Histcite没有数据预处理功能,它们的特点主要表现在其他的功能上(具体的优势,将在后面提及)。和前面几款工具的对比,Network Workbench Tool、Sci2 Tool、SciMAT在数据预处理方面的优势非常明显,能根据具体的需要对数据进行相应的预处理,尤其是SciMAT,它采用动态过滤器,通过此过滤器来选择想要的节点和边,使用交互式的用户接口来实时过滤网络,这样,就可利用过滤结果构建新的网络。In-SPIRE也只有数据缩减这一个模型,它直接对数据进行分片处理,而不必将数据集分成不同的时间片,再对数据进行预处理,这样就可能存在一个弊端,当数据量非常大的时候,数据的分片浪费的时间更多,而且效果也不明显。
3.3 构建关系矩阵所支持的方法
在构建关系矩阵时,通常有很多种关系:作者引文耦合(Author Bibliographic Coupling/ABCA)、文献引文耦合(Document Bibliographic Coupling/DBCA)、期刊引文耦合(Journal Bibliographic Coupling/JBCA)、作者合作(Author Coauthor/ACAA)、国家(或地区)合作(Country Coauthor/CCAA)、机构合作(Institution Coauthor/ICAA)、作者同被引(Author Cocitation/ACA)、文献同被引(Document Cocitation/DCA)、期刊同被引(Journal Cocitation/JCA)、共词(Co-Word/CWA)、直接引用(Direct Linkage/DL)[5]以及其他的一些特殊形式,各个软件在构建这些矩阵时也有很大的不同。具体情况见表4。
从表4可知,Pajek、Gephi[24]、VOSviewer、Histcite没有此功能,In-SPIRE构建关系矩阵的方法也很有限,主要是构建共词矩阵并对其分析,而Citespace、Bibexcel、VantagePoint、Network Workbench Tool、Sci2 Tool、SciMAT这几款能提供多种关系矩阵,基本能满足学术研究的要求。同时在此也要看到不足之处,目前主流的知识图谱分析软件中,还没有一款软件能构建以上所有的关系矩阵,但是这些软件都各有特点和优势,甚至可以构建一些特殊的关系矩阵,例如:Citespace可以构建co-grant矩阵[11],Sci2能构建二分网络(Bipartite network)、Bibexcel和VantagePoint可以直接用具体的字段来构建一些矩阵,如:异质网络,通过在行和列中使用不同的字段,例如:作者、题名等,就可以抽取出作者每年的变化矩阵。另外,Network Workbench Tool、Sci2 Tool、SciMAT支持通过直接引用来抽取网络,构建关系矩阵。
3.4 标准化处理
各种软件常用的标准化处理的方法见表5。
从表5可以看出,Salton余弦和Jaccard指数在数据规范化中运用得最为广泛;Gephi[24]、Network Workbench Tool、Sci2 Tool在此部分,用户可以根据具体的需要,自行定义,在讲求个性化和创新性方面,给了研究人员足够的空间,也使得知识图谱软件工具的研究更加完善、全面。SciMAT在数据规范化方面,在目前流行的知识图谱软件工具分析中是做得最好,它不仅支持常用的Jaccard指数,Salton余弦,关联强度等,在进行引文分析时,更加入了H-指数,g-指数,hg-指数,-指数,这使得研究者能更快地找到自己感兴趣的知识或某领域最有影响力的文章、人物、事件等。
3.5 分析方法
不同软件可以进行不同的分析,所支持的知识图谱分析方法也不同,最常见的分析方法有:
(a)突发检测(burst detection):即观察某一变量在一段时间内的变化情况,且这个变化很剧烈。学术数据集可被理解为一个离散的时间序列,例如,以维度一时间来排序和一系列时间-观察值。观察值(如文献、作者)在定期间隔内(如按照日、星期、月份、季度年份)获取。这样就可按时间来突发检测作者、文献、关键词、引用率的变化情况。
(b)地理空间分析(Geospatial):地理空间分析旨在展示事件发生的地点以及该事件是否对邻近地区产生影响。地理空间分析的数据可为连续的(即每一条记录都有一个特定的位置)或离散的(即每个关键字设置都有一个位置或面积形状文件,例如,每个国家的论文数)数据。空间聚合(例如,通过邮政编码,县、州、国家和大洲进行合并)是常见的地理标示方式。
(c)构建网络(network):构建网络有很多具体的方法,计算中心度(Centrality)、聚类系数(Clustering Coefficient)、K-近邻(K-neighbours)、点的权重(Node-weight)、边的权重(Edge-weight)、层次分析(Hierarchical analysis)、K-core(K-核心)、多维尺度分析[25](MultiDimensional Scaling)、最短路径(Shortest path)、中介性(Betweenness)、度分布(Degree contribution)、排序(PageRank)等。
(d)时序分析(temporal):时间序列,即按时间顺序排列事件或数据观察结果。时间序列数据可以是连续的(即在每一个瞬间都有观察值),也可以是离散的(即定期或不定期的观察值)。例如,分析某个具体学术领域的发展情况、某位作者发文情况等。时序分析的目的在于明确被观测序列如模式、趋势、季节性、离群和活动等随时间的变化情况。这是在知识图谱分析中最为常见的一种分析方法。
(e)性能和质量分析(performance and quality analysis):主要是包括一些最基本的统计分析,如:数据总量、最大值、最小值、平均引用量等,给读者一个初步的认识。
各种软件具体情况见下表6。
从表6可以看出,大多数软件在可视化之前都要进行必要的分析,分析方法的种类有所不同,其中,突发检测、构建网络、时序分析是最常用的分析方法,由于使用最为广泛,所以也很受研发者的青睐,其中,尤其是在构建网络中,众多的评估方法(如:计算中心度、聚类系数[26]等)可以更深入地挖掘数据以及数据之间的信息。地理空间分析是一个新的亮点,结合Google或yahoo!的地理编码,可以很形象地展示出文献,作者所属的国家、地区。同时在一张地图上就能反映出一些国家或地区科研水平的高低。Citespace、VantagePoint、Sci2 Tool这三款软件在地理空间分析的实现上做得很好。尽管Network Workbench Tool和Sci2有很多的相似之处,而能够进行地理空间分析却是Sci2所特有的。
4 总结
通过以上的分析,对这些软件的功能有了大概的了解,下面对各个软件的特点与其他软件相比的优势和劣势做一个总结:
(1)Pajek:它在数据的预处理和数据的规范化处理方面能力有限,这是该软件的一个不足之处,但是它可以支持多种格式的输入,同时还能识别其他软件处理的数据,如:UCINET的DL格式等。强大的图形处理是Pajek[27]最大的一个特点,在处理大量数据的复杂网络时,它提供多种有效的算法,将大型的网络有效分解为几个小的子网络,很好地解决了大型网络难以可视化的问题。它不仅支持构建一些普通的网络(例如:有向网络、无向网络、混合网络),还能构建一些特殊的网络,例如:多关系网络,暂时性网络(动态图—网络随时间演化)等。不仅如此,Pajek还可以帮助其他的一些知识图谱软件工具生成图谱:例如:Ucinet就可以将数据和数据处理结果输出到Pajek来可视化。
(2)Citespace:它是国内研究者使用最多的一款软件,它支持除了开发者美籍华人陈超美在中国大力宣传和推广外,其软件自身的功能也做得比较完善,在构建知识图谱的整个流程中,各个步骤的处理都很能满足不同研究者的需要,例如:从数据支持的格式来看,通过数据转化软件,可以导入CSSCI的数据,这对于中国的研究者来说,是个莫大的福音。除此之外,该软件还注重功能的升级创新,不断发布新的版本,免费供研究者使用。
(3)UCINET:它是一款商业软件,但是它提供试用版本。与其他软件相比,UCINET的最大的优点在于能够将一些原始数据转化为矩阵格式,从而构建各种关系矩阵,例如:作者共现矩阵,关键词共现矩阵,期刊共被引矩阵等[28]。同时它能提供了大量数据管理和转化工具,在CNKI上搜索的数据,经过格式的转换,也能被Ucinet所识别。Ucinet不包含网络可视化的图形程序,但是在软件的可视化模块中,它集成了NetDraw、Pajek、Mage等软件来对数据进行可视化[29]。
(4)Bibexcel:Bibexcel客户端和Network Workbench Tool、Sci2 Tool一样,无需安装,直接打开就开始操作,简便快捷。Bibexcel最大的优点在于对共现关系的分析,尤其是在分析WOS文献数据和专利数据时[23]。和Citespace一样,在分析CSSCI的数据时,要先用大连理工大学刘盛博开发的中文数据格式转化软件将CSSCI数据格式转化为SCI数据格式。再导入到Bibexcel中构建矩阵。再将产生的共现数据存入Excel表格中,同时借助Netdraw等可视化软件,做进一步的可视化分析[23]。
(5)Gephi:Gephi被誉为“数据可视化领域的Photoshop”,它的界面非常优美,它构建在NetBeans平台上,可实现边动态和分层图的交互可视化与探测的开源工具。和Pajek 一样,Gephi能处理大量的数据,适合于绘制大型的图谱,支持的节点数达50000个,支持的边达1000000条之多。和Network Workbench Tool、Sci2 Tool 一样,使用Gephi的用户可以自定义插件,在Gephi的官方网站插件一栏中下载研究所需要的插件,这样增强了用户的自主性。Gephi还支持中文操作,有相关的中文视频教程,加之此软件操作简单,用户可以很容易地掌握并使用该软件。
(6)VOSviewer:VOSviewer是一款专门设计用于构建可视化知识图谱的软件,和Pajek、Gephi 一样,软件功能非常强大,适合于构建大型复杂网络图谱。VOSviewer的一个最主要的特点是:在呈现图谱时,使用VOS图谱技术,运用关联强度的相似性测量,这样在二维图中,就可以突出最重要的标签(出现的频率也是最多的),同时在视图中,用户还可放大某个具体的区域来发现隐藏在最重要关键词后面的一些词条,这样在显示数据集主要信息的同时,又可以避免一些重要节点和标签相互覆盖的情况。
(7)VantagePoint:VantagePoint和Ucinet、In-SPIRE 一样,是一款商业软件,但它提供试用版本。VantagePoint一大特点是:它有多达180个过滤器,可以允许用户输入很多常用格式的文献数据和专利数据库的数据,同时还要专门的过滤器来输入Excel、ACCESS、XML文档格式的数据。另外,VantagePoint的另一大优势表现在数据预处理和对数据的清理方面,使用clean up功能,对数据进行清理。该功能能识别同意以的词条,同时根据叙词表,进行模糊匹配,进而清理重复数据。
(8)Network Workbench Tool和Sci2 Tool都是由美国的Indiana大学研发的,两款软件在进行知识图谱分析时功能非常强大,能构建多种矩阵,进行各种分析并可视化。它们的功能有很多的相似之处,很多算法都可以通用,都支持自定义插件。他们在数据预处理方面做得很好,支持数据的去重处理,时间切片,数据和网络的缩减,但是他们之间还是有一些细微的差别,由于Network Workbench Tool在Sci2 Tool之后开发的,它整合了Sci2 Tool的一些算法,同时合并了一些功能,使软件更简便易学,好操作。当然,Sci2 Tool也保留了自己的一些特点,如:Sci2可以进行地理空间分析,将数据信息通过地图来展示[30]。
(9)In-SPIRE:In-SPIRE最大的一个优势是,可以读取多种数据格式,既能读取像HTML、XML、Excel这样规范性的文档,同时,也能读取不规范的文档,例如:ASCII文本。同时,与其他软件不同,In-SPIRE使用空间向量模型来计算文档间的相似性。主要使用两种视图:主题视图和云系视图,主题视图可以三维呈现(很多图谱只能二维展示,这也是In-SPIRE的一大优势),用户可以通过图谱很直观地发现最重要的区域(该区域中有很多文档聚集),在云系视图中,可以基于其内容找到相似的文档。
(10)SciMAT:除了功能强大的数据预处理能力外,SciMAT是知识图谱分析工具中,进行纵向的时序分析最好的软件。它的时间序列呈现方式简捷,这样用户就可以轻易地判定该领域的发展过程,同时判断出起关键作用的作者或文献。在规范化处理时,除了通用的Jaccard指数,Salton余弦,关联强度外,在进行引文分析时,更加入了H-指数,g-指数,hg-指数,-指数。SciMAT中GUI最重要的模块就是分析向导,用户在使用该软件时,它会引导用户进行相应的操作,以便用户根据需要选择方法和算法。
(11)Histcite:Histcite只能识别WOS中的数据Histcite,总体来说,操作方法简单易学,虽然功能没有其他软件那么强大,但是还是可以进行一些最基本的分析[22],例如:在导入数据后,可以迅速分析出数据的一些最基本的信息(例如:数据记录总数、作者总数、期刊总数、参考文献数,关键词总数等)。可以通过本地引用次序(Local Citation Score/LCS)的排序,快速定位该领域的重要文献,通过本地参考文献数的排序(Local Cited References/LCR)找到近期该领域发表的重要文献,发现新的动向。
标签:数据可视化论文; 用户研究论文; 矩阵分解论文; 功能分析论文; ucinet论文; 用户分析论文; Gephi论文;