新知识图分析软件的介绍与评价_大数据论文

———款新的知识图谱分析软件介绍与评价,本文主要内容关键词为:软件介绍论文,图谱论文,评价论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

0 引言

随着信息技术的发展,如何处理好海量信息,并将其进行可视化显示,构建各类知识图谱,已成为国内外学者正在研究的重要课题。目前,国外较流行的信息可视化分析软件主要有:Tool、In-SPIRE、SciMAT、Histcite、Pajek、Citespace、UCINET、Bibexcel、Gephi、VOSviewer、VantagePoint、Network Workbench Tool[1]等,国内学者常用的信息可视化分析软件主要有:Citespace、Histcite和Pajek。

笔者通过调研发现,在绘制知识图谱方面拥有很多优势。例如,可以用它来构建多种网络矩阵,拥有强大的绘图功能等。在国外,美国国家科学基金会(National Science Foundation,简称NSF)、美国国立卫生研究院(the National Institutes of Health,简称NIH)、美国农业部(the US Department of Agriculture,简称USDA),以及美国国家海洋和大气管理局(the National Oceanic and Atmospheric Administration,简称NOAA)等都使用来进行数据可视化分析,但国内研究人员目前对该软件研究甚少。因此,笔者希望对该软件的主要菜单功能、知识图谱绘制等进行较为详细的介绍,供其他研究人员借鉴参考。

1 简介

(Science of Science)[3]是美国Indiana大学图书情报专家Katy Brner及其团队在Cyber Infrastructure Shell(CIShell)的基础上开发的一款知识图谱分析软件。CIShell[4]是一个开源的Eclipse插件框架,其功能非常强大,可以很容易地整合各种数据集、方程、工具以及计算机资源。

的一大优势是拥有丰富多样的插件可供使用,这就为用户使用来绘制各类知识图谱提供了强力支持。其中,OSGi、CIShell等插件运行在核心框架上;另外一些算法插件因其自身功能的不同,分布在不同菜单栏中,为数据准备、预处理、分析、建模、可视化等操作服务。这样,用户不仅可以使用该软件预先打包好的各种插件,而且可以根据自己的不同需求,创建、下载、共享并导入插件,不断丰富的现有功能。

将插件添加到菜单中的方式主要有二:如果某种算法在CIShell工具的配置/目录中所列的default_menu.xml文件中,它就会被添加到指定位置;如果该算法虽然没有在default_menu.xml文件中列出,但在algorithm.properties文件中指定了一个菜单路径属性,菜单管理CIShell服务器就会根据菜单路径属性中指定的路径,将插件添加到相应菜单栏中。例如,分析(Analysis)/补充(Additions)选项将会被放置在Analysis菜单栏的底部。

遵守OSGI R4协议和Equinox接口,它支持短期的、地球空间内的、主题性的以及微观(个人)、中观(地方)和宏观(全球)等不同级别的数据集的网络分析和可视化研究。

概言之,的主要特点有四:①用户可以根据自己的研究需要,添加不同的分析插件[5]。例如,用户可以从的官网上下载有关数据库、气球图、国会地理编码、Cytoscape[6]等不同插件,并将这些JAR文件复制到directory/plugins中即可使用这些不同插件。②可以利用最有效的算法来进行不同类型的分析(比如,引文耦合分析、共词分析、合作者分析等)。③利用不同的可视化插件(例如,GUESS[7]、Cytoscape),用户可以交互式地探索和分析特定数据集。④可以共享数据集和跨学科的算法。例如,在进行引文分析时,可以先利用DrL算法进行大数据分析,再利用GUESS进行可视化显示。

2 主要功能

启动程序,可以得到如图1所示的界面示意图。

图1 界面示意图

2.1 主要菜单栏

中主要有File、Data Preparation、Preprocessing、Analysis、Modeling、Visualization、Help七个一级菜单栏。

(1)文件(File)菜单。文件(File)菜单的主要功能是对文件执行一些基本操作。例如,文件的加载、保存,查看文件数据信息,将CSV文件加载到数据库中,进行优先级选择等。

(2)数据准备(Data Preparation)菜单。加载文件以后,就可以使用“数据准备”菜单中的选项来清理数据,建立网络或者用于预处理、分析和可视化步骤的各种表。“数据准备>数据库”菜单项是专门用来为先前加载到数据库ISI或NSF数据设置的。

(3)预处理(Preprocessing)菜单。在进行分析和可视化处理之前,用户可使用预处理算法进行修剪追加网络或者表[8]。例如,抽取前N个节点和边,删除孤立节点,删除自我循环,用MST-探路网络算法修剪网络等。菜单按照域分开,而最小单位的任务则要求放在同一个域中。例如,为了可视化一个作者同被引网络时,只需要使用从属于“预处理”、“分析”和“可视化”下面的“网络”域算法即可。同样,显示地图仅需要“地理空间”算法即可,即选择“Geospatial>extract ZIP code”菜单项。

(4)分析(Analysis)菜单。数据一旦经过加载、准备和预处理,就可在以下四个域中进行数据分析,包括:时间序列、地理空间、局部和网络分析[9]。分析结果可以用于再分析,也可以进行可视化。尽管目前主要用于网络分析,但它也支持表格数据的地理空间以及进行专题或通用的分析研究。

(5)建模(Modeling)菜单。通过预定义的模型来支持创建新的网络。例如,提取带有固定数量且被无向边随机连接的节点的图像;生成一个大部分节点没有直接连接到另一个节点,但仍通过较少边连接到另一个节点的图像;通过经济增长和优先级连接生成的无标度网络;集成“老龄化”生成作者和论文的双边演化网络。

(6)可视化(Visualization)菜单。可以利用Gnuplot图[10],生成以多种不同形式绘制二维功能和数据点的平面图;生成依据时间推移可视化数值数据的水平条形图;生成美国或世界地图,并依据用户定义的度量来为创建的地图进行着色;利用GUESS或Cytoscape可视化插件来执行数据可视化操作。

(7)帮助(Help)菜单。“帮助”菜单的主要功能是让用户借此来了解的相关信息(例如,配置信息、开发信息等),它还提供一些联机文档。借助用户手册、在线视频等文档,用户可以更好地使用该软件。

2.2 主要窗口

中主要有Console、Data Manager、Scheduler三个窗口(如图2所示),它们从不同方面来记录数据处理过程,让用户充分地了解分析步骤。当出现失误时,用户也可以根据调试窗口中出现的提示信息来找到错误点。

(1)调试(Console)窗口。调试窗口展示了数据处理过程中执行的各种操作,以及一些数据处理信息。例如,该数据集节点和边的总数,数据集是强链还是弱链。当数据输入出错时,会出现红色提示信息,利用它可以帮助用户找到出错的地方;黄色信息是由于数据不全面等原因引起的,可以暂时忽略不计,一般不会影响数据的分析和处理。

(2)数据管理(Data Manager)窗口。数据管理窗口主要以树型结构来展示数据处理过程,显示了当前所有加载的可以使用的数据集(比如,表格、网络、矩阵、数据库、树型数据等),其中最常用的数据集是表格和网络。用户可以根据自己的需要,右击“View”按钮来查看数据表格中的信息。

(3)调度(Scheduler)窗口。调度窗口主要用来显示数据处理进程,当处理有误时,就可以删除错误的数据。

图2 窗口界面示意图

3 的功能优势

与现有的其他信息可视化分析软件相比,在知识图谱绘制等方面拥有一些优势。

3.1 可以加载各种格式的数据

与其他知识图谱分析软件相比,可以加载多种通用格式(包括.xml、.net、.isi、.csv、.bib、.enw、nsf[11]等不同格式,如图3所示)的数据,以满足不同用户需求。例如,如果用户利用的是WOS(Web Of Science)数据,则应该将从WOS中检索到的数据先保存为.txt格式,再经过一些处理就能够将该数据直接导入到中。如果直接将.txt文件导入到中,则该软件不能够正确识别。此时,需要先打开该.txt文件,将首行内容修改成“FN ISIExport Format”,并且在表示一条记录结束的ER标志后面空一行,最后保存该.txt文件。

图3 可加载的数据格式示意图

3.2 可以抽取多种数据网络

支持抽取多种常用的网络(如图4所示)。例如,它可以抽取定向网络、双边网络、引文网络、作者文献网络、共现网络、词共现网络、合作者网络、引文耦合网络等。当用户下载了数据库插件以后,“Data Preparation”菜单栏的最下方就会出现“Data Base”选项,用户就可以加载各种数据库信息,并进行相应的分析。

图4 可抽取的数据网络示意图

与现有的其他知识图谱软件相比,在数据网络构建方面的功能还是较全面的,再加上用户可以自定义扩展数据库插件,这就使得Sci[2]在网络构建方面的功能甚至比CiteSpace、Bibexcel要更强一些。

3.3 强大的数据分析统计能力

集成了一些数据分析统计功能。在将数据输入到时,Console窗口中会显示该数据的记录数。同时,Data Manager窗口中也会同步显示该数据的条数。此外,用户可以随时计算网络中节点和边的一些信息。例如,选择“Analysis>Network>Network Analysis Toolkit(NAT)”菜单项,对网络进行分析,这时边和节点,孤立点的一些信息都会显示在Console窗口中(如图5所示)。

图5 对网络整体进行分析

用户还可以分析网络中的一些信息。例如,对时空信息进行突发检测,计算地理空间坐标,分析非加权&无向网络、加权&无向网络、非加权&定向网络、加权&定向网络的情况。通过上述分析可知,基本上可以满足研究人员的各种需求。

3.4 强大的数据处理能力

集成了各种数据处理功能,它具有强大的数据处理能力。当数据量很大时,用户可以根据自己的需要,选择对数据进行相关处理,去除一些孤立节点,抽取前N个节点和边(如图6所示)。

图6 对数据进行处理

数据处理与数据分析之间没有明显的先后次序之分。用户可以根据自己研究的需要,选择先进行数据处理,再分析网络情况。用户也可以先分析网络情况,事先了解网络中有多少孤立节点,以及边的权重(最大值、最小值、均值),再根据需要来选择提取前N个节点和边,或者进行其他处理[12]。

图7 中提供的多种可视化插件示意图

3.5 多种可视化绘图工具

在对数据进行可视化时,可以支持绘制多种形式的可视化图谱(如图7所示)。一方面,可以很容易地整合各种数据集、方程、工具和计算机资源。另一方面,许多可视化插件也可以根据研究人员的需要,很容易地整合到工具中[13-14]。

目前,比较常用的可视化插件是GUESS。当网络数据很大时(例如,进行引文分析),也可以用DrL算法先将网络进行一定的缩减。短期或者时间编码的数据可以显示在水平条形图上。地理编码数据可以呈现在一张世界地图或者美国地图上。Cytoscape则是一种网络分析和可视化的通用平台,含有多种布局算法(例如,Cyclic、Tree、Force-Directed、Edge-Weight等)。在最新发布的软件版本中,R语言和Gephi可视化工具还可以以插件的形式与相结合,使得的可视化功能更加强大。

4 应用举例

可以构建多种网络图谱(例如,合作者网络图谱、词共现网络图谱、作者共被引网络图谱、文献共被引网络图谱、书目耦合网络图谱等)。下面,笔者以构建著名信息计量学家加菲尔德(Garfield E.)的作者共现网络(Author Co-Occurrence)知识图谱为例,具体介绍在中绘制知识图谱的主要步骤。

4.1 数据下载及预处理

在WOS检索界面中输入“Garfield E*”,条件是按作者检索,最后检索出1540篇文献,再将数据保存为.txt格式(如图8所示)。由于WOS中一次只能下载500篇文献,所以分4次进行下载。需要补充说明的是,如果将该.txt文件直接导入到中,该软件是不能识别的。为此,需要对下载的.txt文件按以下步骤进行简单的预处理:先打开.txt文件,将其首行内容替换成“FN ISI Export Format”,并且在表明一条记录结束的ER标志后面空上一行,再开始新的一段数据,最后保存该文件。

图8 数据下载界面示意图

4.2 构建作者共现网络知识图谱

利用构建作者共现网络知识图谱时,主要包括以下几个关键步骤:加载数据;对数据进行预处理;分析数据节点和边的信息,并将度的属性信息增加到节点列表中;利用GUESS可视化工具进行数据可视化;为了更加直观形象地展示图谱,还需要在GUESS的参数设置面板(Graph Modifier)中进行参数设置,同时还需要在Interpreter中编写一小段Python代码来对图谱进行细微调整。

下面,就以在中构建作者共现网络知识图谱为便,具体介绍其中涉及的一些关键步骤。

(1)加载数据。选择“File>Load”菜单项,Console窗口中随即会显示一共加载了1541条数据,去掉一条重复的数据,共计有1540条数据,这与前面提及的在WOS中检索到的数据保持一致。在加载数据时,用户也可以采用拖放形式,将文件加载到中,这样做也许更简便一些。按住鼠标指针,将想要导入的文件或文件组拖到“数据管理”窗口,松开鼠标即可。

(2)选择“Data Preperation>Extracted Coauthorship Network”菜单项,对数据进行预处理,抽取合作者网络。

(3)选择“Analysis>Network>Network Analysis Toolkit(NAT)”菜单项,分析该网络节点和边的情况。详细信息随即会显示在“Console”窗口中,它们为后面进一步操作以及在GUESS中设置参数等提供一定参考。

在本例中,一共加载了1541条数据,作者名称已经过规范化处理,文件输入格式是ISI格式,共计有91个节点,有0个孤立节点(如果有孤立节点,通常是为了找到相关性最强的网络,可以选择“Preprocessing>Networks>Delete Isolates”菜单项,将孤立节点删除)。节点的主要属性有:标签、引用次数、作品总数等。此外,本例中共有244条边。边的权重最小为1,最大为9,即至少有一次合作,最多有9次合作。

(4)为了将度的属性信息增加到节点列表中,可以选择“Analysis>Networks>Unweighted & Undirected>Node Degree”菜单项。

(5)选择“Visualization>Networks>GUESS”菜单项,将数据进行可视化。具体步骤都会在进程调度窗口(如图9所示)中显示出来。

图9 进程调度窗口显示的分析步骤

同时,右侧的数据管理窗口中也会显示分析过程(如图10所示)。

图10 数据管理窗口显示分析过程

(6)在GUESS中对图谱进行调整,设置具体参数。

4.3 GUESS控制面板参数设置

用户可以根据自己的研究需要,在GUESS的控制面板中进行相应的设置,比较常用的操作有:Resize Linear、Colorize、Object、Show Label、Hide Label按钮(如图11所示)。

图11 控制面板参数设置示意图

首先,在Resize Linear中,对节点大小和边进行设置,让重要作者加大显示,以方便用户分析和观看。具体操作步骤如下:

经过上述调整,得到最终生成的知识图谱(如图12所示)。

需要补充说明的是,在中,如果用户有编辑好的脚本,则可以直接利用设置好的脚本。在Script中,直接使用Co-Author-nw这个脚本,但是,为了更好地显示用户的需要的信息,用户也可以自己设置相应的系数。

图12 最终生成的知识图谱示意图

从最终生成的知识图谱(如图12所示)中不难看出:与Garfield E合作最多的几位作者是:Sher IH、Revesz GS、Welljamsdorof A、Small h、Pudovkin A。在知识图谱中,边的值一般代表的是合作次数。在图11中,Garfield E与Sher IH合作有9篇论文,与Revesz GS合作有5篇,与Welljamsdorof A合作有9篇,与Small H合作有6篇,与Pudovkin A合作有8篇(合作论文详细情况如表1所示)。与Garfield E合作的这几位高频作者在合作时间方面都呈现出一定的阶段性。例如,Sher IH与Garfield E合作主要是在20世纪60年代,Pudovkin A与Garfield E主要是在21世纪以后才合作。

总之,利用绘制知识图谱,用户不仅可以一目了然地看到他们之间的合作关系网络,而且还可以根据自己的研究需要,设置不同的权值,选择性的显示不同权重值的标签。

5 的局限性

与其他知识图谱工具相比,拥有一定优势,但它同时也存在以下局限性:

(1)运行时,需要占用大量的内存,对电脑系统的要求比较高,尤其是在处理引文关系网络时,由于节点和边的数据量都很大,在对绘制好的图谱进行调整时,常常因为电脑内存的不足而出现死机现象。这主要是由于Java虚拟机的限制造成的。因此,建议用户在使用时,必须在应用程序启动之前确定Java应用程序的可用内存量。目前为大多数应用分配的可用内存量的默认值是350MB。对于大多数分析应用来说,这一默认值应该足够了。如果需要进行大数据量的引文分析时,则建议增加系统的可用内存空间。

(2)因为是国外学者主持开发的一款通用的知识图谱分析软件,所以它在对英文文献进行格式处理时功能上显得比较简单一些。此外,到目前为止,还没有出现中文版的。因此,对于我国的广大研究人员来说,如果想要使用来处理中文数据,则需要对中文数据进行相应的转换才行。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

新知识图分析软件的介绍与评价_大数据论文
下载Doc文档

猜你喜欢