新知识图分析软件的介绍与评价_大数据论文

———款新的知识图谱分析软件介绍与评价，本文主要内容关键词为：软件介绍论文,图谱论文,评价论文,知识论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

0 引言

随着信息技术的发展，如何处理好海量信息，并将其进行可视化显示，构建各类知识图谱，已成为国内外学者正在研究的重要课题。目前，国外较流行的信息可视化分析软件主要有：Tool、In-SPIRE、SciMAT、Histcite、Pajek、Citespace、UCINET、Bibexcel、Gephi、VOSviewer、VantagePoint、Network Workbench Tool[1]等，国内学者常用的信息可视化分析软件主要有：Citespace、Histcite和Pajek。

笔者通过调研发现，在绘制知识图谱方面拥有很多优势。例如，可以用它来构建多种网络矩阵，拥有强大的绘图功能等。在国外，美国国家科学基金会(National Science Foundation，简称NSF)、美国国立卫生研究院(the National Institutes of Health，简称NIH)、美国农业部(the US Department of Agriculture，简称USDA)，以及美国国家海洋和大气管理局(the National Oceanic and Atmospheric Administration，简称NOAA)等都使用来进行数据可视化分析，但国内研究人员目前对该软件研究甚少。因此，笔者希望对该软件的主要菜单功能、知识图谱绘制等进行较为详细的介绍，供其他研究人员借鉴参考。

1 简介

(Science of Science)[3]是美国Indiana大学图书情报专家Katy Brner及其团队在Cyber Infrastructure Shell(CIShell)的基础上开发的一款知识图谱分析软件。CIShell[4]是一个开源的Eclipse插件框架，其功能非常强大，可以很容易地整合各种数据集、方程、工具以及计算机资源。

的一大优势是拥有丰富多样的插件可供使用，这就为用户使用来绘制各类知识图谱提供了强力支持。其中，OSGi、CIShell等插件运行在核心框架上；另外一些算法插件因其自身功能的不同，分布在不同菜单栏中，为数据准备、预处理、分析、建模、可视化等操作服务。这样，用户不仅可以使用该软件预先打包好的各种插件，而且可以根据自己的不同需求，创建、下载、共享并导入插件，不断丰富的现有功能。

将插件添加到菜单中的方式主要有二：如果某种算法在CIShell工具的配置/目录中所列的default_menu.xml文件中，它就会被添加到指定位置；如果该算法虽然没有在default_menu.xml文件中列出，但在algorithm.properties文件中指定了一个菜单路径属性，菜单管理CIShell服务器就会根据菜单路径属性中指定的路径，将插件添加到相应菜单栏中。例如，分析(Analysis)/补充(Additions)选项将会被放置在Analysis菜单栏的底部。

遵守OSGI R4协议和Equinox接口，它支持短期的、地球空间内的、主题性的以及微观(个人)、中观(地方)和宏观(全球)等不同级别的数据集的网络分析和可视化研究。

概言之，的主要特点有四：①用户可以根据自己的研究需要，添加不同的分析插件[5]。例如，用户可以从的官网上下载有关数据库、气球图、国会地理编码、Cytoscape[6]等不同插件，并将这些JAR文件复制到directory/plugins中即可使用这些不同插件。②可以利用最有效的算法来进行不同类型的分析(比如，引文耦合分析、共词分析、合作者分析等)。③利用不同的可视化插件(例如，GUESS[7]、Cytoscape)，用户可以交互式地探索和分析特定数据集。④可以共享数据集和跨学科的算法。例如，在进行引文分析时，可以先利用DrL算法进行大数据分析，再利用GUESS进行可视化显示。

2 主要功能

启动程序，可以得到如图1所示的界面示意图。

图1 界面示意图

2.1 主要菜单栏

中主要有File、Data Preparation、Preprocessing、Analysis、Modeling、Visualization、Help七个一级菜单栏。

(1)文件(File)菜单。文件(File)菜单的主要功能是对文件执行一些基本操作。例如，文件的加载、保存，查看文件数据信息，将CSV文件加载到数据库中，进行优先级选择等。

(2)数据准备(Data Preparation)菜单。加载文件以后，就可以使用“数据准备”菜单中的选项来清理数据，建立网络或者用于预处理、分析和可视化步骤的各种表。“数据准备＞数据库”菜单项是专门用来为先前加载到数据库ISI或NSF数据设置的。

(3)预处理(Preprocessing)菜单。在进行分析和可视化处理之前，用户可使用预处理算法进行修剪追加网络或者表[8]。例如，抽取前N个节点和边，删除孤立节点，删除自我循环，用MST-探路网络算法修剪网络等。菜单按照域分开，而最小单位的任务则要求放在同一个域中。例如，为了可视化一个作者同被引网络时，只需要使用从属于“预处理”、“分析”和“可视化”下面的“网络”域算法即可。同样，显示地图仅需要“地理空间”算法即可，即选择“Geospatial＞extract ZIP code”菜单项。

(4)分析(Analysis)菜单。数据一旦经过加载、准备和预处理，就可在以下四个域中进行数据分析，包括：时间序列、地理空间、局部和网络分析[9]。分析结果可以用于再分析，也可以进行可视化。尽管目前主要用于网络分析，但它也支持表格数据的地理空间以及进行专题或通用的分析研究。

(5)建模(Modeling)菜单。通过预定义的模型来支持创建新的网络。例如，提取带有固定数量且被无向边随机连接的节点的图像；生成一个大部分节点没有直接连接到另一个节点，但仍通过较少边连接到另一个节点的图像；通过经济增长和优先级连接生成的无标度网络；集成“老龄化”生成作者和论文的双边演化网络。

(6)可视化(Visualization)菜单。可以利用Gnuplot图[10]，生成以多种不同形式绘制二维功能和数据点的平面图；生成依据时间推移可视化数值数据的水平条形图；生成美国或世界地图，并依据用户定义的度量来为创建的地图进行着色；利用GUESS或Cytoscape可视化插件来执行数据可视化操作。

(7)帮助(Help)菜单。“帮助”菜单的主要功能是让用户借此来了解的相关信息(例如，配置信息、开发信息等)，它还提供一些联机文档。借助用户手册、在线视频等文档，用户可以更好地使用该软件。

2.2 主要窗口

中主要有Console、Data Manager、Scheduler三个窗口(如图2所示)，它们从不同方面来记录数据处理过程，让用户充分地了解分析步骤。当出现失误时，用户也可以根据调试窗口中出现的提示信息来找到错误点。

(1)调试(Console)窗口。调试窗口展示了数据处理过程中执行的各种操作，以及一些数据处理信息。例如，该数据集节点和边的总数，数据集是强链还是弱链。当数据输入出错时，会出现红色提示信息，利用它可以帮助用户找到出错的地方；黄色信息是由于数据不全面等原因引起的，可以暂时忽略不计，一般不会影响数据的分析和处理。

(2)数据管理(Data Manager)窗口。数据管理窗口主要以树型结构来展示数据处理过程，显示了当前所有加载的可以使用的数据集(比如，表格、网络、矩阵、数据库、树型数据等)，其中最常用的数据集是表格和网络。用户可以根据自己的需要，右击“View”按钮来查看数据表格中的信息。

(3)调度(Scheduler)窗口。调度窗口主要用来显示数据处理进程，当处理有误时，就可以删除错误的数据。

图2 窗口界面示意图

3 的功能优势

与现有的其他信息可视化分析软件相比，在知识图谱绘制等方面拥有一些优势。

3.1 可以加载各种格式的数据

与其他知识图谱分析软件相比，可以加载多种通用格式(包括.xml、.net、.isi、.csv、.bib、.enw、nsf[11]等不同格式，如图3所示)的数据，以满足不同用户需求。例如，如果用户利用的是WOS(Web Of Science)数据，则应该将从WOS中检索到的数据先保存为.txt格式，再经过一些处理就能够将该数据直接导入到中。如果直接将.txt文件导入到中，则该软件不能够正确识别。此时，需要先打开该.txt文件，将首行内容修改成“FN ISIExport Format”，并且在表示一条记录结束的ER标志后面空一行，最后保存该.txt文件。

图3 可加载的数据格式示意图

3.2 可以抽取多种数据网络

支持抽取多种常用的网络(如图4所示)。例如，它可以抽取定向网络、双边网络、引文网络、作者文献网络、共现网络、词共现网络、合作者网络、引文耦合网络等。当用户下载了数据库插件以后，“Data Preparation”菜单栏的最下方就会出现“Data Base”选项，用户就可以加载各种数据库信息，并进行相应的分析。

图4 可抽取的数据网络示意图

与现有的其他知识图谱软件相比，在数据网络构建方面的功能还是较全面的，再加上用户可以自定义扩展数据库插件，这就使得Sci[2]在网络构建方面的功能甚至比CiteSpace、Bibexcel要更强一些。

3.3 强大的数据分析统计能力

集成了一些数据分析统计功能。在将数据输入到时，Console窗口中会显示该数据的记录数。同时，Data Manager窗口中也会同步显示该数据的条数。此外，用户可以随时计算网络中节点和边的一些信息。例如，选择“Analysis＞Network＞Network Analysis Toolkit(NAT)”菜单项，对网络进行分析，这时边和节点，孤立点的一些信息都会显示在Console窗口中(如图5所示)。

图5 对网络整体进行分析

用户还可以分析网络中的一些信息。例如，对时空信息进行突发检测，计算地理空间坐标，分析非加权&无向网络、加权&无向网络、非加权&定向网络、加权&定向网络的情况。通过上述分析可知，基本上可以满足研究人员的各种需求。

3.4 强大的数据处理能力

集成了各种数据处理功能，它具有强大的数据处理能力。当数据量很大时，用户可以根据自己的需要，选择对数据进行相关处理，去除一些孤立节点，抽取前N个节点和边(如图6所示)。

图6 对数据进行处理

数据处理与数据分析之间没有明显的先后次序之分。用户可以根据自己研究的需要，选择先进行数据处理，再分析网络情况。用户也可以先分析网络情况，事先了解网络中有多少孤立节点，以及边的权重(最大值、最小值、均值)，再根据需要来选择提取前N个节点和边，或者进行其他处理[12]。

图7 中提供的多种可视化插件示意图

3.5 多种可视化绘图工具

在对数据进行可视化时，可以支持绘制多种形式的可视化图谱(如图7所示)。一方面，可以很容易地整合各种数据集、方程、工具和计算机资源。另一方面，许多可视化插件也可以根据研究人员的需要，很容易地整合到工具中[13-14]。

目前，比较常用的可视化插件是GUESS。当网络数据很大时(例如，进行引文分析)，也可以用DrL算法先将网络进行一定的缩减。短期或者时间编码的数据可以显示在水平条形图上。地理编码数据可以呈现在一张世界地图或者美国地图上。Cytoscape则是一种网络分析和可视化的通用平台，含有多种布局算法(例如，Cyclic、Tree、Force-Directed、Edge-Weight等)。在最新发布的软件版本中，R语言和Gephi可视化工具还可以以插件的形式与相结合，使得的可视化功能更加强大。

4 应用举例

可以构建多种网络图谱(例如，合作者网络图谱、词共现网络图谱、作者共被引网络图谱、文献共被引网络图谱、书目耦合网络图谱等)。下面，笔者以构建著名信息计量学家加菲尔德(Garfield E.)的作者共现网络(Author Co-Occurrence)知识图谱为例，具体介绍在中绘制知识图谱的主要步骤。

4.1 数据下载及预处理

在WOS检索界面中输入“Garfield E*”，条件是按作者检索，最后检索出1540篇文献，再将数据保存为.txt格式(如图8所示)。由于WOS中一次只能下载500篇文献，所以分4次进行下载。需要补充说明的是，如果将该.txt文件直接导入到中，该软件是不能识别的。为此，需要对下载的.txt文件按以下步骤进行简单的预处理：先打开.txt文件，将其首行内容替换成“FN ISI Export Format”，并且在表明一条记录结束的ER标志后面空上一行，再开始新的一段数据，最后保存该文件。

图8 数据下载界面示意图

4.2 构建作者共现网络知识图谱

利用构建作者共现网络知识图谱时，主要包括以下几个关键步骤：加载数据；对数据进行预处理；分析数据节点和边的信息，并将度的属性信息增加到节点列表中；利用GUESS可视化工具进行数据可视化；为了更加直观形象地展示图谱，还需要在GUESS的参数设置面板(Graph Modifier)中进行参数设置，同时还需要在Interpreter中编写一小段Python代码来对图谱进行细微调整。

下面，就以在中构建作者共现网络知识图谱为便，具体介绍其中涉及的一些关键步骤。

(1)加载数据。选择“File＞Load”菜单项，Console窗口中随即会显示一共加载了1541条数据，去掉一条重复的数据，共计有1540条数据，这与前面提及的在WOS中检索到的数据保持一致。在加载数据时，用户也可以采用拖放形式，将文件加载到中，这样做也许更简便一些。按住鼠标指针，将想要导入的文件或文件组拖到“数据管理”窗口，松开鼠标即可。

(2)选择“Data Preperation＞Extracted Coauthorship Network”菜单项，对数据进行预处理，抽取合作者网络。

(3)选择“Analysis＞Network＞Network Analysis Toolkit(NAT)”菜单项，分析该网络节点和边的情况。详细信息随即会显示在“Console”窗口中，它们为后面进一步操作以及在GUESS中设置参数等提供一定参考。

在本例中，一共加载了1541条数据，作者名称已经过规范化处理，文件输入格式是ISI格式，共计有91个节点，有0个孤立节点(如果有孤立节点，通常是为了找到相关性最强的网络，可以选择“Preprocessing＞Networks＞Delete Isolates”菜单项，将孤立节点删除)。节点的主要属性有：标签、引用次数、作品总数等。此外，本例中共有244条边。边的权重最小为1，最大为9，即至少有一次合作，最多有9次合作。

(4)为了将度的属性信息增加到节点列表中，可以选择“Analysis＞Networks＞Unweighted & Undirected＞Node Degree”菜单项。

(5)选择“Visualization＞Networks＞GUESS”菜单项，将数据进行可视化。具体步骤都会在进程调度窗口(如图9所示)中显示出来。

图9 进程调度窗口显示的分析步骤

同时，右侧的数据管理窗口中也会显示分析过程(如图10所示)。

图10 数据管理窗口显示分析过程

(6)在GUESS中对图谱进行调整，设置具体参数。

4.3 GUESS控制面板参数设置

用户可以根据自己的研究需要，在GUESS的控制面板中进行相应的设置，比较常用的操作有：Resize Linear、Colorize、Object、Show Label、Hide Label按钮(如图11所示)。

图11 控制面板参数设置示意图

首先，在Resize Linear中，对节点大小和边进行设置，让重要作者加大显示，以方便用户分析和观看。具体操作步骤如下：

经过上述调整，得到最终生成的知识图谱(如图12所示)。

需要补充说明的是，在中，如果用户有编辑好的脚本，则可以直接利用设置好的脚本。在Script中，直接使用Co-Author-nw这个脚本，但是，为了更好地显示用户的需要的信息，用户也可以自己设置相应的系数。

图12 最终生成的知识图谱示意图

从最终生成的知识图谱(如图12所示)中不难看出：与Garfield E合作最多的几位作者是：Sher IH、Revesz GS、Welljamsdorof A、Small h、Pudovkin A。在知识图谱中，边的值一般代表的是合作次数。在图11中，Garfield E与Sher IH合作有9篇论文，与Revesz GS合作有5篇，与Welljamsdorof A合作有9篇，与Small H合作有6篇，与Pudovkin A合作有8篇(合作论文详细情况如表1所示)。与Garfield E合作的这几位高频作者在合作时间方面都呈现出一定的阶段性。例如，Sher IH与Garfield E合作主要是在20世纪60年代，Pudovkin A与Garfield E主要是在21世纪以后才合作。

总之，利用绘制知识图谱，用户不仅可以一目了然地看到他们之间的合作关系网络，而且还可以根据自己的研究需要，设置不同的权值，选择性的显示不同权重值的标签。

5 的局限性

与其他知识图谱工具相比，拥有一定优势，但它同时也存在以下局限性：

(1)运行时，需要占用大量的内存，对电脑系统的要求比较高，尤其是在处理引文关系网络时，由于节点和边的数据量都很大，在对绘制好的图谱进行调整时，常常因为电脑内存的不足而出现死机现象。这主要是由于Java虚拟机的限制造成的。因此，建议用户在使用时，必须在应用程序启动之前确定Java应用程序的可用内存量。目前为大多数应用分配的可用内存量的默认值是350MB。对于大多数分析应用来说，这一默认值应该足够了。如果需要进行大数据量的引文分析时，则建议增加系统的可用内存空间。

(2)因为是国外学者主持开发的一款通用的知识图谱分析软件，所以它在对英文文献进行格式处理时功能上显得比较简单一些。此外，到目前为止，还没有出现中文版的。因此，对于我国的广大研究人员来说，如果想要使用来处理中文数据，则需要对中文数据进行相应的转换才行。

标签：大数据论文; 可视化论文; guess论文; 可视化管理论文; 用户研究论文; 网络节点论文; 网络图论文; 用户分析论文; 功能分析论文; 数据处理论文;

新知识图分析软件的介绍与评价_大数据论文

猜你喜欢