信息可视化分析工具的比较分析——以CiteSpace、HistCite和RefViz为例,本文主要内容关键词为:为例论文,工具论文,信息论文,CiteSpace论文,RefViz论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 大数据时代,信息呈现出数据量大、价值密度低及时效快等特点,人们保存、检索、分析及利用能力面临着巨大的挑战[1]。信息可视化工具的出现,使得大规模非数值型信息资源得以视觉呈现,为人们理解和分析数据提供了帮助。信息可视化工具种类繁多,CiteSpace、RefViz及HistCite 3种广受关注[2]。本文在应用层面对这3款工具进行同源数据的对比分析,剖析各个分析软件在学科知识领域应用中的优缺点及各自的特色。 本文的文献数据来源于美国Thomson Scientific集团开发的web of science平台,该平台收录学科齐全,所收录的引文数据质量较高[3]。在web of science平台,时间跨度选择all years,数据库来源选取SCI-EXPANDED、SSCI、A&HCI、lC以及CCR-EXPANDED,数据类型选择all types,检索词为:TITLE=“digital librar*”,经过学科提炼得到4961条数字图书馆方向的文献数据,将这些数据以“txt”文本文档形式下载并保存,数据采集日期为2014年2月12日。 2 基于用户视角的引文分析软件的比较分析 2.1 界面设计比较分析 相同点:CiteSpace、HistCite和RefViz 3款软件的主界面均包含菜单项、显示框和参数设置项。 CiteSpace的菜单项包含了文件、项目、数据、网络、可视化等栏目,显示框包含了数据基本信息和软件运行结果报告两部分,参数设置项包含了时间切割、术语来源、术语类型、节点类型、图谱精简和可视化类型等部分。如图1所示。 HistCite的菜单栏包含了文件选项、数据分析、可视化窗口等栏目,在主界面上可以依据记录、作者、期刊等参数对数据进行统计排序并显示,参数设置项包含了国家和地区、机构、语言、文献类型、出版年份等选项,如图2所示。 图1 CiteSpace主界面视图 图2 HistCite主界面视图 RefViz工具的菜单栏包括文件选项、可视化图谱类型选项、工具栏和帮助菜单栏目,在主界面上有galaxy和matrix两种显示类型,galaxy显示的是文献聚类图谱,而matrix图谱则显示主题词之间或者主题词和文献分组之间的关系,RefViz主界面提供两个基本参数控制图谱类型,分别为galaxy和matrix,如图3所示。 图3 RefViz主界面视图 CiteSpace的操作界面提供了数据库类型选项,而且提供了项目位置、数据存放位置、数据分析过程和结果报告等选项。 CiteSpace可以同时运行多个窗口,以不同窗口显示各节点的引文历史轨迹图;HistCite仅支持运行一个窗口;而RefViz的节点显示窗口都集中在主界面上,一次只能打开一个窗口。 CiteSpace具有良好的提示功能,当软件无法运行数据时会弹出消息框,提示数据格式是否正确、或是否以“download.txt”命名;RefViz没有相应提示,主界面给用户提供网络或本地数据库两种选择,当无法将数据导入HistCite时,软件仅提供“文件无效”、“格式有误”或“路径错误”等信息,没有向用户提供更为明确的提示信息。 参数设置方面,CiteSpace有时间段分割、网络精简类型、Threshold Interpolation、Top N per slice;RefViz参数方式少,仅按照galaxy和matrix控制图谱类型;HistCite提供的参数设置方法单一,仅提供根据如作者、引文、地区显示结果。 2.2 软件操作难易程度分析 相同点:CiteSpace、HistCite和RefViz 3款软件均为英文版本,尚没有简体中文版本,这无疑加大了用户学习和使用的难度。 不同点:在入机交互方面,HistCite和RefViz这两种工具界面简洁、操作步骤简单,软件参数设置简单,比较容易掌握;CiteSpace在环境支持方面,其运行需要JAVA环境的支撑,不同的软件版本对操作系统有不同的要求;功能方面,CiteSpace中通过很多参数干预结果。 2.3 数据处理功能分析 2.3.1 数据处理与转换功能 相同点:3款软件均可处理web of science平台的数据,必须以“download.txt”的形式命名数据文件,仅支持英文字母或者数字。 不同点:如果在CiteSpace中处理web of science数据,则需要将从SCI下载的原始数据集以“download.txt”格式另存[4]。打开CiteSpace,利用引文数据转换器将数据集导入转换并输出单独的文件夹中;HistCite也需作数据处理和转换,对比HistCite的样本数据可发现,每条记录之间均存在一个空行,而从SCI下载的数据缺空行,因此需要Notepad++软件处理,利用替换功能,将“ER\nPT”换为“ER\n\nPT”,实现了在每条记录之间加空行,该软件通过原始数据所在文本文档导入数据,但是文本文档的命名不能出现中文;RefViz通过原始数据所在文本文档直接导入数据,保证文本文档是“download.txt”格式即可。 2.3.2 支持的语言类型比较 相同点:CiteSpace、HistCite和RefViz 3款软件均支持英文数据的识别和处理,英文数据来源主要为web of science数据库平台。 不同点:与HistCite和RefViz相比,CiteSpace可以支持中文数据的处理,中文数据的来源为南京大学中文社会科学引文索引数据库(CSSCI),只是需要做格式和编码的转换。 2.4 节点控制分析 2.4.1 节点的缩减功能比较 CiteSpace具有良好的节点选择缩减功能[5],第一种方法在主界面中有4个选项框用来控制节点的形成和数量。第一个为Top N Slice,提取时间段被引频次最高的前N个,系统初始值为30,N越大,则形成的图谱相对更加全面,第二个为Top N% per slice,将每个时间段的节点按照被引频次降序排列,仅保留前N%,第三个为Threshold Interpolation,可设置C,CC和CCV,最后一个选项框为Select Citers,按Continue,再设定方法1,2或3。第二种为在形成的图谱中右击某个不被显示的节点,选择“hide node”可隐藏节点,通过隐藏节点便可以达到控制图中节点数量的目的。 HistCite则通过LCS和GCS两种模式和“count”和“value”控制节点的数量,例如在LCS模式下,选择“count”则表示显示在当前文献集合中被引频次最高的节点数量,软件初设值为30,选择“value”代表显示在当前文献集合中被引频次超过设置值的节点。通过“count”和“value”可以控制形成图谱中显示的节点数量和权值。 RefViz尚没有节点数量缩减控制的功能。 2.4.2 节点间的位置控制比较 CiteSpace通过3种方法控制图谱中节点的位置,一种是依据被引频次控制节点位置,以节点被引频次的多少控制图谱中节点的数量和位置。另外一种是依据“centrality”控制图谱中节点的数量和位置,节点的中心性越高,反映了网络中任意两点之间经过该节点的最短路径越多。最后一种方法为通过在图谱中拖动节点来控制节点的位置,这表明节点在图谱中的位置并非绝对,CiteSpace图谱的动态性更强,CiteSpace没有对节点的绝对位置进行控制。 HistCite及RefViz不能进行节点间位置的控制。 2.5 可视化图谱比较 2.5.1 图谱的显示方式 CiteSpace的图谱显示方式多样,比如聚类图(cluster)、时间图谱(timeline)和时区图谱(timezone)[6]。RefViz以文件夹的形式将所有文献分组并编号形成文献聚类视图。HistCite则依据时间分区形成了节点之间引用关系视图。 2.5.2 可视化图谱的类型比较 通过CiteSpace可以形成很多可视化图谱,比如文献聚类视图、国家和地区合作网络、著者合作网络、时间和时区图谱等等。RefViz的可视化图谱类型也较多,比如在Galaxy视图下的文献聚类视图,Matrix视图下根据相关度或者数值形成的主题词共被引图谱和主题与文献分组共引视图等。而HistCite的可视化图谱仅为引文编年图,但是HistCite具有很强大的文献计量统计功能。 2.5.3 可视化图谱色彩比较 CiteSpace形成的图谱为彩色图,如图4所示,通过不同的颜色反映节点不同的被引年份,而且用大红色和玫瑰红色代表突变性很强的节点,用来反映突变术语和研究前沿。节点之间的连线代表它们之间的共被引关系,连线的颜色代表节点之间首次共被引的年份。通过节点之间连线的粗细和各个节点的大小,颜色的差异很容易辨识节点的被引以及共被引情况。 图4 数字图书馆研究前沿时间图谱 借助HistCite形成的引文编年图颜色较单一,为黑白色,不易辨识节点之间的种种关系以及节点的被引历史,缺乏生动性。 RefViz的Galaxy视图中,绿色代表选中的文献分组,蓝色代表未选中的记录,通过节点的颜色及大小很容易辨识不同的文献组和文献,Matrix视图中颜色更丰富。Relevance模式中红色表示主题词有强关联性,蓝色表示关联性较弱,白色区域表示没有关联性。 2.5.4 可视化图谱解读难易度 CiteSpace的可视化图谱清晰,易解读,通过不同的颜色、节点的大小、节点之间的位置很容易辨认被引频次高的节点,很容易了解数字图书馆文献的力量分布、核心作者、热点等,想了解数字图书馆的研究前沿,根据“burst”值对图谱进行操作,就会形成以红色的节点。 HistCite的图谱解读难易程度取决于节点间的被引频次和节点的数量,如果引文编年图中的节点过多且被引频次过多,则图谱中很多连线交织,形成一个很复杂的网络图,且图谱是黑白色,增加了图谱解析的难度。此外,因其图谱中节点之间的连线粗细一致,研究人员无法辨析关键节点之间的共被引关系。 在RefViz的Galaxy视图中,软件将所有文献进行分组编号并以文件夹的形式展现出来[7]。文献分组的大小反映了该组文献数量的多少,文献分组之间的距离反映它们的研究内容的相似程度,通过文献分组密集的区域很容易辨识数字图书馆领域的研究方向。在Matrix视图中,图谱以不同的颜色反映主题词之间或主题词同文献分组间的关联。 3 基于功能视角下的引文分析软件比较分析 从数字图书馆方向的国家与机构、著者、期刊、关键文献、研究热点及趋势几个方面对CiteSpace、HistCite和Refviz 3款软件进行对比分析。 3.1 国家与机构分析功能 相同点:CiteSpace与HistCite都有揭示国家和机构的功能;都提供国家和机构统计分析;两款工具都可以对国家或者机构节点信息进行排列,Citespace可依据被引频次的高低对文献信息进行排列;两者的国家和机构统计信息均以表格的形式显示,但是两者的统计表格均不能被直接输出。 不同点:CiteSpace的国家与机构显示多样化,以表格和视图的形式显示国家与机构的信息,HistCite只能以表格的形式显示;CiteSpace可以视图的形式揭示国家与机构的合作情况,以节点和连线的形式反映国家与地区间的关联度,依据HistCite无法揭示国家与机构的合作关系;在排列依据方面,CiteSpace除了依据频次统计,还提供中心度,HistCite可揭示国家或者机构在当前文献中的被引数;在时间方面,HistCite的国家与机构统计中缺乏时间因素。 3.2 作者分析功能 相同点:CiteSpace和HistCite均具有揭示重要作者的功能;均以图表的形式反映某领域的重要作者;两者都能以被引频次等属性对作者进行统计;两者形成的统计信息表格均不能直接被输出,需要人工辅助统计或者用截图软件导出。 不同点:CiteSpace以可视化视图展现著者的共引情况,HistCite不能揭示著者间的合作情况;CiteSpace依据中心性和被引频次共同确定重要作者,而HistCite依据发文量和在当前文献集合中的被引数判断重要作者;CiteSpace提供了突变率检测的功能,通过burst值可寻找短期内引用次数激增的作者,HistCite不能揭示著者的变化程度。 3.3 关键文献分析功能 相同点:CiteSpace、HistCite和RefViz都有揭示学科领域关键文献的功能;都是从某领域文献集合与被引文献集合的关系中寻找关键文献;均能够以可视化图谱的方式展现文献数据之间的种种关系;均具有对关键文献进行统计并显示的功能。 不同点:从分析方法来看,CiteSpace软件以被引用次数和中心性为标准来判断文献的重要程度,HistCite的关键文献分析功能以当前文献集合为分析对象,RefViz将文献按内容和关联度分组,以文件夹的方式展现文献组情况;从重要性参数看,CiteSpace以被引频次、共引次数、突变率及中心性作为衡量标准,HistCite以LCS、GCS为参数,RefViz以文献分组数量及分组的位置作为衡量文献重要性的标准。 3.4 研究热点和趋势分析功能 相同点:CiteSpace、HistCite以及RefViz均具有识别某一个学科领域的研究热点的功能;都是从文献数据的题录部分提取词组的方式来确定热点主题词;均能对提取的主题词或者关键词进行词频统计并分析。 不同点:从分析方法来看,CiteSpace以词频统计及共词方法分析主题词之间的引用是共引关系,HistCite以词频分析方法统计热点主题词,RefViz以词语加权方式将词语按照重要性分布;从热点词组的显示来看,CiteSpace以图谱方式显示关键词间的引用关系,从引用历史轨迹可查看主题词年份分布,HistCite只能以表格的方式对主题词进行统计,无法揭示主题词之间的关系,RefViz的Matrix视图能够揭示热点主题词之间的关系;从主题词的衡量指标看,CiteSpace以中心性和被引频次作为衡量依据,此外依据突变率分析词语的变化趋势,HistCite以TLCS及TGCS作为衡量热点主题词的依据,RefViz依据词权确定主题词,另外对热点词语进行权值干预;从揭示研究前沿的程度看,CiteSpace依据主题词的burst值来判断某领域的研究前沿和发展趋势,而HistCite和RefViz对研究前沿术语的揭示功能方面比较弱。 4 结论 经过以上的比较,可以发现这3种软件在用户设计、功能设计方面都具有相同的特性,但具体从每一个比较标准来看,各软件之间确实又存在着差别,也正是这些差别使得不同的软件有其各自不同的使用领域与范围。CiteSpace能够显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程;RefViz可以确定和精炼领域关键词,展示发展的热点趋势,确定顶尖杂志发表的文章主要是什么方向;HistCite能够用图示的方式展示某一领域不同文献之间的关系,帮助我们绘制出一个领域的发展历史,定位出该领域的重要文献,以及最新的重要文献。标签:citespace论文; 主题词论文; 信息可视化论文; 软件论文; 功能分析论文;