科学知识地图研究综述_聚类分析论文

科学知识图谱研究综述,本文主要内容关键词为:图谱论文,科学知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着信息技术、可视化技术和科学计量学、文献计量学理论的发展,以图形的方式来揭示学科间的联系已不再是一件难事。而近年来科学计量学、文献计量学研究领域兴起的热点之一,就是如何在准确、翔实地传达知识的基础上以可视化的图像直观、形象地向人们揭示学科以及学科之间的联系。科学知识图谱(Mapping Knowledge Domains)正是在这一研究领域中出现的一个新的热点。

1 科学知识图谱的起源

科学知识图谱是引文分析与数据、信息可视化相结合的产物。引文分析是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[1]。正式的引文分析始于上个世纪50年代初,1964年美国的尤金·加菲尔德(Eugene Garfield)创立引文数据库SCI(Science Citation Index,科学引文索引),为学者们利用引文分析法分析学科领域知识结构提供了强有力的工具。SCI不仅为引文分析奠定了数据平台,而且使得规范化、高质量的引文分析成为可能。60年代早期,加菲尔德等人开始了基于引文数据的开拓性研究,他们在《应用引文数据撰写科学历史》(The use of citation data in writing the history of science)中绘制了DNA研究领域的历史发展图谱;不久之后,普赖斯用相同的数据在其一系列经典著作——《巴比伦以来的科学》《小科学,大科学》《科学文献的网络》中,进行了知识图谱绘制的开创性工作。尽管当时并没有使用“知识图谱”这一概念,但是,实际上以引文分析为基础的“知识图谱”理论与方法已经应运而生了[2]。国内自上个世纪80年代引入SCI,很快引起了广大学者的极大兴趣,被越来越多的科学研究者所认同和使用,主要用于揭示科学结构、研究科学史的发展规律、评价科研绩效、预测研究领域热点等方面。

与此同时,计算机技术的快速发展及其在科学计算领域的应用,为数据和信息处理提供了有力的工具。可视化作为一个正式的术语是1987年在美国国家科学基金会举办的可视化会议上提出的。它最早应用于科学计算领域,并形成了可视化研究的一个重要分支——科学计算可视化,被广泛应用于各学科领域的数据和信息处理,产生了数据可视化、信息可视化、知识可视化和引文分析可视化等重要研究领域。

可视化技术的产生为引文分析提供了一个更好的表达和阐述内涵的途径。国外的学者对此已经进行了一系列的研究,如美国Drexel大学的Howard分析了情报科学1972-1995年的作者共引情况,用图表揭示了对情报科学影响比较大的机构和单位,学科发展结构以及作者关系情况的变化等。1999年Chen利用三维虚拟技术开发一套把作者共引关系表示出来的图表,并分析了大型的引文网络结构。加拿大多伦多大学的Yuan An提出了研究计算机文献的相互联系的结构方法,通过数字图书馆检索到有关文献的引用情况,然后应用图表可视化的算法来展示它们之间的关系,并研究其中的一些规律。英国Brunel大学的Chen Chaomei利用可视化技术分析了有关文献的共引情况图,为揭示其有关的规律提供依据。Steven Noel根据文献的引文耦合提出了有关的可视化方法[3]。

科学知识图谱的应用离不开引文分析和可视化技术,是两者的有机结合。近年来,随着计算机技术的迅猛发展及应用,引文分析和可视化领域都取得了长足的进步,许多新的技术被广泛应用于文献、专利、基因图和其他信息类型的可视化分析,产生了许多新的研究成果,为科学知识图谱的绘制提供了新的、可靠的理论、方法和技术支持。其中最引人注目的是数据可视化、信息可视化和引文分析可视化及其应用研究。将引文分析可视化和科学知识图谱的重要应用前景展现在人们眼前,备受信息管理界、科学界和科研管理界的关注和青睐。

2 科学知识图谱的概念解析

科学知识图谱是一种以科学知识为计量研究对象,将复杂的科学知识领域通过数据挖掘、信息处理、知识计量和图形绘制的图形,以可视化的方式显示科学知识的发展进程与结构关系,揭示科学知识及其活动规律,展现知识结构关系与演进规律。具体来说,科学知识地图、引文分析可视化、信息可视化等概念与科学知识图谱十分相似,甚至在不同的研究阶段、不同的研究领域成为科学知识图谱的同义语,但它们在本质上仍存在一定的差异。

引文分析可视化是可视化技术和引文分析相结合而产生的,它可以视为信息可视化的一个重要分支,而科学知识图谱是建立在引文分析和信息可视化相结合的基础上。它的可视化不仅包括传统的散点图和链接节点图,还包括最新自组织图谱、前景图、时间序列图谱和3D显示图等。不同类型图谱的结合不仅推动了可视化技术的应用,而且给用户提供了更快地导航信息并获取所需信息的方式。对非专业人士而言,图谱为其提供了进入某一个领域的切入点,可以在宏观以及微观水平上获取更多的知识;而对于专业人士来说,图谱则提供了一个快速明确学科趋势和新发展的渠道。

科学知识图谱也不等同于科学知识地图。在辞海的解释中,“地图”是按一定比例运用符号、颜色、文字注记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图,而“图谱”则泛指按类编制的图集。可见,图谱描述的是一系列地图在一定时间、一定范围内的发展和变化,处在不断的更新和扩展的状态中。知识地图只能表现科学活动以及知识分布状况,它最大的贡献在于构建知识间的关系,使无序的知识信息以有序的面貌呈现在用户面前,提高了知识的利用率[4]。知识图谱是从一个真正动态发展的知识结构入手,不仅能展现学科内、学科间知识的现状、发展和完善,更能揭示知识之间的联系及知识的进化规律。

3 科学知识图谱的绘制方法与软件介绍

绘制科学知识图谱,是旨在将知识和信息中令人注目的最前沿领域或学科制高点,以可视化的图像直观地展现出来的一种研究手段,具体使用的方法包括引文分析、同被引分析、共词分析、聚类分析、词频分析、社会网络分析、多维尺度分析等。目前常用的绘制软件有Bibexcel、SPSS、Wordsmith Tools、Pajek等。

3.1 绘制科学知识图谱的方法

3.1.1 引文分析

引文分析主要运用数学和逻辑学等方法对期刊、论文、专著、学科、作者等研究对象的引用和被引用现象和规律进行分析,以便揭示其数量特征和内在规律。一篇文献的被引频次可以在一定程度上反映该文献的影响度,而影响度的大小又在一定程度上反映了该文献质量和水平的高低。目前引文分析大致有3种基本类型:(1)从引文数量上进行研究,主要用于评价期刊、论文、机构、作者及地区的科研水平;(2)从引文间的网状关系或链状关系进行研究,主要用于揭示学科的发展与联系,并展望未来前景等;(3)从引文反映出的主题相关性方面进行研究,主要用于揭示科学的结构和进行文献检索等[5]。

2001年加菲尔德和他的同事们推出了HistCite软件。该软件与SCI数据库结合使用,可以自动的对搜索出的某一学科的被引文献按照被引频次的高低进行排序,并且按照这种引用关系和年份顺序生成关于这一学科的引文编年图。HistCite还可以把所查到的文献按照期刊名称、著者、年份分别进行排序。加菲尔德等人应用这一软件已经先后对有关数字图书馆、情报科学、信息计量学、共焦显微镜、实验胚胎学、基因组测序等专题研究以及某一段时期有关某一专题研究的杂志的发文情况进行了引文分析,分别生成了引文编年图[6][7]。

3.1.2 同被引分析

所谓文献同被引,就是指两篇(或多篇)论文同时被后来的一篇或多篇论文所引证,则称这两篇论文(被引证论文)具有“同被引”关系[8]。换言之,如果两篇文献具有“同被引”关系,则意味着这两篇文献有相似的学科背景。如果将同被引分析的对象延伸至与文献相关的各种特征对象,如文献、期刊、著者、学科,就形成相应的文献同被引分析、期刊同被引分析、著者同被引分析和学科同被引分析。

同被引分析的技术手段已经比较成熟,在国外同被引分析多用于作者同被引分析和期刊同被引分析。如美国Drexel大学的Howard以SPSS为工具,采用聚类分析、多维定标(Multidimensional Scaling)和因子分析(Factor Analysis)描述了情报科学1972-1995年的作者同被引情况,用图表揭示了对情报科学影响比较大的机构和单位,学科发展结构以及作者关系情况的变化等。1999年C.Chen把路径寻找网络尺度分析(Pathfinder Network Scaling,PFNET)技术引入著者同被引分析,并生成了超文本的同被引图[9]。

3.1.3 共词分析

共词分析属于内容分析法的一种。它的原理主要是对一组词两两统计它们在同一篇文献中出现的次数,以此为基础对这些词进行聚类分析,生成共词文献簇,进而分析这些词所代表的学科和主题的结构变化[10]。利用共词分析法及其相关的可视化方法可以进行深入的主题分析,系统、全面、直观地了解学科结构和发展状况,并进行学科发展预测。

Monarch曾对共词分析进行过研究,他指出共词分析技术就是通过对相关文献的代表性术语之间的连接强度的分析,得到某一学科领域研究发展的方式和趋势。共词分析的一个主要途径是确定这些代表性术语之间的概念图谱或知识网络结构,通过一系列类似图谱就可以相当详细地描述某一学科领域的主题[11]。目前共词分析的主要可视化方法包括包容图(Inclusion Map)、临近图(Proximity Map)、战略坐标图(Strategic,Diagram)等[12]。

3.1.4 聚类分析

聚类分析是通过一定的方法将没有分类信息的资料按相似程度归类的过程,它是知识发现和数据挖掘中的一个重要工具。在近几年的研究热点中,聚类分析作为一种数据挖掘的重要手段,在文本挖掘中起着重要的作用。通过把文本变换成词向量来聚类的方法是一种重要的聚类方法,它将词条标以不同的权重值,这样,一篇文献就由词条的权重值组成的特征向量来表示,然后在此基础上开展各种文本聚类的研究。文献聚类分析是聚类分析技术在引文分析领域的具体应用。文献聚类分析根据引文的不同特征,进行引文的分群聚类和分析研究。

聚类分析是最常用的降低维数技术的多元统计方法之一。它属于降低维数技术的范畴。聚类分析的结果通常是网络图或树状图,从图中可以分析求出需要预测判断的目标。

3.1.5 词频分析

词频是指一个词在文章或者讲话中出现的次数。通过对主题词出现的频率进行分析,可以找到某一领域或学科的研究热点,并有可能发现研究热点的转移趋势。词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法[13]。由于一篇文献的关键词或主题词是文章核心内容的浓缩和提炼,因此,如果某一关键词或主题词在其所在领域的文献中反复出现,则可反映出该关键词或主题词所表征的研究主题是该领域的研究热点。

例如,使用Wordsmith Tools软件,主要运用Wordlist和Concordance两种功能。对于任意一个文本文件,Wordlist工具会将其中出现过的所有单词列表。列表有两种形式,一种按字母顺序排列,另一种按单词在该文件中出现的频次由高到低排列。另一种工具Concordance功能强大,将某一文本文件中的某一单词输入该工具,该工具就能将这个文本文件中所有出现这个单词的地方,以及一定范围内与该单问毗邻的所有单词显示出来,提供该单词与其它一些单词搭配所形成的具有完整意义的词组。根据上述两种工具所提供的单词或词组,从中发现和选取能够表达一定完整意义的词或词组,并参照这些相关词出现的频次,来确定学科的研究热点[14]。

3.1.6 社会网络分析

社会网络分析源于20世纪50年代,它最初用于心理学研究,后被应用于社会学、人类学、经济学、生命科学、科学学等众多领域。社会网络分析是一种分析工具,它将被分析对象视为社会行动者和他们之间的关系的集合。也就是说,一个社会网络是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)组成的集合。社会网络中,每个行动者都与其他行动者有或多或少的关系。社会网络分析正是基于这种关系,建立各种数学分析模型,然后利用计算机技术将行动者及其关系的结构以图形的方式展示出来[15]。将其应用于文献计量学研究,可以通过社会网络分析中的K核、中心性和中介性等概念,找寻出具有重要地位的作品作者或者是关键词。

3.1.7 多维尺度分析

多维尺度分析通过低维空间(通常是二维空间)展示作者(文献)之间的联系,并利用平面距离来反映作者(文献)之间的相似程度。在科学知识图谱中,作者(文献)的位置显示了他们之间的相似性,有高度相似性的作者(文献)聚集在一起,形成科学共同体(学科前沿)。并且,处于中间位置的作者(文献)与其他作者的联系越多,在某学科里的位置也越核心,反之,越孤独则越处于外围。因此通过多维尺度分析,某研究领域、思想流派或其他学术共同体在学科里的位置就很容易判断。同因子分析相比,多维尺度分析的图形显示结果更加直观和形象,但在确定各个学术群体的边界和数目时,则无法与因子分析抗衡,因此通常都需要同时借助因子分析的结果,进行共被引知识图谱的绘制[16]。

3.2 绘制科学知识图谱的常用软件

科学知识图谱最大的优点就是利用可视化技术将知识和信息中令人注目的最前沿领域或学科制高点,以多维图像直观地展现出来,以期使专业或非专业研究人员可以高屋建瓴地快速从宏观上把握学科进展及发展趋势、核心作者群以及学科研究热点等。因此,必须借助许多专门处理软件对大量数据进行分析并转化为直观形象的可视化图形。常用的数据分析及可视化软件如下表所示:

4 科学知识图谱的主要应用

4.1 科学知识图谱用作科学管理的工具

早在加菲尔德发明引文分析法之后不久,他就探索了将引文分析法作为科学管理的工具。如果科学文献反映了科学活动,那么一个综合性的、多学科的引文分析,就能够为观察这些活动提供一个有趣的视野,该视野能够有效地阐明科学的结构和科学发展的过程。因此,它可以被用来评价期刊、科学家、机构或社团在研究中的角色;确定期刊与期刊之间、期刊和研究领域之间的关系;测度当前研究的影响;向社会提供有关重要的、新的交叉学科关系的早期预警;认定进展突然加速的研究领域以及确定导致重大科学进步的进展次序。

4.2 科学知识图谱在专利引文分析中的作用

之所以单独列出专利引文分析,是因为专利文献在经济学意义上所具有的特殊价值。世界上第一部专利文献的引文索引是1964年出版的SCI,它不仅列出了出现在期刊文献中的专利引文,而且还包括了专利中的引文。这种索引充分发挥了引文分析用于专利文献检索的全部功能[18]。

专利引文分析通过对专利文献的参考引文进行计量学统计分析,从而揭示技术发展的历史和现状,并据此进行技术评价及预测[19]。采用科学知识图谱,通过对专利文献之间相互引证关系的分析和研究,能通过可视化的图像更好地评价和定位某一专利,同时也能洞察某一专业领域内的研发现状和技术水平。

4.3 科学知识图谱用于各学科的计量学研究

科学知识图谱属于科学计量学研究的范畴,基于引文分析的科学知识图谱可用于以下几方面:(1)分析学科进展及发展趋势;(2)分析学科核心作者群;(3)分析学科核心期刊群体的结构;(4)分析时空分布特征、主要热点领域、研究前沿、动态和发展趋势;(5)分析了论文产出的主要领域、国家、机构、科学家和期刊。

此外,科学知识图谱还可用于制定科学决策的依据;确定研究的热点、方法、学科分布和应用领域;揭示相关文献所代表的特定领域内的研究主题、主题的层级及其关系以及由研究主题所映射的具体研究方向之间的关系;揭示研究主题接近所属领域热点问题的程度;考察特定领域内科学研究主题的变迁;预测特定领域的知识发展趋势等方面。

5 科学知识图谱研究展望

科学知识图谱是基于引文分析理论和信息科学与技术发展起来的、国际上新兴的可视化研究方法,目的是将知识和信息中最前沿领域和学科制高点,以可视化的图像直观地展现出来。在发展过程中,科学知识图谱逐渐吸收了图书馆学与情报学领域中的信息可视化技术手段,成为以引文分析理论和方法为支撑的学科结构研究的主流方法。由于科学知识图谱所具有的诸多优点,使得它有着广阔的应用前景。例如侯海燕在文献[2]中,利用词频分析法发现,科学知识图谱研究最热衷的研究领域为借助作者共引分析,研究不同学科领域的结构特征,其重点研究的学科领域包括信息科学、社会科学、医学及经济学。

科学知识图谱研究的发展,使它成为一种重要的科学计量方法。但是,这种方法在实际应用中也存在一定的局限性。由于引文分析本身固有的一些不可靠因素,如作者引用文献的动机,不引用某些实际已经引用的文献,隐性知识的存在、学科内涵和外延的发展等,这些问题都使科学知识图谱绘制的准确性受到了限制。此外,科学知识图谱绘制系统开发及引文数据获取的不易性,对专业人员不仅要求具备丰富的学科背景,同时也要求使用者能熟练掌握绘制技术,这些都是科学知识图谱发展过程中亟待研究和解决的问题。

在过去的研究中,尽管利用科学知识图谱已经实现了对科学结构和科学发展历程的可视化研究,然而,面向社会角度的研究还不够活跃。因此,关于科学知识图谱在社会网络方面的应用应该引起更多学者的关注。可以预见,随着引文分析理论的不断完善和可视化技术的迅猛发展,科学知识图谱这一新兴的科学计量方法必将发挥越来越重要的作用。

(收稿日期:2008-10-17 编发:刘炜 赵亮)

标签:;  ;  ;  ;  ;  

科学知识地图研究综述_聚类分析论文
下载Doc文档

猜你喜欢