知识图谱——信息管理与知识管理的新领域,本文主要内容关键词为:图谱论文,信息管理论文,知识管理论文,新领域论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1955年加菲尔德发表题为《引文索引用于科学》的论文,系统地提出用引文索引检索科技文献的方法,1961年开始编制面向全部科技领域的综合性引文索引《科学引文索引》(简称SCI)并于1963年出版[1]。1965年,普赖斯借助《SCI》发表了论文《科学论文的网络》,这篇论文研究了科学论文之间的引证和被引证关系以及由此形成的引证网络。普赖斯指出在这个网络图上,有密集分布的小条或小块,如果把这些小条小块研究清楚,就可以绘制当代科学的“地形图”[2]。由此引文分析普遍开展起来,而信息技术的广泛运用,更使得引文分析、共现分析等方法如虎添翼。进入新世纪以来,知识图谱的理论与方法,以其理论上的综合化、方法上的可视化、描绘上的形象化等诸多特征,获得迅猛的发展,一跃成为当代科学计量学的研究热点与最新前沿,研究极为活跃。但在文献计量学的发源地——图书馆学情报学领域,知识图谱却不是非常重视。当代著名情报学家加菲尔德和权威科学学家默顿都认为:科学计量学、文献计量学、信息计量学都属于同一门学科——科学计量学[3]。因此,本文拟对知识图谱的理论与方法作一简要介绍,以期引起国内同行的重视和研究。
1 知识图谱概述
1.1 知识图谱的概念
知识图谱(Mapping Knowledge Domain,在图书情报界也称为知识域可视化或知识领域映射地图),是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。
1.2 知识图谱与知识地图、信息可视化、知识管理之间的关系
为了确切地理解知识图谱的概念,首先要明确它与知识地图、信息可视化、知识管理之间的关系。
1 2.1 知识图谱是知识地图的一种高级表现形式
英国著名的情报学家布鲁克斯(B.C.Brooks)在他的经典著作《情报学基础》中最早提出了“知识地图”的概念。布鲁克斯指出情报学的真正任务应该是组织、加工和整理人类客观知识,将知识结构绘制成以各个知识单元概念为节点的学科“认识地图”,通过对文献中的逻辑内容进行分析,找到人们思想的相互影响及联系的结合点,从而为用户提供知识之间关系的一种知识组织的理想状态[4]。布鲁克斯所提出的“知识地图”是从知识网络的形式出发,说明知识单元发展变化的过程,促进知识的变化过程向理想的状态发展。而目前信息管理界研究的应用于知识管理的知识地图,其思想来源于布鲁克斯,但与他提出的“知识地图”的概念是不同的。目前研究的知识地图就是对组织知识资源总体分布情况的可视化描述,包括组织知识资源的存在情况及其载体,以及资源之间可能存在的联系。实质上就是利用现代信息技术制作的组织知识资源的总目录和各知识条目之间关系的综合体以及组织专家的导航系统。是利用构造地图的方法将各类知识资源中的知识关联起来,使之成为一个网络[5]。IBM的The Lotus Knowledge Discovery System推出了强大的知识地图集成方案;微软公司的知识地图包含了137项显性知识及200项隐性知识[6]。由此可见,目前研究的知识地图建立的只是文献信息之间的,最多是知识之间的一种关联,而无法说明知识单元发展变化的过程,因此,并不能称为严格意义上的知识地图。而知识图谱正是实证研究科学共同体结构与发展的方法,通过把最先进的信息技术运用于知识图谱的绘制,来实现动态发展着的学科知识的可视化,揭示学科发展规律。在知识图谱中,学科前沿之间的交互关系是以空间的形式展现出来的,这样就能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体以及“无形学院”(无形学院是特定的学术社群,即具有共同信念的合作群体中的学者形成的交流网络),分析推测学科间的交叉、渗透和衍生趋势,对某一学科的产生背景、发展历史、突破性成就、今后发展方向进行分析,从而揭示学科的动态结构。因此,知识图谱遵循了布鲁克斯“知识地图”的思想,可以说是布鲁克斯所提出的“知识地图”的真正雏形,并向着这一理想目标迈出了坚实的一步。
1.2.2 知识图谱是信息可视化的一个分支
信息可视化是利用计算机支撑的、交互的、对抽象数据的可视表示。可视化技术不仅在揭示信息资源的广度与深度上有很大的优势,还能够将隐藏在信息资源内部的、复杂的、抽象的语义以直观的图形方式呈现给用户,为用户直观、方便获取、过滤、理解大规模数据和信息提供了有效途径,从而发现信息之间的关系特征和规律[7]。知识可视化是将数据挖掘和知识发现等方法所获得的知识和规律,尤其是知识的构成和知识之间的逻辑关系,以及具有复杂结构的知识,利用可视化的方法表现出来,使得知识便于理解。该类型的可视化可以是静态的关联、聚类、分类知识,也可以是反映系统演化规律的知识[8]。知识图谱就是利用信息可视化技术,根据共引分析、共现分析等理论基础,构建的一种知识之间关系的网络图,常见的网络有时序网络、共引网络、共词网络、耦合网络、合作网络等。它包含了以文献等信息为节点、以它们之间关系为边的链型、树型、网型等结构的图形。这些关系聚类图的可视化包括作者、文章、期刊、关键词、学科等类型,节点分别是作者、文章或期刊等,边即权重。知识图谱这种扩展到深层次的知识发现和数据挖掘领域中的可视化方法,在信息管理界被称为知识领域可视化[9]。因此,知识图谱和信息检索过程可视化、信息检索结果可视化一样都属于信息可视化的一个重要分支。
1.2.3 知识图谱是知识管理中数据挖掘和知识发现的有效手段
数据挖掘是从大量数据中挖掘隐含的、先前未知的、具有潜在价值的知识或规则。这些规则蕴含了数据之间的特定关系,揭示出有价值的知识[10]。数据挖掘的主要模式有聚类、关联规则、序列模式、分类等。聚类是把一组个体按照相似属性归成若干类别,其目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大;序列模式主要是分析数据间的前后序列关系;分类要解决的问题是为一个事件或对象归类。知识图谱就是将数据挖掘和知识发现的有关方法和模式移植到文献信息之间的共引、共现关系上,采用关联、序列、聚类、分类等方法进行深层次的分析,发挥它能够从大量的、不完全、模糊的、随机的、事先未知的数据中自动、有效、智能地提取隐含于其中的有用信息和知识的优势。科学发展的继承性可以从引证关系上体现出来;通过对引证关系的挖掘分析,发现科学理论和方法的历史演变过程;用共现、共引、耦合关系按年代分布所构成的历史图和网状关系进行研究,能够揭示学科结构特点、研究热点、发展源流、专业相关程度以及突破性成就、未来发展方向等[11]。知识管理提供容易使人们理解和使用的知识,而不是分散的、复杂的、难以理解的信息单元。知识管理强调系统化地处理和利用信息,发掘知识内涵,建立以先进信息技术为基础的知识管理系统,促进知识的广泛共享[12]。因此,知识图谱方法就是知识管理的一种有效形式,在揭示信息关联及规律方面具备其他许多方法不可比拟的优越性和独到之处。
1.3 知识图谱的主要应用领域
知识图谱的主要应用领域包括:(1)从事科学技术活动的学术共同体和作为其知识载体的网络;(2)某一学科主要研究领域之间的内部联系,各研究领域之间的知识输入与知识输出;(3)研究主题的衍生、渗透与扩散趋势;(4)学科领域内显性或编码化的知识(作者、机构、专利、期刊和其他出版物等)之间的关系;(5)科学社会网络(科学合作网络)等。
2 构建知识图谱的理论
2.1 引文分析理论与共引、耦合网络
所谓引文分析,就是利用各种数学及统计学的方法和比较、归纳、概括等逻辑方法,对科学期刊、论文、著者等各种对象的引用与被引用现象进行分析,揭示其数量特征和内在规律的一种文献计量方法。科学文献的引用与被引用,说明了科学知识的继承和利用。通过引文间的网状关系进行研究,能够探明有关学科间的关系和某些发展规律。当两篇文献共同出现在第3篇文献的参考文献中,这两篇文献就成为被共引的关系。共引频率定义为这两篇文献一起被引用的频率。一对文献被共引的频率越高,它们就越相似。两篇文献共同引用第3篇文献,这两篇文献就成为耦合关系,耦合频率与共引频率相同。利用文献间的相似性特征,就能够构造学科的层次结构,为洞察其变化趋势提供直观的工具。同传统的学者个人归纳、访谈调查等主观分类方法相比,共被引分析最大的优势是它的客观性、分类原则的科学性和数据的有效性。共被引分析又可以分为文献、期刊、作者、学科分析等。引文分析理论与共引、耦合网络可以:(1)揭示科学研究间的隐含关系,发现学科历史渊源,作为分析科学史的依据;(2)反映学科间的交叉融合,生成学科关系图,分析科学结构;(3)用于探索交叉学科研究前沿,寻找新的研究方向,促进交叉学科发展等[13]。
2.2 词频分析理论与共词网络
词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法。由于一篇文献的关键词或主题词是文章核心内容的浓缩和提炼,因此,如果某一关键词或主题词在其所在领域的文献中反复出现,则可反映出该关键词或主题词所表征的研究主题是该领域的研究热点。共词分析方法属于内容分析方法的一种,它通过对一组词两两统计它们在同一文献中出现的次数,并以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科研究热点、主题的结构变化和转移趋势[14]。这种方法的优点是方法灵活,结果直观,同时词和词共现不仅出现在科学期刊中,也出现在专利和政策报告等灰色文献中。共词分析法是对当前发表文献的直接统计,所寻找的是当前论文所集中关注的主题,适合寻找前沿领域。因为前沿领域的研究往往人数众多而不集中,作品比较分散,被引用情况不稳定,而关键词却很好地体现了该学科的研究热点、发展方向。
2.3 社会网络分析理论与科研合作网络
社会网络分析(SNA)是人、集团、组织或者其他信息与知识处理实体的关系和流动的映射和测量。网络中的节点是人和集团而链接表示节点间的关系或者流动。它将社会结构界定为一个网络,强调的是每个行动者都与其他行动者有或多或少的关系,更多地聚焦于成员之间的联系而非个体的特征,一个社会网络是一个人群的集合,其中的每一个人都与其中某个子群体的人相互熟悉。这样一个网络可以用点(或矢量)的集合来代表人,用线的连接来表示相识。在理论上,社会网络分析可以为任何共同体构建一个社会网络[15],建立这些网络关系的模型,描述群体关系的结构,研究这种结构对群体功能或者群体内部个体的影响。在一个科学合作网络中,如果两个科学家共同发表了一篇合作文献,就被界定为他们之间存在联系。除了作者间的合作外,合作网络还包括合作者的数量、合作论文数、聚类的度等等[16]。社会网络分析提出了若干定量分析的指标,主要概念有:紧密性、中介性、中心性、桥、簇、团、丛等[17],通过这些概念,可以借助可视化技术了解有重要地位的作品、作者、学科力量和群体分布等[18]。
3 构建知识图谱的关键技术方法
知识图谱的关键技术最主要的是解决在图形生成过程中的数据降维问题,传统的映射技术有多元统计分析方法,包括因子分析(主要是主成份分析)、多维尺度分析和聚类分析,目前比较先进的映射技术有:寻径网络[19]、自组织特征映射[20]、力矢量布局算法[21]、潜在语义分析[22]、最小生成树算法[23]、三角测量等新的先进算法,这些都只在国外有试验报道,在国内只有寻径网络的方法有实验报道,其他都是简单的评介,还无相关实验研究。共词分析采用的主要可视化方法包括包容图、临近图、战略坐标图等方法,战略坐标图更为常用。战略坐标图可以可视化的形式概括地表现一个知识领域的结构。
4 构建知识图谱可用软件评介
目前构建知识图谱应用较多的是一些用于社会网络分析的软件,下面就国内外文献报道所使用的软件做一简要分析介绍。
4.1 Pajek[24]
Pajek是一个网络分析和可视化的程序,专门为处理大型数据集而设计,是基于Windows的免费社会科学软件,它允许用户对大量抽象的数据进行分析。它能够同时处理若干网络,包括双模式网络、时间事件网络、纵向网络等的分析功能,用户也能够生成一系列局部交叉的网络进行各种分析。软件的结构是建立在几种数据结构(网络、分区、转置、群、层级和向量)和这些结构的转换之上的。绘图功能较强,绘图窗口给用户很多选项来处理图表。能够支持二维、三维网络和3D的可视化,能使用多种格式存储:EPS、SVG、KIN、BMP以及VRML。
4.2 UCINET[25]
UCINET是网络分析集成软件,其中包括一维与二维数据分析的Netdraw,还有正在发展应用的三维展示分析软件Mage等,同时集成了Pajek用于大型网络分析的Free应用软件程序。UCINET6.0是菜单驱动的Windows程序,通过速度按钮能够输出到Pajek和Mage,能够登录到Netdraw,这3个程序和UCINET是搭配的。它有两种输出形式:文本型(保存成日志型在屏幕上显示)和数据型(能够作为其他程序的输入)。UCINET是面向矩阵的,数据集合是一个或多个矩阵的集合。一个简单的UCINET文件包含两个文件:事实数据和关于数据的信息。UCINET数据可以直接导入也可以新建表单直接录入。UCINET提供大量的数据管理和转换工具,例如选择子集、合并数据集、序化、转化或记录数据。UCINET不包含可视化的过程,但是它却和软件Mage、Netdraw和Pajek集成在一起,从而能够实现可视化。
4.3 Netdraw[26]
Netdraw是简单的绘制网络图的工具,它可以读取UCINET系统文件、UCINET文本文件、Pajek文本文件。绘制的图片以WMF、BMP和JPG文件格式保存。它可以同时处理多种关系,并可以根据节点的特性设置颜色、形状和节点的大小,是一个非常灵活的可视化软件,并可做数据分析,如中心性分析、子图分析、角色分析等,也具有很强的矩阵运算能力。
4.4 Bibexcel
Bibexcel是由瑞典科学计量学家开发的用于科学研究的科学计量学免费软件。其功能包括:文献计量学分析、引文、共引、藕合分析、聚类分析、知识图谱绘制等等。
4.5 WordStat[27]
该软件是Simstat的一个模块,具有所有基本分析功能,还有一些注释功能和各种信息的计量统计功能,如按各个字段来统计人名、作者、关键词、主题词等的出现频率,这种统计功能可用于文献计量学的分析。Winisis1.4版汉化版命名为C_Winisis,可供国内图书情报机构免费使用。
4.6 Wordsmith
是英国牛津大学开发的商业性词频分析软件。其主要功能是Wordlist和Concord tool两种。Wordlist可以将一个文本中的所有单词按出现频次进行排序;应用Concord tool可以找到与任意一个单词搭配的词组。该软件在国外计量学领域中得到了大量的应用。
4.7 Citespace[28]
是2003年由Drexel大学Chaomei Chen开发的,该系统的首要目标就是利用可视化技术在知识域中帮助用户进行突发趋势和技术预测的分析。对某一领域根据时间顺序进行“快照”,然后把这些“快照”连接起来,演绎出这一领域研究热点的变化过程和发展趋势。
4.8 HistCite[29]
2003年Garfield博士等开发了HistCite软件包,它是一个很好的引文历史可视化分析工具。该工具利用共引理论通过一系列相关数据产生时代和其他类型的表格及编年图表,以此实现知识领域的分析功能。
4.9 VxInsight[30]
该工具是知识可视化工具,通过相似性组织大规模的数据元素,用3D虚拟风景画描绘数据元素的密度,国外已将其成功用于可视化核物理领域。
5 国内外知识图谱研究的发展历程
5.1 共词图谱的发展
词频分析方法被国内外的许多文献和科学计量学研究者应用于学科前沿的研究。例如,中国科学计量学家梁立明借助词频分析方法研究了56位情报学家对科学的关注视角及解读方法[31];荷兰科学计量学家用共引分析与词频分析相结合的方法,绘制出了生物化学领域研究前沿的知识图谱等等。1973年,法国文献计量学家最早提出共词分析法这个概念,1986年,法国国家科学研究中心CNRS的Callon、Law和Rip出版了《Mapping the Dynamics of Science and Technology》[32]一书,该书的出版是共词分析方法的重要里程碑。随后法国的Law等率先运用共词分析法分析环境酸化研究中的政策和科学变化地图[33],并撰文验证共词分析方法[34],Qin也撰文专门探讨如何用共词分析法发现学科知识结构[35],Courtial等人对专利文献的题目词做了共词聚类分析,得到食品类专利的研究热点问题,同时用战略坐标将这些研究热点显示出来[36]。国内的张晗[37]等对生物信息学文献做了高频主题词的共词聚类分析,很好地显示了该主题的研究热点,同时做了战略坐标图,定量地分析了各热点的发展阶段。中国医科大学的崔雷等人从1996年开始,通过采用共主题词和共关键词聚类分析的方法发表了多篇以医学和生物类为主题的文献计量学文章,探究该领域的研究热点及学科结构变化[38][39][40][41][42]。
5.2 共引图谱的发展
1981年White和Griffith合作发表的《作者共引:科学结构的文献测量方法》一文开创了同引研究的先河,该文通过对1972-1979年39位情报学家的共引情况,描绘了他们在学科中的位置和情报学的学科结构[43]。此后20多年间的研究主要有:1989年White和McCain通过共引分析,将情报学分为两个主要领域——计量学(包括引文分析)和情报检索[44];Small等人开发了基于共引理论的单机系统SCI-Map来描绘科学文献间的结构[45];1997年美国肯塔基大学的Linxia首先尝试将自组织映射技术用于共引矩阵,并在2000年生成了一个将情报学家聚到几个主题域的图谱[46];1998年,White和McCain再次采用ACA技术,通过对1972-1995年24年间的一些代表性的文献特征(作者共引数目)归纳总结情报学领域的结构特征和24年来的发展情况,并做出情报学科的知识图谱[47]。1999年Chaomei Chen把寻径网络(Pathfinder Network,简称PFNET)技术引入作者同被引分析,并生成了有关超文本研究的同被引图谱[48]。后来他还用该方式生成的新的知识图谱,是一种三维空间彩色图,用不同的色彩、动画展示其中的突出点[49]。2003年他还用同被引分析对物理学的前沿及发展趋势进行了深入研究,绘制出一系列的知识图谱[50]。2005年Loet Leydesdorff等人运用新型知识图谱分析软件Pajek和传统的多元统计分析方法相结合,将同被引研究延伸到网络领域,为同被引分析开辟了一片新天地[51],近些年他还致力于研究期刊间的引用关系,通过对期刊间引用频次的可视化分析,图示它们的网络关系,他利用从SCI和SSCI套录的数据,通过计算2000年7349种期刊的引用和被引用频次,利用VxInsight作为知识图谱软件,构造了期刊引用和同被引关系的知识图谱[52]。西班牙的FelixMoya Anegon搜集西班牙在2000年被SCI和SSCI以及A&HCI收录的文献,根据发表这些文献的期刊在ISI-JCR中所属的类别,对应到西班牙分类法的25个大类中去,从而得到西班牙大科学结构分析的知识图谱[53]。国内同被引分析研究的也不少,武汉大学、大连理工、中科院图书馆等都有不少成果。具有代表性的有:中国医科大学的崔雷利用SCI数据,对丙型肝炎这一专题文献4年间的高被引论文进行连续的同被引聚类分析,反映了该专题研究的结构及这些结构的发展过程[54]。
5.3 知识图谱研究的最新进展
5.3.1 与信息检索可视化结合
HistCite、Citespace II、VxInsight都是面向知识域分析开发的,可视化分析能力强,形式丰富,但却没有将可视化技术运用到信息检索领域。美国Drexel大学的White带领研究小组开展了实时环境下ACA绘图及主题检索研究,利用Dialog和SCI的数据,开发出了AuthorLink检索系统,成为用实时共引映射图谱实现检索重要数据库的开创者。利用AuthorLink检索时,用户从该系统得到的不仅是一个作者的信息,而是与该作者高频共引的24位作者,以及基于共引强度以图的形式展示的作者间的相互关系。后来他们又相继开发了基于共引分析理论的PNASLink和基于共词的ConceptLink系统,都是运用PFNET、SOM等多种可视化映射算法实现的。ConceptLink主要特征是利用基于不同算法的可视化图形揭示概念之间的关系,系统目前与PubMed搜索引擎连接提供文献检索,根据与查询匹配的前200篇文献的同现频率列出所有这些文献的MeSH词。用户可以选择任何一个MeSH词来构建概念图,通过区域、链接和距离近似等概念图来可视化医学概念之间的复杂关系。PNASLink除了包括两个系统的所有特征外,还能映射作者、关键词及期刊间的关系,同时还提供许多检索功能,可以通过专门设计的列表如“热点主题”,“NAS成员”或“引用最多的作者”进行浏览[55]。
5.3.2 知识图谱研究向网络结构的延伸和移植
网络站点的链接关系类似于文献的引用关系,因而文献的共引分析可以移植到网络站点。用共链分析反映网络本身的结构,并揭示发掘网络中蕴涵的知识结构[56]。
5.3.3 知识图谱应用于识别学科研究前沿
研究前沿的可视化能提供重要的学科发展趋势,使研究人员能更好地融入主流研究领域。研究前沿可视化的应用范例是ISI的科学前沿分析。ISI利用共引分析进行科学前沿可视化分析,定期以热点问题、研究前沿等形式对分析结果进行跟踪报道。分析过程是通过识别5年内多学科中引用率最高的文献,用共引强度来确定研究前沿需要处理的共引文献集,将关系紧密的文献聚类。然后从符合临界值的一个共引对开始,进行单连结聚类,以此构建研究前沿的知识图谱,进行学科跟踪、趋势预测。例如,在2006年《自然》最后一期中刊登了一幅由80万篇ISI公司提供的科学文献分析产生的科学地图。将这样大规模的文献通过聚类分析,产生700多个聚类,以此为节点,文献之间引用关系作为边,同时将聚类文献关键词作为描述,绘出了各学科及子学科的关联分布图和国家和地区维度的科学地图,通过对比分析就可清晰得到各国家和地区的科学研究战略重点及优势领域[57]。
5.3.4 知识图谱应用于技术跟踪的可视化
通过可视化技术,将共引关系、共现关系、网络关系等各种关联规则转化成可视化形式,获得该技术领域的发展图谱,以识别重要技术,挖掘重点研究领域,观测技术转移,对比国家间、机构问的研发实力和创新能力、技术优势和劣势[58]。
5.3.5 知识图谱应用于技术创新的可视化
由于专利数据具有易得、完整、准确、时间序列长的特点,故常用专利数据测度一定时期内的技术创新状况,通过专利共引、共现分析,将与专利相关的大量数据转化成成某一领域的技术创新可视化图谱,较好的识别和把握当今技术前沿潜在的技术创新机会[59]。
6 国内外知识图谱研究的不足
大量的文献调研表明:国外的知识图谱研究存在的突出问题是:虽然很多先进的算法和优秀的软件都不断涌现,但在学界和社会上都没有广泛推广应用,也没有建立起评判这些工具和软件功能优劣的有效方法和标准,影响了进一步的集成、大规模的研究。而国内知识图谱的研究与国外相比有极大的差距,主要问题有以下几个方面;
6.1 研究手段和方法的严重滞后
国内近几年有关知识图谱的研究也有一些,如大连理工大学的刘则渊教授带领的团队进行了科学计量学、管理学人机工程学学科以及国内所有工程领域研究前沿的知识图谱构建[60][61][62][63][64];武汉大学的马费成、刘青林、社科院的蒋颖等也对国内外知识管理、数字资源管理、战略管理、文献计量学等领域进行了共词图谱的绘制[65][66][67][68][69];南京大学的邓三鸿、浙江大学的潘有能等初步建立了图书情报学科的学科知识地图[70][71];金莹以CSSCI的数据粗略构建了我国社会科学的学科知识地图[72];中科院、中信所的研究人员也进行了研究。但几乎所有的研究都是采用最传统的多元统计分析方法(因子分析、多维尺度分析和聚类分析),最先进的就是使用了Pajek软件。截止2008年5月,国内文献分别仅有一篇使用了PFNET算法[73],另一篇运用了最新的商用软件Thomson Data Analyzer对人类基因组领域进行共词图谱绘制的实例[74]。
6.2 研究层次低
对一些比较先进的技术(算法、软件)更多的都是理论上的探讨和介绍,国内对HistCite、CitespaceⅡ、PFNET、SOM、潜在语义分析和最小生成树算法都有零星的介绍,但很少进行实际的试验研究。这可能与相关软件获取比较困难、有些是商用软件,研究经费缺乏等有关。
6.3 研究对象范围过窄
目前国内知识图谱构建研究的领域都是范围很窄的某一学科方向的国际化研究,数据来源一般都选自SCI、SSCI等大型英文引文数据库,很少一部分选自中国的引文数据,而文献报道国内开发成功的两个共现系统[75][76]却没有任何实证研究的报道,这些都阻碍了知识图谱这一先进方法在国内的发展。这一现象产生的原因是中国目前已有的引文数据库系统提供的检索入口和数据套录功能很有限,用户很难获取大量的原始数据,从而影响了研究的积极性。
7 几点建议和对策
7.1 组织力量,联合攻关,促进知识图谱在国内的进一步研究
知识图谱的研究需要人力、物力和财力的支撑。图书情报界应该利用选聘学科馆员、专业馆员的契机,在研究院所、大学图书馆中开展此项研究,同时和重点学科知识服务、学科导航、学科专业咨询等工作结合开展。同时要取得相关专业人员的支持和配合,最好能协同攻关,因为知识图谱的构建专业性很强,不仅仅需要图书情报人员就可以把此项研究作好,中科院图书馆的经验就很值得借鉴。如果形成了良性循环,这项工作可以大大提高图书情报界知识服务的质量和效益。
7.2 应加强与国内大型数据库商的合作
应加强宣传,在数据库商中宣传国外数据库商的最新技术成果,使国内数据库商提高技术和服务水平,促进数据资源共享,方便用户获取原始数据,改进引文数据库的数据套录等功能,力争取得用户和数据库商的双赢。
标签:知识地图论文; 聚类论文; 可视化技术论文; 文献计量学论文; 知识管理工具论文; 功能分析论文; 软件过程论文; 情报学论文; 文献论文;