数字图书馆知识网络的结构与模式,本文主要内容关键词为:数字图书馆论文,模式论文,结构论文,知识论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
知识可视为一种网状结构,特定意义上的知识就是由众多结点(即知识因子)和结点间联系(即知识关联)要素组成的[1]。数字图书馆是人类的知识宝库,它是由许多复杂的知识网络所构成。研究数字图书馆知识网络,对构建高可用性的数字图书馆系统、开发有价值的数字信息资源、进行知识组织、检索与服务等都具有十分重要的意义。
1 数字图书馆知识网络的特点
数字图书馆的知识网络是指从数字信息资源中提取知识元,以这些知识元之间的各种关联为基础,利用知识组织系统组织数字资源的网状知识体系。数字信息资源是知识网络的基础和关联对象;知识元来自数字资源的知识内容,根据主题词表等现有词表中的词汇标引出来,属于客观知识;知识组织系统是知识网络的管理工具,它决定了能否充分、科学地揭示知识元之间的关联;知识关联是构成知识网络的纽带,没有关联就不构成网络,能否科学揭示知识关联决定了知识网络功能的完善与否。
数字图书馆知识网络是知识信息数字化的产物。赵蓉英等认为数字图书馆功能的进化和概念的泛化催生了知识网络,数字图书馆是知识数字化载体的中级阶段;而知识网络则是知识数字化载体的高级阶段,是数字图书馆发展的一个目标。[2]刘炜认为,“数字图书馆是一系列的信息资源以及相关的、将这些资源组织起来的技术手段,如创建、检索、利用信息的技术,涵盖了现有分布式网络中所有数字媒体类型(文本、图像、声音、动态图像等)的存储和检索系统。数字图书馆不仅仅是数字馆藏及管理工具的集合,而应包括信息、数据和知识在整个创建、发布、利用、存储等生命周期内的所有活动。”[3]从中可以看出,数字图书馆包括很多组成部分或子系统,如数字信息资源采集/输入系统、组织系统、检索系统、服务系统、用户认证系统等。知识网络是数字图书馆系统中的一个重要构成部分。
数字图书馆知识网络以数字资源系统为基础,从数字资源中提取知识元概念和元数据(参考文献、作者、机构等),用知识组织系统描述知识元之间的知识关联,将这些知识元概念组织成一种网状知识体系;用知识链接利用元数据之间的联系,将数字资源形成链接体系。知识网络建立在数字信息资源系统之上,又是实现数字图书馆其他模块功能的基础。知识网络在数字图书馆中有3个主要功能:(1)与数字信息资源系统连接,从数字信息资源中获取知识元,并建立相应的关联;(2)与检索系统连接,为扩展检索和智能检索提供检索词汇的扩展和知识推理规则;(3)与服务系统连接,提供各种知识链接和导航服务,便于用户获取有关知识。知识网络是数字图书馆提供知识服务的基础。
2 数字图书馆知识网络的结构
数字图书馆知识网络由数字信息资源及其知识元、知识关联、知识组织系统和知识链接等要素构成。数字信息资源作为知识网络的基础和关联对象,以知识元及其所在的具体信息资源作为“节点”,以知识元的各种交叉、复杂的关联作为“链”而构成网络结构。
2.1 知识元
知识元是组成知识的基本单位和结构要素,在不同的领域、不同的场合、不同的认识角度也可表述为知识元素、知识点、知识单元、知识因子、知识基因、元知识等。知识元用语词来表示就是关键词或关键词组,表示人类知识体系中的概念、事物、定律、规则等。
知识元主要有两种方式的来源:(1)直接利用主题词表等现有词汇表。这些词汇是对现有人类知识的总结和概括,属于规范性的可控词汇,具有系统性、可直接利用等优点;但缺点也很明显,不能穷尽反映人类全部知识概念和客观事物,不能及时反映新出现的新概念、新事物等,这些是人工词汇表固有的先天性缺陷。(2)来自于数字信息资源的知识内容。主要方式有两种:一是知识概括。通过抽象方法从文本或多媒体等数字信息资源中提炼形成知识元概念。有人工概括和计算机自动概括两种方法:前者如给某图书、期刊论文等提炼关键词,可以是作者自身概括的自然语言关键词,也可以是由专业人员标引的可规范控制的主题词等。而计算机自动概括要涉及自然语言理解、模式识别、知识推理等复杂的技术,目前还处在探索阶段。人工概括一般只能在图书、论文单元层次,而计算机自动概括能深入到章、节,直至段落、知识单元等层次。二是知识抽取。是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。目前研究较多的是自然语言文本,已经出现了一些工具或系统,知识抽取已经成为自然语言处理领域一个重要的研究分支[4]。
2.2 知识关联
知识关联是指构成知识网络的知识元之间建立的联系,这种联系表现为以一种拓扑形式存在的网状结构。知识关联在知识网络中是十分重要、关键和较为复杂的。
首先是知识关联的复杂性。知识关联有很多类型。赵蓉英将知识关联分成同一性关联、隶属性关联、相关性关联等三种类型[5]。这是最基本、最概括的分类。卢宁从知识关联描述的层次上进行较为详细的分类:(1)基于知识元的语义关联,反映的是概念之间的关联。最基本的关联包括Is-a关联、Instance-of关联和part-whole关联。根据概念内部的关联又可分为上下位关联/辈分关联、依赖关联/基础关联、类别关联/兄弟关联、实现关联和因果关联等。(2)基于文献内容特征和外部特征的关联。文献作为一个整体不仅包含着反映文献主题内容的内容特征,也包含着大量的外部特征,如作者、引文、标题等,分别形成主题关联、作者关联、引证关联等。[6]
其次是知识关联揭示和描述的困难。知识关联揭示是否充分、科学、合理,在很大程度上决定了知识网络的功能。知识关联揭示是知识推理的基础,是实现知识检索智能化的基础。知识关联的揭示有很多种方式方法,概括起来主要有:(1)基于知识组织体系或工具的方法,如分类法、主题词表、主题图、本体等,一般用来描述整个人类知识体系或者某领域知识体系中知识元、概念间的知识关联,具有系统性的特点。(2)基于知识链接的方法。一般用来描述基于文献内容特征和外部特征的关联,如引文链接、相关作者链接、相关研究机构链接,相关文献类型链接(如相关图书、期刊论文、学位论文、网页等),具有一定的功能性和目的性。(3)开放自组织的方法,最为典型的应用是维基系统。在维基系统中存在着大量的链接,将系统中相关的网页组成一种有内在联系的知识网络体系。这些链接就是知识关联的揭示和描述,维基成员可以任意创建、修改、删除这些链接。这种揭示具有个性化的特点,比较符合创建链接的人的知识结构、认知和学习体系,也有进化性功能,可以随着人们知识的进步对知识链接进行及时的增加、改进和完善。但同样也有不能系统揭示、完全揭示以及可能错误揭示等重大缺陷。
以上三种知识关联揭示和描述的方式中,后两种相对比较容易实现。因为文献的外部特征相对比较明确清晰,而开放性的自组织方法主要是理念问题,在技术实现方面却不是很复杂。由于知识元之间语义关联的复杂性及自然语言运用多变性特点,基于知识元的语义关联的揭示和描述是最困难的,尤其是语义关联的精确描述。每种知识组织体系或工具所能揭示的精确程度是不同的。如分类法擅长的是揭示知识关联中的等同关联、层次关联、同位关联等,而有些工具如本体、描述语言等却可以精确描述知识元之间的关联。
2.3 知识组织系统
知识组织系统(KOS)是构建知识网络的核心。从知识元及其语义关系揭示和描述的水平层次角度看,KOS可以分为3个层次[7]:(1)词汇列表型。包括规范文档、术语表、字典、词典等,一般仅仅作为专有名称的解释或作为词汇控制的规范档;(2)分类表型。包括标题表、分类表、归类表、知识分类表等,一般将人类知识按照学科结构进行层层分类,具有对语义关系进行初步揭示的功能;(3)语义关系型。包括叙词表、知识地图、领域本体等,其特点是可以对语义关系进行详细的描述。KOS种类繁多,有各自不同的应用领域和特点,选择什么样的知识组织系统或工具决定了知识网络能实现的功能的水平和层次。
2.4 知识链接
知识组织系统是知识网络的技术支撑,是知识网络的骨架结构,揭示描述的主要是知识元之间的语义关联。知识链接则是知识网络的外在表现形式,是知识网络的辅助结构,主要揭示了数字资源基于外部特征、形式特征的知识关联。通过各种形式的知识链接(包括引用类链接、著者链接、机构链接、资源类型链接、项目链接、聚类链接、导航链接等)使各种资源构成一种具有不同联系的网络结构,实现不同的功能和目的。
3 数字图书馆知识网络的构建模式
知识网络的构建模式主要取决于知识元来源模式和知识关联的揭示方式,而知识元有多种来源,知识关联的揭示和描述也有多种方法,而这些来源和方法的组合可以构成多种不同的知识网络构建模式。下面主要对3种典型模式进行分析,并在此基础上提出一种理想模式。
3.1 VISION模式
VISION是北京大学王军老师提出的一个概念检索系统[8]。它以第三版《中国分类主题词表》作为组织系统,以北京大学图书馆1991-1999年计算机领域(TP类)的所有书目数据共6000多条MARC记录作为信息资源对象,以主题词分类法对应表中的主题词作为知识元,以“用、代、属、分、参”等参照体系来描述语义关联构建一个概念网络,以书目记录的主题字段中所出现的标引词为概念节点组织到概念网络中,形成“包含了具体数据实例的知识网络”。VISION探索了传统知识组织工具的新应用,以《中国分类主题词表》为知识组织系统构建知识网络的核心,利用参照体系较好揭示了概念间的等同关系和层次关系,对相关关系也有一定的揭示,能够初步实现扩检、缩检和有效的知识导航。但VISION模式具有一些不足:(1)以人工标引的主题词作为知识元,一方面这类主题词注定无法完全揭示信息资源的知识内容,一本图书、一篇学术论文所包含的知识内容是不可能以寥寥数个主题词或关键词完全反映出来的;另一方面以人工方式标引注定它不能适应日新月异的数字信息环境。(2)以现有叙词表作为知识组织工具,一方面会出现概念主题词过于陈旧,词汇量不够,不能精确反映新出现知识概念和事物的情况,另一方面“用、代、属、分、参”的参照体系不能很好的揭示纷繁复杂的知识关联。另外,VISION只是一个实验模型,没有考虑其他辅助性的知识链接。
3.2 CNKI模式
CNKI是一个基于知识网络而建成的数字图书馆系统,知识服务是其主要目标。CNKI知识网络以其庞大的知识资源为基础,以知识元库为核心构建知识元链接体系,以分类法和主题法为基础构建概念网络,并辅以丰富的引证链接、作者链接等形式特征链接,形成一个具有一定知识服务功能的知识网络。CNKI模式有以下几个明显的特点和优点:
(1)强大的CNKI知识元库和概念关系词典。CNKI从全文数据库中提炼出能够明确表述一个知识内容的知识元,形成相互印证、相互关联的“网络化知识元数据库”。利用各类词典,包括通用词典和多种专业词典,并引进了一些先进的技术,如文本的关键词自动标引、自动分类,自然语言处理技术的分词、句法等处理技术,语料库语言学的全切分技术等来抽取知识元,建立了一个庞大的知识元库。并在分类法、主题词表的基础上,建立了基于本体模型的概念关系词典,用来揭示和描述知识元之间的语义关联。概念关系词典以如实地反映汉语概念的实际情况为原则,在设计上充分考虑了概念间的局部、整体、类属、同义、反义、相关等关系[9]。CNKI已经规范整理了机构名称60万条、建立期刊规范文档、拥有400万词汇的概念关系词典[10]。
(2)丰富的知识链接。包括各种参考链接,如引证文献、共引文献、二级引证文献等链接形成引证网络;相同导师文献、相关文献作者等链接形成学者网络。还有相关研究、读者推荐文章、相似文献等知识链接。作为一个实用的数字图书馆系统,CNKI建立、嵌入了众多的知识链接,使CNKI各类型的数字信息资源形成具有内在联系的知识网络。
(3)知网节。这是CNKI知识网络服务平台所具有的一个特色功能。知识网络的节点称为知网节,是提供单篇文献相关信息的浏览页面。不仅包含了单篇文献的详细信息如题名、关键词、作者、机构、来源、时间、摘要等,还包括各种扩展信息,如参考文献、引证文献、相似文献、读者推荐文献、相关作者、相关研究机构、文献分类导航等。这些扩展信息通过概念相关、事实相关等方法揭示知识之间的各种关联。知网节可以是一本书、一篇文章,也可以是一个作者、一个单位、一个概念等,形成诸如文献知网节、作者知网节、概念知网节等不同内容的知网节。知网节之间可以相互链接。知网节其实就是一个对象(可以是图书、论文、作者、概念等)相关信息的集成体,以知识元库为基础,集成组织了各种知识链接。
从实际使用看,CNKI以其丰富的数字资源为基础,采用网络技术构建了一个相对完善的知识网络,将其核心资源,包括期刊论文、学位论文、报纸、会议、图书、年鉴等融为一个整体,并以此为基础初步实现了知识服务的目标,不断推出各种新服务。当然,CNKI知识网络还有很多地方需要改进、完善,尤其是知识网络的核心部分。目前CNKI平台仅对文本中的关键词、作者及其单位等进行了有限的知识元抽取与链接,尚未对文本中所包含的具有价值的大量知识元进行分析建库;知识元计算机自动抽取还处于初步应用阶段;知识元之间语义关联的精确描述还需进一步研发和实验。
3.3 维基模式
Wiki的一个个页面就好像是散落在盘中的珍珠,这些珠子间用许多的细线织成绵密的网络。当页面里出现了关键词时,细线就相应而生;当页面里的关键词被删除后,细线也随之消失。可以把这些页面抽象地当作是各式各样的概念,各种概念间的关联性也有可能像这样被修改、被牵扯在一起、或被厘清[11]。维基页面作为知识资源对象,关键词是这些资源中提取出的概念知识元,而链接则揭示了这些知识元之间的关联,从而形成了一个知识网络。然而,从数字图书馆角度看,维基并不能算真正意义上的知识网络。首先,维基不具有一个完整意义的知识组织系统,而只是用简单的超链接形式来揭示关键词之间的某种相关关联。其次,作为标引资源的关键词是完全自由开放的,不可避免地具有不科学、不严谨的可能。这是具有学术性的数字图书馆所不能容忍的。此外,维基对知识关联的揭示手段单一,也没有描述语义关联的可能。因此,维基还只能属于“前知识网络”。但是维基模式的意义在于其理念,即重视用户参与的理念。维基知识网络有几个特点:(1)维基网页是用户自己建设的,无疑是用户本身感兴趣的知识资源;关键词标签是用户自身标引添加的,反映了用户感兴趣的知识内容。因此,维基非常符合个性化的需求,而这正是目前数字图书馆知识服务中的弱项。(2)维基鼓励用户参与,而人们总是倾向于追求新知识、新事物的。维基的用户总是乐于添加新知识、新事物。因此,维基比较适合新知识、新概念的发现。这也是目前数字图书馆知识网络遇到的难题之一。正是由于这些特点,它对于数字图书馆知识网络建设具有一定的借鉴意义。
3.4 理想模式
通过上面对现有模式的分析,笔者认为理想模式应该具备以下主要特征:(1)知识元从数字资源中抽取和概括而来,能够实现知识元的自动抽取、新知识元概念的自动发现等。(2)智能的知识组织体系。这是知识网络的核心,具有精确描述知识关联、自动容纳新的知识元概念、建立完善知识关联等功能。本体是能适应这种需求的知识组织体系之一。(3)完善的知识链接体系。面向用户需求,在任何可能的情况下提供各种知识链接,方便用户发现相关信息资源。
图1 知识网络构建的理想模式
这种模式(图1)分为4层结构、5个模块。各部分功能如下:(1)资源层是基础,由数字资源库和网络资源组成。(2)知识元获取层对各类型的资源通过各种技术提取知识元。知识元抽取与元数据抽取已有相对成熟的技术和工具,新的知识元发现可以数据挖掘技术为墓础,借鉴Web2.0方法利用检索系统中用户的检索用词、用户标签等信息来发现新知识元。(3)知识元库层按照统一的标准规范创建标准的知识元库和各类型元数据库。(4)知识组织层,是知识网络的核心部分。本体是反映特定领域知识结构的概念体系,具有精确定义知识元概念,本体概念可以复用、交换、映射和共享,支持可视化展示,支持自我进化等特性,是最适合知识网络的知识组织工具。(5)知识链接系统,是一个应用模块。以知识组织系统揭示的知识元语义关联和元数据库中揭示的各类知识关联为基础,面向用户需求,在任何可以方便用户利用的界面中建立知识链接。
4 数字图书馆知识网络的研究方向
知识网络作为数字图书馆系统的一个重要组成部分,它建立在数字信息资源的基础之上,同时又作为图书馆知识服务的基础。因此,知识网络既要随着数字信息资源的变化而发展,又要以满足不断变化的用户需求为目标。数字图书馆知识网络今后应注意研究下面一些问题:(1)知识元的自动抽取。数字信息资源的知识内容是知识网络组织的对象,是知识元的来源。从信息资源中解析标引出全部的知识内容,工作量之大采用人工标引显然是难以胜任的。因此利用计算机自动分析抽取是大势所趋。(2)多媒体资源的知识元提取。自动知识获取是一种理想的知识元库构建方式,但目前知识抽取研究最多针对的还是自然语言文本,对于多媒体信息源大部分处于理论探索和试验研究阶段。基于模式识别的知识获取方法主要针对多媒体信息源(如图片、语音波形、符号等),采用统计方法等对事物或现象进行描述、辨认、分类和解释,从经数字化处理后的数据中识别事物对象的特征。(3)知识组织系统的集成化。近年来KOS的发展多元化,随着计算机技术和网络技术的普及应用,跨领域、跨部门、跨应用的知识资源系统成为主流。建立在知识资源基础之上的知识网络,对集成不同知识组织系统的需求也成为必然趋势。通过术语映射、建立参照、语词概念交叉索引等互操作技术集成超级KOS。如美国国家医学图书馆推出一体化语言系统(UMLS)叙词表,集成了100多种词典、分类表、叙词表、专家系统等,表达了100多万个概念,包括500多万个概念名称,不仅可以克服不同系统检索语言的差异,而且实现了跨数据库检索的词汇转换,帮助用户对计算机化的病案系统、书目数据库、事实数据库、图像数据库和专家系统等各种联机情报源中的生物医学信息作一体化检索[12]。KOS集成包括概念(知识元)的集成和语义(知识关联)的集成,以适应纷繁复杂的知识网络构建和知识服务的需要。(4)知识本体的应用。本体是反映特定领域知识结构的概念体系,适合知识网络的知识组织工具。近年来本体相关技术已经逐渐成熟,并构建了大量的领域本体。这些本体应用到数字图书馆知识网络中,还需要经过很多的试验、改造和完善。作为新型的知识组织体系,本体能满足知识网络精确描述知识关联、支持知识检索和服务的需要,是知识组织系统今后研究的发展方向。
收稿日期:2009-12-19