主题图技术与相关知识组织方法的比较研究,本文主要内容关键词为:相关知识论文,组织论文,方法论文,主题论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 前言
主题图是一种新兴的数字化知识组织方式。在 XMLTopic Map(XTM)1.0规范中[1],主题图被定义为一系列以主题、联系和范围组成的主题图节点,这些节点以符合XTM或者其他规范(HyTm)的文件形式或者以满足XTM加工需求的内部应用的方式存在。
概括地说,主题图是一种用于描述信息资源的知识结构的数据格式,它可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系。 [2]
主题图实际上在信息资源的上层构建了一个结构化的语义网,它独立于技术平台,描述主题之间的关系及主题与具体资源的联系,通过揭示概念之间的关系,将用户指引到相关的资源。建构主题图,其目的在于建立一个个人化的知识导航界面,并给使用者一个能快速掌握轻松学习知识的操作界面。主题图被誉为信息管理和知识管理之间的桥梁,是信息世界中的GPS定位仪,它可以提供信息资源的直观的导航。[3,4]
对于主题图技术的定义,我认为,狭义地讲,主题图技术就是如何用主题图标记并展现信息资源知识结构,并将该知识结构与信息资源集合相关连的方法;广义而言,主题图技术包括在主题图构建过程中的本体分析、主题图XTM文件的生成、编辑、存储、主题图的可视化展示等主题图的各种应用中以及主题图与其它知识表示技术互操作中所用到的技术和方法。[22]
目前国际上对与主题图技术的研究主要在以下几个领域:主题图标准体系的建立与研究,主题图在知识管理中的应用,主题图的可视化、主题图的应用工具、主题图与其他知识表现技术的比较与互操作、主题图及其本体的构建方法等。国内对主题图技术的研究和应用刚刚启动。
2 主题图技术核心概念
现实世界中的客观事物往往具有其自身的某些特征,比如名称、位置、存在的特定范围以及一事物和其他事物之间的联系等,这些事物在主题图中的反映就是一组主题。这些主题同样也包含自身的特征集合,最基本的特征是:主题的名称,主题所在的资源实体(出处)以及它与其他主题间的关联。一个主题图就是一个由主题、关联性以及资源实体(出处)组成的集合体。
主题图中关键的概念是主题(topic)、关联(associations)和出处(occurrence),另外还有主题的标记(identity)、分面(facet)、范围(scope)。[5-7]
3 主题图与相关知识组织与表现技术的比较
在计算机信息管理领域,知识管理是以某一组织范围内对知识的产生、传播、储存、应用、共享为研究对象的理论和方法。知识管理中的关键问题是知识如何被组织,正是对知识的编码和有序化决定了知识是否可以被获得。主题图技术是知识的产生和传递过程中的一种知识编码组织技术。[5]
自从美国图书馆学家布利斯(H.E.Bliss)提出知识组织理论以来,国内外学者对于知识组织进行了大量的研究:
蒋永福认为:知识组织是指对事物的本质及事务间的关系进行揭示的有序结构,即知识的序化,通俗地说,是对知识客体进行的诸如整理、加工、揭示、控制等一系列组织化过程及其方法。[8]
王知津认为:知识组织是对知识进行整序和提供,既能处理大量的现有知识,又能相对降低存储知识的物理载体文献的盲目增长以免知识过于分散化。所以提供文献、评价科学文献和系统表述以生成新的便于利用和获取的有序化知识单元的处理系统就是知识组织。[9]
ASigel认为:“知识组织”是使知识集合增值的一种跨学科领域的文化活动。知识组织是研究如何组织概念和概念之间的相互关系,从而以一种有序的形式把握知识,并使这种知识易于传播和利用的主题领域。[11]
而J.D.Anderson则认为:知识组织是对文献的内容、特征、目标的描述,并组织这些描述,使这些文献和其中的内容能够被人们检索到。知识组织包括索引、文摘、编目、分类、记录管理、书目和创建文本和书目数据库。这一概念以文献为中心,而不是以知识结构为中心。这一观点认为知识必须具体化为文献或文本后(显性知识后)再经由特定方式将文献内含的知识层面进行抽取、标引,进而建立一套系统化作业模式与原则理论,这些活动正是图书馆学中的分类编目、索引等理论与实务所覆盖的层面。[11]
总之,知识组织的理论建立在知识单元——概念的基础上,知识是以知识单元(概念)及许多语词或句子的可能组合来表达。知识组织是将无序或分散的特定知识,根据一定的原则与方法,使之有序、集中、定址,以方便知识的提供、利用和传播。科学知识组织系统中,除了科学文献组织系统(等级分类系统、分面分类系统、索引系统)以及学科体系知识组织系统(教科书、百科全书、综述、述评)外[10]还有科学术语知识组织系统,人工智能知识组织系统、模拟空间的知识组织系统。
在知识组织领域人们认为某种程度的词汇控制至关重要,因而知识组织非常关注分类法、叙词表和本体论的研究和利用。Hodge将数字图书馆的知识组织系统分为:术语集(term list)包含权威档、词汇表(glossaries)、地名词典、字典;分类系统包括标题表、分类表(taxonomy);关系词群(包括叙词表、语义网络和本体)。
主题图这种知识组织方式继承了索引、词汇表、叙词表、本体、分类表等知识组织方式的特征,并吸取了人工智能领域的ontology、语义网的思想,这使得它能够比较好地适应数字化环境中的知识组织。
下面,将就与主题图密切相关的知识组织方式进行对比分析,以此展现主题图技术的理论基础和思路。
3.1 索引
索引是某一文献集合包含的文献单元或概念的系统性指南,这些文献单元或概念分别被描述在按照某种共知或规定的可查顺序(如字母顺序、年代、数字等)排列起来的款目上[13]。“它通常不提供信息或者知识内容本身,只提供一种指示系统,使读者或用户能准确地找出文献或信息集合中的特定信息,它以具体主题、观点、事物、概念、名称、语词、符号为对象,对文献内容做深入发掘和全面揭示,给使用者明晰的指引。”国际标准化组织IS01975年《文献工作—出版物索引》(IS0999-1975)[13]中规定索引的结构:索引款目(包括标目、说明语、存储地址)、索引的参照系统(包括参照(见参照、参见参照、见至参照、反参照)、标目注释)。
例如:图2的索引摘自一本有关歌剧的图书,其中,包括了索引款目、索引的参照系统,根据标目的类型不同用不同的印刷字体表示出来,该标目的出处用页码表示,而且根据标目的类型不同和出处的类型不同用不同的印刷字体或者颜色表示出来。其中见参照表示一个主题的不同表达方式,参见参照表示与该主题有关联的主题。
主题图吸收了索引中的基本思想。主题图中的主题对应于索引中的索引款目,联系对应于索引中的参照系统,标目的出处对应于主题图中的出处 (occurrence),主题图用范围(scope)定义了某个概念或者概念之间的关系有效的范围。
主题图比传统的索引更进一步的是,主题图认为所有的联系和出处都是主题,而且这些主题是有类别的。主题图所反映的联系类型更为丰富,而且,主题图通过PSI(Published Subject Indicator)机制提供了不同的索引之间方便的合并机制。[5]
图1 索引与主题图
3.2 词汇表
词汇表是一个难理解的或专业化的词的列表,这些词后还有它们的定义。不象索引指向主题出现的地方,词汇表中的“出处”是以某个主题的定义的方式出现,它可能包含如见或参见参照这样的附加信息,或者给出其用法或者发音的指南,但是其关键的构件是主题和他的定义。
词汇表中仅仅对某个概念进行定义,对于概念和概念之间的联系反映不充分,而且不能将概念和与这个概念相关的信息资源联系起来。
在主题图中不仅能用resourceData机制来表示对概念的定义,实现词汇表的功能,还可以展现概念之间的关系,并将概念和与它相关的信息资源联系起来。[5]
3.3 叙词表
叙词表是一个特定领域中的相关的词的网络。这个网络包括交叉参考,并给出了词之间的关系。为了描述在有多个同义词时应选的首选词,叙词表依赖于受控词表的概念。叙词表主要用于检索时的后控制和标引时的自动或辅助选择索引词,是提高查全率和查准率、实现多语种检索和智能化概念检索的重要途径。叙词表的目的是帮助用户在当他们头脑中有个概念时找到相应的词,而字典被用来给用户提供他们不熟悉的概念的信息。
叙词表强调了索引的其他方面,它是某个特定领域中相关问汇的网络,尽管其中也可能包括其他的诸如定义、使用样例的信息,其关键的特征还是词汇之问的联系。给定一个词,叙词表会给出它的同义词、上位词和下位词以及其他相关词。特别需要指出的是,叙词表中词间的关系被分为用、代、属、分、族、参几类。
主题图吸收了叙词表在词汇控制方面的思想,可以用采用基本名basename和别名variant name定义或者直接定义的方式来定义叙词表中的用代关系,实现词汇控制,并在传统叙词表的用、代、属、分、族、参的简单关系基础上,具有灵活定义概念间关系的类型的功能,使用者可以根据领域概念的特点灵活地定义概念之间的关系。在主题图中所表达的概念之间的关系比叙词表更为具体和确切。[5]
3.4 分类法(Taxonomy)
分类法是一个组织款目/概念的分类系统,它是用来展现这些概念之间的类和子类的成员关系的一种方式。[14]
一个好的分类法只是从一个方面展示事物。分类法中的类应该是相互排斥的。一个概念应该只在分类法中的一个位置找到。分类法应该是穷尽的,包括所有的可能。
属种关系是概念之间非常重要的一种关系,但是仅有属种关系,却不能完全反映概念之间的所有联系。
在主题图中所定义的概念之间的联系,包括属种关系,还可以根据需要灵活地定义其他关系,如因果关系、危害关系、平行关系、大于关系等等。而且,在主题图中通过定义范围(scope)可以从不同的角度展现概念之间的属种关系。
索引、词汇表、叙词表、分类法等知识组织方式在传统的纸本文献的知识组织方面很有效,并且沿用至今,但是在数字化信息环境中由于知识类型多样、存在方式各异,造成了对其组织和建模的复杂性,传统的主题词表和建立索引等方式在构建概念知识库时显得捉襟见肘,例如对于数字化的异构的文献集合的索引的合并、语义互操作、新兴学科的主题标引、类目设置等方面,传统的索引和叙词表有很大的局限性,人们需要更好的适应数字化时代知识管理的新型知识组织方法。
3.5 概念图[16]
概念图也是知识组织中常用的工具。
概念图最早于20世纪60年代由美国康奈尔大学Joseph D.Novak教授等人提出,主要应用于教育学方面。概念图是以图的方式展现知识的一种技术。它所展现的知识图是一个概念的网络,这个网络包括节点和连接,节点代表概念而连接代表概念之间的关系。概念和一些连接都是有标签的。连结可以是无向的、单向的或者双向的。概念图将相关概念置于圆圈或者方框之中,然后用连线将相关的概念和命题连接,连线上标明两个概念之间的意义关系。概念、命题、交叉连结和层级结构是概念图的四个图表特征。概念图展现了某个领域的概念及概念之间的关系。目前概念图的应用也逐渐从教育学领域向其他方面扩展,概念图可用于以下几个目的:可以帮助产生某种思想(如头脑风暴)、可用来设计一个复杂的结构(比如超媒体、大型网站的设计)、可用来交流复杂的思想、可通过清楚地集成新旧知识,辅助学习,还可以评价或者评估对某个领域概念的理解。
主题图与概念图在以图的方式展现知识结构方面,非常相似。但是,主题图不仅仅是知识组织工具,还是一种知识表现工具。其表现方式除了以直观的图的方式展现外,还可以提供以被机器理解和处理为目标的标记语言标记的文件方式。主题图还将概念结构与具体相关资源连结起来。
3.6 本体(ontology)
本体是一个关于一些主题的清晰的、形式化的、规范的说明。它是一个规范的、已经得到公认的描述,它包含词表(或称名称表、术语表),词表中的术语全是与某一学科领域相关的,词表中的逻辑声明全部是用来描述那些术语的含义和术语间关系的 (它们是怎样和其他术语相关联的)。因此,本体提供了一个用来表达和交流某些主题知识的词表,还包括一个关系集,关系集把握着词表中这些术语间的联系。
构建一个本体,可用来解决:(1)在用户间或软件代理间达成对于信息组织结构的共同理解和认识;(2)可以复用专业领域知识;(3)使专业领域内的假设变得更加明确;(4)将专业领域的知识从运筹学、知识管理的环境中剥离出来。(5)分析专业领域的知识等。[17]
本体的概念体系包括以下六个要素:声明 (Statement)、公理(Axiom)、概念又称为类(Concept, Class)、属性(Property,Slot)、函数(Function)、实例 (Instance),本体的函数和实例等强调利用本体进行推理,这在人工智能和语义网的应用和研究中非常有意义。
本体需要有相应的知识表示语言才可以将其表达出来,例如:XML,RDF(RESOURCE DESCRIPTION FRAMEWORK),RDFS(RDF SCHEMA),DAML (DARPA AGENT MARKUP LANGUAGE,OIL,OWL等,TOPIC MAP也是一种知识表示语言。
图2 水产业核心本体图示[20]
该本体可以用多种知识表示语言比如RDF、 DAML、OWL等进行表示,而且可以通过定义公理、函数和实例等实现推理。
主题图的概念体系包括主题(TOPIC)、联系 (ASSOCIATION)、出处(OCCURRENCE),通过可以灵活定义的复杂的联系,构建事物的概念空间,定义主题的类,关系,角色和事件的一系列主题,并将与概念相关的资源与概念体系相联接。因而,利用主题图可以对事物的概念体系依据本体的思想来构建,图2中所示的本体,也可以用主题图来表示,但是由于其特定的语法形式,其概念体系与本体相比,推理功能不足,目前主题图还不是一种“heavy ontol ogy”[18]但是主题图比较直观易懂,而且将概念体系与包含相关概念的资源联系起来。
在利用主题图表示某个领域的概念体系时,首先要针对该领域构建其本体,分析概念和概念之间的关系,然后再采用相应的主题图语法进行表示,并可以进一步采用可视化的技术来展现。
例如,在沙尘暴领域中[22],首先分析概念之间的关系,确定领域的本体,然后用XTM语法进行表示,在此基础上,可以用相应的可视化技术,比如starTree的主题图可视化技术展示数字资源的概念间的关系,并将概念体系与信息资源集合联系起来。
对沙尘暴领域本体的XTM表示片断:
图3 沙尘暴领域本体
图4 利用主题图组织沙尘暴领域数字资源[21]
总之,本体与主题图的关系类似于思想与语言的关系。本体是概念体系,主题图是一种概念体系的表示语言。
3.7 知识表示
语义网(Semantic Web)是Tim Berners-Lee对下一代World Wide Web的展望,它致力于开发以计算机可处理形式表示信息的语言。为使语义网工作,计算机必须能访问结构化的信息集合以及一套推理规则,据此进行自动推理。知识表示(Knowledge Representation,KR)简单地说是“程序怎样对现实世界建模”[19],更严格地说知识表示的研究范围应该是知识表示方法,研究什么样的描述方式最有利于程序的自动处理和自动推理。典型地,语义网中描述ontology的知识表示语言应该包括领域中的概念类的层次化描述、对类中的实体及其属性特征的描述、对概念之间关系的描述等。主题图的丰富的语义标记基本能够达到这些要求。因而主题图也是一种知识表示语言。
研究表明,一个好的知识表示语言必须具备以下特点:(1)足够简洁(Compact Syntax);(2)语义严格性(Well Defined Semantics);(3)足够的表达能力 (Sufficient Expressive Power);(4)足够有效和强大的推理能力;(5)可用于构建大型知识库。目前已经知道在一个知识表示系统中,上述特性是不容易兼得的,尤其是(3)和(4),当一个系统具有足够的表达能力时,总是无法期望获得非常简单的推理算法。不同的知识系统会根据不同的应用需求有一个取舍。[19]
主题图对于语义网的知识表示而言,其表达能力比较强,对(1)和(3)的条件也基本能满足,但也有一些欠缺,比如,在主题图中没有定义类的继承,没有明确定义推导出内涵的知识的关联属性和推理规则,缺少用于有效性检查的一致性约束等。
因此,作为知识表示语言,主题图还需要进一步发展,主题图标准制定人员也已经认识到了这些缺憾,并准备在这些方面对主题图加以修订。
4 结论
作为一种知识组织方式,主题图技术中包括了知识组织所关注的基本的改进信息检索的技术,并有所发展。主题图技术吸收了索引的款目、参照系统、出处的基本概念,并把它利用于数字信息的组织上;主题图吸收了叙词表在词汇控制方面的思想,并在传统叙词表的用、代、属、分、族、参的简单关系基础上,具有灵活定义概念间关系的类型的功能,使用者可以根据领域概念的特点灵活地定义概念之间的关系;主题图将分类表中分类的思想用在主题的类型划分上,并可以通过定义不同的范围,展现不同角度的分类;主题图利用出处机制,将语义结构与信息资源联接起来,成为知识管理和信息资源管理的桥梁。主题图技术吸收了传统的知识组织方法的思想,并有所发展。[5]
主题图还是一种知识表现语言。传统的知识组织体系没有采用丰富得语义置标,而只是采用了人为的解释,而主题图用丰富的语义置标来来定义主题的类,关系,角色和出处的一系列主题,表现知识结构,主题图作为一种知识组织方法的同时也是一种知识表现语言。知识表现语言的最终目的是使计算机能够帮助人们处理知识结构,这是语义网发展的要求,也是主题图技术发展的方向。主题图是一种简单的本体语言,它在形式化和推理机制上还有待完善。[6]
由于主题图技术吸收了各种知识组织方法的长处,并采纳了ontology和语义网的部分思想,使得它可以满足数字化时代知识组织的某些需求:比如在原始的信息资源集合之上,以不依赖于信息资源的方式展现知识的结构;改变原来基于统计的集中修订叙词表的方式,以分布式的协作创建和维护知识结构的方式,以更自然的方式吸纳领域专家的贡献,动态地发展叙词表,缩短传统叙词表落后于学科领域发展的时差等;利用主题图还可以实现不同的知识领域的主题图的合并,具有灵活的扩展性和可重用性,同时可以在此基础上实现语义互操作;它可以给用户提供一个基于概念和概念之间关系的个性化的导航界面,将信息资源层与概念层连接起来,为用户提供基于概念关系的导航;利用主题图展现的语义关系进行语义挖掘等。因而,主题图技术对数字化知识组织具有一定适应性。[7]目前,基于主题图的相关的应用主要在结构化索引、Web应用、应用发展 (application development)、应用集成[15]等方面。
收稿日期:2006-07-10