知识组织工具的发展与趋势_语义分析论文

知识组织工具的发展与趋势_语义分析论文

知识组织工具的发展和趋势,本文主要内容关键词为:趋势论文,组织论文,工具论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G203 [文献标识码]A [文章编号]1003-2797(2009)06-0097-06

知识组织工具的出现是在文献资源数量激增的同时,用户对资源的需求越来越迫切。对自然语言进行控制,这种控制可以发生在后端的资源标引,也可以在前端的检索阶段,以达到组织文献资源的目的并取得较为理想的检索效率。知识组织工具对自然语言的控制大致用两种方式,一是建立知识结构,二是控制词汇。具体地说,有限定多义和歧义词、控制同义或近义词、建立等级结构、和揭示概念语义关系等多种方式。总而言之,目的只有一个,使用户能够以最简单、最快捷的方式获得所有符合需求的相关文献资源。从广义上来说,凡是对自然语言进行了控制并有利于提高检索效率的工具,无论其控制范围、控制手段及类表的规模程度,都可以统称为知识组织工具。

1 传统知识组织工具

传统知识组织工具可以分为两大类,一类简称为分类法,另一类为主题法。分类法的代表为图书分类表,主题法的代表有主题词表和叙词表。分类法着重于建立知识结构,主题法着重于词汇控制。知识结构可用于组织文献资源、浏览资源以及支持其他的功能如学习或提供检索词的上下文,词汇控制是力图达到概念和表达语词一对一、标引词和检索提问词一致的理想效果。

1.1 图书分类表

图书分类表,顾名思义,以组织人类知识资源即图书馆馆藏资源为主要目的。其主要特征是覆盖人类全部知识门类、带有标记符号和使用复杂。虽然专科分类表也不在少数,但使用最为广泛、最为频繁的还是综合性列举式分类表。分面分类法的理念意义远远要大于它的实际应用,后组式组配技术被深入地、以各种方式应用于先组式检索语言包括分类表和主题词表,以达到全面、深层次揭示文献资源主题概念的目的。比如,美国杜威十进制分类法除了设置通用复分表、专用复分表和类目仿分外,还允许主类号之间进行组配以处理交叉学科和复杂学科的主题[1]。图书分类表使用的复杂性主要来自于三个因素,一是综合性分类表力图揭示人类全部知识门类,从而类目繁多;二是图书分类表因受制于其组织馆藏资源即图书排架目的的限制,其类表要求是先组式,即等级列举式的,也就是说,它的类目等级由分类划分标准即文献内容特征和标准引用次序两个部分组成[2]。为建成一个有序、整洁的类表,分类标准要求单一使用,一般情况下每次划分类目只使用一个标准,逐级划分,因而在划分标准使用上要求有一个次序选择。与此同时,为达到图书排架的目的,即每本馆藏被分配一个分类号,为了保持分类标引的前后一致性,就要求制定一个相应的标引规则,也就是在处理复杂主题时,如何选择类目和标记符号。标引规则的熟悉需要时间和耐心。最后,如上文提到,图书分类法广泛运用组配技术,组配不仅涉及类表不同部分和类目的使用以及组配规则,还需要反映到标记符号上,标记符合的复杂生成增加了分类表使用的难度。并且这种复杂性只为标引员体会,并不为读者用户所理解。作为一种分类知识组织工具,图书分类表虽然从理论上说具备多种用途的潜力,比如资源浏览、提供检索词语境和作为专家系统的知识库,它还只适用于组织馆藏文献资源。其主要原因是它本身就是为了该用途而产生和设计的,它的带有国家性的知识结构以及大而全的类表使得在其他方面的用途潜力显得薄弱了。

图书分类表在网络环境下的发展主要表现为类表电子化[3]、组织网络资源、提供新的用途如资源浏览[4]。大型的图书分类表已纷纷相继取得了类表的电子化,如电子版杜威十进制分类法从DOS操作系统开始研制,已有了视窗版。美国国会分类法和主题词表均可以检索系统的方式进行使用。图书分类表的电子化一是有利于使用,可直接检索相关类目,类表和类目之间可以超文本进行横向链接,类表的体积问题不再引人关注了;二是有利于与其他类表兼容,从而同时使用,如杜威视窗提供类目和美国主题词表的对照;同时也有利于类表更新。图书分类表用于组织网络资源并提供和Yahoo!类似的功能,资源的浏览,虽取得了不少进展,如Bubl_Link网络资源导航就是用杜威法建立的,但还不能被认为是全面性和长久性的。主要还是受限于图书分类表的知识结构,网络资源表现出更多的灵活性和多元化,将面向以卷/册为单元的文献资源的知识组织工具,来组织以信息为单元的网络资源、数字资源,必然会有一定的局限性。除了用来直接组织网络资源外,图书分类表具有作为知识库、结构库来编制新的知识组织工具的潜能,如机构Taxonomies的编制[5]。

1.2 主题词表

与图书分类表一样,主题词表也是先组式标引语言,主要用于揭示馆藏资源的主题内容,和MARC数据(650字段)密切相关。同样,主题词表的主要特征表现为综合性和使用的复杂性。主题词表通常是以国家词表的地位出现,由于它的综合性以及列举式,词表规模一般较为庞大。它的使用复杂性主要来自于两个原因,一是由于它是先组式语言,虽然用若干个主题词来描述复杂主题,但主题词之间需要一个组合次序,通常是主要概念在先,次要概念在后,在使用上,就要求标引员和用户辨别主次概念,并遵循词表制定的组配规则。其次,如前所述,主题词表也广泛使用后组配技术,后组配技术的使用,如美国主题词表使用的自由浮点组配和典范组配[6],不但要检索词表的不同部分,还要熟悉组配规则,从而增加了标引的难度。从检索角度来说,期望普通用户构想出符合词表规则的主题词串,几乎是异想天开,从而影响了主题词表的检索使用效果,它基本属于编目馆员的工具。

1.3 叙词表

叙词表虽然和主题词表同属一个范畴,同样控制词义、近义词和反映词间语义关系,但在属性和特征上都有很大的区别。首先,叙词表是后组式检索语言,以单元词为主,它对复合词的选择有一定限制,需遵循一定的规则,ISO 2788和ANSI/NISO Z39.19叙词表编制标准规定了在何种情况下可选用复合词。作为后组式检索语言,叙词表的组配发生在检索阶段,用户在检索提问时根据需要选择合适的叙词并进行添加组配,无先后之分,凡是包含用户提问词的文献资源都将会被检出。其二,叙词表通常是专题性的,规模小而有针对性,它的规模通常比主题词表要小,主要用于专题数据库的检索。当然,由于参与叙词表编制的数据库公司实力会有相差,同一专题不同叙词表的质量会有一些差异。其三,叙词表对词间语义关系的反映,如等义、同义、等级和相关关系,更全面和灵活一些,因为它不必受制于主题词表中词与词组配次序的约束。同时,叙词表用于后端标引也可用于前端检索,数据库系统通常提供词表的浏览,用户可挑选心意的、合适的叙词进行检索。叙词表的优越性是很明显的,它规模小,针对性强,因而能更好地体现文献保障和用户保障原则,在使用上,无论是标引还是检索,都比主题词表要容易,检索效率也会高一些,作为后组式检索语言,允许用户从任何一个角度来检索文献资源,不像主题词表,有一个预先假设的(当然是合理的)检索入口词。叙词表还允许用分面方式来组织和列举主题词,从而扩大了它的使用潜力。

网络技术的出现使得网络直接出版和使用的叙词表越来越多,叙词表由标引工具逐渐发展为一种检索工具,成为网络版数据库检索和元数据标引中不可缺少的一部分。与图书分类表一样,叙词表也用来组织网络资源,如用来作为主题网关的标引词汇和浏览知识结构,如Art,Design,Architecture and Media主题网关就是用Art and Architecture 叙词表构建的[7]。叙词表还用来作为新的知识组织工具的词库或词间关系库,比如上文提到的机构Taxonomy[8]和本体[9]的编制。

2 新知识组织工具

网络环境包括语义网和Web 2.0环境下新出现的知识组织工具有Semantic Web、Taxonomies、Ontologies和Topic Maps。这些新的知识组织工具沿用了传统知识分类和词汇控制的原理和方法,但对某些方法进行了增强或结合,并结合了网络发展的需要和特征,从而显示了知识组织工具的新特征和新用途。

2.1 Semantic Web

Semantic Web是继万维网之后的新一代网络,它同时也体现了一种新的知识组织方法。基于HTML的万维网实现了网页之间的超文本链接,即信息资源的链接,并没有真正实现知识点、信息点之间的链接。基于RDF的Semantic Web目的就是要达到通过计算机可实现的不被数据形式和存储地点限制的知识点、信息点之间的链接[10]。Semantic Web和Web 2.0的区别的是,Semantic Web着重于网络本身,体现一种网络标准和语言,而Web 2.0更着重于提倡用户参与的网络服务方式。Semantic Web包括两个组成部分:概念、概念之间的关系。Semantic Web中的概念意义比我们所理解的传统知识组织工具涵盖的概念要宽泛很多,它是基于知识点、信息点,而不是基于馆藏或文献,它包括任何可成为知识点和信息点的概念[11]。Semantic Web 之所以能够实现知识点、信息点之间的链接,就是因为它提供了概念之间的关系。这种关系比叙词表中的词间语义关系要复杂很多[12],一是它表达了概念之间的具体关系,而不是笼统的等同、等级、相关关系;其次,它提供的概念之间的关系是网状的,从理论上来说,概念和概念之间存在着各种可能的关系。

2.2 Taxonomies

Taxonomies一词来自于生物学领域,主要指动植物有机体的分类体系。它在一般意义上是指分类学,可应用于各个学科范畴。Taxonomies一词的含义比classification schemes要宽泛一些,包括任何领域、任何形式的分类,它的分类对象和类表形式都要比我们所理解的classification schemes要宽泛。Taxonomies和图书馆分类表一样,采用了知识分类的方法,但在使用范围、类表特征、和用途方面,都有其独特的特征[13]。首先在使用范围方面,Taxonomies广泛地应用于企业范围,组织企业数字资源,传统知识组织工具在组织企业资源方面显得力不从心,一般性的网络资源组织工具针对性又不够,Taxonomies从而应运而生。Taxonomies是企业内容管理、知识管理系统的重要组成部分。其次,Taxonomies之所以能在企业范围占据有利地位,得益于它简单、灵活、易于理解和使用的类表。Taxonomies类表由两部分组成,一是等级结构,即分类结构;二是概念语词。从形式上看,Taxonomies似乎结合了分类表和叙词表的特征,但它与这两种传统知识组织工具有着细微的差别。与图书分类表相比,Taxonomies的分类结构更简单、实用和灵活,Taxonomies不局限于学科分类,它涵盖事物对象分类,更着重于采用普通用户可以理解的分类结构;它的类表类型不局限于等级列举式,更为广泛地采用分面分类和多重列类;它的类目划分更为灵活,不一定遵循严格的划分次序,一次可采用多个或递进有跳跃;Taxonomies一般不采用标记符号,类目通常按字顺排列。与叙词表相比,Taxonomies虽然表现出某些和叙词表类似的特征,如类目按字顺排列、揭示词间等义关系等,它在选词和反映词间语义关系方面,都与叙词表不同。Taxonomies选词不局限于单元词,可根据需要而定,作为一种以知识分类为主要手段的工具,通常仅依赖单元词是无法形成一个合理的、有逻辑的知识结构,需要运用一定数量的复合词;同时Taxonomies反映词间语义关系的程度不如叙词表,以等级关系为主,少量的等同或相关关系,词间等同和相关关系的数量不能影响到等级关系的主要地位。一般来说,Taxonomies类目词的详细度会低于叙词表中的叙词,根据其类表的规模和用途而定。Taxonomies和叙词表还有一个重要不同之处是,叙词表中的主题概念用于揭示和标引信息资源,Taxonomies中的主题概念即类目词用于揭示和类聚信息资源,这一点和分类法是共通的,类聚的目的是为了实现某种用途如浏览或自动分类。最后,在使用用途方面,Taxonomies表现出了更为独特的灵活性,它可用于信息检索系统的各个端口,前端用于处理检索提问或检索结果,后端用于处理源信息,或直接用于资源浏览,目前不少检索系统利用Taxonomies的知识结构来优化检索提问和检索结果。同时,Taxonomies还表现出了专题性的特征,用于组织企业资源的Taxonomies的主题范围取决于企业的活动领域,处理一般内容对象的Taxonomies的主题范围由内容对象属性决定。Taxonomies的类表规模通常比图书分类表和叙词表要小,它的类表结构比分类表简单,类目词数量比叙词表少。可以这样理解,Taxonomies结合图书分类表和叙词表的优势,将知识分类的应用潜力作了比图书分类表更大程度的发挥。

2.3 Ontologies

Ontologies一词来自于哲学领域,指的是研究存在的科学,是形而上学的一门分支学科。它是对某一知识领域的概念化描述和说明[14]。Ontologies可以理解为是Semantic Web理念的具体应用和增强,和Semantic Web一样,它包括概念和概念之间的关系,是计算机可理解和操作的。但Ontologies对概念之间关系展示的方式不同,并增加了其他元素来增强它的用途功能。曾蕾老师[15]贴切地将Ontologies描述为结合了Taxonomies和叙词表的特点,Ontologies首先先将概念(entities)划分为类型(classes),在以分类为主干的骨架下,然后揭示概念之间的其他关系,同时Ontologies还包括规则(rules)和定理(axioms),从而具备了推理的功能。Ontologies也被描述为是Taxonomies和推理规则的结合[16]。在用途方面,和taxonomies一样,Ontologies一般针对某一特定领域或范围。由于它主要是基于概念的,而不是某一馆藏或文献库,因而它在使用上有了更大的潜力,可用于兼容或整合不同系统。同时Ontologies的推理功能使得它的用途超出了信息检索的范畴,它可用于回答问题[17]、机器翻译,企业模块化[18]、和数据挖掘[19]等。

2.4 Topic maps

Topic maps是以图形方式来展示某一资源库的知识结构从而提供信息的检索。Topic maps改变了传统意义上的匹配检索模式。传统知识组织工具主要用于标引阶段,所包含的知识结构对用户来说,是隐形的,用户面对是一个输入界面,为了检索到理想的信息资源,需要构建出合适的、与标引词或符号相匹配的提问,在对资源库知识结构一无所知的情况下,图书分类表和Taxonomies虽然也用于揭示资源库的知识结构,但主要是类聚资源、提供资源的浏览而不是检索,而Topic maps揭示信息资源的主题概念,并将主题概念作了链接,展示了整个资源库的知识结构,从而使用户可以在浏览关于该资源库的知识结构图的前提下,进行信息资源的检索。Semantic Web和Ontologies也具备提供该功能的潜力,但由于Topic maps采用了图形技术,以及在组成上比它们更为简单,因而更突出和具有优势。Topic maps由三个基本元素组成:主题(topics)、关系(associations)、链接的信息资源(occurrences)。主题也就是概念,可供检索的信息点、知识点,也是经受控的标引词;关系是不同主题之间的关系,这种关系与叙词表、Semantic Web、Ontologies中的词间语义关系不同,叙词表、Semantic Web、Ontologies反映的概念之间的关系是抽象、一般性的,Topic maps中主题之间的关系是具体的,类似于元数据中的关系型字段,如A is a part of,is written by,或者is influenced by B;链接的信息资源就是包含该主题的信息资源。同时,Topic maps还包含其他元素来细化这三个基本元素和描述信息资源,比如,association roles用来说明发生关系的主题概念的角色,比如A是person,B是place。Association types 用来说明发生的具体关系,比如前面提到的written by。association role types用来说明关系的类型,比如,A和B之间发生的关系属于action。occurrence roles用来说明揭示的信息资源的类型,比如单著、论文、插图、评论、传记等。Scope元素用来限定主题概念的定义范畴;facets则用来描述信息资源的其他特征[20]。Garshol[21]把Topic maps形容为结合了元数据和主题法的特征,提供了更为丰富和有效的资源描述、揭示手段。

3 发展趋势

从以上对新知识组织工具的分析与论述中,大致可以看出新环境下知识组织工具的发展趋势。首先,为满足用户的信息需求和学习需要,知识组织工具组织的对象已从以卷/册或篇为单元的文献资源发展为以信息点、知识点为单元的信息资源,这样的信息资源可以是篇、章、节,也可以是定义、说明、评论、或图表等信息片断,用户的深层次需求成为划分信息单元的依据。其二,随着组织对象单元的细化,知识组织工具包含的概念范围不再局限于传统意义上的主题概念,反映信息点、知识点的任何概念都可以成为检索点。其三,由于组织对象的数字化和网络技术的应用,知识组织工具组织文献资源的功能在淡化,揭示信息资源内容特征的功能在强化,新知识组织工具主要是基于概念,而不是馆藏文献,从而强化了知识组织工具的应用潜力,有利于整合各种不同的信息资源,也有利于兼和不同的信息检索系统,实现数据及资源的交换与共享。其四,新知识组织工具对传统的知识分类和词汇控制的手段进行了结合或强化,如上文提到的,Taxonomies结合了图书分类表和叙词表的特征,Semantic Web增强了词间语义关系的揭示,Topic Maps结合了元数据和主题揭示的方法。其五,在网络技术的支持下,新知识组织工具以可见的方式来揭示和展示资源库的知识结构,资源库中所隐含的知识结构对用户来说是显性的、透明的,使得用户可以在浏览的状态下进行检索,而不是空白的状态下构建出检索提问,这些知识组织工具从而也都具备了提供浏览功能的潜力。其六,知识组织工具已从从机器可读的形式发展到计算机可理解和操作的形式[22],如上文提到的,Semantic Web和Ontologies主要是供计算机操作的,从而使知识组织工具有了新的用途。其七,新知识组织工具的用途在呈现多元化的趋势的同时,超出了信息检索的范畴。比如,上文提到的Taxonomies可用于信息检索系统的不同端口处理不同的内容对象,Ontologies可用于回答问题、机器翻译等基于推理的各种用途。最后,知识组织工具发展的跨学科特征越来越明显[23],一种知识组织工具的编制和应用实现往往要涉及语言学、计算机科学以及人工智能等多学科,除了掌握知识组织的方法和对有关学科领域或机构的了解,各种不同的知识组织方法如分类、词汇控制、元数据等知识也需要融会贯通。

4 知识组织工具类型的划分

新知识组织工具的出现给知识组织工具的类型划分带来了新问题,用传统的分类法和主题法两大类来划分这些新的知识组织工具显然过于粗略,不够准确到位。目前,关于知识组织工具类型的划分,还没有一个准确的定论。Hodge[24]根据类表结构的复杂程度及控制手段将知识组织工具分为三种类型,第一种是Term Lists,指提供受控词和词义的知识组织工具,一般不提供复杂的词间语义关系,受控词按字顺或浅层次的等级排列,包括地名和人名规范文档。第二类是Classification and Categorization,指把知识、概念或对象划分为类或小组的知识组织工具,包括主题词表、图书分类表和Taxonomies。Categorization和Classification之间有一点区别,前者是归类、归组,不一定是系统的分类,后者是系统的分类。第三类是Relationship Lists,指提供复杂词间语义关系的知识组织工具,包括叙词表、语义网、和本体。曾蕾老师[25]在Hodge三种类型体系的基础上,提出了将知识组织工具划分为Term Lists、Metadata-like Models、Classification and Categorization和Relationship Models四大类,根据地名、人名规范文档的功能,特意将它们从第一类中划出,单立为Metadata-like Models一类,同时对第三类的名称稍作了调整,可能是为了更好地反映其囊括的知识组织工具类型。曾老师同时指出,这四种类型不是相互排斥的,也就是说,一种知识组织工具可归属多个类型,只要具备该类型特征。Tudhope[26]认为新知识组织工具的出现需要更为细致的类型分类体系,他在Hodge和曾蕾老师提出的类型体系的基础上,提出要多充分考虑知识组织工具的实际用途,建议从多个角度来划分知识组织工具类型,以达到全面及更好地理解知识组织工具。Tudhope提出可从构成元素如单元词还是复合词、列举还是后组、先组程度等,类表结构如反映词间语义关系程度、单重列类还是多重列类以及典型用途等多个角度来划分知识组织工具。知识组织工具类型划分的角度以及具体组织工具的归类似乎还有待于进一步的讨论。

5 结语

本文从传统知识组织工具入手,通过对不同知识组织工具的相互比较与论述,来探讨新知识组织工具的特点以及网络环境下知识组织工具的发展趋势。网络技术的发展、用户需求的深层次化,以及分类、词汇控制手段应用的多元化,使得知识组织工具的发展表现出了复杂性,非本文一文可概之。同时本文从理论上来探讨知识组织工具,未能涉及类表、词表的编制、标记语言和支持软件等实际应用方面的问题,关于知识组织工具类型划分问题的讨论以及对知识组织理论体系的影响,都还有待于进一步的深入。文中对各种知识组织工具的理解和解释,也可能有不尽之处,敬请同行补充。本文希望能起到抛砖引玉的作用。

标签:;  ;  ;  ;  ;  ;  

知识组织工具的发展与趋势_语义分析论文
下载Doc文档

猜你喜欢