分类学的定义、分析和应用:_主题词论文

分类学的定义、分析和应用:_主题词论文

Taxonomy:定义、辨析和应用,本文主要内容关键词为:定义论文,Taxonomy论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

Taxonomy是从生命科学领域借来的一个概念,是一个既古老又新鲜的名词,说它古老,是因为Taxonomy在生物科学领域诞生与应用已有相当历史,说它新鲜,是因为Taxonomy近来是知识组织领域的一个热门话题。一个术语从其诞生的相对稳定的学科被应用到另一个学科,或者说,一个古老的名词被赋予了新的含义,并非因为偶然。Gilchrist Alan总结了四条激发因素[1],一是信息过载,网络时代信息量激增,网络搜索引擎又不尽如人意,用户需要其他信息检索辅助工具或过滤工具;二是终端用户缺乏信息能力,已有研究表明大多数终端用户对检索知识知之甚少;三是企业术语的需要,目前出版使用的分类表与叙词表主要针对文献信息,不反映企业信息;四是企业知识、信息共享的需要,知识经济的到来,使得信息、知识成为企业重要的生产要素。本文旨从定义、辨析和具体应用三个方面来阐释Taxonomy概念。

1 定义

Taxonomy一词由希腊语中的“taxis”、“onoma”两个单词合成,前者的意思是安置,主要指战争中军事力量的安排,后者的意思是名字[2]。Taxonomy的英文译名是分类学,是一个很宽泛的词,可以应用于任何学科领域。关于Taxonomy概念的定义,在不同的语境下有不同的意义。

在生物科学语境下,Taxonomy是指对生物体的分类,相关定义如“对有机体分类的科学”;“对有机体分类和命名的科学”;“描述、命名和分类植物、动物的理论与实践”;“根据进化关系对有机体进行分类”;“根据他们的相同点和不同点,对植物和动物进行分类”。[3]

在信息科学语境下,关于Taxonomy概念的定义,目前还没有统一说法。文献中有各种不同的定义,这些定义从不同的角度说明了Taxonomy 的特性。 有的定义强调Taxonomy的分类特性,如“Taxonomy是一个分类表,它以等级方式对信息进行分类。[4]”;“Taxonomy是一种结构,它提供了将事物分成一系列等级小组的方法,以易于识别、研究和查找。[5]”;“Taxonomy是一个分类系统,其目的通常是根据事物某些方面的共性,比如结构、角色或行为等,对事物进行归类。[6]”有的定义强调Taxonomy的组成成分,如“产生结构和标签,以帮助定位信息。[7]”;“Taxonomy是一种分类形式,该形式将数据、信息或知识的主题特征(以关键词或术语组织)进行等级排序或系统罗列。[8]”在知识管理语境下,Taxonomy则通常是指企业信息分类系统(Corporate taxonomies,Enterprise taxonomies)。

从以上对Taxonomy定义的分析中,可以了解到Taxonomy的原义是揭示生物体之间的进化发展关系,延伸到信息科学领域是指对信息、知识的分类组织。从广义上来说,Taxonomy包括对任何事物,包括具体或抽象事物的分类组织,其概念应该包括三个基本要素:①Taxonomy是对事物的一种分类,既可以指方法,也可以指产品,如分类表或分类系统;②Taxonomy揭示事物之间的等级关系,如生物体之间的种属关系,主题词内涵之间的属分或其他等级关系;③Taxonomy的目的是帮助认识、查找或定位事物。具体而言,在信息科学领域,Taxonomy是指对某一特定领域(既包括主题领域也包括机构领域)的信息、知识的分类组织,表现形式为基于概念的树状分类表,由等级结构和主题词两部分组成,类似于传统分类法和范畴叙词表,但有差异,有些专家认为Taxonomy是传统分类法和叙词表的结合[9]。目前 Taxonomy较多应用于企业知识组织,典型的例子是Wordmap[10]。

2 辨析

Taxonomy和其他知识组织工具,如分类法、指南、叙词表和本体,被认为是同义词,常常在文献中同时提到,它们之间既有联系,又有区别(见表1), 对它们的辨析有助于理解Taxonomy概念。

2.1 Taxonomy和文献分类法

Taxonomy和文献分类法都是分类组织工具,但两者之间有很大区别,表现为:

——在揭示对象方面,分类法以揭示信息的学科特征为主,主要按学科聚类;而Taxonomy揭示信息、知识的主题特征,是基于主题词的分类表,可根据需要按各种主题特征聚类,如事物、资源类型、用户群体等等。

——在覆盖范围方面, 分类法覆盖各个学科范围, 体现人类知识的发展;Taxonomy通常针对某一特定领域,如某一主题领域或机构,体现某一领域或行业的发展。

——在类表体系方面,两者都是等级结构,但分类法的结构要比Taxonomy复杂、严谨和细致,一般要求类目逐级展开,不可有跳跃,每级类目划分通常采用一个划分标准,并用标记符号来表示类目之间的等级关系,同位类按一定逻辑关系排列等,较强调科学性。而Taxonomy的等级结构是在某一特定范围内的主题词词间关系上产生,所以在类目上下关系上会松散一些,同位类也可根据需要按字顺排列,较强调实用性。

——在用户定位方面,虽然分类法也为终端用户使用,但主要面向中介用户——图书馆员。Taxonomy虽然也用于信息标引,但主要面向终端用户,用户保证原则是Taxonomy编制与维护过程中始终要贯彻的一条原则,比如,要求采用符合用户期望的类目划分标准,选择用户熟悉的主题词,为便于用户浏览,类表结构不可太复杂,类目等级不可太长,以简单实用为重要衡量标准[11]。而分类法为准确表达文献复杂主题概念,采用了复分、仿分、组配等各种技术和方法,工作人员需经专门培训才能全面掌握。

——在职能方面,分类法以文献排架和联机目录检索为主要职能,Taxonomy包括规范某一特定领域的术语、 提供浏览、 辅助检索等多种功能(辅助检索是指Taxonomy用于限制关键词的主题范围或提供与之相关的主题词)[12],浏览是其主要职能。职能的不同决定了两者动态性要求的不同,分类法要求保持相对的稳定性,而Taxonomy则需要根据服务领域的目标需求、信息更新以及用户需求的变化随时作出调整,从某种意义上说,Taxonomy的后期维护工作比前期的编制工作更为重要和繁琐。

同时,分类法的技术与方法,如分面分析、参见和类目注释等各种技术,正在逐渐地被应用到Taxonomy领域,比如说分面式Taxonomy的出现,就如同有人指出图书馆学人员对Taxonomy并不感到陌生[13]。实际上,由于Taxonomy多应用于企业信息组织,缺乏图书馆学、信息科学专业人员的参与,急需吸取传统受控词表的理论与方法,目前已有此类相关研究与工作在进行之中。

2.2 Taxonomy和叙词表

Taxonomy与叙词表被关联的主要原因是由于Taxonomy与范畴叙词表在形式上非常相像,可视为都是主题词的分类展示,同时由于叙词表正在逐渐转向于终端用户,甚至Corpora te taxonomy被认为是叙词表的发展趋势之一[14]。Taxonomy 和范畴叙词表都揭示信息的主题特征,在体系上都以等级结构来展示主题词,但它们在覆盖范围、等级结构、词间关系、用户定位及职能方面还是有一些区别。

——在覆盖范围方面,叙词表有综合性的也有专科性的,综合性的涵盖所有专业领域,专科性的面向某一特定学科领域,但不针对某一特定机构,Taxonomy则可以针对某一特定领域或机构。

——在等级结构方面,Taxonomy的等级结构比范畴叙词表复杂,与Taxonomy的树状结构相比,范畴叙词表的等级结构要简单得多,通常表现为两级,在一个宽泛主题词下列出其所有下属主题词。

——在词间关系方面,叙词表的词间关系比Taxonomy要丰富得多,包括等同、等级关系和相关三种基本词间关系,Taxonomy的词间关系则以等级关系为主,某些Taxonomy类表有少量的等同关系和相关关系。

——在用户定位方面,叙词表虽然也直接为终端用户所用,但在编制和使用上还是以面向中介用户为主。

——在职能方面,叙词表主要用于信息标引和检索,目前叙词表也用于规范企业术语,范畴叙词表也被用于改善关键词文本检索,与叙词表有很大不同的是,浏览信息和发现信息是Taxonomy的主要功能。

叙词表显然比Taxonomy要发展得成熟,与分类法一样,叙词表的各种技术、方法与指导原则也正在被应用于编制Taxonomy,如规范主题词词性与词间关系或者将叙词表作为主题词补充词源。

2.3 Taxonomy和主题指南

从宽泛意义上来说,主题指南是Taxonomy的一种,主题指南(Subject

directory)有很多种称呼,如互联网指南(Internet directory)、主题树(Subject tree),还包括学科门户(Subject gateway);Yahoo!被认为是典型代表。不少文献在提到Taxonomy时,首推Yahoo!。然而,细细推敲,Taxonomy和主题指南还是略有些不同。

在揭示对象方面,主题指南基于互联网,揭示网络信息资源,覆盖多个主题范围,Taxonomy针对某一特定领域或机构的信息与知识,以面向局域网为主。在职能方面,两者都提供浏览功能,但Taxonomy还有其他功能,如上文提到的。

2.4 Taxonomy和本体

Taxonomy与本体(Ontology)在文献中被关联的频率较高,Ontology也被翻译为实用分类系统,被认为是分类法的一种[15]。Taxonomy和Ontology两者都针对某一特定领域的知识,都基于概念,以等级结构展示术语。然而,与Taxonomy的单一树状体系相比,本体的体系则要庞大得多,由若干个等级结构组成。在词间关系方面,本体的词间关系是各种知识组织工具中最为复杂和丰富的,包含了种属、上下等有可能出现的各种词间关系,并对各种词间关系都做了详细说明,而且其词间关系是网状的,既包括纵向关系也包括横向词间关系。本体主要应用于人工智能领域,可用于推理、机器翻译和自然语言处理,代表性例子是CYC[16]和Wordnet[17]。

表1 Taxonomy与主题指南、分类法、叙词表、本体比较表

 特征 揭示对象类表体系 词间关系

用户定位 主要职能

Taxonomy

 某一特定领域

 等级结构以等级关系为主终端用户

规范术语,浏览,辅

 的信息、知识助检索

主题指南

 网络信息资源

 等级结构以等级关系为主终端用户

浏览、查找

文献分类法

文献信息严谨的层进制

以等级关系为主,用标

中介用户

文献排架,联机目录

 等级结构记符号表示 检索

范畴叙词表

文献信息简单的等级结

等级关系,等同关系,

 中介用户

信息标引,信息检索

 构

 相关关系

本体 某一特定领域

庞大的等级结

各种可能出现的词间

 终端用户

自然语言处理,机器

 的知识 构

 关系翻译,推理

3 应用

Taxonomy有多种用途,具体解析为[18]:

——主题指南,如前文说述,从宽泛意义上来说,以Yahoo!为代表的主题指南是Taxonomy的一种,主要提供浏览功能。

——自动标引,Taxonomy用于后台,系统通过各种算法抽取标引对象的关键词,与Taxonomy匹配,从而选定主题词。

——前端过滤器,Taxonomy用于检索终端,过滤同形词与同义词,并提供相应的上下位词或相关词,供检索用户选择,类似于叙词表的功能。

——组织、管理企业知识,也就是上文提到的Corporate taxonomy。Corporate taxonomy目前日益受到企业界的重视,它既是对企业信息、知识的一种分类与组织,可提高信息、知识的生产价值,同时也是对企业资源的一种无形重组,包括资金、业务、人员和客户,从而发现企业经营中的不足,促进企业的经营决策与发展[19]。另外,Corporate Taxonomy还可以规范行业或企业术语,增进企业内部或与外界的交流和沟通。

纵观网络环境下知识组织工具的发展,已几经周折,从搜索引擎、主题指南到传统分类法的再用,以及Taxonomy、本体的出现,还有现时流行的主题地图(topic maps)和二维地图(two-dimensional maps),同时叙词表又成为一个研究热点。虽然令人眼花缭乱,也能从中摸索出两点发展趋势,一点是传统情报检索语言的基本理论和方法越来越受到重视,透过Taxonomy、本体这些时尚名词的外表,不难追溯到受控语言的基本理论与方法,也就是说,人们寄希望于通过受控语言的运用来提高网络环境的整体检索效率;第二点是面向用户成为网络环境下知识组织的一条重要原则,浏览型检索工具的出现、Taxonomy及可视化显示的需求,包括叙词表转向于终端用户,都说明了这一点,网络环境下知识组织工具的发展越来越满足用户的“喜好”,趋向于简单、灵活与实用。

收稿日期:2005—09—08

标签:;  

分类学的定义、分析和应用:_主题词论文
下载Doc文档

猜你喜欢