数字图书馆知识组织系统_数字图书馆论文

数字图书馆知识组织系统_数字图书馆论文

数字图书馆的知识组织系统,本文主要内容关键词为:数字图书馆论文,组织论文,知识论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G250.76[文献标志码]A[文章编号]1005—8214(2007)05—0100—03

“知识组织系统”①(Knowledge Organization System,简称为KOS)是指用以组织信息并推动知识管理的各种系统。它不仅包括组织一般资料(如书架上的图书)的分类表,提供更多详细检索点的标题表,以及规范地名、人名等不同表达形式的规范档;同时还包括语义网络和本体等一些非传统的系统。知识组织系统是用来组织信息的系统,因此,它是每个图书馆、博物馆及档案馆管理的核心。

KOS主要用来组织资料以提供检索,并达到管理馆藏的目的。它就像连接用户信息需求和馆藏资源的桥梁,通过它用户可以辩识自己需要的资料而不必事先知道该资料是否存在。无论用户直接浏览网页上的主题,还是通过网站搜索引擎直接检索KOS都会引导用户发现资源,而且,允许资源管理者根据馆藏范围对用户的需求做出回应。

所有的数字图书馆都有一个或多个KOS。跟传统实体图书馆一样,数字图书馆的KOS提供了馆藏内容预览以及检索支持。这个KOS可以是与数字图书馆资源范围和预期用户相关的传统KOS,如DDC、INSPEC叙词表,也可以是像Yahoo或Excite分类表等因商业目的创建系统,或者自行创建供内部使用的系统。

使用哪种KOS是每个数字图书馆创建时的核心问题。无论是机器自动生成,还是人工编制,KOS都必须适用于数字图书馆馆藏中的所有资源,并对资源用户有意义和帮助。

下面,我们将对KOS的特征和常见类型进行说明,然后讨论它们的起源和传统应用。

1 KOS的共同特点

我们常说,人类是天生的组织者。孩童时期,我们就开始玩分类和匹配的游戏。面对不断变化的世界,我们往往把新事物或经历与我们以往熟悉的事物进行比照,辩识新事物的模式类型,并把它归入我们已有的框架中。在早期哲学家的著作中,我们可以看出他们对创建广泛的KOS的重视,其中很多观点仍影响着我们对于世界的认识。例如,亚里士多德把知识分为几个组,比如物理、政治、心理学等。这种分类法主要应用在我们的语言、教育和科学领域内;1800至1814年起,杰弗逊(Thomas Jefferson)把美国国会图书馆中的图书重新分类,体现了一个更加人道主义的哲学体系。

没有一个知识分类体系是十全十美,能够让所有人接受的。莱斯克(Michael Lesk)断言,我们是不可能建立一个单一而举世使用的分类系统的。文化环境会影响知识分类体系,适应某一文化的分类系统不一定适合另一种文化,因此,我们存在多种不同的体系来组织知识。

尽管各知识分类系统有各种差异,但仍然有以下共同的特点,这些特点对KOS在组织数字图书馆时非常重要。

(1)KOS赋予馆藏整体及其各实体对世界的某种观点。

(2)根据被使用的KOS,同一实体能够用不同的方式描述。

(3)KOS中所表达的概念与其所代表的真实世界的实体必须能够相符,以便用户对系统有一定的信任度,并使用系统。同样地,用KOS处理相关资源的人一定要能够把系统中表达方式与他或她所指的概念关联起来。

2 KOS的类型

通过下面我们对几种典型KOS的讨论,可以看出它们各自的范围以及在数字图书馆多样性环境中的应用。

在计算机科学、信息科学甚至标准文献中,对一些 KOS有详细而明确的定义,但对它们的定义仍然存在着争论。尤其在一些受欢迎的期刊和著作中,一些不规范的术语也经常被使用。最近,NISO的电子词表研讨会强调了改善“术语的术语”定义的必要性。

我们这里给出的KOS的描述大体上包括了可用来组织数字图书馆的系统。这里列出的KOS并不是所有的KOS,而且这些术语的定义也并没包含在专用的标准文献中。依据结构、复杂度、用语关联性以及历史上的功能等特点,可以把KOS分为三大类:词汇列表、分类表以及概念一览表。词汇列表强调专业术语,且往往附有定义;分类表包括系统分类的分类表和大致分组归类的范畴表,强调主题类目的生成;概念一览表,强调语词与概念之间的关联。

2.1 词汇列表(term lists)

·规范档(authority files)。规范档是用于控制同一人或事物的不同名称,或者某个特定领域专有名词的词汇单。比如国家名、人名、机构名。非正式用词可以被映射到正式用词。这种KOS一般不包括很深的组织或复杂的结构。可能是以字母排序或是以较简单的分类框架排列显示。规范档可能包含有限的等级以提供简单导航,尤其当规范档是用于手工检索或规模非常大的情况时。规范档的实例有美国国会图书馆名称规范档和Getty地理规范档。

·术语表(glossaries)。一组词汇的列表,且通常带有定义。所定义的词汇,来自某特定的主题领域,或者一本特定作品。词汇被限定在某一特定的主题环境中,很少会有多种含义。例如EPA环境术语表。

·字典(dictionaries)。按字母顺序排列的词语列表,且提供词的定义,其中包括多义词的各种含义。字典的范围比术语表更广泛,字典还可能提供词语的起源、拼写和形态变化以及不同学科领域的多种含义。虽然字典也可能提供同义词和相关词,但是它没有明确的等级结构或作概念分类。

·地名辞典(gazetteers)。一组地名的列表。传统地名辞典是以图书形式出版的,或是作为地图集的索引。每一个款目都可通过特征类型来识别,如河流、城市、学校等。地名辞典在地理上的用途通常是作特定地点的地面定位用的。这些地名通常用分类框架或主题归类来组织。美国地名编码就属于地名辞典。“gazetteer”一词还有其他一些含义,包括政府的公报等,如专利或法律公报。

2.2 分类表与范畴表(classifications and categories)

·标题表(subject headings)。它提供一系列用以表达一个馆藏中各文献主题的受控词。主题范围可以很广,且可以扩充。但是标题表的结构通常是一个具有有限等级的简单结构。在使用上,主题标目是组配式的,有一定的规则可以使标题组配以表达更专指的概念。例如《医学标题表》(MeSH)和《美国国会图书馆标题表》(LCSH)。

·分类表(Classification schemes,taxonomies,categorization schemes)。这三个词经常被混淆使用。虽然这些分类表之间存在细微的差别,但是这几种KOS都把各实体分成组群或较为宽泛的主题范畴。一些分类表提供由数字或字母组成的、等级式标记,以表达主题的涵盖范围。这些KOS多半没遵循ANSI以及NISO中叙词表标准的等级规则,缺乏叙词表所具有的明确的关系。常见的分类表有:《美国国会图书馆分类法》(LCC),《杜威十进分类法》(DDC)和《国际十进分类法》(UDC)等。主题分类通常用来将叙词表中的词归纳到更广宽泛的类别下,并将之置于叙词表之外,另成一套系统。学科分类表逐渐在面向对象设计和知识管理系统中被使用,表示根据某种特征将事物分成有序的类组。

2.3 概念一览表(relationship lists)

·叙词表(thesauri)。叙词表基于概念,且揭示词汇间的关系。词汇间的关系通常包括等级、等同和相关关系,且通常以BT(上位词)、NT(下位词)、SY(同义词)和RT(相关词)等标记来表示。有些叙词表中,相关关系可能非常详细,例如美国医学图书馆的《统一医学语言系统》(UMLS)定义了40多种关系,其中很多都属于相关关系。叙词表识别用于标引和检索的正式用词,人口词或者非正式用词被指向正式用词,表达概念时使用正式用词。

我们有建立单语种叙词表(NISO 1998; ISO 1986)和多语种叙词表的标准(ISO 1985)。在这些标准中,对采用哪些词为正式用词以及词之间的基本关系都已经做了规定,制定了词与词关系的构建规则,同时,叙词表的定义非常狭窄,往往与传统所指的叙词表的构架不同。很多叙词表没有遵循标准的所有规范,但仍被称作叙词表。还有一种叙词表,如Roger分类词典,② 其中只有同义关系。

多数叙词表很庞大,包含的叙词可能超过50000个,且大部分是为某特定学科、特定或系列产品编制的。叙词表的实例有:粮农组织(FAO)的水生生物科学和渔业叙词表;航天领域的NASA叙词表。

·语义网络(semantic networks)。随着自然语言处理的出现,语义网络有了显著发展。这类KOS中,概念和词汇的结构不是等级式的,而是网络式的。每个概念被看作节点,从其分支出各种关系,这些关系通常不只是标准的上下位以及相关关系,还可以包括特定的整体与局部、原因与结果,或者父子关系。Princeton大学的WordNet就是一个相当有名的语义网络,目前它已被多个搜索引擎使用。

·本体(Ontologies)。本体是被用在某些KOS的新概念。知识管理组织和机构正逐渐把本体作为某种特殊的概念模型发展起来了。本体可以表达物体之间的复杂关系,可以包含语义网络所缺乏的规则与原理,用以描述特定领域的知识。它经常与数据挖掘和知识管理等系统结合。

以上所介绍的KOS,在复杂度、结构以及功能上有很大的差别,但是都能够为数字图书馆提供组织馆藏和增加检索入口的功能。

3 KOS的由来和应用

在实体图书馆中,LCC、DDC、UDC等分类法满足了馆藏某实体在书架上唯一定位的需要。主题标目可以用来克服实体架位唯一的弊端,为用户提供多个检索点,因此,图书馆使用LCSH,《西尔斯标题表》(Sears),或者其他为特定内容或馆藏编制的专用主题词表。对于特定内容,图书馆还使用规范档来控制人名、机构名及地名的不同形式。

除了实体图书馆外,KOS也可以用于其它环境。同样,在数字图书馆中,我们也可以用KOS来组织馆藏。

3.1 文摘和索引服务

文摘和索引服务是随着传统书目的发展以及期刊文献的激增而产生的。第一次世界大战时科学信息检索的不足刺激了这种服务的出现,20世纪50年代,冷战和卫星军备竞争使之备受重视。虽然人文社会科学的文摘和索引服务,其发展过程与自然科学的不同,但在网络环境下,也很快成为学科研究人员的重要资源。文摘和索引服务的范围可能面向宽泛的学科(如化学、建筑学、生物学、物理),也可能是文献的某一方面(如核能的和平使用)或子学科(如水生动植物)。

某些KOS,如叙词表和主题分类法等用来支持文摘和索引服务及其特定产品和用户。服务机构越来越多地使用综合KOS,为多学科主题的文献提供主题检索入口。1960年,文摘和索引服务从单一的印刷品服务转变为通过大型在线资料提供者如DIALOG提供在线和印刷服务。随后,其产品形式不断发展,从CD-ROM到现在的WEB版。 KOS也随之由印刷版转变为电子版。虽然,随着电脑性能的提高、搜索引擎的成熟以及最终用户的独立,KOS发生了一些变化,但在网络环境下,很多KOS仍是非常重要的。

多年以来,只有接受过训练的编目及标引人员会使用 KOS进行标引,生产相应的文摘和索引服务产品。KOS的用户大多是图书馆员及其他专业检索者。但是近年来,由于电子数据和电子出版物的激增,以及对信息检索困难的关注,人们对专业人员和最终用户都能使用的KOS重新产生了兴趣。

3.2 出版者

随着电子排版系统的采用,出版者逐渐开始涉足其出版物的文摘和索引服务产品。大型的期刊出版商,如 Elsevier已建立了它们自己的可提供书目记录的系统,且书目记录能够连接到文献全文。随着在线电子期刊内容的增长,人们越来越需要系统由单纯提供目次和期刊卷期浏览,转变为支持全文检索和KOS检索。电子期刊产生了附属的KOS,特别是分类表。例如,Elsevier的网站提供主题分类表,为该网站2000多个子网站提供检索入口。

3.3 贸易、专业及政府组织

很多规范档和分类表被用于商业领域,例如应用在采购和政府统计中的《标准工业分类表》(SIC)和《北美工业分类表》(NAICS);疾病与治疗方案一一对应的疾病码在医生、医院和保险公司中使用。越来越多的组织机构建立网站后,将创建附属的KOS,以支持其运作。

3.4 内部项目

团体机构是KOS最大来源的创造者和使用者。企业内网和知识管理系统的创建者已经发现了数百种专门的分类表、术语表以及其他在组织内使用的词表,其中很多都是为特定任务创建的,因此,其适用的主题领域及目标用户都比较窄,但是对这些用户来说,它们仍是丰富的情报资源。

例如,美国能源部(DOE)的环境管理科学计划(EMSP)和科学技术信息办公室正创建数字图书馆为 EMSP的管理者提供支持。计划的管理者和研究人员编制了“需求范畴表”和“科学范畴表”来组织环境科学网(ESN)。这些分类表主要是用来支持提案书和裁决书的处理过程,同时ESN也利用它们为DOE内部的其他相关资料及来自美国环境保护署(EPA)、美国航空航天总署(NASA)分布数据库的相关资料提供支持。目前,围绕这些分类表组织的词表,将与网络挖掘工具一起使用,将会为特定主题领域的计划管理者提供更相关、更准确的网络资源。

4 结语

KOS包含不同的组织体系,可用来组织、管理和检索信息。它们包括规范档、分类表、叙词表以及本体等。图书馆和其他信息管理机构已编制出了多种KOS来组织和检索信息。KOS除了为特定社群或用户提供资料检索的主要功能外,还能够在促进数字图书馆发展的过程中发挥作用。

编译自Gail Hodge:Systems of knowledge organization for digital libries:beyond traditional authority files,The Digital Library Federation Council on Library and Information Resources,April 2000 ( available at:www.clir.org/pubs/reports/pub91/pub91.pdf)

注:侯汉清教授对本文给予了极大的指导,在此表示衷心的感谢。

注释:

①文章中的“知识组织系统”(KOS)是知识组织系统网络研讨组在它最初的会议——在美国宾夕法尼亚州的匹兹堡召开的1998年美国计算机协会(ACM)数字图书馆会议上提出来的。

②Thesaurus有两重涵义,一为分类词典,一为叙词表。这里的Roget' s Thesaurus实为分类词典。

标签:;  ;  

数字图书馆知识组织系统_数字图书馆论文
下载Doc文档

猜你喜欢