叙词表标准的数据模型研究,本文主要内容关键词为:词表论文,数据模型论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G154.24
修回日期:2012-12-12本文起止页码:103-108
随着时代的发展和技术的不断进步,叙词表从最初只用于索引印本文献,如期刊论文、技术报告、报纸文章等,发展到支持各种类型信息,如专利、化学结构、地图、音乐、录像、博物馆馆藏和其他类型的资料的检索;叙词表的编排和显示方法也从易于印刷版的查找,发展到支持计算机网络的显示和利用;叙词表的使用从仅作为专业人员索引和检索的基本工具,发展成为非专业用户直观查找词汇以及机器语义推理的依据。
叙词表标准作为内容编制、维护、管理和利用的基本原则,在不断修改和完善以适应电子管理需求。其中,数据模型是叙词表标准修订过程中变化最为突出的部分。它既体现着叙词表标准的内容变化,也反映了叙词表管理系统和其他计算机系统之间数据互操作能力的提升。本文在回顾了叙词表国际标准发展历程的基础上,以叙词表的数据模型为切入点,分析比较叙词表数据结构的变化,以重点讨论在语义环境下,叙词表在互操作和计算机处理上显现出的新特点,为专业人员编制、维护、管理和利用叙词表提供参考。
BS 5723:1987Guidelines for the establishment and development of monolingual thesauri《单语种叙词表编制导论》 等同 ISO 2788:1974(R 1986)Guideline for the establishment and development of monolingual Thesauri《单语种叙词表编制导论
增加了管理原则 ANS/NTSO ANS/NISO Z39.19-2003(R 1998)Guidelines for the constrction,format,and management of monolingual Thesauri《单语种叙词表的构建、格式及管理规则》
BS 6723:1985Guide to establishment and development of multilingual thesauri《多语种叙词表编制指南》 扩大范围
ISO 5964:1985Guide line for the establishment and development of multilingual thesauri《多语种叙词表编制导论》 取代
ANS/NISO 239.19-2003Guidelines for the construction,format,and management of monolingual thesauri《单语种叙词表的构建、格式及管理规则》 取代 取代
BS 8723Structured vocabularies for Information retrieval《面向信息检索的结构化词表》 增加新内容
ISO 25964Thesauri and interoperability with other Vocabularies《叙词表和其它词表的互操作》 取代
ANSI/NISO Z3919-2005(R2010)Guidelines for the construction,format,and management of monolingual controlled vocabularies《单语种受控词表的构建、格式及管理规则》
图1 叙词表标准发展脉络
1 叙词表标准的发展历程
叙词表领域有相当多的技术标准,这些标准提供了如何编制叙词表的指导原则。国际标准化组织、英国标准学会、美国国家标准学会是制订和推动叙词表标准发展最为重要的3家机构,他们制订的标准相互依存,相互促进,推动了叙词表的不断向前发展。图1显示了叙词表标准的发展脉络[1]。
在这些众多的标准中,最为主要的叙词表标准是:
●ISO 2788:《单语种叙词表编制导论》(Guideline for the Establishment and Development of Monolingual Thesauri)。这部标准是国际标准化组织于1974年颁布的,并在1986年进行了修订。ISO 2788是所有叙词表标准发展的基石,之后的标准都是在它的基础上发展起来的。该标准涵盖了词汇控制原则、术语选择因素、复合术语处理准则、术语关系、术语和关系展示、叙词表构建方法和流程等[2]。
与ISO 2788相对应的英国单语种叙词表标准是英国标准学会(British Standard Institute,BSI)在1979年发布的《单语种叙词表编制导论》(BS 5723:1979),并在1987年进行了修订(BS 5723:1987)。与ISO 2788相对应的美国单语种叙词表标准是美国国家标准学会制订的ANSI/NISO Z39.19-2003:《单语种叙词表的构建、格式及管理导则》(Guidelines for the Construction,Format,and Management of Monolingual Thesauri)。美国是叙词表修订最为频繁的国家,最早在1974年制订了单语种叙词表的原则和做法,并在1980年进行了修订。1993年美国国家标准学会(American National Standard Institute,ANSI)正式发布了《单语种叙词表的构建、格式及管理导则》(ANSI/NISO Z39.19-1993),之后进行了多次修订,其最终版本为ANSI/NISO Z39.19-2003。
●ISO 5964:1985:《多语种叙词表编制导论》(Guideline for the Establishment and Development of Multilingual Thesauri)。是由国际标准学会在ISO 2788的基础上增加支持多语种环境应用的内容进行制订。其内容着重解决了多语种叙词表编制的特性问题,包括多语种等同术语的建立、多语种术语间的关系、多语种术语和关系的展示、印刷版结构等问题[3]。这部多语种叙词表标准在英国对应的是《多语种叙词表编制导论》(BS 6723:1985)。
●ANSI/NISO Z39.19-2005:《单语种受控词表的构建、格式及管理规则》(Guidelines for the
Construction,Format,and Management of Monolingual Controlled Vocabularies)。2005年美国标准学会宣布将重点把叙词表内容扩展到受控词表,包含词单、同义词环、知识分类等知识组织体系,它包含了单语种受控词表内容编制、显示、构建、测试、维护和管理的基本原则[4]。ANSI/NISO Z39.19-2005制订后取代了ANSI/NISO Z39.19-2003,并于2010年进行了修订。
●SKOS:简单知识组织系统(Simple Knowledge Organization System,SKOS),是W3C语义网工作小组制订的W3C推荐标准,它设计了一个知识组织系统(如叙词表、分类表、标题表等)的通用数据模型来在网络上分享和链接知识组织系统。通过SKOS表示的知识组织系统能被机器理解,能在计算机应用软件之间进行数据交换和以机器可读的格式实现网络发布[5]。
●BS 8723:《面向信息检索的结构化词表》(Structured Vocabularies for Information Retrieval)。英国标准学会在2000年开始制订新的叙词表标准,用了近8年的时间完成了全部内容,分别是:定义、符号和缩写(BS 8723-1:2005);叙词表(BS 8723-2:2005),取代了BS 5723:1987;叙词表之外的词表(BS 8723-3:2007);词表互操作(BS 8723-4:2007),取代了BS 6723和ISO 5964:1985;互操作的交换格式和工具(BS 8723-5:2008)[6]。其内容增加了叙词表在电子系统中的作用、叙词表构建的管理特点、更新、叙词表管理软件的需求等内容,同时此标准也关注了叙词表之外,如类表、标题表等的结构和内容以及通过映射来实现词表之间的互操作。
●ISO 25964:《叙词表与其他词表的互操作》(Thesauri and Interoperability with Other Vocabularies)。国际标准组织在BS 8723的基础上添加了新内容,制订了ISO 25964,在2011年8月正式颁布了ISO25964-1《面向信息检索的叙词表》(Thesauri for Information Retrieval)。ISO 25964-2《与其他词表的互操作》2012年推出了标准草案。ISO 25964-1取代了ISO 2788和ISO 5964,对单语种和多语种叙词表的内容和编制、叙词表使用原则、叙词表建设和管理的基本原则、叙词表管理软件的基本功能、叙词表的数据模型等进行了说明[7];ISO 25964-2提供了叙词表与其他类型知识组织映射的模型、映射指导原则[8]。
2 叙词表数据模型分析
叙词表为信息组织和检索提供了重要基础工具,构建了资源的标引词与用户检索词之间的桥梁。在网络时代,它除了应用于信息标引与检索之外,还应用在学科分类导航、机器翻译、语义网络、语料词库切词等方面,也应用于标准数据协议、映射或互操作、可视化服务等多个方面。
叙词表数据模型是支持整个叙词表应用的基础,纵观叙词表标准的发展和变迁,叙词表采用的数据模型经历了3个发展阶段:基于术语的数据模型、基于概念的数据模型、基于概念的扩展模型。
2.1 基于术语的数据模型
基于术语的叙词表是术语的集合,术语是唯一的实体类型。ISO 2788:1986给出了以术语为基础的叙词表的结构[9]。基于术语的叙词表有两种类型术语:优选术词和非优选术语。每个术语都有一个优选术语,一个优选术语对应一个或多个非优选术语。术语和其他术语的关系,主要通过优选术语的属分关系和相关关系、优选术语与非优选术语之间为用代关系来反映。
2.2 基于概念的数据模型
基于概念的叙词表包含了两种实体:概念和术语。在BS 8723-2:2005中,叙词表的结构被清晰地划分为概念和术语[9-11]。概念被定义为思想的集合,关系传递概念空间结构间的信息,用于说明概念和概念之间的关系。叙词表中每个概念包括了优选术语、非优选术语和范围注释3个组成部分,概念之间具有等级关系和相关关系。叙词表中每个术语含有优选术语和简单非优选术语两种形式,优选术语和简单非优选术语为等同关系。
2.3 基于概念的扩展数据模型
IS0 25964在BS 8723的基础上,提供了一个基于概念的扩展数据模型[7],数据模型分成了6个基本部分:叙词表、叙词表列、概念组、叙词表概念、叙词表术语和注释。同时,与基于概念的模型相比,它进一步增加和细化了叙词表、叙词表列、概念组和注释的内容:叙词表,被作为一个独立的类,设计一个专门模块“版本历史”来记录叙词表的版本信息、与其他版本的关系;叙词表列,含有同一上级概念的一组同级概念,有助于在人机界面上导航、浏览、挑选叙词,通过节点标识来显示分支的特征;概念组,为补充等级结构,依据学科领域聚类的一组概念,常常形成分类框架;注释,提供了与术语和概念相关的各种类型注释,并容许根据特定应用的需要来自定义注释。同时该模型对关系进行了严格规定,区分了概念和术语,说明关系必须建立在概念的基础上,而不是在术语的基础上,来清晰化概念的关系。
2.4 叙词表数据模型的比较分析
通过上述分析可以看出,从IS0 2788到ISO25964,叙词表的数据模型发生了根本性的变化。ISO 2788叙词表的核心要素是术语,数据对象之间的各种关系都是围绕术语展开的,包括优选术语和非优选术语之间的用代关系、优选术语之间的属分关系和相关关系。BS 8723打破了传统叙词表的结构,将概念从术语中剥离出来,成为单独的数据对象,并确定了叙词表、概念、术语三大基本对象和相关关系[11]。ISO 25964在BS 8723的基础上进一步完善了数据模型,增加了叙词表列、概念组、注释,对数据模型中各个对象属性特征以及对象之间关系进行了详细描述,同时明确了关系是建立在概念的基础上,而不是术语的基础上。表1是各叙词表标准数据模型的比较。
3 叙词表标准在互操作上的新特点
从IS0 2788到IS0 25964,叙词表标准在不断修改和完善,单语种和多语种叙词表的标准进行了融合,叙词表标准涵盖范围从叙词表扩展到受控词表,如同义词环、受控术语表,内容从单纯的叙词表编制发展为关注叙词表与其他词表的互操作,数据模型从单一以术语为核心的数据结构扩展到以概念为核心的多实体结构。叙词表标准内容及数据模型的变化,是为了更有效地适应计算机网络时代的需要,处理不同词汇类型和词汇表达多种格式和类型的资源交互,以帮助计算机理解并进行语义推理。
叙词表数据模型的变化主要体现在:
3.1 概念和术语的分离,关系基于概念,而不是优选术语
正如ISO 2788所指出的,构建叙词表的目的是“需要一个特定的方法简单、清晰地来表达概念,并能有序排列及说明他们之间的关系”。概念是人类头脑中的想法,它独立于词汇和语言,在交流的时候,常常用词汇、编码或者图片来表示。以ISO 2788标准为基础的叙词表是以术语为基础的,只有术语1个实体类型,概念是通过优选术语来表达的。叙词表包含的是术语和用术语表示的概念,因而概念和术语二者很难区分[12]。同时ISO 2788:1986中进一步说明了“考虑到实用,术语和概念有时可以相互替换”,从ISO 2788到ISO 5964、ANSI/NISO Z39.19,概念和术语一直存在模糊性。但随着计算机的发展,这种模糊性造成了计算机的难以理解和语义推理错误以及各种类型的叙词表和词汇互操作的困难。
从BS 8723的数据模型开始,概念被作为一个单独的实体与术语分离,ISO 25964也延续了这种方式。概念实体作为一个独立的部分,包含了标识、创建时间、状态、注释、关系等内容。概念实体的出现,使得叙词表数据模型更为直观,一个概念能采用多种表示方法。正如ISO 25964-1的15.2.3指出“叙词表中的每个概念能被每个语种的一个优选术语和多个非优选术语所表示,注释、范围注释、上位/下位/相关术语关系都是应用在概念这个整体上,而不是它的优选术语。每个概念都具有一个唯一标识。”
整个数据模型是建立在概念的关系之上,而不是标识概念的术语之上。术语可以有多种语言的表示,每种语言的一个术语被用来表示概念,即优选术语。指向同一个概念的多个术语,它们具有等同关系,即用/代关系。数据模型的变化提供了一个严谨的实体和关系,消除了原有的模糊性,也使得计算机处理能够保持一致性。
3.2 数据模型中的新内容
与早期的以术语为基础的数据模型相比,除了术语和概念实体之外,数据模型中还陆续添加了叙词表、叙词表列、注释、概念组、顶级概念等新实体和新特征属性,具体如下:
●叙词表,记录各个版本的信息,说明与其他版本的关系,能保持同一叙词表不同版本的互操作。
●注释,在ISO 2788中注释是作为优选术语的一个属性,而在BS 8723和ISO 25964中注释被作为一个独立的实体来对术语和概念进行解释,并进一步细分为历史注释、编辑注释、定义、自定义注释。
●叙词表列,是含有同一个上位概念的一组同级概念,可以根据不同的节点标识分成多个列,节点标识用来说明列的特点,如依据年龄。因而概念在叙词表列中的显示顺序不同于优选术语的字母顺序,可以根据一些内在关系,如数字、大小、年龄。它有助于在人机交互界面上根据不同的特征来显示叙词表概念间的等级关系,也有助于支持导航、浏览、挑选术语。
●概念组,叙词表中常采用分类表结构来反映叙词表概念的等级关系。常被称为“主题”、“小型叙词表”、“领域”或者“组”,ISO 25964的数据模型用“概念组”表示。概念组常常是根据领域、学科范围、商业活动等形成的。概念组中的概念是从叙词表中多个不同分面或者等级中抽取的,组中概念之间可能具有等级或相关关系。概念组采用提供分类表的编排方式来完善叙词表本身的等级关系。
●顶级概念,是概念包含的一个属性。每个概念都具有一个链接,指向概念所属等级的顶级概念。顶级概念可以作为分面的标识,如在浏览时说明特定的分面包含哪些概念,也可以用于验证两个概念是否处于同一个分面。同时,概念还具有一个布尔逻辑属性(是/否),用以说明此概念是否为顶级概念。这个属性特征对于形成顶级概念列表进行浏览非常有用。
3.3 角色属性的出现,用以细化关系以帮助推理
ISO 25964提供了一个可选择的“角色”属性来细化关系。叙词表中概念的等级关系是模块化的,如上位/下位关系,角色属性规定了三种等级关系——种属(是什么的一种)、部分(是什么的一部分)和实例(是什么的一个实例)。如果需要,可以用“角色”来定义新的等级关系类型。同样,概念之间的相关关系,可以采用“角色”属性进一步细化,如原因/结果、过程/产品、人/学科;对于术语和概念之间的“用代”关系,“角色”属性也可根据需要来说明关系的内涵,如优选词和非优选词可能存在简称/全称、正式用语/非正式用语、古称/现在用法、科学术语/通俗用语的情况。这个关系内涵的细化,便于叙词表向本体转换。
但需要注意,叙词表的等级关系和本体的关系具有差异性,主要体现在关系是否具有传递性,也就是说,两个具有等级关系的概念,尽管它们具有等级关系,但并不说明其中一个概念的子概念,是其上位概念的下位[13]。如果是种属(普通/特殊)类型的等级关系,那么关系是传递的,但是如果是整体/部分类型的等级关系,那么关系是不传递的。出于以上原因,ISO 25964建议部分关系应该用于一些特殊情况:学科领域、地理位置、生命系统或器官、社会结构的等级。学科领域关系也可以被看做是一种种属(普通/特殊类型)的关系,如物理学既可以是科学的一种,也可以是科学的一个组成部分。地理位置是一个特殊的案例,因为概念具有正规的名称,来标识每个实例,而不是类,不能作为一种种属关系。同时这与实例关系也不同,实例关系是说明每个实例是类的一个成员。
3.4 FRSAD概念模型和叙词表数据模型的一致性
主题规范数据的功能需求(Functional Requirements for Subject Authority Data,FRSAD)是书目记录的功能需求(Functional Requirements for Bibliographic Records,FRBR)家族成员之一,是IFLA在2010年批准、2012年正式出版的一份研究报告。FRSAD提供了一个学科关系概念模型,为知识组织体系和他们的数据提供理论框架,如图2所示。
图2 FRSAD模型[14]
此模型中包含了3个实体:作品、希玛(Thema)和诺门(Nomen)。Thema是希腊词汇,表示主题(学科、题目和概念),诺门表示主题的名称,可能是叙词、标题词、类号、任何符号或声音、图像。作品具有学科主题希玛,希玛的称谓是诺门。该模型也表达了3种关系:希玛和诺门的关系;希玛和希玛的关系;诺门和诺门的关系。
ISO 25964-1的叙词表数据模型和FRSAD的概念模型保持了一致,概念相当于FRSAD模型中的主题希玛,术语相当于FRSAD模型中的诺门。同时也表示了数据模型也包含FRSAD中的关系:①一条记录记载一个概念及其表示概念的术语,即希玛和诺门的关系;②概念和概念的等级(上位/下位/顶层概念)关系和相关关系,即希玛和希玛的关系;③术语之间的关系,优选和非优选词、异体、不同语言的词,即诺门和诺门的关系。
3.5 数据模型的XML Schema与SKOS表达的兼容
为了便于使用和发展网络应用,ISO 25964-1设计了XML Schema来表示数据模型以支持整个或者部分叙词表的数据交换。ISO 25964-1的Schema采用了“扁平化”的模式,而不是“嵌套”的模式。其首先定义了XML的根元素(ISO25964Interchange),接着定义了UML模型中大部分的类——叙词表和叙词表内包含的关系,并作为顶级元素进行了“封装”。唯一例外的是叙词表,它包含了3个平行的类:叙词表概念、概念组和叙词表列。标识符被用来将他们串联起来。一个概念的术语被认为是他们所属概念的子元素,而复合等价关系被单独定义。这种方法的优点是将叙词表结构和用于表示他们的XML结构分离。因为XML是等级结构,叙词表也是等级结构,往往假设叙词表的等级结构应该采用XML深层嵌套来表示。但是,这个假设只在简单的情况下是有效的,在多层级链接和部分叙词表中无法实现。通过使用标识符提供所有的链接,而不是采用结构嵌套,此Schema有利于叙词表的部分进行交换[15]。
由于叙词表国际和国家标准关注的是叙词表的建设,因而W3C工作组起草和制定了SKOS,作为发布知识组织体系的标准。其数据模型的核心是将概念和表示概念的标识区分开来。SKOS明确强调了词汇表以概念为核心的观点,其原始对象不是术语,而是用术语表示的概念。在SKOS中概念的语义关系与叙词表标准中的等级关系和相关关系很类似。它采用了3个标准化的属性:用skos:broader和skos:narrower表示概念间的层级关系,用skos:related表示概念间的相关关系。
ISO 25964-1的数据模型XML Schema和SKOS最大程度上兼容,大多数遵循ISO 25964的叙词表能直接转换为SKOS格式。但SKOS并不支持复合等价,并使用的是同一元素“collection”,表示了2个在ISO 25964有区别的元素“ThesaurusArray”和“ConceptGroup”。叙词表内复合等价关系的编码或者复合等价映射需要SKOS进一步发展。
除了这些显著的变化之外,从基于术语的数据模型发展到基于概念的数据模型,数据模型中实体包含的属性不断增多和完善,并采用其他的标准框架来定义实体属性,例如,叙词表实体的大多数属性都来自DC元数据标准。
4 结语
从叙词表标准的发展来看这些标准正在通过对数据模型的重新设计,使叙词表和叙词表数据能够在更高的层次上来进行国际共享和使用。叙词表数据模型与FRSAD概念模型的映射、与SKOS语言的兼容,能够使叙词表的发展融入到语义网的关联数据运动中,叙词表数据也成为关联数据的一部分,来促进语义网的发展。