近年来国际知识组织规范发展研究_语义分析论文

近年来国际知识组织规范发展研究_语义分析论文

近年来国际知识组织规范的进展研究,本文主要内容关键词为:进展论文,组织论文,知识论文,国际论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G254.0

CLASS NUMBER G254.0

1 引言

知识组织规范是指知识组织系统在构建及应用过程中所共同遵循的标准或统一规范。

由于计算机科学和网络技术的发展,信息资源越来越丰富,为满足不同类型信息资源的内容组织,满足不同类型用户的个性化需求,知识组织系统呈现出多类型、多结构、多元化形式的发展趋势,如主要用于文献组织的以人工或机助方式构建的分类表、标题表、主题规范文档、叙词表等,主要用于网络或数字化信息组织的以半自动、自动化方式构建的本体(Ontology)、大众分类法(Folksonomy)等,主要用于资源整合和可视化服务的主题网关(Subject Information Gateway)、概念地图(Concept Map)等。多元化的发展趋势对知识组织规范或标准的需求更为迫切,要求同类型的多元化、个性化的知识组织逐渐过渡到统一化、标准化的方向上,因此,知识组织系统的每一种类型的构建和应用都需要在国际范围或在一个国家、地区或行业范围内制定出统一遵循的规范或标准,以便为信息资源共建共享与交流创造条件。

近年来,与知识组织有关的国际组织ISO、IFLA、W3C针对以前颁布的相关标准不断修订更新,其目的在于解决各类型信息的知识组织,满足网络环境下的不同使用对象,其修订结果表现为:从各自信息组织的重点出发,把叙词表、主题规范以及源于自然语言组织方面的标准推向一个共同问题的研究上,使其标准不局限于知识组织系统中某一类型的规范控制,更多着手于各类型系统的共同知识组织原理即概念模型的规范控制上,同时知识组织系统的构建规范均包括了机读或机器理解的数据模型的规范控制。若进一步区分,知识组织规范可分为受控表和非控表的规范及其数据模型的规范,这是近年来国际知识组织规范的最新进展。以下对几个典型标准进行比较和分析,以供各位同仁讨论。

2 发展概况

早在1993年,人工智能界首先提出Ontology概念模型,试图通过抽象出客观世界中的一些现象的相关概念来得出相关领域的概念集,使得这个概念集成为计算机可推理、人类共同认可的领域知识集的标准,以便知识组织重用或其他领域的语义应用。之后,很多相关机构从不同角度对其进行的研究越来越深入和广泛。以文献信息组织为主要研究对象的图书馆信息界对此产生了巨大共鸣,认为Ontology与传统的情报检索语言的构建原理如出一辙,我国情报检索语言的创始人张琪玉先生甚至把Ontology翻译为“实用分类法”。

2000年后,数字化资源包括网络资源越来越丰富。国际上,图书馆信息界、计算机网络信息界为满足知识组织系统(以下简称KOS)的网络化服务和语义网建设,从用户多元化的知识服务角度,从知识组织系统网络化、自动化、互操作化构建以及Web语义网构建的角度,提出了知识组织的新理念、新思想,进而发布或修订知识组织标准或规范。ISO、IFLA、W3C以及英美等国家有关标准组织对顶级或领域的Ontology构建方法、维护管理系统的设计、分词系统以及相关知识库的构建等技术层面的标准颁布并不多[1],但对原有的知识组织方法、概念系统等规范或标准的修订或合并却较多,而且提出相应的知识组织系统的数据描述模型,新标准的设计思想有渗透交融和相互认可的趋势。

2.1 英美有关标准的修订

2005年美国ANSI/NISO修订颁布了Z39.19-2005《单语种受控词表编制、格式与管理规则》(ANSI/NISO Z39.19-2005 Guidelines for the Construction,Format and Management of Monolingual Controlled Vocabularies,简称Z39.19),代替了1980-2003年先后出版过的5个修订版。由单语种叙词表的编制规则(Guidelines for the Construction,Format,and Management of Monolingual Thesauri)扩大到受控词表编制范围,该标准对受控词表包括可选词单(pick list)、同义词环(synonym rings)、等级分类表(taxonomy)、叙词表(thesauri)的编制目的、概念、原则和结构,术语的选择、复合词、词间关系,受控表的显示、互操作以及编制、测试、维护和管理系统进行了规范和描述[2]。2008年又开始对其标准修订补充,成立了“知识库及相关工具”研究的兴趣小组(KBART),拟解决知识库及相关工具编制与实践指南,对知识库格式、知识库供应链的数据格式ONIX SOH的互操作、OpenURL等方案研究提出草案,该部分内容拟成为ISO 25964-2的一部分[3]。

英国标准协会(BSI)2005年修订颁布了BS 8723《用于信息检索的结构化词表指南》(Structured Vocabularies for Information Retrieval:Guide,简称BS 8723)第1、2部分,其内容为叙词表编制规范部分,替代1987年版的BS 5723标准。第3、4与第5部分分别于2007年、2008年出版,其内容覆盖了1985年版的BS 6723标准,等同于ISO 5964的多语种叙词表编制标准的所有内容。同时,第3部分包括叙词表之外的其他结构化表:知识分类表、标题表、图书分类法、本体和语义网络。第4部分包括了受控词表之间的互操作及不同类型词表之间的映射:同一语种不同方言区叙词表互操作、多语种叙词表词汇之间的互操作、多结构词表之间互操作(如叙词表与分类法的互操作)、不同功能的词表之间的互操作、受控词表(包括分类法)和不同信息存储与检索系统(如搜索引擎、内容管理系统等)间的互操作规范。第5部分包括了现有数据交换格式(如XML Schema、MARC、SKOS、Topic Map(主题图)、DTD等)及互操作协议。此外,还提供了对电子词表的功能设计、词表管理软件、在电子环境下的显示和分面分析等的诸多规范和建议[2]。

2.2 ISO 25964:信息与文献工作——叙词表及与其他词表的互操作

ISO 25964是国际标准化组织信息和文献标准技术委员会信息资源标识和描述分技术委员会(ISO/TC46/SC9)为适应网络环境下社会化互操作的需求,以BS 8723为基础对现存的两个国际标准ISO 2788单语种叙词表编制规范(1986年版)和ISO 5964多语种叙词表编制规范(1985年版)进行的修订和扩展。ISO 25964由两部分组成:①ISO 25964-1——用于信息检索的叙词表,包括单语种和多语种叙词表;②ISO 25964-2——与其他词表的互操作。2008年10月,ISO/TC46/SC9接受该工作组草案(ISO/WD 25964-1),同年12月发布了叙词表方面的标准草案(征求意见稿):ISO/CD 25964-1Information and documentation-Thesauri and interoperability with other vocabularies-Part 1:Thesauri for information retrieval[4]。2009年9月18日发布了ISO/TC46/SC9的投票结果及修改意见,以便正式成为国际标准。ISO 25964-2旨在解决网络系统中使用多种类型词表的互操作规范,将在BS 8723-4的基础上修订,还将包括Z39.19“知识库及相关工具”兴趣小组在2008年开始研究的成果,至今还未公布标准文本[3]。

ISO 25964-1除对前两个标准内容大幅度更新之外,增加了计算机和网络环境下叙词表所涉及的一些应用问题,强调信息检索用的叙词表的功能,即可以用来标引和检索,也可以用来不标引后控检索用,明确应用范围。该标准共分19章和两个附录,其中1-11章是对原有内容的更新,从定义、关系符号到词形、词性、概念类型及概念关系(5种)均细化归纳,尤其对复杂概念和复合词组的选择提出选择因素,强调复合词的专指性及构成复合词的多个中心词、多个修饰词对其造成的二义性,强调了多个单元词的概念组配原则,确定了复合词组的取舍原则,增强了标准在计算机环境下的实用性。12-19章是全新的内容,包括概念的分面分析、叙词表的数据库表示和机读显示布局、叙词表构建和维护的管理、叙词表管理软件指南、数据模型(元数据元素、关系标签等)、叙词表在检索—标引—互操作的应用集成指南、交换格式及其协议。附录为叙词表印刷版和用于数据交换的XML格式的显示实例[4]。

2.3 IFLA的《主题规范数据的功能要求》(FRSAD)草案

IFLA分类与标引分会继2008年颁布《多语种叙词表编制指南》(Guidelines for Multilingual Thesauri)进一步完善ISO 5964标准之后,2009年6月10日又颁布了《主题规范数据的功能要求》(FRSAD)草案(第2版)。该草案是从主题规范数据的用户任务出发,以FRBR的模型设计思想,设计出主题规范数据的功能要求的概念模型。该模型即将成为主题规范数据建设的规范标准,完善了《主题规范与参照款目指南》(GSARE)等规范文本。FRSAD草案认为:“潜在用户群包括:a)创建元数据的信息专家;b)咨询和公共服务馆员,以及为检索系统提供中介服务的其他信息专家;c)受控词表的编制者,比如目录、叙词表编制者和本体的构建者;d)使用信息检索系统满足信息需求的最终用户。”[5]它试图通过这个概念模型把不同用户的目的联系起来,对主题规范记录(元数据)创建者提出控制要求,在标引作品主题时,从这样一个概念模型出发,与编表的目的、使用用户的目的达成一致。因此,FRSAD的模型属于知识组织规范范畴。

该概念模型首先定义了书目主题即概念“实体”的一般框架,即可能成为书目主题研究对象的范围,包括作品本身(FRBR的第1组实体)、责任者(FRBR的第2组实体)、一般概念、物体、事件、地点(FRBR的第3组实体)。为强调书目主题可能出现的不同粒度,FRSAD选择了希腊词汇Thema来表示主题(subject、topic和concept),Nomen来表示主题的名称(name),即可能是叙词、标题词、类号、任何符号或声音、图像。其次,该概念模型对Thema和Nomen的属性进行定义并规范,即列举主题概念和名称可能包括的类型,并且列举了名称编码体系:标题表、叙词表、分类系统、名称规范列表等。再次,FRSAD模型建立了两组关系:(1)不同实体类型之间的关系:作品-THEMA和THEMA-NOMEN;(2)同一类型实体之间的关系:THEMA-THEMA和NOMEN-NOMEN。第(2)组关系包含了叙词表、标题表、分类表的所有等级关系(4种)、相关关系、等同关系,与ISO 25964-1的规定是相同的。最后,第8章对用户查找、识别、选择、探索的任务及与Thema和Nomen的属性、关系之间的联系进行说明;第9章提供了一些主题规范系统应用实例,特别强调了LCSH的FAST化(分面化)改造后的应用,介绍了FRSAD模型与SKOS、OWL数据模型的映射关系,提出主题规范数据网络发布应用以及即将成为Web开放连接数据的可行性,以及为语义网的发展作出贡献的远大理想[6]。

2.4 W3C的SKOS与OWL的颁布与修订

为实现将互联网演变成人机交互的智能网即第二代网络——语义网(Semantic Web)的目标,W3C(万维网联盟)制定了系列语义网的体系结构标准。1999年,W3C的研究小组提出了资源描述框架RDF(Resource Description Framework)的标准草案。2004年,在RDF的资源及其关系描述的语言规范基础上提出网络本体语言即OWL(Web Ontology Language)的推荐标准,通过三种表达能力递增的子语言OWL Lite、OWL DL、OWL Fun对共享概念模型的类、属性、语义关系(4种)、函数、公理、实例进行形式化规范说明,以便分别用于不同的应用环境和用户。

该标准通过6个推荐性标准文档来描述语义化本体模型和知识表述方法,包括《网络本体语言概述》、《网络本体语言指南》、《网络本体语言参考》、《网络本体语言语义与抽象语法》、《网络本体语言测试用例》、《网络本体语言应用案例和需求》[7]。W3C于2007年9月又成立了OWL工作组,从事优化和扩展OWL推荐标准的工作,2008年该工作组发布了7个公开工作草案规范,对OWL语法、理论模型以及与RDF的映射、框架、直接语义、一致性测试案例、XML联结等进行说明,形成OWL2。

2005年,W3C在RDF的基础上又提出应用于传统分类法、主题词表对网络信息组织、检索的语义表示的推荐标准:简单知识组织系统(Simple Knowledge Organization Systems,SKOS),即作为受控词表和概念框架网络语义表示的推荐标准,提出《SKOS核心名称词汇规范》。2008年至2009年3月,W3C根据征求意见多次补充更新,形成公共工作草案《SKOS参考》及其指南(《SKOS初级读本》),对制定SKOS的动机、SKOS、OWL和RDF的联系和区别、设计的基本原理和该文件的结构、SKOS空间和词汇命名(包括URI和SKOS词汇)、概念类、概念表、符号、属性、语义关系(3种)、概念集合、映射关系、相关定义、完整性注释、示例、参考文献、附录等一一规范和说明。2009年3月17日W3C发布的《SKOS参考》共定义了SKOS类或属性名称32个,包括4个类,28个属性[8-9]。

以上两个标准属于知识组织系统的数据表示或数据描述的标准,是知识组织系统网络化和网络应用或网络兼容交换的数据标准格式,也是由计算机可读数据转变为网络可读,进而为计算机可理解的数据格式。与SKOS相比,OWL应该属于知识组织系统智能化最理想和最完美的数据模型,因为它包含了形式化的推理、公理和函数表示,但同时由于它的复杂,缺少应用模型,所以对于知识获取、知识可视化、动态知识管理等实际问题没有提出相应的解决方案。

3 发展特点的比较分析

3.1 标准名称和术语概念的扩展与规范

Z39.19、BS 8723、ISO25964都相应修改标准名称,由原来的“叙词表(Thesauri)”扩大到以概念系统为基础的“受控表(Controlled Vocabularies)”或“检索用的词表(Vocabularies for Information Retrieval)”,把分类表、本体、语义网络、主题规范系统、词单、同义词环等形式均包含在知识组织标准规范内。FRSAD、SKOS与OWL在定义概念或主题的粒度(深度和广度)时,慎重选择名称,试图表达全面,包括任何粒度的主题概念。FRSAD选择希腊名称“Thema”来表示主题subject、topic和concept,SKOS与OWL在选择概念标签时也区分出概念的“类”标签和“概念”标签。

为明确知识组织标准的设计思想、目的以及应用范围,在上述每个标准中,都有大篇幅的解释和说明,概念术语的定义尤为突出,在ISO 25964-1中有62个术语被明确定义和解释。在新的技术环境下重新诠释术语,明确概念含义,如对“类组”、“客户端”、“新造词”、“受控词表”、“数据模型”、“交换格式”、“互操作”、“分面分析”、“分类法”、“检索叙词表”等易混淆的概念进行解释和定义,以便明确说明概念模型和数据模型。总之,ISO 25964是对ISO 2709和ISO 5964的继承和完善,FRSAD也是通过概念模型把主题规范记录功能明确化、形式化,是在网络环境下对《主题规范与参照款目指南》(GSARE)的完善。

3.2 概念系统模型的规范及各标识系统的互操作

以上各标准规范,无论是修订旧规范,还是进入21世纪后新建的规范,概念系统模型的控制都是各知识组织标准规范的核心问题,主要表现在概念系统与名称系统的区分控制上,并同时阐明二者间的关系。认为标识系统或编码系统或语词系统即名称系统,是对概念系统的表达,须与概念系统区别控制,也就是说人类共享的知识概念系统(包括它的要素、属性、关系)是知识组织标准规范控制的前提和核心。标识系统或编码系统或语词系统是概念系统的表现形式,可以为叙词表、知识分类表、图书分类表、标题表、本体、语义网等各编码体系,各编码体系对概念系统进行形式化的说明和表示。概念与名称或编码存在多对多的关系,在FRSAD模型中认为,Thema的粒度(深度或广度)依赖于它在一个特定系统即不同类型的知识组织系统中的名称或标识,因此,概念系统与名称系统也存在多对多的映射关系。互操作问题包括映射方法、映射技术,同样是各标准规范共同面临的问题。FRSAD还要兼顾到作品与主题间的实体映射关系。

在Z39.19、BS 8723、ISO 25964、FRSAD、SKOS、OWL的标准或规范中,对概念系统模型的控制,除了对概念或主题的粒度不控制外,对概念或主题的类型、属性、关系通过列举或划分等不同形式进行描述规范。以Z39.19、BS 8723为基础发展的ISO 25964为例,它从单语种和多语种叙词表的形式入手,以复杂概念的分解、聚合关系为切入点,提出概念间应具备的关系并逻辑划分其类型,区分为概念等级关系和概念相关关系。等级关系又区分为属种关系、整体与部分关系、实例关系、多属等级关系;相关关系包括近义概念(叠语)、相关联的同位概念、学科与其研究对象、操作或过程与其实施者或实施工具或实施对象、行为与其产物、物体或材料与其性质、因果或渊源关系、物体或过程与其反作用者、事物与其测量单位、复合概念与其核心概念或整体与部分(等级关系之外)等。与ISO 2788和ISO 5964相比,ISO 25964的关系类型划分更详细和明确,并对关系符号相应扩展,如等级关系符号:BTG、BTI、BTP、NTG、NTI、NTP、TT。FRSAD模型的THEMA-THEMA的关系与ISO 25964-1的概念关系基本相同,只是细分了多属关系,区分为多属性和并列交叉属性的两种多属关系。

名称系统模型在各标准中也同样是从名称类型(语言、语法、语词、代码等形式划分)、属性、关系方面规范模型。ISO 25964-1从多语种和单语种叙词表的角度对叙词的词性、词形、符号、专有名称给予规定,并确定了选词原则和等同关系类型,把同义词、准同义词、专指与泛指词、专指复合词与两个或以上语词组合表示的词串,作为等同关系建立的依据。FRSAD模型的名称属性类型包含的范围更宽,把文字数字、声音、图形都确定为NOMEN,NOMEN-NOMEN的关系除与ISO 25964-1相同之外,还列举一种“部分的关系(Partitive Relationship)”,相当于依赖THEMA的名称间的限定关系。

3.3 数据模型的表示

知识组织的数据模型表示是知识组织系统网络应用的基础,因此也是各标准规范重点描述的内容。以上标准都选用了以XML为基础的各种元数据模型及不同交换格式的操作协议。ISO 25964试图通过UML(统一建模语言),以DC元数据的形式来表示叙词表5类概念粒度不同的数据,充分利用关系符号和节点标签的定义建立形式化、计算机可读可理解的数据模型。FRSAD提出利用SKOS数据模型表达概念模型的兼容性和转化的简单性,也同时推荐利用OWL表达FRSAD所包含的粒度不同的概念及其关系的可行性和充分性。英美标准尤其是BS 8723对XML Schema、MARC、SKOS、Topic Map(主题图)、DTD等现有数据模型及交换格式的表示和应用进行了详细描述。SKOS和OWL是专门为知识组织系统网络化、机读化、计算机可理解化设计的网络数据模型标准,以XML为基础的RDF的应用模型,通过数据模型来表达概念模型,以标签形式把各粒度的概念及概念体系进行充分表达。

数据模型的表示在各知识组织标准中虽然都以XML为基础,但每个数据模型各有利弊,还没有一个统一的模型供推荐。各标准规范建议根据用户任务的不同和知识组织的复杂度不同选择适合的数据模型,并提供了大量案例和实例。

3.4 知识组织系统构建维护管理及应用方法

知识组织系统构建维护管理系统软件及应用方法也是各知识组织标准规范所描述的重点内容,这是知识组织系统电子化构建、网络化应用、智能化维护的前提和条件。在以上的一些标准中都用了一定的篇幅来提供电子词表的功能设计、词表管理软件、在电子环境下的显示、分面分析等诸多规范和应用方法的案例和建议,这是以前标准所没有或弱化的内容。在ISO 25964中甚至还提供了叙词表在检索—标引—互操作的应用集成指南,这是知识组织系统由知识概念的理想模型真正转变成为应用系统中知识再成长的数据模型的技术条件。

4 对我国知识组织标准规范及文献主题规范工作的影响

4.1 对我国知识组织标准规范的影响

我国知识组织规范的国家标准GB/T 13190-1991《汉语叙词表编制规则》与GB/T 15417-1994《文献多语种叙词表编制规则》都是20世纪90年代以ISO 2788和ISO 5964为参考编制和修订的,主要适用于手工编制叙词表,只是兼顾一些计算机辅助应用。因此,ISO 25964颁布后,我国这两部标准将以此为参考,从电子化、网络化词表编制及其应用着手,针对汉语特点,对语词系统、标识系统及其数据模型方面进行修订和完善,以便适应汉语或中国信息资源的知识组织系统的建设。

另外,在我国长期知识组织规范实践中,分类主题一体化结构已经渗透在各类信息的知识组织工作中,分类表的编制及应用标准也一直迫切需要,但由于缺少相对应的国际标准,我国分类法编制方面的国家标准一直未建立起来。ISO 25964和FRSAD等颁布后,同样可以它们为参考,从概念系统出发,把各类型知识组织系统的编制规范及互操作规范集成一体共同制定,以便适应分类表、叙词表、一体化词表以及多结构的简单或复杂的知识组织系统的编制及应用。

4.2 对我国文献主题规范工作的影响

我国文献主题规范工作自20世纪80年代末期恢复开始,主要以手工卡片主题目录形式建立,但进入21世纪后,主题目录很快就被OPAC主题词字典式检索系统或书目主题索引所代替,只有国家图书馆等为数不多的图书馆建立了主题规范系统(包括名称规范系统)。主题规范系统主要以《中国分类主题词表》的汉语叙词为单元建立的概念控制系统,基本符合FRSAD的THEMA-NOMEN、THEMA-THEMA、NOMEN-NOMEN语词概念模型结构,但由于缺乏与应用系统即编目系统、OPAC检索系统很好的连接控制,缺少与《中国分类主题词表》的维护系统的连接控制,使得主题规范系统及应用系统不能与《中国分类主题词表》同步更新,这将是我国主题规范系统亟待从技术层面和网络层面解决的问题。

(收稿日期:2010-04-23)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

近年来国际知识组织规范发展研究_语义分析论文
下载Doc文档

猜你喜欢