网络知识组织系统表示语言:SKOS,本文主要内容关键词为:语言论文,组织论文,知识论文,系统论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
NKOS,即Networked Knowledge Organization System(网络知识组织系统),是指应用于网络环境下的,用于支持网络信息与知识的表示与检索等活动的知识组织系统。
KOS,即Knowledge Organization System(知识组织系统),这个术语试图涵盖各种用于组织信息、促进知识管理的框架体系①,如地名录、分类法、主题词表、叙词表、本体等。
NKOS的出现是两个方面共同作用所致:一方面,随着人类信息活动由纸制环境向电子环境转移,传统KOS的数字化、网络化势在必行;另一方面,在电子环境下,尤其是互联网时代,信息量急剧增长,需要相应的工具来辅助利用信息资源,进行信息资源的组织和检索,这也正是NKOS的主要应用方向。可以说,一方面NKOS是传统KOS的重要组成部分与分支;另一方面NKOS超越了传统的KOS,是其未来发展方向之一。
目前对于NKOS的研究主要集中在如下几个方面:NKOS自身理论的研究、NKOS表示语言标准的制定、NKOS之间的重用与映射、NKOS在网络信息组织和检索中的实际应用。目前NKOS的研究工作主要集中在国外,其中突出的是W3C以语义Web为核心的相关NKOS研究,另外许多国际会议中也设立了专门的NKOS研讨会,如ECDL②、JCDL③ 等。国内这方面起步较晚,目前主要是学习相关标准以及部分应用研究。
SKOS是W3C新近发布的一种NKOS表示语言标准,目前还处于发展阶段。在受控词表表示这个领域,长时间以来存在着多种标准,这很不利于受控词表的共享和交互。为此,W3C在2004年参考了多种现存标准后发布SKOS作为受控词表乃至概念框架表示的推荐标准,因而SKOS在促进受控词表在网络环境下的使用等方面具有非常重要的实际意义。尽管SKOS目前仍处在发展阶段,但是它的简洁、通用、易扩展、与语义web及传统图书馆学情报学联系紧密等特点,已逐渐引起人们的重视。
目前国内尚没有详细的中文资料对SKOS进行介绍,SKOS的研究尚未起步。本文旨在NKOS的背景下详细介绍SKOS,包括其核心词汇以及现有应用等。
2 NKOS及其表示:概览
2.1 NKOS的分类
由于NKOS是KOS的重要分支,传统KOS的分类体系同样可以用于划分NKOS。NKOS一般可以分为以下三个大类[1]:术语列表,强调一系列有完好定义的术语,通常不包含术语之间的关系,如规范档、术语表、字典、地名词表等;分类法,强调关于主题的集合的创建,对术语之间关系的揭示着重于属分关系,一般是树状结构的,如标题词表、分类法、专类分类法、类目结构等;关系列表,强调术语及其之间关系的多方面描述,术语之间关系的揭示不仅仅局限于用、代、属、分、参等关系,还可以包括整体部分关系、蕴含关系等多种复杂的关系,一般是网状结构的,如叙词表、语义网络和本体等。
更为严格的NKOS分类体系可以由多个纬度组成,每个纬度都表明了NKOS的某方面特性,如结构化程度、语言受控程度、描述能力、推理性能等,从结构化程度和语言受控程度两个纬度对现有的KOS进行划分,图1是目前较为公认的NKOS分类体系[2]。
2.2 NKOS的表示及其地位
NKOS的表示是NKOS体现其价值与作用的基础:如果无法以恰当的方式表达NKOS,就无法对其进行有效利用。采用何种语言是NKOS的表示中我们最为关注的问题。总的说来,现存的NKOS可以分为不同种类,现存的表示语言也有很多种;每种NKOS都有其最合适的表示语言,每种表示语言都只适合表示特定的一种或几种NKOS。最后,由于NKOS是基于网络环境的,而未来语义web的基础语言是XML,因此为了保障兼容性,合适的NKOS表示语言应当是基于XML的。
2.3 现有NKOS表示语言及其分类
根据基础不同,现有NKOS表示语言可以分为基于HTML的和基于XML的,前者多出现于网络环境早期,目前都已经鲜有应用;后者是现有NKOS表示语言的主体,也是未来的主要发展方向。基于XML的表述语言还可以进一步划分:最基本的XML系列,这些表示语言主要使用XML语言自身的功能来表示NKOS,例如DDC⑤ 的电子版就是使用XML语言书写的;基于RDF(S)⑥ 的RDF(S)系列,这些表示语言主要使用RDF(S)对于资源的描述能力,并采用RDF(S)的模型理论作为认识领域、描述领域知识的方法,如FAO⑦ 制定的FAO标准,本文所要详细介绍的SKOS也可归为这一类;进一步引入了逻辑的OWL系列,这些表示语言不但关心NKOS的表示问题,还关心如何利用NKOS进行推理,OWL⑧ 及其前身OIL⑨、DAML⑩ 都可以视为这类表示语言的代表。在这个语言体系中,SKOS处于RDF和OWL之间,它是基于RDF的但并没有严格的内在逻辑模式,而是以传统知识组织工具作为内在模式,在下面的讨论中还将详细比较几者间的差别。
下面就将对SKOS这种新兴的NKOS表示语言作详细的介绍。
3 SKOS:一种新兴的NKOS表示语言
这一部分详细介绍SKOS:由于SKOS的基础是RDF,因而首先对RDF(S)作简要说明;SKOS分为三部分,其中SKOS Core是最重要也是最成熟的,因而重点介绍SKOS Core的词汇及其使用方法;最后,由于SKOS同RDF关系紧密,与OWL在功能上有某些相似性,我们将讨论SKOS与RDF、OWL的区别与联系。
3.1 SKOS简介
SKOS(11) 是W3C在2005年制定的规范标准,目前尚处于工作草案阶段。SKOS主要用于表示各种较为简单的NKOS,如叙词表、分类法、主题词表、术语表等其他类型的概念框架,这里的概念框架被定义为“一些概念的集合,以及可选的对概念之间语义关系的声明”,因而可认为概念框架涵盖了上述除本体之外的所有NKOS。
SKOS包括三个主要部分:SKOS Core,可以用于表示除Ontology外的几乎所有其他NKOS;SKOS Mapping,用于概念框架之间的映射;SKOS Extensions,用于辅助SKOS的特定应用。其中比较成熟的是SKOS Core,已经形成了相应的语法标准和应用标准,而后两者目前还处于发展阶段,本文不过多涉及。
由于SKOS是RDF的一种应用,因而在详细介绍SKOS之前有必要简要介绍一下RDF及RDFS。RDF是W3C于1999年推出的一种数据模型,通过简单的主、谓、宾三元组模式描述网络信息资源,其最基本的构件包括资源、属性和陈述。RDF对资源的描述可以视为由节点和有向边组成的图,并可以将它解释为对于以URIref确定的网络资源的声明。RDFS是W3C在RDF的基础上推出的RDF词汇描述语言标准,主要是扩充了RDF对于资源描述的能力。RDFS对RDF的扩展使得RDF(S)能够表达领域相关的知识:RDFS定义了类、类的属性和关系、相关限制等词汇,在这些词汇基础上用户可以定义自己所需的类,创建类间关系等,从而完成对相关领域的描述。
SKOS实质上是一套词汇集,其中的词汇主要由RDFS词汇定义,因而说SKOS是RDF面向概念框架表示这个特定领域的应用。SKOS Core的词汇分为两大类:类以及属性,前者包括5个词汇,后者则包括26个词汇。根据各个词汇的功能和用途,可以将其划分为几个部分在下文进行介绍[3]。
3.2 SKOS Core核心词汇
所有SKOS Core词汇按照其功能分为8个大类[4],下面将选择比较重要的核心词汇作详细介绍。
概念。概念是SKOS最基本、最核心的词汇,它是一个类,用来声明或定义某个资源是一个概念性的资源,即是一个“概念”,如图2声明了“爱”是一个概念[12]:
标签属性。这些属性为资源添加某种标记,这些标记的作用是用自然语言或人可理解的方式描述这些资源,从而方便理解这些资源的意义。标签属性包括以下五个属性:首选标签(skos:prefLabel)、可选标签(skos:altLabel)、隐藏标签(skos:hidden-Label)、记号(skos:symbol)、首选记号(skos:prefSymbol)以及可选记号(skos:altSymbol)。首选标签是资源在给定语言下的首选的词汇标签,相当于叙词表中的叙词。可选标签是资源在给定语言下的可以选用的词汇标签,相当于叙词表中的入口词。如图3声明了一个概念的叙词是“animals”,“creature”和“fauna”都是其入口词。
隐藏标签在资源可视化展示的时候应该是隐藏的,而在进行自由文本检索的时候是可以使用的,这种标签的主要作用是标记某个词汇的常见错误拼写。记号与标签、首选记号和可选记号与首选标签和可选标签都十分类似,唯一不同的是它们使用图片标记资源。另外借助RDF及XML已用功能,SKOS还支持多语言标签,即可以使用不同种语言标记同一个概念。
语义关系属性。这些属性用于声明概念间的语义关系,包括以下四个属性:语义关系、上位类关系、下位类关系、相关关系,它们与传统图书馆学情报学中的相关概念是完全一致的。
概念框架相关词汇。通常情况下NKOS中的概念都与其他概念相联系形成一个体系,即一个概念框架。SKOS中与此相关的词汇包括:概念框架(skos:ConceptScheme)、属于框架(skos:inScheme)以及顶级概念(skos:hasTopConcept)。概念框架用来声明某个资源是一个概念框架。属于框架属性用来声明一个概念包含于一个概念框架。顶级概念属性用来声明在某个概念框架中,一个概念链的顶级概念是什么,一个概念框架可以有多个顶级概念。
主题标引属性。主题标引属性是用来定义某个资源的主题是什么,包括以下四个属性:主题(skos:subject)、是主题(skos:isSubjectOf)、首要主题(skos:primarySubject)、是首要主题(skos:isPrimarySubjectOf)。主题属性用于声明某一资源的某个主题是什么,借助这个词汇,可以使用已定义的概念标引信息资源。通常情况下信息资源会有多个主题,首要主题属性声明了该资源众多主题中哪一个是最主要的。
另外SKOS核心词汇还包括用于为所描述的概念添加人可理解的注释的文档注释属性、用于描述概念集合的概念集合相关词汇,以及将一个概念和它的供人阅读的文档联系起来的主题指示属性,限于篇幅这里不再详细介绍。
3.3 SKOS与RDF、OWL的比较
在语义web语言栈中,SKOS位于RDF和OWL之间,它们究竟有什么区别?SKOS本身是基于RDF的,它的词汇主要是由RDFS定义的,可以说SKOS是面向概念框架表示的RDF应用,因而SKOS与RDF的最本质差异在于:RDF(S)提供了一种通用的数据模型和领域描述方式,它缺乏精确的描述能力,只能表示低层次的语义,因而通常情况下需要其他辅助机制才适用于特定领域。而SKOS正是这种应用之一,它的词汇限制于概念框架表示这个领域,因而显得非常有针对性,也更有效率。SKOS和RDF以及基于RDF的其他面向领域应用,如FOAF等,可以结合使用,从而扩展SKOS的描述能力。
OWL是一种面向本体表示的NKOS语言,同样也是以RDF为基础的,但它吸收了描述逻辑作为其内在逻辑基础,因而有着强大的描述和推理能力,适用于表示复杂的本体。由于OWL本身比较复杂,使用OWL就意味着巨大的成本,况且OWL精确的描述能力在概念框架表示这个领域显得并非十分必要。SKOS相对于OWL,虽然在描述、推理性能上都有差距,但使用SKOS表示概念框架已经绰绰有余,最为重要的是它简单易用,这降低了使用SKOS的成本。可以认为SKOS和OWL是互补的,由于OWL也是基于RDF的,它们同样也可以结合使用:SKOS可以借助OWL来弥补自身的弱点,同时可以避免完全使用OWL所意味着的巨大开销。
4 SKOS的相关现有应用
由于SKOS是相对较新的一种标准,目前与SKOS相关的实际应用并不多,主要是以SKOS标准书写的受控词表,这里选择UKAT作简要的介绍。另外还将介绍SKOS API,它是一个旨在方便SKOS网络应用程序开发的应用程序接口。
4.1 UKAT
UKAT(UK Archival Thesarus),即英国档案叙词表,该词表是专门为英国档案部门编制的叙词表,它总共收录19698个词汇,所有词汇被划分8个大类83个小类。
在UKAT网站(http://www.ukat.org.uk/)上提供了在线检索和浏览服务。检索服务包括普通检索和高级检索,高级检索中可以额外选择的检索纬度包括:词汇所处的类别、词汇的来源、词汇的范围注释、词汇的状态。UKAT网站提供的浏览服务包括字顺顺序浏览以及等级结构浏览,其中等级结构浏览先在大类中选择,再选择相应的小类,之后就可以见到小类下所包含的词汇了,这些词汇还可以按照等级关系再展开。
UKAT网站还提供了免费的下载服务,在遵从一定条件的情况下可以下载SKOS Core格式的数据,其中SKOS Core格式的数据采用RDF/XML语法编码。UKAT词表本身被定义为一个概念框架,而其下的83个小类也被定义为概念框架,随后即是各个概念的定义,下面就是一例:
除了上述两个词表外,还有一些其他的概念框架,如GEMET(12)、GLC(13)、APAIS(14)、OCLC(15) 的GSADF(16) 词汇资源等都有SKOS格式的版本。但除了作为标准和表示之外,SKOS应当有着更广泛的应用。
4.2 SKOS API及其浏览客户端
SKOS API是由SWAD-Europe Thesaurus Activity(17) 发布的一个JAVA应用程序接口,旨在方便基于网络的SKOS程序开发。随后该组织还进一步发布了基于该API的示范性系统,包括DREFT示范网络服务客户端和服务器端。
SKOS API浏览客户端是英国格拉摩根大学计算机学院下一个工作组编写的基于SKOS API的实验性应用程序,通过它可以从指定的服务器上在线浏览叙词表。由于各方面的限制,这个应用程序只使用了所有SKOS API众多函数调用中的两个,因而该程序的功能比较单一,只能查看指定概念。
在SKOS API浏览客户端的用户界面中,“Concept Reference”部分中是一系列浏览过的概念,在初始状态下包含了几个默认的概念,其后用户浏览的每一个新概念都会被加到下拉菜单中。“Concept Details”部分包含三个文本框,从上到下依次来看:第一个文本框中给出了选定概念的首选词汇标签,如果有可选词汇标签的话同样也会在这个文本框中显示,但会加上方括号以示区分;第二个文本框中显示出了选定概念的定义和辖域注释;第三个文本框中按字母顺序显示出了与选定概念有语义关系的相关概念,同时也给出了相关概念的数目,但这些相关概念并没有按照语义关系进一步区分,而是将上位关系、下位关系、相关关系的所有概念一同展示出来。用户可以点击本对话框中感兴趣的概念,界面将跳转至用户选中的概念。
SKOS API浏览客户端只是基于SKOS API的一个非常简单的应用,随着SKOS研究的深入,SKOS API的将显示出更大应用价值,更为复杂的应用将逐渐出现。
5 总结
网络知识组织系统是为了解决目前基于文本检索系统进行网络信息资源组织、检索的弊端而出现的,它是传统知识组织系统的重要分支但也超越了前者。网络知识组织系统的种类和表示语言有多种,SKOS即是一种新兴的表示语言,它适用于概念框架这一类NKOS的表示,是RDF在该领域的具体应用。SKOS Core目前包括31个词汇,并可以同RDF以及其他基于RDF的词汇集混合使用。SKOS现有实际应用比较有限,UKAT等概念框架有SKOS版本,但SKOS的应用不应局限于标准和表示,而应当同其他RDF数据及应用相结合;SKOS API的出现为基于SKOS的软件开发提供了便捷之处。
SKOS针对概念框架的表示这一具体应用领域,提供了统一的表示标准,而且SKOS简洁、通用、易扩展,且与语义web以及传统图书情报学领域有着紧密的联系,这都将大大促进概念框架这类NKOS的创建、应用、共享,从而在一定程度上解决网络信息的组织、检索问题。但另一方面,SKOS整体还处于工作草案阶段,因而目前还存在一定不足。
在NKOS领域,下一步主要的研究方向可能在NKOS实际应用的相关方向,例如NKOS的半自动构件和维护、NKOS辅助信息资源组织检索;而SKOS下一步的主要研究方向还是其自身的完善问题,如SKOS相关标准的制定、SKOS相关软件的开发、SKOS与其他RDF应用的集成等。
注释:
①这里采用了Networked Knowledge Organization System工作组在其创始会议,即ACM Digital Libraries' 98 Conference中制定的定义
②European Conference on Research and Advanced Technology for Digital Libraries
③Joint Conference on Digital Libraries
④本图引自文献[2],在其基础上进行了一定的修改
⑤Dewey Decimal Classification,杜威十进分类法
⑥RDF:Recourse Description Framework,资源描述框架,http://www.w3.org/RDF/; RDFS:Recourse Description Framework Schema,资源描述框架模式,这里RDF(S)意思是RDF和RDFS
⑦Food and Agriculture Organization of the United Nations,http://www.fao.org/
⑧Web Ontology Language,网络本体语言,http://www.w3.org/2004/OWL/
⑨Ontology Interchange Language/Ontology Inference Layer,本体互换语言/本体推理层,http://www.ontoknowledge.org/oil
⑩DARPA Agent Markup Language,DARPA标记语言,http://www.daml.org
(11)Simple Knowledge Organization System,简单知识组织系统,http://www.w3.org/2004/02/skos/
(12)GEneral Multilingual Environmental Thesaurus,通用多语言环境叙词表,http://www.eionet.eu.int/GEMET
(13)Government Category List,SKOS格式数据可从http://isegserv.itd.rl.ac.uk/skos/gcl/获取
(14)Australian Public Affairs Information Service,SKOS格式数据可从http://isegserv.itd.rl.ac.uk/skos/apais/获取
(15)Online Computer Library Center,http://www.oclc.org/default.htm
(16)Guidelines on Subject Access to Individual Works of Fiction,Drama,etc,http://www.oclc.org/research/projects/termservices/resources/gsafd.htm
(17)http://www.w3.org/2001/sw/Europe/reports/thes/