基于SKOS的网络信息资源主题标引,本文主要内容关键词为:信息资源论文,主题论文,网络论文,SKOS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
SKOS作为一种NKOS表示语言标准,受益于多方面,它提供一套简单、灵活、可扩展的机器可理解的描述和转化机制,与传统图书馆学情报学及语义Web联系紧密,利用它进行主题标引,将促进网络信息资源的组织与获取。
1 网络信息资源描述语言的类型与发展
1.1 NKOS的出现
知识组织系统(Knowledge Organization System,简称为KOS)是指用以组织信息并推动知识管理的各种系统。它既包括组织一般资料(如书架上的图书)的分类表,提供更多详细检索点的标题表,以及规范地名、人名等不同表达形式的规范档;又包括语义网络和本体等一些非传统的系统。KOS主要用来组织资源以提供检索,并达到管理多载体资源的目的。无论用户直接浏览网页上的主题还是通过搜索引擎直接检索KOS,都能发现资源,而且允许资源管理者根据馆藏资源范围对用户的需求做出回应。随着人类信息活动向电子环境转移,传统KOS的数字化、网络化势在必行;同时,信息量急剧增长,需要相应的工具来辅助利用信息资源,进行信息资源的组织和检索。在这种情况下,网络知识组织系统(Networked Knowledge Organization System,简称为NKOS)应运而生。NKOS是指应用于网络环境下的,用于支持网络信息与知识的表示与检索等活动的知识组织系统。
1.2 NKOS的描述语言
NKOS的资源描述语言可以分为基于HTML的和基于XML的,前者多出现于网络环境早期,目前已经很少应用;后者是现有NKOS表示语言的主体,也是未来的主要发展方向。基于XML的表述语言还可以进一步划分:最基本的XML系列,这些表示语言主要使用XML语言自身的功能来表示NKOS,例如DDC的电子版就是使用XML语言书写的;基于RDF的RDF(S)系列,这些表示语言主要使用RDF(S)对于资源的描述能力,并采用RDF(S)的模型理论作为认识领域、描述领域知识的方法,如FAO制定的FAO标准;进一步引入了逻辑的OWL系列,这些表示语言不但关心NKOS的表示问题,还关心如何利用NKOS进行推理,OWL及其前身OIL、DAML都可以视为这类表示语言的代表。
Web是人们获得信息资源的重要渠道,语义Web构架的实现需要有语义统一的领域知识本体,并为Web资源进行明确的语义标注,而这些元数据的产生和准确性将是语义Web能否实现的关键。本体描述语言OWL在RDF的基础上增强了语义描述能力,能够定义更加复杂的概念结构,并具备了一定的知识推理能力。但构建基于OWL的领域知识本体是一项代价昂贵、复杂度相当高的工程,所以,急需一种简单可行的知识管理方案能够解决语义Web中的元数据问题,并能很好地实现在DC:Subject元素上与都柏林元数据的衔接。简单的知识组织系统(Simple Knowledge Organization System,简称SKOS)正是在这种情况下产生的,它提供了指示内容的主题问题的标准。
2 SKOS的内涵及特点
2.1 SKOS的概念
简单知识组织表述语言是以资源描述框架(RDF)为基础,是用来表述规范词表(如分类表、主题表、术语表等)中的基本结构和概念词表内容的格式语言。SKOS是W3C语义网最佳实践及部署工作小组于2004年公布的工作草案。该草案主要提供了对叙词表、分类法、主题列表、术语等受控词表的知识管理及语义处理方案。叙词表、分类法、术语等受控词表广泛应用于传统的情报信息检索领域,通过SKOS描述语言,受控词表将转换为与RDF、OWL兼容的概念模型,词表中的词汇对应转换为SKOS模型中的具体概念,并实现语义网中与其他RDF数据的合并与融合,从而实现真正意义上的资源共享。与OWL本体描述语言相比,SKOS语言是一种更简单又易于扩展的知识结构描述语言。
2.2 SKOS的内容结构
2.2.1 SKOS的主要内容
SKOS主要包括三个部分:SKOS Core,可以用于表示除Ontology外的几乎所有其他NKOS;SKOS Mapping,用于概念框架之间的映射;SKOS Extensions,用于辅助SKOS的特定应用。其中比较成熟的是SKOS Core,已经形成了相应的语法标准和应用标准,这是主题标引的依据。SKOS Core词汇主要包括:(1)概念。概念是SKOS最基本、最核心的词汇,它是一个类,用来声明或定义某个资源是一个概念性的资源;(2)标签属性。该属性为资源添加某种标记,标记的作用是用自然语言或人可理解的方式描述资源。标签属性包括:skos:prefLabel、skos:altLabel、skos:hidden2Label、skos:symbol、skos:pref2Symbol、skos:alt Symbol;(3)语义关系属性。该属性用于声明概念间的语义关系;(4)概念框架相关词汇。一般情况下NKOS中的概念都与其他概念相联系形成一个体系,即一个概念框架。SKOS中与此相关的词汇包括:skos:Concept Scheme、skos:inScheme、skos:hasTopConcept;(5)主题标引属性。主题标引属性是用来定义某个资源的主题是什么,它包括以下四个属性:skos:subject、skos:isSubjectOf、skos:primarySubject、skos:isPrima2rySubjectOf。主题属性用于声明某一资源的某个主题是什么,借助这个词汇,可以使用已定义的概念标引信息资源。通常情况下信息资源会有多个主题,首要主题属性声明了该资源的多主题中哪一个是最主要的。
2.2.2 SKOS的结构
图1 基于SKOS的汉语主题词表RDF图
SKOS Core提供表达概念模型(concept schemes)的基本结构及内容。概念模型表示概念及其概念之间的语义关系。SKOS Core词汇是由一系列RDF属性及其RDF类构成,并用RDF图式来表达概念模型的内容及结构,如图1所示。上面是选自汉语主题词表中“机动航天器”术语及其他术语之间关系的显示,右边则采用RDF图形式对它们进行描述。
2.3 SKOS的扩展性
由于SKOS词汇的有限性,需要借助RDF词汇对它进行扩展。当前主要结合FOAF、DC元数据的使用来扩展其功能,为其成为受控词汇的潜在的标准描述框架提供可能。FOAF描述人、机构等所特有的姓名、主页等信息,并通过参照指针将多个文档建立链接,以RDF/OWL语言建立计算机可读的信息。SKOS能够将叙词表中的术语通过FOAF词汇建立与其他文档的连接,同时通过相互子类及子属性定义方式建立与DC元数据之间的映射。比如SKOS:concept作为dc:subject属性的描述对象,skos:subject可定义为dc:subject的子属性。这样既可以完整地描述网络资源创建者、出版者等机构或人的详细信息,弥补DC元数据dc:creator属性描述的缺陷,又可采用叙词表的规范术语对资源的主题进行准确描述,并建立与其他文档的联系。如叙词表中的术语http://www.Example.com/concepts#henry8是由Alistair Miles提出,并于2005年2月6日修订,这一主题信息则描述如下:
3 SKOS在主题标引中的应用
3.1 SKOS用于主题标引的可行性
主题标引属性是SKOS Core词汇的重要属性之一,因此,SKOS提供了指示内容的主题问题的标准。SKOS允许定义具体主题问题范围的主题,还可以根据需要把这些主题组织成分类系统,然后对每部分内容进行分类,指出它的主题。例如,使用SKOS,可以把配置和安全定义成主题,然后把三个与这些主题有关的示例题目归到这个主题,这样用户可以浏览主题,不论在文本是否确实出现“配置”或“安全”这两个单词,都可以找到内容。前面已分析SKOS是用资源描述框架(RDF)表示的,RDF是语义Web的基础语言,然而,SKOS提供了专为可读内容设计的更高层次的语言。SKOS受益于很多方面,包括OWL/RDF、TopicMaps、存在主义和图书馆科学方面的专家。在标准的谱系中,SKOS的作用是衔接传统的索引和语言Web的正式本体。
SKOS用概念(concept)这个标签表示这些正式主题。正式主题通常是由已经公布的信息集中的术语表题目或其他题目定义的。TopicMaps社区很久以来就认识到了这类权威的定义资源,并将其命名为公布的主题指标(published subject indicators)。例如,应用程序服务器产品的文档通常会把主题定义在重要的主题领域内。即使在公布的信息中不包含主题定义,也可以把标准的内容工具用于主题定义。例如,可以用XML编辑器编写主题定义,然后把主题定义与内容一起在内容管理中进行归档或在版本控制系统中管理版本。还可以使用现有的格式化处理,生成供作者使用的主题定义的目录——也就是说,不必为主题定义单独实现一套编写和处理系统。主题分类与导航组织一样,也是内容信息架构的很大一部分。所以,信息架构师与其苛求语义相对于事实的精确性,不如通过对内容涉及的主题提供正式定义,推出更好的内容,并指导内容的创建。对此,用SKOS表达,在运行时对主题进行处理,更能体现具体的主题问题。
3.2 SKOS的具体应用
SKOS的出现为网络环境下的叙词表数据共享和使用带来新的选择。目前,一些网络叙词表也适时地采用SKOS对原有叙词表数据资源进行再组织和描述。GEMET(General Multilingual Environmental Thesaurus,通用多语言环境信息表)和UKAT(UK Archival Thesaurus,英国档案叙词表)等都提供基于SKOS描述的数据交换格式,通过网络提供免费下载和使用服务。SKOS词汇有两对属性(Property)可以对Web资源进行主题标引,即Skos:subject和skos:isSubjectOf,skos:PrimarySubject和skos:isPrimarySubjectOf。skos:subject属性用于标引Web资源的主题概念,如果该资源对应多个主题,skos:Primary Subject属性将标引出该资源的关键主题(最多一个)。下面采用叙词表中的“哲学”术语表示“中国人民大学哲学在线网页”的主题。
4 结束语
在语义Web环境下,语义网的关键元素是使用本体来定义主题概念及其关系,通过本体提供数据的上下文环境,信息检索及搜索引擎能够利用这些上下文信息来执行基于主题概念的语义搜索,同时本体所获得的丰富语义能够将简单事实合并,推理出新事实,并推导出本体所隐含的知识主题。SKOS是一种新兴的网络资源表示语言,它适用于NKOS主题概念内容的表示,是RDF在该领域的具体应用。SKOS的简洁、通用、易扩展的特性能为叙词表的形式化表达提供概念模型,将在一定程度上解决网络信息的组织、检索问题,从而真正实现语义Web中资源的语义共享和语义互操作。