层累制分类表的SKOS化转换研究评介,本文主要内容关键词为:层累制论文,SKOS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
分类法是人类智慧的结晶,作为经典、成熟的信息组织方法,对于网络信息组织具有明显的优势,如具有较强的系统性、便于用户浏览和导航、对于非文本信息的有效组织等。为了适应电子信息资源的组织,分类法已经进行了一定的现代化改革,从最初的印刷版到机读版,以及后来的网络可浏览版到现在期待的机器可处理版。随着关联数据研究取得的巨大进步和显著成果,图书情报机构已经把叙词表等主题词表表达成为可关联数据。如何把专业分类法表达成为可利用的关联数据已经成为知识组织领域的一项重要研究内容,然而由于分类法自身的结构特性,限制了其内容的无损表达。因此,在分类表机器可处理版的转化过程中亟待解决的核心问题是在最小语义损耗和最大信息交换的前提下,如何利用SKOS来描述专业分类法。
2 相关研究
W3C于2005年提出了SKOS工作草案[1],为知识组织体系(包括叙词表、分类法、主题词表、术语表等)提供一套简单、灵活、可扩展的机器可理解的描述和转化机制,目的是为了资源的共享和重用。随后图书情报界开展了一系列的知识组织系统的SKOS描述转化研究,产生了大批的叙词表资源的描述成果:如荷兰视听档案通用词汇表(GTAA)、医学主题词表(MeSH)、美国国会图书馆标题表(LCSH)、艺术与建筑叙词表(AAT)、多语种农业叙词表(AGROVOC)以及普通多语种环境叙词表(GEMET)等[2]。
在分类表描述转换中,最成功的当属《杜威十进分类法》(简称DDC)[3]。2009年,DDC以SKOS格式发布,OCLC目前提供了前三级类号数据的开放下载。Panzer等讨论了分类表采用SKOS描述中所面临的挑战和可能的最佳描述策略,在研究中分别以《杜威十进分类法》、《中国图书馆分类法》(简称《中图法》)和《国会图书馆分类法》(简称LCC)为例讨论了采用扩展的SKOS描述层累制分类表中各部件的解决方案,同时指出SKOS描述能力的不足[4]。随后Zeng等在此基础上,提出了采用OWL2结合SKOS的方式来进行全面的包括《中图法》在内的层累制分类表的描述方案[5]。张士男等提出了《科图法》中类目、类号、关系、类目注释等的SKOS转换,但复分、仿分及附表的SKOS化转换实际上并没有得到明确解决[6]。
中国国家图书馆也在研究《中国分类主题词表》(简称《中分表》)的MARC数据向SKOS的转换[7]。刘丽斌等建立了《中分表》的SKOS描述自动转换方案[8]。这两项研究主要集中在《中分表》中第二卷主题词——分类号对应的数据转换,把分类数据仅作为skos:notation进行描述,对于《中分表》的附表部分在语义网环境下如何实现SKOS描述尚没有明确研究。Zeng等对《中分表》的SKOS转换进行了较全面的研究[9],详细讨论了分类数据和主题数据的转换方案,解决了转换过程中一对多、多对一关系的处理,同时对《中图法》数据的转换进行了研究,初步提出了交替类目、复分表和标记符号的描述策略。
SKOS在叙词表格式描述方面取得了显著的进步,然而在分类表数据转换过程中却遇到了挑战,原因有两方面:
(1)来自分类表本身,它具有极为庞大的体系结构和极为复杂的类号标记制度。
(2)来自SKOS,尽管SKOS提供了分类表的标记方式,但是其设计基本上还是支持像叙词表这样具有非显性等级体系的知识组织工具[10]。
3 分类表向SKOS格式转换中的难点
分类表同叙词表相比,在结构上和使用技术上都更加复杂。针对分类表的结构和SKOS的特性,笔者总结出目前在分类表SKOS化转换中存在的主要问题。需要指出的是这些问题有些已经得到了部分解决,有些还处于方案探索中。
(1)分类表中的语义序列
分类表中的排列序列被赋予了语义含义。这种顺序在类目的并置、主类排序以及类目中同位类的排列中尤为明显。同位类排列顺序的选择遵循基本的原理,例如,按照时间先后顺序、事物进化顺序、空间次序、逻辑次序、依存次序以及文献保障原则、用户保障原则等[11]。从另一个角度来看,标记符号同时传递了语义和序列两种含义。类号在表达语义含义的时候表示该类目所代表的主题含义,这一点在SKOS中很容易表达,而序列含义则表达了其在类表中排列的位置,同时,分类法中同位类的排列也具有良好的一致性和可预见性,这些序列含义在目前的SKOS中都无法表现出来。
(2)分类表中的标记符号
为了能够适应新主题,反映交叉学科领域的本质,层累制分类法采取多种策略来合成或者构建新的类号。例如在《中图法》中嵌入了大量的复分表和仿分表。每个分类表都有特定的标记符号构建规则,例如:
①一个合成的类号是通过主表类号+复分表类号构建而成或是从主表的某个部分仿分而来,附加类号有的在主类号尾部,有的则在主类号中间;
②根据类号合成程度的不同,有些分类表的主表、子表或个别类目提供了一些分面指示;
③从分类表中获得的标记通常都有完整的、删节的或扩展的标记符号。
与叙词表不同的是,根据规模的不同,分类符号都有不同的变种。使用者根据现实情况来决定使用何种程度的标记符号。例如,在《中图法》中,“062.32+6”中的“+”表示更加专指的扩展符号。分类表中这些复杂的标记符号扩展规则在使用SKOS描述的时候如何完整的表现是一个非常大的挑战。
(3)分类表中的注释
分类表中的类目注释是对类目的补充说明,主要对类目含义、范围及与其他类的关系进行控制。随着分类法的发展,注释日益受到重视,一些著名的分类法均加强和改进了注释的编制,像DDC的说明与注释尤为详尽。注释的功能多种多样,如指示类目含义和内容范围,**入此;指示本类目与其他类的关系,包括交替类目、参照类目等;指示分类方法,包括复分、仿分、特殊分类规则等;类目的说明修订情况等。这些注释如何在SKOS中得到合适的表达是在分类法转化中非常棘手的事情。此外,注释还带来了类名和其所涵盖的主题不一致的情况,例如,**入此,实际上该类目所涵盖的主题已经超越了类名本身所表达的语义含义,有些注释还使得类名所表达的语义减少。
(4)分类表中的相关索引
分类表中的一个重要组成部分是索引。某个特定类目的索引词通常反映了该类目范围内的几个主题。这些索引词在数量上也相当可观,例如《中图法》第四版中含有超过120 000条款目,有些索引比独立的叙词表更加复杂。一些分类法还通过与主题法结合的方式,发展了标题索引、叙词索引和关键词索引等,例如LCC配置了不少LCSH的标题,UDC不少类目编有对应的叙词表,我国也编制了《中分表》。如何把这些索引中的主题概念以合适的方式表达,或者说如何把索引中的主题概念同类表中的主题概念建立起对应关系,是分类法向SKOS格式转化过程中的又一大难题。
4 转化过程中的部分解决方案
基于SKOS模型对分类表语义信息表达能力有限的问题,如果能够最大限度地表达分类表的语义功能,需要使用扩展的SKOS为其增加描述能力。而实际上使用扩展的SKOS还不能完全解决分类表中有些问题的表达,Zeng等提出了采用0WL表达分类表[5]。SKOS在规则推理上弱于OWL,OWL-DL提供了基于逻辑描述的推理功能,如概念间的包含关系、等价关系的表达,概念一致性检验等。由于SKOS和OWL都是建立在RDF上的应用,在表达分类表时,可以加强规则推理向OWL迁移的逐步过渡方式,建立SKOS和OWL之间的映射规则,最终形成语义环境下的机器可处理的知识组织系统。
4.1 采用扩展的SKOS
(1)索引的处理
处理分类表的索引的变通做法是重新构建一个独立的概念表skos:ConceptSchema,索引中的概念可以通过建立映射关系来与主表中的概念相关(也是用skos:ConceptScheme来表达)。例如,在DDC中,616疾病大类有相关索引词Clinical medicine,转换的方法如下[9]:
skosclass:hasIndexTerm rdfs:subPropertyOf skos:closeMatch.
skosclass:isIndexTermOf rdfs:subProperryOf skos:closeMaLch;
owl:inverseOf skosclass:haslndexTerm.
<class/616/>a skos:Concept;
skosclass:hasIndexTerm <index/Clinical%20 medicine/>;
skos:inScheme <classification/>.
<index/Clinical%20 medicine/>a skos:Coneept;
skosclass:isIndexTermOf <class/616/>; skos:inScheme <index/>.
(2)注释的处理
关于分类表中各种注释含义的表达,在转换过程中有两种措施:
①使用扩展的SKOS模型,利用SKOS的扩展注释功能进一步明确概念语义,可增加skos:definition、skos:scopeNote、skos:example、skos:historyNote、skos:editorialNote以及skos:changeNote[12]。
②尝试将其他的词汇表同SKOS进行融合。SKOS的可扩展性和RDF的灵活性使得混合不同词汇表的属性成为可能。DDC在转化过程中[13],尝试将都柏林核心元数据的词汇表和SKOS进行了融合,在命名空间中冠以“ddc:”来进行类目历史注释的描述。
(3)交替类目的处理
交替类目不同于叙词表中的正式主题词和非正式主题词,因为不管是正式类目还是交替类目,它们都是具有不同语义关系的唯一概念。这就需要采取和叙词表完全不同的处理方式,建立概念的不同标签(clc:alt-Notation)来表达语义当量关系。例如,在《中图法》中交替类目的处理办法[5],如图1所示:
图1 《中图法》中交替类目的处理办法[5]
基于链公理OWL推理机可以推断,如果“环境生物学”(Q89)为交替类目,对应的类号是X17,并且X17的上位类是“环境科学——基本理论”,那么“环境生物学”的上位类为“环境科学——基本理论”。基于标记符号的这种断言,标记属性之间的语义关系就会推广使用开来。
(4)标记符号的处理
SKOS在设计之初主要用来解决具有非显性等级关系的语义类型的表达,并没有提出有关层累制分类法标记制度的解决方案。关于标记符号的处理主要涉及两方面的内容,复分表的表达问题和如何将复分表与相关类目进行关联。
通过SKOS的扩展属性实现复分表的表示。表达复分表的时候,要表达其作为一个表的顶层概念,把复分表作为一个整体而言,用skos:Collection来表示;也要表达其是整个分类表的一个组成部分,用has-TopConcept属性进行连接。然而这样做会产生一个问题就是hasTopConcept的定义域为skos:ConceptScheme,因此Panzer等提出了嵌套的方案来解决复分表成员的检索和描述等问题[4],如图2所示:
图2 采用嵌套的方式描述复分表数据模型[4]
笔者认为可以扩展SKOS的词汇表,重新定义一个与hasTopConcept类似的属性hasAuxiliaryConcept,将其定义域定义为分类表中的类目,值域定义为复分表中的成员。将复分表作为一个整体用skos:Collection来描述,通过该自定义属性来描述、封装和调用复分表。此外,标记符号还涉及到复分表存在的位置、仿分规则等,这些需要借助规则更加明确的OWL语言进行相关属性的设置才能完成。
4.2 SKOS与OWL结合
OWL2是由W3C提出并推荐的,具有OWL1(2004年提出)向后兼容的特性。OWL本体提供了类、属性、实例和数据属性。OWL1主要集中于表达类和属性。OWL2提供了属性的额外限制,属性的新特点以及属性、属性链以及核心属性之间的不兼容性。OWL本体和传统的分类表在一般特性方面存在很多共同特点,特别是在类和类间关系的表达方面。OWL2增加了新的句法功能,使得构建的模型适合表达更加复杂的实体关系。采用SKOS与OWL结合的方式,可以表达分类表在转化过程中所遇到的难题。
在OWL2中,适合表达分类表的最有用特性主要体现在[14]:
(1)OWL2支持多种方式描述类:两个或多个类的交叉或集合、类目描述的补充、属性的限制以及层累制实例的描述。
①复杂类目的表达
ObjectIntersectionOf|ObjectUnionOf|ObjectComplementOf|ObjectOneOf|
ObjectSomeValuesFrom|ObjectAllValuesFrom|ObjectHasValue|ObjectHasSelf|
ObjectMincardinality|ObjectMaxCardinality|ObjectExactcatCardinality|
②支持布尔逻辑操作。
③Object Property用来限制类目属性的表达。
④限制Object属性的基数(Cardinality)。
上述约定对各种类目的表达非常有用,不管是类表中已经存在的类目还是通过合成方法在分类过程中构建的类目。采用上述特性可以精确表达各种类目的属性关系,例如复分表的表达,通过类特性的限制可以使用来自一个或多个复分表中的附属类号,也可以使用一个类目中的仿分规则加入到其他类目的分类号表示规则中。
(2)OWL2增加了公理来表达类目之间的关系:
①SubClassOf axiom:子类表达公理,组合起来就可以表示等级体系;
②EquivalentClasses axiom:等同类目的表达公理;
③DisjointClasses axiom:相斥类目的表达公理,也就是没有相同实例类的公理表达。
通过SubClass公理的传递性来表达分类表的整个类目体系,其他的公理可用来解决一些特别类目的表达,例如“交替类目”的表达(见图1)。
(3)OWL2支持两种Object属性的表达。Inverse属性也就是反转属性,支持类目的双向关系导航的表达,例如某个类目和其相关的索引款目的表达。属性的表达可以用来表示分类表中分类号的构建规则。
4.3 转化层次问题的讨论
在分类法机器可处理化转化过程中,关于转化粒度的问题,目前不少学者正致力研究分类表的无损转化,认为这样可以最大限度地将分类表的语义信息用于机器可处理。机器可处理化的更高目标是为了机器可理解,实现资源的关联化,而图书分类法的单线归类方式虽然可以实现一些简单的知识地图功能,但并不能体现出知识间的内涵关系。作为组织文献实体的知识组织系统,文献分类法试图“大而全”地涵盖所有相关主题,这一点和以基于概念(知识)描述为基础的SKOS等知识表示语言的原理有一定的矛盾之处。
因此在转化过程中是否要对类表进行适当改造和取舍,例如对类目深度进行适当控制(通常分类法的前三级就可以用于一般的信息组织),对单一的学科划分方式做适当的分面改造等,这些都是需要进一步讨论的问题。笔者认为在机器可处理化转化过程中,构建一个可以在某种层次上重用分类表中知识的概念化模型是可行的方法。遵循“多层次策略”逐步将部分K0S采用形式化框架描述。最初构建分类表的顶层表示模型,这个模型类似分类法的简本,和全本是完全一致兼容的,但是其仅代表了分类表的最高层次,描述了分类法基本的模型化概念关系。或者考虑到今后向本体化改造以及不同分类法之间的兼容互换,在转化过程中可以对各大综合性的分类法进行归纳,构建一个顶层本体,该顶层本体关注的是基于知识(概念)的关联关系的建模,而非基于文献单元的知识模型。要转化的分类表单独被描述为一个SKOS模型,在顶层本体的关联关系中建立其与当前分类法之间的联系,不仅为今后的分类法进一步改造利用奠定良好的数据基础,也有助于不同的分类法之间能够成为机器可处理、可理解的网络资源。
5 今后的发展趋势
尽管有些分类法(例如DDC)已经初步完成了SKOS的描述,并且部分已经可开放下载,然而目前的描述层次还不能完全表达分类表所涵盖的语义信息。如果要最大限度地做到分类法的无损转换,单凭SKOS本身的功能是无法实现的,需要SKOS和具有更高推理和描述功能的语言进行结合,笔者认为在今后的发展中,分类法的描述将会向语义深化、智能化、兼容化(关联化)和本体化的方向发展。
(1)语义深化描述
分类表的复杂结构决定了目前分类表只能初步实现数据交换描述,尚有很大一部分语义信息丢失。在今后的研究中,将会侧重对分类表语义信息的深化描述。例如,在分类表中类名含义和主题信息一致性的表达,复分、仿分规则的表示等,这些都需要借助不断发展的描述语言和推理规则,逐步强化扩展的SKOS的语义表达能力。
(2)数据关联化
兼容性一直是知识组织系统发展研究中最为重视的问题。包括各种KOS资源的SKOS描述实现后,在关联化中会产生一系列融合的问题。在印刷版和电子版时代,采用各种匹配技术和语义处理技术,解决了各种知识组织系统之间的兼容互换问题[15],这些都为数据的关联化奠定了良好的理论技术基础。提供良好的接口模式、映射模式和质量评估体系等是各种K0S系统SKOS化进程中需要重点考虑和解决的问题。
(3)本体化
利用SKOS描述知识组织系统,使得已有的知识组织系统数据能够做到机器可处理是为了更高目标的机器可理解服务。分类表以及叙词表中的语义信息表述不够准确,将来要做到机器可理解,对其进行本体化是非常必要的。例如,需要将分类表中的等级关系做进一步的处理,将其中的属分关系、整部关系和集合关系进行剥离,将叙词表中的相关关系做进一步的细化。FAO研究将AGROVOC叙词表的相关关系进行细化[16],Gentax系统尝试致力于传统等级体系的逻辑化改造[17]。
6 结语
W3C在2004年发布SKOS作为知识组织系统概念框架表示的推荐标准后,已经有众多的叙词表完成了SKOS化改造,然而由于分类表自身结构的特点,使得其SKOS化遇到了众多的阻碍,把分类表放在网上用于公共获取和信息交换已经成为SKOS框架的一个挑战,如果要保持转换过程中分类表的可用性以及更多的语义信息,需要进行更多的尝试和可互操作的扩展研究。SKOS目前还处在发展阶段,关联数据等其他技术的提出都为其功能进一步完善提供了助推力。把分类表利用SKOS描述,这些数据将成为在Web上开放、共享,具有互相联系并且“可引”的网络资源数据,为Web化提供了基础数据,将会促进其从机器可处理逐步转化为机器可读的数据。分类表资源的SKOS转化对于数据共享、集成Web Service提供术语注册和术语网络服务以及扩大分类法的应用范围、推动分类表在网络信息资源组织中的作用均有着重要的意义。
(作者E-mail:helin@ njau.edu.cn)
收稿日期:2011-04-25
收修改稿日期:2011-05-23