OTCSS关联数据服务的研究与实现_xml格式论文

OTCSS关联数据服务的研究与实现,本文主要内容关键词为:数据论文,OTCSS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G250.73 TP393.4 收修改稿日期:2012-08-15

1 引言

Linked Data是一个较新的研究课题,近年来逐渐引起学术界和工业界的广泛关注。国外在这方面的研究和应用稍早,已在许多领域崭露头角并取得不少成果,例如瑞典国家图书馆LIBRIS国家书目关联数据[1]、美国国会图书馆关联数据服务[2]以及英国BBC网站的关联数据服务[3]等。自2008年以来,国内有关Linked Data的研究逐渐热门起来,但目前公开可获取的研究资料大部分属于关联数据报告、综述及应用展望论文,较少涉及技术实践问题,还未见公开发布的Linked Data服务。

本文以《中国分类主题词表》(Chinese Classified Thesaurus,CCT)为实验源数据,根据Linked Data基本原则和相关技术,在深圳大学图书馆NKOS研究室相关研究成果及国家图书馆知识组织标准规范草案[4,5]的基础上,构建和发布了CCT的Linked Data实验性服务。

本文的主要目的在于:

(1)以国外已有的NKOS关联数据应用为参考,提出图书馆的传统中文KOS Linked Data化的一种实现途径;

(2)验证在版权机构许可下或帮助版权机构构建和发布它们的关联数据的可行性;

(3)尝试在国内开放实验性的关联数据服务,并留有链接不同机构的关联数据和不同来源数据集的空间;

(4)为国内相对封闭的图书馆数据实现从文献Web向数据Web的转变提供实验性的探索和实验数据,以更好地发挥图书馆在网络时代传播知识的职能。

2 关联数据简介

2.1 关联数据原则

2006年,Berners-Lee[6]提出关联数据这一概念时,详细阐述了关联数据的4个基本原则:

(1)使用URI作为事物的标识名称(Use URIs as names for things)。

(2)使用HTTP URI使人们可以访问这些标识名称(Use HTTP URIs so that people can look up those names)。

(3)当有人访问某个标识名称时,使用RDF、SPARQL等标准,提供有用的信息(When someone looks up a URI,provide useful information,using the standards(RDF*,SPARQL))。

(4)尽可能提供相关的URI链接(即属性资源描述),以使人们可以发现更多的事物(Include links to other URIs,so that they can discover more things)。

从以上原则可以看出,Linked Data使用HTTP URIs对资源进行标识,HTTP协议对资源进行检索和传输,RDF对资源进行描述,因此HTTP、URI和RDF一起构成了Linked Data的基础,下面分别对此进行简要介绍。

2.2 关联数据技术体系

(1)资源与资源标识

资源:在发布关联数据之前,首先需要确定所发布的资源是什么。任何事物,只要被认为是有发布意义的,或者有被引用的价值,都可以称为资源,如文档、图片、馆藏书目、叙词概念、分类号等。

资源标识:任何资源都可用一个HTTP URI来标识。之所以使用HTTP URI来标识,是希望数据能够通过HTTP协议传输,真正实现基于Web的访问与互联。

URI规定用ASCII字符作为资源标识符的符号,这不利于非英语国家和地区的使用者。因此,本文采用引入了Unicode字符的资源标识符,即国际化资源标识符(Internationalized Resource Identifiers,IRI)[7],它是URI的扩展,包括了所有语种的文字字符,OWL2推荐标准已采用IRI作为资源名称的唯一标识[8]。显然中文知识组织系统也适合使用IRI作为资源标识符。

(2)资源描述与关联

资源描述框架[9](Resource Description Framework,RDF)是基于主体-谓词-客体三元组结构的机器可理解可处理的模型。主体表示需要描述的资源,谓词表示主体的某个属性或关系,客体表示属性或关系的值。主体、谓词都需要用HTTP URI来表示,客体可用HTTP URI标识另一资源,也可以是字符串表示的纯文本。主体可看作是类资源,谓词可看作是类资源的属性资源,客体是类资源或文字型资源。根据RDF模型中客体的种类,可以将三元组分为两类[10]:文字型三元组,表示类资源与文字型资源的关联;RDF Links型三元组,表示类资源之间的关联。

RDF Links表现为三元组的形式,由三个URI引用组成,属性资源成为不同资源之间实现关联的桥梁,因此根据Linked Data的原则(4),如需使人们发现更多资源,应尽可能多地提供属性资源的描述,即提供更多RDF Links,让更多的资源或数据关联起来。RDF Links的例子如图1所示。

图1 RDF Links资源描述

(3)资源检索

人们可通过HTTP/URI机制,直接检索获得资源(Thing)的信息,实现一种Web上的富链接机制,即将超文本链接(文件之间的链接)转变为超数据链接(资源之间的链接)。

HTTP通信协议允许通过URIs使数据从Web的服务器传送到浏览器,因此HTTP成为Linked Data一种简单而通用的检索机制,该方式不仅可以检索网络上的数字资源,还可以检索那些自身无法通过HTTP在网络上传输的实体的描述[11,12]。一般可通过以下三种方式从网络获取Linked Data:提供HTTP URIs参引;使用SPARQL本体查询语言;提供多种共享格式的下载[10,13]。

3 LCSH的Linked Data服务介绍

《美国国会图书馆标题表》(Library of Congress Subject Headings,LCSH)是目前世界上使用时间最长、使用范围最广、规模和影响最大的一部综合性标题表。LCSH含有26.5万条规范记录,传统上以MARC21格式进行发布。2006年国会图书馆开始探索LCSH/MARC向SKOS的转换,目前已成功地在Web上发布了LCSH/SKOS版本,提供Linked Data服务、SKOS版本下载服务、SPARQL查询服务等[14]。

LCSH的Linked Data发布网址为http://id.loc.gov/authorities/(后改为http://id.loc.gov/),其Linked Data提供的服务主要有:

(1)使用HTTP URI作为对象的唯一标识(如“http://id.loc.gov/authorities/sh85054367#concept”唯一标识标目“German language-Old High German,750-1050-Etymology”),通过HTTP URI可以定位到具体的对象,如图2所示;

图2 LCSH Linked Data服务

(2)通过查询对象的URI,可以提供很多有意义的信息,如该标目的款目信息(Alternate Labels、Broader Terms、Narrower Terms、Related Terms、Created、Modified、Editorial Notes、Sources等)以及URI、Type、Instance Of、Alternate Formats等信息;

(3)在Alternate Formats中提供RDF/XML、N-Triples和JSON等多种格式的下载或在线浏览;

(4)提供到其他词表中相似概念的关联(Similar concepts from other vocabularies);

(5)提供可视化展示和用户建议功能。

LCSH Linked Data服务是目前国际上词表系统关联数据应用的代表。同为词表,传统中文叙词表(如CCT)与LCSH可提供信息的项目是类似的,因此本研究刻意模仿了LCSH Linked Data服务的界面,以便更容易被业内人士所接受。但中文叙词表和LCSH毕竟是两种词表,它们的结构和服务对象都有所不同,因此本文所采用的URI方案、提供的下载格式的表示方法和种类以及检索结果的展示等都是从我国的具体情况出发而设计的。本研究在OTCSS原有实现技术的基础上,遵循关联数据创建的4个原则,实现了OTCSS Linked Data服务。

4 OTCSS Linked Data的实现

OTCSS Linked Data服务的具体实现方法包括以下4个方面:

(1)准备数据源:本文的关联数据实验数据源以目前中国图书馆界应用最为广泛的综合性词表《中国分类主题词表》为例。中文叙词表本体(OntoThesaurus)和中文叙词表本体共建共享系统(OTCSS)[15]是国家社会科学基金项目“基于本体和知识集成实现中文叙词表的升级、共享和动态完善”(项目编号:05CTQ001)的研究成果,OntoThesaurus是在中文叙词表的基础上通过引入本体相关理论和技术构建而成,在其基础上已实现了较为完备的OTCSS,功能包括:从中文叙词表到OntoThesaurus的自动转换功能、一致性检测推理功能、网络术语服务功能(供人使用的OntoThesaurus-TS和供应用程序使用的Web Service OntoThesaurus-API),以及全面深入的网络共建功能(用户界面+修订专家界面)[15,16]。本文的Linked Data源直接从已有的研究成果OntoThesaurus中获取。

(2)URI方案:为中文叙词表本体所有叙词概念款目中的主体、谓词和客体分配唯一的URI(文字型三元组的客体除外),这里采用引入了Unicode字符的URI即IRI来描述包含中文字符的资源,已通过实验证明其可行性。

URI的解决方案有两种,它们都可以满足标识真实世界任何实体对象甚至抽象概念或不存在的事物的要求,即303 URIs和Hash URIs,使用哪一种可根据用户的实际需求做出选择,文献[17]详细介绍了这两者的具体情况。

具体词表的URI表示方案应由版权机构来制定,笔者可以帮助词表的版权机构制定并实现URI方案。作为一项实验性的研究,这里以《中国分类主题词表》(一版)为例,暂时采用“http://nkos.lib.szu.edu.cn/CCT_CT_V1.0#叙词概念”作为其叙词概念的URI方案,即Hash URIs方案,例如叙词“中越关系”的URI是“http://nkos.lib.szu.edu.cn/CCT_CT_V1.0#中越关系”。

(3)关联实现:Linked Data的关键在于RDFLinks,价值在于支持结构化数据的语义互联,通过“链”实现在不同资源之间的导航。对于中文叙词表本体所有叙词概念款目中的每个三元组,通过RDFLinks即表示谓词的URI,将表示主体的URI指向表示客体的URI或文字,如图1所示,可点击主体的关联对象链接查询客体详情实现数据的发现。目前主流的浏览器(例如IE)对于包含#号的URI的处理仅仅是为了使用锚进行页面内的定位,还无法直接实现LinkedData资源导航,虽已有个别浏览器(例如Firefox)通过开发插件的方式可以实现,但需要针对不同的浏览器开发相应的插件兼容所有浏览器,这增加了实现的难度和复杂度。鉴于上述情况,本文采用URL地址重写技术实现Linked Data资源导航,即Linked Data中所有对象通过URL地址重写链接到其具体内容。

(4)Linked Data发布:为了拥有良好的用户体验,帮助非业内人士使用,本文发布的Linked Data服务不仅提供供人浏览的HTML展示页面,还提供供机器和应用程序使用的各种数据模型(即9种共享格式)。

5 OTCSS Linked Data服务的功能及具体使用方法

5.1 OTCSS Linked Data服务的功能

OTCSS Linked Data服务提供的功能如图3所示。

图3 OTCSS Linked Data服务

(1)为中文叙词表本体的所有叙词概念(即所要发布的资源)提供HTTP URI,以此作为叙词概念的唯一标识,通过此HTTP URI可以定位到具体的叙词概念;

(2)提供地址栏和检索框两种方式输入URI或叙词概念的名称查询关联数据,叙词款目的展示提供专业显示和通俗显示两种方式;

(3)通过查询对象的URI,可以提供该对象的很多有意义的信息(关联对象),如叙词款目信息(拼音、中图法分类号、入口词、英译名、上位词、下位词、相关词、族首词等)以及URI、可选格式等信息,并可通过关联对象的RDF Links查询其详情;

(4)在可选格式中提供RDF/XML、N-Triples和JSON格式(这三种格式又分为OntoThesaurus、CNKOS、SKOS三种不同描述格式,共9种格式)的下载或在线浏览;

(5)未来可提供到其他词表相似概念的关联(如到中图法分类号对应类目的映射链接);

(6)可视化展示和一些其他属性的关联正在建设中。提交用户建议等共建功能则通过OntoThesaurus-TS[15]的界面进行。

比较LCSH Linked Data和OTCSS Linked Data,前者选择的是303 URIs方案,后者选择的Hash URIs方案,两者提供的共享格式表示方法和种类有所不同。此外,后者的检索结果界面保留了传统的叙词款目格式,并扩展了通俗显示格式,以满足业内外人士的使用需求。LCSH Linked Data为网络资源利用LCSH建立资源之间的直接联系、使主题数据机读化、Web化提供了一个很好的基础[18]。希望OTCSS Linked Data方案也能促进我国的传统知识组织系统达到同样的目标。

5.2 OTCSS Linked Data使用方法

实验系统于2011年1月实现并发布,登录地址:http://nkos.lib.szu.edu.cn/CCT_CT_V1.0。网络用户无需注册登录就可以直接检索中文叙词表本体中的所有叙词概念。

(1)用户可以通过两种方式查询叙词概念

①在图3所示界面的检索框中输入任意叙词概念,点击检索按钮,出现该叙词概念的所有相关信息,并且地址栏中的URI也相应变化。

②从URL地址栏中输入叙词概念的URI,例如输入“http://nkos.1ib.szu.edu.cn:/CCT_CT_V1.0#中越关系”后回车(需刷新页面),出现如图3所示界面,其中检索输入框中也自动填入“中越关系”。

(2)用户可以根据喜好选择通俗或者专业两种方式来显示叙词款目;

(3)点击页面中叙词款目中的超链接,如“中外关系”,页面的所有信息也相应地变化,URL地址栏中出现“http://nkos.lib.szu.edu.cn:/CCT_CT_V1.0#中外关系”,检索输入框中自动填入“中外关系”;

(4)页面中的URI显示的是叙词概念的URI,即地址栏URL中和检索框中输入的是叙词概念的入口词;

(5)用户可以点击页面的9种格式超链接来下载叙词款目信息语义描述的不同文本。

5.3 共享格式的下载

LCSH Linked Data服务规范标目的可选格式提供RDF/XML、N-Triples、JSON等多种共享格式。本文根据中文叙词表本体的特点和已有的NKOS语义描述研究成果,将这三种格式又分别细分为三种格式,即针对RDF/XML、N-Triples、JSON格式,将它们分别通过OntoThesaurus、CNKOS、SKOS三种语义描述格式来表示(这三种格式在指定条件下可以实现相互之间的转换)。

SKOS(简单知识组织系统)[19,20]为知识组织系统在Web上的共享和链接提供了一个通用的数据模型。SKOS Reference 20090818已成为W3C的正式推荐标准。SKOS的定义有较大的弹性,是基于RDF的非严格意义上的形式化语言,以容纳结构较为松散的KOS。其数据模型与OWL Full兼容,有较好的表达性,但与OWL DL不兼容,不具备完备的推理性能。

本研究依据的是国家图书馆制定的“受控表语义描述规范”[4],其中对中文叙词表(主题词表)的SKOS描述方法进行了具体的规定。只采用SKOS来描述中文叙词表会丢失一些语义信息。

CNKOS[4,5]是国家图书馆正在制定的一种面向国内传统知识组织系统(如主题词表、分类法等受控表)的语义描述规范格式,它在SKOS基础上扩展了CKOS词汇,以期实现我国传统知识组织系统的全描述。该规范已通过国家图书馆组织的终审验收。本实验研究的其中一个目标就是验证其URI方案和语义描述方法的可行性,为将来的支持系统实现提供更多的经验。

OntoThesaurus设计用来表示结构规范的中文叙词表(主题词表),以实现其本体化升级和在语义Web环境中的共享应用和网络化共建,可视为OWL在中文叙词表领域的一个应用子集。简化后也可用于中文规范档、专业分类表(Taxonomy)等KOS类型的语义描述。采用OWL DL,可实现完备的推理[16]。其命名域为http://nkos.lib.szu.edu.cn/2010/10/ont/,缩写为“ont”。

OTCSS Linked Data服务采用以上三种语义描述格式,前两种依据的是国家图书馆知识组织标准规范D009-3[4,5]和D009-4报告,后者依据的是中文叙词表本体OntoThesaurus词汇表[21]。它们的形式化程度由低到高,可以满足不同的语义描述需求,在指定的条件下也可以实现相互之间的转换。

RDF/XML是W3C推荐使用的RDF的XML序列(Serialization),术语注册中心一般要求以RDF/XML文件格式提交所要注册的术语集合。图4至图6分别对应RDF/XML的三种格式,即RDF/XML(OntoThesaurus)、RDF/XML(CNKOS)、RDF/XML(SKOS)。这些格式都是机器可理解的。

图4 RDF/XML(OntoThesaurus)

N-Triples[22]是W3C开发的一种面向行的RDF序列句法。它展示三元组三个组成部分的完整URI,即“<主体URI><谓词URI><客体URI>”,禁止相对URI的引用。如果客体是文字,则表示为用引号括起来的字符串。

图7至图9分别对应N-Triples的三种格式,即N-Triples(OntoThesaurus)、N-Triples(CNKOS)、N-Triples(SKOS)。

图5 RDF/XML(CNKOS)

图6 RDF/XML(SKOS)

图7 N-Triples(Onto Thesaurus)

图8 N-Triples(CNKOS)

图9 N-Triples(SKOS)

图10 JSON(OntoThesaurus)

图11 JSON(CNKOS)

图12 JSON(SKOS)

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,也易于机器解析和生成。JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C、C++、C#、Java、JavaScript、Perl、Python等)。这些特性使JSON成为理想的数据交换语言[23]。

图10至图12分别对应JSON的三种格式,即JSON(OntoThesaurus)、JSON(CNKOS)、JSON(SKOS)。

6 结语

本文以在《中国分类主题词表》一版数据基础上建立的CCT1_OTCSS为例,构建和发布了Linked Data服务,详细说明可以参见深圳大学图书馆NKOS研究室网站2011年6月刊出的“OTCSS Linked Data服务”[24],并欢迎登录网站[25]进行实时测试。这是一项实验性的研究,URI暂定,笔者希望通过实践来验证URI方案和语义描述规范的可行性。

目前已有的实践证明,这套Linked Data服务解决方案是可行的,可以投入使用。目前国内已有的130余部中文叙词表均可依此方法完成相应的部署。

随着研究的深入,笔者将开发更多的关联数据服务功能。如叙词概念的其他一些属性的关联及可视化、分类法关联数据服务、馆藏书目关联数据服务以及馆藏书目关联数据到传统知识组织系统(如《中国分类主题词表》、《中图法》等)的关联。

标签:;  ;  ;  ;  

OTCSS关联数据服务的研究与实现_xml格式论文
下载Doc文档

猜你喜欢