图书馆关联数据孵化小组使命、活动及成果分析,本文主要内容关键词为:使命论文,图书馆论文,小组论文,成果论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G250 修回日期:2011-12-06
1 引言
关联数据(linked data)技术作为一种新的语义发布工具,是目前数字资源揭示和利用的一项重要技术,其在整合孤立的数据、提供开放的元数据服务、实现语义互操作、实现数据的Web服务等方面具有广阔的应用前景。鉴于此,2010年5月21日Tom Baker(DCMI技术应用的倡导者)、Emmanuelle Bermes和Antoine Isaac牵头成立了W3C图书馆关联数据孵化小组(LLD XG)[1-2](下文简称“小组”),目的是推动关联数据技术的应用。小组参与者来自23个机构共51人,其中特邀专家13人,凝聚了图书馆、博物馆、档案馆、出版业等相关领域关联数据技术先锋[3]。自成立之日起,小组就确定自己的使命是通过带动更多的图书馆及相关领域的人参与语义网活动,特别是关注关联数据技术,应用现有的技术成果(如元数据模型、元数据模式、互操作标准与协议等),共同探讨关联数据技术应用的可能性和巨大潜力,帮助图书馆将有价值的数据(如书目数据、规范文档、概念模型等)发布到互联网中,实现同其他机构数据之间的互操作。为完成使命,小组开展了一系列活动,包括:①收集图书馆及相关领域应用关联数据技术比较成功的用例(use cases)并进行分析研究;②培养图书馆、档案馆、出版业等行业在发布关联数据方面的协作关系;③确定可实现语义互操作的数据模型、词表和本体等;④确定新标准和最佳实践模型;⑤确定发布关联数据的相关语义网技术;⑥提出未来接替小组工作的组织及其工作内容。
直至2011年8月31日小组解散,小组取得的主要成果包括:①制定小组最终报告;②收集用例并进行分析研究;③确定可用的关联资源(如数据模型、词表、本体等);④总结开展关联数据活动相关的技术。本文以关联数据用例分析为基础,着重分析小组取得的重要成果。
2 用例收集与分析
小组收集了50多个图书馆及相关领域应用关联数据技术比较成功的50多个用例,并对其进行了分析研究,内容涉及书目数据、规范控制、词汇匹配、档案数据、参考引文、数字对象、资源集合、社会性应用等8类[4]。同一类别的用例具有某些共同特征,以“书目数据”为例,其共同特征是书目元素的语义标准化、删除冗余统一记录、整合跨数据库的元数据检索界面、书目记录的注释等,如表1所示:
这些用例详细阐述如何应用“关联数据原则”描述图书馆及相关领域未来关联数据技术的应用前景,明确最佳用例和应用标准。每个用例的基本内容包括背景及现状、实现目标、关联数据技术在用例中的应用、用例的情景描述、相关词汇、面临的挑战等。用例收集与分析是小组活动的起点,是其他活动成果的基础。以小组最终报告为例,用例的收集与分析为小组最终报告的撰写奠定了基础,如用例中背景及现状的分析是撰写关联数据应用面临的挑战的基础;用例的情景描述是撰写关联数据对相关利益者的影响的基础。
3 《图书馆关联数据孵化小组最终报告》分析
2011年10月25日正式发布了小组最终报告,该报告由Thomas Baker、Marcia Zeng等13位图情专家起草。报告首先界定了“图书馆”、“图书馆关联数据”、“开放数据”等概念,并指出“开放数据”和“关联数据”的区别(“开放数据”关注的是法律层面的互操作;“关联数据”是实现技术层面的数据开放共享)。本部分围绕小组最终报告,以用例分析为基础,分析关联数据技术对利益相关者的影响、目前关联数据技术应用面临的挑战及对利益相关者的建议。
3.1 关联数据技术对利益相关者的影响
在关联数据的发布、消费和再创造的过程中,必然对利益相关者造成一定的影响,从用例的情景描述和实现目标出发,归纳如下:
3.1.1 对用户的影响 关联数据技术实现数据的开放和无限关联,实现了跨资源、跨专业的知识导航,扩大了检索范围,帮助用户发现更多潜在的资源。关联数据技术对于学术研究影响较大,学者利用关联信息追根溯源发现更多资源,同时,可以看到自己的研究成果被引用和被利用的情况。
3.1.2 对机构的影响 利用关联数据技术可以提高内部数据的发布和整合速度,更好地维护数字对象及记录描述之间的关联,降低基础设施成本。此外,利用关联数据技术将机构的数据开放供其他机构重用,一方面提高了机构在网络中的知名度;另一方面可以作为关联数据的消费者重用其他机构开放的关联数据。
3.1.3 对图书馆的影响 图书馆利用关联数据技术将封闭的数据开放到数据网中,提供可信的资源,同时,也可以重用其他来源的关联数据提供增值服务,如编目业务重用出版业等领域的关联数据,可以提高编目效率,减少书目数据的冗余,提升本地数据价值。
3.1.4 对开发者和系统供应商的影响 关联数据技术提供统一的数据模型(RDF),提供可扩展的数据整合和混搭平台,提供统一的存取API(RDF/SPARQL),使得图书馆开发者和系统供应商摆脱了针对通信协议(如Z39.50协议)和数据格式(如MARC或EAD)开发应用程序的苦恼。此外,开发者发现利用关联数据技术更易于建立新的服务。
3.2 关联数据技术应用目前面对的挑战及建议
3.2.1 传统图书馆数据面临的问题
●目前图书馆的数据存储在数据库中,以“记录”为单位,虽有检索界面,但没有与网络上其他数据资源整合。以用例“书目记录的识别与剔重”[5]为例,书目记录刚由卡片式转换成数字目录,谈何开放共享。若是利用关联数据技术,对于书目数据和网络上的资源,可以在日期、人物、机构等方面建立关联的数据节点。
●图书馆领域的标准是针对图书馆行业制定的,如MARC、Z39.50,因此,缺乏同其他行业标准的兼容性。
●图书馆的数据主要采用自然语言文本表述,不利于关联数据的实现或者转换成本比较高。
●图书馆界和语义网界对相似的元数据概念往往有不同的术语,图书馆不熟悉“RDF陈述”,而语义网领域对于“标目”和“规范控制”也缺乏明确对应的概念。用例“规范数据丰富化”[6]谈到不一致词汇的使用是关联数据技术应用的阻力,因此,在数据网的建设中所有的小组应对重要的专业知识概念相互理解。
●图书馆的技术集中体现在图书馆集成管理系统上,而该系统一般是由系统供应商提供。图书馆若想大规模地应用关联数据技术,往往依赖于图书馆系统供应商的技术发展规划。用例“关联数据与图书馆遗留系统”[7]谈到关联数据的使用与购买系统问题,可见,关联数据的发展不单纯是图书馆的事。
●数据的权限问题比较复杂,数据所有者将数据视为财富不愿开放,即使开放数据,如何分配权限也是一大难题。权限问题在关联数据应用中反映比较集中,如用例“法国国家图书馆的数据关联”[8]、“社区信息服务”[9]等。
3.2.2 建议 针对上述情况,从图书馆领导、标准制定机构等角度阐述了以下几点建议:
●图书馆领导要尽早确定图书馆可开发利用的关联数据,要促进关于开放数据和权限的讨论。
●制定图书馆标准的机构要积极参与制定语义网中关于图书馆领域的标准,开发与关联数据技术兼容的图书馆数据标准,宣传推广符合图书馆关联数据的最佳实践设计模型。
●数据和系统设计者要在关联数据基础上提升用户服务,为图书馆的款目创建URIs,制定管理RDF词汇和URIs的策略,通过重用及对已有关联数据词汇的映射,描述本图书馆的数据。
●图书馆员及档案管理员等专业人士要保存和管理图书馆的关联数据元素集属性值词汇,吸收应用图书馆在长期保存和维护关联数据集方面的经验。
4 图书馆可用关联资源研究
4.1 图书馆可用关联资源
数据模型及词汇等的成功标识和重用对图书馆应用关联数据技术至关重要。词汇集间及数据模型间复杂的语义关系,导致重用的不确定性,为了更好地引导图书馆领域的关联数据活动,小组根据用例中的词汇应用情况,整理了在图书馆领域创建和消费关联数据的可用资源集,这些资源集可分为三类:元素集、属性值词汇和数据集。数据集是结构化元数据的集合,是描述图书馆相关资源的,一般由属性值词汇和元素集组成,如英国国家书目、匈牙利国家图书馆目录等。
元素集是一个命名空间,定义了描述实体的类和属性,如DC定义了元素创作者和日期。图1罗列了2010-2011年收集的可用的元素集[10],这些元素集来自于用例词汇汇总及专家补充。这些元素集大多采用RDFS编码,即使目前尚未采用的,也正在努力地采用RDFS编码,如EMD、MARC等。不可否认,采用RDFS编码是未来的发展趋势。
图1 2010-2011年收集的用例中使用的元素集
属性值词汇定义了元数据记录中元素(如主题、作者等)的取值范围,如LCSH、AGROVOC等。根据用例中属性值的使用情况,大致可分为分类法系统、主题规范、名称规范、叙词表、非控制词(如DCMI type vocabulary、CC.licence set等)及其他资源(如Wordnet、Freebase、DBpedia等)等。表2罗列了2010-2011年收集的主要的可用属性值词汇集[11]。此外,还有些词汇已在用例中使用,但还没有正式发布,这些属性值词汇一般以SKOS或OWL本体形式发布,发布后在Web上成为开放、共享、具有相互联系并且可引的数据。
4.2 图书馆可用关联资源分析
关联数据技术实现了和其他数据集间的数据共享和相互关联,根据用例中关联数据资源的使用情况,目前图书馆关联资源存在下列情况:
●与属性值词汇和元数据集相比,书目数据集作为关联数据发布的更少。在过去的几年中,有很多元数据元素集和属性值词汇已作为关联数据发布,如LCSH、FRBR等,而书目数据以关联数据形式发布的却很少,根据收集的用例分析,目前只有12个用例涉及到书目数据。
●可用数据的质量和成熟度变化迅速。现有的资源多是现行项目的成果,成熟度不够,但越来越多的机构(如匈牙利国家图书馆、OCLC等)受关联数据的利益驱动加入到关联数据活动中,这些机构为图书馆关联数据的发展提供了可信的资源。
●跨元素集及词汇集的关联已经开始,如用例“Europeana”[12]重用Dcterms、SKOS、FRBR等元素集和VIAF、Geonames、DDC、DBPedia的属性值词汇集,但是多样性的数据需要元数据规范间的映射和知识组织系统语义的匹配,因此,还需要加强进一步的合作和努力。
5 关联数据的相关技术
关联数据原则决定了关联数据独立于任何具体的技术和工具,只与相关的Web标准有关。在多数情况下,关联数据的生成和消费无需改变原有的内容发布系统,只需在原有系统之上架构一层支持关联数据的应用模块即可。要实现这个架构,可能涉及到资源的标识、数据的转换与再发布、SKOS/OWL等各类编码的实现、SPARQL端点的实现、嵌入HTML的方式、与内容管理平台的结合等,因此,本部分梳理关联数据技术所涉及的相关技术以及目前用例中普遍采用的工具或方法。
5.1 使用URIs标识实体
使用URIs标识实体是关联数据技术最本质、最核心的。实体都应该在整个流程中尽早得到URI,这种URI都是能使用HTTP来访问的,而且这些URI都能提供有用的RDF信息。
5.2 关联数据集的获取
关联数据技术的优势所在是通过URI的解析获取更多关联信息,但传统的分散式HTTP请求很难应对大规模的信息检索。关联的数据集以RDFdump格式发布,采用VoID vocabulary词汇描述可以解决这一难题[13]。
5.3 在前端将数据库映射成RDF
存储在关系数据库的大量数据,要将数据发布成关联数据,就要在前端将数据库映射成RDF。D2R服务器[14]是一个将关系数据库发布成关联数据视图的工具,依靠数据库图式和目标RDF术语间的映射声明,发布关联数据视图,并为数据库提供SPARQL终端。发布其他类型关联数据的实现方式,如下:SRU数据库可以通过重写规则转换成关联数据,用例“虚拟国际规范文档”[15]采用该方式;如果某些信息通过SPARQL终端可获取,则可以将Pubby(一个Java网络应用程序)放在SPARQL终端根据内容协商机制进行解析;XSLT可以将传统的XML转换成RDF/XML,用例“瑞典国家图书馆书目数据”[16]采用该种方式。
5.4 SKOS[17]及相关工具
SKOS本身就被定义为一个OWL本体,是RDF(S)的应用,扩展了RDF(S)的描述能力,提供了表达各种受控词表结构和内容的通用框架,专用于设计术语表及叙词表,表达概念间关系(如上/位概念)。目前已有多个词表采用SKOS发布,如LCSH、AGROVOC叙词表等。SKOS推动了关联数据技术的发展。因此,SKOS及相关工具可以为关联数据所用。
5.5 微格式、微数据和RDFa
微格式、微数据和RDFa提供了一种将格式化数据嵌入到HTML中的方法,并且能同其他关联数据实现互操作。
5.6 Web应用框架
Web应用框架的核心是URI路由机制,允许软件开发者定义一个HTTP URI模式并将其映射到控制层,而后生成由合适的视图(views)和模式(models)组成的HTTP响应,这促进了Cool URIs的应用。关联数据技术关注URI标识资源,采用HTTP URI访问机制,这正适合Web应用框架的需求,使得不同编码语种、不同操作系统、不同文化环境下的Web应用框架实现互操作。
5.7 内容管理系统
内容管理系统是利用Web应用框架搭建的,自然要遵循HTTP URI命名规则。一些内容管理系统,如Drupal,在HTML中嵌入RDFa实现数据的结构化表达,对人和机器提供服务。这类内容管理软件可以将本地词汇表映射到现存的本体;可以自动生成基于RDF/OWL的本地词汇表;可以自动生成RDF数据;可以在SPARQL终端输出RDF数据,也可供外界Mashup等。
5.8 针对关联数据的Web services
针对关联数据的Web services主要体现在资源的发现与利用,可以为第三方提供便利的存取,使他们能重用和存取数字化对象,如用例“Europeana”意在通过HTTP提供对元数据的直接存取以使第三方能重用元数据。
6 结语
关联数据的实现已不是技术难题,未来的工作重心将是关于语义匹配和开放应用协议的讨论。语义匹配(alignment)是语义等同或相关的实体跨不同属性值词汇、元素集、数据集的映射。跨属性值词汇的语义匹配有迹可寻,如用例“MACS”和“CRISSCROSS”。很多属性值词汇的发布者也正在努力建立和维护语义资源同自身的关联,如AGROVOC发布了同6个其他主题词表的关联。对于元素集来讲,没有明确的语义关系会限制数据集的语义互操作。诸多用例表明,实践者开始注重根据最佳用例重用已存在的元素集或者制订与多种数据集映射的应用纲要,如“词汇集映射框架项目”[18]正致力于元素集匹配关系的建立。数据集同样需要实现语义匹配,如联合编目已经意识到整合书目级(book-level)数据的重要性,重用外来关联数据,同时删除自身重复数据。语义匹配达到不同的描述同时指向同一实体的效果,增加与可信资源的关联,实现语义互操作。
前文谈到“关联数据”是实现技术层面的数据开放共享,“开放数据”关注的是法律层面的互操作。在关联数据技术应用中,数据的发布、重用不可避免地涉及到参与者利益的问题,因此要制定相关的法律法规规范保证参与者的权利及利益,保证关联数据活动的开展。目前适用于关联数据活动的协议有CC(Creative Commons,知识共享)[19]、ODC(Open Data Commons,开放数据共享)[20]、OGL(Open Government License,开放政府许可协议)[21]等。今后要加强关于数据所有权、发布权、使用权、收益权等方面的讨论,通过规范的协议为关联数据的发展提供了一定的法律基础和保障。
小组在过去的一年中在用例收集分析、可用关联资源的整理、最终报告等方面成果卓著。为了保证活动具有长远意义,小组解散后,图书馆关联数据小组[22]将继续收集图书馆关联数据活动的相关信息并及时地在CKAN[23]图书馆关联小组平台上更新。