走向开放关联的图书馆数据,本文主要内容关键词为:图书馆论文,走向论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 信息环境变迁
任何信息资源,不管其规模有多大,一旦成为封闭的孤岛,就会失去其投资与实际利用价值之间的平衡,图书馆资源也是一样。在当前的信息空间里,图书馆和信息知识服务业不断受到环境的挑战。2010年OCLC《图书馆的认知度》研究报告毫不掩饰地报道了这样一个现实[1]:数字化网络环境中,搜索引擎占据了信息消费者的检索起点;没有人使用图书馆网站开始他们的信息检索。回首21世纪前十年,图书馆投入大量精力进行资源建设,但与网络资源相比,图书馆的在线利用率仍然处在一个较低水平。
图书馆及其拥有的资源怎样才能冲破自己设计的围墙,摆脱信息孤岛束缚,找到自身在信息社会里的立脚点,证明其服务价值?近年来图书馆界一直希望解决的这些问题如今显得更加突出。孤岛意味着封闭,与外界沟通不畅,与之相对的两个关键词是开放(Open)与关联(Linked)。从封闭自有的信息守门人姿态走向数据网络的交通枢纽或核心数据节点(Data Hub),这对图书馆人而言是一个巨大的观念挑战。
如果不能战胜对手,那么就加入他们。这句话体现了当前图书馆与网络资源服务提供商之间的关系。要提升图书馆自有资源的服务与利用率,如何能被搜索引擎广泛索引,如何与网络资源进行关联集成,这是当前解决图书馆资源孤岛问题的两个重要方面。关联数据(Linked Data)的普及为图书馆带来了新的机遇。Tim Berners-Lee在语义技术环境下提出发展数据的网络(Web of Data)[2],以数据结构化为基础,设计了语义化关联的关联数据理念,未来将实现有意义的数据集成的美好愿景。从目前关联数据的发展看,越来越多的机构、组织和部门通过遵循关联数据发布原则[3],开始对外开放自有数据,以特定的知识产权许可模式进行发布并与其他数据进行语义关联。近两年来成几何级数增长的关联数据数量、各行各业的参与、政府部门数据策略的改变已经使关联数据形成强大的辐射带动趋势。
图书馆兼有悠久历史传承的信息资源管理功能和日益增强的直接为用户提供信息服务的功能,在这场变革中图书馆扮演两个基本角色:一个是参与者与贡献者的角色,另一个是消费者的角色。W3C图书馆关联数据(Library Linked Data,LLD)孵化小组投入一整年时间搜集用例并探索关键问题,于2011年10月发布系列报告(以下简称“LLD报告”),包含《最终报告》[4]、《用例汇编》[5]以及《数据集、取值词汇集和元数据元素集》[6]三部分,后两者支持《最终报告》中的观点和建议。这份报告为图书馆作为贡献者和消费者的角色提供了颇具参考价值和指导意义的观点和具体指南。本文以此为契机,对如何利用“关联数据”来提升图书馆数据的开放与关联可行性展开讨论,分析当前图书馆数据面临的挑战与机遇。
2 图书馆界作为关联数据的参与者和贡献者
从信息技术处理的观点看,图书馆数据是图书馆拥有资源的实际载体。长期以来图书馆为描述资源、辅助资源发现而创建并保存了各种类型的数字信息,(本文不讨论图书馆内部用和设计隐私政策的管理数据)。出于实用性考虑,根据典型用法,报告将图书馆数据大体分为三个类型:数据集(Datasets)、元数据元素集(Metadata Elements Sets)和取值词汇集(Valued Vocabularies)。数据集实际体现的是图书馆拥有的各类文献资源及其描述,即所谓的本资源;元素集和取值词汇集这两者对应的是资源描述、组织和检索等方法与工具,即所谓的表资源。后两者服务于前者,但又作为相对独立的行业标准与最佳实践而被视为“资源”看待,以下分别展开分析。
2.1 图书馆资源成为数据集
数据集是建立在数字资源的元数据描述(包含传统编目)之上,以结构化数据形式存储的数据集合,可以理解为数字化馆藏资源,其中一种主要形式是书目记录。使用元数据描述后得到的元数据记录集合表达的是同一个意思。例如,在图书流通和出版行业中的MARC书目、描述特藏和档案藏品的EAD目录指引、数字图书馆的联合元数据仓储、学术期刊的文摘与索引库等都是典型的数据集。在关联数据环境中,将图书馆数据的表征统一建立在资源描述框架RDF之上,以期引入更丰富的描述与建立关联的基础。对近两年图书馆界已经发布的数据集现状初步分析,具有以下特征。
(1)图书馆关联数据的推动者。目前主要来自国家级图书馆(大英图书馆[7]、法国国家图书馆[8]、瑞典国家图书馆[9]等为代表),跨国数字图书馆项目(Europeana[10]),大学图书馆(剑桥大学[11])、数据库商、出版社以及商业技术公司Freebase[12]等的多方合作下进行推动。此外,还有一部分技术人员和研究项目的实验行为。
(2)“大”图书馆资源观。质量有保证的数据集的发布是图书馆关联数据运动的重要特征,对应与整个社会关联数据资源的质量特点。目前图书馆资源数据集主题包括馆藏书目(国家级、区域联盟、本地),图书、学位论文、档案(手稿)、学术交流(期刊论文,机构知识库)、文化遗产、教参及网络资料等,内容呈现广泛性。
(3)图书馆数据集规模。图书馆数据集规模的定量指标除了原先基于书目记录条数的统计之外,由于都是转换为RDF Triple形式,因此,一般用Triple的条数来反映数据集的规模。从书目条数到Triple条数,三段式的每一个位置都存在与其他资源建立关联的可能。这里需要区分,一条书目可能包含若干条 Triple描述,一条Triple类似于一条MARC字段。描述得越详尽,产生的Triple越多。现有的图书馆数据集规模大到四亿条(OpenLibrary[13]),小到几千条(挪威科技大学的手稿专藏[14])。RDF数据集的现有存储技术方案多数支持百万级别以上的Triple存储(triplestore)[15],可以较好地支持数据扩展需求。
(4)数据集对外关联程度。现有的图书馆数据基本都设计了关联准备,但关联的范围与程度存在诸多差异。有些是内部关联,例如,LOBID.org将图书馆机构信息与书目数据实现关联[16];大多数图书馆数据集与第三方数据关联,常见的有规范文档,例如,虚拟国际规范文档VIAF、美国国会标题表LCSH等。当前的趋势是大多数图书馆数据都与非图书馆数据集相关联,例如,DBpedia(维基百科的RDF数据集版本)。这些正是关联数据给图书馆数据带来的变化:图书馆数据不再是终点,不是只为人们找到一个索书号或者规范名称的单功能的记录,而是跨越数据类型得到其他有用数据的起点。
(5)开放许可方式。对于开放和关联的认识在这里可以做适当解释,图书馆数据关联化与开放许可实则是两个问题。图书馆数据集的关联既可以是内部的关联,也可以是外部的关联。出于机构的所有权考虑,有些图书馆发布关联数据集,但不是一定对外开放。即便是对外开放,也有不同等级和侧重的开放许可协议。上面提到的LOBID.org虽然不对外开放图书馆机构数据,但以开放共享其拥有的书目数据。
数据开放许可的协议包含面向内容和数据两方面的协议[17]。内容许可主要采用知识共享(Creative Commons)协议,包括署名(BY)、相同方式共享(Share Alike)以及无版权CCZero。CCZero表示放弃该著作依著作权法享有的所有权利,贡献至公共领域。数据许可主要采用开放数据共享(Open Data Commons, ODC)协议,包括公共领域贡献与许可(Public Domain Dedication and Licence,PDDL)、开放数据共享署名(ODC-By)、开放数据库许可(Attribution Share-Alike for data/databases,ODC-ODbL)。
目前关联数据的许可方式尚未形成标准化体系,已发布的图书馆数据集主要采用SA和CCZero许可方式,还有些数据集自定义了与CC与ODC兼容的许可方式。关联化建立了开放的基础,是否开放取决于数据集所有者的考虑。对于图书馆数据集应采取何种开放许可方式,遵守现有许可协议基础上,结合图书馆自身战略与服务政策而定。
(6)数据发布格式多元化。RDF是关联数据的基础语义模型,同一种语义表征可以有多种编码格式。常见的图书馆数据发布格式考虑到面向机器(M2M)和人(M2H)的双重需求,面向机器处理提供了多种编码格式和面向普通用户浏览的HTML页面。值得注意的是,RDF作为可嵌入HTML的结构化语义数据,也得到一些图书馆的采用,例如,德国经济图书馆发布的德国20世纪出版档案[18]。
数据集作为本资源,选用的元数据描述方案和为了提升检索效率而制定的组织工具则分别延伸为元数据元素集和取值词汇集。
2.2 元数据元素集
元数据元素集也常被称为元数据词汇,是为描述资源实体的特征及其关系而定义的类与属性,是对数字图书馆建设过程中涌现的各种元数据描述方案的总称。这些元数据方案作为描述工具在实际应用中,抽象的元数据方案被具体表征为RDF Schemas或 OWL,这样使得元数据元素集与数据集具有相同的底层构架,也就是本身也可视为资源来看待。通过使用相同元数据方案及不同元数据映射作为桥接,可以建立其描述的数据集之间的关联,这实际反映的是互操作研究目标。
在元数据元素集设定中,将各行业(包括图书馆在内)制定的元数据与语义网制定的各类RDF Schemas统一起来。LLD报告中指出,在语义网技术语境下,使用RDF词汇来统称,但并没有给出详尽的元数据列表。
元数据元素集发布的一个重要目标是加速元数据重用与共享,建立数据描述共通的基础。来自图书馆领域的元数据包括通用的DublinCore/CCMI[19]、面向数字对象的OAI-ORE[20]、面向受控词表的SKOS/ SKOS-XL[21]、指定书目与名称之间关系的MARC关系代码、面向文化部门的概念参考模型CIDOC[22]、书目的FRBR家族和RDA词汇、国际标准书目ISBD[23]、 MADS/RDF[24]、面向规范资源描述的GND词汇[25]以及面向不同领域的DC元数据定制(应用纲要)等。
来自其他领域的元数据,应用较多的包括:表示人物及其关系的FOAF[26]、描述数据集互联的词汇 voiD[27]、书目本体BIBO[28]、源自OpenCyc的上层映射与绑定交换UMBEL[29]、商务名片描述vCard[30]、图像技术元数据EXIF[31]、开放溯源元数据模型OPM[32]、音乐元数据、引用类型元数据CiTO[33]、软件项目描述 DOAP[34]、W3C推出的小型地理词汇表Geo[35]、在线社群语义关联本体SIOC[36]、W3C推出面向网络媒体资源的描述本体[37]等。
值得关注的一个新事物是由Google、Bing和Yahoo!等搜索引擎联合推出的Schema.org[38],分别为作品、载体对象、事件、组织、人物、地点、产品、社交活动(评分)等制定了元数据描述集,允许网站嵌入微数据(MicroData),相当于结构化元数据,目的是方便搜索引擎更好地索引。这是一种比较实用的渐进方式,类似的HTML网页语义增强的丰富网摘(Rich Snippets)方法还有RDFa和微格式(MircroFormat)。这三种方案目前不排斥对方,可以相互兼容。从应用推进看,搜索引擎联盟推广的微数据进入了HTML5草案中,配合Schema.org多种元数据方案的组合,发展势头较为强劲。
当前元数据元素集已经遍地开花,对于图书馆而言,积极开放和参与行业之间的交流与共享,无疑是大势所趋。由此联想到,国内图书馆界中文元数据方面近些年也取得了丰硕成果,DC的中文化以及各类专题元数据(古籍、拓片、家谱、地方志等)标准相继出炉,为数字资源标准化规范化建设提供了有力的描述工具。要拓展图书馆优势,让更多的人知道、利用和关联元数据方案,通过发布对应的RDF Schemas,让各种元数据方案拥有可被参引的网络依据与规范化RDF词汇,从而提高可见度,这不失为一条可行的路线。
2.3 取值词汇集
取值词汇集是一个比较晦涩的数据类型,目前也存在一些争议和需要明晰的地方。LLD报告中将取值词汇定义为,在元数据记录中,用来表示元素取值的资源,包括主题的实例、艺术风格或作者等。取值词汇一般不定义书目资源,而是关注书目资源相关的概念(人、语言、国家等)。对于特定主题和领域的知识结构与术语表达一般都有约定俗成,充分利用这些表达和组织工具将有助于资源的描述结果采用“共同语言”,从而保证词汇和语义层面的一致性。图书馆对特定元数据元素规定可选的取值有着优良传统,例如书目CNMARC的701人名字段,编目时通过取自名称规范库的一条规范记录200字段来赋值,从而保证记录的一致性。DC元数据的主题(subject)元素,除了可以采用关键词赋值外,DC建议从受控词表或规范文档中取值。关联数据发展了这一理念,通过RDF三元组形式来体现关联机制下的规范控制优势。因此,这里的取值词汇集内涵也就明确了。取值词汇集将受控词表(也称为知识组织体系)的各种类型(标题表、分类表、叙词表、本体等)和规范文档(主题规范、名称规范)统一成服务目的一致的整体。已有的各类受控词表资源和规范数据要成为取值词汇集,发挥关联数据的有用性,要满足以下基本条件。
(1)遵守HTTP协议,每一个取值(主题概念、规范数据条目)都应具备一个唯一资源标识符URls。取值词汇集的命名空间应是长久稳定的,由专门的机构组织管理维护。
(2)在元数据记录的取值中引用该URls来取代(原先的)文本值。取值词汇在一定程度上充当了关联聚合的中间节点,描述阶段的赋值在检索阶段的应用价值体现为,根据该取值汇聚相关资源的利用价值。因此,这就对受控词表提出了适应关联数据环境的发展要求。
已有的潜在取值词汇资源丰富且分布广泛,LLD报告中对已发布的取值词汇集划分为分类表、标题表(包含主题规范)、名称规范、叙词表、其他资源(例如, Wordnet)等。语义网发展进程中,受控词表不同程度上都在进行语义化改造,从面向概念的语义建模到底层的编码表征,这些都为取值词汇集打下了基础。目前,传统大型综合词表如DDC、LCSH、UDC等在数字图书馆项目的关联数据用例中有所应用。由于词表数据规模庞大,一般采取分层分阶段开放关联策略,例如DDC开放到3级类目,包含13种语言[39];UDC开放包含2400个类目,46种语言中22种(包含中又)的简表数据[40]。专业词表方面,例如,农业叙词表 AGROVOC[41]、经济学叙词表STW[42]、图形资料叙词表TGM[43]等作为整体数据开放。规范数据方面,图书馆在规范记录方面的积累优势得以体现,以VIAF为代表的国家级规范数据联盟[44],实现围绕人名和主题的开放机制,通过唯一标识的人物可以关联到与其相关的其他数据资源。另外,地理名词GeoNames[45],艺术家人名ULAN[46]等也开放关联供调用。
取值词汇集还纳入了词汇系统Wordnet、网络资源DBpedia、Freebase中的资源作为元数据元素的取值选择。这样做的好处在于,可以借由DBpedia这些处在关联数据云图中枢的地位,实现与其他资源的间接关联。目前除了书目数据之外,取值词汇数据是紧跟其后的开放数据类型。很多专业词表,例如Getty的AAT、医学MeSH、水产渔业ASFA叙词表等都在开发进展中。
3 图书馆关联数据的宏观语义模型
通过以上分析不难发现,LLD报告对图书馆数据的三个类型划分不是绝对的,突出三者是交织在一起的具有“松耦合”关联的数据整体观点。特别表现为,原先依附在本资源上的元数据集合取值词汇集可以“独立”地以“资源”的身份,处在关联数据环境中,存在被任何资源关联的技术可行性。那么,如何对图书馆数据进行关联化设计,首先要明确当前整体环境是关联化的开放信息环境,图书馆数据建设要切合语义网和关联数据的要求。因此,文中提出分层对照的框架图,通过图书馆与语义网的相互融合,为图书馆实践提供参考(图1)。
图1 图书馆关联数据语义模型
如图1所示,自上而下,从抽象到具体,将图书馆关联数据纵向划分成4个层次:概念模型、描述框架、表征词汇、编码格式。在技术快速发展的时代,以图书馆视角理顺技术的定位与支撑作用显得非常重要。我们从不否认技术对图书馆带来的冲击,因顺势利导,让技术服务于资源建设与信息服务是积极求变的表现。
摆在眼前的第一个问题是,从数据资产观点看,图书馆现在拥有哪些数据的自主权?在数据库商不断强大的今天,这个问题显得异常突出。如果未来图书馆的数据都来自第三方,那么跳过图书馆向最终用户提供服务只是时间问题。从以上报告分析给出的数据类型,书目数据集(包括专题特色库资源)、元数据元素集和取值词汇集是图书馆在资源层面的主导,目前缺少的是开放标准和底层技术的通用架构。右侧纵向的Web风格架构指出,未来图书馆数据相关服务的技术系统都遵守HTTP协议与URI命名机制,这是整体关联数据环境的技术根基,应该落实到各个层面的设计当中。
(1)概念模型。概念模型是将长久以来图书馆资源描述与组织面向文献转向以概念/对象为中心的实体分层思路。FRBR遵循面向对象方法,是面向图书馆资源的概念框架[47]。FRBR的第一组实体将馆藏资源对象解构为知识单元、主题内容、载体表现和单件四层,分层处理是支持从抽象概念到具体形式等不同层次与维度关联的基础。这相当于上层本体的地位。 FRBR第二三组实体则与FRAD和FRSAR相关,FRAD在名称与主题规范控制两方面对馆藏资源描述进行优化;FRSAR为知识概念及其表现形式之间的关系提供了语义框架,主要处理规范控制中“词汇-术语-概念”之间的复杂语义关系。FRBR针对书目,FRAD针对规范数据,FRSAD针对受控词表的主题规范,与图书馆数据集三个类型正好形成对应。FRBR的设计哲学与语义网中的本体(ontology)方法在本质上说是一致的,通过类、属性、实例、继承、封装等来实现领域知识结构的构建。在目前关联数据集的应用层面,本体的公理定义与自动推理还有很长的路要走。
(2)描述框架。描述框架层是对概念模型的应用落实,可以对应到元数据描述与取值词汇集。图书馆的受控词表、规范文档数据以及元数据描述纳入一个整体,目的是使得图书馆数据达到规范性与一致化,从而提高数据质量。图书馆数据与网络数据相比,可信度与权威性更高。图书馆领域的描述框架在继承 MARC的同时,DC及各种应用纲要是面向网络资源的持续努力,RDA与FRBR之间则是存在固有的继承描述机制。RDA提供的数据元素定义、属性关系描述、注册取值词汇的控制等多种描述手段来规范数据描述。面对各种元数据描述和取值词汇,互操作研究(体现为映射转化)是不可或缺的。
(3)表征词汇。表征词汇层是对技术标准的执行落实,体现为描述图书馆数据的各类RDF schemas,即制定行业内遵守的RDF词汇。目前由图书馆领域牵头制定的RDF词汇集相对较少,SKOS是较为成熟的典型代表。在知识组织语境中,SKOS常被视为主题词表的语义模型,在此SKOS只是为典型叙词表结构和语义表达而定义的一组RDF词汇,让各种具体词表遵守这种描述,从而为语义互操作奠定基础。这种区分是微妙的,可视具体语境有所侧重。RDA词汇目前仍在制定过程中,各组RDA词汇可以在http://rdavoc.org找到。语义网领域制定了很多RDF词汇,比较常见的有OWL、FOAF、voiD、BIBO、CiTO、OPM等。很多与图书馆资源有关的描述,并不是由图书馆提出来的,这里就存在一个相互渗透合作的积极态度。在描述框架和表征词汇设计时,对现有标准的重用是首先考虑的,避免重新发明。
(4)编码格式。编码格式层是数据交换与共享的底层基础,对图书馆数据而言,打通这个数据基础非常关键。这里需要区分,同样一套SKOS词汇描述的数据表征可以编码成若干种语义无损的数据格式,对数据集的统计分析得出常见的数据格式有RDF/XML、 JSON、Turtle、N3、NT等,这些编码格式都是面向机器(Agent)处理的需要。面向普通用户的浏览与检索,需要将RDF转换为HTML页面进行呈现,这一功能依然需要保留。至于选择哪些数据输出格式。在于数据所有者对数据用途的扩展考虑。对于服务时调用何种格式,通过关联数据发布原则中服务器端的内容协商机制来调控。
4 图书馆关联数据先导项目应用与探索
图书馆数据的三种类型来自于各个先导项目应用与探索的总结,LLD报告将其组织成8大类的用例(Use Case),从实际问题出发,通过用例情景描述,对图书馆及相关领域的应用模式进行讨论,并使经验得以固化。这是一种很好的群体智慧(Collective Intelligence)体现。8大类用例具体分为:书目数据(12)、规范数据(6)、词汇映射匹配(Alignment)(8)、档案与异构数据(3)、引用(3)、数字对象(7)、资源集合(6)、社交及新用途(12)。由于某些用例同时拥有多个类别的特征,因此存在4个用例跨类别。去掉用例重复出现,合计为58个。
从用例数量上看,书目数据目前是最多的一类,该类别的主要应用目标包括;建立书目描述元素的语义标准;通过关联数据,实现书目记录的去重与统一化;使用标准化书目术语来标注网络资源;多个数据提供商提供集成化元数据搜索界面;不同形式的信息聚合服务(查询限定与扩展、提醒服务等);书目记录的标注等等。
规范数据隶属于描述框架层的取值词汇集。用例主要围绕已有编目积累,把规范和受控的好处通过关联数据扩充出去。基于规范数据扩展搜索结果,使得围绕名称(特别人名规范)连接相关书目记录。在该类中VIAF的关联数据方式最具代表性,与之类似的OCLC身份档网络也有很好的示范意义[48],通过作者聚合与之相关的所有资源信息,不仅包含书目,还纳入了Wikipedia等网络资源,使得开放范围不断扩大。
词汇映射匹配隶属于描述框架层的取值词汇集,通过受控词表之间语义映射、匹配与合并等多种互操作方式,目的是通过组织工具来实现分布式异构资源的丰富化关联。同时,针对受控词表作为资源本身的语义化与关联化,以词表保管者(Curator)角度,如何对词表数据进行发布、动态维护、版本管理等问题也是该类用例所关注的。
档案与异构数据类是针对数字档案、文化遗产和博物馆领域的关联数据应用,目的是增强语义关联与汇聚,提升资源发现能力与改进数据管理模式。
引用类是在现有引文基础上,使用关联数据方法来扩展出版物的表征形式,引导潜在参引关联链的形成,构建科学数据集以及对学术争论过程中的观点进行映射等。
数字对象用例集围绕数字内容的分组、构件化组装与多维链接进行探索,这里的数字对象涵盖教学资源、数字报纸、数字地图与数字机构档案等。
资源集合用例集侧重于资源集合(Collection)的描述与关联,与单件(Item)的描述相对,资源整体观点在此处较为突出。基于图书馆物理与虚拟馆藏的关联访问控制,面向学术社群的数据重用许可与技术支持,关联数据可以从技术、标准与协议三个方面给予数据共享与交流方面的支持。
社交及新用途类以面向社交网络的用户参与、分众、合作为主要特征。将用户行为数据与资源数据建立关联,开启用户、资源与技术互动的发散关联。
绝大多数用例都处在探索阶段,并不成熟还有待完善,但这种汇集群体智慧与专业社群最佳实践的模式有利于在过程中汲取经验和学习教训。可喜的是,通过网络社交平台,现有多数用例都有中文解读和观点剖析[49]。相信通过及时跟踪学习,将加速国内图书馆对关联数据的理念普及。
5 图书馆关联数据关键问题识别
目前图书馆要实现自身资源的关联化,以现有数字馆藏作为基础,以下4个关键问题需要重点关注。
(1)数据注册服务。传统图书馆的数据与现有的网络资源并没有形成有效的整合机制,没有这个底层基础,数据注册就无法实现。对图书馆每一条资源赋予网络唯一标识符的URI命名机制与遵守HTTP协议成为首当其冲的问题,适时放弃图书馆业内专有标准(例如Z39.50)或形成转换接口(例如从MARC到 RDA),这是无法回避的现实。
数据注册服务的目的是促进关联数据的共享、发现与重用。通过集中式或分布式数据注册系统搭建了数据所有者与利用者之间的服务平台,起到图书馆资源“藏与用”的桥梁作用,在一定程度上避免资源重复建设与藏而未用等问题。截止到2011年末,关联数据中枢CKAN上注册发布的图书馆数据集达到52个,但尚未有中文图书馆数据集。CKAN注册对数据集的要求必须满足以下两个条件[50]:所有的数据条目通过可参引(Dereferencable)的URls访问到;至少包含50个指向其他数据集RDF链接或者另一个数据集包含50个RDF链接指向该数据集。除此之外,还要填写数据集的一些元数据描述,比如ID(唯一命名)、名称、URL、主题领域、三元组数量、关联其他数据集的链接数量,以及是否提供标准语义搜索SPARQL Endpoint、voiD描述等。当然,数据集的许可方式也要重点申明。Datahub是一个由CKAN驱动的典型数据注册服务中枢,而CKAN本身是一个开源的Python框架。未来,基于CKAN开发中文自主的数据注册服务系统也是一个重要研究主题。
(2)关联映射与互操作。要实现不同图书馆资源数据集的关联集成,主要依赖于元数据元素集的语义属性映射与取值词汇集的概念语义匹配。要达到跨数据集的关联,消除数据冗余问题,元数据、受控词表与规范文档必须放在同一个层面上结合起来看待,它们背后都表达了规范、标准与一致化的诉求。国内以往的研究中这三者是相对独立的,没有形成相互协调配合的应用态势。以RDF为通用基础,元数据与元数据、词表与词表、规范文档与规范文档各自的语义匹配是不同资源数据集关联的桥梁,这一点很重要。如何在映射与互操作中达成领域数据的共享与重用是根本目标。在这一问题中,语义建模的丰富化和本体匹配技术提供了经验基础,但与相对封闭独立的本体相比,开放关联数据环境如何实现链锁式关联发现将是一个严峻的挑战。
(3)数据溯源与监管。数据在关联过程中的演变如何进行有效跟踪,即当前数据的“来龙去脉”对考核和验证数据有效性与可行度是重要的过程管理保障。图书馆应对发布的数据集有必要的监管机制,以防止被滥用与不当行为的发生。关联数据环境是一种涌现(emerging)的自组织形式,宏观上不存在“完美”的最终形态,但是如果具体数据集不能保证其局部的一致化将会对整体关联集成效果带来严重的负面影响。
(4)数据使用许可策略。与技术实现并行的一个研究主题是图书馆决策层应考虑如何制定数据使用许可策略,直接反映数据的开放程度。在国际通用的知识共享协议和开放定义(Open Definition)协议框架下,针对署名、共享方式、商业用途和公共领域等细节将许可策略具体化落实。现已发布的图书馆数据采用的许可策略大多比较保守,开放还是不开放,有哪些数据集可供开放,开放到何种程度都是值得深入研究的问题。这部分可以纳入数字图书馆知识产权研究范畴,可视为面向数据资源的特定考虑。
6 总结与展望
犹如十年前国内数字图书馆研究与建设的兴起,关联数据在现有数字图书馆建设成果的基础上开启了全新局面,充分利用语义网技术,将有助于解决图书馆资源孤岛问题。图书馆数据融入到网络环境中,与网络资源建立联系,成为数据网络的中坚力量。政府、医学、传媒等各个行业都在实践应用关联数据,彼此之间可以相互借鉴发展。谁将会成为关联数据行业应用的领跑者,让我们拭目以待。
图书馆关联数据不是纯粹的技术问题,可看做是一种数据资源生态的逐步构建,涉及数据所有权、开放力度、多方涉众(行业标准制定者、技术系统提供商等)的利益关系权衡。然而,涉及的技术是对已有技术的有效组合应用,不具有过高的技术门槛,在已有数字图书馆建设成果之上是比较容易实现的。
未来是数据的时代,关联数据和大数据(Big Data)雏形已经显现,谁“拥有”数据谁就具有话语权。这里的“拥有”不特指占有,而是指良好的数据保障机制。我们期待未来更多的图书馆数据能够被机器和用户所发现、利用,即数据消费(Data Consumption)的目标,与之伴随着图书馆资源组织方法与机制的向外渗透,从而提升图书馆在未来数据环境中的作用与定位。