图书馆从数据联想到相关数据的发展及其启示_图书馆论文

图书馆从数据联想到相关数据的发展及其启示_图书馆论文

图书馆从数据关联到关联数据化发展及其启示,本文主要内容关键词为:数据论文,启示论文,图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       0 引言

       随着网络技术尤其是语义网和关联数据(Linked Data)技术等新兴技术的蓬勃发展,对传统图书馆的数据开放共享带来了极大的冲击和挑战。在文献编目时期(此时期编目的特点是以巴黎《原则声明》为指导思想,以AACR2和《中国文献编目规则》为代表),图书馆以文献为描述单元的传统书目组织模式已经不适应网络环境下海量信息资源的组织管理以及用户不断变化的信息知识需求。以图书馆最重要的书目数据为例,它是图书馆赖以开展一切业务活动和服务的基础,而且图书馆的书目数据历来以有序、规范、有效地反映馆藏而著称。[1]对于这些书目数据之间普遍存在的关联关系,图书馆是利用传统的机读目录格式(即MARC)进行揭示、组织和服务的。在从互联网发展到语义网的转型期,即图书馆进入资源编目时期(此时期编目的特点是以《国际编目原则声明》为指导思想,以新一代编目规则RDA(《资源描述与检索》)为代表),[2]图书馆可以利用关联科学中的关联数据技术充分揭示数据的语义关系,以更好地满足用户不断增长的知识需求,进一步提升语义网环境下图书馆的服务和地位。

       1 传统图书馆数据关联的特点与类型

       1.1 传统图书馆数据关联的特点

       数据关联是指数据之间存在着某种关系。依据唯物辩证法事物普遍联系的原理,图书馆书目数据的关联不仅是普遍的,而且是多种多样的。在文献编目时期,世界各国的图书馆普遍已经过渡到以联机联合编目为主的计算机编目上来,图书馆主要是利用MARC格式对书目记录按照一定的规则进行组织、管理和提供服务的。读者往往是通过OPAC检索系统显示的书目基本信息(如文献的题名、著者和版本信息等)来选取自己所需的文献资源的。换句话说,读者是通过识别书目记录之间的这些关联关系来判断和选择所需文献资源的。

       传统图书馆这种互相关联的数据的主要特点有:

       (1)封闭性。由于目前书目数据的组织和服务采用的是图书馆专有的元数据格式,主要是以ISO 2709格式存在的MARC记录,它需要专门的软件系统才能处理,因而是一个相对封闭的系统,它所形成的数据库往往是独立的,即无法与外部数据库进行互联互通互操作,因而图书馆所拥有的优质数据资源不易被其他系统所整合利用,其价值没有为用户最大化共享。

       (2)静态性。传统图书馆的书目数据一般是在制作完成后才提供服务,其内容基本是稳定的,它不会随着外部数据的增长而变得更加丰富。因而是静态的。

       (3)粗粒度性。书目数据在数据库里还主要是以记录的形式存在。图书馆提供的书目记录是对文献单元的整体描述,而不是以细粒度的知识单元为描述对象,因而对信息资源的知识内容及其关系的揭示不够。

       (4)隐性的语义揭示。这种以MARC格式存在的书目数据虽然是使用计算机来进行处理,其语义关系还无法做到让计算机可理解,主要还得由人来理解。其隐含的语义关系由于没有使用通用的数据格式(如资源描述框架RDF)显性化揭示,因而无法更大范围的共享。其主要原因是图书馆受制于当时的信息环境及技术条件等因素,无法有效满足用户不断变化的信息知识需求。此外,很重要的一点是当时语义网技术和关联数据技术还没有出现。

       1.2 传统图书馆数据关联的类型

       按照系统之间的关系,传统图书馆的数据关联可以粗分为两类:一类是系统内部的数据关联,一类是系统之间的数据关联。

       1.2.1 系统内部的数据关联

       系统内部的数据关联是指某一系统内数据元素之间的关系,比如书目数据库系统之间的数据关联,或规范数据库系统之间的数据关联。例如在CNMARC书目格式中,系统内部的数据关联主要通过其4—款目连接块的相应字段及子字段来实现。例如,当莫泊桑的《漂亮朋友》与其《一生》合订时,首先为第一合订文献《一生》做一条记录(该记录标识号为:0184014702),然后再为第二合订文献《漂亮朋友》做一条含有423字段的$1子字段的记录进行连接:[3]

       200 1#$a漂亮朋友$f(法)莫泊桑(G.de Maupassant)著$g张冠尧译

       423#1$10010184014702$12001#$a一生$1701#1$c(法)$a莫泊桑$c(G.de Maupassant)

       当然上例两条记录也可利用423字段的$1子字段连接技术做成一条记录,即:

       001 0184014702

       200 1#$a一生$a漂亮朋友$f(法)莫泊桑著$g张冠尧译

       423 #0$12001#$a漂亮朋友$1701#1$c(法)$a莫泊桑$c(G.de Maupassant)

       以上第一种的连接方式属于记录间的数据关联,而第二种的连接则属于字段间的数据关联。由于这两种方式的数据关联都是在书目数据库这一系统内实现的,因此它们都属于“系统内部的数据关联”。

       1.2.2 系统之间的数据关联

       系统之间的数据关联是指不同系统之间的数据关系的表达,比如书目数据库系统与知识组织数据库系统之间的关联。例如CNMARC书目格式606论题名称主题字段中使用$3规范记录号这一子字段用于连接该论题名称主题在知识组织数据库系统中的记录控制号。[4]

       200 1#$a曹源一滴水

       606 0#$a禅宗$2ct$3BT A90-27551

       即取自《汉语主题词表》中的主题词“禅宗”通过$3子字段实现了与该词表中的该主题词记录控制号BT A90-27551之间的连接。

       与前述1.2.1数据关联不同,这种数据关联采用相应的CNMARC子字段连接技术实现了书目数据库和知识组织数据库这两个不同系统之间的关联。

       需要指出的是,虽然上述系统间的数据关联也具有“与其他数据集实现数据共享和相互关联”之特征,但它还不属于关联数据的范畴,因为它还不符合关联数据发布的基本原则。而要把图书馆的传统数据转化成网络环境下的关联数据,还必须经过关联数据化组织和发布。

       2 现代图书馆数据的关联数据化发展

       2.1 图书馆关联数据的概念及其优点

       2.1.1 图书馆关联数据的概念

       关联数据作为近年来图书情报界的研究热点之一,是Tim Berners-Lee于2006年提出的概念,指在网络上发布、共享、连接各类数据、信息与知识的一种方式。[5]其实,关联数据也是世界万维网联盟(W3C)推荐的一种规范,希望在现有的万维网基础上建立起一个能够映射所有自然、社会和精神世界的数据网络,通过对大千世界万事万物及其相互之间关系进行机器可读的描述,使互联网进化成一个富有语义的、互联互通的知识海洋,从而使任何人都能够借助于整个互联网的计算设施和运算能力,在更大的范围内准确、高效、可靠地查找、分享、利用这些互联的信息和知识。[6]

       简言之,关联数据是一种在网络上发布、分享和互相连接结构化数据的方法,同时也是一种旨在提高网络数据机器可读性的技术框架,它通过构建网络环境下的引用和解引机制来建立数据之间的关联,从而将数据与网络融合起来,进而实现“网络即数据”这一伟大理想。

       图书馆的关联数据是指任何应用关联数据技术描述的图书馆数据。然而图书馆关联数据的链接实现方式及其链接对象与传统的书目数据不同,前者采用的是RDF三元组模型及其RDF链接技术,链接的对象是具有URI标识的结构化的数据,它构成的是可以与世界上任何事物相连的“数据的网络”,而后者采用的是MARC字段及其子字段连接技术,连接的对象是款目或/和记录,其实质是文本数据的连接,而非结构化数据的连接,其构成的是以超文本形式显示的“文档的网络”。图书馆关联数据网络的出现不但对当前的超文本网络进行了扩展,同时也对当前网络上海量的纷繁无序的信息资源进行甄别、选择和定位。

       2.1.2 图书馆关联数据的优点

       相对于传统的图书馆数据来说,图书馆的关联数据具有如下优点:

       (1)开放性。关联数据基于开放的网络及其语义网标准,具有不管谁都能解析的统一资源标识符URI,因而具有开放性,数据可在更广的范围内共享。而且,关联数据提供给用户的是可信赖的数据和元数据,并提供面向人的界面和面向机器的数据消费接口[7]。

       (2)可拓展性。由于基于XML的RDF描述具有可拓展性,在数据与数据之间建立RDF链接,并在网络上发布。不断增加的关联数据构成了“无边无际的世界”,几乎没有什么描述是完成不了的,任何用户都可以从他自己发布的空间添加描述信息。

       (3)可重用性。各种来源的描述指的是同样的事物,任何用户都可以将之完善、加标注等。这就提高了图书馆数据被发现,再次被利用的几率,从而使得数据的价值得到提升。

       (4)显性的语义关系。由于关联数据技术不同于传统的MARC技术,采用的是RDF三元组模型,可以显性揭示资源实体之间的关系,即语义关系显性化。而且这种语义关系是人和机器都是可以理解的。

       (5)国际化。如今各种不同数据的多语种可以满足不同国家、不同语言文化的用户的信息需求。快速发展的语义化技术和自动化技术等为图书馆关联数据的国际化提供了保证。[8]

       2.2 关联数据发布的基本原则

       Tim Berners-Lee在提出关联数据概念的基础上同时提出了在万维网上发布关联数据的四个基本原则:[9]①使用URI作为任何事物的标识;②使用HTTP URI使任何人都可以访问这些标识名称;③当有人访问某个标识时,使用(RDF,SPARQL)标准提供有用的信息;④尽可能提供相关的URI,以使人们可以发现更多的事物。故一般认为凡是符合上述四个原则的数据即为关联数据,其核心理念是开放、关联和复用。

       由上可知,这四个基本原则,使得所有的用户都可以进行自定义语义信息的发布。其次,这四个原则只是对数据发布的基本方式——命名和编码(URI+RDF)做了规定,由于这两项内容均属于语义网技术的基础,因而关联数据被看成是一种轻量级的语义网实现技术。

       从技术上看,关联数据采用RDF数据模型,利用URI命名数据实体,在网络上发布实例数据和类数据,从而可以通过超文本传输协议HTTP揭示并获取这些数据,同时强调数据间的相互关系以及有益于人和计算机所能理解的语境信息。因此仅就技术实现而言,将图书馆数据发布为关联数据并不复杂,主要是建立在已有的Web技术(URI及HTTP)及RDF三元组基础上,在数据之间建立尽可能多的RDF链接,链接关系越丰富,数据的价值越能得以实现。

       2.3 关联数据在图书馆中的应用及其发展

       如前所述,图书馆所拥有的优质的书目数据、知识组织数据、规范数据等都可以利用关联数据技术发布为任意开放互联的关联数据,即将图书馆数据关联数据化。所以自关联数据提出以来,作为现代信息技术的积极用户,同时作为承担信息收集、组织和处理使命的专门机构,图书馆始终关注关联数据的研究及其应用,积极探索将图书馆数据发布为关联数据的方式方法。目前图书馆数据关联数据化的案例越来越多,如美国国会图书馆的Ed.Summers早在2008年就建立了lcsh.Info网站,并将LCSH(《国会图书馆标题表》)以关联数据的形式发布,这是知识组织系统数据关联数据化的典型代表;同年瑞典国家图书馆也将瑞典全国联合目录LIBRIS采用了关联数据框架,由此而成为全球首家关联编目数据的提供者,这是首个实现图书馆书目数据关联数据化的案例。更为重要的是,上述两个项目不是彼此孤立地进行的,而是相互连接的。如LIBRIS的瑞典语主题词可以通过lcsh.Info提供的URI和美国国会图书馆主题词关联起来,从而完成了一个图书馆数据关联数据化的开拓性试验。

       截至目前,根据开源数据门户平台CKAN图书馆关联数据小组站点的统计,图书馆关联数据项目已达57个,总计提供了50多亿个RDF三元组。美国、英国、法国、德国、瑞典、芬兰、挪威、日本等国家图书馆纷纷发布图书馆关联数据,并提供关联数据服务,而且主要集中在书目数据、知识组织系统数据和规范数据等方面。[10]以美国国会图书馆为例,在其关联联数据服务主页(网址:http://id.loc.gov/)上提供了可供检索的21个数据集,包括LCSH、LC名称规范档(LC Name Authority File)、LCC、内容类型(Content Type)、媒介类型(Media Type)和载体(Carriers)等,除了提供这些数据集的关键词或短语检索外,还提供了RDF/XML、N-Triples、JSON三种下载格式。[11]可见,美国国会图书馆的关联数据服务主要集中在规范数据和词汇方面。此外,OCLC于2012年6月宣布WorldCat增加关联数据服务,成为目前网络上最大的关联书目数据集,并于同年8月提供近120万条最有代表性作品的关联数据下载,其中包含8000万个RDF三元组。2014年2月,OCLC宣布将发布1.94亿条关联数据“书目作品”描述,并以“WorldCat关联数据探索”界面提供。这次是把经整理过的WorldCat书目作品数据完全以关联数据方式发布。该界面除了提供给人看的HTML格式外,还提供Turtle、N-Triple、JSON-LD和RDF/XML四种关联数据格式。[12]

       此外,从LOD(关联开放数据)云图可以看出,LCSH、VIAF(《虚拟国际规范档》)等知识组织系统数据集及规范数据集是图书馆关联数据外联的重要数据源,DBpedia(维基百科的关联数据应用)是图书馆关联数据集主要的关联对象。[13]

       在国内,以上海图书馆和中国科学技术信息研究所等图情机构在理论研究的基础上,积极探索图书馆数据的关联数据化应用并给出了实验原形系统。例如,通过MushUp技术将图书馆OPAC混搭外部和内部的关联数据集,实现了为用户提供书目信息的同时,还向用户提供作者简介、照片以及与作者有关的信息,从而大大提高了网络环境下图书馆资源被发现的几率。[7]此外,在国家社科基金和教育部人文社科基金的资助下,欧石燕构建了面向关联数据的语义图书馆资源描述和组织框架,初步实现了基于语义的数字图书馆的关联数据化应用。[14]对于我国图书馆而言,这些有益的探索无疑具有很高的研究价值和实践意义。

       3 图书馆数据关联数据化发展的几点启示

       综上,关联数据是万维网发布语义信息的最为简单的方式,同时也是下一代书目数据获得开放应用的关键技术之一,它可以将RDA编目的数据直接以机器可理解的方式发布和链接,使图书馆标引的大量内容描述和知识关联信息在互联网上得到最广泛的利用,并使互联网的知识组织更加规范有序。[15]在从文献编目到资源编目的转型期,OCLC、十多个国家图书馆以及欧洲部分高校图书馆纷纷将书目数据、知识组织系统数据、规范数据等数据发布为关联数据,而且近年来提供关联数据服务的图书馆网站越来越多,即图书馆数据的关联数据化已成为一种趋势。从世界范围内图书馆数据的关联数据化发展我们可以得出几点启示:

       (1)理念要不断创新。语义网及其关联数据等新技术带给图书馆的不仅是环境、技术、标准的改变,更深层次的则是理念的创新。理念创新才是图书馆在转型时代推进技术创新、流程创新和服务创新的根本保证。面对新环境、新思维、新技术的挑战,实现图书馆向语义网环境下资源编目的全面转型,图书馆要牢固树立“用户为中心”的思想,动态调整图书馆的战略及其政策,不断提高用户的信息体验和满意度。在W3C图书馆关联数据孵化小组的最终报告中指出“图书馆领导者应尽早确定哪些数据集可以以关联数据形式发布,应尽早确定高优先级、低成本的关联数据项目”。[16]我国图书馆也应学习借鉴国际编目界近年来陆续出现的新理念、新思想,如FRBR系列(含FRBR(《书目记录的功能需求》)、FRAD(《规范记录的功能需求》)、FRSAD(《主题规范记录的功能需求》))概念模型,这些理念从根本上打破了传统元数据的描述与组织的理念与方法,为组织不同类型、不同层次、不同粒度的信息资源、更清晰地描述和聚合相关资源提供了模型基础。基于FRBR模型的新一代的编目规则RDA旨在发展成为适用所有资源类型描述的国际标准,如今已经进入资源编目的实际应用阶段。RDA可将描述粒度细化到实体对象更有利于实现数据的关联化,有利于提高图书馆关联数据发布和服务的质量。因而它被学界视为“图书馆由传统数据观转型至关联数据及语义网的开端”。[10]

       (2)技术路线要大胆革新。为了将图书馆的优质资源融入开放互联的数据网络,图书馆就要尝试采用关联数据及其大数据这些革命性的数据技术,大胆突破传统的资源描述专用格式如MARC格式的局限,积极探索采用新一代编目规则和数据化技术,将书目数据、知识组织数据及规范数据等关联数据化,这不仅可以使图书馆的关联数据被外部数据源利用,也可以整合外部的优质数据资源,为用户提供更加丰富的知识服务。正如曾蕾老师所强调的,关联的开放数据将给图书馆带来极大的机遇和财富,因为关联数据的使用,将使图书馆的书目数据与互联网无限的知识信息连接起来,从此图书馆将以书目信息的提供作为服务的起点而不是终点,并将用户带进更为广阔的知识海洋。[8]

       (3)实践上要积极探索。常言道,有为才能有位。现代图书馆发展的历史告诉我们,不在语义网时代爆发,就在语义网时代被边缘化,进而失去自己的位置。语义网环境下图书馆的资源描述、组织与服务必须要打破传统的那种专有、封闭的技术路线,及时更新理念,创新采用通用的语义化、数据化技术路线,将数据融入开放互联的数据网络,为用户提供全新的搜索体验,让用户共享图书馆优质的关联数据服务,进而提升现代图书馆的价值。

       目前,与国外图书馆竞相发布关联数据集并提供服务的实践相比,我国图书馆当奋发有为,迎头赶上。为此,我国图书馆尤其是国家图书馆应抓住机遇,主动作为,制定并动态调整图书馆的数据化发展战略,整合专业机构技术力量,可以与高校图书馆及有关图情机构开展合作研究,还要与计算机界、网络界技术人员合作,积极探索将我国图书馆数据集发布为关联数据的方式方法,为我国图书馆数据集的开放共享作出榜样,同时也为推动我国图书馆的数据走向国际化作出应有的贡献。

       (收稿日期:2014-04-10)

标签:;  ;  

图书馆从数据联想到相关数据的发展及其启示_图书馆论文
下载Doc文档

猜你喜欢