基于开放关联数据的数字档案资源跨媒体知识链接研究,本文主要内容关键词为:链接论文,档案论文,数字论文,知识论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
DOI:10.16065/j.cnki.issn1002-1620.2015.04.021 1 开放关联数据及其链接机制 1.1 开放关联数据的含义 2006年,“万维网之父”Tim Berners-Lee提出了“关联数据”理念,力图探索在Web网络中发布结构化数据,并构建数据间关联的最佳实践方式。2007年,W3C(万维网联盟)的SWEO(Semantic Web Education and Outreach)专门申报了开放关联数据(Linked Open Data,LOD)项目,致力于在Web上以RDF的格式发布开放数据,并标示不同数据集间数据的关联关系,以此来推动数据Web的发展。[1]2012年,Florian Bauer认为开放关联数据是为了摆脱现有Web网络信息的粗粒度与语义性缺失的现象,通过发布和链接结构化的数据使分散异构的数据实现语义关联,并借助语境将信息和数据整合,创造新知识进而提供有效服务和知识应用。[2]开放关联数据促进了关联数据的知识创新,也是信息管理和信息集成的重要途径。 由于开放关联数据充分借鉴了Web网络的开放性、泛在性与链接性,并广泛采用语义网技术模式,因而它在实现全球范围内数据的开放互联方面具有明显的优势。另外,它构建富含语义的数据网络,提供人和机器共同理解的语境信息,在很大程度上为数据的开放共享提供了现实可行的途径。当然,在互联网上推行关联数据,首先要遵循关联数据的发布原则,并在现行Web通用标准的基础上建立结构化数据发布与共享方法,构建数据关联关系,建立一个数据映射网络,进而通过对对象及其相互之间关系进行机器可读的描述,实现语义的知识链接,[3]从而使任何人都能够借助整个互联网的计算机和运算能力,在更大范围内,准确、高效、可靠地查找、分享、利用这些相互链接的信息和知识。目前,W3C(万维网联盟)在全球范围内推广关联数据,倡导开放关联数据项目,希望通过关联数据框架来实现数据的公布和链接,进而引导每个人都能在互联网上自由地发布和使用数据,开创全新的知识服务局面。目前,该领域的最佳实践主要有Wikipedia、Wikibooks、the DBLP bibliography、Geonames、WordNet等项目。 1.2 开放关联数据的链接机制 开放关联数据可以实现语义环境下知识关联和集成,并能够通过开放的网络发布方式实现信息、知识的自由获取和重用,进而依托灵活的语义链接机制,构建语义层面的关联数据网络,最终实现信息与知识的语义共享。然而,这一切的实现均离不开其灵活的语义链接机制。从实现角度来看,开放关联数据的语义链接主要依赖于URI链接机制和RDF链接机制。 (1)URI链接机制。开放关联数据利用URI来标识和定位知识对象。URI是保证基于开放关联数据的知识指示性、动态性和跨域性的重要手段。特别值得注意的是,在利用URI链接本地资源的过程中,应当优先考虑LOD核心开放关联数据集之中是否存在相关资源的权威URI,寻找匹配URI命名对象相同的资源URI,而无需由开放关联数据创建者或发布者创建新的URI标识。这一机制能够为开放关联数据的发布提供各类概念组织体系、本体结构框架和术语名称规范的知识链接,从而为基于链接机制的开放关联数据共享网络构建奠定基础。 (2)RDF链接机制。为了实现语义层面的数据共享,还需要借助开放关联数据集中客观实体或抽象概念之间的RDF链接机制构建开放关联数据网络。RDF是语义Web知识表示的最基本模型,建立在XML层之上,开放关联数据采用RDF三元组的主—谓—宾结构作为基本数据模型,其主语、谓语、宾语均由相同或不同开放关联数据集中的URI构成。从本质上讲,RDF是一种基于点线图的数据模型,其中三元组的主语与宾语均为独立的数据节点,分别代表开放关联数据集中的客观实体或抽象概念URI,可以表达任何在Web上被标识的事物的信息,实现对数字档案资源中的知识单元的描述。[4] 2 基于开放关联数据的数字档案资源跨媒体知识链接模型构建 开放关联数据本质上是一组语义化的共享数据的集合。目前,将开放关联数据运用到数字档案资源的知识链接服务工作,不仅可以使数字档案资源在更大范围内实现共享、促进知识合作与交流,而且还可以将文本型、图像型、音频型、视频型档案资源等整合起来,最大限度地挖掘数字档案资源,为用户提供便捷的一体化档案信息与知识服务。基于此,本文利用开放关联数据理论与技术来探讨不同媒体类型数字档案资源之间知识链接问题(即跨媒体知识链接问题),构建数字档案资源跨媒体知识链接模型。 2.1 基于开放关联数据的数字档案资源跨媒体知识链接描述 知识链接(Knowledge Linking)是知识与知识之间以某一中介为纽带,通过知识概念、科学引证、实体对象等关联来建立的。在知识节点的继承性和逻辑性基础上,通过知识关联将具有同一、隶属、相关关系的单元知识,按照特定的需求有序地联系起来,形成序列化或结构化的知识集合,继而构成知识网络的一种技术措施、手段和行为。[5]档案知识链接所建立起来的是具有参考价值的知识关联关系,包括主题链接、行为关系链接、本体链接、聚类关系链接、属性链接以及推理链接等关联途径。档案知识链接是知识层面的网络链接,它具有一般网络链接的共性,但又不同于一般的网络链接,它体现在其结构同相关领域知识结构的一致性。 开放关联数据是基于语义化技术的统一网络结构和标准的前提下发布和链接的数据。基于关联数据的档案知识链接模式实质上是一种运用关联数据的RDF链接机制来创建、描述与链接档案知识对象的知识组织模式。 开放关联数据的URI可以为任何档案实体提供一个普通的标识,同样也能标识任何的档案知识对象。图1中的主语National Archives of the United States采用了DBpedia数据集的URI来标识,宾语采用了Geonames数据集的URI来标识。实际上,不管是存在于Web上的档案知识对象(如数字化的公文、图片、表格、音频、视频等要素),还是存在于真实世界的非Web档案知识对象(如责任者、形成单位、文号、密级等),对于不同类型或不同领域的档案知识对象,可以选择该类型或领域特定的命名空间。图1采用RDF的三元组作为档案知识链接的描述结构,用以描述档案知识对象之间的属性特征和开放关联关系,如文件与责任者的关系,责任者与形成单位的关系以及与具体社会活动的关系等实在的知识对象之间的关联关系。根据RDF链接机制,谓语采用来自FOAF词汇集,将主语(如National Archives of the United States)和宾语(如Washington)的知识对象链接起来,构成具有明确语义的RDF内部链接和外部链接,把跨领域、跨类型的档案知识对象链接成一个整体的知识链接网络。正如图1中提供了与National Archives of the United States相关的知识对象Washington的URI,才能将DBpedia与Geonames两个不同领域的知识链接起来。简言之,网络中任何开放关联数据均能依据RDF模型发布,并以RDF链接为桥梁,链接成为覆盖全球的完整RDF图和开放关联数据网络。同理,依据RDF三元组可以对档案影像、档案音频进行知识链接的描述并进行开放关联数据的链接。[6] 图1 基于开放关联数据的知识链接图 2.2 基于开放关联数据的数字档案资源跨媒体知识链接模型构建 由图1可以看出,开放关联数据主要利用URI、HTTP、RDF等技术对现有的Web档案信息资源进行整合分析,从而建立语义关联,实现Web上的各种档案信息和知识的开放共享。基于开放关联数据的数字档案资源跨媒体知识链接模型(图2)不仅实现档案网站内文本型档案、图像型档案、音频型档案和视频型档案的知识链接,而且还能借助RDF三元组的URI标识档案知识对象,实现了跨网站档案知识对象的规范描述,为实现跨媒体知识共享奠定基础。图2的模型通过以下流程实现档案资源跨媒体知识链接的聚合功能。 图2 基于开放关联数据的数字档案资源跨媒体知识链接模型 (1)数字档案网站内部多媒体信息的语义化链接:数字档案资源有大量的文本信息,文本信息的语义化可以通过运算法则分析文本的词汇和语法,在语义化的过程中将档案文本信息按特性分解为不同结构,便于文本的模式和核心信息分组和分类。常见的文本格式包括结构化的word文档、PDF文档以及非结构化的备忘录、调查表、谈话录、笔记、论坛和报告等。[7]图像型档案资源的语义链接可以分析和抽取档案图像的空间图案和模式,分析和抽取的依据是根据档案图像的色彩、质地、形状、距离和密度。视频和音频型档案资源的语义链接一方面通过音频、视频可识别的模式抽取和分析,另一方面利用数据的相似性分析音频和视频可识别的障碍信息,实现基于内容揭示的索引分类。[8] (2)数字档案网站之间跨媒体信息的语义知识关联网:跨媒体信息的语义知识关联网的形成始于不同档案网站的URI标识,以URI作为档案网站的标识名称,在可控的命名空间内定义档案知识对象的URI,确保每个档案知识对象URI的唯一性、可解释性以及长期的稳定性和有效性。建立有效的RDF链接也是实现语义知识关联网的基础。图2中显示档案知识链接的RDF三元组描述的是主语档案知识对象和宾语档案知识对象的关联关系和相关知识,并通过语义化的词汇集描述档案知识链接中各个要素之间的关系,使档案知识链接的RDF描述语义更加明确。其中,结构化的关联数据表达使知识语义链接在网上能传递更透明和清晰的语义概念,用户和网络抓取程序也能更容易获取档案知识链接,并能通过这些共用词汇集的词汇及其词间的关系建立更多无形的档案知识链接,形成数字档案网站之间跨媒体信息的语义知识关联网络。 3 数字档案资源跨媒体知识链接的应用框架与策略 3.1 数字档案资源跨媒体知识链接的应用框架 开放关联数据作为一种应用型的技术和知识组织模式,将其应用于数字档案资源跨媒体知识链接实践是可行的。它不仅可以借助URI的唯一标识来定位数字档案资源,而且还能利用RDF链接机制来实现数字档案资源之间的知识链接,构建档案知识网络。项目组考察了美国国家档案与文件署和美国国家档案博物馆等数字档案资源,结合目前美国数字档案资源建设和基于开放关联数据的数字档案资源跨媒体知识链接模型,提出数字档案资源跨媒体知识链接应用框架(图3),为数字档案资源跨媒体知识链接的应用实践提供理论基础。 图3 基于开放关联数据的数字档案资源跨媒体知识链接应用框架 美国国家档案与文件署(http://www.archives.gov/)是美国联邦政府的档案业务指导机关。1949年由美国国家档案馆改组而成,原名国家档案与文件局,为联邦总务署的直属局,国家档案馆则成为该局的一个组成部分。1985年正式成为联邦政府直属的一个独立部门,并改称现名。项目组以该网站丰富的档案资源为调研对象,以《独立宣言》(Declaration of Independence)栏目(http://www.archives.gov/exhibits/charters/declaration.html#more)为例,了解其栏目拥有大量的文本(transcription)和高分辨率的图像(images),其中的图像有珍贵的《独立宣言》原始版本和1823年雕刻家William J.Stone的雕刻照片版本。图像库还以图文并茂的形式设立《独立宣言》署名人画廊(The Signers Gallery)以解释各类相关问题。网站可以通过国家宝藏(Our National Treasure)直接链接到美国国家档案博物馆网站(http://www.archives.gov/museum/visit/index.html)和http://recor-dsofrights.org/等其他网站,再通过博物馆网站的take a video tour链接到YouTube。从调研中可以看到,目前美国的档案数字化资源已经实现文本、图像一定程度的资源共享,视频资源可以通过链接到YouTube实现共享,但目前的档案资源建设还难以实现文本、图像、音频、视频等跨媒体的资源共享。本项目组根据调研资料,以调研对象为实例,从理论上设计了基于开放关联数据的数字档案资源跨媒体知识链接的应用框架(图3)。跨媒体知识链接的应用框架共分4层,分别为档案知识描述层、档案知识语义链接层、档案知识整合层和档案知识应用层。 (1)档案知识描述层。本层主要是用开放关联数据方法描述和封装各种档案知识对象,包括通过运算法则描述的文本、按空间图像或空间模式分析和抽取的高分辨率的图像照片、按照内容分类和索引的音频和视频文件。档案知识描述层抽取各种来源的档案知识对象,用关联数据规范来描述和封装各种档案知识对象。[9] (2)档案知识语义链接层。本层在“档案知识描述层”的基础上,利用RDF三元组将各种档案知识对象转化为相应的RDF文件,并通过档案知识对象的RDF内部和外部链接,建立档案知识对象之间的相互链接,构成知识链接图。从理论上来讲,如果将Web网络中所有的开放关联数据视为一个整体,那么任何依据RDF模型发布的关联数据都能够以RDF链接为桥梁,连接成为覆盖全球的完整RDF图和语义关联的开放关联数据网络[10]。相应地,将利用RDF模型发布的各类数字档案资源链接起来,也必然能够实现更大范围的共享。因为这些链接不仅决定了档案资源的语义,而且还通过“属性”关联到其所能链接到的、有关联的其他知识资源。 (3)档案知识整合层。该层的任务就是获取档案知识链接的开放关联数据,并通过档案知识获取、词汇集映射、解释和抽取档案知识特征、评价档案知识匹配和质量评估等程序后,使用RDF、SPARQL标准来提供有用的信息,尽可能提供指向其他URI的链接,将知识链接的开放关联档案数据通过SPARQL或RDFAPI等应用接口提供应用程序使用,使人们发现更多的相关档案知识。目前流行的关联数据整合系统有D2R Setver、Tail Platform、DIPRec数字存储推荐系统,这些系统使得知识链接的关联数据的整合和发布无需关注技术细节,只需关注链接数据本身并实现对用户的跨领域语义推荐。[11] (4)档案知识应用层。它主要处理用户和档案知识链接的交互,[12]处理用户查找档案的行为与共享档案信息需求之间的关系。该层通过各种开放应用服务系统为用户提供档案知识检索、档案知识发现、档案知识评价、档案知识重组、自助式服务、个性化服务等服务。 3.2 数字档案资源跨媒体知识链接的应用策略 开放关联数据可以为用户提供高质量的数据集,可以将不同媒体类型的数字档案资源进行知识集成、组合与关联,为用户发掘更有用的知识。从图3的应用框架来看,用户至少可以从分布式的档案数据集中自动汇聚对其有用的档案知识,并通过创建基于实时数据的应用程序提取有用的信息与知识。目前,实施和应用数字档案资源跨媒体知识链接不是一件容易的事情,它需要采取以下策略: (1)建立档案知识链接的用户行为指南。 数字档案资源跨媒体知识关联网络不仅要建立起各种档案知识关联,实现数字档案资源的无缝整合等,而且必须发挥指引和帮助检索用户快速查询到所需要的档案知识的作用。基于开放关联数据的数字档案资源跨媒体知识链接网络的构建,使档案用户查找所需档案知识的可能空间得到了极大的拓展,但另一方面其检索失败的几率也大大增加。因此,档案信息检索系统应该根据用户的需求,通过档案知识链接的设置和用户界面的设计,以及链接文本、图像、音频和视频及其布局的设计,建立简单易用的档案知识链接用户行为指南。通过用户行为指南,有效地指引和帮助用户在纷繁复杂的链接路径集合中,迅速有效地识别便捷的检索路径,避免效率低下的检索行为,降低用户利用成本。 (2)明确档案知识链接的授权问题。 开放关联数据在图书馆、企业等信息资源管理领域取得了良好的效果,但档案资源不同于一般的信息资源如图书等。在数字档案资源跨媒体知识链接中,明确档案知识的使用和可重用的授权问题十分重要。在授权方面,一是要落实档案知识发布者的授权,确定档案知识的授权使用情况,避免使用没有明确授权的档案知识。二是要注重建立用户的授权机制。这里包含用户私人档案信息发布的授权和用户使用关联链接档案的权利。对于较为复杂的非公开档案在某类用户中的相对公开,可以采用申请—授权访问机制,即用户通过注册申请,管理员经过同意后,授权专用的密码才能进行相应的查阅。 (3)建立开放关联数据的缓存及更新机制。 开放关联数据不是绝对稳定的,有时会出现不稳定,不能保证实时连接。为了防止关联开放档案数据偶尔不能连接的情况,需要建立缓存机制。缓存是介于应用程序和关联数据源之间,其作用是为了降低应用程序对关联的档案数据源访问的频次,提高应用的运行性能。缓存可以实现对关联档案数据源中的数据进行复制,应用程序在运行时从缓存直接读写数据,在特定的时刻或事件中会同步缓存和关联档案数据源的数据。另外,关联开放数据是经常更新的,应用中应该建立相应的更新机制,保证使用的数据是最新的,变更的轨迹是可寻的。 (4)建立稳定的协作方式和合作机制。 数字档案资源开放关联数据的链接是一项需要多组织共同参与的工作,它需要有一套完善的管理和协调机制来保障。数字档案资源的提供者之间要建立稳固的关系,在组织方面应该注重协同方式和合作机制。它不仅要考虑利用何种方式和手段来开展开放关联协同服务,还需要建立合作机制来协调数字档案资源提供方之间的关系,避免档案数据建设的重复。另外,它还需要了解档案资源建设和提供的相关情况,制定开放档案关联数据的组织标准、数字档案资源开放关联的知识链接模型标准以及保障数字档案资源开放关联共享服务可持续发展的各种政策等。可以说,建立稳定的协作方式和合作机制是数字档案资源开放关联链接实现的重要组织保证。 开放关联数据作为新一代语义互联网的实现方式,将引领未来的网络潮流。利用开放关联数据构建数字档案资源跨媒体的知识链接模型和应用框架,实现文本型、图像型、音视频型等数字档案资源的一体化管理与服务,满足档案用户的多元化需求,是顺应时代发展的需要。当前,在数字档案资源跨媒体知识链接方面,需要立足档案知识服务工作的自身特点,充分考虑不同媒体类型数字档案的特性,制定适应于数字档案资源关联发布和跨媒体知识链接的相关标准。标签:rdf论文; uri论文; 大数据论文; 企业档案工作规范论文; 语义分析论文; 文本分类论文; 用户研究论文; 关系模型论文; 网络模型论文; 文本分析论文; 档案管理员论文;