论基于关联数据的知识链接构建与应用,本文主要内容关键词为:链接论文,知识论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2013-08-02
1 引言
知识链接是知识服务的基础。知识链接可以定义为根据知识对象之间的关系将他们联系起来的过程、方法和技术[1]。广义的知识链接可以指知识对象之间点到点、点到面以及面到面的关联;狭义的知识链接指根据知识对象之间严格的点对点的关联关系来链接知识对象。知识链接是以知识之间关联关系为中介建立的纽带。
目前已有的关于知识链接的研究主要集中在三方面:基于参考链接技术跨组织的知识链接、基于引文关联的知识链接以及基于知识概念关联的知识链接。贺德方、陈定权等对参考链接技术的文献交叉解释与集成整合进行了研究[2-3]。曾建勋等提出了知识链接的4种构建方式:基于科学文献的知识链接、基于知识元的知识链接、基于科学对象的知识链接、基于知识要素的知识链接[4],并着重研究了基于引文的知识链接系统构建及服务体系[5]。周晓英等对引文网络的知识链接框架进行了研究[6]。谈春梅等对网络专题知识组织和知识元自动抽取系统进行了开发设计[7];温有奎在布鲁克斯提出情报科学基本方程的基础之上,提出了知识的进化结构公式,并随后构建了知识元链接框架结构[8]。
2006年,互联网之父T.Berners-Lee在《关联数据构建笔记》[9]等一系列文章中分析了Web的发展和演化,提出了当下发展数据网络(Web of data)的思想,而数据网络的核心和关键则是关联数据(linked of data)。关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识,发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人机理解的语境信息[10]。
顺应互联网技术的发展,利用关联数据技术构建知识链接将是知识链接的发展趋势。本文从关联数据的内涵及其链接机制入手,探讨以利用关联数据技术构建知识链接的优势、构建模式、具体方法以及知识链接的类型;进而建立基于关联数据的知识链接的应用框架,并对基于关联数据的知识链接的应用进行展望,从而从理论和应用上构筑开放关联的知识链接网络,打破知识领域的局限,消除知识孤岛。
2 关联数据及其链接机制
2.1 关联数据的概念与原则
关联数据是一种建立在现行Web通用标准之上的结构化数据发布与共享方法,能够在实例数据或类数据之间构建关联关系,并提供人和机器共同理解的语境信息,从而为多来源数据的互联融合与开发共享提供语义途径[11]。
T.Berners-Lee为关联数据总结了4个原则[12],很好地概括了关联数据的基本特性:①使用URI作为任何事物的标识名称;②使用HTTP URI,使任何人都可访问URI标识名称;③当有人访问某个标识名称时,提供有用的RDF信息;④尽可能提供相关的URI以使人们发现更多的信息。成熟的URI、RDF、HTTP技术构成了关联数据的三个基石。
基于现有网络通用标准协议的技术架构赋予了关联数据实现的可行性与实施的便捷性,面向语义关联关系的RDF链接机制则赋予了关联数据反映和解释主客观世界内在本质特征的语义能力,同时面向人机共同理解处理的结构化特性也赋予了关联数据语义网下广阔的应用空间与无限的可能。
2.2 关联数据的链接机制
2.2.1 关联数据的RDF链接 关联数据采用RDF资源描述框架作为基本数据模型。RDF是一种主语—谓语—宾语的三元组数据结构,旨在提供基于实体或概念间语义关系的数据模型,从直观上看RDF资源描述框架表现为一种点—线有向图形式,主要针对来自复杂信息源的异构信息进行集成化描述,并协调目前Web中的多种数据模型[13]。
以关联数据的RDF三元组的模式描述资源实体,其宾语既可以是资源URI也可以是文本值。因此,RDF三元组也分为两种基本类型,即文本三元组(literal triples)和RDF链接(RDF links),它们分别承担着资源实体的属性描述与关联表达的不同功能。文本三元组的宾语为字符串、数字、日期等文本,通常用于描述资源实体的类型属性与内容特征等对象化信息。而对于RDF链接而言,其RDF三元组的主谓宾语均由URI标识所构成:主语和宾语的URI标识可来自于相同或不同的数据集;谓语的URI标识可来自于内含语义属性词汇集。通过语义化的谓语词汇集,RDF链接能够描述主语与宾语之间丰富多样的语义关系,从而满足资源实体之间关联化描述的需求。因此,对于关联数据而言,构建RDF链接尤为重要。
2.2.2 RDF链接聚合功能 如前所述,关联数据的RDF链接中的主语、宾语可能来自相同或不同数据集中的URI组成。当RDF的主语和宾语的URI标识来源于同一数据集内部时,RDF链接描述了同一数据集中不同实体的关系,则称该RDF链接为内部链接。当RDF链接的主语和宾语URI标识来源于不同数据集时,RDF链接描述了不同数据集的资源实体之间的关系,则称该RDF链接为外部链接或跨域链接。对于RDF链接来说,内部链接和外部链接分别对同一数据集内部和不同数据集之间的实体起到链接的作用。尤其是外部链接建立了不同数据集中实体之间的关联,从而将数据网络中两个原本独立的数据集关联在一起。而且这两个数据集之间很可能存在不止一个RDF链接,而多个外部RDF链接的复合关联使数据集构成一张有机的关联网络[14]。最终以RDF链接为桥梁实现相关的数据集的充分聚合。
从语义角度来看,关联数据自身的语义属性与开放特征也使得这一数据网络具有很强的资源聚合能力。关联数据聚合的基本依据则是数据背后实体或概念之间的语义关系,并具体表现为关联数据网络中的RDF链接。RDF链接能够通过声明任意实体URI之间由谓语所定义的语义关系,将来自相同或不同数据集中的实体对象关联起来,并最终构建一个全新的语义聚合网络。而RDF链接就如同传统Web文件网络中的超链接一样成为整个数据网络的骨架和灵魂。
3 基于关联数据的知识链接构建
3.1 关联数据构建知识链接的优势
关联数据凭借其语义化和关联化的链接机制,能够提供一种更为通用灵活的数据发布与共享机制,并帮助用户更容易地发现和链接来自不同知识领域的知识对象。具体而言,关联在知识链接的应用中有以下优势:
3.1.1 统一的知识对象描述模型 关联数据使用的RDF资源描述框架为知识链接提供了统一的描述模型。结构化的RDF数据模型使得知识链接描述得到了清晰的表达,而且RDF三元组的URI采用源于各种词汇集的URI标识知识对象实现了跨领域知识对象的规范描述,为知识跨领域共享提供了基础。与之相比,现有知识对象描述往往依赖于多种不同的数据模型从而导致了数据整合过程中的异构性难题。
3.1.2 通用的知识对象获取机制 传统的知识链接受知识类型和领域的影响,知识链接的构建方式方法有较大差异,导致知识的可获取性受到知识的领域、类型、链接构建方法等限制,如开放参考链接与主题图知识的获取方法有很大差异,难以进行整合。基于关联数据的知识链接,所有知识对象都用规范的关联数据方法建立知识链接,采用URI作为知识对象的唯一标识,任何人、任何领域知识都可以通过通用的HTTP机制解释和检索知识对象的URI,可实现知识链接独立于任何领域、来源、系统和平台,具有较高的可获得性,降低了跨领域、跨来源、跨系统的知识链接整合的成本。
3.1.3 灵活的知识发现机制 以关联数据为基础的知识链接,使用URI作为各种领域资源的唯一标示符,在来自不同数据集的知识对象之间构建丰富的RDF链接,从而将所有各领域知识连接成为一个相互关联的全球知识空间,并能通过关联数据平台提供的链接嗅探机制随时发现新的知识源。
3.1.4 语义化的知识关联网络 在传统知识网络环境下,字符串描述占主导地位,字符表达的语义具有不透明性,知识的语义及关系难于理解与利用。采用关联数据发布的知识链接RDF三元组,通过引用公认概念词汇集的URI作为谓词,任何人和机器都可以清晰地理解和获取这些语义关联描述。结构化的关联数据表达使知识链接在网上能传递透明和清晰的语义概念。
3.2 基于关联数据的知识链接模式
关联数据提供了在遵从统一的网络结构和标准的前提下发布和链接数据的语义化和关联化的技术基础。基于关联数据的知识链接模式实质上是基于关联数据的RDF链接机制来创建、描述与链接知识对象的知识组织模式,如图1所示。
图1 基于关联数据的知识链接模式与示例
3.2.1 以URI作为知识对象的标识名称 关联数据的URI可以为存在于世界上的任何实体提供一个普通的标识,同样也能标识任何的知识对象。如图1示例中,主语University of Chicago采用了DBpedia数据集的URI(http://dbpedia.org/resource/univesity_of_chicago)来标识,宾语Chicago采用了Geonames数据集的URI(http://sws.geonames.org/4887398)来标识。实际上,不管是存在于Web上的知识对象(如数字化的文献、文献中的图片、表格等知识要素、知识元概念等),还是存在于真实世界的非Web知识对象(如文献作者、研究机构、团队、科研人员关系等),对于不同类型或不同领域的知识对象,可以选择该类型或领域特定的命名空间。
3.2.2 采用HTTP/URI机制解释和获取标识的知识对象的URI 任何知识对象的URI标识都必须能通过HTTP协议被解释为知识对象描述信息,并能通过HTTP检索机制,在万维网上查找该URI知识链接的RDF描述文件。示例中的主语University of Chicago和宾语Chicago的URI均以HTTP开头,表示其采用HTTP极致进行检索和解释。这种简单而通用的解释检索机制,不但可以定位文献、知识、概念等,还可以检索到那些无法通过网络方式传输的知识对象的RDF描述信息,例如文献的作者、科研机构等。
3.2.3 以RDF三元组形式构建知识链接 采用RDF的主—谓—宾三元组作为知识链接的描述结构,用以描述海量知识对象之间的属性特征与关联关系,如科研成果与作者的关系,研究机构与科研项目的关系等实在的知识对象之间的关联关系。在图1中,采用来自FOAF词汇集的谓语foaf:based_near(URI为http://xmlns.com/foaf/0.1/based_near)描述语义University of Chicago在Chicago附近,从而将主语和宾语的知识对象链接起来,构成知识链接的RDF三元组。
3.2.4 RDF知识链接中尽可能提供相关知识对象的URI 在知识链接的RDF三元组中,除主语必须使用URI进行标识外,谓语和宾语尽可能多地使用URI进行描述。RDF三元组的主语、宾语都采用来自相同或不同数据集中的URI描述,并通过源于语义词汇集的谓词URI链接起来,从而构成具有明确语义的RDF内部链接和外部链接。正是这种灵活而明确的内、外部链接机制,能将跨领域、跨类型的知识对象链接成一个整体的知识链接网络。正如示例中提供了与University of Chicago相关的知识对象Chicago的URI,由此将DBpedia与Geonames两个不同领域的知识集合链接起来。
3.3 基于关联数据的知识链接构建方法
3.3.1 知识对象的URI标识 关联数据的RDF链接使用URI作为资源实体的标识名称。对于知识链接来说,要以唯一的URI作为每一个知识对象的标识名称,包括各种知识内容要素,如数字化的文献、文献中的图片、表格等知识要素、知识元概念等,还有各种知识的外部要素,如文献作者、研究机构、团队、科研人员关系等。对于不同类型或不同领域的知识对象,可以采用领域或类型相关的后缀标识符结尾加以区分。
以URI作为知识对象的标识名称,需要:①在可控的命名空间内定义知识对象的URI;②选择知识对象合适的主键,确保每个知识对象的URI的唯一性,例如可以选择ISBN作为书籍的URI的一部分;③保证URI长期存在、可解释;④保证URI短小、易记。这4点保证了URI的唯一性、稳定性、持久性和有效性。
图2 跨域知识链接的聚合功能[15]
3.3.2 创建RDF链接
·建立有效的RDF链接。知识链接的RDF三元组描述的是主语知识对象与宾语知识对象的关联关系。为了使用户及抓取工具能根据知识链接发现更多的相关知识,知识链接需要是有效的RDF链接,需要包含描述宾语知识对象的URI,尽可能不使用空白节点和少使用普通文字。
选择语义化的词汇集。主语和宾语采用URI标识的知识对象,而描述链接关系的谓词也可以使用来自于公认词汇集的URI。如FOAF词汇集可以描述知识链接中科研人员兴趣、专业、单位以及之间的关系;都柏林核心词汇集DC可以描述知识对象的一般元数据属性;简单知识组织系统SKOS可以描述知识对象的分类组织结构;网络本体语言OWL可以描述知识本体;项目描述DOAP词汇集则可以对知识(科研)项目进行描述;复审词汇RDF Review Vocabulary则可以用来描述对知识产品和服务的评价。谓词URI选择来自合适的词汇集,能使知识链接的RDF描述语义更加明确,用户和网络抓取程序也能更容易获取知识链接,并能通过这些共用词汇集的词汇及其词间关系建立更多无形的知识链接。
·构建跨域的知识链接。知识源于多种学科领域,具有不同的表现形式。从知识链接的角度来看,能将某种知识关联到其他领域、其他来源知识的知识链接是最有价值的,因为他们将不同的知识连接成为一张知识网络。这种跨域的知识链接实质上是一个关联数据的RDF外部链接。具体而言,这种跨域的知识链接是主语和宾语分别来自不同知识源(数据集)的RDF描述。用户通过该链接,实现从最初的知识源跳转至其他知识源,从而发现更多潜在的知识对象。跨域的RDF链接也是遍历知识链接网络的关键,具有聚合知识的功能。
从图2看出,用户从Richard的FOAF资料入手查找此人的信息,获得Richard的URI标识(http://ri.hard.cyganlank.de/foaf.rdf#cygri),浏览该URI的描述元数据,以foaf:based_near为谓语的RDF描述说明Richard住在柏林附近。而在这一RDF描述中,采用了DBpedia里的柏林的URI别名(http://dbpedia.org/resource/Berlin),若用户对柏林有兴趣,点击该URI,浏览器在被HTTP重定向后,在DBpedia里检索更详细的描述柏林的RDF描述。由此,FOAF的RDF图与DBpedia的RDF图通过共用一个URI(http://dbpedia.org/resoure/Berlin)而自然地融合在一起[15]。跨域知识链接的谓词通常是比较有影响的链接谓词,如owl:sameAs、foaf:homepage、foaf:topic、foaf:based_near、foaf:page、foaf:primaryTopic、rdfs:seeAISo等。
3.3.3 知识链接的发布与维护 发布知识链接关联数据的同时,应该提供所发布知识链接的元数据,如关于知识链接的创造者、创建日期、创建方法、RDF链接认证、RDF链接变更记录等元数据信息。这些元数据元素集可以参考DC元数据、语义网发布词汇集(Semantic Web Publishing Vocabulary)以及开放来源模型(Open Provenance Model)等[16]。通过知识链接的发布元数据,用户和网络抓取工具能够评估知识链接的可信性,评价知识链接的质量,并选择合适的访问途径来获取知识链接,从而提高知识链接的效用。
由于知识关联数据集合会伴随知识对象的频繁变化处于不断变动之中,从而导致其所包含的RDF链接也发生相应改变,因此,必须建立各类RDF链接的动态维护机制,及时修补链接、删除已消失的链接并建立新链接,从而保证基于语义关联的资源聚合的准确性和有效性。目前已有很多实现这一功能的维护机制,如Triplify更新日志方法、SparqlPuSH广播方法、DBpedia Live方法、PingTheSemanticWeb方法等,此外还有基于Wod-LMP协议或主动监测机制的RDF链接动态维护机制[17]。
3.4 基于关联数据的知识链接类型
赵蓉英(2007)将知识网络结构中的知识关联分为同一性关联、隶属性关联与相关性关联[18]。T.Heath与C.Bizer(2011)将RDF链接按功能分为等同链接、关系链接与词汇性链接[19]。有鉴于此,基于关联数据的知识链接可按其链接的功能分为等同链接、相关性链接和词汇性链接三种类型。其中,等同链接与相关性链接主要负责在存在等同或复杂关联关系的知识对象之间构建知识链接;词汇性链接则用于在描述知识对象的概念术语之间构建语义关联。
3.4.1 等同链接 在开放网络环境下,某一知识对象可能会有多个关联数据发布者对其进行URI标识,从而产生针对同一对象的多个URI,称为URI别名。为了能够对描述同一知识对象的多个RDF描述予以聚合,就需要在URI标识之间建立等同链接。等同链接是由关联数据集中某一知识对象URI指向其他数据集中相同知识对象URI别名的RDF链接。通过该链接能够将采用不同URI命名的相同知识对象关联在一起。通常使用owl:sameAs来声明两个URI是同一知识对象。由于关联数据集众多也变动频繁,因此知识链接发布者在URI命名中难免要面对大量URI别名,而等同链接以一种发展和去中心化的视觉,使得发布者能够在自有命名空间内命名新URI,并使用等同链接将自有命名的URI链接到其他数据集中,实现相同知识对象的聚合。
3.4.2 相关性链接 由于知识对象之间丰富的关联关系并无法通过单一的等同链接加以描述和概括,因此在等同链接之外还需要利用更多样的相关性链接描述错综复杂的语义关联。相关性链接由关联数据集中某一知识对象的URI指向其他数据集中与之存在任意关联的其他知识对象的URI,而链接的主语、谓语和宾语均可利用HTTP解释机制获得各自的RDF描述。由于这些相关的描述信息之中通常还会包含更多指向其他知识对象URI的RDF链接,因此能够被关联数据HTTP解释机制再次解释。如此从一个知识对象URI出发,可以不断通过一个个相关性链接组成的路径,链接到众多跨域的相关知识对象URI,最终将所有存在关联的知识对象聚合成为一个趋于无限的知识关系网络。目前,常用的词汇集FOAF、SKOS、DOAP等都提供许多用于相关性链接的谓词词汇,如在FOAF词汇集中foaf:homepage、foaf:topic、foaf:based_near、foaf:primaryTopic、foaf:topic_interest、foaf:knows等都可用于相关性链接。
3.4.3 词汇性链接 词汇性链接是由关联数据词汇集中某一概念术语指向其他与之存在知识关联的名词术语的RDF链接。对于基于关联数据的知识链接来说,由于知识链接的描述往往会平行使用FOAF、SKOS、DOAP、OAI-ORE等多个权威词汇集甚至自行定义词汇对实体资源进行语义描述,因此在鼓励用户通过词汇集URI复用原则尽量避免描述概念体系之间异构性的同时,还需要在异构词汇集之间积极创建词汇链接,从而在概念层面实现基于不同词汇集所创建关联数据之间的聚合。目前常用的词汇性链接主要来自RDF Schema或OWL本体语言所提供的属性关联,如表征用代关系的owl:equivalentClass,owl:equivalentProperty以及表征属分关系的rdfs:subClassOf,rdfs:PropertyOf等。实际上,由于知识对象均需要利用各类词汇集进行语义描述,因此词汇集中概念术语之间构建的词汇性链接越丰富,知识对象之间基于RDF链接的聚合效果也越好。
4 基于关联数据的知识链接的应用框架
关联数据作为一种应用型的技术,T.Heath等(2011)提出了其应用框架[19],为关联数据的广泛应用奠定了基础。同样,作为一种应用型的知识组织模式,基于关联数据构建的知识链接的应用实践具有可行性。为此,参考关联数据的应用框架,笔者构建了一个4层结构的基于关联数据的知识链接应用框架,为基于关联数据的知识链接的应用实践提供一个参考架构(见图3)。
4.1 知识描述层
知识描述层,用关联数据方法描述和封装各种知识对象。知识对象可以主要来源于科学文献知识(如学术论文、引文、专利、标准等)、科学对象(如科学共同体、作者、机构、团队等)、知识要素(如文献中包含的大量技术、项目、产品及其参数、指标、相关的图形表格等)、知识元(知识概念的最小单位,用语词或词组表达的单一概念或事物)等。知识描述层抽取各种来源的知识对象,用关联数据规范来描述各种知识对象。
4.2 知识链接层
知识链接层,基于RDF三元组形式,建立和维护知识对象之间的相互链接,构成知识链接图。知识链接层是一个知识链接的网络。知识对象的RDF描述中包含了尽可能多的RDF内部与对外链接。这些链接以RDF三元组方式定义了知识主体与客体之间的关系,从而建立了知识对象之间的点对点链接。众多的知识链接构建一个虚拟的知识链接网络。
图3 基于关联数据的知识链接应用框架
4.3 知识整合层
知识整合层,获取知识链接的关联数据,并通过映射、解释、数据质量评估等处理后,将知识链接的关联数据存储到整合的Web数据仓库中,并以SPARQL或RDF API等应用接口提供应用程序使用。目前流行的关联数据整合系统有D2R Server、Tail Platform、Vintuoso University Server、Vapour、Pubby等。这些系统使得知识链接的关联数据的整合和发布无需关注技术细节,只需关注链接数据本身。
4.4 知识应用层
知识应用层,主要为用户提供知识检索、知识评价、知识发现和知识重组等服务。知识服务层处理用户与知识链接的交互,接受知识用户用接近自然语言的方式提出的知识需求,如查找知识、共享知识等,并通过各种开放应用服务系统为用户提供知识获取(检索、导航、推送)、知识评价、通过互相关联的知识链接,进行知识发现和知识聚类与重组等服务。
4.5 应用框架的实施
在实施过程中,知识服务者可按照上述的应用框架,专注于各自所长,实现基于关联数据知识链接的应用链:数据提供者在知识描述层与知识链接层中提供各领域有用的知识链接关联数据,构成分布的知识链接网络;数据集成者在知识整合层中通过数据抽取、映射、解释、质量评估、整合等处理过程,将知识链接的关联数据整合成Web数据仓库;应用服务提供者基于知识链接的Web数据仓库,开发应用程序,为用户提供知识检索、知识发现、知识重组、知识获取等的知识服务。
5 应用与展望
目前关联数据的广泛应用中不乏涉及知识链接的应用案例。如美国国会图书馆利用一套RDF词表——SKOS(简单知识组织系统),将传统的主题标目的知识关联转换成Web可用的关联数据形式。又如,一些通用的SKOS数据已经可以从多个层面上与外界资源进行链接,如地理标目GeoNames、CIA World Fact Book、LCSH概念链接、维基百科语义版DBpedia等。瑞士国家图书馆开放的关联数据使用的词汇表包含了DC、SKOS、FOAF和Bibliontology,并创建了到LCSH和DBpedia的外部链接。然而,当前这些基于关联数据的知识链接应用案例普遍处于起步试验阶段,其应用层次及应用框架各异,导致各自的知识链接数据难以共享互联。因此,采用统一的应用框架将是今后推广和应用基于关联数据的知识链接的关键所在。
关联数据作为新一代语义互联网的实现方式,将引领未来的网络潮流。基于关联数据技术构建知识链接是顺应潮流之举,将引领知识链接朝着开放、关联、语义化的方向发展。