基于RDF的异构信息语义集成研究,本文主要内容关键词为:语义论文,异构论文,信息论文,RDF论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
目前Web主要支持人对文本内容的浏览和搜索。随着大量可获取信息的增加,该模型已变得越来越不适合,它要求被一种新的模型所替代,该模型支持对Web信息源和服务以及智能应用的集成和统一的访问,并要求用标准机制去交换数据和处理不同的数据语义[1]。资源描述框架(RDF)朝这个方向迈出了一步,通过弥合语义差异,RDF提供一个数据模型支持对数据源的快速集成。它通常用于表示其他Web资源如XML文件的元数据。
对异构信息源的集成技术已成为近年来的研究热点之一,人们也相继提出了各种解决方法。但由于应用环境不断变化,特别是XML的推出,新的需求新的问题不断出现,使得人们不断探索新的集成方法和技术,以允许设计应用提供对Web可获得的不同资源一个统一的访问。本文提出一种将按需检索和语义元数据方法合并的新的体系结构:以XML/RDF作为中层的数据描述工具和数据转换工具,建立具有集成能力的中间件,集成已有系统的数据,为用户提供一个统一的查询手段和查询界面。
2 研究方法和相关工作
建立Web信息源集成系统的目的是为用户提供多异构信息源的统一查询机制,让用户像使用一个大数据库一样,用统一的方式使用来自不同数据源的各种数据。原则上讲有两种信息集成的方法:数据仓库(data warehousing)和按需检索(on-demand retrieval)。
2.1 两种集成方法
数据仓库方法(紧密型)是在用户提出查询之前将所有参与集成的数据源收集到一个中心仓储中(如图1所示),然后,提供对这个存储仓储的查询机制。当信息源的数据发生变化时,存储仓储中的数据也要作相应的修改。因此这种间接访问方式可能会带来一致性和可扩展性问题。
图1 紧密型数据仓库集成系统结构示意图
按需检索方法(松散型)数据仍然保存在各信息源,集成系统仅提供一个虚拟的集成视图以及对这个集成视图的查询处理机制,系统必须能自动地将用户对集成模式的查询请求转换为对各信息源的查询,在查询过程中动态地从集成数据源收集数据。如MLX项目,应用一个(虚拟的)XML视图集成结构,采用一种松散的方法用一种专用XML查询语言来评价查询式。由于这种方法不需要重复存储大量数据,并且能保证查询到最新数据,比较适合高度自治的集成数量多更新变化快的Web信息源集成。因此目前的研究多集中在按需检索法。该系统结构如图2所示。
图2 松散型按需检索系统结构示意图
2.2 语义集成
自W3C于1998年宣布XML作为因特网上数据表示和数据交换的新标准,XML已获得巨大成功并被广泛接受为一种对结构化、半结构化数据标记的标准方式。但是,随着语义Web的出现,在此环境下数据应是机器可读的[2](而不仅仅是以人能解释为目标),XML表现出了一些限制。正如在文献[3]所述XML(DTD)的主要限制是只描述语法,XML文档作者自由定义和使用标签(tag)、属性,并任意运用其他语言元素,分配其不同语义来描述他头脑中概念领域模型。由于XML没有制定这些描述的规则,而且有多种方式来表示语义相同的对象,因此很难从XML文档中重建语义含义。
一些文档里关联有元数据(metadata)。描述性元数据说明文档外在含义的字段,如作者、日期等;语义级元数据描述文档的内容。当语义级元数据被标准化后,可用于计算机自动从数据中抽取语义。RDF和RDFS为说明描述性或语义性元数据提供了标准方法。
在RDF的上层,应用其原语如子类(subClassOf)或子属性(subPropertyOf),建立如OIL[4]的本体语言。通过确定概念层次和关系,以及能用于从已知事实中提取新事实的公理,采用这些语言可描述领域本体。一个本体因此可被看作是一个访问异构信息源的语义接口。由此引出了一个新的基于语义的信息集成体系结构:Ontobroker和On-to-knowledge项目[5]建立基于ontology的工具为知识管理提供语义集成的结构。但是从实现原理来看这两个项目都是采用紧密型的方法。
2.3 相关工作
XWRAP[6]是一个能用XML(XML-Enabled)的Web信息源包装建构的系统。XML-Enabled是指隐含在源Web页中关于信息内容的元数据将被抽取出来,并转换为包装文档中的XML标记。该系统由乔治亚科技大学计算机学院开发。
W4F(World-Wide Web Wrapper Factory)[7]是由宾夕法尼亚大学开发的,它是生成Web包装器的Java工具包。W4F基于带有Web包装器(Wrappers)的中间件体系结构,它允许应用程序员使用描述性的声明语言来建立包装器,编译为Java组件并可以作为更大型的应用程序的一部分。
Quilt[8]是一种适于异构数据源的XML查询语言,该语言集现有的几种查询语言的特征于一体形成一种新的查询语言,它还可以从各种不同数据源将信息整合为自己新结构的查询结果。从XPATH和XQL借鉴了在层次文档中导航的语法;从XMLQL中借鉴了绑定变量的思想,然后使用绑定变量创新新的结构。从SQL中借鉴了基于关键词的一组子句来提供一种模式重构数据。从OQL中借鉴了由可以嵌套的几类不同表达式组成的函数语言的思想。
YAT[9]是一个基于wrapper/mediator体系结构的典型的数据集成系统。该系统由BELL实验室和NOKIA共同开发。YAT提供了一种基于规则的表达能力很强的框架结构,能够将映射表示为一般的树变换。YAT能够集成多种异构数据源(从传统的关系数据库到半结构化的Web存储)。
3 基于RDF的体系结构
RDF(S)是新近出现的元数据标准,它的目标将万维网变成一个机器可理解的知识库[10]。这是一个XML应用,它允许对数据进行标注并形成一种Web兼容格式,在一个详细的目标模型的基础上描述概念和关系。本系统的主要目标是提供一个基于RDF的语义级统一接口来查询异构信息源。我们并不想将所有可能的资源合并在一起提供一个所有属性的集成视图。因为它把所有集成资源语义结构的理解都留给了用户,集成视图方法只提供非常弱的语义。
在所提出的结构中假设存在一个由概念层次、关系和公理组成的底层领域模型。这个概念模型(CM)在概念级集中维护,并随着查询而进行动态扩充。CM对应一个本体并代表一个集成数据源的语义集成,它直接用RDF或扩展RDF以及一些高层本体语言来描述。可应用本体工程工具先期创建一个概念模型。具有底层语义模型的主要优点是其资源中的数据被编码成对用户透明,即它可用易于理解的概念来查询或翻译结果(与XML视图相反,查询式可表达为结构形式而不是语义形式)。
如图3所示结构划分为五个独立的层,我们将在下面的章节中分别叙述。
图3 实现异构信息语义集成的体系结构示意图
3.1 资源层
资源层包含外部数据资源如关系型或对象型数据库、HTML页面、XML仓储,或基于RDF(本体)资源等。我们的目标应用假设一般资源能在Web上分布,对资源的主要要求是有能力用XML格式输出数据。为达到这个目标可能需要一些包装(wrapping)过程,但这已超出本文的讨论范围。
3.2 XML示例层
本层提供来自上层的格式化(serialized)的XML数据,当不需要包装过程时,这两层可看成是一层。需要强调的是事先假设的异构性,该结构并不需要XML数据源遵守任何特定结构。由此可允许将XML包装过程留给资源提供者去做。
3.3 XML 2RDF层
本层由XML 2RDF中间层组成,它提供XML示例层和中介层的连接。用户通过定义一个XML数据源到底层CM的映射来一一对应定制每一个XML 2RDF中间层。当解释来自中介层的查询时,这个映射被XML 2RDF中间层用到。
为建立一个从XML例子到CM映射要求:(1)确定模式,即抽取资源描述的概念;(2)采用CM术语重建其语义,即将有关概念与CM的概念关联起来。通常这很难自动进行,而且应用设计者需熟悉步骤(1)和(2)。步骤(1)的难度会随着资源用XML编码方式不同而有所变化。有时资源的概念能在其模式(DTD)中看到。但是,如果资源将概念编码为属性值,DTD就不够。
如果资源是RDF格式(Serialized in XML)或者资源的XML编码附有一些协定(文献[11]中提出的任意XML文件的隐式RDF解释),步骤(1)可在很大程度上自动化并可采用工具帮助设计者去完成步骤(2),如将一个模型的概念与另一个相关联。
假设对一个中介的查询的实际响应要求该中介轮询资源的数据并创建RDF申明,即三元组(Subject,Predicate,Object)。该三元组可看作实例或子原事实并通常从CM中将(Predicate)数据项与概念(Object)进行关联(Subject)。
3.4 推理和中介层
RDF中介是该结构的中心部件。它维护CM提供查询和推理服务,并支持结果的传递。
CM由一个类(概念)层次和类属性以及一组符合有关类或其属性的公理的规则组成。因此通过在检索到的事实组上应用这些规则,可能推理出新的事实。规则可用F-LOGIC来表达,例如下列规则表达了如果某人X属于某一公司Y,则Y可认为X是一个雇员。
Y[employee->X]<-X[affiliation->Y]
基于可伸缩性的原因,为所有可能应用维护一个全局CM(本体)不可取。但是,分布式方法也将可伸缩性带到一个像WWW的环境中,在此体系结构的一个例子是作为另一个体系结构例子的输入源。
中介包括一个RDF分析器,一个查询式分解模块,一个用来推理SiLRI[12]的查询引擎。为支持这些结果的传递,中介也必须执行一个DOM API的本体,为RDF数据模型作修改。在中介收到一个来自应用层的查询式后续续下列步骤:
首先,它分析是否需要应用推理规则解析查询,如果是,则确定哪些是需要去评价推理规则的事实。这里推理引擎假定事实事先已知,但这是与按需检索方法相背的。这正是初始查询式必须被改进的原因,以检索那些能让推理引擎应用该规则的事实。
其次,它把查询式分解为子查询并在中介代理中分发,实际查询由一个来自应用层的导航请求触发。
第三,它从中介代理处收集数据,运用可能的推理规则,构造响应并发送到应用层。
3.5 应用层
大量的应用可利用由该系统提供的语义统一界面。应用类型包括从搜索Agents(机器处理)到指导用户查询合成和CM导航的超媒体终端,作为对查询的响应,并产生一个支持浏览和适应用户/平台的真正的超媒体显示[13]。
另一个潜在的应用是相同系统结构维护不同但相似的CM的例子,它可将一个系统结构例子作为另一个的数据源之一。
4 结论
为提供对来自Web上不同信息源的统一数据访问,需要一个集成异构信息源的解决方案。本文提出的集成体系结构将语义元数据与按需检索相结合,它提供一个(动态)访问异构信息源的语义界面,并可应用推理机制来得出没有(显式地)由集成数据源提供的新的数据。
但是,当推理机所需数据必须与请求数据一起提交查询时,在采用按需检索时的推理便可能产生一个瓶颈。在此我们看到还存在可优化的空间,并将对问题作进一步研究。
标签:rdf论文; xml语言论文; 语义分析论文; 数据集成论文; 用户研究论文; web技术论文; 信息集成论文; web开发论文; 元数据论文; 数据检索论文;