基于语义的智能多媒体信息检索技术研究_信息检索论文

基于语义的智能多媒体信息检索技术研究，本文主要内容关键词为：语义论文,技术研究论文,信息检索论文,多媒体论文,智能论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：TP391 文献标识码：A 文章编号：1007-7634(2007)03-0422-04

1 引言

随着信息时代的发展，多媒体信息量以指数的速度增长，同时出现越来越丰富的信息类型，如静态图像、图形、音频和视频等等。面对海量的多媒体信息，必须具有相应的检索技术才能识别和捕获所需的信息，并将它们呈现出来，成为对特定用户“有用”的信息。目前，多媒体检索技术主要有两种：基于文本的检索技术和基于内容的检索技术。基于文本的检索技术采用手工标注，自动化程度低，不仅费时费力，标注质量因人而异，而且难以表达抽象的含义。基于内容的检索技术虽然可以提高检索的自动化程度，但是其内容描述只是针对多媒体数据的低层特征。

人们愈来愈多地需要在语义层次上进行检索，如检索喜剧结局的国产爱情体裁电影等。现有的检索技术在计算机所感知的低层特征和多媒体的高层语义之间存在着“语义鸿沟”，难以获取高层语义信息。再者，由于缺少对多媒体数据有效的语义描述，各种系统之间无法信息共享，所以大量的相关信息不能被检索出来。若要有效地获取多媒体信息，必须实现基于语义的信息检索。基于语义的多媒体检索技术不仅能提高信息检索的准确率，而且能提高信息共享和检索智能化的程度[1]。本文借助于资源描述框架模式(RDFS)，研究了提升多媒体元数据标准MPEG-7隐含语义的方法，探讨了生成基于RDFS的MPEG-7语义元数据通用参考模型的途径，并以通用参考模型为中心集成不同来源的多媒体元数据，最后提出了基于语义的智能多媒体信息检索系统框架。

2 MPEG-7多媒体元数据标准

元数据是“描述数据的数据”，用于描述数据的组织结构、对数据本身及其各种属性进行说明。元数据能够解决信息的标准化问题，提高原始数据资源的可用性、明确性和共享程度。目前，国内外已经开发和应用了多个多媒体元数据标准。国外的元数据标准主要有：多媒体内容描述接口MPEG-7(Multimedia Content Description Interface)、都柏林核心元素集(DC)、即时电视标准(TV Anytime)、美国电影与电视工程师学会元数据词典(SMPTE Metadata Dictionary)等；国内在此方面的工作有：中国科学院的科学数据库通用图像元数据标准等。

MPPEG-7是目前世界上最主要的多媒体元数据标准[2]。MPEG-7是基于XML语法，采用XML Schema规范XML文档的内容和描述形式，它借助于标准所定义的描述符、描述方案和描述定义语言，实现各种类型多媒体资源的内容、结构描述，根据不同媒体资源类型分别定义了内容描述元数据。对于每一种资源类型，又从多个角度、侧面详细定义其内容描述元素。MPEG-7主要定义了五种内容信息，分别是：

(1)资源创建信息：多媒体制作的基本信息，例如电影片名、导演等；

(2)媒体介质信息：定义了多媒体存储的方式，例如压缩、编码的方式和储存媒介等；

(4)构成的局部信息：对视频中出现的特殊物品，或音频中某一片段的音调、旋律等的描述；

(5)概念信息：定义资源中各种控件的链接或交互方式。

MPEG-7定义的信息可支持资源共享，实现用户对其感兴趣的各种多媒体资源进行快速、有效的检索。MPEG-7提供了一个允许查找信息的整体、部分或相关信息的框架，以一种灵活的方式来描述多媒体内容，如可以根据视频描述检索音频数据。灵活性还包括可扩展性，即可把为某一任务设计的描述方案针修正为任务不同但内容相关的应用方案。MPEG-7描述可以与相关联的多媒体内容存放在相同的存储介质中，也可以放在不同的数据库中。当内容与其描述处于不同位置时，可以根据 MPEG-7提供的链接机制，将视听内容与其MPEG -7描述链接起来，进而实现有效的多媒体检索。因此，对于希望能实现一种允许各描述间互操作的方法而言，MPEG-7是最佳的选择。

3 基于RDFS的MPEG-7语义元数据通用参考模型

基于多媒体低层特征的信息检索，由于其内容描述难以表达用户所能理解的高层语义，所以限制了多媒体数据库的可访问性和对终端用户的可用性。虽然MPEG-7能够描述多媒体数据的语义，支持信息共享，但这些语义是隐含的，难以被机器理解和自动处理。常用的解决的方法是采用基于知识工程的技术，即构造本体来集成信息和促进共享。本体是“共享概念模型的明确的形式化规范说明”，它能促进信息自动集成和语义理解[3]。但其最大的不足是元数据稀少，同时难以产生一个能让不同系统都能理解的本体。本文采用将MPEG-7多媒体标准映射到RDFS的方法，生成基于RDFS的MPEG-7语义元数据通用参考模型，来提升和呈现语义，实现更广泛的信息共享和互操作性。

3.1 资源描述框架模式RDFS

资源描述框架RDF(Resource Description Frame)是W3C组织推荐的元数据描述语言[4]，它也是基于XML语法的，便于网络传输与交换。RDF用形如（主体—谓词—客体）的三元组声明来描述网络上各种资源和它们之间的关系，并提供一种在网络上对这些元数据进行编码、交换和重用的基本结构。在声明中，主体用于区分资源，谓词是用于区分语义元数据的各个不同特性，客体用于表示各个特性的不同值。一个RDF三元组声明通过主体、客体和谓词，分别表示两个概念及其间所具有的语义关系。

RDF Schema(RDFS)是一种用来描述RDF资源的属性和类型的词汇集描述语言，并提供了关于这些属性和类型的语义[5]。RDFS自身也是用RDF表示的，但它具有比RDF更强的资源描述能力，可看作是RDF的扩展与补充。RDFS能够描述类（概念）的特征、类与类之间关系、特性之间的关系以及特性与类之间的关系等，RDFS描述的语义元数据具有一定的推理功能，能够比RDF描述的语义元数据表示更多的知识。RDFS语言描述的语义元数据可以采用关系数据库存储[6]。将RDFS描述的语义元数据存入关系数据库之前，对语义元数据中的语义结构进行解析，根据不同的语义结构，设计数据库中相应的表。按照三元组声明所表示的语义，将不同语义的三元组声明存入数据库的相应表中。

3.2 MPEG-7 RDFS多媒体语义元数据通用参考模型

MPEG-7与RDFS的语法都是基于XML的，基于RDFS结构对MPEG-7进行扩展，可以呈现MPEG-7的隐含语义[1]。具体方法是：首先，将MPEG-7中的XML Schema结构无缝地转换到RDFS框架中（称为XSD2RDFS转换），构建MPEG-7RDFS多媒体语义元数据通用参考模型，借助RDFS框架捕获MPEG-7的隐含语义，使得XML Schema中原来隐含的语义变得清晰，XML Schema和RDFS之间的转换关系如表1所示；然后，将XML表示的多媒体实例映射到RDF；最后，以MPEG-7RDFS作为集成中心，集成不同来源的多媒体元数据。

MPEG-7RDFS通用参考模型是实现数据共享和语义检索的基础。图1表示了以通用参考模型为元数据集成中心，将不同来源的多媒体元数据进行集成，获得可以共享访问的语义元数据。这样，尽管关于同一个主题的所有信息可能以不同的名字、不同的媒体形式，存储在不同的多媒体系统中，但是通过语义检索和推理，可以从不同的多媒体系统中检索到关于同一个主题的所有相关信息。

图1 以MPEG-7RDFS为集成中心的元数据集成

4 基于语义的智能多媒体信息检索系统框架

基于语义的智能多媒体信息检索系统采用了三层体系结构[7]，如图2所示。自下而上依次是语义元数据生成与管理层、数据存储与管理层和应用层。其中语义元数据生成与管理层实现多媒体资源的收集、标注和编辑等功能；数据存储与管理层的任务是实现多媒体资源的有效维护和安全管理；应用层作为用户的访问界面，是用户访问资源、获取服务支持的窗口。下面分别介绍各层的组成模块、模块的功能和关键技术。

4.1 语义元数据生成与管理层

语义元数据生成与管理层包括语义元数据生成模块和MPEG-7 RDFS语义元数据通用参考模型，其主要功能是直接针对多媒体数据的抽取和根据通用参考模型进行语义标注、语义元数据编辑，这是语义检索的前提。语义元数据生成模块由数据抽取子模块、语义元数据标注子模块和语义元数据编辑子模块组成。采用网络爬行器，不间断地从Web或各个数据库中收集多媒体数据。数据抽取子模块自动抽取与多媒体内容直接相关的元数据（如图像的颜色和视频的长度等）。语义元数据标注子模块根据多媒体数据的上下文关系、时间关系、空间关系以及引用关系等等，借助图像处理、自然语言处理和人工智能等技术，确定标注层次和粒度，最终形成具有不同标注粒度的树状结构[8]。不同的标注粒度，可以为检索者提供多种语义粒度的信息，满足不同层次的检索要求。语义元数据编辑子模块实现对语义标注结果的修改。通用参考模型可以帮助标注编辑人员更规范、更清晰地描述其所要表达的概念以及概念之间的语义关系。在标注时，为了提高标注过程的自动化程度和准确度，采用可视化标注和编辑界面，进行标注和修改工作，帮助标注的完成。

图2 基于语义的智能多媒体信息检索系统框架

4.2 数据存储与管理层

数据存储与管理层包括关系数据库和后端处理模块。采用关系数据库对多媒体库及其索引库、语义元数据库及其索引库进行存储和管理。后端处理模块是根据需要能不断扩充的功能模块。后端处理模块主要包括聚类和索引子模块、安全访问控制子模块。聚类和索引的目的都是为了有效提高检索的速度，直接为未来的检索服务。采用聚类技术自动地对多媒体信息分类，便于建立索引。根据用户的访问历史和使用偏好，为用户建立并动态地维护信息目录，把相关信息及时、不遗漏地推荐给用户。元数据和多媒体库的安全和访问授权由安全访问控制子模块负责，在对元数据生成RDFS闭包的基础上，实现敏感数据的安全访问[9]。

4.3 应用层

应用层的主要功能是在终端上为用户提供功能强大的检索表达机制和灵活的检索方式。应用层包括检索模块和查询显示模块。为了满足不同用户的需求，提供了多种检索方式。检索模块包括基于语义的检索子模块、基于内容的检索子模块和基于文本的检索子模块。基于文本的检索子模块是最简单的检索方式，它实现用户提交的基于关键词的精确查询。基于内容的检索子模块实现基于图像颜色、关键视频、音调等多媒体特征的查询，该子模块采用相关反馈检索技术，经过用户与机器的动态交互，不断提高检索的准确率。基于语义的检索子模块提供多关键词联合查询接口和自然语言查询接口[10]，实现反映情感、思想主题等语义检索，具有最高的查准率和查全率。提供自然语言查询接口使得信息检索更方便，更具有人性化。显示模块实现对多媒体内容的浏览、分类导航和显示等，以网页的形式将结果展现给用户。

5 结论

本文讨论了生成MPEG-7RDFS多媒体语义元数据通用参考模型的途径，借助于通用参考模型可以提升MPKG-7语义并集成不同多媒体元数据。基于语义的智能多媒体信息检索是从浩瀚的多媒体数据中搜索相关信息的有效手段，能满足用户对多媒体信息的有效感知、访问、互操作和检索的需求。可以预见，这是一种具有广泛应用前景的多媒体信息检索技术。

收稿日期：2006-08-29

标签：信息检索论文; 元数据论文; 数据集成论文; 多媒体论文; 用户研究论文; 关系模型论文; 信息集成论文; rdf论文;

基于语义的智能多媒体信息检索技术研究_信息检索论文

猜你喜欢