基于内容的多媒体信息检索_信息检索论文

基于内容的多媒体信息检索_信息检索论文

基于内容的多媒体信息检索,本文主要内容关键词为:信息检索论文,多媒体论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 基于内容的多媒体信息检索的产生和特点

1.1 基于内容的多媒体信息检索的产生

在传统的数据库系统中,信息是以离散的形式(如字符、数字等)存储在关系数据库或WWW上,并以结构化查询语言(SQL)或超链接来进行查询检索。而多媒体数据库则集成图像、视频、音频等非格式化信息,它们是连续的、形式多样的、结构复杂的海量信息,并且每一种媒体数据都有一些难以用字符和数字符号描述的内容线索,如图像中某一对象的形状、颜色和纹理,视频中的运动,声音的音调等。当用户要利用这些线索对数据进行检索时,首先要将其人工转化为文本或关键词形式。这种转换带有一定的主观性,检索率低,且极其费时。另外,关键词不能有效地表示视频数据的时序特征,也不支持语义关系。因而仅仅基于关键词的检索已不能满足用户的检索要求。数据库及其它信息系统不仅要能对图像、视频和声音等媒体进行存储以及基于关键字的检索,而且要对多媒体数据内容进行自动语义分析、表达和检索。基于内容的检索正是这样一种应运而生的多媒体数据库检索方法。

所谓基于内容的检索(CBR,即Content-Based Retrieval)就是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解图像重要特征的算法。基于内容的检索是多媒体数据库信息检索中的一门新兴的技术。它直接从多媒体数据中提取出对象的语义、特征(如图像的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音的音色、音调、响度等),然后根据这些线索从大量存储在数据库中的媒体进行查找,检索出具有相似特性的媒体数据来。目前,基于内容的多媒体信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状、空间关系上,对于视频数据,还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题。

1.2 基于内容的多媒体信息检索的特点

(1)综合性。基于内容检索属于多媒体的综合集成技术。它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,从认知科学、用户模型、图像处理、模式识别、知识库系统、计算机图形学、数据库管理系统,以及信息检索等领域中获得启发,引入新的媒体数据表示和数据模型,产生出有效、可靠的查询处理算法和可视化查询接口,以及与领域无关的检索技术和系统结构。

(2)客观性。从媒体内容中提取信息线索。基于内容的检索突破了传统的基于表达式检索的局限,直接对图像、视频、音频内容进行分析,抽取媒体语义和视觉、听觉等特征,利用这些特征建立索引,并进行检索。由此避免了用字符标识图像的转化过程,从而大大提高了检索过程的效率和适应性。

(3)相似性。基于内容的检索是一种近似匹配。由于对内容的表示不是一种精确描述,因此,CBR采用相似度匹配的方法逐步求精,以获得查询结果,即不断减小查询结果的范围,直到定位于要求的目标,这是一个迭代过程。这一点与常规数据库检索中的精确匹配方法不同。

(4)交互性。CBR系统充分发挥人和计算机各自的长处,利用人对于物体的内容特征比较敏感,而计算机善于从大量数据中标识对象和从事重复性的工作,把交互操作引入到查询过程中。

另外,基于内容的多媒体信息检索还具有直观的查询方式和大型数据库(集)的快速检索的特点。

2 基于内容的多媒体信息检索的系统结构

完整的CBR系统一般由数据库生成子系统和查询子系统构成。各子系统由相应的功能模块和部件组成。

2.1 对象标识。为用户提供一种工具,以全自动或半自动(需用户部分干预)方式对静态图像、视频镜头的代表帧等媒体中用户感兴趣的区域(静态对象)及视频序列中的动态对象进行标识,以便针对对象进行特征提取、描述和查询。如进行整体内容检索,可利用全局特征,不用对象标识功能。对象标识是可选的。

2.2 特征提取。对视频、图像等多媒体数据自动或半自动地提取用户感兴趣的、适合检索要求的特征。它可以是全局性的,如整幅图像和视频镜头,也可针对某个对象,如图像中的子区域、视频中的运动对象等。

2.3 数据库。数据库由媒体库、特征库和知识库组成。媒体库包含多媒体数据,如图像、视频、音频、文本等;特征库包含用户输入的客观特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应不同领域的应用要求。

2.4 用户查询和浏览接口。主要以示例查询(QBE)和模糊描述等可视查询形式向用户提供查询接口。查询允许针对对象、整体图像、视频镜头以及任意特征的组合形式来进行。由于多媒体数据的视觉和听觉特性,不仅查询时需要通过浏览确定查询要求,而且查询后返回的结果也需要浏览,尤其是视频浏览。

2.5 检索(匹配)引擎。检索是利用特征之间的距离函数来进行相似性匹配,模仿人类的认知过程,近似得到数据库的认知排序。对于不同媒体的数据类型,具有各自不同的相似性测度算法,在检索(匹配)引擎中包括一个较为有效、可靠的相似性测度函数集。

2.6 索引/过滤器。检索引擎通过索引/过滤机制来达到快速搜索的目的,可以应用于大型多媒体数据集中。过滤器作用于全部数据,滤出的数据集合再用高维特征匹配检索。索引用于低维特征,可用R树加快检索。

3 基于内容的多媒体信息检索常用关键技术

3.1 基于内容的图像检索常用关键技术

(1)颜色特征提取。颜色是物体的一种重要的视觉特征,每个物体都有其特有的颜色特征,同类事物往往具有相似的颜色特征,因此颜色特征提取成为图像索引与检索中应用最广泛的技术。目前关于颜色的索引方法有2类:基于全局颜色的索引与基于局部颜色的索引。基于全局颜色的索引是按照全局颜色分布来索引图像,可以通过计算每种颜色的像素的个数并构造颜色灰度直方图来实现,这对检索具有相似的总体颜色内容的图像是一个很好的途径;基于局部颜色的索引则通过颜色的局部区域划分来进行局部颜色描述。局部颜色信息是指局部相似的颜色区域,它考虑了颜色的分类与一些初级的几何特征。有的研究人员提出了用颜色集合(color set)方法来抽取空间局部颜色信息并提供颜色区域的有效索引。

(2)纹理特征提取。纹理是与物体表面材质有关的图像特征,可视为某些近似形状的近似重复分布,纹理描述的难点在于它与物体形状之间存在密切的关系。目前关于纹理的分析方法主要有:结构方法和统计方法。前者将图像中有结构规律的特征加以分析,后者是对图像中色彩强度的空间分布信息加以统计来确定图像的纹理,如在20世纪70年代初期,国外有的研究人员提出了纹理特征的共生矩阵表示方法。纹理特征的共生矩阵表示方法首先根据像素间的方向和距离构造一个共生矩阵,然后从共生矩阵中抽取有意义的统计量作为纹理表示。但该方法的统计特征没有与人在视觉上对纹理特征的鉴别之间建立对应关系,于是有的研究人员就从视觉的心理学角度提出了纹理表示方法,表示的所有纹理性质都具有直观的视觉意义。这一表示方法在图像检索中非常具有吸引力,而且可提供一个更友好的用户界面。

(3)形状特征提取。一般说来,形状的表示可分为基于边界的和基于区域两类,前者使用形状的外部边界,而后者使用整个区域。在实际运用中,往往将两者结合起来使用。基于图像内物体形状的检索,首先要将不同物体从图像中分割出来,再使用傅立叶描述子、矩不变量以及各种简单形状因子(如面积、圆度、偏心度、主轴方向)等方法对形状加以描述并进行相似性比较。

(4)相关反馈。仅仅基于图像低层特征很难给出令人满意的结果,主要原因是图像低层特征和高层语义间存在着很大的差距。为解决这个问题,一方面需要研究出更好更有效的图像表示方法,另一方面我们可以通过人机交互的方式来捕捉和建立低层特征和高层语义之间的关联,这就是所谓的相关反馈技术。基于内容检索中的相关反馈技术可分为参数调整方法、聚类分析方法、概率学习方法和神经网络方法4种类型。

3.2 基于内容的视频检索常用关键技术

视频结构的模型化或形式化是解决基于内容视频检索问题的关键,为此需要解决以下关键技术。

(1)关键帧抽取。文本索引用关键词作为标识句子、段落、文档的指针,同理,在视频流信息中,关键帧起着与关键词类似的作用。人们常用关键帧标识场景、故事等高层语义单元。比帧高级的视频基本单元是镜头,通常视频流中的镜头由在时间上连续的视频帧组成,它代表一个场景中在时间上和空间上连续的动作,对应着摄像机的一次纪录起停操作。镜头之间可存在多种类型的过渡方式,最常见的是切变(Cut),表现为在相邻2帧间发生突变性的镜头转换。此外,还存在一些较复杂的过渡方式,如淡入、淡出等。

(2)镜头分割。镜头分割方法分为非压缩域和压缩域2类,非压缩域方法有基于帧差(frame difference)的点到点比较和直方图2种,由于点到点的帧差比较算法对于噪声过于敏感,目前大多非压缩域算法都是基于直方图的。压缩域方法基于视频帧图像的压缩基础之上,切分的依据是比较前后视频帧图像的压缩系数(一般为DCT系数),当满足一定条件时即把它们切分为2组镜头。

(3)视频结构重构。视频结构重构就是将语义相关的镜头组合聚类到一起。目前的研究集中在结合多类特征(视频、音频、文本等)抽取视频的语义和叙事结构上,在多个层次上组织视频内容。抽取特定领域的视频故事单元是这方面研究的突破点(如新闻、专题片等),但通用的叙事模型很难建立。

3.3 基于内容的音频检索常用关键技术

音频是声音信号的形式。作为一种信息载体,音频可以分为三种类型:波形声音、语音和音乐。不同的类型具有不同的内在内容,从整体上看,音频内容分为三个级别:最低层的物理样本级,中间层的声学特征级和最高层的语义级。从低级到高级,其内容逐级抽象,内容的表示逐级概括。基于内容的音频检索相应的分为三种:包含语音的音频检索和不包含语音的音频检索,后者又把音乐单独划分出来。第一种是利用自动语音识别技术,后两种是利用更一般性的音频分析,以适合更广泛的音频媒体。

(1)语音检索。是以语音为中心的检索,采用语音识别等技术,如电台节目、电话交谈、会议记录等。

(2)音频检索。是以波形声音为对象的检索,这里的音频可以是汽车发动机声、雨声、鸟叫声,也可以是语音和音乐等,这些音频都统一用声学特征来检索。

(3)音乐检索。是以音乐为中心的检索,利用音符和旋律等音乐特性来检索,如检索乐器、声乐作品等。

4 基于内容的多媒体信息检索的发展趋势

新一代多媒体信息的处理和系统技术的研究和开发,主要是解决多媒体内容的自动分析、有序化和可视化、以及自适应的内容传递问题。这种检索和查询方法只需分析视频的序列结构,按帧的内容变化程度区分视频的变化。该方法不但可以对视频内容进行实时分析,而且还可以实现视频与音频的快速集成。

新一代多媒体信息的处理和系统技术还融合“机器学习”的方法,利用“相关反馈”的原理,使基于内容的图像检索率更高更准确。基于多媒体内容自适应传递的方法,使人们在任何地方、任何时间,获取想要的信息,并针对文字、语音和图像的不同特点,根据具体条件选择传输方式,从而使用户达到最好的信息获取效果。

标签:;  ;  ;  

基于内容的多媒体信息检索_信息检索论文
下载Doc文档

猜你喜欢