对多媒体挖掘理论与实力的分析,本文主要内容关键词为:实力论文,多媒体论文,理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔中图分类号〕G354.47 〔文献标识码〕A 〔文章编号〕1008-0821(2004)02-0041-05
随着世界上最大的信息存储和传送平台——Internet的发展,对当前的信息局面用“浩如烟海”已远不能够形容。大量的信息在给人们带来方便的同时也带来了一大堆问题:信息过量,难以消化;信息真假难辨;信息安全难以保证;信息形式不一致,难以统一处理等。以往的只得到相关信息的检索模式已越来越不适应人们的需要,在激增的数据背后隐藏着许多重要信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。新技术产生、发展和不断完善的推动办来自于现实生活的需要,在这种情况下,数据挖掘迅速发展起来。另外,网络的信息已不再是单一的文本形式,以文字、视频(图像)和音频等多媒体形式存在的数字化资源正逐渐发展壮大,使用文本检索工具远不能从大型的多媒体信息库中检索和发现其中隐藏的模式或知识。于是多媒体挖掘技术于1990年开始蓬勃发展起来。
1 多媒体挖掘概念及其系统构成
1.1 概念
多媒体挖掘(Multimedia Mining)就是基于多媒体的内容特征以及这些特性相关的语义,从大型多媒体数据集中发现和分析出隐含的、有效的、有价值的、可理解的模式。多媒体挖掘不同于低层次的计算机多媒体处理技术,前者关注的是从巨大的多媒体集合中提取出模式,后者的焦点在于从单个多媒体对象中理解或提取具体特征。多媒体数据挖掘似乎与基于内容的多媒体检索(Content Based-Retrieval,CBR)有些相似,但基于内容的检索仅仅是停留在对象特征上,而没有上升到知识发现这个层次上,基于内容的检索只是多媒体挖掘所需的技术之一。对多媒体挖掘的最常见误解是把多媒体挖掘当作模式识别的另一种形式,虽然两个领域有共同之处,如特征提取等,但模式识别关注的是某些具体模式,而多媒体挖掘是在没有先验条件的情况下去发现图像集合中有意义的模式,当然这需要人的干预或指导。
1.2 多媒体挖掘系统的构成
1.2.1多媒体数据库、多媒体数据仓库或其他信息库:这是一个或一组数据库、数据仓库电子表格或其他类型的信息库,可以在数据上进行数据清理和集成操作。数据仓库是面向主题的、集成的、非易失的、随时间变化的数据集合。数据仓库能把多个系统数据集成起来,形成一个可靠的、一致的、不断更新的信息集合。
1.2.2数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。
1.2.3知识库:这是领域知识,用于指导搜索、或评估模式的兴趣度。这种知识包括概念等级,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。
1.2.4数据挖掘引擎:由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。
1.2.5模式评估模块:通常此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。
1.2.6图形用户界面:允许用户与系统交互。用户通过使用一组数据挖掘原语(例如DMQL)与数据挖掘系统沟通,说明任务相关数据、挖掘知识的类型、背景知识、模式兴趣度度量、模式可视化,从而指导挖掘过程。
1.3多媒体挖掘的基本过程
1.3.1预处理步骤:主要是消除噪声或不一致数据的数据清理;把多种或异质的数据源组合在一起的数据集成和变换;还有把海量和复杂数据“减肥”的数据归约。
1.3.2数据选择:从数据库中检索与分析相关数据。
1.3.3数据挖掘:使用智能方法提取数据模式。
1.3.4模式评估:根据兴趣度度量,识别表示知识的真正有趣的模式。
1.3.5知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。
2 多媒体挖掘的主要技术
2.1 概念描述
是以简洁的描述形式观察汇总的数据集,可以提供一类数据的概貌,或将它与对比类区别,还可以从不同的粒度和不同的角度描述数据集。目前针对数据仓库的主要技术是:多维数据分析方法。
多维数据分析方法是一种数据仓库技术,也叫做联机分析处理(OLAP),数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大等汇集操作,这类操作的计算量特别大,因此要用多维数据库把汇集的结果预先计算并存储起来。
2.2 关联规则
可以发现大量数据中项集之间有趣的关联或相关关系,典型的例子是“购物篮分析”,“在购买面包和黄油的顾客中,有90%的人也同时买了牛奶”。但是如果不考虑支持度和置信度,那么挖掘出的关联规则就会没有意义,一般把满足一定要求的(如有较大支持度和置信度)规则称为强规则。因此在知识库中需要给出在挖掘某些关联规则时的两个阈值:最小支持度和最小置信度。有时在较低层次(图片中“大片乌云”与“红雨伞”同时出现的几率)挖掘关联规则时会难以找到有用的规则或支持度过低,但如果沿着概念层次上卷(“乌云”与“雨伞”同时出现的几率)支持度可能就会较高。
2.3 分类
即分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法,对应的知识表示为决策树或判别树,后者则一般为产生式规则。神经网络法主要是BP算法,他的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。另外又兴起了一种新的方法:粗糙集,其知识表示是产生式规则。
分类的效果一般和数据的特点有关,有的数据噪声大,有的缺值,有的分布稀疏,有的字段或属性见相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法适合于各种特点的数据。
2.4 聚类分析
与分类不同,它要划分的类是未知的,就是将数据对象按相似性分组成多个类或簇,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能小,不同类别上的个体之间的距离尽可能大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。
3 多媒体挖掘系统实例:MMMiner原型
3.1 构建基础
MultiMediaMiner系统是基于的在线分析的数据挖掘系统“DBMiner”和数字化图书馆的基于内容的图像检索系统“C-BIRD”的开发经验基础上发展起来的。
DBMiner系统(一些功能模块还可以在http//db.cs.sfu.ca/dbminer上交互使用)是一个联机分析挖掘系统,用于大型关系数据库和数据仓库中交互地挖掘多层次的知识。其独特之处在于紧密集成了联机分析处理系统(OLAP)和多种数据挖掘功能,包括特征化、关联、分类、预测和聚类。这种集成开创了数据挖掘方法学,称为联机分析挖掘(OLAM):系统提供对数据进行多维度观察,创建交互挖掘的环境,用户可以动态地选择数据挖掘和联机分析功能,对挖掘的结果进行OLAP操作(如钻取、切块/切片和旋转),也可以对OLAP结果进行挖掘,即在多个抽象层对数据的不同部分进行挖掘。
C-BIRD系统(在CASCON’97证明,一些功能模块还可以在http://jupiter.cs.sfu.ca/cbird/上交互使用)包括四个主要组成部分:(Ⅰ)图片挖掘器(一个网络引擎)用于从多媒体仓库中提取图片和视频图像,(Ⅱ)一个从数据库提取图片特征和存储预计算数据的预处理器(Ⅲ)用户界面,(Ⅳ)在数据库中匹配图片和视频特点的查询的搜索内核。C-BIRD允许关键词间用“和、或”,颜色直方图,恒定亮度的颜色,颜色比例,颜色轮廓,边缘密度,边缘方向和纹理粗糙度。C-BIRD特色是能处理图片色度的有意义的变化和通过物体模型搜索。C-BIRD所用的数据库除了是图片的仓库还包括了大部分的用预处理器和图片挖掘器提取的元数据,像颜色、纹理、和形状特点,还有自动生成的关键词。MMMiner整体的结构在图2展示,继承于CBIRD的数据库。
图2 MultiMediaMiner的整体结构
3.2 功能
图片挖掘器(image Excavator)和预处理模块已经为MMMiner增强了搜集和预处理功能来处理更多的信息。视频剪辑被检测到后就被剪下来。每个视频片段都被一个或更多的视频帧所代替,然后就会当作图片所识别和处理。每搜集到一个图片,数据库中都会包括一些叙述性信息,特征叙词和框架叙词。原始的图片不存储在这个数据库中,只储存特征叙词。描述性的信息包含字段例如:图片文件名、图片的URI、图片和视频的类型(gif、jpeg、bmp、avi、mpeg…)、已知涉及此图片的网页列表(如:父级页面的URLs)、关键词列表、用于在用户界面上进行图片和视频浏览的简略图。特征叙词是标识可视特征的一套向量。主要的向量有:一个颜色向量包括颜色量化为256色的直方图,一个MFC(Most Frequent Color,最常见颜色)向量,和一个MFO(Boat Frequent Orientation,最常见方位)向量,MFC和MFO分别对5个最常用颜色和5个最常见方位包含了5个颜色中心和5个边方位中心(边方位为:45,90,135等)。轮廓描述子包含了颜色轮廓向量和边轮廓向量。图1(a)展示了这些向量允许与用户定义的轮廓匹配。无论原来尺寸的大小,所有图像均被赋予了一个8*8的栅格。对64个单元中的每一个的最常用颜色存储在颜色轮廓向量,对每一个单元中的每一个方位的边数存储在边轮廓向量。其他尺寸的栅格,如4×4,2×2和1×1可以很容易的导出。这些颜色轮廓栅格用于处理颜色在不同分辨率下的空间关系。
图1a C-BIRD的网络用户界面
图1b 用颜色搜索的查询界面
图像挖掘器利用图像上下文之间信息,如用于网页的HTML,标签,导出关键词。例如,图片名和包含单词或可以识别的词语的路径,IMG标签中的ALT字段,HTML页的标题,HTML页眉,父级HTML页标题,从父级页面链接到图片的超链接,和临近图片的或前或后的文字,位于HTML页的HEAD内的META标记,能揭示跟图片有关的有价值的关键词。用这些方法收集的关键词,包括除去像冠词(如:a、an、the),普通动词(如:is、do、have),或从同一个词引发出的一系列词(如:clearing、cleared、clears)。英语中有400常用基本词被认为是低语意的,因此可以被清除(stopwords)。自动生成的关键词列表稍后会被规格化和过滤和建立概念层次。有上下级结构关系的关键词允许用主题浏览搜集图片和视频。例如(图3)显示了关于制造商波音的商用机的缩略图。图3左边显示的关键词层次部分是通过访问一些包含飞行器图片的WEB站点由概念层次自动产生的。
图3 用关键词等级选择和浏览图像数据
MMMiner系统的挖掘模型包括三个主要的功能模块:特征化模块,分类模块和关联模块。很多数据挖掘技术都用于改进这些模块,包括数据立方体结构和检索,挖掘多级关联规则,等。
3.2.1特征化模块
这个模块从一个多媒体数据库中一系列切题数据不同抽象层中发现一系列特征。允许用户通过上卷和下钻对数据库进行多级视图。图4用直方图描述2个维的整体特征:多媒体所占字节大小和提取这个文件的Internet域。在这个例子中,只有三个Internet域,而且文件大小也“上卷”到更高的多媒体概念层次(small,medium和large)。在这个用户界面中,可以同时观察任何两个维,并且沿着给定维上卷和下钻来发现更具体的数值或特殊的概念。
图4
MMMiner分类模块快照
3.2.2关联模块
这个模块从图片和视频数据库中的一系列相关数据中发现关联规则。一个关联规则是在数据库一些数据中经常出现的模式(或关系)。典型关联规则是“X→Y[s%,c%]”,其中X→Y解释为“满足X的条件的数据库元组多半也满足Y中条件”s%是规则的支持度(在所有的可能中X与Y同时出现的几率),c%是规则的置信度(在条件X下出现Y的条件概率)。例如,发现了一个关联规则“在静态图片中,他们的经常出现的颜色、图片大小、和关键词‘sky’之间的关系是什么?”一个被发现的关联规则可能是“假如图片较大而且跟‘sky’有关。它就会有68%可能是蓝色的”或“假如图片较小而且和‘sky’有关,它就会有55%的可能是深蓝色的”。另外还有人利用传统的相关规则思想,结合图象数据的特性,提出三维相关规则模型。在模型中着重强调了形状、颜色、空间位置三者之间的依赖程度。
3.2.3分类模块
这个模块根据提供的分类标志把多媒体数据分类。结果是把大量的多媒体数据归类并且给每个类一个特征描述。这种表现为判定树的分类也可以用于预测。图5是这个模块的一个输出,在这个网站中,图像和视频帧的分类是基于它们的主题,并且参考图象形式的分布。点击一个类,可以深入到原始数据。一个窗口显示属于这个类的图片(图5中显示book,animal和flower)。
图5 MMMiner分类模块用户界面
在所有的模块的用户界面中都允许沿着定义维的不同的概念层次上卷和下钻,因此,允许交互式的挖掘。而且还可以直接找到原始数据,即网络上的图片或视频,这就为基于数据挖掘结果的网络信息检索提供了机会。
3.3 现存问题及解决方法
3.3.1关键词等级
当处理较大图片集时,用关键词描述图片是非常重要和有意义的。可是自动地把关键词和图片联系起来并非易事。而人工添加关键词也明显是不现实的。MMMiner利用半结构化的网页和URL的构成方式来抽取侯选关键词。这些关键词在标准化和过滤后与图片联系在一起。标准化过程是通过语言形态分析提出规范形式的词;过滤过程是利用低语意表(stopwords)和WordNet词汇数据库,除去不合法或不需要的词。在精选和过滤过很多不需要的词后,每个图片的关键词表还是很大,通过添加新的低语意词和/或用自然语言启发式地除去孤立的词。
为了联机分析系统(OLAP),概念等级要可以沿着定义数据的维上卷和下钻。这些等级在多级挖掘中特化和概化发现知识也非常重要。因此组织概念层次里的关键词对多媒体数据挖掘很重要。但是建立自然语言的概念等级这会引起争论所以建立起来很困难。因此,要建立一套可以让大多数用户接受的明确表示的关键词组成概念等级。其解决办法之一可以是用现存的被广泛使用和接受的词语层次。首先试图通过模仿一个人工建立的并广泛使用的在线目录结构自动生成一个概念层次。例如,通过模仿Yahoo在线目录能建立一个具有节点的整体层次。图6表示由模仿Yahoo目录结构并把目录转成关键词而生成的部分关键词等级图。
图6 模仿Yahoo目录生成的部分关键词等级结构
另一种方法是选择用在线词典,专业词汇集和普林斯顿大学开发的并且被很多语言学和认知学学者使用的WordNet,WordNet1.6包括大概95600个不同词型,组织成71100种语意。但是它不包含用“爬行者”在网上找到的特殊词像“Boeing 747”或“fighter F15”。通过参考被过滤的词表,一些专业范围的词被加入充实到WordNet的语意网络中。
3.3.2多维数据
MMMiner的多媒体数据立方体具有很多维,例如,(1)图片和视频所占存储空间大小;(2)图片和视频宽、高;(3)图片和视频的建立(修改)日期;(4)图片和视频格式维;(5)视频帧数或持续时间(图片为0秒);(6)图片和视频的Internet域;(7)涉及到这个多媒体对象的网页(父级URL);(8)关键词;(9)用预定义的颜色层建立颜色维,一个图片或视频被认为是包括一个给定的象素比例超过一定限度的颜色;(10)一个边方位维:一个图片被看作是包括了一个特定的边超过一定比例的边方位;(11)流行度,即是涉及到多媒体的网页数;(12)网页的丰富度,即这个网页中涉及的多媒体对象的多少。有些数字维的概念层可以自动定义,有些如Internet域或颜色则需要预先定义。
利用这些不同的维和它们各自的概念等级,就能够建立一个多维的数据立方体。这个数据立方体汇集每个维所有属性的值,图7显示了一个浏览多维数据立方体的可视化工具,同时观察三个维。为每个维定义的概念等级允许沿给定维上卷下钻。这种类型的数据立方体浏览给出数据库内容的一个大视图,甚至允许查看数据值的粗聚类。从视图中选择子立方体可以深入到原始数据,并且可以从选取的子方体中查看多媒体文件甚至知道什么网页包含它。
图7 浏览三个维的多媒体数据立方体
但是,在一个物理数据立方体中具有很多维十分困难,不是因为看上去的可视化和概念化困难,而是随着维数的增加数据立方体会指数性地增长,每增加一维立方体的大小就会随着维中各种数值的数量倍增。这就是多维数据带来的麻烦。
例如,一个图片的颜色属性有256维,每一维记数着这种给定颜色在图片中出现的频率,这已经超出了大多数数据立方体的限制,就算减到64个值,对MMMiner来说也是大到了不能处理的程度。为了减少维可以把64个颜色维削减成一个维。先前的一个颜色维代表一个颜色和这种颜色在图片中出现的频率值。削减后的维只代表图片中的一系列颜色,颜色出现的频率被取消。失去一些信息是减少维数的折中办法。相同的方法用于纹理属性的维。这样又带来一个困难:多值属性问题。削减后的颜色维代表所有的颜色可是一个图片或视频有很多颜色,假如都用一个维代表,多在数据立方体中聚集的层中的聚集的值就没有意义了。解决的办法可以是从图片中选出3个出现频率最高的颜色组成3个维,就把256维减到3个了。其它的多值维也可以如法炮制。在数据立方体中不出现关键词维,并不仅仅因为只选择一个没有有效等级化关键词并不重要,而且由单词或词组构成的关键词维的潜在的值很大,这可能会导致数据立方体体积快速增长超过物理极限。
尽管关键词不在立方体中,关键词也作为选择属性来选择数据立方体中的图片。图3表示用关键词层次选择的过程,这个选择为数据立方体结构浏览图片和选择数据。当选择一个关键词,所有被它包含的关键词也就被选中了。这允许沿着词语层次概化和特化操作。
虽然减少了维数,但还是有很多。解决的办法可以是选择生成多个立方体,而不是一个包括所有维的数据立方体。图8显示MMMiner的数据仓库用户界面,里面有4个数据立方体。每个立方体定义有数个维和数个度量。把数据大立方体分解成几个小的立方体也是有局限性的,当分解立方体时那一个立方体出现什么维不是很容易确定的。OLAP交互和数据挖掘算法同一时间只能在一个立方体中进行,所以说在不同立方体中的维之间的联系就没办法挖掘。并且从两个不重叠的立方体挖掘的规则也无法合并。
图8 MMMiner数据仓库中的立方体和维
建立多维数据立方体是为了当查询大的决策或数据挖掘数据库时减少反应时间。典型的做法是把所有的维都聚集到立方体中。但是,有时并不必要在数据立方体中出现所有的维。依据应用和用户需要,可以不用物化一些维让它们保持初始数据状态。例如,假如颜色在一些应用中没有用,就可以不用物化颜色维。这就会明显减小数据立方体的大小,但是假如一些查询又需要颜色了,我们就得直接从原始数据中快速建立一个包含颜色维的数据立方体,这花销是很大的。另一个方法是,为了适应数据挖掘的算法同时用数据立方体中和一直在数据库的原始数据中的两个聚集,如果查询访问没有物化的缺少的部分这种方法可以接受。
多媒体数据挖掘是一个方兴未艾的领域,涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析。虽然有诸如MultiMediaMiner这样成功的系统应用,但是挖掘手段还很局限。在多媒体挖掘系统的设计中还有很多问题需要进一步的研究。
标签:数据挖掘论文; 立方体论文; 关联规则论文; 数据仓库论文; 数据立方体论文; 大数据论文; 数据挖掘算法论文; 多媒体论文; 文本挖掘论文; 数据库系统论文; 分类数据论文; 用户分析论文; 特征选择论文; 关键词分类论文;