集成图像搜索引擎的体系结构分析_搜索引擎论文

集成式图像搜索引擎体系结构分析,本文主要内容关键词为:体系结构论文,图像论文,搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G354

长久以来,信息的多媒体化一直是人们的梦想。如今,随着计算机技术、多媒体技术以及通讯技术的迅猛发展,它正在逐渐变成现实,多媒体信息成了人们在网络上了解信息的有力助手。但由于这些多媒体资源和普通文本不同,使用传统的搜索引擎对其进行搜索,成功率不高。快速有效地进行多媒体信息检索、查询和浏览,成为了人们的迫切需求,新的搜索技术也应运而生。目前,一些多媒体搜索引擎已经开始为人们服务,这其中,以图像搜索引擎为最多。

1 引言

WWW图像搜索引擎是专门用来查询WWW上图像的搜索引擎,为了充分利用Internet上大量的图像资源,图像搜索引擎按一定的方式识别Web上的图像,对图像进行分析和理解,为图像加上注释,建立Internet的图像数据库,查到的最终结果,是一幅幅缩微图像及其网址链接:[1]。

目前,在WWW中,有两类图像搜索引擎技术正在研究和应用之中,一类采用的是传统的基于关键词的图像检索技术,另一类采用的是基于内容的图像检索新技术。传统的图像检索技术是基于关键词的精确匹配检索,系统内的图像用关键词标识,检索线索是与标识相匹配的关键词,即输入为关键词,输出为图像。在Internet上,现有的大多数图像搜索引擎(网站)所采用的都是此种方式。

为了克服传统的基于关键词的图像检索技术的缺陷,人们开始致力于一种新的图像检索技术的研究——基于内容的图像检索技术。基于内容的图像检索技术与传统的图像检索技术的主要区别在于它是一种基于图像特征的相似性匹配检索,系统内的图像标识方式是图像特征属性描述,检索线索是一目了然的图像示例(或示例特征描述),输入为图像示例,输出为所有与示例特征相同或相近的图像,按相似程度排列,供用户选择,从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题,交给系统去解决,避免了“似是而非”的关键词匹配输入及由此产生的“答非所问”的检索结果。

这两种图像检索技术各有千秋,都能从一定的角度满足用户的检索需求。实际上,用户对WWW上图像的检索需求是多样化的,关键词、示例图像、图像特征等都有可能成为用户检索图像的入口,为了全面满足用户的检索需求,为用户提供灵活多样的检索途径,我们可以将各种检索技术集成在一个图像搜索引擎中。在这方面;人们已经进行了一些研究和尝试,下面介绍其中主要的研究成果。

文献[1]提出的图像搜索引擎主要包括:客户端的查询接口、服务器端的搜索Agent、图像库及索引库、库维护Agent、搜索请求Agent、优化处理及学习Agent。其中,搜索Agent自动浏览Internet,搜集图像及与图像相关的文字信息和特征信息,建立并更新图像库及索引库,库维护Agent对图像库及索引库完成维护工作,搜索请求Agent对图像库及索引库完成查询工作,优化处理及学习Agent根据反馈信息优化图像索引库。

文献[2]提出的一种WWW图像搜索引擎包括四部分:爬虫、图像处理、图像数据库、查询服务器。爬虫,即自动浏览器,它能在指定范围内的站点上下载符合要求的图像和相关的文字信息,并送入图像处理部分和图像数据库;图像处理就是对爬虫下载的图像计算其图像性质,得到索引向量;图像数据库中的索引记录需进行周期性的维护;查询服务器接受用户的查询请求,并从数据库中找出符合要求的图像及其URL,返回给用户。

文献[3]提出:基于内容的图像搜索引擎包括四个模块:用户查询和浏览接口、检索匹配子系统、图像搜集子系统、数据库及其索引和过滤器。其中,用户查询和浏览接口提供给用户方便易用的交互界面,并支持多种查询方式;检索匹配子系统对用户提交的查询请求进行相似度计算,返回符合条件的结果,并对用户的相关反馈做出反应;图像搜集子系统遍历网络,搜集图像及其特征和语义,存入数据库;索引和过滤机制可以提高检索的速度和准确性。

文献[4]认为:用户最适合使用的查询应该既涉及关键词又涉及图像语义内容,一种较理想的方法是抽取与图像相伴随的各种文字信息,从中摘取出关键词,结合日志分析建立语义关系库,以此为基础提供网络图像信息的检索,并提出了一种基于语义联想的中文图像搜索引擎。

文献[5]作者开发的WWW上的图像搜索引擎SeekImg系统由三大部分组成:爬虫部分、图像处理部分和数据库部分。爬虫又称为“WWW图片自动搜寻和下载模块”,主要完成从WWW网站上寻找图片并下载到系统的服务器上;图像处理部分是系统的核心模块,主要完成下载图像的自动分析和特征信息的自动提取;数据库部分在服务器端完成图像信息组织,在客户端接受用户的例子图像,通过基于内容的图像检索算法,完成对服务器端图像信息的检索,并将结果输出给用户,

文献[6]作者设计了一种基于内容的图像搜索引擎,其主体结构包括:图像信息获取、图像信息分析、图像搜索引擎数据库组织、图像搜索引擎的用户界面,分别完成从互联网上得到图片,进行语义关键词提取,图像特征提取,并进行入库,为用户提供检索的功能。综合考察以上文献提出的图像搜索引擎体系结构,不难看出,集成式图像搜索引擎必须具备的功能包括:人机交互、图像搜索、特征提取、建立索引、图像及特征存储、图像检索、信息反馈、图像库及索引库维护等,据此,可以将集成式图像搜索引擎体系结构概括为4个组成部分,即图像搜索器、图像处理器、图像检索器、用户接口,如图1所示。

图1 WWW图像搜索引擎体系结构

2 图像搜索器

WWW上存在着各式各样的图像,我们需要收集一些用户最感兴趣的、具有代表性的图像以供用户使用。因此,我们首先要根据目前一些流行的搜索引擎的分类,建立相应的图像分类的层次结构,然后针对每个类别选择一些热门的、具有代表性的站点作为候选。

图像搜索器的功能是自动地在WWW上浏览选定的代表性站点上的Web页面,发现和搜集页面上的图像。它是一个计算机程序,日夜不停地运行,它要尽可能多、尽可能快地搜集各种新的图像信息。

文献[2]中的爬虫采用Winsock编程,它能够自动地浏览Internet网上的Web页面和下载页面上的图像。首先,下载某个Web页面的HTML源文件,接着对该页面的HTML源文件进行字符串匹配,找到标志字。如img表示后面有一幅图片:href表示后面有可能有一个超链接。然后,分析标志字后面的字符串,找到图片或Web页面对应的URL。最后,根据URL下载所需的图片或Web页面。

这里需要注意两个问题,一是要注意解决死锁问题,即从页面1链接到页面2,又从页面2回到页面1,这样反复循环;二是一定要采用多线程,以提高效率。

更高级的爬虫应当进行智能化。如对Web页面进行分析,得到图片的长和宽。如果图片的长或宽太小,则说明此图片是线条或小点,对于这样的图片就没有必要下载了。

文献[5]为了提高爬虫的效率,采用了多个线程,以智能化方式在WWW上进行搜索,这些线程工作互相协同、相对独立,每个线程功能类同于一个智能化搜索代理,每个代理负责网上的具体搜索和下载,由爬虫的核心模块负责协调和管理。

文献[6]提出:在进行图像搜索时综合运用三种结构,即自主的网络机器人Robots技术,元搜索技术以及用户自注册技术。对热门(在用户的搜索记录中体现)图片站点、新闻站点等进行重点扫描,采用网络机器人Robots技术,获取站点的图片及相关信息;对一般站点可采用元搜索的方式,直接引用已有的搜索引擎的数据库结果,然后,对感兴趣的图片进行确认,直接获取相关页面进行再处理;另外提供用户注册方式,更好地满足图像类网站的需要。

3 图像处理器

图像处理器的功能是理解、分析图像搜索器所下载的图像及文字内容。

文献[5]作者设计的图像处理部分分为图像略图获取模块、图像特征提取模块和图像内容分析模块,三个模块之间为并行运作方式,对爬虫下载的图像都利用这三个模块进行处理,最终获得综合的图像信息数据。

文献[2]提出了一种新的综合了颜色信息和形状信息的彩色图像检索算法——主色对方法。作者采用了HSV颜色模型,在基于内容的图像检索中,这种颜色模型比较符合人眼视觉和心理学。从彩色图像中读出RGB值,再转化为HSV值,并进行量化,就可以得到颜色信息。

文献[4]认为,基于语义联想的中文图像搜索引擎要采用中文自动切词的方法对搜索到的图像提取关键词,由专门的中文信息处理模块来完成中文文档的切词处理、码制变换和全半角处理等工作。

文献[6]提出:对图像的处理包括两方面,一方面是图像语义分析,图像的语义信息主要包括文件名、所在网站及页面的网址、图像的替代文字、图像周围的文字、所在页面的标题、图像所链接到的图像或页面、文件格式等。

另一方面是图像内容的特征提取。图像的内容也可称作图像的物理特征,主要包括:颜色、纹理、形状特征、空间关系、逻辑特征和客观属性等。颜色特征目前采用较多,主要提取颜色直方图、颜色相关图,颜色中心矩等矢量数据;纹理是图像的表面结构特征,主要利用灰度共生矩阵、粗糙度、对比度以及小波变换等等;形状主要分为边界轮廓、形状骨架、区域分析方法,存储傅利叶描述子和不变矩等,为了便于实现和浏览,同时保存图片缩小尺寸后的图标。目前,该部分工作要通过图片识别技术和计算获得。

综上所述,图像处理器要应用不同的分析方法,分别建立三种数据库,即图像库、特征库、语义库。

3.1 图像库

图像搜索器自动浏览Web页面时,能够下载其中的原始图像,图像处理器将这些图像连同图像所在页面的URL,一起存入图像库,由于图像信息占用的空间非常大,这时存入图像库的图像往往是经过压缩的小图。

3.2 特征库

图像的特征分为两种,一种是图像的低层特征,如图像的颜色、纹理及其形状等;另外一类特征则是图像的语义特征。特征库里存储的是图像的低层特征。

①颜色特征抽取

颜色特征是图像最直观、最明显的特征,它和图像的大小、方向无关,而且对图像的背景颜色不敏感,因此颜色特征被广泛应用于图像检索。颜色内容包含两个一般的概念,一个对应于全局颜色分布,一个对应于局部颜色信息。按照全局颜色分布来索引图像可以通过计算每种颜色的像素的个数并构造颜色灰度直方图来实现,直方图的横轴表示颜色等级,纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例,这对检索具有相似的总体颜色内容的图像是一个很好的途径。局部颜色信息是指局部相似的颜色区域,它考虑了颜色的分类与一些初级的几何特征。颜色特征中包括颜色直方图、颜色相关图、颜色矩阵等。用户可以输入想要查询的颜色特征来和颜色特征库中的信息进行匹配。

②纹理特征抽取

纹理是图像中一个重要而又难以描述的特性,习惯上把图像中那些局部不规则而整体有规律的特性称之为纹理。纹理特征代表了物体的视觉模式,它包含了物体表面的组织结构以及与周围环境之间的关系,主要有粗糙性、方向性和对比度三个性能指标。纹理可以视为某些近似形状的近似重复分布,纹理描述的难点在于它与物体形状之间存在密切的关系,千变万化的物体形状与嵌套式的分布使纹理的分类变得十分困难。常用的方法有相关矩阵法,粗糙度、对比度等纹理表示方法,以及小波变换等。

③形状特征抽取

形状特征是图像目标的一个显著特征,很多查询可能并不针对图像的颜色,因为同一物体可能有各种不同的颜色,但其形状总是相似的。如检索汽车的图像,汽车可以是红的、绿的等,但形状是汽车的外形。形状特征包括两种,一种是基于边界的形状特征,另外一种则是基于区域的形状特征。前者使用形状的外部边界,而后者使用整个区域。最成功的表示方法有傅利叶变换和不变矩阵等。

图像的颜色、纹理、形状等低层特征将通过以上方法抽取出来,并形成一组特征向量,建立相关索引并存储到特征库中。

3.3 语义库

由于低层的特征并不直接代表图像的语义信息,因此还将抽取图像的语义特征存入语义库中。所有的语义特征,将通过图像处理器从Web页面中自动抽取出来,并被赋予不同的权值,以表示该语义特征对图像的区分度,同时用来计算查询结果的相关度。并按照传统的文本信息检索技术,建立图像的语义特征向量。向量的每个分量都对应一个关键词,它的值取决于该关键词在与图像有关的网页中的分布。如果一个关键词在一个网页中出现很多次,对应的分量就会大一些;另一方面,如果这个关键词出现在很多网页中,对应的分量就会小一些。这种方法在文本检索中被广泛采用,同样也适用于图像检索[7]。

3.4 索引库

文献[3]认为图像库、特征库、语义库之间有着复杂的联系如图2所示。同时,为了保证检索的效率和信息的及时更新,对数据库要实时地建立索引,并建立索引库。

图2 数据库结构

有效的索引机制配合图像库的检索引擎,可以极大地提高查询的效率。和其它类型数据库不同,图像库需要采用多维索引技术,对于大型图像库,还必须对图像特征和结构建立高效的索引机制,具体包括索引的表达、索引的组织以及索引的提取等。图像库的索引比字符数据库的索引更加复杂,由于它所处理的信息具有高维特征,因而更具近似性、无序性、多重性等特点。因此,我们采用多维索引的方法。多维索引在多个属性上进行,一个索引结构用于检索K个属性,这种结构可以大大缩短响应时间。比较流行的多维索引方法有R树、线性四叉树以及栅格文件,其中R树及其变体是最为有效的多维索引方法。

此外,聚类也是图像搜索引擎经常采用的索引算法,聚类的目标是将数据聚集成类,使类间的相似性尽可能地小,而类内的相似性尽可能地大。聚类的这种思想对图像检索很有借鉴意义,通过对海量图像库采用聚类算法并按某种相似度原则进行分类,可以把相似的图像聚合到一起,从而大大缩小图像搜索的范围,达到快速准确检索到目标图像的目的。

图像索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。

4 图像检索器

图像检索器的功能是根据用户的检索请求在索引数据库中快速检索出图像,进行图像与检索请求的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

文献[3]认为,图像检索器是用户接口的具体实现,也是图像搜索引擎的重要部分,它的算法的好坏直接影响检索的结果和精度。对于低层特征,利用特征之间的距离来进行相似性匹配;对于文本的查询,直接搜索关键词与图像描述;对于色调和示例的查询通过计算和用户提交的特征之间的距离,查找出符合条件的图像集,匹配引擎中包括一个较为有效、可靠的相似性测度函数集;对于多种方式的组合检索,通过一定的排序过滤找到符合条件的图像。

文献[6]提出,图像检索器除了提供关键词搜索和分类浏览方式外,还应该具有自己的特色,因为图像信息本身具有非常丰富的信息,而每个人对图像的描述都有很大的主观性,因此提供一种图例或者草图方式的检索方法很有必要。另外,启发式检索也很有优势。

具体地说,用户提交的搜索请求,可以是关键词,也可以是用户拥有的一幅图像,还可以自己在绘图板上绘制草图,然后附加一些信息(如:颜色、大小、类型、类别、名字等信息)然后得到结果;用户还可以在分类信息中点击相应的分类进行检索,逐级得到希望的图片;另外,启发式搜索引擎具有独到的特点,可以通过引导,使用户描述出很难用关键词或语言描述的要求,最理想的方式是用户通过汉字或者语音提供的自然语言描述结合相关的实例图像进行的检索描述,但是目前自然语言描述还需要一段时间的努力。系统将根据用户的检索要求,在图像索引数据库中找到一些最相似的图像,作为结果返回给用户,返回的结果将根据匹配的程度进行相关度排序。

然而,仅仅通过以上检索步骤,其检索结果往往不能令人满意,为了解决这个问题,我们需要引进相关反馈和图像的自动标注技术。

相关反馈技术是系统根据用户对感兴趣的图像的点击,或是主动交互、输入、编辑等操作的返回作相应的参数调整,用以提高系统的检索能力。特别是系统通过人机交互的方式,由用户对检索结果进行评价和标记,告诉系统哪些是符合需求的正反馈图像,哪些是不符合需求的负反馈图像,系统则根据这些反馈信息进行学习,对索引数据库中的相关部分参数和权重做出调整,从而提高下次检索的精度,通过一定次数的反馈,检索精度会达到一个令人满意的程度,这也是系统的一个自学习过程。相关反馈技术大致可分为4种类型:参数调整方法、聚类分析方法、概率学习方法和神经网络方法[8]。

对于图像的标注问题,可以手工标注很小一部分图像,利用相关反馈的方法,将用户因为反馈而标定的信息不断加入数据库,同时对这些信息进行扩展,使具有相似内容的图像因为这些图像的相似性而得到标注,这种方法能使检索精度得到很大提高。

5 用户接口

用户接口能提供给用户方便易用的交互界面,其作用是输入用户查询、显示查询结果、提供用户相关反馈机制,主要的目的是方便用户使用图像搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的图像信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

集成式图像搜索引擎能够满足用户多途径检索图像的需求,其未来的发展,重点将是提供多种特征融合的、低层特征与高层语义特征相结合的检索方式,能够支持自然语言的查询,具有多语言的自适应性和自我学习的功能,具有个性化和多媒体交互的输入输出界面,使用户的使用更加方便和简单,检索的结果更加准确。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

集成图像搜索引擎的体系结构分析_搜索引擎论文
下载Doc文档

猜你喜欢