因特网上的图像信息检索,本文主要内容关键词为:因特网论文,信息检索论文,图像论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
很多公司利用因特网展示自己的产品照片,同时几乎所有的新闻网站都为读者提供了大量 的新闻图片,据市场调查公司统计,现在整个因特网上大约保存有500亿张高质量的图片。 也许你想得到一幅贝多芬的肖像,或是一张奔驰汽车的照片,或是吸引人的美仑美奂的产品 照片,那么对一个用户来说,找到所需图片的机率就是500亿分之一,找到它是一个相当棘 手的问题,一般的文字搜索引擎对于图形图像来说,几乎束手无策。伴随着因特网的高速发 展,网上的信息量也呈几何级数爆炸增长,因特网上已有8亿多个网页,网上的多媒体信息 也急剧增加,人们对多媒体信息的检索需求也越来越多,面对着这样一个巨大的、实时扩展 的、变化的数据库,如何从中找到我们关心的图像信息?因特网上的多媒体信息以图像为主 ,对图像的有效检索被越来越多的关注,对图像的检索就成了目前各国研究的热点,其中, 利用各种特征对图像检索的方法已取得相当大的进展。
1 什么是图像搜索引擎
图像搜索引擎是专门用来查询图形、图像(照片)的搜索引擎。同文字搜索引擎一样,它提 供一个分类目录,并提供关键词检索的功能。用户可以通过分类在网上浏览,或者使用关键 词检索,来查找想要的图片。与文字搜索引擎不同的是,查到的最终结果,不是文字形式的 网站名、网站内容,而是一幅幅缩微图片及其他网站链接。
如果你还没有使用过图像搜索引擎的话,这里给出几个链接(遗憾的是,目前网上的图像搜 索引擎只有英文版),你可以尝试一下:IranMania(www.iranmania.com/imagefinder.asp)
AltaVista(http://www.altavista.com/egi--bin/query?pg=q&stype=simage)
这些图像检索引擎几乎有着相同的用户界面,以AltaVista的图像检索引擎为例,当进入Al ta Vista的主页面后,可以键入关键字,比如:elephant(大象):和传统的搜索引擎一样,系 统返回检索结果,所不同的是系统返回给用户的是一系列的图像文件或图像文件的超链接。
2 图像信息检索技术现状
2.1 借用文本索引技术
由于计算机技术及其他相关技术的制约,早期的图像检索借用了文本索引技术。文本搜索 引擎是将网站、网页的内容索引为一系列关键字,当用户输入关键字后,系统可根据数据库 中的倒排文件将关键字映射为网站或网页的地址。对于图像文件,一样可以根据其内容手工 将其标注为一系列关键字,并对关键字建立索引,这样,图像检索就转化为文本检索的问题 。 但是,这种方法很不实用,一是必须由人工完整地标注所有图像,对于小图像集合也许问题 不大,但随着图像数目的增加,特别是网络上的图像是无穷无尽的,这种方法显然不可行; 第二个问题在于图像所包含的信息量庞大,不同用户对于同一张图像的看法不尽相同,这就 导致对图像的标注没有一个统一标准,检索出的结果不能很好符合用户的需求。
2.2 基于内容的图像检索
鉴于上述因素,人们提出了一种新的检索技术,基于图像自身内容的检索。基于内容的检 索不需要用户的参与,而利用图像自身特征,如颜色、纹理、形状等特征物证来进行检索, 具有较强的客观性。通常,可以抽取图像库中所有文件的特征,用户检索的过程一般是提供 一个样例图像,系统抽取该样例图像的特征,然后同数据库中所有的特征进行比较,并将与 样例特征相似的图像返回给用户,这个过程称之为基于样例的图像检索。当前研究图像检索 的重点和难点集中在如何使抽取的底层特征和图像内容所表示的语义特征间建立很好的联系 ,直到今天,这仍然是基于内容图像检索的一个没有解决的问题。
因此,虽然低层特征和高层语义特征相结合,在一定程度上提高了图像检索的效果,不过 检索系统的性能还是不太令人满意,其主要原因有以下几个方面:
2.2.1 从目前一些流行的搜索引擎来看,用户提交的查询的平均长度为2-3个关键字,这 种短查询难以完全表达用户的需求,导致检索结果与用户的需求差异较大。
2.2.2 在数据库中存储的索引都是根据收集到的图像的各种相关文字来建立的,这些文 字 是从作者的角度来描述的,与用户所使用的词之间存在一定的差异。
2.2.3 由于一张图像中存在很多信息,而且不同的用户对同一张图像的认识差异也很大 ; 这就使得即使是相同的查询,不同用户希望得到的结果差异也很大。
2.2.4 由于低层特征并不反映图像真正的语义信息,因此当用户提交一张图像作为查询 时 ,系统很难找到用户真正想要寻找的图像。这些问题导致自动的图像检索效果不能令人满意 。因此目前大多数系统还是基于关键字的检索,如AltaVista、Yahoo!、Ditto等。
2.3 相关反馈和自动标注技术可有效提高图像信息检索精度
如何解决上述问题?相关反馈和图像的自动标注技术是重要的突破。相关反馈是在信息检索 系 统中的一种指导性学习的技术,用以提高系统的检索能力。在基于内容的图像检索中,通常 检索的结果不能令人满意,这时用户可以告诉系统哪些是符合用户需求的正反馈图片,哪些 是不符合检索内容的负反馈图片,系统根据用户提交的指导信息,对内部检索参数进行调 整,从而优化检索结果并提供给用户新的检索结果。对于图像的标注问题,可以手工标定很 小一部分,利用相关反馈的方法,将用户因为反馈而标定的信息不断加入数据库,同时对这 些信息进行扩展,使具有相似内容的图像因为这些图的相似性而得到标注。试验表明,此方 法 使检索精度得到了很大提高。不过,大多数相关反馈并不具有记忆能力,每次反馈后的结 果只能提高本次查询结果。因此引入了语义网络,把每次反馈的结果记录到语义网络中,使 得系统 的效果随着使用次数的增加而逐步提高。
3 图像检索技术的前景:分布式发展趋势
由于传统的搜索引擎在设计方面存在局限性(集中式的体系结构,通过网络爬行器收集信息 ),因此它们无法提供高准确度、搜索实时更新的数据库的服务。因此,开发一个新的搜索 框架,支持“点对点”,按照层次进行分布式搜索成为今后搜索引擎发展的趋势。这种新的 搜索框架包含了对个人文档、局域网以及互联网三个层次的搜索。当搜索局域网或者是互联 网的时候,搜索将以分布方式执行。同时,系统将能够自动地把用户的查询分发给相似的用 户或者是互联网上最为合适的搜索引擎,以获得更好的结果。
4 图像信息检索将更多地走进我们的工作、生活。
首先,未来的因特网是多媒体数据的时代。图像、视频将很快取代文本成为因特网上主要 的信息,现在基于文本的搜索将逐步被多媒体检索取代。计算机技术的发展速度是如此之快 , 10年以前,没有什么人会相信计算机实时处理图像数据和视频,而现在普通的微机都可以处 理这些数据和图像。可以预料,10年甚至更短的时间内,我们所面对的因特网将是一个多媒 体网络。那时,搜狐、雅虎、AltaVista这些搜索引擎也许主要提供多媒体数据的查询,文 本检索只能躲在一个很小的角落里了。
即使在计算机和网络还没有发展到很高水平的今天,图像检索也有相当多的实际应用。现 在 的报纸、杂志、甚至我们日常做的报表、幻灯片中经常会用到各种各样的小图片,不但美观 ,还可以方便他人理解。比如你要做一个关于长城的报告,想在报告里加入一些长城的图片 ,而手头又没有这些图片,这时你就可以找图像搜索引擎帮忙了。比如,在AltaVista的网 站上键入Great Wall,一下就出来很多长城的图片。如果想进一步介绍长城的历史,需要一 张秦始皇的图片,只要输入Qin shihuang,出乎意料的是不光秦始皇就连兵马俑的图片也一 同找到了,虽然是意外收获,但也许后者也是你需要的。
随着数码相机的普及和扫描仪进入家庭,越来越多的家庭将家庭相册存入了计算机;而且 进行各种特殊图像处理都非常方便。其实,还有一个很大的好处就是方便检索,当然这是建 立在检索技术成熟的基础上的。你可能经常为找一张想要的照片在一大堆相册里翻来翻去, 特别是年代久的相片,更是很难找到。如果家庭的所有相片都存在计算机,我们就可以方便 地用图像检索的工具简单输入一些诸如人名、时间或地点信息,很快就能找到你想要的那些 相片了。
日立公司2000年第二季度宣布推出了一种图像检索新技术。该技术以“相似性”为基础检 索静止图像,尽可能地筛选出相似数据,用户可以察看所有的检索结果,最后自己判断选择 出的所要寻找的图像。该技术是日本通商产业省实施的下一代信息处理技术开发计划“Real World Computing(RWC)”的一部分,日立打算在2001年该计划结束时,利用该技术开发出 图像数据检索引擎并产品化,主要用于检索数码相机拍摄的图像,及将CG(电脑图像)数据的 数据库化。
随着现代影像和图像处理技术的深入发展,可供医学临床、教学和研究使用的医学图像数 量以指数速度膨胀。用户如何能方便地找到所需要的图像?这就需要创建可供检索的图像数 据库,它应该具有检索的实时性。现代化医院信息系统发展迅速,电子病历将成为不可缺少 的组成部分。据预测,五年内美国将有一半以上的医院配备电子病历系统,同时将配有高级 图像检索数据库。它可以按日期、特征、疾病、症状、解剖部位、图像类型、医疗仪器等属 性进行布尔检索(基于是非判断的检索)。基于因特网的全球虚拟病历系统已经在开发之中。 这个项目完成之日,到地球上任何地方旅行的人发病时都可以通过因特网调出他们自己的病 历。
其实图像检索已经运用在很多领域,例如公安的罪犯数据,医学研究机构的病理图像资料 管理,气象局卫星照片管理等等方面,随着各行各业信息化水平的逐步提高,图像检索技术 的 日趋成熟,将来会有更多的运用,定会给我们的工作和生活带来更多的方便和快乐。
5 具有图像检索功能的搜索引擎简介
因特网上有很多搜索引擎都具有图像检索功能。基于文本方式的图像信息检索应用得较广 且较成熟,如AltaVista、HotBot、Image Surfer等有影响的搜索引擎都采用这种方式。基 于内容特征的图像信息检索目前尚处于试验和兴起阶段,主要以静态图像为主,而动态图像 比较罕见。另一方面,多媒体信息是一种宝贵的资源,但人们对它的组织和利用目前还不够 充分。例如,很多现存的多媒体信息,包括通过太空望远镜拍下的宇宙图像、显微镜下生命 奥妙探究中的分子结构、高尖医学手术的视频记录等,对它们的组织和检索对于科学研究与 应用有着非常重要的指导作用,而这方面的数据库建设几乎是空白。至于网络上的多媒体信 息检索,大多仍停留在艺术、娱乐等方面。下面简要介绍几个典型的具有图像检索功能的搜 索引擎。
5.1 Image Surfer(http://ipix.yahoo.com)
Image Surfer是Yahoo!公司提供的基于文本方式进行图像检索的多媒体信息检索服务,其 主页列有“艺术”、“娱乐”、“人物”、“休闲”、“科学”、“运输工具”等大类及相 关子类。Image Surfer采用关键词进行检索,具有自动截词检索功能。例如,当输入关键词 “child”,检索结果(与child和chldren有关)就会以略图形式列出,每条结果给出图像标 题,点击图像就可链接相关的图像文件。
5.2 Excite(http:www.excite.com)
Excite采用文本方式进行多媒体信息检索。用户可检索视频和音频信息,并能对全部、AVI 、MIDI、MPEG/MP3、Real、QuickTime、WAV等其他媒体格式进行选择,然后通过关键词进行 检索,每条检索结果除了可进行相关的超级链接外,还提供有关该结果的简单说明。
5.3 AltaVista(http://www.altavista.com)
在AltaVista的多媒体信息检索页,用户可对图像、MP3/Audio、视频等进行选择检索,并 可对检索结果、来源进行限定。
5.4 QBIC(http://www.qbic.almaden.com)
QBIC(Query By Image Content)是IBM Almaden研究中心于20世纪90年代研制的,可支持因 特网上的图像和动态影像的基于内容的检索。QBIC提供多个图像数据库供检索实验,如美国 1995年以前发行的邮票图案、世界著名商标、旧金山美术博物馆图像数据库、法国文化部图 像数据库、美国加州大学戴维斯分校艺术和艺术史图像资料。QBIC建立较早,技术成熟,功 能全面,为基于内容特征的图像检索技术的验证和推广做过很大贡献。QBIC系统提供了多种 检索方式,包括:①利用标准范图进行检索;②绘制简图或扫描输入图像进行检索;③选择 色 彩或结构进行检索;④输入动态影像片断和前景中运动的对象进行检索。
5.5 WebSEEK(http://www.ctr.columbia.edu/webseek)
WebSEEK的信息来源是万维网上的图像和影像,因而是真正意义上的因特网多媒体信息检索 工具。目前,WebSEEK已从万维网上搜集了65万多幅图像和影像,并从分类、文本方式和内 容特征三个方面对其进行了标引和整理,用户可从这三个方面对图像和影像的颜色、纹理、 色彩构成等方面检索图像信息,并运用形状识别和相似性计算等方法,为用户提供更多的相 关信息。系统还提供了包括动物、建筑、艺术、地理等46个主题的主题分类检索,用户可根 据兴趣逐层浏览。检索结果以略图形式出现,点击略图可获得实际图像。