基于语义的WWW图像检索_图像检索论文

基于语义的WWW图像检索,本文主要内容关键词为:语义论文,图像论文,WWW论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】354.49

1 引言

随着WWW中图像资源日益丰富,图像搜索成为多媒体信息搜索的一项重要服务,但目前的图像搜索引擎,主要采用相关文字的关键词图像搜索,搜索结果的准确率太低,用户从大量的相关图片中通过浏览选择需要的图片仍然是相当繁重的工作[1]。为此,我们设计了一个WWW图像搜索系统,试图结合WWW网页中的文字信息、图像的视觉特征以及描述图像主体视觉特征的知识库,获取图像的语义,实现基于语义的WWW图像检索。本文阐述系统的主要组成和关键技术。

2 系统结构

系统由两部分组成:图像预搜索和图像检索。第一部分根据用户提供的关键词和用户选择的兴趣词库,利用图像搜索引擎(如Google、百度等)搜索与关键词相关的图像,分析图像所在网页,提取反映图像语义的主题、背景、主体及其视觉特征的关键词。然后,分析图像,进行区域分割,提取每个区域的背景、主体以及它们的颜色、纹理、形状等特征,再根据图像知识库,判别每个区域与图像背景、主体的对应关系,将图像主题、背景、主体及其特征保存在图像属性索引数据库中,作为图像语义,供检索使用。第二部分根据用户对检索目标图像的自然语言描述和特征选择,将其表示成与索引库字段对应的形式,然后计算检索目标图像与索引图像的相似度,将相似度最大的若干图像的URI、图像大小、类型和缩微图等提供给用户,让用户选择、浏览或下载。系统结构如图1。

图1

3 图像语义的提取

本文中,图像的语义指用自然语言的名词、形容词或动词描述的图像的内容属性,包括图像的主题、背景、主体及其视觉特征(颜色、形状、姿态、纹理、位置、大小、方向)等,如图2。图像主题指描述图像内容或图像意义的关键词。图像背景指图像背景的内容,如天空、地面等。图像主体指图像中突出表现的物体,如人物、动物、山、水等。主体的视觉特征用自然语言描述,如颜色、形状、纹理等。

图2

在WWW网页中,与图像有关的文本主要有:图像文件名、图像周围的说明文字、图像的标签、图像所在网页的标题、图像链接的网页标题、图像的URL、图像所在网页的URL和图像链接的URL等[2]。为了从这些文本中提取描述图像语义的关键词,我们建立了图像主题词典、图像主体词典、主体属性词典和图像知识库。图像主题词典列出描述图像主题的关键词(名词)和汉语拼音,图像主体词典列出图像的主体名称(名词),主体属性词典列出描述图像主体视觉特征的中文用词(名词或形容词),包括262个颜色词(对应RGB值)、82个形状词、18个纹理词、15个姿态词、11个位置词和8个方向词。图像知识库列出图像主体必须具有和可能具有的属性和属性值(描述文

跃,纹理(Texture)=条纹。表示图像中“虎”的颜色必须是土黄和黑或白和黑(白虎),形状是长或不确定,姿态是站、卧、奔跑、跳跃或不确定,纹理必须是条纹。

在中文WWW网页中,考虑WWW网页中文件名、URL常用汉语拼音或英文表示,在图像主题词典中提供中文、拼音、英文对照表,如“风景(Fengjing,Scene)”。另外,同义词用“:”表示,如“计算机:电脑”、“站:立:站立”等。

我们首先利用主题词典对文本中的拼音、英文翻译成中文,然后进行分词和组词,按图像文件名、标签、短的图像说明文字(图像名称)、图像链接的网页标题、图像所在网页的标题、图像的URL、图像所在网页的URL和图像链接的URL顺序,提取描述图像主题的关键词(名词、动词、形容词)。在主题关键词和较长的图像说明文字中,根据主体词典提取图像可能涉及的主体名。再根据图像知识库,在主题关键词、主体名以及主体名所在的句子中,提取符合知识库要求的可能的主体属性关键词。

4 图像的视觉特征提取

4.1 颜色模型选择

表示图像颜色的模型有多种[3]。我们基于HSI颜色模型,保持色调H不变,调整饱和度S和亮度I,将整个颜色空间压缩到半径为0.5的圆内,即:

4.2 图像分割

图像分割就是将图像中不同性质的区域分开,以便识别图像背景和主体,分析其颜色、形状、纹理、位置、大小等特征[4]。图像分割一直是图像分析的难点,目前还没有很好地解决。图像分割的方法有多种,我们采用以下方法分割图像。

(1)计算每个像素与四个相邻像素(水平、垂直和两个对角方向)的颜色距离,取它们的最大值作为图像的边沿值,形成灰度边沿图像。然后在X、Y方向分别扫描寻找极大值点,将灰度值大于0.2的极大值点设置为1,其余点设置为0,形成二值边沿图像。

(2)在二值边沿图像中,由于存在一些边沿断点和伪边沿(边沿噪声),我们采用多种方法进行边沿连接和消噪。具体步骤如下:①如果边沿线的端点与邻近边沿线仅隔一个像素点没有连接,则将此端点与邻近边沿线连接;②提取5条最长的边沿线,对剩下的边沿线或孤立点用7×7的正方形进行闭运算,然后计算每个像素的7×7邻域的亮度均值,形成模糊边沿图像;③将均值大于0.3的像素点设置为1,其余设置为0,形成边沿高密度区域图像,去除稀疏边沿线和孤立点(噪声);④将5条最长边沿线和图像四边(图像四边看成特殊的边沿线)合并进来,提取区域轮廓,形成新的二值边沿图像;⑤对边沿线的端点再进行连接,连接的范围为2[*]d/(1+cosθ)<10,d是端点到邻近边沿线点的距离,θ是端点到邻近边沿线点的连线与端点处边沿线切线的夹角。

(3)在新的二值边沿图像中,根据边沿线对图像的分割情况,提取面积最大的5个区域作为图像背景或图像主体。

4.3 图像主体的视觉特征提取

首先计算5个区域的中心点、面积和主轴方向(最小外接矩形的长边方向),确定区域的位置、大小和方向,然后提取区域内图像的主色调、形状和姿态、纹理。

(1)主色调提取 利用改进的HSI模型,计算区域内像素的颜色直方图Hist(h,s,i),其中H均匀量化18份,S均匀量化5份。I均匀量化10份,共579种有效颜色。我们提取Hist(h,s,i)的前5个极大值(而非最大值)对应的颜色作为区域的主色调,用RGB值表示。

(2)形状和姿态识别 描述图像区域形状的主要参数有中心点位置、区域面积、边沿长度、圆形度、矩形度、球形度、长宽比、逼近多边形的凹凸点数、凹凸度(逼近多边形与最小外接凸多边形面积之比)、7个不变矩等。我们以区域的相对位置、相对大小、逼近多边形的凹凸点比率、区域内平均边沿模糊度(边沿点的7×7邻域内与边沿点颜色相同的像素的比率)为输入参数,利用2层BP神经网络识别图像区域为背景或主体;我们以圆形度、矩形度、球形度、长宽比、逼近多边形的凹凸点数、凹凸度和7个不变矩为输入参数,利用3层BP神经网络识别图像主体的形状和姿态。

(3)纹理识别 纹理是图像颜色规律性变化的表现。结构化纹理由许多纹理元组成,每个纹理元的边沿围成一个区域。我们对区域面积大于一定阈值的纹理元计算其形状参数,利用3层BP神经网络识别其形状,做纹理元直方图,提取数值最多的1-3种纹理元(数值和占总数一半以上)表示图像主体的纹理。

5 基于知识的图像主体语义整合

在WWW网页中提取的图像主体和主体属性与利用图像分析得到的视觉特征属性不一定完全对应,而且往往存在较大差别,因此我们利用图像知识库对这两种属性进行整合。将WWW网页文本中提取的图像主体、图像分割得到的图像主体、图像知识库中的图像主体分别记为Ⅰ、Ⅱ、Ⅲ,然后按如下方法操作:

(1)根据Ⅰ中每个主体的名称,在图像知识库中找到Ⅲ的属性知识;

(2)根据Ⅲ的属性知识,按6中相似度的计算方法,计算Ⅱ与每个Ⅰ的对应属性的相似度。总相似度设为每个属性相似度之积。若Ⅱ与Ⅰ的最大总相似度大于预定阈值,则认为Ⅱ与Ⅰ对应,用Ⅰ的名称为Ⅰ命名。否则,取名…,表示未知名;

(3)将图像主题、背景颜色、命名后的Ⅱ及其属性值保存到图像索引库中。

6 基于语义的图像检索实验

我们利用Google的图像搜索功能,搜索与“猫”、“狗”、“山”、“花”四个关键词有关的图片和所在的中文网页,从中提取了1200幅主题词与图像内容对应较好、图像主体比较明确的照片。利用上述方法,提取每幅图像的语义描述词,保存在图像索引数据库中。根据用户对检索目标图像的内容描述,计算检索目标图像和索引图像的相似度,将相似度大于一定限值(最大相似度的0.5倍)的图像按总相似度由大到小排列,作为检索结果提供给用户。实验表明,本实验系统具有较高的图像检索准确率。例如,检索“背景是蓝天白云,有山,有绿草,有红花的风景照片”,在1200幅图像中检索到32幅图像,与人为检索比较,准确率达63%。

7 结束语

本文提出的基于语义的WWW图像检索系统,在提高检索准确率方面有很大提高,但在复杂图像的视觉特征提取方面还有很多困难,我们今后工作的重点是扩大图像库规模,提高图像视觉特征的提取精度,以便提高WWW中复杂图像的检索准确率。

标签:;  ;  ;  

基于语义的WWW图像检索_图像检索论文
下载Doc文档

猜你喜欢