图像检索需求描述的研究进展_图像检索论文

图像检索需求描述的研究进展,本文主要内容关键词为:研究进展论文,图像论文,需求论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G353

收修改稿日期:2009-12-22

1 引言

检索需求是用户表达个人信息需求的一种方式。图像检索需求表达时存在较多障碍:不能完全明确地用文字来描述,不同的人对同一图像的理解各异,单独一幅图像可能有多个维度的解释,可满足多个查询请求。带来的问题是:图像检索者可能关注图像不同层次的信息;即使对于同一层次也可能关注不同的信息类别;而且用户也不一定有能力通过一个检索提问完全表达其图像需求。这一问题在基于内容的图像检索或基于关键词的图像检索系统中都不同程度地存在。

(1)基于关键词匹配的图像检索系统完全依赖于图像标注/索引与用户检索提问的匹配,而现行图像标引和分类机制往往基于专家知识和主观观点,在图像的丰富表现力面前仍然会显得力不从心,存在主观和片面的可能;期待少部分专家能够选择普适性的、适合一般用户的概念体系是不太现实的。因此,图像标注索引与用户检索提问这两个话语体系的失配,很大程度上导致了图像检索的“所得非所需”。

(2)基于内容的图像检索系统主要关注底层图像特征,如颜色、形状和纹理等,而现有图像用户检索行为的研究结论表明,用户更愿意就高层语义进行检索提问,而很少会使用低层特征来检索[1],而且人们倾向于通过语义层次上的相关性来判断检索结果的好坏[2],语义鸿沟无可避免。而解决语义鸿沟问题,一方面需要从技术上建立低层特征和高层语义的映射关系,另一方面需要研究用户图像需求表达的语言特征,了解各类需求要素的分布,使技术攻关具有方向性并有所侧重。

基于上述背景,图像描述和用户需求表达成为图像检索的关键问题和基础性工作,其研究将有助于推进客观的图像描述、图像语义提取和映射与用户主观图像需求表达之间的无缝对接;使图像的人工或自动标引在考虑用户话语体系的基础上尽可能面向用户。图像检索需求描述的相关研究侧重于三个方面:图像检索需求描述的要素;图像检索需求描述的分类框架;实证研究及相关应用建议。

本文介绍图像检索需求描述方面的研究进展和相关结论,从而试图揭示图像检索中的问题与障碍,为图像标引机制和图像检索系统人机交互界面设计的优化等提供一些依据。

2 图像需求描述的要素

Jrgensen从认知心理学角度对图像需求自由描述文本进行分析,提取出12种图像描述要素[3],具体为:图像中的对象、人物、颜色、内容/情节(包括事件、环境、活动和时间信息等)、图像来源、规格说明、视觉特征(如材质)、艺术作品信息(如画家、风格等)、人物特性(如情绪、气质等)、相关信息、反应(如不确定)、摘要(如主题)。并且在研究中发现[3],人们描述图像需求时,主要使用图像中的物件、人物、颜色、地点以及情节等要素,在这些基本要素中,物体、身体部位(如头、手)、衣服、人物、颜色、图像来源等子类在图像需求描述中使用较频繁。“内容/情节”要素中,特定人物的活动以及职业/社会地位(如舞蹈家、工人)等也是经常被使用的子类。

Cunningham等利用Google Answers[TM]的“Ask an Expert”在线咨询系统中的Visual Arts栏目的数据集,收集关于艺术图像的用户提问,分析一般公众是如何表达其图像信息需求的[4]。研究中发现,人们在图像检索需求的表达中包含8类基本要素:图像元数据、图像内容、图像风格类型、图像出现场合、颜色、图像示例、图像抽象概念、情感等。80.4%的用户提问中使用图像元数据来描述图像需求;41.6%的提问针对图像内容,包括图像中包含的人、物件或者事件等。而且大多数提问都可以归到图像元数据的5大类中:画家、日期、画家所在地域(国家或地区)、画作标题、图像尺寸等。不过Cunningham在2006年针对日常图像查询需求的研究中[5],结论有所不同:一般大众的图像需求更多针对图像分辨率、图像大小、颜色、版权状态和图像形式(如照片、绘画、海报等)。

3 图像需求描述的分类框架

研究者们在研究用户图像检索需求表达中的常见要素、各类图像要素被用户运用的规律以及图像提问式特征等问题时,往往需要寻求一个能够容纳各类图像需求描述要素的分类框架,因此产生了一些相对成熟的关于图像检索需求描述的分类模型。

3.1 Shatford模型

Shatford提出一个图像需求分类方法[6]。图像描述包括三层分类:一般概念、专指概念、抽象概念。一般概念层次,采用一般性的概念来描述物体和动作,采用日常知识即可,如“塔”、“散步”或“猩猩吃香蕉”。专指概念层次,在图像内容理解的基础上对物体和事件进行描述,不同的是物体和场景是可辨认、可命名的,如“埃菲尔铁塔”或“柏林墙的倒塌”。一般概念和专指概念有时并没有明显界限。抽象概念层次,涉及情绪、情感、抽象概念和象征意义。Shatford还对每个层次各增加了4个维度,即:人物、内容、地点、时间,形成一个关于图像需求描述的3×4的矩阵,即所谓的Shatford模型[6](见表1),广为研究者接受并采纳运用[7-8]。

3.2 Jaims & Chang 10层模型

Jaims和Chang根据所需要的知识多少来对图像需求进行分类[9],提出了一个包括语法和语义的10层索引机制。层次越高,构造需求所需要的知识就越多。最下面4层统归为知觉层次,其中,第一层是类型/技术层。它提供了关于这幅图像的一般性可视化属性,描述术语诸如画作、绘图、照片、黑白、彩色、包含颜色数量等。后面的三层基于图像的低层次特征。知觉层次的描述不需要任何文字加工修饰技巧。剩下的6层是概念层次,又分为三层:一般概念、专指概念、抽象概念,与Shatford模型直接对应。对于每个层次,他们又从“图像所含对象”和“整体场景”两个角度作了进一步区分。构造概念层次的图像需求描述,需要拥有一般性的、专指性的、抽象的文字表达知识和技巧。上述两个模型存在继承和对应的关系,如表2所示:

3.4 Hollink的整合图像需求描述框架

Hollink整合了上述诸多研究的结论,提出了一个整合图像文本描述和视觉特征描述的图像需求描述框架[11]。非视觉层次的要素取自于VRA核心元素集,是关于图像形式特征的外部描述;知觉层次是针对图像的直接视觉信息;概念层次同样分为一般概念、专指概念和抽象概念三个子层。各层次包含的要素如表4所示。

在表4中,非视觉层次中的相关信息(Relation)是指与该图像相关的作品信息,如同一系列的其他作品,而概念层次中的相关信息(Relation),则是指图中两个物体之间的相互关联,如“笔记本放在腿上”;知觉层次的Technique/Type描述要素,是针对数字图像的媒体形式,反映了数字图像制作的技术,而组合关系则反映视觉元素的空间关系和效果,如“对称”、“透视”、“上升趋势”等。

4 实证研究及相关应用建议

实证研究主要围绕图像检索提问式来进行,有两种研究思路:利用图像检索系统的用户日志大规模统计分析;实验室环境下采集用户进行图像搜索任务时的查询提问式,进行小规模实证。研究者一般会基于图像检索需求描述的分类框架来实证分析,得到以下结论:

(1)图像提问式的一般特征,如表述方式、提问式的平均长度、提问式的调整、运算符使用习惯等。如:Keister研究指出[12],不同用户群体的图像提问特征是有差异的。图像专业用户的提问一般多针对反映视觉组合效果和主题内容的图像元素,大多数请求是“建构式提问”,由抽象性词汇和具体词汇描述而成。Goodrum和Spink分析了Excite的33 149个图像查询请求[13],发现用户进行一次图像搜索平均提交3.36个查询请求;查询提问式的平均长度为3.74;用户在每次查询请求中输入关键词较少,大多数词条只出现一次,即使是最频繁出现的查询词条,出现的频率也低于10%;前100个高频词条中四分之一由与“性”和成人内容相关的词条占据;很高比例的用户(59.6%)会在搜索过程中调整他们的提问请求。Jrgensen等采集了一个商用图像数据库的某月的用户查询日志[14],从词汇、提问请求、查询三个层次来进行统计分析,发现:提问请求的平均长度为2.1,这与Cunningham的研究结果一致[5](检索提问的平均长度为2.24,中值为2,标准方差为0.94);大多数最初的提问请求是单个词汇;用户在进行提问请求时,倾向于采用名词描述(49%);与早期其他研究所不太一样的是,专有名词只占8.7%,包括地理位置等,这表明在该用户群体中用户不一定使用专指性描述来开始搜索,而是采用更一般性的描述类别。在搜索过程和提问请求层次,平均每个查询过程中有2.31次提问请求,23.40%的请求能够获得查询成功。他们还对操作符的运用进行了研究,发现AND是使用最多的[14]。

(2)各提问要素的分布特征。许多研究者有针对性研究人们在描述图像需求时哪些类别的要素更多被使用。Armitage和Enser利用Shatford模型[15],研究人们在描述图像需求时哪些类别的要素更多被使用,结果发现,人们使用一般概念层次的人物、专指概念层次的人物和地点来进行图像搜索的概率比较大。Choi和Rasmussen实验采集了用户对美国国会图书馆图像数据库的查询提问,采用Batley的分类框架分析发现[7],大多数需求是一般/可命名类,占60.5%;专指性需求占26%,其他类需求所占比例很小。在该研究中,他们分析用户提问中的关键词和描述要素的分布特征时采用了Shatford模型,结果表明大多数图像内容优先采用人物、物件、事件或环境(包含地点或时间)等来描述。标题名、日期和主题被认为是呈现图像客观信息的最恰当的描述方式。Yoon和Chung根据Batley的分类框架,也获得了类似的结论[16]。

(3)还有一些研究者对提问式的修饰行为进行了研究,如Enser和McGregor分析用户的图像检索提问[17],以单一性、修饰性为维度发展出4种组合的分析框架。Pu关于图像搜索引擎日志的系列研究[18-20],利用Enser等的分析框架,从图像检索日志中选取了1 000个具有修饰语的检索词条,依据修饰语的主题性质,分析归纳出3大类、10小类的修饰类型,并研究了各修饰类型的分布。

诸多研究者在实证研究的基础上,对图像资源服务提出若干应用建议,主要集中于人机交互界面和图像资源组织两大方面。如:Cunningham等研究建议[4],人机界面设计时,要考虑到用户在图像媒介形式方面的认知缺乏,尽可能避免要求用户对图像媒介形式限定或选择;系统必须能够将图像原稿和派生制品清晰区分等。Jrgensen和Goodrum等研究中提出[14,21],用户想构造和调整搜索关键词,但不知道具体怎么做,因此图像检索系统中需要为检索提问的构造和调整提供更多支持。另外,用户需求的表达抽象层次的概念使用并不多,研究建议在满足抽象层次需求方面,增强图像浏览功能和导航机制可能更有效[8]。Yoon在研究中发现,虽然LCTGM(the Library of Congress Thesaurus of Graphic Materials)图像词典中没有包含颜色概念,但在图像需求描述中,存在一小部分高频的基本颜色词汇,建议它们成为索引词汇[8]等。

5 结语

现有研究在理论上较一致地呈现了用户图像检索需求表达使用的要素,并试图建立分析图像检索需求的理论框架,相关实证研究帮助揭示图像检索需求的分布特征和规律。

(1)人们在描述图像需求时,选择的描述元素来自两个方面:图像文档的形式特征;图像的内容和主题特征。图像资源管理实践中关于图像资源的两种编目方式——描述性编目和主题编目,正对应了上述图像需求描述的要素特征。

(2)在图像需求的表达中会大量使用图像元数据,图像元数据应该成为用户提问与图像标引之间的有效沟通元素。

(3)虽然研究者们提出的分类框架和层次结构各有不同,但基本结构是一致的:从非知觉层次、知觉层次、概念层次三个层次,无论是图书馆中对图像资源的编目,抑或用户图像检索需求的表达。

对于图像概念层次,研究者基本都认同三层分类:专指概念、一般概念、抽象概念;但是,他们在做进一步区分时,角度有所区别,例如对象/场景的区分、人物/事件/地点/时间的区分等。图像概念层次的分析直接与图像语义相关,蕴含了图像的主题和内容语义。不同模型的侧重是不同的,Shatford和Batley模型侧重在图像概念层次的语义描述,而其他两个模型注意到了在图像描述时可能的对图像知觉特征和图像外部形式特征的运用。

(4)大多数关于图像检索行为的研究中都会以图像需求描述的要素及分类理论进行数据分析和结论推衍,以获取关于用户图像查询需求表达的特征和规律。

与传统用户信息行为研究类似,用户图像检索需求研究首先为用户界面设计提供建议,但其发展潜力远不止如此,相关的研究趋势有:

(1)随着语义图像检索研究的不断发展,一些语义图像检索或图像本体研究方面的项目开始关注图像用户研究,其研究侧重于用户如何描述图像、如何感知图像特征,旨在获得用户图像认知来指导图像底层特征与图像高层语义之间的映射。如荷兰的MultimediaN N9C Eculture项目[22]中对视觉资源的语义描述的研究就建立在视觉资源检索需求表达的用户研究基础之上。

(2)现有的研究视角多从图像检索提问着手研究图像需求的表达,而随着Web2.0的兴起,社会化标签、大众分类法等参与式知识标引方式提供了关于用户图像需求表达的新的研究视角:用户对图像资源的标引能够反映用户的图像理解和表达特征,这种特征理论上与其检索需求表达很大程度上是一致的。一些针对Flickr网站的用户标签研究[23-24],试图分析用户对图像的命名和分类,挖掘内在用户图像表达的规律,对图像组织和标引提供来自用户的依据。

(3)面向用户的图像词典优化和本体构建。现有图像词典如艺术主题索引ICONCLASS、AAT(the Artand Architecture Thesaurus)等[25]的构建多基于专家法,使词典过于专业主观,在与一般用户需求表达的对接上存在错位,这也是现有图像词典备受争议的原因。而基于用户使用依据、融合用户语言体系和使用经验来调整和优化图像组织的概念体系和语义结构,构造基于用户的图像本体,越来越受到研究者的关注。

标签:;  ;  ;  ;  ;  ;  ;  

图像检索需求描述的研究进展_图像检索论文
下载Doc文档

猜你喜欢