国外图像特征研究进展及启示_元数据论文

国外图像特征研究进展与启示,本文主要内容关键词为:研究进展论文,启示论文,图像论文,特征论文,国外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      分类号:G254

      DOI:10.13266/j.issn.0252-3116.2015.08.020

       图像是人们日常工作、学习和生活中广泛使用的多媒体信息资源类型之一。早在10余年前,包括图片、图形、绘画、动画、视频等多种形式在内的视觉资源就已经占到网络信息的70%左右[1]。2010年,Google官方博客曾指出平均每个网页传输内容中约65%为图片和照片[2]。2011年,Flickr用户上传照片量就达到60亿张[3]。截止到2013年3月,Flickr已有8700万注册用户,每天上传的新图片超过350万张[4]。为了加强海量图像信息的有序化,图像信息的描述、组织、存储及检索问题一直是学术界和工业界的研究热点之一。其中,对具有检索意义的特征和线索进行揭示与表达的图像标引工作是建立图像检索系统的前提和基础。图像标引需要解决两个基本的问题:一个是明确标引对象,一个是明确标引方法。前者讨论图像具有哪些属性和特征,后者则关注如何识别、提取和描述这些特征。本文主要就第一个问题,对与图像特征有关的国外研究进行调研和分析,从总体上阐述图像特征研究的基本问题、主要研究内容,总结目前图像描述与著录规范的种类、图像特征的类型和层次特点,侧重探讨用户在标注图像、表达图像检索需求时运用图像特征的方式以及相关影响因素,从研究内容与发现、研究方法等角度进行概括,指出下一步研究方向,为丰富、完善图像特征体系,进一步推动国内图像特征的研究提供参考和借鉴。

       1 国外相关研究现状

      在文献调研中,首先在Web of Science中进行检索,采用两组英文检索词进行标题和主题的组配检索,一组为“image”、“picture”、“photo”、“drawing”、“painting”等,另一组为“metadata”、“index”、“description/descriptor”、“classification”、“attribute”、“feature”、“tag”等,检索限定在“Social Sciences”类别下的“Information Science and Library Science”范围内,经筛选获得初步的相关文献30余篇。在此基础上,结合文后参考文献,以及对C.J

rgensen、P.C.B.Enser、A.Jaimes、Chang Shih-Fu和J.W.Yoon等重要研究者的研究工作的搜集,对相关文献进行进一步扩充,并结合文献被引情况,最终获得核心的相关文献60余篇。此外,还对相关的图像元数据标准进行了专门调研,从标准发布机构(如IPTC照片元数据标准)收集版本发展情况。综合文献调研的情况来看,图像特征研究主要关心两个基本问题:一是图像具有哪些特征,如何进行描述和著录;二是用户在描述和检索图像时会如何使用这些特征,如图1所示。

      

       图1 主要研究内容图示

       围绕上述两个问题,研究内容包括两方面:其一,从图像描述与著录规范形成角度,探讨元数据标准问题,包括图像专用元数据、视觉资源通用元数据以及其他通用元数据;此外,这类研究也有的是从图像特征的分类、分层现象对图像特征类型进行梳理,得到二分、三分,甚至更多类型的划分。其二,关于图像特征的用户使用及相关影响因素研究,通常借助日志分析、调查研究等方法,考察在开放的互联网环境下或者实验环境下,专业人员、普通大众在标注和检索等多情境下运用图像特征的方式以及相关影响因素。这类研究通常会以第一类研究形成的相关标准或图像特征分类理论为基础,对图像的标注结果或者图像检索请求进行分析。以下分别就这两方面的研究进展进行分析。

       2 图像描述与著录规范及特征分类、分层研究

       2.1 图像描述与著录规范

       关于图像描述与管理的规范和标准研究,以元数据标准研究为主,这类研究从图像著录的现实需求出发,从元数据类型、构成元素、著录规则等角度探讨图像具有哪些特征以及特征之间的关系特点。适用于图像的元数据标准大致有3类。

       2.1.1 图像专用的元数据标准 如IPTC照片元数据标准,2004年,国际出版电讯委员会专门针对新闻报道中的照片管理提出了该标准,并且在众多新闻通讯社如美联社、路透社、德新社、法新社以及中国的新华社得到广泛使用。根据2014年10月发布的最新版本,IPTC照片元数据包括标题、创作者、场景代码、主题代码、创作时间、城市等23个核心元素以及照片中人物及地点、照片供应商、照片注册表等33个扩展元素,以支持数字照片从生产到发布及至最终存档的整个流程[5]。

       2.1.2 视觉资源通用的元数据标准 主要用于图书馆、博物馆、档案馆等机构与部门,对艺术作品、建筑、史前古器物、民间文化等艺术类视觉资源实物及其衍生的数字对象进行描述和管理,包括VRA Core、CD-WA、REACH、ARTstor Core等。例如,Zeng Marcia Lei[6]对肯特州立大学博物馆的历史服饰数字图片进行描述时,就是以VRA(]ore为基础,结合服饰的特殊性,增加了次级材料(如服饰饰品)、出处(如服饰收藏历史)、引文(如引用作品的印刷物或图片)、保存(如服饰现状和修复历史)以及服饰结构(如领口、袖型)5个描述元素。

       2.1.3 通用元数据标准 一方面包括面向多媒体信息的MPEG-7标准(也称为“多媒体内容描述接口”),该标准为各类多媒体信息提供了一种标准化的描述框架[7],其中定义了创作信息、存储介质、使用信息等5种内容信息。美国哥伦比亚大学的数字视频/多媒体研究小组基于MPEG-7开发了图像浏览和检索系统,用于图像的分类导航[8]。另一方面包括面向各类信息资源的DC元数据标准以及编目标准RDA、AACR2R等,其中DC元数据的扩展性较好,加州大学伯克利分校、华盛顿大学、佛罗里达国际大学图书馆的数字馆藏都采用DC管理视觉资源馆藏[9]。

       2.2 图像特征的分类、分层研究

      与图像元数据标准研究不同,图像特征的分类、分层研究更多地集中在对图像语法和语义特征的细化方面,少部分也会将图像外部特征一并纳入。并且,这类研究通常会更多地考虑用户的图像认知特点,或者是图像处理和特征识别的技术实现。目前形成的图像特征分类、分层理论有如下几种:

      2.2.1 二分理论 二分的做法通常从主客观角度进行划分,如M.G.Krause[10]指出图像具有外显特征和内隐特征,进而提出硬标引和软标引的概念,前者所处理的正是图像中易于观察、相对客观的外显特征,软标引则强调标识出需要依赖主观解释和用户反应的内隐特征。从用户主观感受来看,对于同一幅图片,不同用户往往有不同的主观感受,甚至同一用户在不同的时间段也可能产生不同的感受。因此,软标引的一致性不易保障,并且随着图像的复杂程度增大,标引一致性可能更差。

       2.2.2 三分理论 E.Panofsky[11]是三分理论的早期代表,他在研究文艺复兴时代的艺术作品时提出艺术作品在内容表现上有3个层次,即前图像志、图像志和图像学。其中,前图像志指图片主题,又分为事实和情感表达两类,前者是指根据一般的知识经验就可以解读图片表现的对象和事件,后者则指图片传达的情绪。图像志是图像所表现的可辨别出名称的客观事物,也分为可命名的客观事物及所表征的抽象、象征意义两类,用户受教育程度会影响他们对图像志层面含义的理解。图像学是指图像内容的内在含义,需要综合图像所处的艺术、文化及社会环境,甚至创作者个人特质进行理解,图像学被认为是标引中最难取得一致的特征层。E.Panofsky的理论在后来的研究文献中被广泛引用,如K.Markey[12]结合该理论探索了在联机环境下图像检索点的设置问题,并认为前图像志和图像志更适合作为检索点。除了从图像内部特征角度形成的三层分类理论以外,还有研究者结合图像内部与外部特征形成更系统的分层,并且每一层内部又具有细分的子类。例如,L.Hollink等[13]借鉴A.Jaimes和Chang Shih-Fu、S.Shatford等的前期研究以及VRA Core元数据标准,提出一个包含非视觉、知觉和概念3个层次的图像特征理论。其中,非视觉层包括创作者、日期、材质等图像外部特征,主要借鉴VRA Core元数据标准;知觉层包括颜色、形状、纹理等图像视觉特征;概念层则与图像语义特征相关,包含图像中的对象、场景、事件等,同时又可细分为一般、专指和抽象3个子层。

       2.2.3 更多分层的理论 S.Batley[14]结合图像特征的专指性总结了4类特征,包括专指、一般/可命名、一般/抽象和一般/主观。F.Fauzi和M.Belkhatir[15]则在研究互联网图像的基础上,借鉴E.Panofsky、L.Hollink等的理论,从图像文本描述归纳出图像语义特征模型,用于标引图像。该模型按照不同的抽象级别,将图像内容分为信号、对象、关系、场景和抽象5层。其中,信号层表示图像中的底层视觉信息,对象层表示图像中的单一实体,场景层从图像画面整体对图像表现的内容进行描述。关系特征有两种:一种是图像中不同对象之间的关系,另一种是创作者、创作时间、图片类型等外部特征。抽象层表示图像或图中对象表征的抽象概念。B.Burford等[16]在参考计算机科学、艺术史和心理学等相关领域知识的基础上,将图像外部特征单独分为元数据一层,因此形成图像特征的6个层次,分别是感知层、几何层、视觉关系、语义层、抽象层(上下文、文化、技术、情感)以及元数据。P.Rafferty和R.Hidderley[17]则参考E.Panofsky理论,从图像内容标引角度提出了不同的6层特征模型,包括书目信息、结构性内容、整体内容、对象内容、对图像的解释和对对象的解释,较少考虑视觉特征而侧重对图像中包含的对象和蕴涵的语义特征的揭示,如该模型不仅利用对图像的解释这一特征表示图像所传达的情绪(如高兴的),还利用对对象的解释这一特征表示图中对象的状态(如得意洋洋的人)。

       A.Jaimes和Chang Shih-Fu[18]综合认知心理学、图书馆学、艺术等领域的研究提出了一个更细致的10层模型,MPEG-7标准在制定过程中亦参考了该理论。这一模型自上而下,上面4层属于语法/知觉层,是人们对图像视觉呈现的直接感知,包括技术特征、全局特征、局部特征和全局组成:下面6层为语义/概念层,包括一般对象/场景、专指对象/场景和抽象对象/场景。此后,C.J

rgensen等[19]通过招募被试进行图片描述和标引实验来检验这一模型,结果发现A.Jaimes和Chang Shih-Fu的10层模型较好地涵盖了用户描述和标注图片时涉及的图像特征。

      2.2.4 二维理论 与前述理论不同,S.Shatford[20]借鉴E.Panofsky理论,从图像语义的抽象程度和图像表现的内容两个维度共同考察图像特征。该模型将图像语义层次分为一般、专指和抽象,图像表现的内容分为对象、事件/活动、地点和时间,由此形成3×4模型,共计12类图像特征,如抽象对象表示虚构的事物(如雅典娜),抽象地点表示象征性的地点(如天堂)。之后,S.Shatford[21]进一步指出,考虑到保存和检索图像的需要,在图像编目中至少要著录书目、主题、载体形态和关系4类特征。S.Shatford理论后来被N.Conduit和P.Rafferty[22]应用于一项图像标引研究,该研究调查了33个机构的图像管理人员,根据他们在实际工作中关注的图像特征以及图像库的用户提问,对S.Shatford提出的12个元素进行了细化,如对于一般类人物特征,可以使用性别、年龄等进行修饰,对于一般类地点特征,可以将其细化为室内/室外、城市/乡下等,从而丰富和完善3×4模型。

      除了上述研究,2011年,E.K.Chung和J.w.Yoon[23]在研究Yahoo!提问数据的基础上,整合已有研究理论,提出了较为系统的图像特征描述框架,将图像特征分为非视觉层、语法层和语义层。其中,非视觉层包括书目信息(如标题、作者等)、物理信息(如大小、格式等)和上下文信息(如与其他图像的相似度等);在语法层和语义层则是大部分对应了A.Jaimes和Chang Shih-Fu的10层模型。之后,他们[24]将图像特征理论与图像用途理论相结合,进一步完善了该框架,将3层调整为图像需求特征、图像特征和相关信息,其中,图像特征所包含的分层以及元素基本不变,但将原先的上下文信息分离出来独立为相关信息,并细化为相似、比较、已知、排除和故事背景5个方面。

       3 图像特征用户使用研究

       3.1 用户在标注情境下对图像特征的使用研究

       在标注情境下,根据数据收集方式,可以将研究分为两类,即通过招募被试开展的实验研究以及通过收集互联网上的图像标签数据开展的研究。

       3.1.1 基于标注实验的研究 在不同类型、层次特征的使用情况和重要程度的考察方面,C.J

rgensen[25]招募了107名布法罗大学信息与图书馆学研究学院的学生开展了图像描述研究,然后采用扎根理论对描述词聚类,从中归纳得到一个具有3层12类要素的描述体系,包括感知、解释和反应层,其中感知层包括对象、人物、颜色、视觉元素、地点、描述;解释层包括人物相关要素、艺术历史信息、抽象概念、内容/故事、外部联系;反应层包括用户反应。由标注数据发现,用户最常描述图像包含的对象,其次是人物和颜色,抽象概念使用得最少。J.P.Eakins等[26]有过类似的发现,其研究通过调查问卷的方式,收集到125名被试对图像内容重要程度的评价,结合B.Burford等提出的6层理论以及J.P.Eakins和M.E.Graham提出的3层理论[27],分析发现,用户普遍认为第二层特征(语义层、文化和技术)最重要,第一层(颜色、形状、纹理)次之,再次是第三层(情感)。

       与前面的研究不同,A.Rotissa[28]从单幅图片的标注和一组图片的标注差异角度,考察了用户对图片分组后的标注与单独图片标注的关系。该研究借鉴认知语言学领域的基本层次范畴理论对标注数据进行编码,将图片特征分为底层、基础层和高级层,结果发现,当用户对图片分类添加标签时,往往使用抽象级别更高的泛指概念对该类中出现的各种图片进行概括(如交通工具),而对于单一图片的标注则以更为具体、专指的特征描述为主(如汽车)。

       除了一般性的图片,还有研究考察了专业类图像标签的特点。例如,J.L.Klavans等[29]分析了艺术图片的标注数据,收集了100幅非抽象的艺术图片,让用户添加标签,然后利用L.Armitage和P.G.B.Enser的理论进行分析,结果发现,一般对象的标签占到近一半,其次是一般事件/活动,并且,抽象情感类标签也占10%,甚至高于视觉特征和图像外部特征类标签。S.Westman等[30]以期刊图片为例,从5种芬兰的刊物中各自选取了20幅图片,招募被试根据图片相似性对100幅图片进行分类并对分类命名。研究发现,这些被试在分类时考虑的图像特征包括用途、人物、对象、场景、主题、故事、情感等10类。

       3.1.2 基于用户生成内容的分析 与招募被试做法不同,基于用户生成内容对图片标签的研究在更自然的环境下对标签中使用的图像特征进行研究。N.Ransom和P.Rafferty[31]从下载的2000幅Flickr图片中随机选择了250幅,利用S.Shatford模型对这些图片的标签进行编码分析,结果发现其中人物、对象类标签最多,并且更倾向于使用一般性描述词。类似地,J.W.Yoon[32]也采用S.Shatford模型以及基本层次范畴理论对Flickr上的图片标签进行研究,同样发现总体上一般类标签多于专指类标签,抽象和颜色类特征出现较少。

       此外,还有研究人员从比较的角度考察大众标签和专业机构图像标引的关系。A.Rorissa[33]采用C.J

rgensen、P.G.B.Enser和C.G.McGregor的理论,对Flickr图像标签和圣安德鲁斯大学图书馆照片档案中的标引词进行分析比较后发现,两类标注词中最常使用的图像特征都是地点,其次是内容/故事。不过,在单一/非单一以及是否有修饰上两类标注词存在较大差别,如Flickr中用户多使用无修饰的词,并且单一/非单一使用频次差异较小,但对于照片档案库中的标引词,大部分词汇都带有修饰,并且非单一词汇远多于单一词。与这一发现有所区别,Huang Hong和C.J

rgensen比较了Flickr标签与国会图书馆图像集(LCP)中的图像特征,以S.Shatford模型为基础进行编码,研究发现Flickr图像标签中与一般对象和专指地点相关的较多,而LCP中专指对象和时间使用最多。

       3.2 用户在检索情境下对图像特征的使用研究

       3.2.1 检索需求表达中的图像特征使用 在检索情境下,针对不同领域的图像检索需求,图像特征使用频率不同。对于查找艺术历史图片的用户而言,图像主题特征(如人物、时间、地点等)使用最为频繁。S.K.Hastings[35]让8位研究加勒比海绘画的艺术历史学家在艺术图像数据库中进行检索,将提问类型按频次统计排序,依次是标识、主题、文本、风格、艺术家、类目、比较和颜色。K.Collins[36]为分析图像使用特征,收集了两个艺术历史图片库中的187个用户提问,研究发现86%的提问采用主题检索,如人物、对象、地点、活动等,并且一般类词汇的使用要多于专指类词汇,而图像创作者、体裁、视觉元素的使用较少。Chen Hsin-Liang[37]则从选修艺术史课程的29名大学生中收集到534个检索提问,发现单一无修饰的词汇使用最多。Y.Choi和E.M.Rasmussen[38]调查了38位研究美国史的教师和学生的图像提问,结果发现,专指特征最为常用,其次是一般特征,抽象特征使用最少;并且,专指时间占34.78%,而一般时间、抽象时间和抽象地点未被使用,这与研究者倾向于从某个历史时刻进行查找有关。与这些研究发现不同的是,S.J.Cunningham等[39]利用Google Answers的“Ask an Expert”在线问答系统中的视觉艺术类目进行图像检索提问分析,结果发现图像的书目数据在需求表达中的使用非常频繁(80.4%),其次才是图像中包含的人、对象或者事件等。

       对于新闻从业人员,表达检索需求时常常使用对象类特征以及专指特征。S.Westman和P.Oittinen[40]通过访谈和日志的方式得到了新闻工作者的图像提问数据,利用S.Shatford模型编码后发现专指对象和一般对象使用较多,其次是专指地点。这与之前M.Markkula和E.Sormunen[41]针对芬兰新闻报刊Aamulehti的提问分析结果较为一致,可能与新闻工作者查找目的比较明确有关。

       在医学图像的检索中,用户常使用图像所包含的具体元素表达需求。L.H.Keister[42]分析了美国医学图书馆医学影像数据库中的239个提问,发现高频的图像特征是图像包含的具体元素。Wang Xin等[43]则招募了41位放射学科的学生和技师,设计了以图找图的检索情景,让他们对呈现出来的6幅X射线成像图片进行查找描述,然后采用A.Jaimes和Chang Shih-Fu的模型进行编码分析,结果发现,每一层的图像特征均被用户使用过,并且语义层特征的使用在所有特征使用中超过85%,其中又以专指对象使用最多,然后是专指场景、一般场景和抽象场景。

       在日常图像检索情境下,普通用户较多使用图像格式、尺寸、清晰度等特征。A.Goodrum和A.Spink[44]分析了Excite上的33 149个图像提问,通过对提问中的图像特征词的归纳,得到8类特征,分别是图像相关术语(如jpg、照片)、修饰语(如年老的)、与性相关的(如同性恋)、花费、性别、其他、人物以及艺术和休闲。B.J.Jansen[45]收集用户真实需求的587个检索提问式,并对Chen Hsin-Liang、C.J

rgensen、P.G.B.Enser提出的图像特征进行检验,进而指出应补充馆藏、色情描述、呈现方式、统一资源定位符和费用5个图像特征。S.J.Cunningham和M.Masoodian[46]从图像日常需求的角度分析了一所新西兰大学人机交互课程中的31位学生,通过分析他们的需求描述发现,专指需求(如专指人物、事件、活动)占绝大多数,并且,图像的分辨率、尺寸、颜色、版权状态和图像格式等特征的重要性也得到用户的认可。Y.Choi[47]则收集了一所美国私立大学的29位大学生日常检索中的978个图像提问,并采用L.Hollink的理论进行分析,研究发现,他们对图像格式/体裁、组织/品牌名称和对象这3个特征使用最为频繁,并且,专指特征的使用要多于一般特征和抽象特征。

       3.2.2 基于图像特征使用的需求分类 根据用户检索需求表达中对图像特征的使用特点,图像检索需求也被分为不同的类型。如P.G.B.Enser和C.G.McGregor[48]考虑需求描述中所使用的图像特征的单一性以及图像特征之间的修饰关系,将图像需求分为单一无修饰、单一有修饰、非单一无修饰和非单一有修饰4类。之后,Chen Hsin-Liang[37]对该模型进行了补充和修改,将单一维度分为人物、地点、历史事件、专指对象,将非单一维度分为一般对象和人物相关要素,而修饰词则细分为时间、地点、格式、颜色和介质。

       其次,还有研究者从复杂度角度对图像需求进行分类,如J.P.Eakins和M.E.Graham[27]将提问分为初级提问、推断/逻辑提问和抽象提问。其中初级提问仅仅包含图像中的组成元素或视觉元素,例如颜色、形状、纹理、布局;推断/逻辑提问指的是图像中的可识别的一般对象,或者专指对象,这一提问依赖于对图像的客观描述;抽象提问则是指图像中的情感、宗教象征、事件或活动,这一提问更依赖于主观判断或者更复杂的推断。因而,这3种类型的提问复杂度是依次递增的。

       除上述标注和检索两种情境,C.J

rgensen等[49]新近开展了一项综合性研究,考察了标引、检索情境下图像特征的使用和需求表达的差异。他们从the Library of Congress Flickr图片集中选取了10幅图片,并设计了描述、评价和检索3个实验。研究发现,在描述实验和检索实验中使用最多的特征依次是对象、故事和描述;但在评价实验中,群体(group)、人物相关和抽象特征被认为最有用。E.K.Chung和J.W.Yoon[50]则比较了Excite的用户提问与Flickr标签的差异,结果发现88%的标签描述了图像语义特征,相反,在检索提问中图像语义特征出现的频次不到23%,出现更多的是图像相关(如照片)这一特征;不过就语义特征内部而言,无论是标签还是检索提问,一般特征均比专指、抽象特征出现得更为频繁。

       3.3 相关影响因素

      有关影响因素方面的研究数量相对有限。目前研究揭示出:

      首先,图像特征出现的顺序、类型与图像主题、图像内用户感兴趣的区域个数以及用户的视觉经验有关。例如,J.Golbeck等[51]从steve.museum project选择了6幅图片进行实验研究,他们招募了51名被试对图片进行描述。结果发现,对于有具体对象的图像,用户更多地描述其对象特征,而对于那些没有具体对象的抽象图像,用户则更多地描述其视觉特征。并且,当图像内用户感兴趣的区域为5个时,图像标签数量最多。在标签出现顺序上,专指类标签要先于一般或者抽象标签,并且视觉经验多的用户倾向于添加更多的特征描述。

       其次,用户的专业知识水平也会在一定程度上影响图像特征的使用情况。例如,在医学图片的标注中,具有更多图像成像诊断知识和经验的技师更多地使用抽象对象和场景分析图像的外延含义、描述图像,而该领域的学生则更多地使用图像中所呈现的具体对象描述图像[43]。在期刊的图片分类中,非专业组更常使用人物进行分类,而专业组则更倾向于使用主题[30]。

       再次,用户面临的任务类型一定程度上会影响图像的主观性特征的使用情况。J.W.Yoon[52]在研究中定义了分类、描述和查找图片3类任务,考察被试对图像感性特征的标注和检索表达使用情况。结果发现,对于同一幅图片,在不同任务情境下,用户所观察到的情感特征是有差异的,如用户通过“惊讶”查找到的图片,在分类和描述情境下可能被归入“喜悦”分类中,这也揭示了情感等抽象性特征相比客观的语义特征在使用上的不确定性更大。

       最后,检索的不同阶段与图像特征的使用也有一定关系。如E.K.Chung和J.W.Yoon[50]根据对Excite的图像提问日志,将检索阶段划分为初次、二次和三次检索,结果发现随着检索的深入,用户所使用的图像语义特征数量有所下降,用户在后期主要进行的是检索策略的调整(如变换布尔运算符)。

       4 结语

       综前所述,国外研究者已经陆续在图像特征方面开展了一系列研究工作。首先,在研究内容的全面性和系统性方面,较好地兼顾了以图像为中心与以用户为中心的两类视角。前者侧重解决图像具有哪些特征、如何著录和描述这些特征等问题,后者侧重解决用户在常见的情境下如何使用这些特征,使得图像特征研究在整体上,不仅能够从理论上优化和完善图像特征体系,而且从实践上也有助于改进现有的图像标引和检索系统。特别是用户视角方面的研究,不仅考察了标注和检索两类主要情境,同时也关注了两类常见用户,即对图像有较高要求的专业人士和将图像作为日常性信息需求之一的普通用户。因此,总体来看,研究所涉及的问题、覆盖的范围较为全面。

       其次,在研究方法层面,综合采取了多种方法,并且对于同一个问题,不同的研究者从不同的角度开展了研究。例如,在图像特征类型和层次的划分讨论上,既有采用演绎、思辨等方法从质性角度进行的讨论和分析,如S.Shatford[20]、A.Jaimes和Chang Shih-Fu[18]等的研究。也有通过实证归纳的方式开展的研究,如C.J

rgensen[25]的研究,尽管这类研究通常会结合标引、检索实验来进行,但是其研究目的并不在于揭示用户对图像特征的使用行为特征,而是从用户标注词和检索词中进行特征类型和层次的抽象。又如,无论是研究标注情境还是检索情境下用户对图像特征的使用,都采用了实验室研究和自然情境下的研究方法。在实验室环境下,研究人员多采用任务导向的方式让用户描述或检索图像,从而尽可能模拟用户在真实环境中的图像需求。自然情境是目前研究者所日渐重视的研究方式,有研究从图像分享网站上抓取用户标签,分析图像标引模式,也有研究抓取图像提问日志或者从图像问答系统中收集自然情境下的图像提问数据,分析得到用户真实图像需求的特征,当然,还有研究者让被试记录日常生活中的图像需求,并结合问卷调查等方式收集分析用户需求及其表达方式。

       从国外研究整体来看,图像特征使用行为研究发展较为成熟,特别是在面向用户的图像特征使用方面已经做出了积极的探索,后期还可以在图像特征使用的相关影响因素、面向非专业用户的个性化元数据体系自动构建等方面加强研究。相比而言,国内在图像特征方面的研究还主要集中在特征提取的技术性问题上,在图像特征体系和用户使用方面的研究较为有限。其中,在图像特征体系方面,讨论较多的是数字文化资源中的专门图片,如王晓光等[53]探讨了敦煌壁画的内容语义模型,指出这类壁画的内容语义特征可分为内容、对象和语义3层,分别描述图像底层特征、对象和对象空间以及图像中的行为/活动、场景和情感特征。在图像用户研究方面,卜小蝶[54]利用P.G.B.Enser理论对中文图像搜索引擎VisionNext检索提问进行分析,发现单一无修饰的检索词使用最多。曹梅[55]招募大学生被试进行了检索实验,然后基于C.J

rgensen、S.J.Cunningham等理论进行编码分析,结果发现,在提问检索式构造时,大学生更多地使用对象、情节、抽象概念等特征。

       总体而言,国内在图像特征研究方面还有较大的探索空间,如下3方面值得未来进一步深入探索:首先,加强对国内用户图像特征使用行为的实证研究,考察国内用户在标注、检索需求表达中对图像特征的使用情况。除了以图像标签、检索提问为数据源进行分析,还可以从检索结果评价方面讨论图像特征与图像相关性评价标准的关系,从而更全面地覆盖标注、检索和选择评价3个阶段,进一步揭示不同情境下用户对图像特征使用的差异及其影响因素。其次,在图像特征使用行为研究基础上,加强图像特征体系的构建研究。为适应图像成为日常性信息需求之一的趋势,应加强面向普通用户的图像特征体系研究,以提出符合大众行为规律的实用图像特征体系及其构建原则;针对已有特征体系中的专门类型和层次,还可以进一步细化,如图像的情感语义可细化为物理感觉、风格、情绪反应和审美偏好[56],或者细化为象征意义、氛围和情感[32]等不同类型。最后,推进图像用户视角研究与图像标引、检索技术优化的衔接和转化,如从图像标引技术角度加强对高频图像特征的识别和提取;从检索角度更合理地设置和布局检索点;在检索结果的分面导航中,将用户使用频次较高的图像特征作为分面设立的依据,以提高易用性,从而使得用户、图像以及技术3个视角下的研究得到更好的整合,为提高图像服务质量和提升用户体验提出更多可行的措施和方案。

       作者贡献说明:

       黄崑:设计整体文献调研方案,进行论文框架设计、论文撰写与修改;

       王珊珊:进行文献搜集、整理和分析,撰写论文初稿;

       耿骞:参与论文框架的设计,进行论文修改和润色。

      收稿日期:2015-03-23修回日期:2015-04-05

标签:;  ;  ;  ;  ;  ;  

国外图像特征研究进展及启示_元数据论文
下载Doc文档

猜你喜欢