国外移动视觉搜索研究述评,本文主要内容关键词为:述评论文,视觉论文,国外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2013-12-03 分类号 G250 DOI:10.13530/j.cnkj.jlis.143011 1 引言 随着移动互联网和Web 2.0技术的迅速发展,跨媒体检索和移动搜索已逐渐成为信息科学领域新的研究热点,特别是移动视觉搜索(Mobile Visual Search,MVS)更成为信息检索领域重要的前沿课题。目前,MVS研究在国内外都处于初级阶段,国内研究人群不多,成功应用更是屈指可数[1]。国外关于MVS的研究主要集中在基础理论、技术应用和实践推广领域。2009年12月,斯坦福大学主办的第一届移动视觉搜索研讨会首次提出MVS概念[2],在不到五年的时间里,国外MVS应用已随着移动设备、基础理论和相关技术的逐渐成熟,迅速渗透到电子商务、旅游服务、市场营销等领域,尽管规模有限,但影响面却极大。更有大量研究认为[3-5],在未来信息检索领域,MVS与移动增强现实(Mobile Augmented Reality,MAR)技术的有机融合,可能成为继搜索引擎之后互联网的新一代革命性服务模式。 本文旨在揭示国外移动视觉搜索的基本概念、主要研究方法、相关技术、主要技术挑战及其在信息服务领域的应用实践,为我国移动视觉搜索的研究提供参考,并对其在数字图书馆领域的应用前景进行分析。 2 移动视觉搜索概述 2.1 问题的提出 从心理学的角度来讲,视觉搜索是指在特定区域内确定待搜索对象是否出现或出现后确定其形态、位置等相关信息的行为。在实际生活中,这种行为极其常见,如在地图上查找图书馆位置,从期刊架上寻找一本期刊,寻找丢弃在杂物室内的一本破旧图书等。现有许多行业、工作都无法离开这一行为,如空中与海上救援,工业与机械检测,医学映像监测及智能交通等。但由于搜索目的、视觉搜索任务所属领域的不同,视觉搜索过程也呈现出多元化特征及多样化结果。待搜索视觉对象可以是已确定的,也可以是未知的。例如,当用户穿过一条街道进入一个熟悉的图书馆时,会主动搜索所需信息资源的位置,此时的待搜索视觉对象是明确的,而用户第一次进入不熟悉的图书馆时,则会自动搜寻图书馆内部的功能结构,了解期刊、图书、报纸等分别在哪里,信息共享区域、办公区域等分别在哪里。 另一方面,随着移动互联网产业链的快速崛起,移动智能终端在性能、技术上有了飞速发展并始终保持着高速发展趋势,移动智能终端自身所拥有的多种传感设施,如GPS、摄像头及感应器等,能够在物理世界与虚拟世界之间建立起信息关联。一旦MVS与移动位置服务结合在一起,组合服务可为用户提供摄像头拍摄的建筑物、商户及周围用户的开放信息。当用户用移动智能终端拍摄国家图书馆时,移动智能终端不仅会显示出国家图书馆的相关文字介绍、图像、音频和视频等资料,甚至还会显示出国家图书馆的三维几何模型,并将上述信息资源以预先设定好的规则精确、有序地组合在一起。如将摄像头对准图书馆,会对图书馆内的结构及业务信息进行实时分析,为用户提供该图书馆的实时信息服务及可获取的信息资源。如将摄像头对准图书封面,用户就可获得其他用户对此图书的评价,也可通过网络获取此书的其他相关信息。如果某个图书馆遭遇了火灾、地震灾害等重大安全事故,救援人员在现场通过摄像头就可立即获得该图书馆的三维框架模型。 2.2 MVS研究的主要方法 对MVS研究大多采用实证与理论相结合的研究方法,围绕MVS的系统设计、视觉特征提取、视觉对象匹配、标准化、MVS模型、搜索技术及搜索结果评价等方面展开,相关的研究方法主要有以下几种: (1)模拟仿真法。MVS作为一种应用性较强的技术,模拟仿真是验证MVS系统设计、技术实现及搜索结果的最有效手段,该方法贯穿于MVS原型系统的设计、实施、改进、评价、反馈的始终,是国内外学者开展MVS研究最为重要的研究方法之一,文献[6][7]均采用了该方法。该方法首先依据MVS原型系统的设计方案、业务需求或主要特征,设计了一个满足某种特定任务或MVS服务需求的物理模型或数学模型,然后通过所构建的模型支撑MVS原型系统的研发,并进一步进行计算机仿真实验,从而对设计的MVS应用系统、MVS算法效率、MVS检索效果及MVS系统性能等进行验证。 (2)比较分析法。不同的MVS服务在系统设计、技术实现及服务模式等方面存在着很多共性,但依据服务需求、业务特征、待搜索对象主体特征及所属应用领域的不同,也会有所不同。因此,选择最为合适的系统、方案、算法等就需要进行无数次的修改与比较,这使得比较分析法也成为MVS研究的一个重要方法。Chen等便通过这种方法提出了一个改进的、可提供独立于网络、低延迟和强隐私保护的MVS系统[6]。Cao等也是通过这种方法,比较在服务器端和移动智能终端本地进行MVS检索的计算过程[7]。 (3)文献研究法。MVS研究是信息检索领域的新兴研究课题,相关文献相对较少,怎样充分利用文献研究法,获取第一手研究资料,从而全面、正确地了解MVS理论与应用研究的基本情况、研究进展及发展趋势,是当前MVS研究的重要手段之一。 (4)跨学科研究法。跨学科研究也被称为“交叉研究法”,是指通过多学科的理论、方法和成果从整体上对某个课题进行综合研究的方法。从已有的MVS研究成果来看,运用该方法的研究成果有很多,涉及的学科有心理学、艺术学、计算机科学、数学及语言学等。如中科院心理研究所的陈文锋等从心理学角度对视觉搜索的认知机理和心理状态进行讨论[8],微软亚洲研究院的王长虎等从艺术学角度对视觉搜索的需求、挑战及技术等方面进行分析[9]。 (5)实地调查法。视觉对象知识库是MVS系统的重要组成部分,也是MVS理论与应用研究不可或缺的内容,而视觉对象数据集作为视觉对象知识库的重要部分,视觉资料的搜集、整理、组织及管理需要充分运用实地调查法来实现。目前,MVS研究领域较为著名的Stanford MVS数据集中所拥有的视觉对象很大一部分都是通过该方法获取的[10]。 除了以上方法外,国外研究者还用到功能分析法、经验总结法、图表法等,每种方法都各有优劣。在MVS理论与应用研究过程中,各种方法不会独立存在,往往是多种方法互相配合,根据MVS处理任务的不同,每个方法的侧重点各有不同。 2.3 移动视觉搜索的内涵 MVS研究属于跨学科研究领域,它涉及跨媒体检索、模式识别、人工智能、移动计算、语义计算等领域的研究,主要面向手机、平板电脑等移动智能终端。自从2009年斯坦福大学的Chandrasekhar、Griod及Chen等提出移动视觉搜索(MVS)以来,对于MVS内涵的认识,不同的学者有着不同的定义。如Franchi和Stefano等认为MVS是指“通过移动设备的摄像头来获取物理世界物体的图像,从而将其与数字信息产生联系的一种新技术”[11];Tous和Delgado认为MVS是指“通过移动手持装置所制造的图片或视频来获取信息(视觉信息或非视觉信息)的过程”[12]。Wikipedia对MVS无明确定义,只是以移动图像检索(Mobile Image Search,MIS)为例,从侧面阐释其定义,MIS的定义是“移动图像搜索是专为手机而设计的一种搜索引擎,可通过手机拍下的图像或使用某些词语,在互联网上找到用户所需的任何相关信息。”[13]本人更倾向于Franchi和Stefano所提出的MVS描述。从国外已有文献来看,与MVS相关的研究有许多,如移动图像搜索[14-16]、移动视频搜索(Mobile Video Search)[17]等。 2.4 移动视觉搜索与移动搜索 MVS理论与实践的发展基于移动搜索(Mobile Search,MS)理论与应用的逐步完善,可以说是MS的拓展与实例化。相对而言,MS研究起步略早于MVS。2002年8月在英国出现的“手机搜索乐曲名”算是MS的雏形[18]。2003年8月,英国Texperts(原Result 82ASK)公司为英国民众提供基于短信的人权咨询和检索服务[19],可视为全球较早提供手机服务的案例[20],但这二者并非真正意义上的MS。直到2004年英国的Vodafone、Orange与O2等联合推出被称为AOA(Any Question Answered)的基于短信的搜索服务,以及美国的AskMeNow[21]使用自然语言搜索为用户提供基于短信、WAP 2.0网站或移动应用程序的移动搜索服务,才算是MS的开始。而后,陆续出现了Microsoft的Bing Mobile[22]、Yahoo!的Mobile Search[23]、Google Mobile Search[24]等典型的MS应用案例。相比而言,国内的百度移动搜索、雅虎中国的one Search、新浪的爱问、北京GOGO的CGoo、上海网村的悠悠村等移动搜索引擎及工具,在体系架构、技术实现、服务推广及体验效果等方面与国外存在着较大的差距,但随着我国MS研究领域技术、资金投入、政策支持力度的逐渐加大,这些差距正逐渐缩小。 MVS正是在这样的背景下产生的,MVS的定义是由MS的定义延伸而来。Kamvar和Baluja认为MS是指在移动设备上制定和输入查询条件,通过典型的搜索会话,再在移动设备上获得、浏览所提供的搜索结果的过程[25]。Kolmonen将移动搜索引擎定义为:一个专为移动设备提供服务的软件或移动网站,通过它用户可提交一个查询(通常是输入一组关键字),得到一个与搜索条件匹配的结果列表[26]。Tiago和Kotilainen等认为MS是传统网络搜索引擎的一种补充[27]。Dekdouk认为MS正逐渐成为用户的主要信息访问模式[28]。另外,国内张林[29]、王继民[30]等也分别对MS进行过明确定义。斯坦福大学图像系统工程中心(Stanford Center for Image Systems Engineering,SCIEN)的Girod、Chandrasekhar等在此基础上,将MVS定义为:通过拥有强大的图像、视频处理装置、GPS等功能的移动设备,获取图像或视频作为搜索对象,并通过宽带无线网络检索视觉对象关联信息的一种搜索力式[31]。 通过以上研究发现,现有文献对MVS的定义是在原MS概念描述的基础上,突出强调检索对象的特殊性,但缺乏对MVS检索活动的具体解释。综合已有研究,本文将MVS定义为:通过移动智能终端获取现实世界中真实对象的视频或图像等视觉对象,将其作为检索对象,通过移动智能终端在移动互联网上检索该对象关联信息的一种信息获取方式。 2.5 移动视觉搜索的影响 近年来,迅速崛起和逐渐成熟的移动互联网、移动智能终端、大数据、物联网及云计算等技术,使得MVS的底层基础架构与技术支撑体系趋于完善,MVS的研究与应用成为可能。MVS的影响主要体现在以下几个方面: (1)极大地改变信息检索、获取及利用方式。毫无疑问,MVS将会成为未来支撑信息检索领域[32]、移动互联网应用[33]的基础技术之一。通过移动智能终端与视觉搜索技术的有机融合,用户可以迅速、方便地获取视觉对象在真实世界中的关联信息。MVS、视觉搜索与传统搜索的重要区别是检索由传统的手动文字输入变成文字、图像、语音、体感及位置的综合输入,再向视觉、视感及记忆等智能输入转变,信息获取来源不仅仅局限于网络已有的数据资源,也可能来源于物理世界已存在或未来可能存在的物理资源,信息利用的方式根据移动智能终端的特征进行自适应、智能和协作化展示和交互。 (2)催生新一代嵌入式协作化的知识交互体系及知识服务模式。北京大学的段凌宇等认为,若将MVS与MAR技术有机结合起来,以移动智能终端为平台的“所见即所知”式的增强现实应用[34]将可能催生新一代嵌入式协作化的知识交互[35]和知识服务模式。用户可在任意时间、地点对任何物体通过移动终端获取全方位的信息服务,并在移动环境下开展多用户交互式知识交流、管理及发现活动。 (3)搜索引擎市场份额面临重新分配。在过去几十年里,搜索引擎及信息检索市场一直被诸如Google、Bing、百度等通用搜索引擎所垄断。随着移动互联网、MS及MVS的出现和发展,市场将重新洗牌。首先,IBM、日立等原本并不从事搜索引擎业务或所占市场份额较小的国际知名企业,也乘着MVS的东风,开发了相应的MVS产品,加入到这一新兴市场的争夺。其次,一些新的MVS厂商开始出现,并且推出了具有一定影响力的MVS产品,比如Kooaba[36]、Ricoh iCandy[37-38]、Amazon的Snaptel[39]、Nokia的Point and Find[40]等。因此,搜索引擎市场份额的重新分配难以避免。 (4)出现新型产业链及产业集群。Nikolopoulos等认为:由于移动图像共享服务的广泛实践及AR技术应用的飞速增长,移动图像检索有望成为未来许多应用的核心功能,因此,围绕移动图像共享应用和AR技术应用的市场需求量会不断增长,从而出现新型移动图像检索公司及相应的产业链、产业集群[41]。与之相对应的移动视频、视觉搜索、移动情境感知等亦会产生与之相匹配的理论与应用,从而衍生出新的产业链、产业集群。 3 移动视觉搜索相关技术及主要挑战 3.1 基本架构 从已有研究文献来看,大多数研究[42-46]对MVS基本架构未作详细分类,基本上都是对MVS结构及通用表述方法[46]进行了阐述。事实上,根据MVS系统构建、运营模式及应用领域的不同,其设计思想及实现方式有较大差异。目前流行的MVS系统设计与实现方式各有不同,本文依据视觉检索方式及需求的区别,对参考文献[47]的研究成果加以总结及完善,将MVS分为三种基本架构:标准架构、本地化架构和混合架构。图1列出的是MVS基于C/S模式的三种基本架构:标签:相关性分析论文; 用户研究论文; 移动互联网论文; 图像融合论文; 位置服务论文; 移动搜索论文; 用户分析论文; 信息架构论文; 应用架构论文; 信息检索论文;