国外移动视觉搜索研究述评,本文主要内容关键词为:述评论文,视觉论文,国外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2013-12-03 分类号 G250 DOI:10.13530/j.cnkj.jlis.143011 1 引言 随着移动互联网和Web 2.0技术的迅速发展,跨媒体检索和移动搜索已逐渐成为信息科学领域新的研究热点,特别是移动视觉搜索(Mobile Visual Search,MVS)更成为信息检索领域重要的前沿课题。目前,MVS研究在国内外都处于初级阶段,国内研究人群不多,成功应用更是屈指可数[1]。国外关于MVS的研究主要集中在基础理论、技术应用和实践推广领域。2009年12月,斯坦福大学主办的第一届移动视觉搜索研讨会首次提出MVS概念[2],在不到五年的时间里,国外MVS应用已随着移动设备、基础理论和相关技术的逐渐成熟,迅速渗透到电子商务、旅游服务、市场营销等领域,尽管规模有限,但影响面却极大。更有大量研究认为[3-5],在未来信息检索领域,MVS与移动增强现实(Mobile Augmented Reality,MAR)技术的有机融合,可能成为继搜索引擎之后互联网的新一代革命性服务模式。 本文旨在揭示国外移动视觉搜索的基本概念、主要研究方法、相关技术、主要技术挑战及其在信息服务领域的应用实践,为我国移动视觉搜索的研究提供参考,并对其在数字图书馆领域的应用前景进行分析。 2 移动视觉搜索概述 2.1 问题的提出 从心理学的角度来讲,视觉搜索是指在特定区域内确定待搜索对象是否出现或出现后确定其形态、位置等相关信息的行为。在实际生活中,这种行为极其常见,如在地图上查找图书馆位置,从期刊架上寻找一本期刊,寻找丢弃在杂物室内的一本破旧图书等。现有许多行业、工作都无法离开这一行为,如空中与海上救援,工业与机械检测,医学映像监测及智能交通等。但由于搜索目的、视觉搜索任务所属领域的不同,视觉搜索过程也呈现出多元化特征及多样化结果。待搜索视觉对象可以是已确定的,也可以是未知的。例如,当用户穿过一条街道进入一个熟悉的图书馆时,会主动搜索所需信息资源的位置,此时的待搜索视觉对象是明确的,而用户第一次进入不熟悉的图书馆时,则会自动搜寻图书馆内部的功能结构,了解期刊、图书、报纸等分别在哪里,信息共享区域、办公区域等分别在哪里。 另一方面,随着移动互联网产业链的快速崛起,移动智能终端在性能、技术上有了飞速发展并始终保持着高速发展趋势,移动智能终端自身所拥有的多种传感设施,如GPS、摄像头及感应器等,能够在物理世界与虚拟世界之间建立起信息关联。一旦MVS与移动位置服务结合在一起,组合服务可为用户提供摄像头拍摄的建筑物、商户及周围用户的开放信息。当用户用移动智能终端拍摄国家图书馆时,移动智能终端不仅会显示出国家图书馆的相关文字介绍、图像、音频和视频等资料,甚至还会显示出国家图书馆的三维几何模型,并将上述信息资源以预先设定好的规则精确、有序地组合在一起。如将摄像头对准图书馆,会对图书馆内的结构及业务信息进行实时分析,为用户提供该图书馆的实时信息服务及可获取的信息资源。如将摄像头对准图书封面,用户就可获得其他用户对此图书的评价,也可通过网络获取此书的其他相关信息。如果某个图书馆遭遇了火灾、地震灾害等重大安全事故,救援人员在现场通过摄像头就可立即获得该图书馆的三维框架模型。 2.2 MVS研究的主要方法 对MVS研究大多采用实证与理论相结合的研究方法,围绕MVS的系统设计、视觉特征提取、视觉对象匹配、标准化、MVS模型、搜索技术及搜索结果评价等方面展开,相关的研究方法主要有以下几种: (1)模拟仿真法。MVS作为一种应用性较强的技术,模拟仿真是验证MVS系统设计、技术实现及搜索结果的最有效手段,该方法贯穿于MVS原型系统的设计、实施、改进、评价、反馈的始终,是国内外学者开展MVS研究最为重要的研究方法之一,文献[6][7]均采用了该方法。该方法首先依据MVS原型系统的设计方案、业务需求或主要特征,设计了一个满足某种特定任务或MVS服务需求的物理模型或数学模型,然后通过所构建的模型支撑MVS原型系统的研发,并进一步进行计算机仿真实验,从而对设计的MVS应用系统、MVS算法效率、MVS检索效果及MVS系统性能等进行验证。 (2)比较分析法。不同的MVS服务在系统设计、技术实现及服务模式等方面存在着很多共性,但依据服务需求、业务特征、待搜索对象主体特征及所属应用领域的不同,也会有所不同。因此,选择最为合适的系统、方案、算法等就需要进行无数次的修改与比较,这使得比较分析法也成为MVS研究的一个重要方法。Chen等便通过这种方法提出了一个改进的、可提供独立于网络、低延迟和强隐私保护的MVS系统[6]。Cao等也是通过这种方法,比较在服务器端和移动智能终端本地进行MVS检索的计算过程[7]。 (3)文献研究法。MVS研究是信息检索领域的新兴研究课题,相关文献相对较少,怎样充分利用文献研究法,获取第一手研究资料,从而全面、正确地了解MVS理论与应用研究的基本情况、研究进展及发展趋势,是当前MVS研究的重要手段之一。 (4)跨学科研究法。跨学科研究也被称为“交叉研究法”,是指通过多学科的理论、方法和成果从整体上对某个课题进行综合研究的方法。从已有的MVS研究成果来看,运用该方法的研究成果有很多,涉及的学科有心理学、艺术学、计算机科学、数学及语言学等。如中科院心理研究所的陈文锋等从心理学角度对视觉搜索的认知机理和心理状态进行讨论[8],微软亚洲研究院的王长虎等从艺术学角度对视觉搜索的需求、挑战及技术等方面进行分析[9]。 (5)实地调查法。视觉对象知识库是MVS系统的重要组成部分,也是MVS理论与应用研究不可或缺的内容,而视觉对象数据集作为视觉对象知识库的重要部分,视觉资料的搜集、整理、组织及管理需要充分运用实地调查法来实现。目前,MVS研究领域较为著名的Stanford MVS数据集中所拥有的视觉对象很大一部分都是通过该方法获取的[10]。 除了以上方法外,国外研究者还用到功能分析法、经验总结法、图表法等,每种方法都各有优劣。在MVS理论与应用研究过程中,各种方法不会独立存在,往往是多种方法互相配合,根据MVS处理任务的不同,每个方法的侧重点各有不同。 2.3 移动视觉搜索的内涵 MVS研究属于跨学科研究领域,它涉及跨媒体检索、模式识别、人工智能、移动计算、语义计算等领域的研究,主要面向手机、平板电脑等移动智能终端。自从2009年斯坦福大学的Chandrasekhar、Griod及Chen等提出移动视觉搜索(MVS)以来,对于MVS内涵的认识,不同的学者有着不同的定义。如Franchi和Stefano等认为MVS是指“通过移动设备的摄像头来获取物理世界物体的图像,从而将其与数字信息产生联系的一种新技术”[11];Tous和Delgado认为MVS是指“通过移动手持装置所制造的图片或视频来获取信息(视觉信息或非视觉信息)的过程”[12]。Wikipedia对MVS无明确定义,只是以移动图像检索(Mobile Image Search,MIS)为例,从侧面阐释其定义,MIS的定义是“移动图像搜索是专为手机而设计的一种搜索引擎,可通过手机拍下的图像或使用某些词语,在互联网上找到用户所需的任何相关信息。”[13]本人更倾向于Franchi和Stefano所提出的MVS描述。从国外已有文献来看,与MVS相关的研究有许多,如移动图像搜索[14-16]、移动视频搜索(Mobile Video Search)[17]等。 2.4 移动视觉搜索与移动搜索 MVS理论与实践的发展基于移动搜索(Mobile Search,MS)理论与应用的逐步完善,可以说是MS的拓展与实例化。相对而言,MS研究起步略早于MVS。2002年8月在英国出现的“手机搜索乐曲名”算是MS的雏形[18]。2003年8月,英国Texperts(原Result 82ASK)公司为英国民众提供基于短信的人权咨询和检索服务[19],可视为全球较早提供手机服务的案例[20],但这二者并非真正意义上的MS。直到2004年英国的Vodafone、Orange与O2等联合推出被称为AOA(Any Question Answered)的基于短信的搜索服务,以及美国的AskMeNow[21]使用自然语言搜索为用户提供基于短信、WAP 2.0网站或移动应用程序的移动搜索服务,才算是MS的开始。而后,陆续出现了Microsoft的Bing Mobile[22]、Yahoo!的Mobile Search[23]、Google Mobile Search[24]等典型的MS应用案例。相比而言,国内的百度移动搜索、雅虎中国的one Search、新浪的爱问、北京GOGO的CGoo、上海网村的悠悠村等移动搜索引擎及工具,在体系架构、技术实现、服务推广及体验效果等方面与国外存在着较大的差距,但随着我国MS研究领域技术、资金投入、政策支持力度的逐渐加大,这些差距正逐渐缩小。 MVS正是在这样的背景下产生的,MVS的定义是由MS的定义延伸而来。Kamvar和Baluja认为MS是指在移动设备上制定和输入查询条件,通过典型的搜索会话,再在移动设备上获得、浏览所提供的搜索结果的过程[25]。Kolmonen将移动搜索引擎定义为:一个专为移动设备提供服务的软件或移动网站,通过它用户可提交一个查询(通常是输入一组关键字),得到一个与搜索条件匹配的结果列表[26]。Tiago和Kotilainen等认为MS是传统网络搜索引擎的一种补充[27]。Dekdouk认为MS正逐渐成为用户的主要信息访问模式[28]。另外,国内张林[29]、王继民[30]等也分别对MS进行过明确定义。斯坦福大学图像系统工程中心(Stanford Center for Image Systems Engineering,SCIEN)的Girod、Chandrasekhar等在此基础上,将MVS定义为:通过拥有强大的图像、视频处理装置、GPS等功能的移动设备,获取图像或视频作为搜索对象,并通过宽带无线网络检索视觉对象关联信息的一种搜索力式[31]。 通过以上研究发现,现有文献对MVS的定义是在原MS概念描述的基础上,突出强调检索对象的特殊性,但缺乏对MVS检索活动的具体解释。综合已有研究,本文将MVS定义为:通过移动智能终端获取现实世界中真实对象的视频或图像等视觉对象,将其作为检索对象,通过移动智能终端在移动互联网上检索该对象关联信息的一种信息获取方式。 2.5 移动视觉搜索的影响 近年来,迅速崛起和逐渐成熟的移动互联网、移动智能终端、大数据、物联网及云计算等技术,使得MVS的底层基础架构与技术支撑体系趋于完善,MVS的研究与应用成为可能。MVS的影响主要体现在以下几个方面: (1)极大地改变信息检索、获取及利用方式。毫无疑问,MVS将会成为未来支撑信息检索领域[32]、移动互联网应用[33]的基础技术之一。通过移动智能终端与视觉搜索技术的有机融合,用户可以迅速、方便地获取视觉对象在真实世界中的关联信息。MVS、视觉搜索与传统搜索的重要区别是检索由传统的手动文字输入变成文字、图像、语音、体感及位置的综合输入,再向视觉、视感及记忆等智能输入转变,信息获取来源不仅仅局限于网络已有的数据资源,也可能来源于物理世界已存在或未来可能存在的物理资源,信息利用的方式根据移动智能终端的特征进行自适应、智能和协作化展示和交互。 (2)催生新一代嵌入式协作化的知识交互体系及知识服务模式。北京大学的段凌宇等认为,若将MVS与MAR技术有机结合起来,以移动智能终端为平台的“所见即所知”式的增强现实应用[34]将可能催生新一代嵌入式协作化的知识交互[35]和知识服务模式。用户可在任意时间、地点对任何物体通过移动终端获取全方位的信息服务,并在移动环境下开展多用户交互式知识交流、管理及发现活动。 (3)搜索引擎市场份额面临重新分配。在过去几十年里,搜索引擎及信息检索市场一直被诸如Google、Bing、百度等通用搜索引擎所垄断。随着移动互联网、MS及MVS的出现和发展,市场将重新洗牌。首先,IBM、日立等原本并不从事搜索引擎业务或所占市场份额较小的国际知名企业,也乘着MVS的东风,开发了相应的MVS产品,加入到这一新兴市场的争夺。其次,一些新的MVS厂商开始出现,并且推出了具有一定影响力的MVS产品,比如Kooaba[36]、Ricoh iCandy[37-38]、Amazon的Snaptel[39]、Nokia的Point and Find[40]等。因此,搜索引擎市场份额的重新分配难以避免。 (4)出现新型产业链及产业集群。Nikolopoulos等认为:由于移动图像共享服务的广泛实践及AR技术应用的飞速增长,移动图像检索有望成为未来许多应用的核心功能,因此,围绕移动图像共享应用和AR技术应用的市场需求量会不断增长,从而出现新型移动图像检索公司及相应的产业链、产业集群[41]。与之相对应的移动视频、视觉搜索、移动情境感知等亦会产生与之相匹配的理论与应用,从而衍生出新的产业链、产业集群。 3 移动视觉搜索相关技术及主要挑战 3.1 基本架构 从已有研究文献来看,大多数研究[42-46]对MVS基本架构未作详细分类,基本上都是对MVS结构及通用表述方法[46]进行了阐述。事实上,根据MVS系统构建、运营模式及应用领域的不同,其设计思想及实现方式有较大差异。目前流行的MVS系统设计与实现方式各有不同,本文依据视觉检索方式及需求的区别,对参考文献[47]的研究成果加以总结及完善,将MVS分为三种基本架构:标准架构、本地化架构和混合架构。图1列出的是MVS基于C/S模式的三种基本架构: (c)混合架构 图1 MVS基本架构 (a)标准架构[48]:通过移动智能终端获取视觉对象后,在本地进行压缩编码,将待搜索视觉对象通过无线网络传输至远程服务器端,在远程服务器上完成视觉对象分析和匹配过程,再将搜索结果返回至移动智能终端; (b)本地化架构[49-50]:根据移动用户历史行为及搜索需求,自动在移动智能终端本地缓存中建立临时视觉对象知识库,当移动智能终端获取视觉对象后,首先在本地缓存中进行搜索,当无法在本地搜索出用户感兴趣的对象时,再将搜索请求通过无线网络发送至远程服务器,由远程服务器端完成视觉对象的匹配过程,再将搜索结果返回至移动智能终端; (c)混合架构[51-53]:前两者的综合运用,通过移动智能获取视觉对象后,在移动智能终端提取视觉对象局部特征,将局部特征数据编码后,通过无线网络传输至服务器,由服务器根据传递过来的局部特征数据进行匹配,再将搜索结果返回至移动智能终端。 三者各有优缺点,针对实际情况的不同,效果各不相同。(c)是目前研究中采用较多的方案,近期北京大学数字视频编解码技术国家工程实验室[54]、厦门大学智能多媒体实验室[55]等关于MVS的研究大部分基于此结构。无论MVS的基本架构如何,其基本搜索流程的核心步骤不会有太大变化,现有研究[7,31,56]基本都认同以下基本流程(见图2)。首先通过移动智能终端获取视觉对象,提取视觉对象的特征和描述符,然后将描述符与存储在视觉对象知识库中的描述符相匹配,最后返回搜索结果。 图2 MVS基本流程[57-58] 3.2 关键技术 依据基本架构和流程可以看出,该领域研究涉及多方面的内容,如描述符(Descriptor)处理技术,视觉对象对匹配技术,视觉对象检索流程,视觉对象知识库建设等。有些问题已经得到一定程度的解决,但还有些问题的研究尚处于初级阶段,本节对目前国外相关工作进行总结和分析。 3.2.1 描述符处理技术 视觉对象的描述是计算机视觉领域的一个基本问题。视觉对象描述符处理技术主要包含三个关键技术[59]:视觉对象特征表示,特征提取,描述符压缩问题。在带宽有限的移动互联网环境中,发送一张视觉对象的描述符信息,无疑会比传输一整张视觉对象的速度更快。 视觉对象特征表示是MVS的关键环节,而采用的技术是局部特征描述符,其中尺度不变特征变化(Scale Invariant Feature Transform,SIFT)是较常用的一种表示方法[60]。通过这种方法,尽管待搜索视觉对象的尺度、角度发生了较大扭曲,但通过对待搜索视觉对象与参考视觉对象的局部特征提取,进行最近邻比较分析,以及一致性校验,可以判断出两个对象是否匹配。 纵览近三年国际相关领域的研究,可发现近期研究文献更多地关注描述符的压缩问题,研究的重心主要考虑在尽可能维持或提升描述符区分度的基础上,对描述符进行深度压缩,文献[48][53][59]等均属于此类研究。从已有研究来看,视觉对象局部特征描述符压缩问题的研究大致可以划分成三类:一是采用降维的方法,如Ke和Sukthankar提出的PCA-SIFT[61]、Brown和Hua等采用的LDA方法[62]等均属于此类;二是采用量化视觉对象的方法,如Girod和Chandrasekhar等提出的ChoG方法[31]属于此类;三是采用二进制码方法,如Torralba和Fergus等将描述符转化为紧凑的二进制码[63],这种方法在大规模移动视觉对象的搜索过程中较为流行。 此外,移动视觉对象匹配与搜索,除了依赖局部特征描述符之外,还依赖局部特征的位置坐标信息。需要对匹配的视觉对象对的位置信息进行几何一致性校验,就需要对局部特征描述符位置进行位置坐标编码,因此视觉对象局部特征的位置坐标压缩是关键环节之一。 3.2.2 视觉对象对匹配技术 视觉对象对匹配首先需要对待搜索视觉对象与参考视觉对象的内容进行分析,判断两者所描述的场景、内容或外观等是否相同,通过计算后,若匹配,则输出视觉对象局部特征的位置信息。基于局部特征描述符处理的视觉对象对匹配流程如图3所示。 从图3可看出,视觉对象对匹配方法主要分为两步:一是局部特征描述符匹配过程。在确定待搜索视觉对象与参考视觉对象的关键点匹配对(Key Point Matches)后,经过压缩、传输、解压缩等过程,进行特征匹配,然后通过几何一致性校验,确定关键点匹配对的内点(Inliers),一旦内点超过预先设置的固定值,则该视觉对象对可视为匹配对,最后,计算出局部特征描述符匹配对的位置坐标。二是全局特征描述符匹配过程。一旦无法检测出是否匹配的时候,就可进行全局特征描述符的相似性计算,检测出局部特征描述符匹配过程无法判断的匹配对。 图3 视觉对象对匹配流程 相比较而言,由于后者是建立在视觉对象的高阶统计特征基础上,故而更具区分度。两者的有机结合是目前大多数研究所推崇的方式,既能发挥局部特征表示、提取及压缩的优势,又能融合全局特征聚合的优点,因而也成为当前MVS系统中应用最多的方式。 3.2.3 视觉对象检索流程 MVS的目标是从大规模视觉对象数据集中快速精确地搜索、发现和获取与待搜索视觉对象相同或相关的信息。如果仅仅考虑搜索结果的精确度,忽视搜索时间、便捷性等因素,则可以将待搜索视觉对象与视觉对象知识库中的所有资源逐一对比、分析,再根据相似度排序,将排序结果返回。但这种方式显然是不正确的。 视觉对象搜索流程与视觉对象对匹配过程是相关联的,也分为两个步骤,但方向却是相反的。首先,将待搜索视觉对象的全局特征与视觉对象知识库中预先计算好的参考视觉对象全局特征进行逐一对比,返回最优的视觉对象集合及其相关信息一览表。然后,将返回的搜索结果进行几何一致性校验,依据校验结果,对候选视觉对象及相关信息重新排序,将满足几何一致性约束的视觉对象及相关信息调至前列,从而实现性能与效率之间的有机平衡。 3.2.4视觉对象知识库建设 移动视觉对象知识库(或称为数据库、数据集)的建设,可以使用户能快速便捷地将通过移动智能终端获取的现实世界中的真实对象与信息世界的移动视觉对象相关联,从而精确地获取移动互联网中的视觉对象及其关联信息,为用户提供新型的MVS服务。因此,构建怎样的移动视觉对象知识库,如何有效地管理、分析及利用与现实世界相对应的移动视觉对象知识库也是一个挑战性课题。目前,此类研究并不多,其中以Chandrasekhar和Chen等提供的斯坦福移动视觉搜索数据集最为著名[16],其他类似的还有Telecom和SudParis创建的关于Paris的图像数据库[64],南洋理工大学与北京大学联合启动ROSE(Rapid-Rich Object Search Lab)计划,拟建立亚洲最大的移动视觉对象数据集[65]。 3.3 MVS研究的主要技术瓶颈与挑战 随着移动互联网技术的发展和移动智能终端的普及,MVS在移动互联网、信息检索领域将会处于越来越重要的位置,作为一个新兴的研究领域,需要解决的技术瓶颈与挑战有很多,今后几年以下技术问题值得关注: (1)移动互联网网络与MVS应用所涉及软硬件资源的匹配问题。一方面,尽管3G无线网络已逐渐走入日常生活中,但其所存在的带宽有限、波动及延时等问题,仍对MVS的应用、推广有一定的影响。为了降低MVS应用的延迟,提高MVS实时应用的体验效果,需要对MVS待搜索视觉对象进行压缩。另一方面,现有移动智能终端的软硬件设施虽然较之以往有了很大的提升,但仍存在计算资源有限(如CPU、内存、电池电量等资源)的问题,使可以在电脑上运行的许多计算任务无法完整地在移动智能终端上执行[66]。 (2)视觉查询多样性与MVS服务、应用的自适应问题。在MVS服务与应用过程中,由于移动视觉对象获取的便捷性及MVS服务的实时性,MVS服务与应用呈现出多元化等特征,因此,就要求MVS服务与应用系统的后台建立极为强大、丰富的视觉对象知识库及关联信息库,从而满足不同MVS用户的信息服务需求。如何有效地采集、组织、分析及管理大规模视觉对象知识库及关联信息库,解决MVS服务需求与数据库、知识库之间的自适应、自匹配问题,就成为MVS应用与推广的一个巨大挑战。 (3)MVS搜索性能与用户体验效果的匹配问题。MVS引起了学术界、工业界与政府的广泛关注,已有很多研究团队及机构致力于如何提高MVS系统性能,但现有国内外MVS应用系统仍处于不断提高、改进的过程中,仍存在MVS搜索性能不够理想或不够稳定等问题。因此,为了突破MVS精准搜索的瓶颈,就需要将MVS应用系统置身于实际应用环境及特定MVS服务需求中,优化MVS搜索性能,提升用户体验效果。 (4)多样化移动视觉服务、应用与异构MVS系统之间的互操作性。MVS服务及应用领域存在着大量的方案、算法及策略,可供选择的余地很大,使得不同的移动视觉服务、应用及异构MVS系统之间必然会存在互操作性问题,如何将其兼容于被广泛接受的移动智能设备及平台上,也就成为一个重要问题。 4 信息服务领域MVS应用的比较分析 由于MVS技术仍处于发展阶段,存在着许多技术和应用方面的不足,目前并没有进入大规模应用推广阶段,国外一些机构、企业或个人开展了应用尝试,形成了一些颇有代表性的应用案例。国内尽管有一些机构、企业正在做这方面的尝试,但与国外相比,仍存在着巨大的差距,特别是应用实践方面,缺乏成功案例。 表1对国外MVS应用案例进行了比较分析,对不同MVS应用的商业背景、应用领域、服务模式及基本功能进行了描述,也基本囊括了目前国外较为流行的、成功的MVS应用案例。之所以没有对国内的MVS应用案例进行比较分析,有两个原因:①目前国内已有的MVS应用案例尚处于研究阶段,没有形成较为成熟的技术体系与商业模式;②已有或正在研究的MVS应用基本脱胎于国外的MVS技术或模式,尚未形成具备自身特色的MVS应用特征。 5 MVS在数字图书馆中的应用展望 数字图书馆一直是信息检索技术的最重要战场之一,MVS技术及应用的研究与推广对数字图书馆未来的生存与发展,必将产生深远的影响。结合MVS已有相关研究成果和应用案例,我们认为,为有效支持MVS技术在数字图书馆中的应用与推广,图情工作者应关注以下领域的研究: (1)支持MVS信息检索模式的研究。随着信息技术的飞速发展和网络环境的逐步完善,数字图书馆的资源类别及资源结构越来越复杂,但相应的信息检索技术及服务模式却没有较大的改变,大部分仍停留在文字检索的服务模式上,而忽略了对图像、视频等视觉对象和音频、广播电台等听觉对象的信息检索模式的支持。数字图书馆的MVS应用有助于用户快速便捷地采集现实世界的视觉对象,从移动互联网另一端获取数字图书馆中与之相关的信息资源。例如,用户用手机拍摄到某本图书时,将该视觉对象作为搜索对象,执行MVS搜索,数字图书馆中关于本书的作者、出版社、经授权许可的电子图书、教学课件、视频、图片、实体信息资源在实体图书馆中藏书地点,及该图书作者的其他著作或论文等信息,精确地叠加显示在移动智能终端的屏幕上。利用移动智能终端摄像头对准书页,就能获取其他用户的书评等。 (2)视觉对象知识库建设的研究。MVS应用依赖于视觉对象知识库的建立,结构完整、内容齐全的知识库有助于视觉对象的高精度识别和匹配。在数字图书馆中建立视觉对象知识库,除了可以完善传统馆藏资源数字化建设形态之外,还可弥补信息资源单一化的呈现、管理、利用等缺陷,更好地实现深度搜索。经过多年的应用,数字图书馆中的传统知识库存储了大量数据,纵然MVS应用于视觉对象知识库能够带来诸多好处,但是数字图书馆全面步入MVS应用及视觉对象知识库仍然需要一个长期过程,这就需要进行科学、有效的规划设计,实现传统关系型数据库与非结构化或半结构化视觉对象知识库的有效融合。 (3)MVS系统及视觉资源标准化问题研究。显而易见,MVS应用的飞速发展,极大地挑战着集文献、数据、工具、平台与服务为一体的新型知识服务环境,待搜索视觉对象的采集、管理、分析、发现、评估及多元化表示、检索、发布等过程,无一不挑战着现有数字图书馆标准化建设工作,MVS应用及视觉资源标准化问题成为首要解决的技术瓶颈,特别是MVS、MS及MAR等新兴技术的国际标准化工作更是难点所在。 (4)基于海量视觉对象数据分析与数据挖掘的数字图书馆理论与方法研究。由于数字图书馆与科学研究、信息技术、网络环境等的特殊关联关系,MVS应用必然会对已有数字图书馆理论与方法研究产生巨大影响,进而产生新的研究问题、研究内容、研究方法,甚至是新的研究领域。 (5)MVS开发、应用及管理人才培养方案的研究。信息检索方式、知识服务模式及知识交流方式的改变必然会对数字图书馆人力资源(包括用户、馆员及管理者等)的知识素养、知识结构、服务技能及管理方式提出更高要求,分析数字图书馆的MVS开发、应用及管理人才培养的需求,制定培养计划并加以实施,也是需要解决的问题之一。 6 结束语 2013年,北京大学的段凌宇及中国科学院计算技术研究所的高科以同一个课题名称“移动视觉搜索关键技术研究”同时获得国家自然科学基金资助[67],由国家863、973及自科基金资助的、作为MVS应用的典型案例及课题的技术项目“手机平面媒体搜索与推荐系统”成功实施[68],国家863计划提出“研究提升移动终端视觉”的手段,“探讨增强现实、情感语音、手势等创新性人机交互技术”[69]等,这些无一不印证着MVS正逐渐向我们走来。图书馆一直都对信息技术的发展保持着极高的敏感度,从早期的互联网、数字图书馆,中期的移动互联网、分布式系统,到近期的Web2.0、云计算、大数据等,都为图书馆学、情报学研究注入生机,也给图书馆事业带来巨大的冲击与推动。MVS应用作为一种新兴的技术及服务模式,无疑会给数字图书馆带来新的机遇与挑战,这是一个关键突破期及发展机遇期,需要图书情报研究人员、图书馆工作人员“先人一步,技高一筹”,将其转化为现实的核心竞争力。标签:相关性分析论文; 用户研究论文; 移动互联网论文; 图像融合论文; 位置服务论文; 移动搜索论文; 用户分析论文; 信息架构论文; 应用架构论文; 信息检索论文;