移动视觉搜索:“互联网+”时代数字图书馆信息检索新模式,本文主要内容关键词为:互联网论文,新模式论文,数字图书馆论文,信息检索论文,视觉论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着信息技术与网络环境的飞速发展,文本、图像、音视频、地图及3D模型等逐渐成为“互联网+”时代重要的信息载体。李克强总理在2015年政府工作报告中明确提出“制定‘互联网+’行动计划”[1],同年7月,国务院印发《关于积极推进“互联网+”行动的指导意见》中,提出要“构建包括语音、图像、视频、地图等数据的海量训练资源库”“进一步推进计算机视觉、智能语音处理、生物特征识别、自然语言理解等关键技术的研发和产业化”“着力做大高端移动智能终端产品和服务的市场规模”[2]。可以说,做好包括文本、语音、图像、视频和地图等视觉对象的开发利用是推进我国“互联网+”公共信息服务工作的重要组成部分,而如何对其进行有效处理、分析与开发利用,就成为“互联网+”行动计划中亟待解决的关键问题之一。 移动视觉搜索(Mobile Visual Search,MVS)是指通过移动智能终端获取现实世界中的图像、视频或地图等视觉对象作为检索对象,获取其关联信息,并在移动智能终端上显示的信息检索方式[3]。它能有效地解决上述问题,被认为是继搜索引擎之后的新一代互联网服务范式[4],以及支撑未来移动互联网应用的基础技术之一[5]。移动视觉搜索尽管已经面世,但尚未得到广泛应用,尤其是数字图书馆领域,较少人涉猎。在大数据和“互联网+”时代背景下,开展对移动视觉搜索的研究,一方面可以丰富数字图书馆信息检索研究思想和未来发展框架,另一方面也可有效地破解视觉大数据资源处理、分析与开发利用所面临的“大数据、小知识”困境。 1 移动视觉搜索研究历程回顾 移动视觉搜索研究是在视觉搜索、移动搜索、跨媒体检索等信息检索理论与实践研究的基础上发展而来。国外关于视觉搜索的研究始于20世纪70年代初,最早主要用于心理学、行为学、体育学及医学领域,用于研究人类在视觉搜索过程中的眼睛、个体行为、神经机制及周围环境等生理性或物理性特征变化[6]。直至2009年9月,美国微软“必应”搜索引擎在旧金山举行的科技会议上推出了一项名为“视觉搜索”新功能[7]。这一创新使视觉搜索研究逐渐摆脱了心理学、行为学及医学范畴的限制,并迅速被计算机视觉、信息检索、移动互联网等领域所接受。 究其根源,可认为移动视觉搜索研究过程大体分为4个阶段: 1)基于文本的视觉搜索阶段(1970~1990年)[8]。这一阶段的检索对象主要限于文本、图像等视觉对象,对视觉对象进行文本标注,将视觉搜索问题转换成传统基于文本或关键词的信息检索模式,借助于相对较为成熟的数据库技术来满足视觉搜索需求。这一阶段的视觉搜索模式最易实现,但视觉对象文本标注主要是基于人工标注,且视觉对象知识库规模较小,存在着标注主观性较强、标注不够精确和人工标注工作量太大等问题。 2)基于视觉内容的视觉搜索阶段(1990~2000年)。这一阶段的检索对象以文本、图像等视觉对象为主,逐渐拓展至音视频、3D模型、地图等视觉对象,但相关技术尚不成熟。随着数字输入输出设施、信息技术与网络通信技术的快速发展,视觉资源的规模急剧增多、类型与结构日趋复杂化,早期基于文本的视觉搜索模式难以满足其处理需求,用户开始希望能基于视觉内容本身进行检索与管理。90年代初期,NSF(美国国家科学基金会)便开始组织开展VIMS(Visual Information Management Systems)的研究[9],自此,来自计算机视觉、信息检索、人工智能等领域学者便加入到基于视觉内容的视觉搜索研究队伍中,并针对视觉特征提取、索引、视觉词典生成等提出了许多建设性的理论、技术和方法。 3)基于大规模视觉对象资源检索的阶段(2000~2010年)。这一阶段的视觉搜索主要以文本、图像、音视频、地图及模型等视觉对象为研究对象。自2000年开始,信息技术与互联网通信技术进入飞速发展时期,导致视觉对象数量、类型与结构剧增,视觉搜索难度加大。2001年,谷歌首次发布了视觉搜索引擎(以图像为主),为用户提供了2.5亿张图像、视频等视觉对象供用户查询[10]。这一商业视觉搜索系统的推出,在全球范围内掀起了一股视觉搜索研究热潮,并在视觉特征提取、视觉搜索索引体系构建、系统研发等方面取得了巨大进展。但仍有一些问题困扰着研究者们,如视觉对象自动标注、大规模视觉对象知识库的高效索引优化、视觉搜索引擎的检索性能优化、用户视觉搜索多模态查询意图等问题。 4)基于“互联网+”的移动视觉搜索阶段(2010年至今)。这一阶段的视觉搜索主要是面向大数据,以文本、图像、音视频、地图及模型等视觉对象为研究对象,目前国内关于移动视觉搜索的研究成果不多,图书馆领域较少人涉猎,对其在数字图书馆中的应用研究更是极少涉及。一方面,云计算、移动互联网、物联网和大数据的飞速发展是“互联网+”最为显著的技术特征,移动智能终端的日益普及、移动互联网及移动应用的飞速发展也将视觉搜索从PC端向移动智能终端发展提供了软硬件支持。另一方面,移动互联网、大数据和社交网络给视觉搜索带来了更多的新数据、新问题和新应用。如Flickr和Facebook两个网站积累了数十亿甚至数千亿的视觉对象数据,且很多视觉对象带有用户提供的简单标注,这给移动视觉搜索、标注和排序提供了诸多便利[11]。此外,装备有功能强大的摄像头、GPS、电子罗盘等获取与传感设施的智能手机已经广为普及,通过手机拍照来查询并识别物理世界也变得非常有用。 2 “互联网+”时代数字图书馆移动视觉搜索发展及应用研究 2.1 “互联网+”时代数字图书馆移动视觉搜索的功能与特点 “互联网+”与移动视觉搜索给数字图书馆带来的不仅是技术方面创新,也不仅是“互联网+数字图书馆+移动视觉搜索”产业的简单叠加,而是在思想、理念、模式与技术等方面赋予数字图书馆“飞翔的双翅”,使数字图书馆在“互联网+”时代“畅游天空”[12]。如图1所示。通过“互联网+”与数字图书馆、移动视觉搜索的跨界融合、智慧互联,移动视觉搜索具有视觉对象大数据资源的获取、处理、分析与展示的一体化信息检索能力,可实现数字图书馆移动视觉搜索的高效智能服务,并以以下几种方式展现其功能。 图1 数字图书馆移动视觉搜索功能体系 1)视觉对象大数据资源快速获取与处理能力。通过数字图书馆信息检索平台的协同管理、视觉对象资源协同处理和“互联网+”网络环境协同传输,实现随时、随地、全天候、实时获取与处理文本、图像、音视频等多模态视觉大数据资源,挖掘出视觉对象大数据中蕴含的丰富价值,并将结果反馈给用户。 2)“互联网+”环境中视觉对象大数据资源协同通信能力。移动视觉搜索机制能够克服有线网络覆盖范围不足、视觉对象资源数据规模大等局限,以一种泛在化、嵌入式、协作化的移动信息服务方式为数字图书馆用户提供随时、随地、便捷的协同通信和数据传递服务。 3)用户移动信息服务的协同创新、知识发现与智慧服务能力。“互联网+”环境能为数字图书馆各类信息服务提供实时协同创新与知识发现服务,并使其成为智慧图书馆提供智慧服务的重要组成部分,实时为用户提供视觉大数据传输、视觉对象知识库建设、视觉对象表示与理解功能,并在弱关系环境下帮助数字图书馆与移动用户之间重新建立信任和互助关系,从而使移动用户参与到数字图书馆管理与服务设计、创新、传播及内容创造等过程中来。 根据以上分析,结合“互联网+”、数字图书馆与移动视觉搜索三者之间的关联关系,不难发现“互联网+”时代数字图书馆移动视觉搜索的主要特点。 1)移动视觉搜索服务资源的跨界融合,服务过程的协同创新。数字图书馆本身就是一种跨学科、专业与领域的服务资源,开放、协同、创新与融合也一直伴随左右,“互联网+”环境通过软硬件基础设施平台、嵌入式协同创新平台与泛在化移动互联网环境的高效集成,对视觉大数据资源进行协同获取、处理、分析与展示,将满足用户移动视觉搜索需求的、与移动视觉搜索相关的各类知识、规则或模式进行动态融合,并以用户易于理解的方式动态展现在移动智能终端上。 2)视觉对象资源结构与类型复杂,技术难度大。“互联网+”时代数据结构规模剧增、类型与结构异常复杂,使视觉大数据资源时空跨度加大、信息维度变高,移动视觉搜索面临着视觉大数据资源传输难、实时处理难、需求多样化等难题,特别是在移动视觉搜索软硬件资源受限、时空约束条件下,数字图书馆移动视觉搜索体系的负载均衡、容错机制与可操作性等成为其发展瓶颈问题[13]。 3)视觉对象的来源异构化,移动视觉搜索服务节点动态变化。由于移动视觉搜索涉及移动互联网、物联网、传感网等网络环境,对其所处网络环境兼容性、可靠性、可拓展性要求尤其高,使移动视觉搜索过程一直都处于移动、动态变化的状态。 4)移动视觉搜索应用覆盖面大,应用前景广阔。突飞猛进的移动互联网、跨媒体检索、虚拟现实、移动增强现实的理论与应用研究,以及日益庞大的移动用户和移动应用数量,推动了移动视觉搜索产业进入到快速发展阶段,使其具有广阔的应用前景和巨大的应用市场。 2.2 数字图书馆移动视觉搜索的基本流程和服务模式 国家制定的“互联网+”发展生态战略使各部委、省市自治区和各行业协会纷纷从顶层设计层面制定了相应的“互联网+”行动计划。图书馆领域最引人注目的莫过于2015年7月20日浙江图书馆联合全省11个市级公共图书馆发布《浙江省公共图书馆“互联网+”行动计划》[14],正式拉开了国内图书馆领域“互联网+数字图书馆”行动计划实施的帷幕。而“互联网+数字图书馆”行动计划的制定与实施,旨在通过理念、思想与技术的创新来推动图书馆的信息、知识服务模式的创新与变革,提高图书馆信息与知识服务能力。如北京大学与新加坡南洋理工大学合作研发的ROSE(Rapid-Rich Object Search Lab)项目,其目标在于解决移动视觉搜索应用面临的视觉对象知识库建设问题,主要目标是建立亚洲最大的视觉对象知识库,开发快速丰富的移动视觉搜索应用技术[4-5]。 为了从视觉大数据中挖掘出满足用户移动视觉搜索需求和感兴趣的信息,必须对视觉对象之间的相似性与相异性进行度量,并在此基础上对海量视觉大数据资源进行有效组织、管理与分析,从而实现从多源、多模态视觉大数据中快速找出用户感兴趣信息,提高数字图书馆的信息资源利用率。在“互联网+”时代,仅仅针对某一种视觉对象的传统视觉搜索模式已难以适应时代发展的需要,发展知识驱动、跨界融合、协同创新的多模态移动视觉搜索模式是数字图书馆信息检索未来发展方向。为此,我们提出一个基于视觉大数据资源特征提取的数字图书馆移动视觉搜索服务模式,主要包括以下3个重要组成部分:视觉大数据资源的识别与获取、视觉大数据资源的存储与分析、移动视觉搜索服务支撑平台,如图2所示。 图2 数字图书馆移动视觉搜索服务模式 1)视觉大数据资源的识别与获取。“互联网+”环境下,视觉大数据资源一般都是分散、多源、异构、多模态的,在当前信息技术与基础设施条件下,想要获取完全视觉大数据是不现实的,这就需要限定其视觉大数据资源识别与获取的范围,如应用、领域、类型、行业或区域导向范围内的。一方面,需要通过探讨视觉大数据的用途、类型、结构、数据成分、应用接口限制或资源定位等特征,正确处理与分析这些特征对视觉大数据资源获取和处理的影响,进而建立领域或行业等导向下符合视觉大数据资源特性的移动视觉搜索模型。另一方面,在综合考量移动视觉搜索应用需求及各类视觉搜索规则的基础上,通过视觉大数据资源勘探和探索等方法,引入深度融合、协同创新等技术确保移动视觉搜索结果反馈的精确性、实时性和可靠性。 2)视觉大数据资源的存储与分析。目前针对视觉大数据资源一般使用的是基于云计算的分布式存储技术,如Hadoop的HDFS,Google的GFS等,但这些技术并不能从根本上解决“互联网+”时代视觉大数据规模爆炸性增长的问题,传统的静态数据存储方案难以满足视觉大数据资源的动态突变、自然演化、价值关联所带来的挑战。因此,必须要根据特定领域的移动视觉搜索需求,有针对性地建立相应的视觉大数据资源存储与分析方法。而视觉大数据资源分析的目的是为了提取视觉对象之间的语义特征,并且将视觉对象资源之间建立起语义关联。其中,多模态视觉大数据分析方法有助于从多源、异构的视觉对象中推理出关联信息聚集的分析结果,进而借助于深度学习、视觉对象知识库、紧凑视觉表示、语义分析等技术,获取视觉对象大数据资源之间的逻辑和语义关联。 3)移动视觉搜索服务支撑平台。文本、图像、音视频、地图及3D模型等视觉对象是目前互联网中最基本的数据资源,是信息价值挖掘、知识发现和嵌入式知识服务等方面的基础资源,在信息可视化表现、支持移动应用和提供移动信息服务等方面发挥着主导作用。随着“互联网+”相关理论与技术的飞速发展,视觉大数据资源的规模只会越来越大、结构与类型也会越来越复杂,因此,这就需要建立支持多源、多模态、异构视觉大数据资源的移动视觉搜索服务支撑平台。 2.3 数字图书馆移动视觉搜索服务框架分析 2.3.1 数字图书馆移动视觉搜索服务框架 结合上述分析,搭建数字图书馆移动视觉搜索服务框架,对移动视觉搜索任务实现过程中用到的视觉大数据资源、视觉对象知识库进行有效的管理与组织,为移动视觉搜索服务全生命周期提供理论、知识与技术支撑,其服务框架如图3所示。 图3 数字图书馆移动视觉搜索服务框架 2.3.2 数字图书馆移动视觉搜索系统构建分析 移动视觉搜索依赖于各类视觉对象高效率、高精确度的视觉知识推理、匹配、分析与识别。视觉知识是根据视觉对象空间、语义位置而建立的有物理意义、关联关系和语义相关的视觉特征组合。视觉对象知识库是移动视觉搜索工程中结构化、易理解、全面有组织的视觉知识集群,是针对某特定领域和方向移动视觉搜索需求的需要,采用某一种或某几种视觉对象知识表示方式在视觉大数据资源存储机制中存储、组织、管理与使用相互关联的视觉知识本体集合,这些视觉对象知识本体包括与特定领域相关的领域视觉对象知识、视觉对象数据、由专家经验得到的启发式移动视觉搜索知识,如某特定领域内有关移动视觉搜索定义、知识关联运算规则以及视觉信息关联常识性知识等。构建视觉对象知识库首先需要确定使用的视觉对象知识表示方法,视觉对象知识表示方法主要有视觉关联逻辑表示法、视觉知识生产式表示法、视觉搜索关联框架表示法、基于视觉对象描述的本体描述法[15]。通过各种视觉对象知识表示法并结合移动视觉搜索需求,采用本体表示法对视觉对象知识库中的视觉大数据资源进行表示。 1)视觉对象知识库层,主要包括视觉对象知识推理本体库、视觉对象本体库、移动视觉搜索需求本体库、移动视觉搜索案例库、移动视觉搜索服务本体库等。需要对视觉对象进行分类,根据分类结果确定视觉大数据存储方案。在数字图书馆中,有些学科、领域或专业的视觉对象知识推理和移动视觉搜索需求知识具有较强的通用性,比较容易分类并形成统一的标准化表示方法。而大部分学科、领域或专业的视觉对象知识推理和移动视觉搜索需求知识由于应用领域较窄、标准规范较为特殊、分类难度大,因此将其进行统一标准化转换过于复杂且应用较少。移动视觉搜索案例库主要用于描述完成某个或若干用户移动视觉搜索需求的具体服务过程与状况,其建设内容主要集中在移动视觉搜索服务过程中涉及的每一环节或步骤的评估、反馈,从而形成一种易于分类并形成统一的标准化表示方法。 2)移动视觉搜索逻辑推理层。主要包括视觉对象语义推理引擎、移动视觉搜索逻辑推理算法库等模块。①视觉对象语义推理引擎[16]。推理指的是依据指定的规则或标准从已有经验、事实或知识推导出结论的过程。语义推理是指在信息检索过程中依据形式化的语义关联知识对其进行语义理解和信息服务需求求解建模的过程。移动视觉搜索服务建模过程中语义推理的准确性和全面性受到语义鸿沟问题的限制[17]。视觉对象语义推理引擎通过对视觉对象知识库表示方法添加语义关联、语义分析、特征提取的支持,从而实现视觉对象语义层面的知识推理,实现数字图书馆移动视觉搜索服务资源与服务能力的最佳配置。②移动视觉搜索逻辑推理算法库。在视觉对象语义推理过程中,有些语义推理是精确推理的,其推理条件、过程和结果都是精确的,这一类语义推理过程较为单一且实现起来较简单。但在数字图书馆移动视觉搜索过程中,大部分语义推理都不精确,其推理条件、过程和结果都是动态变化,存在诸多不确定因素,在这些语义推理过程中,精确语义推理已经难以满足需求,需要引入逻辑推理算法,通过自然语言处理、深度学习、机器学习和人工智能等技术来动态模拟用户思维,对用户移动视觉搜索需求进行合理计算、推理和分析,才能得到更接近用户移动视觉搜索需求的语义推理结果[18]。移动视觉搜索逻辑推理算法库则是将这些算法进行有效封装、集中管理起来,供用户移动视觉搜索语义推理引擎调用,进而为用户移动视觉搜索需求提供科学合理、精确的算法支持。 3)移动视觉搜索应用接口层,主要包括其对应的知识研发、知识管理与知识应用等应用接口体系。①移动视觉搜索知识研发接口。该接口主要功能模块包括移动视觉搜索知识服务获取、处理、分析、集成和融合等。②移动视觉搜索知识管理接口。该接口体系主要负责整个功能模块的安全保障、负载均衡、故障处理等接口的管理、维护、反馈与评估工作。③移动视觉搜索知识应用接口。该接口主要负责移动视觉搜索查询、用户访问、语义推理、语义匹配等应用与外部软硬件环境、移动应用的对接。在整个数字图书馆移动视觉搜索服务框架中,通过调用这些应用接口才能实现用户对视觉大数据资源的使用与管理。 2.4 数字图书馆移动视觉搜索的实施思路 在“互联网+”时代,数字图书馆移动视觉搜索体系的实施应该遵循“领域导向+需求牵引、技术融合+协同创新、样本示范+试点带动”的总体指导思想。 1)领域导向+需求牵引。依据当前商业应用、研究领域的信息服务与信息检索过程中面临的问题,充分考虑信息检索、知识服务在实现“被动型信息检索向主动型视觉搜索转型、从大数据产业链低端向知识价值链高端转型、从信息服务应用驱动向知识服务创新驱动转型”过程中的实际需求,结合“互联网+”时代背景和大数据、云计算等先进技术成果,提出数字图书馆移动视觉搜索服务与应用模式,基于领域导向的视觉大数据价值发现和知识服务模式构建相应的应用系统,开发相应的移动视觉搜索知识服务平台。 2)技术融合+协同创新。数字图书馆是技术、思想、理念与模式交叉最为迫切、最为频繁的地方之一。在现有信息技术与知识服务理论基础上,对大数据、云计算、移动互联网、服务化(如语义分析、数据挖掘等)、信息搜索等技术进行有效拓展与深化,需要信息技术、服务思想、管理理念和应用模式四者的有机融合,才能攻克移动视觉搜索服务平台所需要解决的各类关键问题和技术。而在技术攻关过程中,以开发并掌握核心技术为原则,在数字图书馆移动视觉搜索研究过程中,协调各方资源,努力在移动视觉搜索模式、视觉对象知识库建设、标准化问题、互操作问题等方面实现原始创新,在技术研发、平台推广和体系构建等方面获得集成创新[19]。 3)样本示范+试点带动。毫无疑问,当前移动视觉搜索理论与技术尚未完全成熟,彻底颠覆传统信息检索模式是不理智,也是不现实的。这就需要采取“样本示范+试点带动”模式,选择部分数字图书馆或数字图书馆部分业务作为样本进行试点,通过组态样本,建立具有一定示范价值的试点应用案例,不断积累经验,完善整个应用与服务体系,进而形成具有较大推广价值的理论与应用研究成果。 3 结束语 2015年7月4日国务院印发《关于积极推进“互联网+”行动的指导意见》明确提出要“构建包括语音、图像、视频、地图等数据的海量训练资源库”[2]、7月6日全国社科规划办发布的《2015年度国家社会科学基金重大项目(第二批)》将“面向大数据的数字图书馆移动视觉搜索机制及其应用模式研究”列为招标选题研究方向[20]等种种迹象无不表明,移动视觉搜索正逐渐向我们走来。在“互联网+”时代,无论是传统的互联网应用,还是新兴的各类移动互联网应用,都越来越被人们所接受,而人们对于实时性、交互性、协同性的移动应用需求和视觉搜索需求越来越迫切,中国互联网行业逐渐开始期待崭新的杀手型互联网应用范式,用以提升下一代搜索引擎关键技术的国际核心竞争力,移动视觉搜索、虚拟现实和移动增强现实等应用便成为关键技术突破口。在国家“互联网+”发展生态战略全面实施的大背景下,如何借助“互联网+”的东风,在信息检索与移动互联网前沿领域寻求基础性突破,是本文进行相关研究的出发点。标签:数字图书馆论文; 视觉搜索论文; 互联网+论文; 大数据论文; 语义分析论文; 文本分类论文; 图像融合论文; 用户研究论文; 移动互联网论文; 文本分析论文; 用户分析论文;