多媒体搜索引擎创新的比较研究_搜索引擎论文

多媒体搜索引擎创新比较研究,本文主要内容关键词为:多媒体论文,搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

随着网络信息资源的迅速增长及多媒体技术的发展,图像、音频、视频,动漫、音乐、电影、电视等信息资源的检索需求量飞速增长。在这些大型的多媒体资源数据库中,对于特定的多媒体信息,如何在最短的时间内被所需要的用户准确地检索到,并对其进行组织、存取、查询和提取,已经成为当今多媒体数据库商们广泛关注和急需解决的重要问题。

2 多媒体搜索引擎的现状

2.1 基于文本描述的多媒体搜索引擎

目前的多媒体搜索引擎主要是以基于文本描述的多媒体搜索引擎,这种方法主要是对含有多媒体信息的网站和网页进行分析,对多媒体信息的物理特征和内容特征进行著录和标引,把它们转换成文本信息或者添加文本说明,建立数据库,检索时主要在此数据库中进行匹配。关键词匹配主要有:(1)多媒体资源的标题和其周围的文字描述。(2)用户对多媒体信息的添加自由分类标签和描述。(3)有超链接指向特定的多媒体资源的文字,例如文字通过<IMG SRC>指向显示在下面多媒体资源或者通过指向到某个多媒体资源网页,这两种方式都会被认为文字与某个多媒体资源有关联①。网上的大部分多媒体搜索引擎都属于此类,但查全率、查准率不是很高,因为其标题往往不能反映其真正类别,按照其附近的文字描述进行关键词匹配提供检索结果往往是垃圾信息。例如:用户用关键词“二战片”搜索电影,电影《莫斯科保卫战》标题并没有“二战片”的字眼;包含多媒体资源的网页中会出现很多与多媒体资源内容不相关的关键词。

2.2 基于内容的多媒体搜索引擎

基于内容的检索是指直接对媒体内容特征和上下文语义环境进行的检索,如对图像中的颜色、纹理,或视频中的场景、片断进行分析和特征提取,并基于这些特征进行相似性匹配。标引系统首先完成对多媒体的预处理和提取特征等,建立起多媒体信息数据库系统。这个系统包括信息库、特征库和知识库,信息库储存数字化的多媒体信息;特征库储存多媒体内容特征和客观特征;知识库储存专门和综合性知识,有利于查询优化和快速匹配。检索系统则先对用户输入的多媒体信息进行特征提取,然后在多媒体特征库中进行检索,将与用户要求最相似的信息输出。你甚至可以用手画一张草图,用扫描仪扫进去,当做你的搜索条件,也就相当于提供一个样例,搜索引擎提取你样例图像的特征,然后同数据库中的所有的特征进行比较,最终找出你所需的一系列图片②。例如搜狗http://www.Sogou.com推出的以图搜图的搜索服务可以识别众多图片并分辨出类似图片,它利用了Computer Vision(计算机视觉)技术,让电脑“看”到图片本身的内容,并判断出这是个什么图片,当你上传图片时,搜狗算法会分析该图片,将其分离成不同的Features小块,也就是所谓的特征提取。这能够捕捉到图片里特殊的、明显的部分,比如纹理、颜色和图形。然后后台服务器会对比Sogou Images库里数亿张照片,猜出最接近的图片呈现给你,不管是不是最佳的答案,但起码是在图形上相似的③。

可用于网络检索的多媒体信息的内容特征大致有以下几种:(1)图像的颜色、纹理、形状等。(2)声音的音频、响度、频度和音色等。(3)影像的视频特征、运动特征等。视频信息一般用场景、镜头和帧来描述。目前的难点在于我们所能描述的特征不能很好地体现图像真正的、几乎全部的语义信息。如果是视频动画或音频信息,则需要更加全面的描述,如视频中的物体的颜色、纹理、形状、相对位置、运动方向、所处的场景、视角、摄像机的运动方向等等,音频中的频率、节奏变化、量化位、声道、特殊效果、情感倾向等。

多媒体信息与文本数据不同,它有信息量大、非结构化以及难于描述的特点,多媒体非格式化数据由大量的、数量变化的小数据项组成,这些小数据项可能是字符、像素、线段或指针等。这些非格式化数据的结构十分复杂,而且数值的变化很大,通常很难了解其内部结构,探测其结构需要不同程度的模式识别与理解技术,这超出了数据库领域的研究范围。

关键技术目前有信息模型和表示技术、信息压缩和恢复技术、信息存储技术、多媒体同步技术等,在基于内容的多媒体搜索引擎中,只要解决好基于超文本的信息模型、制定好视频图像的压缩标准、利用更适合多媒体数据特点的存储结构和存取方法,我们就可以对多媒体信息进行更好地分类、识别和加工。网上常用多媒体的格式有:图片格式jpg、gif,音频格式wav、mp3、midi,视频格式avi、mov、mpg、流式媒体rm,动画格式gif、flash、avi、fli/flc、mov,而视频压缩技术先后又有mpeg1、mpeg2、mpeg4、mpeg7、mpeg21等标准。

现在软件可以通过模糊识别PDF扫描文件的字符或模糊识别声音文件;提取出图片的颜色、形状和纹理特征;进行视频分割,直接从镜头的帧序列选择一幅或多幅图像作为代表帧④。但对于真正读懂图片、视频、动漫等内容还是无能为力,因为如果要真正读懂,要构建的非格式化的多媒体特征本体定义数据库将是难以想象的巨大,要构建的而且所谓的“内容”很难有一个统一的标准,每个人的审美角度不同,因此同样的搜索结果,也许对某些用户很适用,但对于另外一些用户则效果不佳。

3 实证分析不同多媒体搜索引擎的查准率、查全率

人脑对多媒体的理解分类才是最准确的,但靠人工归类又费时费力。如果是资源共建共享,用户在上传资源时同时对资源归类,或者添加自由分类标签,并进行资源描述,其他用户也可以进行对资源添加不同的自由分类标签,这样检索时可以对所有资源进行标题,自由分类标签和描述进行匹配检索。例如http://www.flickr.com,http://www.douban.com,http://www.tudou.com等等都是资源共建共享的典型网站,但这些网站的资源范围有限,难以媲美互联网超链接自动爬行抓取网页,其按多媒体资源的标题、周围文字描述、超链接文字进行关键词匹配提供检索结果的搜索引擎的资源范围。笔者通过以下三个搜索引擎对图片搜索进行分析,结果如表1。

从表1可以看出,号称全球第一的由用户共建共享的图片搜索引擎http://www.flickr.com和号称全球最大的商业图片、创业图片、影视和音乐素材供应商Getty Images公司(http://www.gettyimages.cn)资源数量远远比不上自动爬行抓取网页图片。谷歌和百度按关键词匹配提供图片搜索结果,但符合要求的图片准确率也比不上谷歌和百度的图片搜索,谷歌的搜索效果最佳。这说明谷歌多媒体搜索引擎由于其在爬行抓取资源的范围更广,胜出关键词匹配算法的改进。如果基于内容的多媒体搜索引擎要达到如此巨大的搜索资源量,要建立的多媒体特征库也是不容易的,因为每个关键词的多媒体图片的特征库都是不同的,所以现在的基于内容的多媒体搜索引擎还是停留在理论上,无法与基于文本描述的多媒体搜索引擎匹敌。http://www.flickr.com的搜索结果符合要求的图片率低是因为其关键词匹配包括资源描述,资源描述只要出现这个字眼就被检索到了,虽然用户可以添加自由分类标签,但自由分类标签是扁平结构,没有形成树状的目录检索,所以没有层级目录检索⑤。http://www.gettyimages.cn的搜索结果符合要求的图片率高是因为其所有资源都是用户申请成为摄影师才能上传的图片,网站有专业人士进行资源建设,所以有目录检索。图片由网站在线卖出使用权后摄影师也有利润分成,大大刺激了用户的积极性,所以http://www.gettyimages.cn的图片资源量和精美程度都要比http://www.flickr.com的好⑥。

笔者再通过以下三个搜索引擎对视频搜索进行分析对比,结果如表2。

土豆网的资源是要靠用户在本网站上传的,而百度、谷歌是自动抓取互联网上用户通过所有网站上传的视频,所以视频资源就远比土豆网的资源丰富得多,百度、谷歌视频资源数量差不多,但符合用户检索需求的视频显示率谷歌要胜过百度,这也是谷歌的算法更加完善、技术更加先进的缘故。谷歌搜索算法每年修改500次以上,工程师综合各种信息找出修改搜索算法的方法,并进行实证审核决定是否通过⑦。

如果要构建基于内容的视频搜索引擎,要建立的视频资源特征数据库更是大得无法想象,要达到让电脑真正理解视频,还要构建视频资源特征本体,这样的任务更是巨大得无法用人工去完成,而且这些数据都是非格式化的,变化万千的。所以基于内容的视频搜索还只是停留在理论上。

4 创新改进

4.1 将文本信息和可视化信息统一起来,进行二次筛选检索

目前,将文本信息和可视化信息统一起来,进行二次筛选检索已经在图片搜索方面取得了突破,但在音乐、视频方面还没有有效的应用。

百度的图片高级搜索,在关键词检索的同时,可以选择图片的格式、指定的站点,还可选择新闻图片、壁纸、表情、头像的任一形式进行筛选⑧。Google的图片高级搜索除了输入关键词外,还可以选择图片尺寸、纵横比、图片颜色、文件类型、国家地区,还可选择脸部特写、照片、剪贴画、素描画的任一形式进行筛选⑨。

4.2 多媒体的资源的目录层级检索与关键词检索相结合

目前,多媒体的资源的目录层级检索与关键词检索结合在图片、视频、音乐检索都有比较成功的例子。

搜狗的图片搜索除了关键词检索外还提供美女时尚、性感女星、魅力男星、非主流图、精美壁纸、爆笑趣图、网页素材、卡通动漫、电影电视、风景名胜、酷车靓影、体育明星、游戏酷图、军事武器14大类目录检索⑩。中文雅虎的图片搜索除了关键词检索外,还提供美女写真、帅哥酷国、壁纸大全、爆笑趣图、动漫游戏、聊天头像、热门影视、名车鉴赏、军事体育、风景名胜十大类目录检索。这些目录是由人工按照热门搜索需求大概分为若干个一级目录和若干个二级目录,然后再根据网页标题关键词匹配原则自动抓取相关网页图片,并把相应的网页图片收集到搜索引擎的数据库里,提供目录检索结果,所以分类不全面,归类不是全部准确。例如“美女写真”这个一级目录下有“大学校花”这个二级目录,搜索引擎自动抓取网页标题含有“大学校花”关键词的网页,自动把相应的网页图片保存到数据库里,把这些图片归到“大学校花”这个二级目录下。

土豆网在用户上传视频资源时,除了可以让用户填写标题、简介、标签,还让用户选择以下分类的任一类:原创、电视剧、电影、综艺、热点、财富、汽车、科技、体育、娱乐、音乐、动漫、游戏、搞笑、风尚、女性、生活、教育。用户选择了以上任一目录后,豆瓣还可以按照你的标题和内容简介自动提供一些标签让你选择,这些标签将被作为下一级目录的依据(11)。所以土豆提供关键词检索的同时,还提供以上18大类的分类检索,点击这些一级目录后,将出现豆瓣按标签提供的二级目录检索。例如电影下面还有按喜剧、动作等等类型分类,按国家地区分、按年份分,这样就大大提高了检索效率。但这18大类并不能很全面恰当地反映视频资源的范围,自动提供选择的标签也不是很准确(12)。

同样,优酷http://www.youku.com/在用户上传视频时,也是除了可以让用户填写标题、简介、标签,还可以让用户选择电视剧等二十大类的任一类,优酷再根据用户添加的标签将视频归入不同的二级目录,例如《雷霆战将》这个视频用户上传时将它归入电影这个大类,而且对它添加了“美国”、“战争”两个标签,《雷霆战将》同属在“战争”和“美国”这两个二级目录下。缺点是优酷没有多条件的同时筛选检索(13),如果有多条件同时筛选,国家一栏选择“美国”,形式一栏选择“电影”,内容类型一栏选择“战争片”,时间一栏选择“现代”,那么即使不知道具体的片名,也会很快选择到合适的视频。

4.3 创新自动构建多媒体的资源的目录层级检索、目录检索与关键词检索结合模式

多媒体资源新内容、新形式、新概念迅速发展,现在网上依靠网站预先设置好的十几个分类无法很好地囊括所有资源类别,例如上面提到的搜狗的图片分类连工业、农业这些最基本的大类都没有。二级目录设置得也不准确,相关标签各自包含的信息与实质需求信息的相关度比例是很低的,内容的过度离散使用户搜索资源时要费更多的时间进行筛选。

笔者在这里创新地提出根据用户对资源添加的自由分类标签绘制概念关系网络地图,自动构建全面的分类目录检索,资源自动归属到相应的目录下,同时结合关键词检索进行筛选,更快地、准确地直达用户需求的搜索结果。用户可以通过分类目录,一级一级打开进行浏览,找到想要的多媒体信息,也可以直接在关键词检索窗口直接输入关键词进行检索,对检索结果点击显示的相应目录进行二次筛选检索。当用目录层级检索时,可以用目录关键词检索直达所需的目录,还可用关键词检索对目录下的资源进行二次检索筛选。创新地利用自由分类标签自动类聚的网状分类结构按层级、交叉扩展方式提示相近的资源给用户选择点击,关键词检索结合目录检索就能大大提高检索效率。

由用户共建共享的多媒体资源网站一般都可以让用户对资源添加自由分类标签,搜索引擎自动爬行抓取网页的多媒体资源也可以读取这些显示在网站上的多媒体资源标签。自由分类的标签能动态地全面地反映分类范围和资源发展变化,但自由分类标签没有等级结构,有不少是垃圾标签。所以首先要过滤掉非形式化、不规范的标签。课题组设计软件对以下很明显的垃圾标签进行过滤,例如:纯标点符号——“!!”;纯数字——“2003”;符号加中文——“###生物实验”;单个字的中文——“风”;单个字母——“A”;如果是纯英文单词的标签可以保留,例如“AMAZON”。过滤后还会剩下不少垃圾标签,由于其字面描述混乱,其出现次数也很少,所以只要对出现若干次以下的标签不予统计即可以了,这样两次过滤后,就得到比较标准的分类词(14)。

如果同一资源被用户添加了两个不同的标签,那么就说明这两个标签之间存在部分意义关联。标签之间存在同义词、包含、层次、等级等关系,分析它们所标注过的资源集合的关系就可以分析出标签之间的关系,当两个标签标注同一个资源时,两个标签之间就用一根连接线连接起来,两个标签之间连线越多说明这两个标签意义越相近,当两个标签标注过的资源集合连线数达到等于较小的概念标注过的资源集合元素总数时,就说明这两个标签集合为同义词关系或直接包含关系(见图1)。

图1 概念之间完全包含示意

例如图1中的数字94,98,99,101为不同资源的代码,长方形为概念名称,椭圆表示标签包含的资源的集合,标签“图画书”标注过的资源集合和标签“绘本”标注过的资源集合的连接线达到最大限度,说明这两个标签为同义词或者达到完全包含的关系。如果为同义词的,我们就将它们合并为一个目录;如果为直接包含的,就把包含较少元素的标签作为包含较多元素标签的子目录;如果一系列标签中有互相完全包含关系的,就用不同的括符表示,例如A包含B,B包含C,B包含D,D包含E,那么就用A{B[C,D(E)]}表示,而且合并为一个大目录A。把每个目录看作一个点,两个目录之间无论有多少条连线,都简化为一条连线,而且连线的粗细与原有的连线多少有关,原连线越多就越加粗表示。这样处理后,就可以得出层次分明、交叉归属的目录关系网状地图(15)。在地图中很容易看出主干线、分支线,从而判断目录的各种层级关系、交叉归属关系,这样就可以自动构造多媒体的资源的目录层级检索,顶层目录置于多媒体搜索引擎的首页,点击下去就会看到下一级目录及其相邻的交叉归属目录,点击每个子目录都会看到其包含的多媒体资源。如果想直达某个目录,可以目录关键词检索直达,同时显示这个目录下的资源和其下级目录;还可以进行多媒体标题、说明的关键词检索,检索到的多媒体资源结果均显示其属于的目录,点击相关目录就可以对搜索结果进行二次筛选检索,即筛选出只属于这个目录的检索结果。这样目录检索结合关键词检索就能大大提高检索的查准性和查全性。

课题组开发了根据用户对资源添加的自由分类标签自动构建目录层级检索、关键词检索与书目控制元素结合起来进行筛选搜索结果的网络书目控制搜索引擎,搜索引擎见网址:http://www.foundrybest.com/www/,图2是网络书目控制搜索引擎搜索截面图。用户可以推荐上传自己喜好的资源,对资源添加标题、标签、简介、资源作者、所属地区等等书目控制信息,书目控制搜索引擎按上述原理筛选掉垃圾标签,并按照搜索用户设置的参数进行标签过滤,按出现的次数(图2中设置为5次,即出现5次以下的标签被省略掉)过滤掉垃圾标签,得到标准目录,可按标签之间连接线出现次数(图2中设置为3次,即是两标签之间连接线粗细小于3的被省略掉)过滤,过滤掉由于用户的偏理解而造成的概念关联。然后进行矩阵分析标签之间的完全包含关系,绘制网状分类地图,并根据地图的特征和预先设置的参数自动生成图2中左侧的目录树状检索界面,如果用户用关键词“文学”检索,搜索引擎就会根据标题、标签、简介关键词匹配得出图中右侧的检索结果,检索得出的结果中都显示资源所属的目录、地区、作者、资源类型等信息,点击相应的目录、地区、作者等就可以对刚才检索的这些资源进行二次筛选检索,迅速去除用户不需要的垃圾信息,大大提高检索效率。

图2 网络书目控制搜索引擎搜索截面

图2的右侧是用户搜索到资源时,可以点击资源后面的添加标签按钮对资源添加不同的自由分类标签,添加的众多自由分类标签不显示在界面上,但保存在数据库里,作为自动生成树状层级目录的数据,资源被添加的标签越多,形成的层级目录就越准确,而且层级目录动态变化,能很好地反映资源的分类范围和发展变化。这个功能也可以被自动抓取网页多媒体资源提供检索结果的搜索引擎使用。用户用关键词检索到结果时,可以对资源添加自由分类标签,数据保存在搜索引擎数据库里,那么谷歌、百度这些搜索引擎也可以自动生成层级目录检索了。

注释:

①邓成剑.WWW多媒体搜索引擎研究.图书情报知识,2003(1):51-53

②范新华,陈宏兵,许满武.基于MPEG-7的多媒体搜索引擎构建.计算机应用研究,2004(11):187-190

③⑩http://pic.sogou.com/

④志强.图片搜索的原理.http://zhiqiang.org/blog/science/computer-science/how-google-search-similar-images.html,2011-12-05

⑤http://www.flickr.com

⑥http://www.gettyimages.cn

⑦万学.视频揭秘谷歌搜索算法修改过程:1年修改500次.http://finance.qq.com/a/20110826/007186.htm,2011-10-01

⑧http://image.baidu.com/gaoji/advanced.html

⑨http://www.google.com/advanced_image_search? hl=en

(11)(12)http://www.tudou.com

(13)http://www.youku.com/

(14)吴江.自由分类标签类聚成网状分类结构研究与实现.图书情报知识,2011(1):75-81

(15)吴江.互联网资源知识本体自动构建实证研究.图书情报工作,2011(5):116-120

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

多媒体搜索引擎创新的比较研究_搜索引擎论文
下载Doc文档

猜你喜欢