数字图书馆中的视频信息检索,本文主要内容关键词为:数字图书馆论文,信息检索论文,视频论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一 引言
视频信息是构成多媒体信息的重要组成部分,而多媒体信息有更丰富的信息表示形式,包括文本、图像、音频、视频、动画等等。数字图书馆对多媒体信息的检索,现在不再是只能处理比较单一的信息表示形式,如纯文本信息。为了更好地满足用户的信息需求,数字图书馆应提供对形式较为复杂的多媒体信息进行检索的有效手段。
数字图书馆处理的多媒体信息同传统图书馆处理的文本信息相比有其自身的特点,如其形式较为复杂、格式不够统一等等。那么针对多媒体信息中的视频信息的检索也应在传统信息检索技术的基础上,寻找适合其自身特点的检索方法。
数字图书馆作为今后重要的信息源,从大量无序的信息中提取出有效的信息是尤为重要的。目前,各国都在投入大量的人力、物力,进行数字图书馆信息检索的研究。对于视频的检索也是其中的重要组成部分。视频检索的理论和技术都是实现有效视频检索的关键,传统图书情报学界对于文献资料的检索理论和方法、现代计算机检索技术都是推动视频检索研究的重要力量。
二 从分类角度出发
图书情报学界对于文献分类多年来积累的经验,给我们以启示,对于视频信息的处理也可以采用分类的方法,使其有序化和规范化。分类需要采用一定的方法,分类法也需要进行统一化和规范化。
所谓分类法,是指用分类符号来表达各种概念,以学科体系为基础,将各种概念按学科性质进行分类和系统排列。分类法能够集中体现学科的系统性,更符合人们对事物的认识习惯。其参照系统反映了事物的从属、参照关系,便于人们对某一特定主题下的文献进行族性检索。分类法的基本结构是按知识门类进行划分,从总到分,从一般到具体,从泛指到专指,逐级展开,分门别类的检索体系。
对于视频信息,从分类角度入手,首先要建立适合视频资料特点的分类法,然后还是要借助于人工对其进行著录、标引。
学校图书馆和公共图书馆拥有大量视频资料,合理有效地利用馆藏视听资源,更好满足教育和研究的需要,为读者提供多种检索途径,从分类的角度对视听资料进行分类和著录,正是从现有的技术条件出发,解决数字图书馆视频检索问题的又一条新路。对视频资料的分类和著录,建立资料间逻辑的联系,使其从无序的数据变为有序的信息,这样的信息聚集在一起就形成一个视频信息库。
云南省大理师范高等专科学校图书馆的有关人员就根据其馆藏情况,对视听资料的分编工作提出了具体的实施办法,目的是提高该馆视听资源在学校教学和科研工作中的管理和利用效率,为中小型和视听资料馆藏量不大的图书馆对于视听资料的处理做出了有益的尝试。
下面笔者想从面向信息用户的角度谈一谈对于视频资料分类的一点认识和看法:
● 可以借鉴现有的文献分类标准的体系结构和编制说明,如国外的《杜威十进制分类法》(DDC)、《国际十进制分类法》(UDC)、《美国国会图书馆分类法》(LCC)和《国际专利分类法》等, 国内的《中国图书馆分类法》、《中国科学院图书馆分类法》、《中国人民大学图书馆图书分类法》、《中国档案分类法》等等。
● 类分中,可以以《中国图书馆分类法索引》、《新学科归类指南》等作为主要的参考书。
● 分类法的类目的建立,可以根据上述参考书,从信息用户的角度出发,对于有关新学科领域、新科研技术、新专有名词的视频资料,为适应各馆馆藏的自身特点,采取比较灵活的方式建立类目体系。与此同时,加强信息资源的共享,加快分类类目的统一化。
从分类角度对于视频资料的检索,其基本原理是基于文本描述,即对视频信息添加文本说明。这种方法的缺点是难于充分表达媒体信息的丰富内容;描述是由人工完成的,带有一定的主观性,处理文本涉及到自然语言的理解问题,以及手工制作文本描述的效率不高等问题。因此,现在有关人员主要研究基于内容视频检索技术。但时至今日还没有成熟的技术,笔者认为从分类角度对视频资料的检索,增加了视频信息检索途径。
三 从主题角度出发
从主题角度出发,指的是直接根据某个主题或者主题特征进行查询,而不是像从分类角度那样按类目进行浏览。
(一)基于文本的检索
从主题角度描述视频信息也可以采用文本描述方式,对于视频图像的相关主题描述,往往是很难与用户对于视频信息的理解和表述相一致的,采用什么样的机制选取主题词,同时又运用什么样的技术匹配主题词,为视频检索提出了新的要求。视频信息毕竟不是文本形式,如果从文本角度描述出发,对它的描述我们也只能近似。对于具体主题词的选择可采用以下方法:
1.选择的对象:
(1)现有多媒体搜索引擎,对用户使用的检索词进行词频统计, 通过分析,对用户使用的语词和自动标引的搜索工具使用的关键词(或有效检索词)词表进行修订和编制。
(2)对一定时间内的(6个月以上)检索记录进行统计,统计检索词的出现次数,进而根据大样本计算其频率。
(3)应用齐夫定律(Zipf′s law),假定满足其条件,即可从统计数据中,将出现的词汇按其出现的频次作递减排队。总词量不少于5000(齐夫认为的最小统计量,即齐夫定律的适用范围)。
2.选择的参数:
由于大样本的复杂性,因其用户群的不同,涉及的学科领域不同,采用齐夫定律的推论式—即蒙特尔布罗修正式:
f(r+m)b=c′(代表乘方运算)(*)
其中:f——频次
r——等级
m——修正常数,其主要作用是对高频词段的修正
b——与样本种类有关的常数
c′——常数
3.统计:
(1)可以以6个月为时间序列。收集在此期间有关视频的检索记录。
(2)统计词频。并按语言学的规则为每个语词设定等级,即r。
(3)把统计的语词根据概念分组, 可按学科领域(可以参照网站有关的栏目和讨论区名称等)。给每一组配一个相应的权值,即b。
(4)按以上规则,对高频词进行一定的调整, 如抽样时间内的特定词,如奥运会、北约、阿富汗等,即调整m。
说明:(3)、(4)的规则,是根据搜索工具的词表分别对不同学科领域划分的,这样能够突出学科相关语词的重要性和有效性。减少人为的关注和学科自身特点(如参与研究的人数、知识普及程度和应用范围等)的不同所造成的影响。
4.分析
通过统计根据(*)计算出c′,验证齐夫定律及其修正式,以此调整分组规则,重复步骤3。通过对f-r的分布和有效词的分辨力规则,从样本中选出可做自动标引词的有效词,据此建立词表,并对一个时间序列做预测分析。其中对参数的估计可用计量学中的最小二乘法(OLS),最大似然估计法等,对参数显著性检验可用F-检验,t-检验等。在对几个时间序列的观测和分析中,不断调整词表,逐步完善词表,满足检索要求。
(二)基于内容的检索
基于内容的检索是从主题角度进行检索的一种重要的方式。所谓基于内容的检索是根据对媒体对象的描述,从数据库中找到具有指定特征或者含有特定内容的图像,它不同于传统数据库的检索,是一种近似匹配技术。
基于内容的描述是基于内容检索的前提。基于内容的描述方案包括自动视觉特征抽取和人工语义的特征标注。目前还没有形成一个统一的标准。为解决此问题,MPEG专家组正在制定一个基于内容的多媒体描述方案——MPEG-7。
不同于先前的MPEG标准(MPEG-1,MPEG-2,MPEG-4),MPEG-7着眼用代码的形式表示和标识视听内容,该标准表示的是能够标识视听内容的信息,而不再是对原内容的代码表示。MPEG-7试图提供一组强大的标准化工具来描述多媒体数据内容,即所谓的“多媒体数据内容描述接口”(Multimedia Content Description Interface)。
MPEG-7规范的对象:
● 一个核心的描述符集合,用以描述各种不同类型多媒体数据的内容特征。
● 描述模式,预先定义描述符及其之间的关系。
● 描述定义语言,定义上述二者的语言。
● 代码化描述,用以有效的存储和快速存取。
MPEG-7是一种面向内容的描述语言和格式的标准,有了这种基于内容的描述,我们就可以对视频等多媒体信息进行分类、检索、识别和加工制作。不同的信息用户对于视频信息管理系统进行检索时,可能有不同的信息需求。有些用户是根据文献资料,已知视频资料的主要内容和相关主题;有些用户已经看过某一视频片段,现在需要把它检索出来进行观看或者加以利用;有些用户想查询到与其需要主题相关的视频片断;另外还有些用户只是随便看看。
视频查询也可以根据不同的用户特点,建立信息查询模型。在Bolle等人建立的模型中,查找信息包括多个阶段的交互式信息过滤。用户通过文本信息查询方式,确定其查找的范围,系统选出候选的视频记录集,而后用户可通过进一步的基于内容的特征检索和快速浏览技术来获得所需信息。
视频信息的查询过程,可以抽象为用户所描述的查询特征向量集和系统所提供的目标向量集之间的近似匹配。在用户提交样例的查询系统中,如对于商标、广告创意视频片断的查询,上述过程尤为明显。在这种方式下,整个查询过程就是在视频的元数据库中,寻找出与样例特征向量的相似度满足一定要求的记录集。不同的检索系统对于特征的选取可能不同,把不同类型的特征元素分成组,并定义出对象间的距离。这一点有点象文献计量学使用的聚类的方法。用户的样例可能涉及到不同的特征,系统为每个特征组指定权值,分别计算系统信息库中各对象与用户样例的加权特征距离,并将其标准化(value ∈(0,1)), 其值越大相似度越高。
哥伦比亚大学的VideoQ系统中,两个对象间的距离定义为
Dg=∑Wi Di
i∈{features}
其中Wi为分配给具体特征的权重,Di为两个对象在该特征空间的标准化距离。
而针对某一特定的特征,其距离也是采用描述该特征的各分量的加权欧式距离形式。