数字视频信息索引研究_标准镜头论文

数字视频信息的索引研究,本文主要内容关键词为:索引论文,数字视频论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1、引言

视频(Video)是源于广播电视业的术语,指内容随着时间变化的图像(Picture)序列,也称为活动图像(Motion Picture)。广义的视频有电影、电视和计算机动画等不同类型,狭义上的视频主要是指电视类视频。

视频是一种重要的视觉信息源。随着各种数字影像设备的发展与遍及,以及多媒体技术和Internet的发展,人们面对的视频信息种类迅速地增长,如电影、电视、视频会议、监控录像等。仅中央电视台(CCTV)截至2003年就保存有约30万盘视频节目,目前CCTV开设有15套节目(日播出量超过300小时,其中约有1/3是首播节目)、6套付费电视频道,以每天保存80—90h的首播节目计算,每年新增节目将会达到3万小时以上[1]。面对如此巨量的视频信息,人们迫切希望改进传统的对视频数据的线性查找方式,研发出能够快速定位和部分析取的视频数据获取技术。要达到这样的目标,首先需要将视频数据有序化,即对视频信息进行有效的索引,使之便于检索[2]。

从目前来看,数据库信息、文本信息、图形图像信息的检索已进入成熟期,已有许多实用的检索工具和产品,而视频信息的检索目前还处于研究阶段,虽然已有一些实验原型和个别针对特定领域的检索工具,但目前还无普遍实用的工具和产品。其主要原因是,与其他信息(如文本、图像等)相比,视频信息主要有如下一些特点:

(1)信息内涵丰富;

(2)无“显式”的结构;

(3)存档方式、视频格式和编码标准较多;

(4)数据量大。

近年来,许多研究人员在文本信息、图形图像信息检索技术的基础上,对视频信息检索技术进行了大量的研究,研究内容涉及视频信息的存储组织、内容分析、特征抽取、索引方法、匹配算法、检索算法、检索结果的评估和视频信息的表现形式等诸多方面。本文在分析视频信息的隐含结构基础上,研究视频信息的索引对象、索引模型和索引结构。

2、视频信息的隐含结构与索引对象

目前的视频文档都是以节目(或称为作品)为单位表现某个主题,其数据在组织时无“显式”的结构和索引信息(如同一本无目录和章节标题的书籍),用户只能采用线性方式观看和欣赏。传统的视频信息的消费往往是以节目为单位进行的,即查找某一电视节目(电视片、广告片、某场体育比赛等),但不同类型的用户(消费型、研究型、创作型和应用型[3]),在不同的场合下(通过电视、网络、PDA、移动电话等)可能有不同的视频消费要求,即可能需要以镜头、场景或故事单元为单位进行消费。例如,篮球教练需要查找“姚明进攻”的视频镜头、司机在“塞车”时利用PDA收看某场足球比赛的精彩片段或画面等等。所以,对视频信息进行“结构化”,并针对不同的结构层次对象进行索引,是实现基于内容的视频信息检索的基础。

2.1 视频信息的隐含结构

从形式上看,视频信息本身是一种无“显式”结构的流媒体,即数据流本身无明显的“章节、段落”结构,但从构成和语义上看,视频信息蕴涵着帧、镜头、场景、故事单元和节目这样的层次型结构。其中,帧、镜头和节目是视频信息的物理组成成分,而场景和故事单元则是语义上的逻辑组成成分。

视频是内容随着时间变化的图像序列,其最小组成单位是帧(Frame),即一幅幅静止图像;针对一个对象或事件的、摄像机一次拍摄产生的帧集合称为一个镜头(Shot);发生在某一场地的、针对某一对象、具有相对独立的叙事情节的一个或多个连续镜头构成一个场景(Scene);故事单元(Story Unit)是指针对某一事件的、具有相对完整的故事情节的一个或多个连续场景的集合,例如电视连续剧中的每一节节目、NBA比赛中的每一节比赛;节目(Program)是独立的完整的视频文档,通常表述一个完整的故事或事件。视频信息的这种隐含结构,可用如下的数学模型表述:

shot={frame[,i]│i>1}

scene={shot[i]│i≥1}

story_unit={scene[,i]│i≥1}

program={story_unit[,i]│i≥1}

2.2 视频索引对象的分割与选取

视频信息蕴涵着帧、镜头、场景、故事单元和节目这样的层次型结构,为了满足不同的应用需求,视频信息的索引应在各个层次上分别展开,即对视频信息的索引,不仅要以节目为对象,而且需要在视频分割的基础上以帧、镜头、场景和故事单元为对象分别进行索引。节目和帧是视频信息固有的自然层次,而镜头、场景和故事单元则要通过对视频内容的分析、采用各种算法进行分割才能得到。

(1)帧对象的选取

虽然帧是视频信息固有的自然层次,但一个视频文档由太多的帧组成(每秒25—30帧),且帧之间存在大量的信息冗余以及用户不感兴趣的帧图像,这就需要采取一定的策略进行帧的“选取”,找出一定数量的“代表帧”(也称为“关键帧”)。

目前代表帧的选取大多是在镜头分割的基础上,以镜头为单元分别进行代表帧的选取,选取算法主要是以镜头的首帧、尾帧或中间帧为代表帧。笔者认为,代表帧的选取还应考虑两个方面:一是对于不同体裁(类型)的视频,应采用不同的选取方法,且代表帧的数量也应区别对待;二是可以通过帧图像的相似性比较,对帧进行聚类,从帧数最多的类中选取代表帧(因为持续时间长的画面往往更具有代表性)。

(2)镜头分割

镜头是视频节目构成的基本单元,也是视频消费时的最小逻辑单元。一个完整的视频节目通常由若干个镜头组成,例如一部2小时的电影通常由数百个镜头组成。镜头之间的切换形式主要有突变和渐变两大类,渐变又可分为隐现(Dissolve)、淡入/淡出(Fade)和擦除(Wipe)等不同类型,文献[4] 列出了常见的10种镜头变换形式,在实际的应用中可能有上百种镜头变换效果。

采用人工方式进行视频分割是十分费时的。近十多年来,电子工程和计算机科学等领域的学者从不同的角度研究出了多种自动镜头检测的方法,其基本思想大多为比较相邻帧之间的相似性。目前镜头检测技术的方法分类主要有以下三种:

①根据所处理的视频是否为压缩数据进行分类,如文献[4] 所述,将镜头变换检测方法分为基于解压的全图像序列的识别方法、直接基于压缩视频的识别方法和基于确定变换模型的识别方法;

②根据检测的镜头变换类型进行分类,如文献[5] 所述,将镜头变换检测方法分为突变检测(Hard Cut Detection)、淡入/淡出检测(Fade Detection)和隐现检测(Dissolve Detection)等类型;

③根据检测时所采用的视频特征进行分类,可以将镜头变换检测方法分为基于亮度/颜色(Intensity/color)的检测、基于纹理(Texture)的检测、基于边缘(Edges/contours)的检测、基于运动(Motion)信息的检测,等等。

镜头突变检测的技术相对比较成熟,一般采用基于颜色直方图比较法即可得到较高的准确率。但对于形式多样的渐变切换检测,通常需要采用多种检测手段进行综合检测,这也是目前镜头检测研究的难点和热点之一。

(3)场景分割

场景是发生在某一场地或针对某一对象(或动作)的、具有相对独立的叙事情节的一个或多个连续镜头的集合。有时一个场景就是一个镜头,有时一个场景是从不同角度反映同一场地(或对象或动作)的多个镜头的组合。

目前场景分割(也可称为场景构建)一般是在镜头分割的基础上,采用镜头聚集的方式实现。文献[6] 提出了一种通过构造层次型“场景变换图”的方法实现场景分割的思路,场景变换图中的结点表示镜头、边表示变换,基于场景变换图,利用颜色的相似性计算对镜头进行层次聚类,形成的每一个子图即为一个场景;文献[7] 提出了一种在镜头分割基础上,利用运动信息(包括摄像机运动和对象运动)、镜头长度和颜色属性进行场景检测的方法。

(4)故事单元分割

在影视制作过程中,导演根据剧本的内容,按照叙述的逻辑并根据创作意图,合乎逻辑地、富有表现力地、有节奏地把镜头连接起来,构成完整的银幕形象,形成比镜头更高一级的结构——故事单元[8]。故事单元是指针对某一事件的、具有相对完整的故事情节的一个或多个连续场景(镜头)的集合。故事单元分割的基本思想也是在镜头分割的基础上,结合领域知识对镜头(或场景)进行聚类分析,图1为其基本处理流程。

附图

图1 故事单元检测处理流程

故事单元的理解主要是从语义层次上进行的,其长度(大小)并没有确切的定义和界限,需要更多地考虑视频节目的类型、体裁等领域知识。对于不同类型的视频节目,其故事单元的划分有不同的形式。例如,对于电视连续剧,可以将每一集看作一个故事单元;对于体育节目,可以根据其本身所固有的时间间隔进行分割,或根据主要事件(如得分、进球等)进行分割等。

2.3 视频索引对象的数据结构

数据模型是直接面向计算机系统(数据库)中数据的逻辑结构。在常见的数据库系统中,根据实体集之间的不同结构,通常把数据模型分为层次模型、网状模型、关系模型和面向对象模型四种。目前成熟的、主流的数据库管理系统绝大多数是采用关系模型,并在此基础上扩展了面向对象的程序设计功能。鉴于这种情况,可以考虑视频索引对象的数据结构采用如下的关系数据模式:

节目Program(节目号pNO,索引信息p)

故事单元Story Unit(节目号pNo,故事单元号uNO,索引信息u)

场景Scene(节目号pNo,故事单元号uNO,场景号eNO,索引信息e)

镜头Shot(节目号pNo,故事单元号uNO,场景号eNO,镜头号sNO,索引信息s)

代表帧KeyFrame(节目号pNo,故事单元号uNO,场景号eNO,镜头号sNO,帧号fNO,索引信息f)

在实现时,节目号由分类号和编号两部分组成,其中分类号应采用类似于中图分类号的编码体系,分类方法可参考TV-Anytime论坛制定的分类策略(SP003v13[12]);故事单元号、场景号、镜头号和帧号可采用视频片段的起止时间码(SMPTE使用的时间码格式为:<小时:分钟:秒:帧>);各索引对象的索引信息可根据后续讨论的索引模型创建。

3、视频信息的索引模型

3.1 视频信息的内容模型

视频包含有丰富的信息内容,针对同一段视频,不同的人、在不同的情形之下观看,通常有不同的感受,即使是同一个人多次观看同一段视频,往往也会有不同的感受。针对视频所包含的信息内容,许多学者从不同的学科出发,对其进行了较为深入的研究。其中,较有代表性的是文献[9] 提出的视频内容分类模型,如图2所示。

附图

图2 视频内容分类模型

该模型根据人类视觉感知和认识事物的规律,将视频内容分为三个层次:第一层(低层)为用户观看视频时首先感知的视觉信息,如颜色、纹理、形状、运动等;第二层(中间层)为通过逻辑推理而得的、基于对象(Object)的感知信息,如视频中包含(描述)的人物、地点、时间等;第三层(高层)为通过智能推理而得的、基于知识(Knowledge)的感知信息,它反映了视频本身的语义,以及由此而来的感受,如某视频片段为暴力镜头、欢庆场景、劫机事件等等。这种视频内容建模方式为基于内容的视频信息索引提供了有益的指导。

3.2 视频信息的描述需求与索引模型

视频信息内涵的丰富性、用户检索需求的多样性,决定了在对视频信息进行索引时,应尽可能地从各个层次和侧面进行全方位的描述。根据MPEG-7的目标要求[10],对视频信息的描述至少应包括如下的信息:

(1)有关内容的产生和发展进程的描述信息(如导演/作者、标题、版本等);

(2)与内容使用有关的信息(如版权、使用历程、宣传计划等);

(3)有关内容存储特性的信息(如存储格式、编码等);

(4)有关内容的低层特性的信息(如颜色、纹理、音质、音调描述等);

(5)从内容捕捉到的实体的概念化信息(如对象和事件,对象间的交互作用等);

(6)利于浏览视频内容的信息(如概要、变更、空间和频率等);

(7)关于用户和内容交互作用的信息(如用户选择、使用历史等)。

根据MPEG-7提出的描述要求及视频内容分类模型,可以考虑采用如图3所示的视频索引模型。

附图

图3 视频信息的索引模型

在该索引模型中,视频信息的索引分为外部信息索引和基于内容的索引。

外部信息索引是指基于视频文档外部的、不依赖于其内容的信息索引,用于视频文档的标识和检索,如标题、作者、时间、文档大小、存储格式与编码格式、使用信息(软硬件要求、使用要求、版权等)等等。

基于内容的索引又可以分为结构索引、低层特征索引、中间层对象索引和高层语义索引,后三种索引与图2所示的视频内容模型相对应。结构索引是指节目、场景、镜头、帧之间的层次结构与关系等;低层特征索引是基于视频信息的物理特征信息(如颜色、纹理、运动、音质、音调等)进行索引;中间层的索引是对视频中可识别对象(如时间、地点、人物等)的索引;高层语义索引用于描述视频中包含的事件及相关的感受。

3.3 视频对象与索引类型的关系

不同(层次)的视频对象对应着不同的索引,其对应关系如表1所示。

帧的索引包含低层特征索引、中间层对象索引和高层语义索引。其中,低层特征可以自动地提取,中间层对象可以采用人工或半自动化(基于图像识别技术)的方式进行标引,高层语义可以采用人工输入方式进行标引。

表1 视频对象与索引类型

索引

 外部信息

结构索引 低层特征 中间层对象 高层语义

对象索引 索引

 索引索引

(代表帧)√√ √

镜头√ √

场景

 √

故事单元 √

节目√

镜头的索引主要是中间层对象索引和高层语义索引。其中,镜头的中间层对象描述是在帧的中间层对象描述基础上进行扩充,高层语义可以采用人工输入与自动提取(主要是指利用语音识别与文字识别等技术直接从视频信息中提取)相结合的方式生成。

场景和故事单元的索引主要有结构索引和高层语义索引。其结构索引用于描述镜头之间的关系,高层语义索引描述的是在镜头语义基础上形成的叙事(故事)情节。

节目的索引包含外部信息索引、结构索引和高层语义索引。

3.4 索引类型与检索方式的关系

视频信息的检索主要有三种类型,即结合在线相关反馈机制的基于示例的检索(Query-by-Example)、基于关键词检索(Query-by-Keyword)和基于导航机制的视频浏览(Video Browsing),它们与索引类型的对应关系如表2所示。

表2 检索方式与索引类型

 索引

 外部信息  结构索引 低层特征 中间层对 高层语义

 索引 索引

象索引

索引

示例的检索 √√

关键词检索

 √

  √

视频浏览 √

4、存在的问题及探讨

面对急剧增长的视频信息,如何高效且合理地对其进行索引是视频信息重用和消费的基础。虽然近年来的研究已取得不少的进展,但仍然存在许多有待解决的问题。有些问题是属于“技术”层面的,如视频分割、代表帧提取、图像理解、文字识别、语音识别等,有些问题是属于“非技术”层面的,如视频元数据标准、文本描述的规范性、视频作品的规范化等。下面就一些“非技术性”问题进行探讨。

4.1 视频信息的元数据标准

信息的索引描述是信息的元数据,索引项的确立依赖于元数据标准的制定。针对不同的资源类型、不同的用途、不同的机构建立了多种不同的元数据标准。随着数字视频技术的发展,针对数字视频信息的元数据研究也在不断地深入,并已出现了一些基于不同目标的元数据模式或标准,如数字电视元数据标准(DVB-SI、TV-Anytime和SMPTE等)、视频软硬件厂商推出的元数据标准(Apple公司的QuickTime、Microsoft公司的Windows Media等)以及MPEG-7等[11]。

由于视频信息本身固有的复杂性,使得视频信息在创建、存储、传输和使用等过程中需要不同的管理信息(元数据)。笔者认为,根据视频元数据的发展现状,在研究和制定元数据标准时应注意三点:一是这些元数据标准应整合在统一的框架之内,在统一的视频元数据框架基础上形成面向不同应用的子集;二是视频元数据标准应适应MPEG制定的“多媒体描述框架”——MPEG-7标准;三是采用通用的XML语言语法。

4.2 文本索引信息的规范性

虽然基于示例的视频检索是最简便的检索手段,但用户往往不会有现成的示例,且目前现有技术很难高效地为普通用户提供一个初始查询示例。目前来看,利用文本信息对视频信息进行索引(即基于关键字的视频检索),既符合一般用户的检索习惯,又可借助日趋成熟的文本检索技术。文献[3] 较为深入地探讨了基于文本信息的视频索引及其相关技术,特别是文本信息获取的途径。

在采用文本信息对视频信息进行索引(包含外部信息索引、中间层对象索引和语义索引)时,无论这些文本信息是人工输入的,还是自动提取或生成的,均需要考虑文本描述的规范性,即如何对视频信息的某种特征和属性(如视频节目的类型、流派等)进行表述。对此应从两个方面进行研究并制定相关的标准:一是对于一些可面向所有视频文档的通用属性, 应建立相关的分类标准和词汇表,目前TV-Anytime论坛在这方面已做出了开创性工作,在其已制定的元数据规范(SP003v13 )中已经定义了一个独特的文档结构来综合节目描述、用户描述、分类策略[12];二是对于特定类型的视频节目(如各种体育比赛),应建立相关的对象、事件描述标准和词汇表。

4.3 视频文档的规范化

目前文本文档的论文格式规范和著录标准(例如章节、标题的格式,每一篇论文均需要给出标题、作者、摘要、关键词,等等),为文本文档的管理、索引、检索和浏览等带来了极大的便利。

对于视频作品(文档)来说,也应该且急需制定出相应的视频文档规范,这包括两个方面:一是规定视频作品必须有著录标准,应能提供相应的视频摘要(文本的、图像的、视频的)、关键词(关键帧)等元数据,作者和相关的制作人员对作品的理解最深、主题把握最准,由这些人员给出的相关信息(元数据)显然是最为有效的视频索引信息;二是应制定视频文档的格式规范,也能像文本文档一样提供结构化的信息,包括视频的组织、结构层次等信息。要解决视频文档的规范化问题,需要从两个方面努力:一是各种规范和标准;二是开发相应的视频“写作”工具。

5、结语

随着计算机处理能力、网络带宽和多媒体技术的发展,视频信息越来越成为人们消费信息资源的主要形式之一。如何高效且合理地对视频信息进行分析、组织和索引,以便于检索和重用,需要多个学科人员的共同努力。目前的研究大多集中在对现有视频信息进行分析与处理,以解决现有视频信息的利用等问题上。笔者认为,未来视频信息的增长将会越来越快,对于视频信息组织与管理的研究,更需要重视新视频标准的制定,即尽快制定出全新的、便于管理和使用的视频文档格式和制作规范,从根本上解决视频信息的“无结构”问题,并为视频索引和检索提供有用的信息。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

数字视频信息索引研究_标准镜头论文
下载Doc文档

猜你喜欢