国外音视频元数据研究综述_元数据论文

国外视音频元数据研究综述,本文主要内容关键词为:国外论文,视音频论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

20世纪90年代中期,都柏林核心(Dublin Core,DC)[1] 的出现将元数据及与之相关的研究隆重推上了历史的舞台。十余年来,研究人员在不同的信息领域中展开了元数据的研发工作。在视音频信息领域,国外一批项目已各自开发出相对成型的视音频元数据方案,并将其应用到具体的实践之中。现着重介绍以下4种国外具有代表性的视音频元数据方案。

1 基于MARC的《数字动态图像元数据指南》

在DC出现之前,MARC在图书档案界长期居于主导地位。即使在当前,国内外很多图书馆和档案馆仍在用MARC描述视音频资源。《数字动态图像元数据指南》[2] 是美国国防虚拟图书馆(the Defense Virtual Library,简称DVL)项目的研究成果之一。DVL项目是美国国防科技信息中心发起,美国国防高级研究计划局和美国国家研究促进机构共同参与的实验型数字图书馆项目。在DVL原型系统中包括了技术报告、来自Trinity项目的静态图像、音频资源(包括军乐队的音乐和访谈录)以及来自DTIC馆藏和卡耐基梅隆大学Informedia数字视频图书馆的动态图像四种不同的数字馆藏。其中动态图像的格式包括MPEG Video(.mpg,包括MPEG-1和MPEG-QSIF两种格式)和Real Video(.rm,根据每秒数据率(单位:千比特每秒)分为256K和56K两种格式)。目前压缩比最小的MPEG-1格式被用作该项目中动态图像长期保存的格式。

为数字资源设计支持长期管理的元数据方案是DVL项目的重要目标之一。为了实现这个目标,DVL项目组先后根据AACR2和MARC格式为静态图像、音频资源、动态图像资源和复杂数字资源设计了元数据方案。其中《数字动态图像元数据指南》主要参考《书目数据MARC21格式》,其第一版在2000年10月11日设计完成。2001年6月19日,DVL项目组又发布了修订版。由于当时在DVL的馆藏中还不包括那些生来就是数字格式的资源,因此该指南只讨论由录像带数字化而成的动态图像资源的编目问题,同时该编目方法也适用于非数字格式的动态图像。《数字动态图像元数据指南》依次介绍了MARC21的头标区、001至985约七十个字段在描述动态图像中的用法、子字段、标识符和编目实例[3]。表1和表2列出了该指南中录像带和动态图像的物理描述启用MARC21的007固定长字段的详细信息。

《数字动态图像元数据指南》主要用于描述单个的资源,但也有一些用于描述视频资源集合的字段。该《指南》规定主题词可取自《国会图书馆主题标目》、《图像资源词表》、《艺术和建筑词表》或《国防科技信息中心词表》。此外,要求主要款目和附加款目中的名称符合国会图书馆名称规范文档。Minaret软件被选为DVL的编目工具。此外,DVL工作人员还会为每个数字化的视频资源生成一个很短的剪辑片段,作为该资源的视频元数据提供给用户,使用户在确定下载或播放前可以得到较完整、直观的信息。但MARC21的局限性导致《数字动态图像元数据指南》并不能涵盖那些和数字资源的管理相关的技术元数据,因此该项目组又根据OAIS参考模型设计了《数字资源长期管理技术元数据》[4],本文限于篇幅不再赘述。

2 基于DC的《ViDe用户指南》

《ViDe用户指南:面向数字视频的都柏林核心应用文档》[5] 是“视频开发计划”(Video Development Initiative,简称ViDe)视频存取工作组的主要研究成果之一。ViDe是一个致力于推动数字视频在教育和研究领域中应用的国际合作项目。该项目的目标是通过知识共享、合作项目和产品开发,推动数字视频在科研和高等教育中的使用,最终将数字视音频信息资源整合到大学教育的各个环节中,如课堂讲授、研究论文、合作项目以及期末考试前的复习等。目前列入该项目研究成员名单的有来自美国、加拿大、英国、荷兰、意大利、巴西、泰国等国的数十个机构的一百多名专家和学者。

ViDe项目的描述对象是数字视频(digital video),其“最简单的定义是用来存储、传播和显示的,用数字比特表示或编码的模拟视频信号”[6]。为了促进数字视频资源的共享和利用,为Video-on-Demand等服务做好准备,视频存取工作组于2001年7月在都柏林核心集的基础上进行了扩展,形成了《ViDe用户指南:面向数字视频的都柏林核心应用文档》,同年9月又对其进行了修正。在DC的15个元素中,该指南启用了除来源(Source)之外的其他14个元素,并扩展了一个新的元素“元元数据”(Meta metadata)和七个修饰词。所有被启用的DC元素、ViDe修饰词及其扩展都用英文表示,其数据类型均为字符串型。

《ViDe用户指南:面向数字视频的都柏林核心应用文档》依次对各个元素的定义、用法、注释、DC修饰词、ViDe修饰词、讨论、实例、XML/RDF实例、与MARC字段的匹配、使用状态、最大出现次数等作出了规定,参见表3。此外,该指南还为描述(Description)元素扩展了一个修饰词类型(Genre)并提供了艺术作品(视频艺术)、课堂讲学、舞蹈表演、示范、诊断或外科手术过程、视频会议、虚拟漫游等28种可选类型。如果没有合适的类型,还可以新增。这些资源类型和ViDe项目的目标——为科研和教育服务是一致的。

《ViDe用户指南》明确指出其他责任者(Contributor)元素可无限次地使用。如果需要提供email地址,邮寄地址,电话号码,URL等具体信息,那么,其他责任者(Contributor)元素和创建者(Creator)元素都可以按该指南推荐的vCard格式进行扩展。该指南推荐在格式(Format)元素的DCMI修饰词“Extent”中,尽可能为数字视频提供时长、每秒帧数、数据速率(单位:千字节每秒)、声音、颜色、文件大小(单位:MG或GB)等信息。由于每种MPEG压缩格式都对应和最终用户直接相关的编码和播放要求,因此该指南对格式(Format)元素的DCMI修饰词“Medium”可以的选择子类型进行了扩展,扩展后的子类型包括如下14种:application/vnd.quicktimeVR、application/vnd.flash、audio/mpeg1、audio/mpeg2、audio,/mpeg4、audio/mp3、audio/vnd.real、audio/wav、video/avi、video/mpeg1、video/mpeg2、video/mpeg4、video/quicktime和video/vnd。此外,标识符(Identifier)元素可以选择的Scheme包括URL、URN、ISBN、ISSN、Accession No.和Call No.等等。通过关联(Relation)元素连接的资源,还可以用题名(Title)元素、标识符(Identifier)元素和格式(Format)元素(包括修饰词Medium和Extent)来描述。

《ViDe用户指南》中新增的“元元数据”(Meta metadata)元素是关于元数据的产生和使用的数据。目前,该元素包括ItemID(文件号)、CollectionID(馆藏号)、ArchiveID(档案号)、DMDID(元数据记录号)、DMDCreator(元数据记录创建)、DCVersionURI(都柏林核心版本URI)、DCQualURI(都柏林核心修饰词版本URI)、ViDeVersionURI(ViDe版本URI)、AMDID(管理元数据记录号)、DMDCreationDate(元数据记录创建日期)、DMDModificationDate(元数据记录修正日期)、DMDDeletionDate(元数据记录删除日期)这几个子元素,其中rchiveID、DMDID、DMDCreationDate、DMDModificationDate和DMDDeletionDate可以更有效地满足符合OAI协议的应用程序的需要。

3 同时支持MPEG-7和DC的《MIC核心数据元素表》

《MIC核心数据元素表》[7] 是“视音频信息资源收藏”项目(Moving Images Collections,简称MIC)中用来描述所收集的视音频信息资源的元数据方案。MIC项目的思想源自1994年美国国会图书馆出版的国家电影保存计划《重新定义电影保存》和《电视和电影保存计划1997》。该项目作为国家科学数字图书馆项目(National Science Digital Library,NSDL)的一部分,获得了美国自然科学基金大约900,000美元的资助以建立一个电影、电视和数字视频图像的在线目录。这是美国第一个从各种机构收集视音频信息资源的编目记录,并将其整合到一个可以通过Internet访问的在线目录的项目。

MIC意识到社会只重视那些可以被公众理解和利用的资源,同时只有那些受到重视的资源才会被保存,因此,MIC把自己的使命定为将视音频信息资源推入教育主流。MIC门户网站的目标就是向教育工作者、研究人员、展出者和普通大众提供一扇通往全世界的视音频信息资源的窗户,同时使得保存专家可以合作描述和维护这一类独特的文化资源,从而避免昂贵的重复劳动。视音频信息资源的特殊性使得MIC制定了另外一个重要的目标,即为其设计灵活、标准的元数据方案,并通过该方案将视音频信息资源整合到主流信息资源中。

MIC通过联合目录(the MIC Union Catalog)和档案名录(MIC Archive Directory)将单个视音频信息资源的信息和其收藏机构的信息整合在一起并提供给用户。这两部分均有专门的元数据方案,即:《MIC核心数据元素表》和名录数据库的《LDAP核心数据元素表》[8]。《LDAP数据元素表》主要用来描述收藏机构的相关信息,用户可以通过“Archive Explore”进行检索。此处主要介绍《MIC核心数据元素表》。

根据2004年修订的《MIC核心数据元素表》,该元数据集共包括49个元素,由于本文的篇幅有限,此处仅列出《MIC核心数据元素表》中的元素名称,即:MicUCRecordID、OrgID、OrgName、LocalBibID、PersonalEntity、PersonalEntityName、PersonalEntityRole、CorporateEntity、CorporateEntityName、CorporateEntityRole、UnspecifiedEntity、UnspecifiedEntityName、UnspecifiedEntityRole、UniformTitle、MainTitle、AlternativeTitle、RelatedTitle、ComponentTitle、SeriesTitle、Date、OriginLocation、Duration、MediaProfile、Type、CopyType、CarrierType、CarrierExtent、CarrierNote、PhysicalChar、MediaSystem、MediaCodingFormat、Note、Contents、Summary、CreditNote、ParticipantNote、AccessRights、Language、LanguageNote、Version、Subject、Genre、Audience、CollectionID、CopyLocator、DigitalObjectLocator、Classification、PortalID、MICUCUUID。元素的具体定义、数据类型、可重复性等内容请参见《MIC核心数据元素表》[7]。

MIC联合目录可以处理的输入和输出格式包括MARC、MPEG-7和Dublin Core,这些不同的数据首先需和《MIC核心数据元素表》进行转换,进入MIC联合目录数据库后则可以按MIC元数据、XML格式的MIC元数据。MARC21、MPEG7和Dublin Core等格式显示或输出(见图1)。在MIC项目的二期计划中还将加入MODS(Metadata Object Description Schema)。该方案使得用户通过统一界面检索不同机构的馆藏信息成为可能。

图1 MIC元数据映射原理①

作为MIC项目的一部分,在MIC项目网站上还可免费下载基于Microsoft Access2000、由ViDe和MIC合作开发的、可同时支持MPEG-7和Dublin Core的编目工具(参见图2和图3)。值得注意的是MIC只支持简单的MPEG-7数据,其描述主要仍针对单个视音频资源,尚不能深入揭示视音频资源的片段、场景及镜头等。

图2 MIC编目工具——MPEG-7界面

图3 MIC编目工具——元元数据界面

另外值得一提的是在2004年结束的MIC评估项目中,《MIC核心数据元素表》和《LDAP核心数据元素表》也被进行了评估。评估报告[9] 指出这两个元数据方案在寻找视音频资源方面的设计比较完备。然而,用户还希望得到更多的信息,如物理特征描述、服务费用、服务响应时间、馆藏信息的时效性及可视化信息等。该评估报告还总结了用户为4个评估任务分别选出的10个最有用的元数据元素。

4 视频元数据和文本元数据并重的开放式数字视频图书馆元数据方案

开放式数字视频图书馆项目(Open Video Digital Library,简称OVDL)[10] 由美国北卡莱罗纳大学信息和图书馆学院的交互式设计实验室发起和开发。该项目的研究重点是创建和评估面向数字视频的、高度互操作的用户界面。主要是满足研究人员、教育工作者、多媒体艺术家、学生、需求娱乐的普通网络用户对数字视频内容的需求。其主要目标包括信息检索界面和数字图书馆相关研究,开发和管理一个大众可访问的数字视频图书馆等。

OVDL视频馆藏来自很多途径,尤其是像美国记录和档案管理局、NASA等美国政府机关,其原始格式包括Beta SP、VHS、PAL磁带、CD-ROM、DVD以及基于网络的数字文件等。OVDL工作人员会将各种原始格式的视音频资源数字化并保存为各种压缩格式(包括MPEG-1,MPEG-2,MPEG-4,QuickTime和Real player),以满足不同用户的需求。在该项目早期,工作人员还会根据内容用Apple Final Cut Pro将数字化之后的长视音频资源手工切分为数个易于下载的片段。

由于OVDL项目组认识到了元数据在有效地检索和描述视频资源方面的重要作用,故很早就开始自行设计元数据方案。2000年OVDL研究人员在一篇文章[11] 中推荐保存到数字视频图书馆数据库中的属性包括来源视频属性、数字化视频属性和替代物属性三大类(见表4)。两年之后,该项目组在另一篇论文[12] 中介绍了基于MPEG-7的元数据方案(见表5)。

但由于种种原因,上述方案并未完全实行,至今OVDL中的元数据只包括了高层书目信息中的文本元数据和视频元数据。其中的文本元数据主要由工作人员生成和完善(一些组织贡献的视音频资源可能包括简单的元数据)。

除了传统的文本元数据,OVDL还参考卡内基梅隆大学的Informedia项目在视频元数据自动生成方面的研究,在视频元数据(视频替代物)方面做了一系列的研究。目前可提供的视频元数据包括招贴帧、故事板、快进和7秒钟预览剪辑片段。这些视频元数据可以有效地帮助用户浏览和选择需要的视频信息。一些软件工具(如马里兰大学开发的MERIT,OVDL自行开发的视频注释和摘要工具VAST[13])已被用于辅助生成上述视频元数据。更多基于语音识别和图像处理的视频元数据和音频元数据(音频替代物)亦在OVDL的研究计划之中[14]。此外,OVDL的馆藏还可通过OAI元数据收集协议支持多界面访问。

目前尚未公开发表过的开放式数字视频图书馆编目工具项目[15] 的元数据方案[16] 对已有的OVDL文本元数据方案进行了补充和完善。该方案包括如下元素:Title、Alternative Title、Series Title、Agent Name、Agent Type、Agent Role Type、Agent Role Title、Chapter/Scene Name、Chapter/Scene Time、Abstract/Summary、Sentence Summary、Transcript、 Subject、Classification、Spatial/Geographic Coverage、Temporal/Time Period Coverage、Creation/Production Credits、Participant/Performer Note、Note、Preservation Note、User Annotation、Type、Form/Genre、Language、Language Note、Color、Sound、Duration、Date、Date Type、Collection Name、Donor/Contributor Name、Local System Record ID、Related Video、Video Relation Type、Rights Statement、Rights License、 Permissions Language、Access Controls(包括Restricted Access(Y/N)、Restriction Type/Action、Delivery Controls),File Description(包括File Relation Type、 File Name、File Description)、File Specifications(包括File Locator、File Size、File Format、Digitization Date)以及Custom Elements。该方案分别对每个元素是否必备、可重复性和依赖性进行了说明,并提供了与DC、MODS、MARC和MIC元数据进行映射的信息和编目实例。

OVDL编目工具项目将以这一元数据方案为基础,在其他早期研究(如视频索引和可视化组织工具VIVO[17] 和上面提及的VAST)的基础上开发可以免费共享的开放式数字视频图书馆编目工具。

5 结语

除了上述4种代表性元数据方案,国内近年来也产生了一些相关的研究成果,如北京大学信息管理系韩圣龙博士在其博士论文《信息组织与基于旋律的数字音频音乐信息自动分析技术研究》[18] 中的研究,我国广播电影电视部2003年出台的《广播电视音像资料编目规范》[19],以及国家社科基金项目“视音频信息元数据与检索创新研究”课题组设计的《视音频信息元数据规范》[20] 等。其中《广播电视音像资料编目规范》明显带有MPEG-7和DC的痕迹,该规范按节目层、片段层、场景层、镜头层将视音频信息资源的编目对象分为四个层次,并分别为每一层设置了不同的著录元素和子元素。

从国内外视音频元数据领域的研究不难看出,与以简单DC为代表的通用元数据相比,视音频信息资源自身的特殊性必然导致视音频元数据在功能需求、元素设置等方面独具特色,具体表现如下:(1)视音频元数据需要更多的元素和(或)修饰词来加强其描述能力。比如,对责任者和责任方式的处理。又如,录像带的物理特征应包括时长、制式、画面纵横比、声道数等信息。(2)视音频资源中包括来自多途径的信息(包括字幕、图像和声音),因此视音频元数据除了包括传统的文本元数据,也应包括视频元数据和音频元数据以有效地辅助用户高效浏览和选择所需的信息。(3)为了满足一些专业用户深层次的检索需求,视音频元数据需要从视音频信息资源的片段层、镜头层的角度揭示更为深入的信息内容。

此外,在国内外同行的研究中,元数据共享及互操作已成为元数据研究的共同趋势。在元数据方案设计阶段即开始相关的考虑,不仅可以避免将来实践中大量编目数据难以导入和导出的问题,而且可以更多地借鉴其他项目的研究成果,促进元数据研究方面的合作和交流。

本文作者衷心感谢OVDL项目组成员Gary Geisler博士和Xiangming Mu博士热心提供关于该项目的最新信息并解答相关的问题。感谢北京大学信息管理系段明莲教授在二位作者硕士学习、研究阶段的谆谆教诲。

注释:

①http://mic.imtc.gatech.edu/union_catalog_1/diagramtwothree.htm

标签:;  ;  

国外音视频元数据研究综述_元数据论文
下载Doc文档

猜你喜欢