试析音像资料数据的信息生命周期,本文主要内容关键词为:生命周期论文,音像论文,数据论文,资料论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
作为中央人民广播电台的资料管理部门,中央台资料馆积累了大量的珍贵音像资料,这些资料包括早期录制的曲艺节目、专题报道、各类重要会议录音等等,近些年通过抢救工程逐步将这些珍贵的音像资料进行数字化保存。与此同时资料馆通过自建和购买,又收藏了大量基于不同存储格式的新的数字化音视频数据,随着时间的延续这些资料的保存价值和重要性也突显出来。由于时间的推移,这些资料越来越多,数据存储量越来越大,管理和使用也越来越复杂。而且这些数据的保存还要面临一些“隐患”,“隐患”主要来自于存储介质的容量不足、存储介质的更新换代或者硬件老化,还有来自于数据管理过程中的元数据失效与管理软件的过时。所以我们就需要从更加科学的角度去思考音像资料数据的管理过程,而信息生命周期的理论则提供了一种新的角度去思考这样一个管理过程。
1 信息生命周期的概念
信息也是一种具有生命周期的资源,其利用价值也会随着在生命周期中所处的阶段的不同而起落,从它产生到收集、复制、标引、存储、访问、迁移一直到被删除。信息生命周期(ILC)是指信息运动的自然规律,它一般由信息需求的确定以及信息资源的生产、采集、传播、处理、存储和利用等阶段所组成。
信息生命周期管理(ILM)并不是一门技术,ILM是一种决定了数据如何根据环境需要流动的步骤和技术的结合。信息生命周期这个概念是从2003年开始在信息存储技术领域被人们所关注,随着业界巨头EMC的大力推广,“信息生命周期管理”逐步成为信息存储领域中出现最为频繁的名词。其实信息生命周期进入人们的视野,更早应是源于ISO/TC171文件成像应用技术委员会在2000年10月12日召开的伦敦年会。那次会议通过的405号决议建议将委员会名称改为“信息生命周期管理”技术委员会。405号决议称“信息无论是以物理的形式还是以电子的形式管理,该信息生命周期包括信息的生成、获取、标引、存储、检索、分发、呈现、迁移、交换、保护与最后处置或废弃”。
有人认为信息生命周期概念的提出,只是存储厂商为了推广软件提出的一个噱头,也有人认为信息生命周期概念太过于宽泛,无法准确定义。但我认为这一概念的提出,将有助于我们更好地管理信息,充分发挥信息的利用价值,节约管理成本。我们可以把数据理解成一个人,这个人将要从少年走向成年,最后直到老年,那么在他生命的不同阶段所能发挥的能力也不相同,数据也是一样。一条数据将经历从创建与修改、复制与分类、保护和恢复、归档与召回,最终被删除这样一个生命周期。处于不同阶段的数据重要性不同,因而价值也不同,存储和保护这些数据的手段和方法也不同。对信息进行贯穿其整个生命周期的管理需要相应的策略和技术实现手段。信息生命周期管理的目的在于,根据需要采取适当的手段,将数据在正确的时间存储在正确的设备上,从而保证数据的动态迁移,帮助用户在信息生命的各个阶段以最低的整体拥有成本获得最大的价值。
2 音像资料信息生命周期的特点
音像资料是用来记录声音和图像的资料,在它的信息生命周期中处处体现出独特的属性。在国务院颁布音像资料管理规定中,音像资料是指各种具有保存和参考价值的磁带、唱片、光盘、磁盘等视听载体。
2.1 音像资料存储容量非常巨大,增长速度惊人
传统的模拟信号保存方式寿命有限,尤其对于使用频率较高的音像资料,其利用价值与保存寿命成反比。这一事实是被媒体资料管理部门所公认的。随着信息技术的发展,数字化的音像资料保存与文字信息存储相比较,音像资料的存储量更为巨大。但是每年的数据增长都以T为计算单位,所以存储这些音像资料的服务器要求具有海量的存储空间。由于受技术发展和经费的限制,数据多数是直接存储在服务器上,而不是利用磁盘阵列,而服务器扩展空间都是十分有限的,所以往往出现要用多台服务器存储同一系统的大量音视频数据。而利用频率高、使用价值高的音像资料并不会被读者很容易查找到,随着存储量的增加,大量有价值的音像资料会被湮没于无价值的音像资料之中。所以在音像资料的信息生命周期的管理过程中,必须考虑存储容量这个重要因素。
2.2 格式多样性
目前对于音视频资料的保存,主流使用格式是mpesII。而实际上音视频格式多种多样,包括以模拟信号保存的磁带、光盘,或者保存在存储器上的wav、dat、WMV等等。音视频编码技术的发展造成保存格式多样,由于早期保存音视频资料的格式可能不成熟,所以有些资料在迁移到新的存储系统时,很多损失都已造成。随着技术的不断发展,音像资料的编码方式和存储格式都会继续发展,对于需要存储的音视频素材,在选择存储格式时,应综合考虑过去、现在和将来已经使用或将要使用的格式,选择高质量、高效率、便于再利用的方式存储各种不同类型数据。
2.3 音像资料的标引工作非常复杂
音像资料的标引工作是否完善和准确将直接影响这些音像资料的利用价值。基于内容的音像资料的自动化标引工作技术难度很大,目前还只能通过标引人员浏览低码率的视音频数据进行著录标引工作。编目审核人员对已经完成的编目元数据进行内容检验,并生成最终元数据信息。而且音像资料的内容标引需要标引员有较强的专业知识,准确的内容标引将会很大程度上提高音像资料的使用价值。
2.4 音像资料的检索和使用受到技术条件限制
现在的音像资料检索系统多是以检索词和分类为检索途径,你可以查找某个歌手演唱过的所有歌曲和MV,你可以查找原生态演唱的所有曲目,你可以查找某年某月的电视节目或某个影片,但是如果你想查找曾出现过某个人的所有镜头,或者曲目中出现某一音效的音带就是一件非常困难的事了。比如在20世纪50年代曾录制过不少梅兰芳的曲段或者采访片断,就是因为分散到了大量音带中,而无法完全查找出来,致使一些价值非常高的有关梅兰芳的音像资料无法使用。由于有用的节目片断是在录像带的任意位置,为了找到这个片断,经常需要反复查找、比较之后才能找到有用的片断,致使找到这个片断所需要的时间往往是原节目总长度的1.5-2倍。原因就是因为对于音像资料的标引信息并不能全面地反映音像资料所含信息。所以现在一般音像资料的管理系统会通过查询检索系统提供给用户用于浏览和检索那些经过编目加工的元数据和低码率视音频资料。用户能够使用检索工作站连接高速以太网络,方便地访问系统提供的元数据和主流媒体音像资料。用户通过浏览数据内容、关键帧数据和编目信息来选择自己所需要的内容,选定后可以通过检索浏览页面并向系统发出视听看高质量视音频数据请求或者下载获取高码率数据的请求。
音像资料具有信息量大和多样性特点,所以从这些信息中快速获取对自己有用的内容并不是件容易的事。我们有必要建立一种好的编目体制对音像资料数据进行标引,以方便数据的检索和查询,从而实现数据的有效再利用,这事实上也是音像资料信息生命周期管理价值的体现。目前我们资料馆编目工作的著录标准是根据国家广电总局制定的《中国广播电视音像资料编目规范》,此规范可完成基于节目层、片断层、场景层和镜头层的多层次灵活编目,这套规范有广泛的适应性和灵活性。在编目过程中也可以添加与节目对象有关的文档、图片、日期、编录等,附体编目模块设计上要对数据结构进行优化,才能大幅度提高检索系统的效率。
2.5 音像资料迁移和归档
音像资料的迁移和归档过程也体现出其数据的独特性。音像资料的存储硬件设备和软件往往会受到技术条件的限制出现不兼容的情况,另外由于音像资料的存储量巨大,所以其迁移和归档过程工作量也非常巨大,很容易出现数据损失的情况。数据迁移和归档后元数据标准如何统一也是个问题。
3 利用音像资料信息生命周期的特点加强音像资料的管理
首先对于音像资料的信息生命周期管理应该是建立在自动化网络存储(ANS)的基础之上。自动化网络存储(ANS)包含三个层次:第一层是存储。强壮和高性能的存储平台是自动化网络存储的坚实基础。第二层是网络。网络连接增强了存储的连接能力,使存储能够成为真正的信息平台。第三层是自动化。自动化是由软件实现,存储管理软件的作用是确保所有存储网络中的组件无缝地共同协作。使信息的管理、共享、保护、备份、恢复、复制等功能用自动化的方式实现。
3.1 数据创建阶段
随着信息技术的不断发展和普及,音像资料的采集和创建技术也在快速更新,所产生的数据需要稳定、可靠、扩展能力强的存储环境以利于及时的处理、管理和保护。不同价值的音像资料数据,需要不同容量、功能和价格的存储系统,以满足合理的管理成本。因此所有数据在创建时都应当获得一个由数据的类型、价值和相关法规的要求决定的分级体制。系统将定期对音像资料数据进行价值评估。信息生命周期管理就是要根据应用的要求、数据提供的时间及数据和信息服务的等级,提供相适应的数据产生、存储,管理等条件,以保障数据的及时供应。
3.2 数据保护阶段
音像资料是媒体部门拥有的最重要的资产。对于音像资料安全保护如果单一的采用备份机制来解决,往往会投入大量的金钱和精力。信息生命周期管理就是要求按照音像资料数据的价值和应用系统的等级,采用不同的数据保护措施和技术,以保证各类数据和信息得到及时有效的保护。这种解决方案是一系列技术和流程的组合:备份、远程复制和其它数据保护技术,它们需要与一组流程和步骤组合,确保及时的恢复。
3.3 数据访问阶段
利用信息生命周期管理的主要目标是确保音像资料可以支持编播业务和为广播电台和电视台提供长期的使用。因此,信息必须根据访问频率的不同提供不同的访问方式。一般情况下,音像资料数据的访问频率有以下三种:每天都需要访问的数据、需要随时访问但访问频率和访问速度要求不高的数据以及偶尔需要查询或访问的数据。根据访问频率的不同,存储方式分为在线、近线和离线三种。
(1)在线存储系统(磁盘阵列)。在线存储之所以非常重要,是因为它可以在网络中提供对信息的即时访问,在线存储为访问系统提供日常业务处理所需要的数据和信息。因而,在线存储要求高的性能、大的容量、高的扩充能力,以保证访问系统的快速处理。
(2)近线存储系统(数据流磁带库)。需要定期但访问频率和访问速度要求不高的数据应当以近线方式保存。通过这种方式,可以实现较为及时并且成本较低的数据访问。近线存储设备的价格比在线存储要低,而且数据访问的速度慢一些。
(3)离线存储系统(库房磁带架群)。对那些访问速度要求不高,存放的时间较长,访问的频率更低的数据,可以将其存放在价格更低的存储介质和设备上,当数据需要被访问时,才将其恢复到在线存储设备中。使音像资料数据存储的成本进一步降低。
3.4 数据迁移阶段
信息技术发展是如此快速,音像资料数据增长如此迅猛,以至存储设备在比较短的时期内就要实现一定程度上的更新。过去,通常是手动将数据迁移到新的存储系统,其过程复杂而且迁移时间漫长,经常影响音像资料数据的正常使用。而信息生命周期管理(ILM)考虑到这一问题,采用必要的技术加以配合,使数据的迁移简单、自动化而且不影响数据正常访问。
3.5 数据归档阶段
维持一个数据备份和归档系统可以从多个方面支持音像资料信息生命周期管理。它可以提供检索和使用记录,以及关于被访问时的周边环境的所有信息。它可以防止这些记录被无意破坏。它能确保那些仍然对于某一特定条件下具有一定作用的数据可以得到妥善的保存,即使在很长一段时间内不再被访问或者使用,也不能否认这些音像资料的历史价值。数据备份归档是音像资料信息生命周期管理的重要组成部分。由于对备份数据访问的频率和速度要求不是很高,所以价格低、容量大的存储介质和系统成为最佳选择。
3.6 数据回收(销毁)阶段
对于绝大部分音像资料来说,很少销毁或者删除。但也难免会有些数据在生成一段时期后,没有再继续保存的价值。这时,我们必须要制定相关的策略,对没有保存必要的数据进行销毁或回收。被销毁或回收的数据将从活动存储和非活动存储系统中清除。当然不能轻率地进行这样的销毁操作,所以我们应当建立科学的和明确的数据回收(销毁)规则。
4 选择ILM硬件、软件和分级策略方面的要求
从信息存储的角度看,整个信息生命周期管理涉及信息存储的各项技术。包括网络存储平台,存储基础设施软件,信息复制、备份和恢复软件,基于策略的存储管理软件,以及存储和数据优化服务等。下面是对这些技术的基本要求:
信息管理软件:根据音像资料的元数据标准和《中国广播电视音像资料编目规范》,开发一种针对音像资料的创建和保存,以及智能管理信息的移动、存放、分类和处理的信息管理软件。
基础设施软件:提取存储基础设施的底层组件,实现对应用透明的信息移动、设备故障恢复和工作负载平衡。
网络存储平台:多种网络分级存储平台让用户可以选择适当等级的性能、可用性、功能和经济性。
存储和数据优化服务:在应用系统之间的协调、数据分类、数据策略的制定以及兼容性评估。
基于信息价值的分级策略:根据音像资料的特点制定规范的、有可操作性的分级策略。
总之,对于音像资料数据的管理来说,信息生命周期管理是一种新的管理理念,它的目标就是以最低的成本实现信息价值最大化,它具有灵活性和可扩展性,可以根据用户的实际需求来建立和完善管理模式。
收稿日期:2006-10-06