电子文件长期保存技术需求研究,本文主要内容关键词为:需求论文,文件论文,电子论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
DOI:10.16065/j.cnki.issn1002-1620.2016.01.016 电子文件指国家机构、社会组织或个人在履行其法定职责或处理事务过程中,通过计算机等电子设备形成、办理、传输和存储的数字格式的各种信息记录[1]。长期保存指用一种可靠的、科学合理的方式长期维护电子文件真实、完整、有效的行为[2]。电子文件是重要的信息资源,是社会数字资产不可或缺的重要组成部分。实现电子文件长期保存不仅仅是文件和档案部门所应关注的重大问题,而且也是全人类的责任[3]。 要解决电子文件长期保存问题,首先必须明确电子文件长期保存的需求,这其中包括制度、管理、技术、安全等各个方面,本文主要从技术层面进行论述,主要包含技术路线、文件格式、存储载体、元数据管理和软件功能5个方面。 1 现状与挑战 在国际文件/档案领域,开展了许多关于电子文件长久保存研究的项目,最具有代表性的有:2000年世界银行与国际文件管理联合会(International Record Management Trust)联合发起包括有16个国家、地区和国际组织参加的“电子时代基于凭证性的电子文件管理”(Evidence-Based Governance in the Electronic Age)的国际合作项目[4];加拿大露琪安娜·杜兰蒂博士主持的10多个国家参加的国际合作研究项目“电子系统中电子文件真实性永久保存的国际研究项目”(简称InterPARES)[5];美国国家档案馆的电子文件档案馆系统ERA(Electronic Record Archives)系统[6],等等。另外,ISO/TR 26102《信息与文献——电子文件的长久保存需求》[7]也将这一问题纳入研究范围。 我国对电子文件的研究起步于20世纪90年代中期,国家档案局先后发布了《全国档案信息化建设实施纲要》、《关于加强信息资源开发利用工作的意见》等法规性、指导性文件以及《电子文件归档与管理规范》、《文书类电子文件元数据规范》、《数字档案馆建设指南》等规范标准,并于2012年印发了《电子档案移交与接收办法》(档发[2012]7号)。中国人民大学信息资源管理学院经过研究,起草了电子文件管理领域的国家标准《电子文件管理系统通用功能要求》(GB/T 29194-2012)[8]。 电子文件长期保存也是学者探讨的重点。Julie Doyle,Herna Viktor,Eric Paquet[9]基于两个相关的保护实践(仿真和元数据),提出三维数据的长期数字保存框架,并对框架进行了评估,确保数字对象长期保存的真实性和可用性。Anna S.,Palaiologk等[10]针对金融数字资源长期保存,采用个案研究方法,提出DANS ABC模型,即数据归档和网络服务环境设计(DANS)—平衡计分卡(ABS)模型。Moore等人[11]提出电子数据通过支持集合迁移到新系统环境的长期保存方法。Sangchul Song和Joseph JaJa[12]探讨了数字档案馆长期完整性审核和验证技术。陶水龙[13]针对如何解决档案长期保存与载体不稳定性之间的矛盾,提出了云存储保存原始数据,云备份保存备份数据,明确了建立基于云存储技术档案数字资源的云备份策略和相应的云备份系统架构。周建军[14]等提出数字资源长期保存可采用的技术策略:统一标准、数据更新、数据迁移和数据仿真等。吴苏等人[15]论述数字资源长期保存国际标准,并且分析呈缴制度立法和版权法两个方面法律问题。宛玲、张晓林[16]专门对数字资源长期保存的权益管理进行了研究。张艳敏、马秀峰[17]比较分析合作保存、技术有效、风险管理、经济等策略,以及存在的不足。黄维莉[18]提出我国数字资源长期保存的相关策略。张家德、杨爱萍[19]提出应尽快完善长期保存数字资源的法律保障体系,版权人利益要保护,又要加大数字资源长期有效保存力度。袁丽华、包平[20]指出法律问题是数字资源长期保存必须面对的问题,应尽快建立数字资源版权保护有关制度,解决数字资源保管权和使用权等问题。张智雄等人[21]提出了数字资源长期保存技术体系,归纳为保存管理、摄入、仓储、存储管理和访问5大功能块。杨小云[22]认为数字资源长期保存主要的技术策略是数据更新、仿真、数据迁移等。 国家电子文件管理联席会议于2012年下达《电子文件真实性保障和长期保存等关键技术研究》课题[23],对电子文件长期保存关键技术进行了研究,提出初步解决方案。 纵观国内外相关部门在电子文件长期保存方面的研究成果,均未能提出完整、权威的电子文件长期保存技术需求,这一领域目前存在的困难远远大于取得的成果,这和电子文件管理面临的5大技术挑战有关: (1)数据规模大:大数据时代信息资源的增长是持续快速的,管理部门面临电子文件无限制增长的局面,这已经超出了管理部门的能力承受范围。 (2)格式多样化:主要体现在电子文件数字格式的多样化。这就意味着管理部门需要处理各种各样、千变万化的电子文件格式。 (3)类型复杂性:不仅电子文件格式多种多样,而且数据类型也变得越来越复杂。除了传统的文本、图形、图像、音视频等文件类型之外,各种新媒体文件、数据文件层出不穷,让人应接不暇。 (4)生命周期短:在信息技术高速发展的前提下,硬件、软件、文件格式、存储载体等都具有生命周期相对较短的特点。如果解决方案本身没有结合文件生命周期的特点进行定制,不但解决不了问题,相反会使问题更加复杂化。 (5)技术变化快:信息技术始终是在持续发展变化过程之中,如何运用相对稳定、前瞻的技术去发现、传递和处理过去的电子文件,确保带有新技术含量的、改进的方法保持与过去保存技术之间的兼容性和延续性,也是管理部门面临的挑战。 2 技术需求内容 经过对国内外相关研究项目的分析、总结,充分考虑电子文件自身的特性,借鉴笔者主持的国电联办课题“电子文件真实性保障和长期保存等关键技术研究”的相关成果,从技术路线、文件格式、存储载体、元数据管理和软件功能5个方面提出电子文件长期保存的技术需求,如图1所示。 图1 电子文件长期保存技术需求框架 各部分技术需求的主体内容介绍如下: (1)技术路线 技术路线需求主要包括更新、迁移、仿真、封装和再生5方面内容。 信息更新是在原来的技术环境下实时重写信息数据,将数据流从旧存储介质转移到新存储介质上,防止由于存储介质物理性能变化而引起信息丢失的方法。迁移是持续地将电子信息从一种技术环境转换到另一种技术环境,意味着基于字符的信息可以从一个存储介质转移到另一个存储介质上,以进行电子信息的长期保存。仿真是用一个计算机系统模拟另一个计算机系统,使前者的功能完全与后者相同,即前者接收与后者相同的数据,执行与后者相同的程序。封装技术通过规范电子文件的封装过程,为电子文件提供统一的封装格式,保证电子文件及其元数据的完整合一性。再生性保护技术是将过时的某些电子信息适时地转换到缩微品或纸介质上的一种保护措施[24]。 这5种技术路线有各自的适用场景和应用范围,很多情况下需要结合实际情况综合运用。就现阶段而言,封装和迁移是应用较为广泛和可行的技术路线。随着虚拟化技术的成熟,一度被认为已经过时的仿真技术也可能重新焕发活力。 (2)文件格式 文件格式需求主要包括格式开放、文件自包含、格式自描述、可转换、支持技术认证机制等方面内容,主要参考DA/T 47-2009《版式电子文件长期保存格式需求》并结合各种格式电子文件的特性进行扩展。 格式开放主要包括有公开发表的相应标准和技术规范,确保格式标准和技术规范简洁明了,无专利和许可的限制等。文件自包含主要包括文件呈现的全部信息完全自包含,文件中必须包括全部字体的字形描述信息或嵌入字体程序信息、光栅图像、矢量图形、颜色信息、音视频编码信息等。格式自描述主要包括设置规范的元数据集(可以与国际、国内相关标准建立映射),以文本方式(通常为XML)内嵌于文件中,并易于提取和检索等。可转换既支持其他格式与电子文件长期保存格式相互转换,又支持过时的电子文件长期保存格式转换为新的电子文件长期保存格式。支持技术认证机制包括支持数字签名,使用的数字签名被多种操作系统和硬件平台支持,数字签名的全部信息完全自包含等。 (3)载体需求 电子文件的保存周期一般来讲长于存储载体的寿命,这就使电子文件的长期保存受制于存储载体的技术发展。就电子文件的存储载体类型而言,目前比较成熟和通用的包括磁性载体、光学载体和电(半导体)载体三类,各类载体都有各自的应用领域。 在线存储:一般是指电子文件直接保存在信息系统中,可以通过应用软件进行实时访问。在目前的技术条件下,硬盘以及以硬盘为基础的各种存储系统(磁盘阵列、NAS存储、SAN存储、集群存储等)仍为主流存储方式;对于安全性要求特别高的数据,可以考虑采用特制的WORM磁盘[25](一次写多次读硬盘)。 近线存储:对于实时性访问要求较低的数据可以采用近线存储方式。在以往的解决方案中,以光盘为存储载体的光盘库等设备多用于近线存储,随着硬盘成本的下降和安全性的提高,近线存储也逐渐采用以硬盘为基础的各种存储系统。 异地(容灾)存储:一般通过网络直接将数据传输到远程的存储设备中,同样以硬盘以及以硬盘为基础的各种存储系统为主要载体。 在线备份:和在线存储搭配使用,定时将数据备份到本地备份设备中,弥补在线存储存在的数据丢失等安全风险。目前主流采用的是磁带机(库)设备(以磁带为载体),也可以采用虚拟带库设备(以硬盘为载体)。 本地备份、异地保存:一种是直接将在线备份到磁带上的数据送到异地进行保管;另一种是在本地另外制作一个备份送到异地进行保管,大都采用光盘为介质进行备份,为了避免数据损坏或被修改,要求采用一次性写入只读光盘。 异质备份:针对特别重要的电子文件,以电子文件的长期保存、安全保管为目的的多形式备份,如将电子文件由数字信号转换成模拟信号保存在缩微胶片中。 (4)元数据管理 元数据对于确保并且证明电子文件的真实性和凭证价值、对于电子文件的保护与长期保存、对于有效管理电子文件、对于方便电子文件的查询和利用等均具有重要作用。在电子文件进入长期保存库时,首先需要对电子文件及其元数据进行检测,包括真实性、完整性和可用性,确保元数据满足长期保存的要求;其次要确保在长期保存期间,电子文件的元数据得到正确、原始、安全的保存;最后要完整地记录长期保存过程中产生的过程元数据。上述三步骤分别对应元数据检测、元数据保存和元数据记录三方面需求。 (5)软件功能 软件功能需求包括保存策略管理、存储环境管理、备份载体管理、文件入库、文件检测、格式转换、文件迁移、文件提取和系统管理等部分。软件功能需求是对电子文件长期保存各方面需求的固化,是将理论研究成果向实践应用进行转化的关键。 保存策略管理要求能够对电子文件的封装格式以及电子文件和元数据的关联方式、电子文件的存储路径、存储方式、备份策略等进行设置。存储环境管理能够对电子文件的各类存储、备份设备、存储策略进行登记,能够对各类存储设备的可用存储空间进行管理。备份载体管理能够按照备份的要求生成逻辑盘,能够在权限允许的前提下下载逻辑盘中的数据,并进行物理组盘操作。文件入库能够按照批次将检测合格的AIP数据包导入保存库中,入库时按照保存策略的设置规则进行数据存储。文件检测能够根据保存策略中设置的检测指标和检测周期对长期保存库中的数据进行检测,检测项目包括真实性、完整性、可用性、安全性等各个方面。格式转换能够根据保存策略中设置的格式策略对长期保存库中的文件执行格式转换操作。文件迁移可建立并维护存储载体信息登记库,对电子文件的存储载体进行跟踪管理,并适时发起文件迁移请求。文件提取支持在文件提取之前按照工作流的方式完成审批操作,提取信息作为业务元数据的一部分补充到电子文件过程信息中。系统管理支持基于角色的权限控制模型,对系统中的任何操作都记录日志,便于日后分析。 3 技术实践 本文归纳总结的电子文件长期保存需求,特别是软件功能需求在“国家电子档案接收和长期保存系统建设试点工程”[26]项目中得到了实践验证。国家电子档案接收和长期保存系统主要包括电子档案移交接收系统和电子档案长期保存系统两部分,在电子档案长期保存系统中基本实现了本文总结的电子文件长期保存软件功能需求,并在上海、福建、重庆、青岛、杭州、广州6个省市档案馆进行了试点应用,取得了不错的效果。 电子档案长期保存系统中得到应用的技术策略如图2所示。 图2 电子文件长期保存技术策略 4 结束语 本文通过分析国内外电子文件长期保存现状和当前面临的技术挑战,从技术层面提出了电子文件长期保存需求,构建了电子文件长期保存技术需求框架,包括技术路线、文件格式、存储载体、元数据管理和软件功能5部分。本文提出的相关技术需求和技术策略已经在国家电子档案接收和长期保存系统试点工程项目中得到应用,并取得了一定的应用效果。下一步,我们还将结合实践应用过程中反馈的问题进一步梳理、总结、提炼电子文件长期保存需求,力争使其成为国内文件/档案领域的行业标准。电子文件长期保存的技术要求研究_元数据论文
电子文件长期保存的技术要求研究_元数据论文
下载Doc文档