数字档案馆采集功能的标准化研究,本文主要内容关键词为:档案馆论文,功能论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
采集功能是国际数字档案馆建设的六大核心功能[1]之一,我国国家档案局颁布的《数字档案馆建设指南》中也指出收集(采集)功能是数字档案馆系统四项基本业务功能之一。标准化的采集功能可以确保数字档案馆资源入口质量,提升进馆资源接收效率。本文通过研究数字档案馆采集功能的能力需求和标准化框架,以规范我国数字档案馆采集功能开发,提升系统建设水平。
1 数字档案馆采集功能的概念和标准化意义
所谓采集(ingest)功能,是指数字档案馆系统中负责从移交方接收档案,并对其进行规范化处理的功能,权威定义来自于国际开放档案信息系统模型(Open Archival Information System)(以下简称OAIS模型),即“采集功能是指从移交方接收提交档案信息包(SIP)以及建立档案信息包(AIP)进行存储的功能”[2]。采集功能在数字档案馆系统中所处的地位如图1所示。
图1 数字档案馆采集功能的地位
如图所示,一方面,采集功能是数字档案馆系统和移交方互动的接口,另一方面,采集功能获取档案资源质量的高低也会影响到数字档案馆系统其他功能(档案存储、利用功能)的运行效率。采集功能标准化的重要意义在于:
1.1 确保数字档案馆进馆资源质量
数字档案馆采集功能的规范设计将控制接收档案及其元数据遵循统一的标准格式,提高资源进馆质量。正如澳大利亚维多利亚州电子文件战略项目(Victoria:Electronic Records Strategy)(以下简称VERS)指出的:“如果数字档案馆采集功能高效利用,它将作为一个看门人的角色,确保进馆文件具备一致的结构、内容和遵循相关的业务规则。”[3]
1.2 提升数字档案馆资源接收效率
数字档案馆采集功能的规范设计将推动实现数字档案馆计算机自动化移交、接收、反馈等业务流程,有效提升数字档案馆资源接收效率。例如遵循国际标准《文件交换业务需求标准》(Record Exchange Standard Business Requirements Specification)[4]设计采集功能,可以实现高效、安全的在线移交。
2 数字档案馆采集功能结构的标准化
数字档案馆采集功能的标准化主要分为两个部分:结构的标准化和功能需求的标准化。国际开放档案信息系统(OAIS)模型对采集功能的结构已做出规范性说明,该结构已取得国际领域一致认可,如图2所示。
如图所示,OAIS模型对数字档案馆采集功能结构划分为五个模块,即:(1)接收提交:该模块提供适当的存储能力或设备,采用在线或物理移交方式从移交方接收档案信息(以提交信息包SIP的形式),接收后发送成功确认回执或是重新提交回执;(2)质量检查:该功能验证接收档案,采用循环冗余校验(CRCs)、相关算法或是使用系统日志来记录和识别文件移交或载体读写的错误;(3)生成档案信息包(以下简称AIP):该功能遵循数字档案馆格式转化和记录标准,将接收档案及其元数据转化为适合于长久保存的档案信息包;(4)生成著录信息:该功能从AIP中抽取著录信息,并且从其他来源收集著录信息;(5)协调更新:该功能负责移动AIP至档案存储模块。
3 数字档案馆采集功能需求的标准化
在OAIS提出的结构模型基础之上,各国在建设数字档案馆时都提出了采集功能的需求标准和方案,其中,最具代表性的如国际标准《可信任数字馆藏的审计和认证》(Audit and Certification of Trustworthy Digital Repositories)(以下简称ISO 16363)[5]、《美国电子文件档案馆需求标准》(Electronic Records Archive Requirements Document)[6]、我国《数字档案馆建设指南》等。本文对这些标准规范分析研究,将我国数字档案馆采集功能主要需求总结为:
3.1 档案接收提交功能的标准化需求
档案接收提交功能需求包括从各种来源,通过在线和物理移交方式接收各种格式、类型档案的能力,具体包括:
3.1.1 多来源接收能力 数字档案馆系统应具备接收各种来源移交档案功能,包括:立档机构移交电子档案、传统载体档案数字化版本、个人捐献电子档案和其他重要在线资源,例如Web站点、Email等电子档案采集。
3.1.2 多格式接收能力 数字档案馆系统应具备接收各种格式电子档案功能,包括音频、视频、图像、文书等,系统应集成多个格式识别工具来自动识别。
3.1.3 多类型接收能力 数字档案馆系统应能采集各种类型的电子档案,包括单份文档组成的简单类型和多份数字文档组成的复杂类型电子档案,对于复杂类型,数字档案馆系统应能识别多个数字文档组分之间的关系。
3.1.4 多途径接收能力 数字档案馆系统应当接收物理载体移交和在线方式移交的电子档案,在线移交可以由档案馆发起或移交方发起,并且不应受文件大小传输限制。
图2 开放档案信息系统模型(OAIS)采集功能标准化结构
3.1.5 多资源接收能力 数字档案馆系统应具备采集电子档案内容信息和相关元数据、移交方原始整理分类信息、档案目录数据、提交信息包等多种类型资源接收功能。
3.1.6 接收流程控制能力 数字档案馆系统应在接收过程的约定点(时间点、任务阶段等)给予移交方反馈,并且在接收后给予移交方成功或重新提交等回执。
3.2 质量检查功能的标准化需求
质量检查功能需求包括对接收档案的格式、结构、完整性等进行验证的能力,具体包括:
3.2.1 选择验证能力 数字档案馆系统应提供人工选择和基于随机取样自动化选择验证电子档案的功能。
3.2.2 格式验证能力 数字档案馆系统应提供下载电子档案至本地进行人工验证和自动采用工具验证接收文件格式的功能,包括验证扫描数字化文档、数字照片、PDF文档、office格式、数字音频、数字视频等文件格式。系统应生成格式验证报告。
3.2.3 结构验证能力 数字档案馆系统应提供依据模板验证接收档案结构的能力,用户可以在系统中创建电子档案结构模板,而系统可以根据这些模板自动验证结构,例如数据库中字段长度、数据类型、值等属性特征是否符合模板要求。
3.2.4 完整性真实性验证能力 数字档案馆系统应提供对接收档案和档案移交目录清单、元数据信息进行比对的能力,以便验证接收档案的完整性。数字档案馆应提供错误检测和校正,病毒检测功能,确保接收档案的真实性。
3.2.5 来源验证能力 数字档案馆系统应当提供验证移交用户是合法授权用户的功能。
3.3 生成档案信息包(AIP)功能的标准化需求
生成档案信息包功能是对接收档案的内容和元数据进行一体化封装,形成适合于数字档案馆长久保存的档案信息包的能力,具体包括:
3.3.1 管理AIP持久标识符能力 数字档案馆系统应提供生成AIP及其组分持久标识符功能,系统应记录馆藏资源标识符清单,并定期抽样检查避免出现重复标识符。当一个AIP对应多个计算机文档,或是一个计算机文档包含多个AIP时,数字档案馆系统应记录AIP标识符和文件名之间的对应关系,并采用链接/解析服务系统来检索AIP标识符。
3.3.2 管理表征元数据能力 表征元数据指“将数据对象转化为更有意义的概念的信息”[7],例如ASCII码就是一种表征元数据,它可以将电子档案的二进制数据转化为易理解的字符。数字档案馆应具备为接收档案提供表征信息的功能,并确保表征信息和档案持久链接,实现档案的长期理解。数字档案馆可以提交或利用外部表征信息注册系统说明通用类型的表征信息(例如文件格式信息),也可以在本地系统中生成维护专门类型的表征信息(例如数据集的字段语义等)。
3.3.3 管理长久保存元数据能力 数字档案馆系统应为AIP采集充足的长久保存元数据,包括防止档案被非法篡改的固定(Fixity)元数据;档案定位和检索的标识元数据;确保档案能够置于一定的背景之中被理解的来源元数据;记录档案关系的背景元数据。系统应确保长久保存元数据和其内容信息持久链接,确保档案的凭证性。
3.3.4 管理AIP封装包能力 数字档案馆系统应提供将档案内容信息和其标识符、表征信息、长久保存元数据统一封装,生成AIP包的功能。
3.3.5 AIP包测试能力 数字档案馆系统应提供测试AIP包完整性、正确性、可理解性的功能。系统应为AIP包的每一类内容信息执行测试并记录测试结果,数字档案馆宜对特殊类型AIP指定专门的测试功能。
3.3.6 同步记录能力 数字档案馆系统应存储并记录与AIP形成相关的行为和管理流程。
4 数字档案馆采集功能应依据的标准规范
数字档案馆采集功能必须遵循一定的标准规范,如档案格式转化、元数据生成、档案信息包封装等,各个流程应在相关标准规范的控制下运行。
4.1 建立数字档案馆采集功能标准规范体系的必要性
数字档案馆比传统档案管理来说,所需的标准规范更多,更全面,其原因在于:(1)电子档案本身特性要求完善的政策框架。数字档案馆采集流程需要标准规范来明确采集档案的移交条款、利用条件、长久保存决策等,特别是封装、元数据等必须针对电子档案采集特点提出相关的标准规范;(2)提高数字档案馆采集效率。建立标准规范体系意味着数字档案馆比传统的档案移交接收进馆要承担更多的工作,因为要对大量决策制定的步骤以书面形式做出规范化,但是,一旦制定,数字档案馆可以依据这些规范,迅速重复之前已经做过的采集决策,提升效率;(3)是采集功能评估的有效指标。目前国际领域评估数字档案馆采集功能,主要是评估其标准和规范的齐全程度,例如IS016363中提出的采集功能的认证指标,90%以上指标必须以一定的标准规范作为认证依据,例如第4.1.3项指标“馆藏应具备足够的定义支持提交信息包的识别和解析”[8],该项指标要求数字档案馆具备提交信息包封装规范才可达标。
4.2 数字档案馆采集功能的标准规范体系
数字档案馆采集功能的标准规范体系包括三个部分:接收提交、质量检查和生成档案信息包(AIP),其中每个部分都应参考或依据一定的国际、国家、行业或档案馆内部制定的标准或规范进行,如图3所示。
图3 数字档案馆采集功能的标准规范体系
图中列出的是数字档案馆采集功能应具备的主要标准规范,该体系的特点包括:(1)从流程上看:从接收前资源准备到生成档案信息包,数字档案馆每一个阶段都应具备完善的标准规范,来指导这些工作的执行;(2)从兼容性来看:该体系与国际数字档案馆认证标准ISO16363保持一致,数字档案馆建立该体系基本可以达到ISO16363对采集功能的达标要求;(3)从应用上看:数字档案馆应尽可能将这些标准规范转化为机读对象,以推动数字档案馆的自动化实施,例如以表征元数据采集规范为例,如果数字档案馆的表征元数据采集规范仅仅是一张纸质的、内容简单的说明文档,那么也就无法自动化,如果表征元数据规范详细说明每一种文件格式详细的、可机器理解的技术元数据采集方法,那么数字档案馆系统可以根据该规范,设计自动验证、采集表征元数据功能,因此,标准规范体系可以支持数字档案馆以自动化和可扩展的方法采集档案,其是否丰富、详细会影响到数字档案馆自动化实施程度。当然,将标准规范转化为机读对象,需要相当大的投资,每一个档案馆可以根据自己运行效率问题选择自动化等级;(4)从扩展性上看,该标准规范体系应当随着用户需求和采集工作实践不断发展和完善,特别是当数字档案馆需要接收新的立档单位的移交,接收新的文件类型或格式时,数字档案馆必须增加新的标准、规范或是对现有规范进行补充来支持采集新档案;(5)从现状上看,我国数字档案馆建设亟待补充体系中的相关规范,以接收前资源准备阶段为例,主要存在以下问题:①移交元数据整理规范缺乏可以依据的国家或行业标准,这导致数字档案馆采集档案缺乏足够的前端元数据,影响档案凭证性;②移交信息包封装规范缺乏可以依据的国家或行业标准,影响后续长久保存等。因此,我国数字档案馆采集功能应积极借鉴国际同类标准的先进经验,不断完善标准规范体系建设。
本文系国家社会科学基金青年项目“中国数字档案馆的基本结构与运行机制研究”(项目编号:11CTQ033)的研究成果之一。