数字资源长期保存可信赖认证研究发展综述,本文主要内容关键词为:可信赖论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2015-03-04 分类号G352 G359 数字资源长期保存活动是为了保存人类的科学文化遗产,为公众提供持续服务,并为未来提供历史证据。在对数字资源进行长期保存的过程中,不可避免地要面对环境、技术、人员等方面的改变,要让未来的用户信赖所获得的信息,保存活动必须具备可信赖性。长期保存的高可信度也是对投资方大量投入的一种保证。此外,随着保存需求的不断增长,商业化的保存服务逐步渗入,如何获得保存资源方的信任,如何信任保存服务方,保存系统的可信度成为判断的核心因素。 早在1996年,美国研究图书馆协会(Research Library Group,RLG)发表的《数字信息保存》[1]报告中就已经提到:保存数字资源会比保存纸本相似物需要更多的责任、更好的技术和资源,仅仅由保存机构自己宣称可以保存数字资源是不可靠的,需要一种公开和公共的机制,来证明保存机构确实有能力胜任数字资源长期保存的任务。 经过20年的发展,可信赖认证的研究随着保存实践的发展而不断深入,笔者在多年跟踪研究的基础上,对主要标准、方法和项目进行了全面梳理和评述,通过一个发展脉络图,梳理认证研究的整体发展情况,介绍各项认证标准和方法,并提出对认证实践的思考,为我国即将开展的国家保存体系建设提供一些参考。 1 可信赖性分析 数字信息的特性决定了其存在的短暂性,长期保存难度较大,传统资源的保存方法难以应用于数字资源,并且随着数字信息的指数级增长,没有任何一个机构能够独自承担保存责任,需要众多机构、组织和个人共同参与。新的环境下,如何使被保存的数字资源具备可信赖性?本文从图书馆、博物馆和档案馆等肩负保存传统资源职责的机构的有关特征来分析“可信赖性”的深层含义。 1.1 保存机构要获得目标群体的信任 保存机构要获得目标群体的信任至少需满足四个方面的条件。 ·法定职责。相关法律法规包含了此保存机构开展长期保存的责任、管理措施,以及相应的经费和人员投入机制。 ·历史角色延续。如图书馆、博物馆等对传统资源进行长期保存的机构,容易获得目标群体对其进行数字资源保存的信任。 ·市场约束。按照市场规则,通过签订具有法律和经济约束力的保存契约来获得目标群体的信任。 ·技术保障。采取必要措施(如冗余存储、异地存储、存储转移等),防备人为或其他不可抗力造成的数字资源变化或损毁。 1.2 保存服务第三方提供者要获得信任 保存机构作为受托方帮助别的机构或者公民保存数字资源,或者保存机构委托第三方帮助自己保存数字资源,按照市场规则均需签订具有法律和经济约束力的保存契约,同时,还需要一个可操作的认证程序来评判受托方的可信赖性,并作为可公开核查的信任基础。 1.3 数字内容能够被用户信任 用户信任长期保存系统提供的数字内容,实际上涉及两个相互关联的问题:被保存的数字内容本身是否变化,以及保存系统的可靠程度。很多情况下往往允许数字内容发生一定的变化,例如保存所需的“封装”。但另一方面,也需要确保数字内容的“不变性”(fixity),并提供一定机制进行认证和鉴别。由于用户往往不具备鉴别数字内容是否变化的能力,所以信任数字内容的问题通常直接演变为信任保存系统的问题。 2 可信赖性认证研究发展概况 经过20年的发展,目前已有多个研究成果可以用于保存系统的可信赖性分析和认证,本文梳理主要标准和方法,提供了一个相对清晰的研究发展脉络图(见图1)。图中按照时间顺序呈现研究的发展情况,又分别用实线、虚线反映相互之间的直接继承或间接影响关系。 图1 可信赖认证研究发展脉络示意图 2.1 基本参照标准OAIS的发展 开放存档信息系统(Open Archival Information System,OAIS)标准作为长期保存活动的基础标准,也是可信认证发展中的重要参考标准。开放存档信息系统的研究和可信认证的研究是相互借鉴,相互促进的。 在1996年,美国空间数据系统咨询委员会(Consultative Committee for Space Data Systems,CCSDS)启动了开放存档信息系统OAIS的研究。1999年,该委员会下的存档摄入、识别及认证标准工作组提出,可信数字仓储(Trusted Digital Repositories,TDR)的认证可从人员、项目、工作流程及数据四方面入手,并制定了一系列认证指标[2],这为之后的OAIS参考模型及认证框架奠定了基础。2002年,CCSDC发布了OAIS参考模型推荐标准,2003年成为国际标准ISO 14721[3],并迅速发展成为保存领域广泛遵循的基本标准,为后续的可信赖研究提供了基础。 2.2 专业认证标准ISO 16363的发展 RLG于1994年启动关于长期保存的调研,1996年发布长期保存里程碑性质的报告《数字信息保存》,随后于2000年与OCLC共同启动TDR的研究,2002年发布“可信数字仓储的属性和责任”研究报告[4]。报告中给出了TDR的定义,明确了TDR责任,详细描述了TDR属性。2003年,RLG与美国国家档案管理局(National Archives and Records Administration,NARA)共同启动认证指标的研究,于2005年发布认证指标草案,2007年正式发布《可信赖仓储的审计及认证:指标与列表》(Trustworthy Repositories Audit & Certification:Criteria and Checklist,TRAC)[5],并于2006-2007两年间对多个项目进行实验性审计。2012年,TRAC成为国际标准ISO 16363[6]。 2014年发布的ISO 16919[7]《审计与认证机构的要求》(Requirements for Bodies Providing Audit and Certification)则对执行认证的机构和人员提出了具体要求,并规范了认证的过程。 2.3 德国国家认证标准的发展 2003年,德国网络信息计划(Deutsche Initiative für Netzwerk Information,DINI)针对德国机构仓储的开放存取制定了《DINI文档与出版物服务认证》[8],旨在为各大学机构仓储间的标准化及基于互操作的信息服务与交流提供建议,并在全国范围开展认证活动。 2006年,德国数字资源长期保存专业网(Network of Expertise in Long-Term Storage of Digital Resources,Nestor)制定的“可信赖数字仓储的指标目录”[9]则是一套基于德国国情的认证体系,其基本框架与TRAC保持一致,比DINI认证更为全面。2011年,Nestor制定的体系成为德国国家标准DIN 31644。Nestor还曾与美国研究图书馆中心(Center for Research Libraries,CRL)、RLG、欧洲数字保存项目(Digital Preservation Europe,DPE)、英国数字长期保管中心(Digital Curation Center,DCC)合作,于2007年发布了10项原则[10]作为可信数字保存仓储库的核心(最小)要求。 2.4 欧盟相关研究的发展 (1)数字认可印章 荷兰数据存档和网络服务项目(Data Archiving and Networked Services,DANS)[11]认为,可信性是科学研究数据存储和共享的基础,为了配合开放科研的发展,DANS开展了数字认可印章授予服务(Data Seal of Approval,DSA)[12],为符合要求的各科研数据存储库提供认可印章,以确保未来研究数据能够以高品质和可靠的方式提供。 DSA提供了16个指导方针供存储库进行自评估,由申请人通过在线工具完成评估,并将报告提交给指定专家进行同行审阅,最后根据审阅结果决定是否授予认可印章。 (2)欧盟认证框架 欧盟所支持的“数字仓储认证与审计框架”(European Framework for Audit and Certification of Digital Repositories)[13]项目,综合了现有的研究成果,形成一个逐步递进的三层认证框架: ·基本认证:依据DSA进行自评估; ·扩展认证:依据ISO 16363或DIN 31644提供公开的自评估报告,进行有组织的外部审计; ·正式认证:依据ISO 16363或DIN 31644进行全面认证。 2.5 其他评估方法的发展 英国数字长期保管中心以TRAC与Nestor指标为基础,开发了“基于风险管理的数字仓储审计方法”(Digital Repository Audit Method Based On Risk Assessment,DRAMBORA)[14]。 另外还有一些项目从系统成熟度的角度提出对保存系统的评估,从另一个侧面为保存系统的可信性提供证明。如,澳大利亚国家及州图书馆(National and State Libraries Australasia,NSLA)提出了一个包括初始、可重复、定义、管理、优化5层保存能力成熟度模型[15],Preservica项目提出了包括安全存储、存储管理、存储验证、信息组织、信息处理、信息保存的6级数字存档成熟度模型(Digital Preservation Maturity Model)[16],数字长期保存能力成熟度模型项目(Digital Preservation Capability Maturity Model, DPCMM)提出了一个可持续数字保存的能力成熟度模型框架(Sustainable Digital Preservation Capabilities Maturity Model Framework)[17],美国国家数字监管联盟(National Digital Stewardship Alliance,NDSA)制定了一套分层次的实践指南[18]。 3 主要认证指标和规范内容介绍与分析 3.1 DSA评测指南 DSA前3项指标是对数据生产商的要求,最后3项是对数据使用者的要求,中间10个是针对仓储库的,具体指标如表1所示。指标评分参考如下:0:不适用;1:还未考虑;2:有理论性的概念;3:处于实施阶段;4:完全遵守并实施。 3.2 ISO 16363的基本认证指标 ISO 16363为四级指标体系,共一百多项指标,针对每一项指标都提供了指标内容、支持文本、样例、讨论四部分内容,以供对指标进行深入理解并指导实践,具体如表2所示。 3.3 Nestor的“可信赖数字仓储的指标目录” Nestor与ISO 16363的认证指标框架基本相同,但面向应用进行了凝练和归纳,更为简洁和明确,更便于理解和执行。该框架是一个三级指标体系(见表3),针对每一个指标提供了指标内容、解释说明、实例及参考文献共三部分内容。 指标评价等级包括:计划/制定、实施、评价、发布。 3.4 认证的基本要素分析 由上文可知,目前ISO 16363与Nestor两个标准的一级指标是基本相同的,包括组织、数字对象管理、基础设施三个方面,其中组织、基础设施是数字对象管理赖以执行的环境。而DSA的10个针对保存系统的指标中,4—7对应着组织,8—12对应数字对象管理,13对应基础设施。 为了进一步明确认证的基本要素,笔者对上述认证指标进行了分类、对比,归纳为基本要素框架,如图2所示。 图2 长期保存可信赖性认证的基本要素框架 (1)保存系统运营的软环境(组织管理) 主要是针对组织、管理方面的认证,包括保障保存系统能够正常运转的相关战略政策、人员、经费、法律、责任机制等,是保存系统正常运营的软环境。 主要元素包括: ·明确的系统目标,说明为谁保存(目标用户),保存什么(数据遴选标准),要做什么(承担的保存责任),怎么做(战略规划)。 ·明确保存系统在存储、运营、使用中要遵守的法律与合同规定,特别关注对指定用户的适度使用,这点再次强调了保存的最终目标,即对存档资源的使用。 ·具备合理的组织结构,涉及资金保证、足够的专业人员、合理的组织形式、短期及长期规划实施方案、突发事件保障(方案)。 ·高效的管理措施,包括明确定义所有的过程与职责,以及通过文档记录仓储所有的要素与过程,从而能够应对重大变化。 (2)基于保存系统的数字对象管理 数字对象管理直接对应着保存系统的具体处理过程和功能。本文依据OAIS的功能模块,对除了数据管理外的四个模块的认证指标进行了归类,第一类指标要求用规范文档说明要处理的对象内容,第二类指标是通过明确的技术方法证明过程及处理(做法)的可信性,第三类指标是通过记录或日志等提供过程及处理的可靠性、可信性证明。 各模块的主要要素包括: ·摄入及SIPs。有文档明确定义SIPs的组成、相关特征以及关联关系,要获得技术上的足够控制以识别、解析、检验SIP的完整性、正确性,能够提供详细记录,可追溯全部过程和数据。 ·存档存储及AIPs。有文档明确定义AIPs并确保SIPs到AIPs的转换,明确AIPs的存储与管理状况,执行长期保存策略以保障AIPs的长期存储与可读性,能够提供详细记录,可追溯全部过程和数据。 ·分发使用及DIPs。有文档明确定义DIPs并确保AIPs到DIPs的转换,有明确的访问政策和规范,保障分发的真实性、正确性和可追溯。 ·保存规划。有长期保存技术策略以及更新机制,有保存监测机制,有审计检查机制。 ·数据管理。有文档明确定义应具备的元数据内容,有足够的元数据满足保存系统必要功能的实现,提供相应的管理及更新机制。 (3)保存系统运营的硬环境(基础设施) 保存系统赖以运行的基础设施,主要包括技术设施的完备性和安全性,同时也包括对于技术基础设施的风险管理要求。 4 可信赖认证服务及相关工具 可信赖认证主要包括两种认证方式:自我评估和第三方认证(包括主管机构或资助机构的审查)。第三方认证主要包括同行认证和专业机构认证。 目前,提供认证服务的机构包括ISO 16363认证委员会、美国研究图书馆中心、Nestor、DINI、DSA、欧盟“数字仓储认证与审计框架”项目。 4.1 ISO 16363认证服务及流程 ISO 16363作为广为接受的认证标准,RLG专门成立了认证委员会(Trustworthy Digital Repositories Accreditation Board,PTAB)[19]为审计提供支持,同时还提供自我认证的工具和服务,包括自评估模板和审核准备手册。 PTAB曾经对6家机构进行测试认证,包括欧洲的UKDA、CINES、DANS,美国的NSSDC、SEDAC、Kansas State Archives。其中,SEDAC(NASA国际地球信息科学网络)给出了实施认证的完整流程图[20]。 4.2 CRL的认证服务 CRL针对建立长期保存系统审计与认证的行为和过程开展研究,着重对审查程序进行精炼、测试,制定认证计划,建立认证机构的业务模型。CRL先后利用TRAC对美国长期保存第三方服务Portico、斯坦福大学CLOCKSS保存网络、Chronopolis、HathiTrust、安大略大学图书馆协会学术仓储库5个长期保存服务的可信度加以测试,并公开了部分审核结果[21]。 4.3 相关辅助工具 DPE(Digital Preservation Europe)的“可信电子仓储规划工具”(Planning Tool for Trusted Electronic Repositories,PLATTER)[22],作为一种与现存认证指标互补的、用于规划的工具,能帮助新建立的长期保存服务项目在其初期建立实现可信度需求的规划框架,从而在未来的可信度认证方面占据有利地位。 欧盟的Planet项目[23]提供了一个保存基准测试平台,为不同的长期保存协议、工具和服务提供一个一致的、连贯的、基于证据的客观评价,以验证所采用保存计划的有效性,从而间接提供可信性证据。 5 评述与讨论 回顾可信赖研究20年的发展历史,不难看出:可信赖研究从长期保存研究的起始阶段即得到了重视,并随着保存研究和实践的开展而不断深入,应该说是成果较为丰硕的一个分支,形成了相关标准并得到广泛认可和执行。 OAIS作为一个参考模型,适用于所有类型数字信息的长期保存,提供了广泛适用的术语词汇,统一的功能、流程和信息模型的定义,为可信认证提供了系统层面的良好基础,从顶层定义了一个可信存储所应具备的服务和要求。但它没有涉及费用和机构组织,没有覆盖保存活动的全部。 ISO 16363和DIN 31644标准的建立,为保存活动提供了一个相对全面的认证指标体系。它以评估整体项目为重点,不但使管理者对于如何获得保存系统可信赖性有了可衡量的目标,也为存档用户、存缴人、资助者提供了一种方法,以确定一个特定的保存系统是否满足他们对于可信存档的要求。但是该标准仅限于考量当前状态,几乎没有为从业者提供实用指南,没有提供降低保存风险的具体措施,同样也没有为未来发展提供相关指引信息。 欧盟的三层可信认证框架,则继承了已有的研究成果,逐级涵盖了从自评估到全面的第三方认证,使用户可以逐步提升可信赖的等级。这种分层认证的框架对于保存实践具有更多合理性和可行性,有利于保存系统的逐步完善。 现有其他领域的理论和标准的引入,则帮助保存机构从多角度审视长期保存的可信赖性。风险管理是一个全生命周期的动态过程,能够促进决策的科学化、合理化,减少保存活动的风险性,提高保存的有效性,为保存目标的顺利实现提供保障,创新性地运用风险管理的理论与方法,对于长期保存具有十分重要的意义。而质量、过程、安全的管理作为建立保存系统可信性的重要因素,这些领域的基本原理和标准,如质量管理标准、信息系统安全标准、软件成熟度模型等,从不同角度考察了保存系统的可信赖性。特别是成熟度模型的出现,将机构开展数字保存的工作划分为不同发展阶段,有助于机构有目标地分阶段开启保存工作。 虽然目前可信认证研究成果斐然,但在实践应用领域,还有很多需要清醒认识和认真思考的方面。 ·目前很多认证指标缺少量化或明确的比对依据,审计结果从根本上取决于审计人员的经验和判断,很难保证判断的一致性,因此在界定认证指标后,还需要进一步研究这些属性、指标的具体衡量方法与衡量依据。 ·已有的可信赖认证标准不可能预见所有的可能性,因此更应考虑把认证标准作为认证者的工作指南,聚焦核心指标,而对于某些子指标应采用已有的专业标准。 ·在数字保存生命周期的不同阶段采取联合方法共同提高保存的可信赖性。在规划期,通过采用相关的规划工具,结合风险评估,综合考量可信赖标准的要求来规避可能存在的风险,制定合理可行的保存规划和战略政策;在运行期,采用循环的风险评估、认证评估以及保存成熟度分析,通过阶段性的比较和总结,不断修正保存规划和实践。 ·持续、定期地开展审计、认证、评价。长期保存面对的是永久的变化,保存环境中任何一个元素(软硬件及网络环境、人、机构、系统)的变化都会导致长期保存链的变化,这个发展变化过程需要通过持续的评价管理进行控制和监测。目前的认证只能评估当前的可信任状态,不能保证长期和未来的信任。因此,不能简单地把认证作为保存活动完美的证明,可信认证是一个推动保存活动不断完善的过程,因而是一个周期性的认证、再认证的活动。 ·通过多种方法进行认证与评估极具前景。自我评估辅以同行评议和其他社区评估是更为可靠且不繁琐的认证方法;适用于特定子集的标准和模块化评估是另一个可选的方法。 ·目前,包括ISO 16363在内的信任框架的可靠性、有效性和成本还有待于经验证明和系统测量。目前,尚未有足够的证据来回答一些问题,如:认证程序和自我评价是否可靠以及如何确定最佳实践?这种做法实际在多大程度上降低了风险? ·逐层递进的分层评估标准和方法更为合理和实用,除评估外,还能为保存领域提供更为实用的循序渐进的实践指南。 ·更高的可信层级通常意味着更多的投入,要考虑保存系统的可持续性。 ·长期保存系统的可信性建设要适度,要基于保存系统所关注的目标和任务,包括上下文环境以及目标社团对于可信性的想法。 6 结语 从目前看,长期保存可信赖性认证已经使保存机构广泛获益。SEDAC项目认为[20],认证为他们带来更多的信任,非常有利于持续发展,同时提高了存档运营的效率和效能,为改善存档提供了有效的建议、指导、规划,完善了存档数据的管理和维护,提升了机构的保存能力。 毋庸置疑,可信赖认证是一项复杂的工作,考察一项指标是否可信,需要回答包括由谁认证、为谁认证、认证到哪个层级、证据是什么、认证的细粒度、证据的相关性等诸多问题,未来研究还将继续深入。 随着数字化的不断发展,越来越多的机构涉足数字信息的长期保存和管理。保存领域需要依靠更为有效的协同数字保存环境来保存现在和未来产生的海量数字信息。更为艰巨的保存任务与更为复杂的保存环境,使得可信赖性认证的重要性越发突出。协作保存网络的可信认证已经提上研究日程,目前针对保存系统的单点可信认证将为协作网络的可信认证提供良好的基础。 对于我国正在启动的国家保存体系建设而言,如果能深入透彻地理解可信赖性的要求,从规划之初即能够参照相关标准开展规划、决策和实践,兼顾点(各个参与保存的机构和系统)和面(整个保存网络)的可信性,可使整个体系构建于一个较高的基点之上。数字资源长期保存可信认证研究与发展综述_iso认证论文
数字资源长期保存可信认证研究与发展综述_iso认证论文
下载Doc文档