CSDL外购数字文献资源的长期保存策略,本文主要内容关键词为:文献论文,策略论文,数字论文,资源论文,CSDL论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 前言
中国科学院国家科学数字图书馆(Chinese Science Digital Library,CSDL),作为一个分布式的集成数字信息服务体系,向全国20多个城市80余个科研、教育单位的科研人员提供网络化的信息资源服务。CSDL的一个核心部分是包括国内外全文文献、文摘索引、网络资源、馆藏印刷文献等的信息资源保障体系,其中相当重要的部分是商业化的网络版数字文献资源,CSDL通过购买这些资源的网络使用权来为自己的用户提供服务,保证这些资源的长期可持续利用是CSDL信息资源建设的一个重要任务。当然,CSDL还自建了中国科学文献数据库系统、联合目录数据库、特色信息资源数据库等,积累了大量的文摘、引文、目录和全文数据;另外,CSDL还建立了包括数学、物理、化学、生命科学、资源环境等多个学科信息门户,对大量具有重要使用价值的第三方网络资源进行描述和导航。由于网络资源存在保存价值不确定、拥有者种类繁多、知识产权状态复杂等问题,它们和自建资源都需要专门的长期保存策略和管理机制。所以在本文中,我们专门讨论外购的拥有网络使用权的数字文献资源(以下简称外购资源)的长期保存策略。
2 CSDL外购资源的采购与使用现状
2.1 CSDL外购资源的采购状况
自2001年起,截止到2004年6月,CSDL针对科学院的主要研究领域和相应的数字文献资源发展状况,已经逐步采购了国内外各种文献数据库共计30个,其中有些在整个中科院范围开通,有些在参加集团采购的部分研究所范围内开通:
数据库类型
数据库数量覆盖资源量
外文全文期刊10 约3000种
中文全文期刊 1 超过9000种
外文全文学位论文、图书、会议录
4 约50000种
中文电子图书 1 超过25000种
工具书
3 超过900卷
文摘索引数据库 11
随着CSDL的发展,外购资源种类和规模上还将有所增加,但总体结构将大体不变。
2.2 CSDL外购资源的使用方式
根据数字资源的规模、功能、第三方服务能力,也根据CSDL用户需求和经费能力,CSDL外购资源采用了多种使用方式:
(1)由CSDL建立本地镜像系统,上载数据库商提供的数据,通过网络提供服务,例如多数中文全文数据库和部分外文文摘索引数据库;
(2)由联合采购的国内其他图书情报机构建立国内异地镜像系统,CSDL用户通过国内网络获取服务,例如部分外文全文数据库;
(3)由数据库商委托第三方服务商提供国外异地镜像系统,CSDL用户通过远程访问获取服务,例如部分外文文摘和全文数据库;
(4)由数据库商直接提供数据库的网络服务,CSDL用户通过远程访问获取服务。
2.3 CSDL外购资源长期可持续使用的挑战
CSDL明确要求[1],外购资源必须能被有机纳入中国科学院文献资源战略保障体系,能够长期、可靠、可持续地为中国科学院科研人员提供服务。但由于数字文献资源本身的特点和使用方式的特点,它们的长期可持续使用受到严重威胁[2]:
(1)CSDL对多数数字文献资源购买的只是网络使用权(包括那些装载在本地镜像的资源)。因此,一旦终止采购合同后,CSDL对于自己曾经采购的资源的使用权就受到威胁。即使数据库商允诺可以通过网络继续使用这些资源,也可能需要额外支付服务系统的使用费,或者只能使用被剥夺许多正常功能的“简版”系统,或者只能使用功能不再发展的旧版服务系统(而数据库商对简版或旧版系统的技术支持可能是短暂和不稳定的),或者在系统版本升级后就无法使用系统(或必须支付额外费用),实际上造成CSDL用户不能使用或有效使用这些资源。
(2)即使在合同执行期间,由于自然灾害、人为破坏、战争、法律纠纷、系统灾难性故障、财务危机、商业决策、政府行为、国际争端等原因,造成数据库商或其委托的镜像服务商终止经营或不继续向CSDL提供服务,将造成数据本身的永久性破坏,或者数据虽然存在但CSDL用户无法进行远程访问,或者CSDL的网络使用权被强制性剥夺,实际上造成CSDL失去对自己购买的资源的可持续使用权。
另外,即使在正常执行合同期间,异地镜像或网络远程访问都可能受网络故障、电气故障、管理失误等原因造成超越正常系统维护期限的不可使用。
鉴于这些原因,CSDL必须建立可靠的外购资源的长期保存机制,保证CSDL对这些资源的可持续使用。
3 CSDL外购资源长期保存机制分析框架
3.1 CSDL外购资源长期保存的目标
从保证满足用户需求的角度出发,CSDL外购资源的长期保存首先是保证中国科学院用户能够长期可持续地、方便及时和充分有效地使用这些资源。根据这个目标,长期保存机制不仅保存数据,还要“保存”数据的可使用性,而且这种可使用性必须做到方便及时、充分有效。
由于中国科学院在国家创新体系中的关键地位,也由于中国科学院文献情报中心在国家科技文献平台体系中履行国家科学图书馆职责,CSDL应致力于通过长期保存,为中国科学院建立一个相对完整的信息资源保障体系,为国家科技文献平台提供长期可靠的资源保障,为其他合作者和全国的科技文献服务提供可持续的服务能力。
另外,CSDL外购资源的长期保存还必须保证其本身的可持续性:法律上的可靠保障、技术上的充分支持、经济上的低成本性、管理上的方便性。
3.2 CSDL外购资源长期保存机制的分析因素
对CSDL来说,长期保存需要分析以下问题[3-4]:
(1)保存什么资源?并非所有的外购资源都一定要长期保存,有以下因素需要考虑:
①资源本身的当前和长期使用价值。
②资源本身的长期战略意义。例如在科技信息资源体系中的地位和在国家科技文献平台科技信息资源保障体系中的独特地位。
③资源的不可替代性。例如某些资源在类型、内容和产生演变过程上具有唯一性,而有些资源有许多交叉重叠资源或派生衍生资源(例如部分文摘数据库或者全文数据库对应的印本资源)。
④资源使用渠道的不可替代性。例如有些全文期刊可以通过出版商、集成商(甚至多个集成商)以及文献传递服务商等分别提供,但有些则只通过唯一的出版商或服务商提供。
⑤资源保存的合法保障程度。例如能否获得长期保存以及持续使用的授权和许可。
(2)谁来保存这些资源?并非所有符合上述条件的外购资源都需要由CSDL自己来长期保存,保存者还可以是国家图书馆、别的图书情报系统、第三方长期保存服务商、出版商等,它们的选择至少涉及以下因素:
①资源保存责任的不可替代性。例如有些资源在国内就没有别的单位采购,有些资源虽然有别的单位采购,但这些单位没有保存责任或保存能力,而有些资源的采购情况则相反。
②资源保存责任的可分担性。例如有些资源是由CSDL与其他系统联合采购的,因此可以考虑分担保存责任、合作保存、委托保存等,但需要解决相应的授予非保存方使用权利问题。
③资源保存责任的法律安排。例如有些数字文献资源可能会通过法律或行政制度的安排授权特定单位进行长期保存。例如国内电子图书可以授权由国家图书馆长期保存并在特殊情况下提供公共服务,又如重点数字文献资源可以被要求授权共同信赖的第三方长期保存。
④资源保存能力的可负担性。例如有些资源的长期保存(尤其是在保证能及时方便使用的条件下)可能需要太大的负担,远远超过了CSDL可能负担的能力。
⑤资源保存的法律保障程度。例如具体的保存者(因为其身份、能力、与其他利益方的关系等)能否获得长期保存以及持续使用的授权和许可。
(3)如何保存这些资源?在确定由CSDL保存有关外购资源,或者CSDL同意由其他单位负责保存后,需要考虑以下因素:资源内容保存的程度;资源保存的基本系统方式;被保存资源的使用机制;资源保存的权利保障机制;资源保存的基本技术机制;资源保存的管理维护机制;资源保存的经济支持机制。我们将对其中主要方面进行初步的讨论。
3.3 CSDL外购资源长期保存的总体政策要求
CSDL对外购资源,应该建立统一的长期保存总体政策:
(1)CSDL应该高度重视和立即着手解决外购资源的长期保存问题,尽快建立起外购资源的可靠的可持续利用环境。
(2)CSDL应该长期保存具有重要使用价值和长期战略意义的外购资源,即使这些资源可能有对应的印刷资源,因为数字资源提供了印刷资源所缺乏的丰富和有效的使用能力,而这些能力对于今天和未来的科学研究至关重要。
(3)CSDL应该优先考虑那些独特的,或者使用渠道单一的,或者只有CSDL采购的数字资源的长期保存,尽快建立起这些资源的长期保存机制。
(4)CSDL应该将长期保存纳入自己的资源建设整体规划和工作机制中,制定相应的资源评鉴、采购合同谈判、保存授权管理、保存技术系统建设与管理、可持续使用管理、经费管理的规范。
(5)CSDL外购资源的长期保存必须建立在可靠的法律保障基础上,CSDL应该将长期保存要求纳入资源采购政策与采购合同之中,获得充分和合法的长期保存能力。
(6)CSDL应该积极推动长期保存的合作,积极支持国家图书馆或国家授权的其他单位承担长期保存的责任,积极支持与CSDL合作采购的其他图书情报系统承担长期保存的责任,同时积极承担由国家授权的或者自己在合作体系中分担的长期保存任务。
(7)CSDL应该支持由出版商或第三方保存商(例如ISP、商业化数据中心等)委托长期保存的实验,但在目前阶段宜把这些作为备份措施,要求不断完善授权机制、管理机制、异常情况保护措施、公共服务保障机制。
(8)CSDL需要在长期保存的实践中不断完善自己的长期保存政策和管理机制。
4 CSDL外购资源长期保存政策
4.1 CSDL外购资源长期保存的程度与系统方式要求
如前所述,CSDL长期保存机制需要保存数据、数据的可使用性,以及可使用性的方便及时、充分有效程度。因此,CSDL在长期保存中必须要求:
(1)保存完整的使用环境[5]。
①保存数字比特流,通过对存储媒介的保护或迁移,确保其中的数据能被准确完好地读出。
②保存数字格式与处理信息,通过保存有关数字信息编码、格式、标记、结构、压缩、加密等方面的技术方法信息,确保能够识别和解析数字信息内容。
③保存数字信息处理环境,例如相关的软件甚至硬件系统,确保能拥有相应的技术工具来识别、利用数字信息。
④争取保存数字信息的内容校验、身份认证、版本演变、知识产权管理机制,确保能可信赖、可靠和合法地鉴别使用被保存的数字信息。
⑤争取部分或者全部保存数字信息的知识组织体系信息、组织利用环境。
(2)保存完整的使用系统[6]。
可以根据保存方式对使用环境保存的程度和提供使用时的难度,分为以下三类:
①Dark Archive(隐暗存储系统),提供一种简单的数据备份存储能力,当出现网络数据不可获取时可以将备份数据上载到一定系统上提供服务,例如许多数据库商提供的数据备份光盘。这种保存方式的成本较低,但保存在光盘上的数据是否与原有网络系统提供的数据一致、是否完整、是否可方便地被读出、是否能及时方便地组织到必要的检索和传递系统中,是否能够保存原有网络系统的功能和性能,都存在许多不确定因素。而且,如果网络版数据库增加了新的数据内容或服务功能,在以前的备份数据中往往很难反映。
②Semi-Dark Archive(半隐暗存储系统),这类系统在提供数据备份存储能力的同时,往往提供对所保存数据的检验机制,例如要求数据库商提供完善的数据格式、标引、分类、数据库组织、检索机制以及数据技术处理措施的信息,要求数据库商允许保存者为保存需要将备份数据迁移到自己的存储系统上,并在入藏迁移和定期维护中由专门人员检查数据的一致性、完整性和可使用性。这种方式增加了保存者的保存成本,但保障了数据的可使用性。
③Light Archive(透明存储系统),这类系统实际上要建立一个与网络版数据库同步的存储系统,具有相同的基本数据和基本相同的服务能力,从而保证在网络版数据库一旦不能使用时能够及时向用户提供基本相同的服务。保存者需要承诺,在网络版数据库正常服务时,保存者不应该利用保存系统提供公共服务;保存者还应该与数据库商谈判确定,在网络版数据库不能正常使用时的服务对象的范围限制。这种方式能够很好地检验和保证数据的完整性和可使用性,但维持同步系统的负担会比较高,而且可能并不是所有的数据库商都愿意提供所需要的授权和技术支持。
CSDL应该保证所有外购资源都能提供数据备份(有些可能通过合作保存进行),应该尽快建立具备检验机制的存储系统,并推动某些关键资源在合作保存的基础上逐步建立同步存储系统。
4.2 CSDL外购资源长期保存的权利保障机制要求
可靠的法律保障是CSDL外购资源长期保存的一个关键问题,因此:
(1)CSDL在数字资源采购时,必须要求数据库商承认CSDL对所采购资源拥有可持续使用的权利,允许CSDL在终止购买情况下继续使用已购买的数据为CSDL用户提供服务。
(2)CSDL在数字资源采购时,必须要求数据库商向CSDL提供永久备份数据,或者将镜像站点的数据保存权转移给CSDL。备份数据必须完整覆盖CSDL购买的资源内容,遵守公开标准,不包含加密措施,提供周期合理及时,允许CSDL将备份数据转载到自己的永久存储系统之中。
(3)CSDL必须要求数据库商提供有关数据格式、标引、分类、数据库组织、检索机制以及数据技术处理措施的信息,保证CSDL可以建立相应的利用系统。数据库商应该提供拥有正常服务系统基本功能的系统软件,同时提供相应的支撑文件。当系统软件更新时,数据库商应该及时向CSDL提供数据迁移或系统仿真的技术说明,并帮助CSDL完成相应的数据迁移或系统仿真。
(4)在CSDL停止订购某种资源后,数据库商必须允许CSDL在一定范围内继续提供该资源的利用服务,这个范围至少是中国科学院图书馆局域网内,一般应该是原合同规定的中国科学院集团采购单位范围,在特殊情况下还应该包括与中国科学院图书馆合作的有限的图书情报合作单位。
(5)CSDL必须要求数据库商允许CSDL在市场失效情况下继续使用已经购买的数据提供服务。因为不可抗力导致数据库商终止对CSDL的服务,称为市场一般失效。如果此时市场环境中没有提供等同服务存在,称为市场特殊失效。CSDL在确认市场一般失效、并在一个月内没有得到数据库商相反证据时,可以利用备份数据向自己用户提供服务。由于CSDL在公共投资下履行国家科学图书馆的职责,数据库商应该允许CSDL在市场特殊失效情况下向社会公众提供服务。
(6)CSDL承诺在长期保存中保护数据库商的合法权利。在正常合同期间,不将备份数据和备份系统用于公共服务或商业用途;在解除正常合同关系、停止服务、乃至市场失效情况下,不提供商业赢利服务,不改变数据库完整性,保护数据库商的数据库署名权和各项资料的商业秘密。
(7)CSDL必须通过具有法律效力的合同或其他文件落实上述要求。
4.3 CSDL外购资源长期保存的技术策略要求
数字资源长期保存依赖可靠的技术系统,但还有许多技术问题有待解决。在这方面:
(1)作为国家科技文献平台体系中的国家级重要成员,CSDL应该将数字资源长期保存技术系统的建设作为自己的一种重要任务,应该积极推动和参与数字资源长期保存技术研究,积极建立可靠的保存与利用系统。
(2)在技术方案和具体数据格式选择上,CSDL应该采用国际和国家标准,例如在系统架构上遵循OAIS参考模型[7],在元数据上采用成熟的开放标准(例如各种长期保存元数据[8]、METS封装机制[9]等),在数据格式上采用《数字图书馆标准规范建设》项目[10]推荐的开放格式标准,在保存系统的利用机制上采用《数字图书馆标准规范建设》项目推荐的开放的检索与搜索协议。
(3)CSDL应该保证拥有数据管理和检索的系统软件。作为一种权利,CSDL必须要求数据库商提供该数据库的检索与利用系统软件。但由于数据库商只会提供在停止订购时的最新系统软件,也由于CSDL需要将备份数据装载到自己的长期保存系统,所以CSDL必须考虑自主建立(可以委托第三方开发)长期保存系统,同时要保证这个系统与其他主要长期保存系统的互操作。
(4)CSDL应该注意长期保存中的数字权益管理技术问题[11],要保护数据库商合法的、且不影响长期保存与可持续使用的权益信息以及保护措施;要建立健全数字权益管理信息,例如在长期保存元数据中充分描述权益管理信息,准确记载权益授予或转移的许可内容、条件限制、实行过程等;还要在长期保存系统中(尤其是利用环节)建立使用授权管理机制,保证在利用长期保存系统提供用户服务时,能按照授权范围在技术上限制使用范围。
(5)CSDL应该研究分布式长期保存系统机制,根据数字资源重要性、保存载荷能力、技术系统成熟程度、以及系统资源能力,适时试验分布式长期保存机制。即使在当前采用集中长期保存方式时,也要考虑复制备份数据异地保存的可能性。
4.5 CSDL外购资源长期保存的管理机制要求
CSDL本身是一个开放和分布的系统,依靠中国科学院众多文献情报机构来完成相应的资源建设与服务,在长期保存上也同样如此,所以需要建立有效的长期保存管理机制。
(1)建立选择、评价、认证可信任的长期保存责任者的规范流程。CSDL外购资源的长期保存,可能由中科院文献情报中心承担,也可能由中科院某个地区文献中心承担,还可能委托第三方保存服务商承担,在合作保存时还可能委托另一个文献情报机构承担。具体的承担者必须是可信任的[12],遵从OAIS模型、机构稳定、对数据保存或使用有合理的责任、技术和保存程序适应需要、系统安全、经济保障、保存程序可检验等。CSDL需要建立明确的保存责任者责任规范,明确规定责任者在组织上、操作上和管理上的各项责任,建立相应的选择评价指标,建立选择评价可信任的长期保存责任者的认证程序和已承担保存任务的责任者的检验程序。CSDL应该采取必要措施吸纳第三方力量来参与对可信任责任者的认证和检验。
(2)逐步建立完善的备份机制。基于危机管理思想,CSDL应该采取数据备份、系统软件备份以及责任体系备份等多重方式,逐步建立安全的长期保存体系。例如,可以在多个单位建立同样的备份数据存储系统,以避免数据遗失与损坏。可以在某一个单位建立同步存储系统作为主要保存单位,同时在另一个单位建立备份数据存储系统、保存系统软件,作为备份保存单位,以保证在主要保存单位出现问题时,备份保存单位可以向主要保存单位提供恢复数据,或者直接启动服务功能。当CSDL委托合作机构(尤其是第三方商业机构)进行保存(尤其是同步保存)时,CSDL应该在本系统内选择备份保存单位来保存备份数据,并要求委托保存单位提供不断更新的系统软件,保证CSDL在委托单位出现异常情况时仍然能够提供相应的数据服务。
(3)严格按照合同形式规定和管理各方的责任、义务、权利,涉及方面至少包括:权益授予、转移和管理;被保存数据的提供、装载和检验;元数据描述与管理;被保存数据的刷新、迁移和仿真处理;数据服务的提供和控制;长期保存过程管理;相互间的技术与管理支持措施;异常情况报告与处理,等等。
(4)建立积极和可靠的合作机制。数字资源长期保存涉及到多方面的权益,采取多方合作形式,有利于开展数字资源长期保存,已成为国际上的共识。CSDL应该积极地与数据库商建立合作关系,促使他们充分认识长期保存数字资源对于CSDL及其用户的重要性和保障他们利益可持续获得的重要性,争取他们的积极支持和参与,争取他们在技术和管理上的配合。CSDL应该与国外正在开展数字资源长期保存的图书情报机构进行广泛合作,一方面获得有关长期保存的知识、方法、技术和管理经验,另一方面探索与国外机构进行合作来分担数字资源保存责任,共享保存资源。更为重要的是,CSDL应该积极与国内主要图书情报机构中心合作,积极推动全国科技文献数字资源长期保存体系的研究和建设,积极推动外文全文大型数据库的国家存储库(National Archive)建设,积极推动外文文摘数据库和中文全文数据库的联盟存储库(Consortium Archive)建设。由于数字资源长期保存还是一个较新的领域,CSDL应该推动流畅的对话机制的建设,包括CSDL、国内外其他图书情报机构和联盟、数据库商、可能的第三方保存服务商等。
5 CSDL外购资源长期保存的措施和问题
5.1 采取的措施
CSDL已经提出了国家科学数字图书馆数字资源采购技术要求(草案),其中专门对资源采购中的“数字资源长期保存要求”作出规定。按照这个规定,在各种数字资源采购的谈判中,已经将长期保存作为重要的谈判内容,部分采购合同中已经程度不同地体现了这些要求:
(1)CSDL已经与一个国内数据库商签订了关于永久使用权的协议,许可CSDL对已购数据的永久使用,并许可在市场失效的情况下,CSDL可以向原有服务范围或公众提供服务。
(2)多数文摘数据库商同意以光盘形式向CSDL提供备份数据;部分数据库商同意在网络版数据库终止订购后,CSDL可以将备份数据上载到自己的系统,继续为原有的采购单位服务。有的数据库商同意,在合同延续期间,向CSDL提供或低价出售一份带检索软件的备份数据,光盘所有权属于CSDL。
(3)有的数据库商承诺,在购买网络版数据库基础上,以光盘形式提供回溯数据的裸数据,在停止网络版数据库订购后,数据库商提供当时的支持系统软件。
(4)有的数据库商已经同意,将提供相应的系统,支持CSDL以intranet方式建立同步系统。
CSDL还积极参加数字资源长期保存方面的国际合作,例如在2004年牵头组织“中欧数字资源长期保存国际研讨会”,11位欧盟专家将与我国数字图书馆领域的代表就数字资源长期保存的各个方面进行系统研究;参与美国斯坦幅大学LOCKSS长期保存国际合作项目,已经建立了实验平台,运行正式的LOCKSS系统,正在进行中文接口开发和中文资源试验准备。
CSDL还制定了“CSDL集团采购网络数据库的合理使用注意事项”,并广泛对中国科学院用户进行宣传培训,提高用户保护知识产权的自觉性,创造并维护健康的数字资源保存与使用环境。
5.2 面临的问题
由于数字资源长期保存是一个新领域,而且涉及多方面的利益和复杂的技术、经济和管理问题,CSDL在这方面还面临许多的问题:
(1)目前还没有形成一个可供实际操作的数字资源长期保存政策体系和管理机制。
(2)目前还没有建立相对完善的数字资源长期保存技术体系。
(3)某些数据库商(尤其是外文全文数据库商)在长期保存上还没有采取有效措施,CSDL需要与数据库商共同探讨双方可以接受的长期保存模式。
(4)对于已经拥有的长期保存数据,还需要建立健全可靠的数据检验、保存、系统支持、服务提供等相应的机制,还需要分析选择对这些数据的长期保护(例如刷新、迁移或仿真)合适的技术机制。
(5)对于自建数字资源和网络资源,虽然可以部分地参照本文中提出的有关策略建议,但由于资源的特殊性,需要建立相应的专门策略。
(6)对于合作保存,尤其是通过联盟形式建立National Archive或Consortium Archive,还需要与其他图书情报机构密切合作来建立可靠、方便的责任体系、管理机制和服务模式。
本文只是初步讨论了CSDL外购数字资源的长期保存策略,希望所提出的有关建议有助于解决上述问题,也希望能引起更多的同行对数字资源长期保存的实际运作的关注。