国外机构知识库的长期保存研究及其启示——浙江天宇信息技术有限公司协办,本文主要内容关键词为:浙江论文,信息技术有限公司论文,知识库论文,天宇论文,启示论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
机构知识库是获取和保存一个或多个大学的知识产品的数字收藏[1]。它是学术界保存和传播知识产品的一个新的重要领域,为研究人员提供发布和共享研究成果的平台,使之可通过网络免费地、毫无障碍地获取资源,使学术交流更为方便快捷,已成为目前学术交流结构的一个重要组成部分。但是,技术和组织环境的发展变化,数字资源的易逝性,使得数字信息资源处于随时会被破坏甚至丢失的风险,机构知识库的内容也不例外。为了确保机构知识库内容的长期有效性,机构知识库领域也开始关注长期保存的问题,并启动了相关的研究项目。本文分析了机构知识库实施长期保存的必要性,并从需求与可行性分析、基础设施及相关软件开发和保存服务模式三个方面介绍了国外的一些相关研究项目,以期能对我国机构知识库的构建及将来的长期保存提供借鉴和参考。
1 机构知识库实施长期保存的必要性
机构知识库出现的时间并不长,长期保存问题还不突出。因以,对于是否有必要对机构知识库的内容进行长期保存这一问题,业内人士并未达成共识,例如,对此问题,JISC(Joint Information Systems Committee)知识库邮件列表中有着广泛的争论[2]。有些人认为,开放获取知识库的目的主要是访问、利用和影响,而机构的已出版的期刊论文早已由其它实体承担,如出版商和法定的存储图书馆。另外一些人则认为长期保存是一个非常重要的功能,认为机构知识库从一开始就应该将这个问题考虑在内。笔者比较认同后一种观点。
1.1 机构知识库的内容需要长期保存
对机构知识库内容需要长期保存持否定态度的人认为,目前,机构知识库存储的内容以预印本为主,预印本是传统形式出版的期刊论文的复本,而传统形式出版的期刊论文早已有其它实体进行保存,似乎没有必要进行重复保存。
但这种观点有失偏颇。首先,预印本作为开放获取资源的一部分,其目的在于免费地为用户提供存取。如果没有一定的保存措施,这些数字资源在不远的将来就会面临载体老化或软硬件过时的问题,无法再为用户所利用。其次,与正式出版的论文相比,预印本有时会包含更多的细节或者相关数据,内容更为丰富,并不完全等同于正式出版的论文,有必要进行保存。
另一方面,作为一种有效地管理和保存机构的知识基础和智力资源的工具,机构知识库的内容除了预印本以外,还将包括研究数据、e-learning资源和其它形式的机构智力产品。如SHERPA Plus[3]的目标之一,就是将知识库内容由预印本扩展到数据集、多媒体、灰色文献、学习对象等多种类型。而这些扩展的内容没有出版,也没有其它机构对其进行保存。所以,从内容上来看,机构知识库需要长期保存,以确保其内容的真实性、可靠性和完整性,以及用户将来对其内容的存取。
1.2 机构知识库的发展需要长期保存的承诺
机构知识库的内容源于机构内各成员的自存储行为,这种行为完全是自愿的。因此,如何吸引作者将相关的研究成果存放在机构知识库中,是目前机构知识库发展所面临的挑战之一。JISC的“复合机构知识库的权利与利益调查”显示,保存是调查对象将教学资源存放在机构知识库中的主要原因。当被调查者问到,将资源放在机构知识库的原因时,“机构知识库能帮助管理和保存这些资源”占了很大的比例。尽管保存教学资源和保存学术论文的考虑是不同的,但调查结果显示,长期保存的承诺使作者对将来利用资源有了更多信心,从而更有动力将研究成果存储在机构知识库中[4]。
2 国外机构知识库的长期保存相关项目
国外机构知识库的发展,一直呈现稳步上升的趋势。随着机构知识库数量的增多和内容的丰富,国外也开始关注机构知识库的长期保存问题,并启动了相关的研究项目。以下是几个起步较早的项目,涉及的内容包括需求与可行性研究、相关软件开发和基于 OAI的服务模式探讨。
2.1 需求与可行性研究
目前的需求与可行性研究包括两个方面:一方面是对机构知识库实施长期保存的需求和可行性研究;另一方面是针对长期保存所涉及的技术的需求分析。
2.1.1 “预印本保存的需求和可行性研究” (Requirements and Feasibility Study on Preservation of eprims)[5]
该项目由AHDS(Arts & Humanities Data Service,艺术与人文数据服务中心)承担。预印本是目前机构知识库中的主要内容。机构知识库最初的重心主要放在知识库的构建、论文的存放、促进知识发现和存取,以及支持预印本知识库发展中所必需的文化变革等方面。但是,要实现对机构知识库内容的持续的存取,就必须将长期保存的问题考虑在内。该项目就是为了解决这一问题,主要是提供进一步研究的建议,开发相关的服务和工具以支持英国预印本内容的长期保存。
这一项目的最后报告形成了三个结论:(1)预印本保存的技术特点:预印本对于保存技术没有特别的要求。一般的保存战略,如标准格式的转换、移植、仿真等,都可用于预印本的长期保存。(2)预印本的组织环境:短期的项目资助支持了英国基于主题的知识库和机构知识库的建设。但是,研究表明,只有更为稳定的组织结构才能促进其长期保存。也就是说,长期保存需要长期的资助。(3)现在就开始保存:为了从长远的角度来对预印本进行管理,预印本知识库需要从现在就开始着手解决保存问题,开始收集管理和保存元数据,以支持机构知识库的资源管理。如果不及早地考虑这一问题,就只会增加将来预印本保存的成本。
2.1.2 开放资源知识库的保存元数据的需求说明研究[6]
开放资源知识库的保存元数据的需求说明研究 (Requirement Specification of Preservation Metadata Capability in Open Source Repositories)是ASPR(The Australian Partnership for Sustainable Repositories)的子项目之一。 ASPR由澳大利亚教育科学和培训部(DEST)资助,作为系统基础设施计划的一部分,提升可持续的数字仓储的优点。
由于目前没有一个开放资源的知识库有能力管理元数据以确保其可持续性,也很少有开放资源知识库将其作为优先考虑的内容,该项目将对保存元数据的需求进行详细说明,从而使这些需求可以嵌入到适当的知识库中。项目主要通过与合作机构的主要程序员协商,来确定需求说明,以便于尽快付诸实施。因为这些说明很有可能在DSpace和FEDORA中得到实际的应用,因此,研究建议在DSpace和Fez开发者的支持下形成需求说明。即需求说明需要与使用环境相结合,才能真正反应实际的需求。
2.2 基础设施服务及相关软件的开发
基础设施服务,也就是知识库运行所需要的各种功能,如摄取、数据管理、文档存储和存取功能等。相关的研究项目主要有:
2.2.1 Preserv(Preservation Eprint Services)[7]中的摄取服务
这部分内容由南安普敦大学与英国国家档案馆和牛津大学图书馆合作,旨在基于OAIS数字保存的参考模型,在应用Eprints软件构建的知识库中实施摄取服务(ingest service)。南安普敦大学和国家档案馆提供元数据抓取和文件格式识别与确认的模块工具。文件格式的识别与确认是通过一种网络服务将Eprints软件链接到PRONOM软件来实现的,但这个过程不可能实现完全的自动化,因为完全自动化对数据覆盖的要求很高,很难达到。因此,项目将研究一种技术观测服务对PRONOM进行补充和更新,识别不同部分的需求。为了进行评估,摄取服务将会整合到南安普敦大学和牛津大学机构知识库的存储过程中,接受满意度测试。
2.2.2 过时自动提示系统(Automatic Obsolescence Notification System,简称AONS)[8]
该项目是APSR(The Australian Partnership for Sustainable Repositories)的子项目之一。APSR由澳大利亚教育科学和培训部(DEST)资助,APSR的重要目标之一在于确保机构知识库中对数字对象的长期存取。机构作为系统基础设施计划的一部分,提升可持续的数字仓储的优点。
PANIC(Preservation Architecture for New Media and Interactive Collections)是一个基于保存元数据、自动提示服务、软件、格式登记和语义网格服务的整合的、可扩展的结构,它为不同种类的资源集合的长期保存提供了一种可持续的、动态的方法。而实施自动数字保存系统的第一步是过时检测和提示。该项目的目标在于通过DSTC、APSR和DCC(Digital Curation Centre)的合作项目来评估PANIC的过时检测和提示模块,并发布一个工作原型用来安装在APSR知识库上。该项目借鉴了DSTC的经验和专门技术以及DCC的研究工作,研究在英国数据管理中心的描述信息登记库 (Representation Information Registry)上加载一个过时检测和提示模块。当一个对象的现有的保存或格式元数据与登记库中最新记录的信息不相容时,相关信息就会发送给指定的人或者软件代理,提示潜在的风险。
2.3 长期保存服务模式探讨
目前有两个相对比较大的研究项目对机构知识库长期模式进行了探讨,这两种服务模式都是分布式的、合作的保存服务模式,但又各有特色。
2.3.1 Preserv(Preservation Epfint Services)[9]
英国国家图书馆和南安普敦大学运用Eprints收集的元数据来构建和测试一个基于OAI的保存服务模型。Preserv项目通过增加机构知识库在存储阶段的信息抓取,通过PRONOM来确定准确的格式信息,随后通过一个适当的OAI收割机制,将保存信息自动地分发到各分布式信息服务商。其特点在于它所提供的是一种独立于软件的保存服务模式。Preserv的分布式保存结构如图1所示:
图1 Preserv的分布式保存结构
(源自于:Hitchcock S.Repository Models and Policies for Preservation.http://www.dpconline.org/docs/events/06briefdigrephitchcock.pdf)
2.3.2 SHERPA DP(Securing a Hybrid Environment for Research Preservation and Access:Digital Preservation)[10]
该项目由AHDS牵头,诺丁汉大学和其它3—4个 SHERPA的参加者共同承担。该项目是SHERPA的后续项目。SHERPA在20个参加机构中建立了开放获取的预印本知识库,并研究了创建、增加和维护预印本资源中遇到的关键问题。而SHERPA DP关注的是预印本知识库的长期保存问题,旨在为以OAIS参考模型为框架的SHERPA项目创造一个合作共享的保存环境。保存环境的构建包括研究技术挑战、元数据需求、管理和工作流程,以及将这些内容包含在OAIS参考模型中。SHERPA DP的特点在于:在不明显改变已有的组织和技术框架的前提下,将保存实践引入现在的机构知识库;减少了多个知识库的保存活动的重复性;在多个机构知识库之间实施标准的保存活动;实现了保存服务的自动化;应用高容量的异地保存工具。
该项目将SHERPA机构知识库与AHDS保存仓储集成起来,将之前的合作扩展到整个保存服务,形成一种分布式的、第三方的保存服务(见图2)。它避免了每个机构知识库重复增加长期保存模块,节省了费用,也解决了各机构存储技能与专业知识的人力资源不足的问题。保存服务层可能提供的功能包括:支持元数据和数据的收割;格式转换工具;文件完整性检查工具;保存元数据的抽取工具;过时文件格式检测;提醒和迁移服务;一种或多种将数据和元数据传回机构知识库的方法。
图2 SHERPA DP的保存服务模型
(源自于:SHERPA DP:Creating A Persistent Preserva tion Environment For Institutional Repositories.http://www.sherpadp.org.uk/documents/Sherpa-DP-final.pdf)
该项目将研究这一模式的应用实例,并希望建立经济的模式,用以确保机构知识库的长期可持续性。项目最后还将形成一个数字仓储保存用户指南,在SHERPA和其它相关计划的研究基础上,推荐预印本知识库的管理、保存和呈现中可以采用的标准、最佳实践、原型和过程。
2.4 国外机构知识库的长期保存研究的特点
从以上项目可以看出,目前开展的机构知识库的长期保存研究呈现出三个特点:
(1)在技术层面上,都是基于对现有的机构知识库软件进行改造,在不明显改变已有的组织和技术框架的情况下,将保存实践引入现在的机构知识库。
(2)重视机构知识库长期所涉及的组织管理问题的研究,如需求与可行性分析、政策调查分析等,为机构知识库的长期保存实践奠定研究基础。
(3)注重对合作保存模式的探讨。数字保存领域有一个共识,那就是合作是必要的。合作主要体现在项目分工、资源共建、信息共享和经费分担方面。对于机构知识库的长期保存来说,合作就显得尤为重要。它可以避免机构在长期保存上经费和人力方面的重复投入,让机构将工作重心放在知识库的建设上。
3 对我国机构知识库长期保存的启示
我国的机构知识库还处在起步阶段,一些大学和科研机构正在尝试着构建机构知识库。只有少数大学,如厦门大学[11]和香港科技大学[12],已经建成了机构知识库并投入使用,这两个机构所使用的都是 DSpace软件[13],该软件是MIT图书馆和HewlettPackard Company的合作项目,它是一个分布式数字资源保存系统,适用于大学等机构保存其机构知识资源,而且它在设计时就已经将数字保存战略考虑在内。因此,我国目前的机构知识库在实施长期保存上已经具备了一定的软件基础,但要真正实施长期保存还需要两个层面的支持。
3.1 机构知识库的长期保存需要国家层面的支持
从机构知识库的长期保存来看,单个机构是很难独力负担长期保存的费用、人力及其它投入,只有在不同机构之间进行合作保存才能实现机构知识库的可持续性发展。目前我国的机构知识库的数量太少,根本就谈不上合作保存。国外机构知识库的数量及其内容一直都处于增长的势头,这在很大程度上得益于各国政策及相关研究的大力支持。以英国为例,RCUK发布了相关政策,要求所资助的研究论文必须存放在机构知识库中;而JISC则资助了许多机构知识库的研究项目,支持机构知识库的构建与发展。机构知识库在我国还并未能为很多机构所接受,机构的领导还远远未认识到构建机构知识库对于机构本身、机构成员的意义,因此,它的推广还有待于从国家层面给予一定的支持才能有所突破。另一方面,有了一定数量的机构知识库,要实现机构知识库之间的保存合作与协调也需要国家层面的支持,包括政策机制、技术开发以及资金支持等。
3.2 在机构知识库层面,在扩充知识内容的同时,也要重视知识库的长期保存问题
由于我国机构知识库还在建设的初期,无论从资源量还是从时间上来看,长期保存问题还不是很紧迫。因此,现阶段应该将机构知识库的重心放在知识库内容的扩充上。应该采取各种措施进行广泛的宣传,吸引机构内成员将研究资料存放在机构知识库中。但是,并不能因此而忽略或放弃对长期保存的思考和设计,不能等到问题到了眼前才想办法去解决。
由于目前没人能准确预计哪些资源需要保存,什么时候需要保存,需要采取什么方法进行长期保存,所以,在构建机构知识库时应该将长期保存考虑在内,从技术、组织和管理等多个层面为将来的长期保存提早做准备。如在技术方面,在资源提交时就考虑收集相关的格式信息,避免格式过期时找不到相关的格式信息,而无法进行长期保存;收集管理和保存元数据,以支持机构知识库的资源管理;在组织管理方面,可以尽早拟定一些长期保存政策,确保相关活动的开展。与此同时,还应该积极关注国外机构知识库长期保存的研究与实践的发展,借鉴他们的经验与教训,避免犯同样的错误,走别人走过的弯路。
收稿日期:2007-02-13