机构知识库长期保存的策略分析_机构知识库论文

机构知识库长期保存的策略分析_机构知识库论文

机构知识库长期保存的策略分析,本文主要内容关键词为:知识库论文,策略论文,机构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在开放存取运动的大力推动下,全球机构知识库的数量迅猛增长。截至2009年10月31日,在DOAR上注册的机构知识库共有1515个,这些机构知识库所存储的文献数量多达1592025条[1]。机构知识库所存储的文献其影响力在部分学科已获得引用优势,如以S.Harnad为代表的研究团队对物理学、生物学、心理学、社会学、健康学、政治学、经济学、教育学、法律、商业和管理学学科的分析,发现各学科自存储文章所占的比率分布在5%~36%之间,引用优势的比率分布在136%~298%之间。可见机构知识库资源在数字资源中的比重越来越大。然而,由于数字信息生命周期的制约,目前全球15%的开放存取资源因未得到妥善保存而逐渐消失[2],其中不乏机构知识库所存储的学术资源。因此,对机构知识库长期保存进行研究是机构知识库建设的当务之急。

在机构知识库已成为越来越多的图书馆数字馆藏发展目标的同时,国外已经开始关注机构知识库的长期保存问题,并启动了相关的研究项目。这些项目涉及的内容包括需求与可行性研究、相关软件开发和基于OAIS的保存服务模式探讨[3]。国内由于机构知识库建设才刚刚起步,机构知识库的长期保存还没有被纳入考虑范围,因而机构知识库长期保存的研究还十分薄弱,少数几篇相关的文章也仅仅只是对国外机构知识库的研究进展进行介绍,而未作具体的、深入的研究。以科学发展观来审视机构知识库的长期保存,笔者认为,在机构知识库建设初期就应把长期保存作为机构知识库建设的一个重要环节来考虑,以避免走弯路。本文将对机构知识库长期保存的价值意义、面临的主要问题进行分析,并针对机构知识库的长期保存问题提出相应的发展策略。

1 机构知识库长期保存的价值意义

要对机构知识库进行长期保存,首先就要对长期保存的价值意义有一个正确的认识。

1.1 机构知识库长期保存有利于灰色文献发挥重要的作用

由于新科学研究环境E-science的出现,科学交流的模式将发生重构,非正式交流将增多且作用将增强,促使科研人员越来越重视灰色文献的开发与利用。作为一种通过正式交流渠道无法获取的灰色文献,在机构知识库中正发挥着越来越重要的作用。

机构知识库存储的内容包括正式出版物和大量的灰色文献(如预印本、数据集、多媒体学习对象等多种类型),这些灰色文献记录了科研或教学过程的各个阶段、各个环节中成功的记录和失败的记载,并以丰富的形式真实地再现了这一过程。由于机构知识库中记录和保存有丰富的灰色文献,这就为分布式科研协同环境中的科学研究提供了较为丰富的数字资源,并使科学研究的方法发生了革命性的改变。科学研究可以不再从“源头”开始,科研人员只要通过对已有数据的重新认识、组织、解析、分析和利用,就能产生新的研究成果。这表明在E-science环境下,机构知识库中灰色文献在科学研究中正发挥着越来越重要的作用。因此,有必要对机构知识库中的灰色文献进行长期保存,以便满足用户对灰色文献资源的存取。

1.2 机构知识库长期保存是科研人员学术交流和共享的需要

在E-science环境下,科学数据和信息通常并不公开且很难记载。中国科学院调查数据显示,所有用户都会选择把科学数据和信息存放在个人电脑上作为唯一的选择,其中有18.1%的人员选择“数据中心”,有6.3%的人员选择“个人网站”作为数据存放的辅助方式。统计数据说明,所有的被调查对象将会在科研过程中把调查和实验得到的科学数据放在个人电脑上,而大量的数据却没有得到长期有效的保存和保护。不过,值得注意的是,已经有相当一部分被调查对象开始使用“数据中心”,这种由机构提供的统一存放方式,有助于长期保存科研数据。另有一少部分被调查对象则选择“个人网站”,这就使得科研数据不再是“隐藏资产”,而是以公开的方式展示给其他相关人员,用以进行学术交流和共享[4]。另外,JISC的复合机构库的权利与利益调查显示,保存是调查对象将教学资料存入机构知识库中的主要原因。尽管保存教学资源和保存学术论文的考虑不同,但这也显示出长期保存的承诺使作者对将来可获得资料有更多的信心,从而更有信心将研究成果存储在机构知识库中[5]。上述情况表明,机构知识库长期保存是科研人员学术交流和共享的需要。

1.3 机构知识库长期保存在很大程度上决定着开放存取发展的成败

开放存取是一种新型的学术交流方式,其意是指公众可以通过互联网免费获取学术资源,并可对其进行浏览、下载、复制、传递、打印、检索、超级链接等处理。其含义有两层:一是指学术信息免费向公众开放;二是指学术信息的可获得性。其主要目的之一是对本机构的数字学术资源进行长期保存。如果没有一定的保存措施,这些数字学术资源在不远的将来就会面临载体老化或软硬件过时的问题,就难以再为科研人员所存取。另外,数字学术资源是实现开放存取的基础,而现在机构知识库建设中学术资源的获取较为困难。如不对现有机构知识库资源进行长期保存,那么作为开放存取运动两大实施策略之一的机构知识库资源累积就会受到严重的影响,就会使科研人员在需要机构知识库时却无从获取,从而影响开放存取目标的实现。因此,机构知识库的长期保存问题在很大程度上决定着开放存取发展的成败。

2 机构知识库长期保存面临的主要问题

由于国内外机构知识库建设的时间不长,对其长期保存的研究也才刚刚起步,又由于机构知识库数字资源长期保存相当复杂,因而目前还没有现成的成功经验可借鉴。与传统纸质文献保存不同的是,机构知识库中的数字资源多为原生数字资源,要对这些原生数字资源进行长期保存,必然会涉及许多目前尚未解决的组织、管理、技术、经费等诸多问题。这些问题主要有以下方面。

2.1 资源选择的问题

机构知识库存储的数字资源比较复杂。从内容上看,它有科研人员通过正式渠道出版的文献,如学术论文、会议论文、学术专著等;有通过非正式渠道出版的灰色文献,如预印本、工作总结、会议记录、研究报告、技术报告、硕博士学位论文、机构的内部报告、重要的图表资料、科学数据、课件资源及教学资料等。从格式上看,上述自存储资源以文本、图像、音频、视频等不同格式存放在机构知识库中。从版本上看,有预印本、后印本,以及机构知识库允许资源提交者对所存储资源进行多次修改所形成的同一文章的多个不同版本。以上机构知识库数字资源的复杂性给其长期保存的资源采集和选择带来了很大的难度。

2.2 法律问题

在建设机构知识库的过程中,机构知识库长期保存所涉及的法律问题往往被忽略。RoMEO项目的调查显示,38%的回复者都想当然地认为作者有权利在机构知识库中存储其资源,并想当然地相信作者会允许资源保存者对所提交内容进行迁移,却没有以书面的方式进行确认[5]。实际上,在机构知识库长期保存的操作过程中,自存储资源长期保存的每个环节几乎都涉及相应的著作权问题。如机构知识库根据保存目标必须对所存储的资源进行元数据抽取、格式转换、内容组合、备份迁移、仿真、更新等,都必然要涉及数字资源的存档权、复制权、修改权和完整权。另外,机构知识库长期保存的最终目的是为了提供检索和利用,这又涉及机构知识库长期保存的服务权。著作权法规定,这些权利均为版权人所有,未经授权人许可,不得对其进行长期保存和访问。否则,就会引起版权纠纷,从而影响机构知识库长期保存工作的顺利开展。

由此可见,在现有的版权法律框架下,机构知识库的长期保存必须通过版权人的授权许可方能进行,而现行涉及数字资源长期保存的相关法律则过分强调版权人的权利,著作权法对作品的这种过分保护,极不利于机构知识库长期保存工作的开展。

2.3 技术问题

机构知识库长期保存面临的技术问题主要表现在:①缺乏长期保存的元数据实践操作标准。机构知识库目前所采用的元数据内容只包括数据内容本身和基本的著录数据,而没有采用围绕OAIS参考模型开发的任何长期保存元数据标准,如NEDLIB,OCLC的Preservation Metadata等,所以现在很少有与保存相关的元数据被收集在机构知识库里。②缺乏一个新的共享的保存服务与基础框架。目前机构知识库的保存框架都是基于OAIS参考模型进行构建的。而OAIS只是一个高层概念框架和信息模型,它没有详细说明实施数字资源长期保存的具体运作方法,也不能确保各机构长期保存的一致性与互操作性。③现有软件的长期保存功能有待进一步扩展。目前机构知识库的长期保存软件大多是在现有数字资源管理开源软件的基础上进行功能扩展而成的。但机构知识库的桌面工具和软件没有保存元数据的收集功能,没有用来支持创造和摄取过程;无永久的标识服务、文档格式的注册、描述信息的注册;没有更多的自动控制和工具,没有用于元数据的产生与提取、文档格式的自动识别和确认等[6]。

2.4 信任问题

数字技术的迅速发展和数字资源本身的脆弱性所带来的一系列挑战,以及机构的重组、合并或消亡等一系列不稳定因素也会影响到机构知识库的长期保存。这个问题已引起了国内外资源所有者、资源提供者、资源使用者、服务提供商、仓储伙伴等对机构知识库是否具备长期保存能力的高度关注。对于资源所有者和资源提供者来说,他们需要的是一个可靠的、值得信赖的可存放其科研、学术成果的存储环境;对于资源使用者,需要的则是方便、快捷、权威、值得信赖的检索和使用环境;对于仓储的合作伙伴、服务提供商,出于自身商业利益的考虑,需要对数字仓储进行了解和认识,在充分信任的基础上共建共享数字资源。以上人员非常关心机构知识库能否确保数字资源的长期可靠保存,并维护其真实性、完整性和可用性。机构知识库的长期保存,需要所有人员对机构具有长期保护信息的能力给予极大的信任,然而信任问题一直以来是机构知识库长期保存发展的难题。

2.5 经费问题

经费是机构知识库长期保存赖以生存和发展的基础。目前许多机构知识库基本上是依靠研究机构和组织的短期资助运作,而维持其发展的经费非常有限,这就很难再对机构知识库的长期保存工作进行投入,另外,进行机构知识库长期保存的费用很难精确估算。在机构知识库的长期保存中,其经费预算包括试验经费、存储经费、管理费用、技术更新费用、运行费用、人员培训费用,等等。保存规模、保存模型、保存载体、资源选择等因素又都决定着机构知识库长期保存是一笔不菲的费用,这些不确定因素将导致长期保存工作难以深入。

2.6 责任体系问题

缺乏对数字保存责任的清晰界定是阻碍机构知识库长期保存的主要原因,它不仅存在于组织内部,也存在于不同组织和利益相关者之间。不是所有的机构都能各自规划,并进行所有的数字保存活动。迄今为止,还没有任何一个机构或组织能够独立承担起保存数字资源的社会责任。而且数字保存所涉及的复杂的法律、经济和技术问题,也使任何一个行业都不可能独立地解决数字保存的问题[7]。虽然一些保存功能可由外面的保存服务提供者完成,但这需要进一步研究机构知识库和保存服务提供者的关系、各自的任务与职责。所有数字保存利益相关者在技术和组织层面要达成一致,并明确各自的职责,这是目前机构知识库长期保存迫切需要解决的问题。

从以上分析可以看出,机构知识库的长期保存是一项比较艰巨而又复杂的系统工程,需要从国家宏观战略角度来考虑机构知识库的长期保存问题,需要在国家政策、法律、经济、技术、合作等多方面的支持下进行。这就要加强机构知识库长期保存的策略分析,以保证机构知识库的长期保存得以顺利进行。

3 机构知识库长期保存的策略分析

3.1 制定机构知识库长期保存的国家政策

目前机构知识库的建设主要是由单个的机构自己进行,这些机构无论是从资金、技术,还是从管理、人员等方面都很难对机构知识库进行长期保存,以致容易使长期保存与管理的资源配置效率不佳。而从国家宏观层面上对机构知识库的长期保存进行规划和管理,则有利于机构知识库长期保存的有效实施。因此,从国家宏观层面上制定机构知识库长期保存的政策,是机构知识库长期保存得以顺利实施的保障。

国家宏观层面的机构知识库长期保存政策是国家政府相关部门制定的全国统一的、可供所有组织机构共同遵守的国家政策和指导原则,它表明政府支持机构知识库长期保存的立场和态度[8]。该政策的制定涉及技术、组织、人文、法律、权利管理等多方面。其内容应包括:确定长期保存的目标;完善国家长期保存政策管理机构,加强信息政策协调;指定长期保存的规范流程;提升长期保存活动的地位;强化信息政策的贯彻执行措施;完善信息政策手段;明确有关人员或组织职责;确定技术标准和最佳实践;指定长期保存的延续性计划;建立对实施效果的评价机制;加强政策实施与评估研究,完善保存政策的反馈系统,等等[9]。其主要作用是从国家角度倡导机构知识库的长期保存,并为各级组织、机构进行相关机构知识库长期保存提供宏观指导。

在国家宏观政策总体规划指导下,应结合机构知识库长期保存的实践,由保存主体来制定相关的保存政策,解决保存什么、如何保存、保存多长时间和由谁负责保存的问题[10]。在制定机构知识库相关保存政策时,应以保存目标为基础,注重保存资源的选择。由于机构知识库多为自存储资源,资源提交者在提交其作品时往往带有很大的随意性,加之没有采取传统的审稿机制,因此没有必要对所存储的学术资源全部保存,而应有所选择。在机构知识库长期保存时,应制定资源的选择和评价标准:①长期保存的学术资源要有创新性、学术性、完整性和正确性等。②根据数字作品的点击率、下载率、引用频次等来判断资源的学术价值。一般说来,数字作品的点击率、下载率、引用频次越高,其学术价值也就越高,其保存价值也就越大[11]。③为了提高机构知识库长期保存的使用效率,避免其长期保存内容的重复,应注意以下资源的选择。一般来说,正本已有其他机构保存,机构知识库就无须长期保存,但正本有附加材料,且是正本不可分割的部分,则应与正本一起保存。后印本和正本无区别,也不用长期保存。预印本则应长期保存。因为与正本相比,预印本有时会包含更多的细节或者相关的数据,内容更为丰富,并不完全等同于正式出版的论文。通过对多个版本的对比,可以发现作者研究思路的变化,是使隐性知识显性化的最佳途径之一,因此有必要根据同行评议材料,结合①、②对预印本进行长期保存。

另外,机构知识库应建立已存缴作品的撤出管理机制。可以根据数字信息的生命周期,对存取技术过时、利用率逐渐降低的学术资源进行撤销,以节省机构知识库长期保存的费用。

3.2 营造机构知识库长期保存的良好法律环境

机构知识库长期保存的法律问题,被学术界一致认为是机构知识库长期保存的瓶颈问题。营造机构知识库长期保存的良好法律环境,可以保证机构知识库长期保存工作的顺利开展。如何营造可以从以下方面进行:①加强与出版商协商,与之签订存储协议,并在协议中增加“永久保存”条款。机构知识库应在资源提供者提交内容的同时,与其签订一份存储许可协议。该协议应包括4个方面的内容:资源提供者合法存储预印本的权利;资源提供者对已存储的内容所拥有的权利;允许机构知识库对已存储的内容进行维护;在哪些情况下机构知识库能删除预印本。与出版商签订协议作用在于:明确版权所有者的身份;明确机构知识库可以为保存和备份而对预印本进行移动、复制和改变的权利,在论文涉及侵权时,可减小机构知识库的法律责任;使资源提供者充分了解自己所拥有的权利以及机构知识库提供的服务[5]。②建立集中授权机制。机构成员授权机构对自己正式发表或相对公开使用的作品进行收集和存缴[12]。③对网络环境下的版权法进行适应性修改,承认和扩大合理使用的范围。各国实践证明,要使数字资源被保存机构合法收集、长期保存和有效利用,必须强调相关利益关系的平衡,解决好著作权问题。而各国著作权法对传统资源合理使用的规定并不适用于数字资源的长期保存,这就需要对网络环境下的版权法进行适应性修改,重新平衡各方权益,明确承认公众在知识传播和利用中的权利,明确承认为了教育和学习必须平衡各方面的权利,扩大对著作权限制与例外的解释,以利于公益性目的的实现。为此,应赋予图书馆在机构知识库长期保存中相应的保存权、处理权和服务权等,以利于机构知识库学术资源的长期保存,从而更好地促进开放存取目标的实现。④建立电子文本的呈缴本制度,辅之以经济补偿机制。呈缴本制度是一项国家政策,其根本目的在于完整保存国家文化遗产,保障公民自由利用信息资源的民主权利。新西兰、新加坡、丹麦、挪威等国已建立了数字资源的呈缴本制度,它们以法规形式规定了图书馆负责该国数字资源长期保存的职责和权利,并建立了国家层面上的数字资源呈缴框架与信息存档体系,这为机构知识库数字资源的长期保存提供了借鉴。另外,一些国家在实施数字资源呈缴制度的同时,还给予呈缴者一定的经济补偿,激发了呈缴者的积极性。

因此,只有营造良好的数字资源长期保存的法律环境,让图书馆获得应有的权利,机构知识库的长期保存才能得以进行。

3.3 制定机构知识库长期保存的技术策略

技术是机构知识库长期保存的核心与关键。在制定机构知识库长期保存的技术策略时应注意以下方面:①加强内容格式的标准化。资源提供者向机构知识库所提供资源的格式多种多样,其中有Ms Word,PPT,Excel,Visio,Html,PDF等格式。为了减少数字资源长期保存格式转换的风险和成本,提高机构知识库长期保存的几率,在作者自存档时,应规定PDF为机构知识库长期保存的文档标准格式;对于非常用格式来说,应通过机构知识库系统把它自动转换为常用格式,并逐步建立支持复合对象格式。②扩展元数据中有关长期保存的内容。保存元数据是用来描述有关数字资源保存特征信息的元数据,是由负责数字资源维护机构保存的一种内部信息。这种数据通常不被用户所用,而只是用来对数字对象进行长期维护。JISC认为需要在OAIS规定的元数据框架上增加数字对象描述的几种元素,包括存储对象的技术保存信息、权利信息、管理保存元数据信息以及其他与长期保存密切相关的信息。③构建机构知识库数字保存系统。机构知识库构建软件大多采用比较成熟的开放源码软件,如Dspace,Eprints,Fedora等。而目前大多数机构知识库软件在设计时,都没有将长期保存考虑在内。根据《OSI机构知识库软件指南》,只有DSpace和CDSware在设计时对数字保存战略进行了定义。但即使是DSpace这种较为成熟的机构知识库软件,也并没有满足在数字资源长期保存上的需求,其长期保存功能也有待于在保存管理功能、摄入功能、仓储功能、存储和访问功能上进行一定程度的扩展[13]。只有这样,才能更好地满足数字保存系统的需要。④采用DOI信息资源唯一标识。在DOI注册中心注册,有利于数字资源的长期保存和唯一识别。⑤对机构知识库长期保存的数字资源进行备份,建立多个副本以保证数据的安全。

3.4 构建机构知识库长期保存的可信数字仓储

要取得公众的信任和政府的支持,必须构建机构知识库长期保存的可信数字仓储。机构所建立的机构知识库数字仓储是否可信,并不是由机构自己说了算,还要经过公正客观的第三方机构对其进行严格流程的认证。只有遵循认证标准并最终通过认证的数字仓储,才能成为可信数字仓储。

在RLG,OCLC和NARA可信赖仓储的基础上,2006年12月,德国Nester工作组发布了《可信赖数字仓储标准纲要》;2007年2月,美国研究图书馆中心发布了《可信赖仓储审核和认证:准则和减产要点》;2007年3月,英国DCC和欧洲DPE发布了《基于风险评估的数字仓储审核方法:DRAMBORA》,并提供了评估工具DRAMBOR Toolkit,该方法将对保存仓储的评价指标和方法具体化。2008年3月,美国第108条款研究组在其研究报告中提出开展数字资源长期保存机构必须满足的6项资质要求:具有备份功能的强大存储系统;具有唯一和永久的信息对象命名机制,以确保数字对象能被快速识别与查找;具有整套标准方法用于持续性检测数字作品的完整性;具有标准的安全装置,以防止所保存的数字作品被非法授权访问;具有评估与记录被保存数字作品的格式、来源、知识产权和其他重要信息的能力;具有以适当的格式存储数字作品,确保在需要更改存储格式时能够方便地进行格式转换的能力[14]。

以上审核和认证方法的出现,为数字保存系统组织进行数字保存可靠性的自我评价、审核和认证提供了具体的指南。机构知识库可以将上述认证标准作为构建可信数字仓储的指南,从而不断提高公众对机构知识库的信任度。

3.5 建立机构知识库长期保存的合作机制

由于机构知识库的长期保存是一项比较艰巨而复杂的系统工程,它需要国家政策、法律、经济、技术等多方面的支持才能进行,仅靠某一机构的力量是难以承担的,因此,合作就成为机构知识库长期保存的必由之路。合作可以在不同层面展开,如图书馆之间的合作,图书馆与相关服务提供商之间的合作。

为了提高长期保存的效率,为了节约成本、均衡负担、减少风险,有必要建立多个机构间不同层次的合作保存机制。所谓合作保存机制,是指在合作中涉及的各个要素以及它们之间的相互联系和作用的关系。其要素包括责任体系的选择、资金的筹集和分配、技术与资源上的共享等[15]。

合作保存机制的类型有:①国家存档体系,即国家专门委托的由少数机构承担运营的多个长期保存库。②联合存档系统,即多个机构联合,对共同拥有的资源分工负责进行长期保存。③联合委托保存系统,即多个机构联合委托一个或若干个第三方机构,对共同拥有的资源长期保存[16]。研究表明,根据目前各机构在技术储备与专业知识、人力资源方面的不足,采取分布式的、第三方的保存服务模式比较适合机构知识库的长期保存。

为了使机构知识库间的长期合作保存获得成功,应在基于信任的合作基础上解决以下问题:①确立明晰的责任体系。由于机构知识库多为图书馆创建,且图书馆作为传统的信息资源与服务管理中心,在信息组织和存储方面有其独特的优势,因此在网络环境下,图书馆仍然应承担机构知识库管理和长期保存的重要任务。正如国际图联与国际出版者协会(IFLA/IPA)在其联合声明中指出“出版者应该担负短期保存的责任,长期保存的责任由图书馆承担”,“国家图书馆应该同其他图书馆一起领导数字出版的长期保存”。②建立互惠互利的合作机制。合作的运作原则之一是遵守统一的规则,建立相互信任及维护共同利益。在确立了图书馆作为机构知识库保存责任主体地位的情况下,应构建以国家图书馆为核心,联合其他组织和机构建立分布式长期保存的合作机制。在此合作机制中,每个合作的责任主体都要明确自己所处的位置、承担的责任和需要履行的职责,做到风险共担,利益共享,奖优罚劣。③明确职能分工。由于机构知识库长期保存中的影响因素比较复杂,任何一个合作者的选择都必须从自己原有特色出发,以科学的标准为指导来进行职能分工。必要时,可以将某些特定的保存承包给第三方完成。④实现技术成果的共享。技术成果的共享是减少经费、分担风险、统一标准的最佳方式。如英国数字联盟(DPC)就在合作章程中明确规定,合作者应共同分享研究成果。⑤保持良好的沟通。合作共同体成员之间良好的交流是合作成功的必要保证,应设置专门的机构委员会以保证沟通渠道的畅通。⑥建立长期保存登记机制[2]。通过长期保存登记机制,可以使资源的保存公开透明,并让机构知识库掌握和更新保存情况。

综上所述,机构知识库的长期保存面临着诸多问题,要开展机构知识库的长期保存,必须在国家政策的宏观指导下,根据长期保存的目标,采用合适的技术方案,确立明晰的责任体系,在合作的基础上才能得到有效的实施,从而为公众提供一个可信的数字仓储,让机构知识库为用户的教学和科研提供强有力的学术资源保障。

收稿日期:2009-12-22

标签:;  ;  

机构知识库长期保存的策略分析_机构知识库论文
下载Doc文档

猜你喜欢