数字资源长期保存联盟研究,本文主要内容关键词为:数字论文,联盟论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着人们对数字资源应用的日益普及,数字资源的长期保存与获取已引起人们的广泛关注,有关的研究实践项目层出不穷。但实践证明,合作努力远比单个机构的实践效果更好,能在更大范围内推动数字资源的长期保存与获取,而联盟无疑是机构合作中比较有效的一种方式。 联盟一般都是非营利的组织,其通过订立盟约的方式,明确共同的目标和使命,以此协调联盟成员共同实现联盟计划,达成联盟目标。数字资源保存联盟即是指为了数字资源的长期保存和持续服务而建立的两个或两个以上图书馆的联合体,其以联盟协议的形式集中了各个图书馆的资源、技术、人员、服务等,甚至是资金,共同搭建了数字资源长期保存的服务体系。一方面,降低了单个图书馆构建数字资源长期保存体系的成本,提高了效益;另一方面,又极大地拓展了单个图书馆用户获取数字资源的范围,将其拓展到了联盟范围。联盟降低了数字资源保存的门槛,尤其是对一些技术薄弱、资金匮乏的图书馆,联盟共建是一个非常好的选择。 近年来,随着信息技术的快速发展,基于数字资源长期保存合作机制的联盟不断涌现,共同致力于数字资源长期保存和永久可使用。例如英国的数字保存联盟(DPC)、美国的国家数字管理联盟(NDSA)、基于高等学府的学术资源保存信任联盟(APTrust)、元数据存档联盟(MetaArchive)、OCLC的云图书馆计划等。联盟的建设基本上采用了开放档案信息系统(OAIS)参考模型,但不同的联盟由于规划、使命、目标、运营方式等不同,其资源存储方式、架构等也存在差异,在实践发展中逐渐形成了隐暗保存(重点保存、限制使用)、开放保存(保存与开放使用并重)和生态保存(保存为会员服务、生态发展)三种模式。 为全面了解数字资源保存联盟的发展情况,笔者分别选取了Portico(隐暗保存联盟)、HathiTrust(开放保存联盟)和DPN(生态保存联盟)进行了分析,以期为国内数字资源保存联盟的建设提供参考,进而推动数字资源保存与获取工作的发展。 1 数字资源保存联盟及其架构 1.1 隐暗保存联盟——Portico Portico由梅隆基金会支持于2005年创立,是第三方数字资源存储的联盟,其主要目的是与图书馆和出版商合作,保存电子期刊、电子书和其他电子学术资源,以确保未来可使用。Portico是一个隐暗保存联盟,一般是作为数字资源长期保存的后台系统存在,并不支持用户的访问,只有在特定的条件下,资源才能被访问,即使是会员机构,访问也是有权限限制的[1]。 Portico是一个非营利的联盟组织,主要是通过组织运行的模式,与出版商、图书馆等签订契约,由出版商、图书馆等支付保存费用并授予Portico对资源的长期保存权,而Portico基于字节保存资源,提供包括IT基础设施在内的存储、迁移等长期保存服务。Portico采用的是基于格式的迁移策略,重点在于在保存的起初就确认保存的元数据,并确定内容的实用性保存,以在必要时迁移。Portico要保证所有存储资源的可用性、真实性、可发现、可访问,因此,为图书馆提供了比较图书馆馆藏的服务,为出版商、图书馆提供了评估、审核保存内容等服务项目。Portico应用了OAIS概念框架,执行了METS,MPEG-21标准的一部分——DIDL,TRAC等标准等,其架构如图1所示。 Portico是一个大型的保存联盟,截至2015年11月,共有966家图书馆、超过2000家出版商加入了Portico[2]。Portico保存的内容包括三方面:电子期刊、电子图书和数字历史资料。截至2014年,共保存电子期刊36 354 620册,其中89%获得了永久使用服务提供权;保存电子图书400 848册,其中69%获得了永久使用服务提供权;保存数字历史资料140种,其中52.9%获得了永久使用服务提供权;共计保存资源超过103 387万条[3]。 Portico后又加入数字保存联盟(DPC),DPC是英国最大的开放式的非营利组织,其成员广泛,既有事业单位,也有商业机构,共同致力于通过知识交流、能力建设、联合保障、大力倡导和合作共建,推动数字资源长期保存的发展,以为会员提供有弹性的长期数字资源服务,并帮助会员从数字资源中获得持久的价值[4]。 1.2 开放保存联盟——HathiTrust HathiTrust数字图书馆成立于2008年10月,最初由机构合作委员会下属的13所大学和加州大学组成,是一个横跨美国、加拿大和欧洲的国际联盟。截至2015年11月,其联盟/系统会员已有4家,单个机构成员已经超过了100个[5]。 HathiTrust是一个由图书馆发起创建的为图书馆服务的联盟系统,其主要目标是资源的共建共享与长期保存,并最终服务于图书馆,支撑教师、学生和研究机构的教学活动,满足更广大公众的学术需求。HathiTrust的战略目标包括:(1)集中各个会员机构的纸质资源,转换、建立一个可靠的、日益全面的、共同拥有和共同管理的数字资源仓储;(2)拓展上述资源的访问渠道;(3)开发对于学者和研究者有价值的、包含各种格式的数字资源的基础设施;(4)通过合作服务,确保纸质和数字学术资源在HathiTrust中的长期保存;(5)降低运营成本,关注会员图书馆纸质资源的协调共享,改进资源存储策略;(6)搭建合作机构间的公共基础结构,保护校园知识产权,降低成本;(7)定义并提供一组服务,支持使用HathiTrust语料库研究;(8)创建一个技术框架,允许会员机构创建工具和服务;(9)维持HathiTrust的公益性,同时为会员提供公益服务[5]。 HathiTrust是一个基于云集中存储的开放服务的数字资源保存联盟,它提供了包括谷歌、存档的网络资源、微软、合作机构的电子资源、纸质资源的数字化、内部资料等数字资源,通过与OCLC合作,提供统一的检索平台,将各个成员机构的数字资源整合起来,提供五种检索方式:HathiTrust目录检索、WorldCat Local目录、全文检索、资源生成检索、单卷检索,并提供了主题、作者、语言、出版地、出版日期、原始格式、原始存储机构等改进检索结果的途径。截至2015年10月,HathiTrust已拥有数字资源1330万件,超过500万件(占文献总数量的37.62%)的文献不受版权保护,是公共域的文献,面向全球开放获取使用,其中中文文献约占0.74%。 HathiTrust阐述了开放服务定义(API),使成员机构能更安全地访问资源。HathiTrust应用了标准OAIS、TRAC,元数据标准METS、PREMIS等,并定期检查存储内容的完整性。HathiTrust还提供了了可视化的工具,便于资料的可视化分析;允许手机、ipad、平板电脑等移动设备随时连接、下载、保存资料等[5]。 HathiTrust有两个活跃的存储中心,还有一个数据备份中心设在密歇根州,用于全部数据的备份,每隔3~4年,存储数据就更换一次[5],其架构如图2所示。 1.3 生态保存联盟——DPN 数字资源保存网络(the Digital Preservation Network,简称DPN)成立于2012年,目前已经拥有63个会员机构,这些会员机构有高校、基金会、委员会等,其共同致力于为后代长期保存完整的学术资源。 DPN介于隐暗存储与开放存储两者之间,是一个多节点存储的生态系统,存储的资源仅对会员机构提供服务。DPN目前有6个数据节点(数据存储点),分别是Academic Preservation Trust(APTrust)、Chronopolis、HathiTrust、Stanford Digital Repository(SDR)、University of Texas Digital Repository(UTDR)和DuraSpace。 DPN融合了多个异构平台,允许节点或会员机构采用不同的数据存储平台、不同的组织模式、不同的运行方式,目前系统应用的平台包括Documention、Dpn、Dspaces、Dspacedirect、Duracloud、Duraspace、Fedora、Hydra、Islandora、Teams、Vivo等,同时,DPN还对同一资源的不同版本进行存储。此外,DPN在对学术信息资源和新资源建立本地存储节点、提供服务的基础上,还建立了多个隐暗数据节点,以长期备份存储学术资源,防止因技术、管理或自然灾害等造成的灾难性损失[6]。通过这些努力,DPN力图建立一种各节点或机构独立保存而又能互操作的保存网络,以适应多样化的资源存储环境,降低资源保存的风险,并通过技术、法律框架等的协调,实现可信任的服务,其架构如图3所示[7]。 DPN中的互操作一般采取以下流程: (1)DPN会员可以直接与DPN的节点联系,通过合同谈判确定服务的标准,并通过第一节点将资源存入DPN中,第一节点是唯一的DPN访问入口; (2)DPN将资源从第一节点复制到其他节点(即备份节点),在备份节点中,资源只是隐暗保存,不提供访问; (3)DPN的审计和修复功能会不间断地监控所有节点资源的完整性,并对损坏、错误或丢失的数据进行修复; (4)当第一节点的资源发生损坏或丢失时,能从备份节点恢复资源,包括个别内容的恢复、一组内容的恢复和第一节点全部内容的恢复; (5)当节点加入或退出DPN时,DPN会重新分配存储资源,以保证随着时间的推移,内容和服务的连续性[7]。 通过这样的一个流程,DPN确立了一个资源长期保存与管理的章程,并突出了每个节点的参与性和贡献度,并以其系统架构、组织结构、地理区域、政治环境等的多样性以及有效的审计、迁移策略等推动联盟的生态发展,以实现使“高等教育机构拥有对学术资源长期持有、维护和管理的能力”的目标。”[8] 2 对比分析 2.1 运行时间 综合比较三个联盟,都有很大的影响力和覆盖面。虽然三个联盟的建设时间有早有晚,Portico建设时间最早,而DPN建设时间最晚,但在美国或者世界范围内都有较大的影响范围。联盟建设时间的早晚也体现在会员数量上,建设最早的Portico拥有最多的会员,可以称得上是世界最大的联盟之一,HathiTrust次之,DPN会员最少。但从联盟的动态来看,Portico加入了DPC,HathiTrust加入了DPN,可见,联盟是一个动态发展的组织,彼此之间会有重叠、合作。 2.2 建设理念 建设理念不同,是三个联盟最本质的区别。Portico建设理念在于“存”,即将资源集中储存起来以备后人使用,只有当出版商停止运作、停止某期刊的出版、不再提供回溯期刊、平台遭受破坏且资源无法再从其他源头获得时,图书馆具有出版商的授权,Portico才为用户提供所保存内容[9]。HathiTrust的建设理念在于“共建、共享、共有”,即多个图书馆签订合作协议,将资源集中搭建云环境资源库,提供基于“云”的共享服务;对于一些公共域的资源,还提供开放获取使用。HathiTrust完全体现了图书馆“藏”、“用”一体的性质。DPN是基于生态发展理念的长期保存模式,其关注点在于“分布、异构、服务节点与保存节点分离”,保证资源保存的可持续性,其对服务的关注不如HathiTrust,仅提供会员的服务。 2.3 会员性质 联盟的建设理念也体现在参与会员上。Portico认识到了出版商在数字资源保存中的重要意义,会员中有2/3(超过2000家)是出版商,并集中存储了加入联盟的出版商出版的所有资源。HathiTrust因是图书馆创建的服务于图书馆的联盟,其会员主要是图书馆,虽也与商业机构或其他公共机构合作,但建设思路仍体现了图书馆的核心价值。DPN的会员多是大学,还有图书馆、基金会和教育委员会等,相对会员机构规模较大,因此对资源保存持续性的需求也格外关注。 2.4 保存模式 Portico采用的是集中存储的模式,将所有资源集中存储在一个存储库内,且Portico对于相同的资源内容不重复存储,以节约运营成本,这样的存储模式风险性较高,一旦系统出现问题,后果不堪想象。HathiTrust采用云存储的方式,资源基本上存储在两个存储中心内,并建设有一个数据备份中心,相对于Portico,其风险性要小很多,且每隔3~4年存储资源还更换一次,这又提高了联盟的安全系数。相对而言,DPN是安全程度最高的,其不仅采用多点存储,而且是一个节点,多个备份节点的模式,可访问节点和备份节点还是分离的;同时,每个节点的平台、组织机构、运行模式等都是不同的,可以应对不同的风险问题。更为重要的是,DPN支持存储相同资源内容的不同版本,资源的自恢复能力很强,这些都保证了DPN的安全性。 2.5 可靠性与可持续性 为保证资源的可靠性,Portico采用了资源自审的方式,其也授予了图书馆和出版商对内容审校的权利。相同的,HathiTrust也采用了定期检查存储内容完整性的方式来保证资源的可靠性。DPN保证资源可靠性的主要措施是多节点的备份及恢复以及相同内容的多版本保存。在可持续性方面,DPN关注的较多,其明确规定了如果会员要退出联盟,其签订的存储协议会要求会员完成相应的职责;当节点加入或退出DPN时,DPN会重新分配存储资源,以保证随着时间的推移,内容和服务的连续性。 3 几点体会 3.1 安全与可持续性是联盟评价的重要指标 一直以来,信息安全都是数字资源保存最大的挑战之一。无论是Portico,还是HathiTrust和DPN,都将安全放在了联盟发展的首位。从理念、政策、管理到技术、工具、平台,处处都体现了安全。可持续性是信息安全的延伸,也是联盟运行需重点考虑的问题。在这方面无疑DPN处于领先位置,其在保存政策上、物理位置上、服务架构上、技术应用上等都以可持续性为前提,尤其是分布式多点数字资源备份的应用,提升了数字资源保护的强度,增加了DPN发展的潜力,潜力越大,联盟可持续性发展的几率越高,未来数字资源的获取使用就越有保障。 3.2 “藏用一体”是联盟服务的新模式 随着人们对数字资源长期保存认识的逐渐深入,数字资源长期保存已经不再是数字资源的简单保存,而向着保存与服务并重的方向发展,即“藏用一体”模式的联盟建设。HathiTrust提供了一种很好的实践体验,其通过云技术搭建了一种“寓存于用”的服务平台,用户经过身份认证,可以方便地浏览、检索、获取保存的资源,并且HathiTrust允许手机、ipad、平板电脑等移动设备随时连接、下载、保存资源。为了方便数字资源的利用,HathiTrust还提供了可视化的工具,便于用户对资源进行可视化分析。由于数字资源长期保存联盟的聚合性,其整合了更大范围的数字资源,能更有效地满足用户的需要,如果仅限于长期保存功能,未免过于局限,以开放服务的视角建设联盟是数字资源长期保存联盟发展的新思路。 3.3 云存储是联盟很好的战略选择 美国许多学术图书馆的实践经验表明,学术图书馆面对数字化环境下的危机与挑战,云存储联盟是一个很好的战略选择,它为图书馆实现服务模式的转化、降低运营成本、快速灵活地响应社会和市场需求提供了新的思路和解决方案[10]。云存储联盟以云技术为依托搭建了数字资源仓储系统,不仅能够安全、快速、经济地帮助图书馆完成数字资源的长期存储,而且能使会员用户不受限制地获取联盟资源,实现了资源存储与开放服务的统一,是数字资源长期保存联盟比较好的战略选择。 4 结语 数字资源长期保存是大势所趋,是每个图书馆都要面临的问题。作为图书馆发展的新领域,其建设需要涉及多方复杂的经费、技术、管理、政策等问题,对于一个图书馆而言,可能需要付出长期的、不懈的努力。在这种情况下,长期保存联盟可谓是个不错的选择。从合作共赢、平等互利的视角,选择与本馆核心价值趋同的联盟,以最小的成本共享联盟的资源与服务,而把更多的精力放在图书馆的战略发展、空间规划、资源建设等方面,可以更好地发展图书馆的业务,更快地推进图书馆的发展。数字资源长期保护联盟研究_图书馆论文
数字资源长期保护联盟研究_图书馆论文
下载Doc文档