基于信息生命周期的数字馆藏管理研究,本文主要内容关键词为:生命周期论文,数字论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数字馆藏是图书馆中以计算机方式进行管理和服务的数字信息资源的集合。近几年,数字(或复合)图书馆建设的飞速发展,使得馆藏数字资源急剧增加。同时,随着信息生产速度的加快,生命周期变短,使得馆藏海量数字信息资源管理与利用之间的矛盾更加突出。因而,如何科学有效地采集、存储、管理、开发和利用这部分数字馆藏,是当前图书馆发展中亟待研究解决的重要问题。
1 信息生命周期管理的含义
当今信息社会,使用和管理的信息量每年成倍地增长。这些信息不但需要保存较长的时间,而且需要对其进行查询。目前,一些国家还制定了新法规。规定了与业务相关的电子邮件和互联网通信的保留时间,以及这些信息的恢复速度。例如,在美国,就已出台了10000多项法规,规范信息的存储、可用性和处置方式[1]。因而,随着信息价值的变化,有必要将信息转移到不同的存储介质上,以最低的成本提供适当级别的保护、复制和恢复。
为了以最低的成本实现信息价值最大化,企业已经开始将自动化网络存储基础设施与其综合服务和解决方案结合在一起,然后以此为基础制定出新的信息管理策略。这种新的信息管理策略称为信息生命周期管理。采用这种新的信息管理方式意味着根据信息和应用对企业的价值进行分类,然后制定相应的策略,确定最优服务水平和最低成本。
概括地说,信息生命周期管理(Information Lifecycle Management,简称,ILM)就是根据信息对企业的不同价值而加以管理,达到资料完善的分类、存储与管理目标,以便让信息的价值和资源的管理成本,能够完全配合企业的目标,提高企业的生产力和竞争力[2]。
信息生命周期管理是一种信息管理模型,对信息进行贯穿其整个生命的管理,从创建和使用到归档和处理。信息生命周期管理的目的在于帮助客户在信息生命的各个阶段以最低的整体拥有成本获得最大的价值[3]。它是一个针对信息进行主动管理的策略,其主要特点是:以业务为中心;以政策为基础;统一途径;异质环境;与数据价值相关[4]。
2 基于ILM的数字馆藏管理理念
文献有半衰期,文件有生命周期,那么数字信息资源的生命周期是什么?其价值随时间有什么样的变化?为什么保存的数据比以前更多而且保留的时间更长?什么状况下数据应该迁移?什么样的信息应该删除或永久保存?数字馆藏存储与安全管理策略会随信息生命周期的变化而改变吗?这一系列问题都是馆藏数字资源管理中急需解决的问题。
1948年,布拉德福(S.C.Bradford)用数学形式揭示了期刊论文引文的分布情况,显示出少数核心期刊论文得到大量引用的事实。布氏定律实质上为图书馆分级有效组织馆藏提供了理论依据和测试方法。上世纪50年代末到60年代初,麦克雷兰(A.W.Mcclellan)建议根据图书的利用情况进行书架空间的系统分配[5]。在实际工作中,一些图书馆根据图书的流通率将图书分为一线、二线和三线,分别保存在不同的地方。现在一些图书馆专门开设新书阅览室,待一年或二年之后,再典藏到其他书库。这些措施,实际上也体现了依据价值(假设:价值与利用率成正比)存放和服务的理念。由此可见,对馆藏资源的分类、分级管理长期以来一直就是图书馆科学管理的重要理论基础之一。随着图书馆信息化程度的提高,馆藏数字信息资源的呈级数增加,能否沿用传统印刷型文献资料的管理办法,对馆藏数字资源进行分类分级管理呢?
2003年9月数据存储管理供应商StorageTek首先提出基于信息生命周期管理的数据存储管理思想。紧接着EMC、HP等世界著名企业都纷纷推出自己的ILM目标和设想。由此使我产生了将ILM引入数字图书馆管理,实现对馆藏海量数字资源依据ILM理论进行科学管理的思想。即依据数字资源在其生命周期中价值的变化规律,对不同的馆藏数字资源,在不同的时间,不同的阶段,进行分级存储、保护与服务,并针对不同类型的数字资源制定不同管理策略的新理念。从而指导图书馆实现对数字馆藏的建设与管理,使其以最低的成本获得最大的服务效益。这就是基于信息生命周期的数字馆藏管理的理念。
3 国内外数字馆藏管理研究现状分析
3.1 国内研究现状
通过对CNKI、重庆维普、上海全国报刊资料索引、人大复印报刊资料等数据库的检索,以及对国家自然科学和社会科学基金近5年立项情况的查询,未发现有关将信息生命周期用于数字馆藏管理的相关论文和研究成果。通过Google搜索发现,仅有国家科学数字图书馆项目管理中心常务副主任张晓林在“我国数字图书馆标准规范建设”项目中提出,“针对数字信息资源生命周期不同环节、不同资源对象、不同应用领域等提出不同发展战略,指导实际的标准规范建设和实际单位的标准规范应用”[6]。以及上海图书馆的刘炜和复旦大学计算机与信息技术系的张亮在“数字图书馆的体系结构与元数据方案”中提到,“国际图联(IFLA)在一项《书目数据功能需求(FRBR:Functional Requirement for Bibliographic Records)》研究中所提出的资源对象生命周期模型在数字图书馆元数据体系中的应用。”[7]而有关“生命周期”的研究,如档案学的文件/电子文件生命周期,IT服务的生命周期等的研究已有一些。如浙江大学的何嘉荪的“论电子文件的生命周期”[8]。另外,从有关数据库的检索结果看,1994~2003年,关于数字图书馆研究的论文有1300多篇,但有关数字图书馆馆藏研究的论文仅有4篇。如湖南科技大学盛小平的“数字图书馆馆藏评价”[9];郑州大学索传军的“论数字馆藏管理”[10]。简单地说,通过对国内近十年文献的调研,未发现将信息生命周期管理理论用于数字馆藏管理的研究成果。
3.2 国外研究现状
通过对ProQuese Digital Dissertation,ACM Digital Library,SCI Expanded,IEEE/IEE Eleceronic Library等十几个外文数据库检索和Google搜索可知,国外关于数字图书馆方面的研究自20世纪90年代中后期开始,比国内早近十年,而且其研究也更深入具体。如1999年国际科技信息委员会(ICSTI)顾问Gail M.Hodge的研究“把信息生命周期的理论用于数字存档的最佳实践”[11];Roger C.Schonfeld等的研究“把生命周期理论用于图书馆非订购电子期刊与纸质期刊的成本研究”[12];加州大学柏克利分校的数字图书馆项目“重造学术信息的传播与使用:发展用于改善学术信息生命周期模型的工具与技术”[13];英国利兹大学的研究项目(1998~2002)“数字馆藏管理”,该项目主要研究数字资源的保存问题,其中涉及了信息生命周期阶段的划分,纸质文献与数字资源生命周期的比较,数字馆藏管理的相关因素等问题[14];大英图书馆Helen Shenton在“生命周期馆藏管理”一文中提出信息生命周期包括选择、获取过程、编目著录、预保存、存贮、检索等过程。概括地说,国外关于信息生命周期和数字馆藏管理方面的研究也很少,从现有文献和研究成果看,其主要集中在三个方面:一是信息生命周期模型的研究,如Helen Shenton将其分为6个阶段等;二是用ILM分析数字图书馆的管理成本。三是数字(或电子)信息资源的选择、评价和服务绩效评估等。而基于信息在其生命周期中不同阶段的不同价值,对馆藏数字信息资源加以科学分类、分级存储、保护与服务的研究成果还没有。
4 基于ILM数字馆藏管理的主要内容
由上可知,基于ILM的数字馆藏管理,实质上就是依据数字资源在其生命周期中不同阶段的不同价值,对其进行分类与分级管理。不难看出,要实现这一目标,必须解决四个问题:一是数字资源在其生命周期中的价值变化规律;二是数字资源价值的确定;三是数字资源的分类方法;四是数字资源的分级管理策略和模型。
4.1 数字资源生命周期规律
美国信息学家霍顿基于信息交流将信息的生命周期划分为:创造、交流、利用、维护、恢复、再利用、再包装、再交流、降低使用等级、处置10个阶段。英国利滋大学在“数字馆藏管理”中提出,ILM可以划分为6个阶段:创造、获得、编目、存储、保存和存取。而世界著名的存储供应商EMC将ILM划分为:搜集和组织、保护/回复、复制/监控、访问/共享、迁移/归档、删除/销毁等7个阶段[15]。因而,从不同的角度或不同的出发点,信息的生命周期可以划分为不同的阶段。
4.2 馆藏数字资源价值的确定
信息质量或信息价值并不是一个绝对的概念,依据不同的主体以及相同主体不同的需求,常表现出不同的重要性。广为接受的一个关于质量的定义是由ISO组织提出的:质量是产品或服务满足现实和潜在需求的能力所表现出的整体性状与特性。因而,信息质量和信息价值是与用户需求相联系的,具有很强的“场景”(Context)特点。因而,可以通过对馆藏数字资源的服务绩效评估来确定其对图书馆的价值。具体可以根据图书馆的目标以及数字资源的特点,分析影响馆藏数字资源价值的因素,依据各因素的重要程度,构建一个评价指标体系。然后,可以依据一种评估方法构建一个数字资源价值评估模型来确定数字资源的价值。
4.3 数字资源的分类
要实现对数字资源的分级管理就必须先进行科学地分类,这个分类不是进行学科分类,而是依据数字资源对图书馆的价值,即与图书馆发展、服务目标相一致的价值。这里有两个问题需要说明:一是数字资源分类的基本单位;二是分类的时机。
纸质文献载体形式较为单一,数字资源构成和表现形式都比较复杂,分类单位的确定也是一个比较复杂的问题。如数据库资源,由若干年、若干学科的文献信息构成,不同学科文献,其半衰期不同;不同类型,如图书和期刊,其半衰期不同,实际上其价值变化规律也就不同。那么,评价的单位是什么?以期刊的种类为单位,还是以单篇论文为单位,或者以图书的册为单位,还是以年、学科为单位,这需要进一步的深入研究。
4.4 分类分级存储管理策略的制定
馆藏中不同的数字资源应该存储在什么地方什么级别的设备中,什么时候需要迁移到较低成本的存储体中,提供什么安全保护措施和服务模式,使其在生命周期内尽可能地减少管理成本,提高服务绩效,这是制定该策略的目标。
基于ILM的分级管理是一种新的信息管理方法。其目的在于帮助用户在信息生命周期的各个阶段以最低的整体拥有成本获得最大的价值。所以,从管理的角度看,ILM就是一种先进的信息管理理念;而从技术看,它是一个基于策略驱动的智能软件,其模型如图1所示。
图1 基于智能代理的存储资源管理(ASRM)模型
5 EMC的ILM策略的实施方法
如何成功和有效地部署一个信息生命周期是一个涉及面广、投资大、周期较长的信息管理战略性问题,因而需要图书馆积极参与和高度的重视,需要对数字资源进行更深入的研究,需要全面地考虑信息管理过程中的所有问题,例如现有的管理策略是否需要进一步提高和改进,图书馆的信息技术基础设施建设是否合理,信息的存储、保护等方式是否与业务要求相吻合等问题。为了实现对数字馆藏的分类、分级和智能化管理,可以采取整体规划分步实施的方式。
第一步,整合存储系统。将原先分散的、孤立的存储空间集成到一起,整合存储资源,降低管理复杂度,提高存储利用率。
第二步,数字资源的评价与分类。并不是所有的馆藏数字资源都会被经常访问到,可以根据其重要程度(例如:数字资源的访问量,价格等。实际工作中,需要建立评价指标体系和价值评价模型),分门别类存储到相应的存储设备中(如第一级磁盘阵列中FC硬盘空间,第二级ATA硬盘空间,第三级磁带备份设备),降低设备的成本。
第三步,实施依据策略的自动数据迁移方案。随着时间的推移和数字资源价值的变化,按照所制订的策略将有关资源存储、迁移到一级、二级和三级存储体中。
第四步,最后将利用律很低确定为价值较低的资源进行归档存储,比如归档到磁带设备上,作离线的保存。
总之,数字馆藏的管理目前还缺乏相应的理论,亟待研究解决。现在,环境变了,管理对象、方式变了,方法也必然要改变。基于信息生命周期管理的理论,能否作为对数字资源科学有效管理的理论基础,也是一个需要研究的问题。本文提出这个问题,期望更多的专家学者也能更多地关注馆藏数字资源的管理问题。