我国数字图书馆信息资源建设可持续发展探析,本文主要内容关键词为:探析论文,信息资源论文,可持续发展论文,数字图书馆论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
21世纪,图书馆信息资源收藏的种类前所未有的丰富,收藏范围及服务范围也随着网络的延伸扩大到全球范围。但是,在这种数字图书馆信息资源建设高速发展的背后,还隐藏着种种尚未解决的问题,这些问题如果不能妥善解决,将成为信息资源建设可持续发展的障碍。
1 可持续发展与标准化
1.1 目前缺乏统一的标准
随着数字图书馆事业不断进展,越来越多的单位参与到数字图书馆信息资源的建设中,但是由于理念和思路的不同,各自信息资源建设的模式也有很大的差异,这种各自为政、互不沟通的建设模式势必会造成资源重复建设、系统相互的兼容性差,更谈不上对信息资源的互联与互操作,最终将严重阻碍信息资源建设的可持续发展。
在现行的标准体系中,文献数据库和图书目录都有成熟的标准可供参考,但是随着信息技术的广泛应用,我们必须对现行的标准体系进行相应的调整,以适应网络化信息环境的挑战,才能保证信息资源建设的可持续发展趋势。数字图书馆信息资源建设中的标准不仅涉及信息资源组织本身,还涉及计算机和通信的软、硬件的共享等方面,包括:信息技术和通信、信息查录与检索、元数据的定义标准、开放系统互连、置标语言、电子文献交换以及馆际互借协议、数据质量监控等等。只有按照统一的规范和标准进行数字图书馆信息资源建设,才能够在多方共建的信息资源中实现互联和互操作,为最终用户提供统一的服务。
1.2 元数据标准及其局限性
元数据是数字图书馆信息资源建设的关键技术之一。数字化图书馆的运作,无论是数据的加工、存取,信息的浏览、检索,还是信息资源的整合与长期保存都是以元数据为基础实现的。理论界在解决标准问题上做了诸多有益的探索,尤其是在标准问题的核心——元数据的研究上,取得了不小的进展。目前,国际上存在很多种元数据,如DC元数据(Dublin Metadata Core Elements Set)、TEI(Text Encoding Initiative Header)、EAD(Encoded Archival Description)、CDWA(Categories for the Description of Works of Art)、GILS(Government Information Locator Service)、VRA(Visual Resources Association Data Standards Committee)等,这些元数据是由不同专业领域的人员针对各自领域的数据特点和应用需要而研究的。其中DC元数据就是由图书馆和信息界提出来的针对数字图书馆信息资源组织与整理问题的解决方案之一。DC最初应用目的是为了网络信息资源的著录与挖掘,由于DC元素简单易用,加之 OCLC的大力推广和网络信息资源著录的巨大需求, DC发展成为可用于任何媒体,目前世界上使用最广泛的元数据格式,具有很强的适应性和最大的弹性。Dublin Core的主要优点是:简单、灵活,它的15个基本元素比较容易掌握,而且DC元数据标准既可以用于规范的资源描述领域(如图书情报领域),也可以用于非专业领域(如WWW网页)。
元数据标准简单易用,较易于接受,但是标准过于简单,则对著录对象的描述深度不够,可能会影响信息资源的查准率和查全率,不能进行专指度较高的检索。而信息资源的种类繁多,对于各种类型的信息资源,图书馆是否能仅用一种元数据来描述?当选择了使用不同的元数据标准,那么在系统实施的过程中如何将这些不同类型的元数据融合到数字图书馆的资源系统中以提供给用户完整可靠的信息?这些都是我国数字图书馆进行信息资源建设时需要慎重考虑的问题。中文环境下的元数据标准目前还处于研制阶段,不同单位在中文元数据建设方面未达成共识,没有采取联合、协作、共享的策略,元数据中文著录标准化面临着不统一的问题。我们在学习、研究与利用国际上先进、通用的元数据标准或应用方案时,必须在充分考虑中文资源应用特点的前提下,多方面地了解国外图书馆的发展动态,对目前流行且具有国际化前景的各类元数据方案进行比较研究,在保持与国际标准接轨和兼容的基础上,加强地区之间乃至全国范围内的合作,尽快制定出一套适合我国数字图书馆资源建设模式的元数据标准,只有这样,信息资源建设才能有标准可遵循,从而保持持续发展的态势。
2 可持续发展与信息资源整合
2.1 实现信息资源整合
目前,以纸质形态、模拟形态存在的传统信息资源正在加速实现数字化转化;另一方面,利用计算机和网络创建、生成、存储及传播的原生数字资源正逐渐取代传统资源,成为数字时代的主角。当前数字图书馆基于Internet/Web技术构建,而Internet/Web具有资源分散性、缺乏统一管理等先天不足,使得数字图书馆建立统一的信息资源体系和集成的知识服务体系变得十分困难。在目前的数字图书馆系统中,大量具有分布、异构特征的信息资源都是以孤岛的形式存在,用户必须分别进入到各个系统中查找资源。每种资源的用户界面和检索规则各异,用户需要逐一熟悉,既费时又费力。资源使用者需接受一定的训练才能有效地获取信息。用户期望能够通过统一界面,方便快捷地检索到图书馆提供的所有资源(书目、图像、音视频、电子图书、电子期刊和会议录等),希望图书馆提供一步到位的服务(one stop services)。用户对信息、对知识的需求是数字图书馆信息资源建设可持续发展的动力,一旦当用户对信息资源的查找方式失去兴趣和耐心时,数字图书馆的发展将失去动力。
近年来,很多高校都高度关注这个问题,也尝试建立了不同层面的导航系统,探索揭示和管理信息资源的方法和模式。
近年来涌现出一批新技术:跨库检索、开放链接 (OpenURL)、OAI、SFX等,这些技术为实现信息资源的整合管理奠定了基础。数字图书馆信息资源的整合需要的是统一的信息资源体系,这个体系能够集成分布的、异构的信息资源,为用户屏蔽底层异构的物理资源,将数字图书馆的全部信息资源聚合在同一门户界面中,为用户提供单一、友好的信息资源访问环境。在这个访问环境中,检索界面是统一的,检索方式以及数据的呈现方式也是统一的,还具备自动排重、相关度排序以及中英文智能扩展检索等功能。同时,这个整合后的资源体系还应该能够具有强大的知识挖掘和知识学习功能,用户可以在这里透明地访问所有信息资源和服务,无缝地进行知识漫游。
2.2 培养跨专业人才
当前在数字图书馆的人才队伍中存在的问题是,大部分图书馆员具有非常扎实的图书馆学专业知识,并且具有满腔的热情和积极的工作态度,但是原有的知识结构和专业素质已不能适应信息资源数字化建设的要求,对数字图书馆信息资源的管理模式、使用方法了解不够精确,他们迫切需要更新知识,提高业务技能。目前也有许多图书馆引进了一些计算机及相关专业的人才,他们是数字图书馆进行信息资源建设的生力军,但是由于他们缺乏图书馆学的专业知识,在对信息资源进行深层次的加工、标引等工作时显得力不从心,因而会影响信息资源的准确性、科学性,因此这部分人才还需要再系统地进行图书馆学专业知识的学习。
3 信息资源的长期保存
信息资源的长期保存(Digital Preservation)是数字图书馆开发中尚未充分认识到,而且必需解决的问题,因为它是决定数字图书馆能否持续发展的基础。数字图书馆的一个重要职能,即如何将有收藏价值的文献长久保存,为今后的信息服务提供保障,目前还没有受到应有的重视。信息资源保存工作大部分仍然停留在实验阶段,现行的保存手段和实践并不是十分可靠的,存在各种各样的风险,如资源丢失、无法被读取或者引起版权纠纷等,无论出现何种问题,都将影响信息资源建设的可持续发展。
3.1 长期保存的概念
信息资源的长期保存,译自“digital preservation”,也称为“数字资源的长期存取”,按照“数字资源长期保存”的字面来理解,“长期”并不只代表着提供5年或 15年的保证,而是一种可靠的发展策略,这种策略能够与信息市场产生的各种变化抗衡(注:Dr.Heike Neuroth,Why Digital Preservation?Needs and Chal lenges,Chinese-European Workshop on Digital Preservation, 2004.7)。因此长期保存的资源必须确保在未来仍然可以被用户获取、理解以及使用,新的软件和硬件工具能够对其进行完整无误的操作。
3.2 数字资源无法长期保存的原因
长期以来,人们一直认为数字化的信息资源能够长期保存,其实长期保存这些资源是极其困难的。据报道,到1975年能够读取美国1960年人口普查数据的计算机仅有2台;目前,100万份美国越战档案的计算机索引已无法读取;美国国家宇航员自1958年以来的多数研究报告正在由于数据的存储不完善而受到威胁。影响数字资源长期保存的根本原因,是由于数字资源使用了对当前存取十分有效的技术,这些技术对日后数字资源的存取留下了极大隐患。首先,目前保存工作缺乏稳定可靠的存储载体。信息资源存储当前使用的载体大多为大容量的CD/DVD光盘,或者大容量、高转速、高传输速率光纤硬盘等,这些存储介质具有存储容量大、读取速度快、节省空间的优点,但是对保存环境有严格的要求,温度、湿度都必需保持在固定的水平,同时还要防尘、防磁、防静电。如果保存环境不符合要求、接触磁性物质、病毒入侵、自然灾害、使用过度,都可能导致存储设备出现故障,甚至造成无法恢复的灾难性损失。其次,数字化技术面临长期保存的挑战。数字化的信息资源对信息技术有很强的依赖性。因为这部分资源要通过一定的设备如计算机、阅读器和软件环境来阅读。然而,由于信息技术的发展,计算机软硬件、存贮等技术方面的更新速度不断加快,存贮信息的设备、手段和软件每3至5年就要更新换代。如果阅读信息的设备过时,或将信息转换成人们可读形式的软件因为被淘汰而不复存在,那么,即使存贮信息的载体保存得再好,信息同样无法读出,失去其利用的价值。
3.3 数字资源长期保存的技术手段
目前对数字资源长期保存所采取的技术手段主要有以下几种:
3.3.1 数据迁移(migration)
数据迁移这一概念是由美国图书馆界为了解决由数字媒体、计算机硬软件构成的信息存取系统的快速过时的问题提出的。所谓“数据迁移”就是定期将数字资源从由某一再生机器和软件构成的信息系统转换到其它信息系统,即从某一代计算机转移到下一代计算机。其目的是保存数字资源的完整性,用户对数字资源的检索能力、显示能力和其他利用能力,用户即使在经常变化的技术状态下也能够利用。
“迁移”的工作可以在硬件或软件上完成。硬件的迁移就是载体更新(refreshing)。这是人们针对数字式信息资源载体的耐久性和耐用性问题提出的解决方案,即通过复制,将信息资源拷贝到新的载体上,这是目前开展的较为普遍的数字信息保存工作。简单地将数字资源由一个媒体向另一个媒体拷贝,其对信息的保护程度是有限的。只有在原有对数据的操作尚未过时或存在的情况下,其资源才能得到保存;不能对所有资源进行保存,更新取决于软件对当前格式与旧格式的兼容和当前硬件对旧硬件的兼容等;不能对信息的结构特性、描述的元数据、检索及展示能力进行维护。因此,这一技术并不是维护数字信息长期保存的理想的技术方法。
软件移植即数据的格式不变,只做版本的升级,或者将数据转换为其它格式。这种移植并不意味着保存同原始信息完全相同的复制,在确保与新一代技术的互换性中,即使失去一部分原始检索功能也无妨,重要的是保存信息源的完整性。数据迁移能打破数据和数据读取技术之间的联系,技术和设备障碍不再成为问题。因此目前被许多人认为是数字资源长期存取的恰当选择。数据迁移技术对于长期保存那些与软件无关的格式产生的文本文件或简单、通用的平面文件较为实用,但它不适于保存复杂系统中的复杂数据对象,原文献中的计算能力、图形显示、索引和其它特性可能会丢失,对于多媒体文献、交互性文件、联机对话等动态数据,则更不适用迁移方法。
3.3.2 仿真(emulation)
仿真是延迟淘汰的一种技术方法,它是在实施数据更新保护数字资源内容的同时,通过保护数字资源使用环境(软件与硬件)来保障数字资源内容的可利用性。仿真涉及到制作一个新软件模仿数字资源曾使用过的旧硬件、旧软件的操作,拷贝它们的操作与特性,使过时系统形成的数字资源能以原始格式重现。利用仿真方案,原始对象可以成功地转换到新系统上。仿真方式能使在过时系统上形成的数字资源以原始面貌(初始格式、版面与内容等)显示出来,能够始终保证原始文件的可获取性,其功能性也随之得到保护。它有助于保护、辨认那些极大地依赖特殊硬件与软件而又无法在新、旧技术平台间进行迁移的数字资源,如超文本、多媒体,甚至程序设计等复杂文件。
但是,由于在实际应用中技术仿真的兼容程度及其可靠性不一定令人满意,而且还需经常维护其自身的耐用性,因此还很难成为一种有效的技术保护方法。在技术日新月异、飞速发展的今天,片面追求兼容性将会限制新技术的发展及其应用,而且技术仿真的花费很高,不划算。
3.3.3 再生性保护技术(regeneration)
是将技术过时的某些数字文献适时地转换到缩微品或纸上。转换到缩微品上可能更好一些,因为缩微技术具有一定的法律效力,标准化程度高,技术寿命和保存时间长、体积小、存储容量大、复制成本低的优点。缩微胶片便于保管,不再使用计算机软硬件技术读取,这种方法为长期保存数字信息提供方便,并避免计算机软硬件技术过时所带来的任何麻烦。缩微胶片的理论值是500年,国际上已经有100多年的实践经验,国内也有几十年的实践经验。但是这种方法也存在一些现实问题:一是有些声音信息、多媒体信息等无法转移到缩微胶片或纸上;二是信息一旦转移到缩微品或纸上,也就失去了数字记录的风格和魅力,如失去了数字化的传递与使用的灵活性等。但在缩微摄影技术和设备大发展的今天,缩微品记录的模拟信息能很快地进入计算机网络系统,又恢复它原有的风格和魅力。
3.4 信息资源归档系统
目前长期保存数字资源的已有技术方案中,还没有一个是十分完美的。今后是否会产生一个最有效的技术方案,适合各种类型的数字资源的长期保存尚不清楚。归档系统是目前信息资源长期保存的一种重要方式,它可以保证重要的数字资源既不丢失也不被修改,而且日益受到各方面的关注。信息归档系统应成为数字信息的资源基地,归档系统最重要的任务是:对资源进行选择与鉴定,对其完整性与质量进行控制与管理,使被保留的信息资源作为文化记录的可靠资源。数字资源归档系统应履行两个关键职能:归档运行环境的维护与管理;随运行环境的改变,对保存的资源进行迁移。
4 版权问题对可持续发展的影响
版权问题是关系到数字图书馆资源建设成败的关键,目前许多专家学者提出了各种各样的看法,新版的著作权法顺应了数字时代的要求,除了为适应加入世贸组织的需要,与国际知识产权接轨外,还对网络著作权问题提出了新的准则,对数字图书馆的建设产生深远的影响。根据本人对著作权法的理解,对馆藏数字化产品要区别情况分类管理。首先,对于来源作品是无知识产权的作品,数字化加工后可以自由使用,不存在版权纠纷;其次,对于他人拥有知识产权的来源作品经数字化加工后,可利用法定许可制度,在非赢利条件下,用户可以为教学和科研的需要自由阅读,适当限制网上连续下载或整页下载,防止非法复制,即不至于侵权;第三,数字图书馆建设中形成的二次和三次文献数据库,具有图书馆自主知识产权,在使用中不存在对外侵权问题;第四,购进的各类电子文献数据库,作者和出版社享有知识产权,可使用DRM数字版权保护技术,让用户自由上机阅览和合理下载,同时防止非法复制、传输产生的侵权行为。
数字图书馆作为将在下一代因特网上起核心作用的知识网络,域名保护不可忽视。数字图书馆在建设过程中,应该注册多个域名,特别是周边域名。因为拥有多个网址,才能使用户通过不同的途径都能够对其进行访问。
由于数字图书馆采用高新技术对因特网上的信息资源进行高度有序的组织和管理,这就要求数字图书馆本身也能够提供大量高质量的网页,来为用户提供网络导航服务。数字图书馆在做好数字资源数据库的知识产权保护的同时,也应该重视对自己的网页的著作权的保护,以维护自己在因特网上的独特地位和作用。