高可用性数字图书馆框架研究_数字图书馆论文

高可用性数字图书馆框架研究，本文主要内容关键词为：可用性论文,框架论文,数字图书馆论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

分类号 G250.76

CLASS NUMBER G250.76

随着网络的发展，人们已经习惯于在线检索，无论是已经出版还是未经出版的，是印刷的或是电子的文献。而现状是，无论公司厂商的原型系统或者模型构建[1～2]，在大多数的数字图书馆模式中，图书馆的Web服务独立于自动化系统，外部用户能够访问的自动化系统数据只有OPEC，要实现统一定位显然是困难的。能不能有一个既可以把图书馆的内外用户统一，又能够将馆藏对象（Collection）统一的系统呢？换句话说，它能够用同一个机制管理用户，而且能保证印刷和数字文献的统一索引和定位。为此，我们试图突破现有的模式，探讨一种新的数字图书馆框架。

1 系统特征描述

数字图书馆的核心是用户管理和馆藏管理，系统应该建立以存储管理为基础的数字图书馆架构（如图1）

图1 数字图书馆模型

其特征可以归结为3个要点：

（1）基于存储的资产管理；

（2）以事件触发的工作流模型；

（3）分级权限认证。

1.1 基于存储的资产管理

系统首先是基于存储管理的，它应该提供对所有数字格式的支持，比如文档、书籍、数据库、计算机程序、虚拟和仿真模型、多媒体出版物和学习对象等等。另一方面，对于印刷型文献，也可以通过元数据进行存储管理，利用URL和馆藏地点来区分文献服务的方式。

数字对象的存储模式有两种：“位”存储（bit preservation）和功能存储（functional preservation）。位存储保证提交的数字材料没有任何改变，即每一位（bit）均保持原样。“位”存储的文件在5～10年以后可能不能被当时的用户阅读或执行，但我们假设会有“数字考古学家”（digital archaeologists），在多年以后仍然可以将文件复原出来。功能存储的实现是通过随着时间的变化改变存储内容的格式，以保证当旧有格式淘汰后，数字材料还能够被随时调用（可浏览、可运行、可检索等）。显而易见，功能存储是理想的存储状态，但需要更多的技术和经费支持。

数字对象的存储格式，可以参与MIME数据格式规范，定义系统支持的数据格式。考虑到信息技术的发展，也应该允许不支持的格式存储。数据格式可以按3个层次定义：支持的格式、知道的格式和不支持的格式（如表1）。

表1 数据格式的3个层次定义

支持的格式支持的格式将利用格式迁移技术进行功

能存储。

知道的格式意味着系统无法承诺进行功

能存储，但是作为一种流行格式，可以尝

知道的格式试通过第三方提供的转换工具完成格式

迁移，从而实现功能存储。

不支持的格式不支持的格式意味着系统没有足够的信

息保证功能存储。

有些文件格式很容易向通用的格式转化（像TIFF图像或XML文档），而有些格式会由于专利等原因（像CAD文件），很难实现功能存储。所以系统应该同时支持“位”和“功能”存储。而且在系统的采集模块应能够提供采集转换系统，以将用户提交的材料从“知道的格式”和“不支持的格式”转换为“支持的格式”。

1.2 以事件触发构建的工作流机制

工作流（work flow）在计算机应用中十分常见，但是并没有引入数字图书馆的运作，现有系统仍然以职能部门为基础划分应用模块：流通、期刊、采访等。由于传统图书馆与现代图书馆之间的差别，使得现有的自动化系统根本无法适应数字图书馆的要求。另一方面，国内外的图书馆管理模式不同，就是国内图书馆间也存在较大差异，这就造成国外引进的系统很难在国内完善应用。

工作流的特点是可定制，采用可定制工作流方式，可以随时根据职能变化设置工作流。对于一个特定的工作流只有两种用户：认证用户和非认证用户。认证用户根据其权限策略在工作流中完成相应的职能。另一方面，工作流采用事件触发的启动机制，不同的事件触发不同的工作流，一个工作人员可以根据不同的任务选择进入不同的工作流。

典型的事件如新书采购：书商（外部用户）向图书馆系统提交书目，新书通告被放入采访部（acquisition）的“任务池”，采访部的专业人员（内部用户）可以从“任务池”中获取书目进行审核（相应的书目将同时被移除，以免重复相同的工作流）。如果审核通过，系统产生订购单。如果是即时生效的数字资源，这一事件将触发系统的元数据编辑工作流。如果审核不通过，用户将得到附有审核人员意见的通知书。示意如图2。

图2 基本工作流

对于数据采集，授权用户可以将自己的材料提交系统，触发馆藏接收工作流。比如教员的课件、学生的学位论文，这些数字文献本来就是数字图书馆的馆藏来源，通过馆藏接收工作流经过专业馆员的审核和元数据编辑，可以很方便地进入馆藏。

1.3 以分级权限控制的管理体系

系统要面对不同的用户请求，某些系统的功能，像检索、浏览等可以是匿名的，但是像提交、订阅以及管理等功能则需要经过用户认证。所以系统应该有可定制的认证系统，采用“缺省否定（default deny）”的策略。比如，一个用户对某个元数据具有“读”权限，但他未必就拥有对此元数据指向的材料的“读”权限。在系统中可以设定的权限如表2。

表2 系统中可以设定的权限

┌─────┬────────────────┐

│ │知道某个对象存在，可以浏览相关的│

│READ读││

│ │元数据。│

├─────┼────────────────┤

│ │修改和某个对象相关的元数据，但不│

│WRITE写

││

│ │可删除。│

├─────┼────────────────┤

│ │允许增加对象，如果需要向一个专题│

│ADD添加

│空间提交对象，用户必须拥有这一权│

│ │限。│

├─────┼────────────────┤

│REMOVE移除│删除对象。 │

├─────┼────────────────┤

│WORKFLOW ││

│工作流│可以加入某个或几个特定的工作流。│

└─────┴────────────────┘

权限策略可以针对个别的用户和匿名有户，可以适用于一个电子工作组或职能部门。

2 核心技术概要

2.1 数字对象格式——DjVu

数字对象格式主要是针对图书馆的原生数字材料（Bron digital marterial）而言的，即图书馆自己进行数字化的书、刊、学位论文等。目前大部分的数字对象格式，或者是由ASCII字符流和一些标记（tag）语言比如HTML/SGML，或者是页面描述（page description）语言像Adobe公司的PDF所组成。但是当文档具有视觉元素（Visual content）相关性时，上述格式就有了局限。这里所谓的视觉元素包括：不规则字体、纸张的颜色和质地（这对于古籍尤其重要），当然还有表格、图形、公式以及手写体等等诸多方面。为此，我们需要一种适合通过网络发布扫描文档、数字文档或照片中高解析度图像的数字对象格式——由AT&T实验室1996年针对WEB发布开发的图像压缩技术DjVu（发音为“déjàvu”）[3]。

典型的DjVu文档压缩率比现有的如JPEG和GIF格式彩色文档高5～10倍，比TIFF格式的黑白文档好3～8倍[4]。以300DPI全彩色方式扫描的文档可从25MB大小被压缩至30～100KB大小。对300DPI的黑白页，经压缩后大小通常变为5～30KB。高解析度的扫描页可被控制在HTML页大小（50KB左右）。对同时存在图片与文本的彩色文档，在相同质量情况下DjVu比JPEG格式小5～10倍。

需要特别指出的是，DjVu不仅仅是一种图像压缩技术，而是像PDF那样的内容格式（Content Forrmat）。它拥有完整的导航、搜索、超链接等可编程模块。并且更适合于彩色文档，尤其是图文混排文档的发布和传递。

DjVu还支持隐含文本（hidden-txt），即前端以图像方式体现文档原貌，后台集成文字信息。一个包含隐含文本的文件在被浏览时，浏览器上的文本选择按钮会被激活。这时按下文本选择按钮，用鼠标在图像中相应文本内容上画一个矩形框，被选中的部分即反色。被选中的文字可以被复制到系统的剪贴板中，相应还可实现对图像中文字内容的搜索、查询。

DjVu是一个公开的标准，文件格式规范，解码器实现及部分译码器是开放的。它有适用于各种操作系统的浏览器插件程序，DjVu插件允许对文档方便地浏览及缩放。DjVu提供了扫描文档与数字文档的统一发布平台，而且效率极高。考虑到它支持将PDF、PPT、HTML和DOC资源转换成DjVu格式，这就保证了我们可以充分利用已有的数字资源。

2.2 数字对象存储-SAN

在存储技术不断发展和转变的过程中，新的存储需求逐渐被用户提出来。但总的来说，用户要求存储的架构必须可以根据需求来进行扩展（Scale-out）和放大（Scale-up）。其关键就是要在不影响或改变原有操作和存储环境特性的前提下，轻松地实现存储能力的增强。

SAN（存储局域网）是以数据存储为中心，采用灵活的网络拓扑结构，通过具有高传输速率的光纤信道的连接方式，以传统SCSI协议传输数据的一种体系。SAN有许多的优点：（1）SAN可以无限扩展，用户可以灵活地在SAN结构上添加各种存储设备，整个系统扩展起来很灵活；（2）由于采用光纤信道的传输方式，SAN上的传输速率非常高，当前的传输速度为200Mbit/秒；（3）SAN的数据传输采用块传输方式，可以完成大规模数据传输；（4）SAN独特的结构特别适合于各种备份，实现现在比较流行的Lan-free和Serverless的备份方式[5]。

数字图书馆对于数据存储容量的需求几乎是无穷的，因此采用存储局域网架构和虚拟存储技术是必须的。这一模式有良好的稳定性、扩展性、安全性和可管理性。能够为数据共享、数据集中、综合灾备等内容提供可靠的保障。

2.3 数字对象管理——DSpace

数字对象管理是在存储管理的基础上进行的，SAN的存储管理软件主要针对于存储设备，而数字对象的管理是针对于内容的。MIT和HP实验室合作两年多研究的DSpace（数字空间）平台是一个基于BSD开放源代码许可的管理系统，从2002年10月开始在MIT正式服务。

DSpace是一个专门的数字资产（Digital assets）管理系统，它管理和发布由数字文件或“数字流”（bitstreams）组成的数字条目（item），并且允许创建、索引和搜索相关的元数据以便定位和存取该条目。它包括的基本概念主要有：

数字空间群（DSpace communite）：数字空间是针对数字材料的长期保存而设计的。数字材料来源于不同的组群，比如大学的院系、实验室，图书馆的采访、编目等部门，这些依据不同的授权完成不同任务的组群称做数字空间群。

电子用户（e-people）：DSpace的用户可能是教师、学生，也可能只是一些计算机系统，因此，DSpace把用户称做“E人”。

工作流（workflow）：DSpace的运作方式、数字材料和元数据在被接受之前经过事先设定的流转审核的步骤。

信息订阅（subscription）：用户可以向DSpace发送订阅请求，以便在新材料到来时收到带有内容提要的电子邮件提示。

如上所述，DSpace是一个数字资产管理系统，本身不是为数字图书馆而开发的，但它完全可以被引入到新一代数字图书馆框架中。

3 构建基于DSpace的数字图书馆

DSpace是一个开放源代码的软件平台，可以运行于所有UNIX系统，像Linux或者HP-UX等。它对应于数字图书馆的5个技术环节：数字资源采集、数字对象存储与管理、搜索技术、信息传递技术和权限认证[6]。我们可以根据自己的需要来修改和扩展它的功能。由于Java虚拟机是由HTML和部分嵌入的Java代码组成的，基本上不需要触动其核心的代码就可以方便地修改它。

数字资源采集是数字图书馆的对象来源，包括创建原始内容和捕获开放系统中现存的资源。DSpace不支持原始内容的创建，但可以以工作流方式捕获任何支持主动文档开放协议（Open Archives Initiative）的数字资源和元数据，同时也通过这一方式完成信息传递。

DSpace可以存储、管理和发布任何已经和未经出版的本地馆藏，保证印刷和数字文献的统一索引和定位。采用如前所述的存储局域网体系加虚拟存储技术，实现用户与存储的双向透明。在此基础上通过DSpace制定完善的用户分级权限认证策略，利用消息驱动的工作流机制进行数字图书馆运作和服务。

检索是DSpace挖掘（discovery）的重要组成部分。用户对于搜索引擎的要求是很高的，所以DSpace的目标就是提供尽量多的检索特色。DSpace的索引和检索模型有一个API接口，允许非常方便地索引新内容，重建索引以及在指定范围内检索。这个API来自免费的Java搜索引擎——Lucene。Lucene支持字段检索、停词（stop words）、词干（stemming）以及不重建索引增加新的索引内容的能力。

所有的DSpace用户界面都是基于Web的，并且包含一系列可定制的支持权限认证的界面：用户提交界面、搜索界面、系统管理界面以及提交审核的各种界面。这使得DSpace的使用和管理都十分方便。

在虚拟存储技术的支持下，利用DSpace联盟，还可以实现虚拟馆藏：联盟的馆藏对于用户完全透明，用户通过Web界面访问元数据，并发送资源请求。DSpace可以根据标准协议进入不同院校的系统，比如康奈尔大学的arXiv，通过本地的存储过程自动获取有关的文档备份。用户只需点击锁定（located）的条目，它就会被下载到Web浏览器中。如果是一种Web支持（Web-native）的格式，它就会立刻显示在浏览器中；否则它就被存储在用户的计算机上，例如Excel数据表或者CAD文件，需要以特定的程序来打开它。

浙江大学图书馆一直关注着新一代数字图书馆的发展，并致力于高可用性的数字图书馆框架研究。我们认为，围绕DSpace核心，制定完善的策略，设计合理的工作流，采用成熟的工业标准和协议，构建一个高效、稳定、易用的新一代数字图书馆是完全可能的。我们希望能够在较短的时间内公开这一原型系统，以供交流和完善。

标签：数字图书馆论文; 工作流论文; 元数据论文; DSpace论文; 用户研究论文; 对象存储论文; 图书馆论文; 可用性论文; djvu论文; 文档管理论文;

高可用性数字图书馆框架研究_数字图书馆论文

猜你喜欢