数字图书馆与开源软件--以数字资产管理系统(DSPACE)为例_数字图书馆论文

数字图书馆与开源软件--以数字资产管理系统(DSPACE)为例_数字图书馆论文

数字图书馆与开源软件(OSS)——以数字资产管理系统(DSpace)为例,本文主要内容关键词为:管理系统论文,为例论文,开源论文,数字图书馆论文,资产论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

OSS(Open Source Software)即开放源代码软件是OSI(Open Source Initiative,开放源代码首创行动)行动的直接产物。OSI的兴起与发展打破了传统的知识产权制度下“知识信息垄断”、“知识信息霸权”对资源共享的制约,而基于OSI的OSS在图书馆领域的推广应用不仅给图书馆在新技术开发、软件资源创新共享中能力与作用的定位确立了新的理念,而且给图书馆的数字化、信息化建设及服务活动的开展构建了新的实践模式。

1 OSS的理念

20世纪80年代,理查德·斯托尔曼(Richard Stallman)发起了自由软件运动,提出了Copylefi理念。Copyleft的中心思想就是“信息共享,源代码共享”。作为自由软件运动的一个分支,OSI由Eric Raymond于20世纪90年代提出,OSS与自由软件在理念上并无根本性的差别,但是,OSS的定义是从技术层面上讲的,而自由软件则是从被许可的权利层面上讲的,不同点体现在许可证对权利义务的规定的严与紧的程度上。开源软件挖掘了人类理性的奉献、共享精神,使得深深植根于人们心灵中的合作、互济意识得到弘扬,其着眼于广大公众对知识信息获取的权利与创作者精神上的荣誉感,打破了个别人、个别组织和个别国家对知识的垄断,反映了当今社会的时代要求。

OSS被国外学者称为软件领域“具有共产主义色彩的战略”,其所推崇的“自由”和“共享”的理念同版权所秉承的“限制”与“专有”思想不同,它摒弃了版权所保护的少数创作人享有的对无形财产的绝对权利和经济利益。但是,Copyleft并不彻底否定版权,相反,Copylea以承认作品的版权为前提,然后再将这种享有版权的作品纳入开源软件的发布约束,保证Copyleft的精神得以充分彰显,尤其是防止某些心存杂念的人将他人作品做或多或少的修改以致偷梁换柱后据为私有。

2 OSS对数字图书馆建设的积极影响

2.1 利用OSS能使数字图书馆掌握软件开发的核心技术

在传统的知识产权制度框架下,源代码作为软件技术的核心受到法律的保护,软件开发商完全掌控着源代码,享有对源代码的专有使用权,而且源代码处于高度的保密状态,图书馆等软件用户无权访问源代码,更无权对源代码进行适应需要的修改,其结果是软件的某些功能往往与实践的差距较大,图书馆对此又无能为力,只能寄希望于开发商对软件的升级换代,而这无论在时间上还是在经济上对图书馆都不利。开源软件的源代码不仅向所有公众开放,而且鼓励用户自由地修改、完善。这样,就可以使图书馆接触到软件的核心技术,确立软件开发的主体意识,一方面可以一定程度地摆脱版权的干扰,另一方面可以真正把软件开发同图书馆员的专业知识经验相结合,从而提高软件的实用性。

2.2 利用OSS能使数字图书馆的软件系统逐步趋于成熟

在商业模式下,图书馆处于软件开发的边缘地带,对软件只有使用权和从性能上对软件质量的评价权以及建议权,无法从更深的技术角度来研究软件的瑕疵,这使得软件达到成熟目标的周期较长,而且要走许多弯路。开源软件拉近了图书馆技术实践的距离,使图书馆参与到软件的开发与维护中来,也使软件中的各种谬误和低效率都难以逃过各层次、各环节开发人员、应用人员的不断推敲与评价,从而使其不足逐渐得到弥补和修正,软件的质量和性能得到提高。

2.3 使用OSS可以明显节约图书馆的经费

对于开源软件,由于权利人放弃了获得报酬权,使得图书馆获得和应用开源软件的成本极低或者没有费用(开源软件许可证有的是免费的,有的可能收取固定费用。如果图书馆合法取得了授权许可证,则无需支付其他费用,就能够获得软件的源代码)。同时,由于权利人放弃了复制权、修改权等权利,图书馆在按自己的要求维护和完善软件时,又不致于增加任何负担,而且开源软件大都是经过测试的,性能好,易于安装,不仅适合于各种类型和规模的图书馆,而且也有利于图书馆之间标准的协调统一,标准化也会使得资源共享中的费用一定程度地降低。

3 基于DSpace的数字图书馆

3.1 DSpace简介

DSpace是一个专门的数字资产(Digital Assets)管理系统,由MIT和HP实验室合作研究并向全世界公开了基于BSD开放源代码许可的DSpace源码,它管理和发布由数字文件或“数字流”(Bit Streams)组成的数字条目(Item),并且允许创建、索引和搜索相关的元数据以便定位和存取该条目。它包括的基本概念主要有:

数字空间群(DSpace Comminute):数字空间是针对数字材料的长期保存而设计的。数字材料来源于不同的组群,比如大学的院系、实验室,图书馆的采访、编目等部门,这些依据不同的授权完成不同任务的组群称作数字空间群。

电子用户(E-people):DSpace的用户可能是教师、学生,也可能只是一些计算机系统,因此DSpace把用户称作“E人”。

工作流(Workflow):DSpace的运作方式,数字材料和元数据在被接受之前经过事先设定的流转审核的步骤;

信息订阅(Subscription):用户可以向DSpace发送订阅请求,以便在新材料到来时收到带有内容提要的Email提示。

3.2 DSpace模型

DSpace是一个数字资产管理系统,本身不是为数字图书馆而开发的,但其围绕存储管理、利用分级认证的工作流机制,先天上就具有构建新一代数字图书馆模型的优势。

3.2.1 基于存储的资产管理

DSpace首先是基于存储管理的,它提供对所有数字格式的支持,比如文档、书籍、数据库、计算机程序、虚拟和仿真模型、多媒体出版物和学习对象等等。另一方面,对于印刷型文献,DSpace也可以通过元数据进行存储管理,利用URL和馆藏地点来区分文献服务的方式。

Dspace支持两种存储模式:“位”存储(bit preservation)和功能存储(functional preservation)。位存储保证提交的数字材料没有任何改变,即每一位(bit)均保持原样。功能存储的实现是通过随着时间的变化改变存储内容的格式,以保证当旧有格式淘汰后,数字材料还能够被随时调用。显而易见,功能存储是理想的存储状态,但需要更多的经费支持。为此,Dspace对于文件格式定义了三个层次:支持的格式、知道的格式和不支持的格式。支持的格式将利用格式迁移技术进行功能存储,知道的格式意味着我们无法承诺进行功能存储,但是作为一种流行格式,可以尝试通过第三方提供的转换工具完成格式迁移从而实现功能存储,不支持的格式意味着DSpace没有足够的信息保证功能存储。

有些文件格式很容易向通用的格式转化(像TIFF图像或XML文档),而有些格式会由于专利等原因很难实现功能存储。对于上述的所有三个层次,DSpace建议在经费允许的情况下同时进行“位”和“功能”存储。

3.2.2 以事件触发构建的工作流机制

DSpace的运作是以事件触发的机制来实现的,在DSpace中有很多的数字空间群,对于内部工作部门(数字空间群),通常我们设定所有工作人员都是“提交者”(submitter),而其中的一部分人又被设定为“审核者”(reviewer),负责人则设定为终审者(coordinator)。每个数字空间群中都存在着“提交者”、“审核者”等等的角色。这些角色可能指派给很多人,组成角色群,或称“电子工作组(e-person group)”。任何一个对系统的请求,从检索、浏览到材料提交,都会触发不同的工作流,并进入相应的“任务池(Task pool)”。经过审核、元数据编辑和终审等等环节最终进入DSpace。而该工作流涉及的每一个步骤的电子工作组,都会因为自己的角色而获得通知,使相应的电子用户可以进入个人数字空间(Individual DSpace)来完成任务。

典型的事件如新书采购:书商(用户)向图书馆(DSpace)提交书目,新书通告被放入采访部(acquisition数字空间群)的“任务池”,处于采访数字空间群的专业人员可以从“任务池”中获取书目进行审核(相应的书目将同时被移除,以免重复相同的工作流。)如果审核通过,系统产生订购单。如果是即时生效的数字资源,这一事件将触发DSpace的元数据编辑工作流。如果审核不通过,用户将得到附有审核人员意见的通知书。

对于外部数字空间群,匿名用户可以通过WEB访问进行检索和浏览,授权用户则可以将自己的材料提交DSpace,触发馆藏接收工作流。比如教员的课件、博士的学位论文,这些数字文献本来就是数字图书馆的馆藏来源,通过DSpace的工作流经过专业馆员的审核和元数据编辑,很方便地进入馆藏。另外,作为数字图书馆功能的拓展,用户还可以在授权的个人数字空间中临时或永久存放数字材料。

3.2.3 以分级权限控制的管理体系

如上所述,数字空间群拥有不同的电子工作组,而不同的组拥有不同的权限。某些DSpace的功能,像检索、浏览等可以是匿名的,但是像提交、订阅以及管理等等功能则需要经过用户认证。DSpace提倡“电子用户”(e-people)的概念,每个电子用户需要向DSpace提供如下信息:E-mail地址、姓名、认证信息、订阅专题列表。

DSpace有一个可变的认证系统,它采用的是“缺省否定(default deny)”的策略。比如,一个电子用户对某个元数据具有“读”权限,但他未必就拥有对此元数据指向的材料的“读”权限。在DSpace中可以设定的权限有:READ读,知道某个对象存在,可以浏览相关的元数据;WRITE写,修改和某个对象相关的元数据,但不可删除;ADD添加,允许增加对象,如果需要向一个专题空间提交对象,用户必须拥有这一权限;REMOVE移除,删除对象;WORKFLOW工作流,可以加入某个专题空间的工作流,比如拥有拒绝一个特定提交的权限;这其中没有“DELETE”行为,为了从专题空间中删除某个对象,就必须拥有“移除(REMOVE)”权限。权限策略可以针对个别的用户和匿名用户,也可以适用于电子工作组和数字空间群。

3.3 构建基于DSpace的数字图书馆

DSpace是一个开放源代码的软件平台,主要代码均为Java编写,可以运行于所有UNIX系统,像Linux或者HP-UX等。对应于数字图书馆的五个技术环节:数字资源采集、数字对象存储与管理、搜索技术、信息传递技术和权限认证。我们可以根据自己的需要来修改和扩展它的功能。由于Java虚拟机是由HTML和部分嵌入的Java代码组成的,基本上不需要触动其核心的代码就可以方便地修改它。同时,它还采用了一些第三方的开放源码系统:PostgreSQL,开放源码的关系数据库系统;Jakarta Tomcat,Java服务器组件;Apache HTTP服务器发布系统,可选SSL和X509认证支持。当然,还可以选择这些组件的替代品,比如可以用Caucho的Resin application server来代替Tomcat。为了尽量减少移植和使用的障碍,DSpace缺省都使用完全免费的开放源码工具包。

数字资源采集是数字图书馆的对象来源,包括创建原始内容和捕获开放系统中现存的资源。DSpace不支持原始内容的创建,但可以以工作流方式捕获任何支持主动文档开放协议(Open Archives Initiative)的数字资源和元数据,同时也通过这一方式完成信息传递。

检索是DSpace挖掘(discovery)的重要组成部分。用户对于搜索引擎的要求是很高的,所以DSpace的目标就是提供尽量多的检索特色。DSpace的索引和检索模型有一个API接口,允许非常方便地索引新内容,重建索引以及在指定范围内检索。这个API来自免费的Java搜索引擎——Lucene。Lucene支持字段检索、停用词(stop words)、词干(stemming)以及不重建索引增加新的索引内容的能力。

所有的DSpace用户界面都是基于WEB的,并且包含一系列的界面:用户提交界面、搜索界面、系统管理界面以及提交审核的各种界面。利用Java虚拟机和Java服务器技术,DSpace允许用户通过浏览器访问系统,这使DSpace的使用和管理都十分方便。

在虚拟存储技术的支持下,利用DSpace联盟,还可以实现虚拟馆藏:联盟的馆藏对于用户完全透明,用户通过WEB界面访问元数据,并发送资源请求。DSpace可以根据标准协议进入不同院校的系统,像康奈尔大学的arXiv,通过本地的存储过程自动获取有关的文档备份。用户只需点击锁定(located)的条目,它就会被下载到WEB浏览器中。如果是一种WEB支持(Webnative)的格式,它就会立刻显示在浏览器中;否则它就被存储在用户的计算机上,像Excel数据表或者CAD文件,需要以特定的程序来打开它。

DSpace可以存储、管理和发布任何已经和未经出版的本地馆藏,保证印刷和数字文献的统一索引和定位。围绕DSpace核心,制定完善的策略,设计合理的工作流,采用成熟的工业标准和协议,构建一个高效、稳定、易用的新一代数字图书馆是完全可能的。

收稿日期:2008-09-19

标签:;  ;  ;  ;  ;  ;  ;  ;  

数字图书馆与开源软件--以数字资产管理系统(DSPACE)为例_数字图书馆论文
下载Doc文档

猜你喜欢