哈佛大学数字图书馆先导计划,本文主要内容关键词为:哈佛大学论文,先导论文,数字图书馆论文,计划论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
2001年3月6~8日,美国哈佛大学图书馆副馆长Dale Flecker 先生应邀到北京大学图书馆作学术报告。Flecker 先生介绍了哈佛大学数字图书馆先导计划的主要内容以及数字图书馆的有关技术问题。该计划是一个为期五年的工程(被称“数字化图书馆行动”或LDI), 哈佛大学给图书馆资助1200万美元的专项资金,旨在建设哈佛第一代数字化图书馆的基础设施。
一、LDI的特征:
LDI在以下几方面有别于其它的数字化图书馆项目。
1、是生产而不是研究。LDI不是个研究项目,而是建立将用来支持图书馆工作人员和研究人员的日常工作坚实的生产环境。
2、固有的数字化。许多事例表明, 把大学资料库里有追溯效应的资料进行数字转化可以提高对这些资料的检索率,同时给现有学术资源增添了更多效用和价值。而更具战略意义的是图书馆开始处理越来越多的仅以数字形式产生和提供的资料。
3、不只是图书馆。 它不仅针对图书馆数字化革命同化了学术交流的不同模式,同时也把各个收集学术资料以及为其提供检索的部门联系的更紧密。数字化图书馆的结构和专业技术无论是对传统意义上的图书馆还是对学者、博物馆、系统化资料库都是同等的重要。
二、教育和专业技术
数字化图书馆和一般图书馆也有相似的一面,即收集、加工、排序、智能存取、保护、储存以及为使用者提供服务。然而,在如何满足这些需要方面,两者差别甚大。数字图书馆需要不同的知识和技能,因为它是在一个崭新的环境中,这些知识和技能还难以广泛的获取。LDI 的关键部分是成立一个小组,它熟悉并拥有与数字化资源相关的各种领域的专业技术,这些数字化资源包括:
元数据(管理的、技术的和学术的)、数字形式、技术与工作流程重组、许可证、知识产权、数字化资料保存、用户界面和存取问题、教职工可以通过咨询,项目辅助、公开演讲、看指南书以及最有效建议的形式来获取相关的专业知识。提供这方面的咨询和教育是部分LDI 工作人员的首要职责,而不是时间许可偶尔为之的临时工作。
三、技术基础结构
大多数人认为数字化图书馆真正的问题不是技术上的而是组织和学术方面的。实际上,学院需要大量新的技术基础结构来支持大规模的数字化收藏,很多被当作一个研究课题而建造的早期数字化图书馆被认为是自上而下一个连贯的整体。而在现实中,研究院所需要的数字化图书馆完全不是那样的。这些图书馆需由一个庞大纷杂体系群组成,其中的一些体系用于学院内部而另一些被分布于互联网上并由一大群相互独立的人员操纵。学院数字化图书馆的基础结构建设的重点在一段时间内将是各体系之间的整合而不是体系建设本身。但如今因为市场上没有必须的基础结构或者这些结构只作为工具而不是完整系统的解决方案,所以需要大量的技术工作来构筑一个工作环境。
LDI最初的技术重点在于内部体系的核心部分,可分为以下三大类:
1、馆藏基础结构:生成、存储和提供数字资料的体系。
①知识库
当一个图书馆的大部分数字资料是通过外部体系获取的(比如,电子月刊站点),那么图书馆很可能要存储大量的地方性的资料。长期管理大量的数字资料不是一件轻松的事。LDI 基础结构的一个重要组成是整体化的知识库。其目的有二,一是很好的服务于保存、管理和提供不同的数字实体:其二是给保存这些资料提供信息和必要设施。核心知识库对所收存的资料的本质无关。资料仅被简单的当作一组组有序的集合。知识库把被存储的对象分为两种元数据。一是管理每个对象所需的一小组公用数据集(归属、状态、存取规则);二是与特定类型的对象有关的可变元数据集(静态图像、声音文件等)。 目前的 LDI 知识库是以Oracle数据库作为元数据管理来实现的,Oracle数据库有助于馆长对保存管理和风险估量做分析。核心数据库不仅可用于图书馆,还可用来向“保本生意”收费,即对收回为储存一个具体对象而产生的边际成本进行收费。而用于存储的管理费用被当作是公益工作而不向存储人进行收费。根据政策,知识库用来存储整个哈佛大学馆藏对象。知识库操作明显包括存储和转移存储对象的责任,如今这个责任定义的更具体了。存储目标及其足够多的元数据以及支持存储功能是知识库的关键要求。
②传送服务
在图书馆的数字化资料里当然有很多不同形式的资料,每种资料都有其特定的用户界面传送应用,在一段时间里需要很多不同的传送应用。目前基础结构包括六种传送应用:
单个图像传送。这是一种简单的应用软件。它能把图像资料从知识库发送到网站浏览器上。
页面传送。它使用XML编码结构化元数据档案界面, 不断提供有针对具体部分或页码的链接的文档各部分描述,还提供有检索链接的单页(比如,“到下页”、“到下章”、“到下卷”)。
多媒体。这种应用提供对不同类型的有关资源的同步存取(比如,对一个声音文件和一个相关文本文件进行同步播放和浏览)。GIS 界面。可通过网络浏览器获取所需的GIS数据集, 这些数据集都可以被下载到台式计算机的GIS软件中统计数据集界面。 社会科学数据集可以整体的或部分的来传送,以便用数字统计工具。而对于选择的数据集,可制作简单的数字表格进行分析。声音传送。对于开发种的音像应用,LDI 将先采用RealAudio服务器。
所有传送方式必须遵守存取规则。
③内容来源。
采用存取管理公共设施进行鉴定权。数据对象会渊源各不相同。固有数字化的资料可从学校内外部的众多途径中获得。哈佛许多不同的部门正在为转化传统资料开发服务。已经成立了两个部门来获取高质量图像(即可通过扫描也可通过数码摄影):哈佛数字化图书馆图像小组和哈佛美术博物馆与美术图书馆图像工作室。两者都提供知识库所需的元数据用来进行对象管理,两者也都拥有可以自动的把数据存进知识库的设备。
2.存取基础结构
①目录。到目前为止LDI 项目较难的项目是扩展存取资料的目录。正如所有的研究院一样,哈佛拥有存取局部OPAC(联机公用目录)的能力、提供大量外部摘要、目录索引数据库。不仅仅如此,哈佛还有其它四种目录正在建设中或作为LDI的一部分正在开发中。
②多目录存取。开发这些独立的目录有很多原因。独立的目录常常能为使用者提供更好的服务。就像小目录比大目录要好用一样。互相分离的目录能简化使用者的查找过程。然而,众多纷杂的目录和检索工具也明显令人头疼。为了简化日益复杂的目录环境,会有一个项目被用来研究各种“支持多目录”的工具。在被研究的方法之中,有检索引擎,配有来自现有各目录的数据的“超级目录”或用于目录间导航的设备。
③资料库网站。很多数字化图书馆项目涉及到个人网站的建设,以提供特定资料库的描述和导航。因为这些网站一般是馆长制作的,所以明显牵扯一个长期维护的问题:馆长离任、技术更新导致新的解决方法。LDI将用一个不同的方式来解决这个问题。即用XML编码文件和XSL 类型表来自动生成资料库网站。很多资料网站的一个重要的功能是能够检索非结构化的文本文档。一个基本的检索引擎支持字符检索、布尔操作和类似的操作。
④入口。随着图书馆电子资源越来越多越来越复杂,急需一个更好的方法来组织和阐述现有的资料。一种增强型入口系统能更好的组织资源。这个体系已被开发来帮助图书馆读者浏览一个更丰富、更复杂的电子服务和系统服务的环境。
3.公共服务
①命名。命名不受技术和地址变更影响地为识别和检索数字化资料提供了一个有力的方式。不同于URLs,命名不指向被命名的对象,而是当使用名称调用一个服务时,才返回被命名对象的当前地址。这种间接方式有两个主要的好处:
a、如果对象地址更变了,只需刷新数据库。 该名称不同的所有实例仍然有效。
b、 如果一组对象地址同时更变了(比如从这个知识库转移到另一个),通过一个改变命名服务的操作所有的地址都会被刷新。最终我们希望,一个真正的URN服务能成为一个标准的支持网络的服务,而且LDI命名方案能与提供的IETF URN方案相匹配。与此同时,已经开发局部命名服务,它有两部分:
a、主数据库保存命名和地址的关系, 有用于群体间和个体间相互维护设施,且配备有安全系统和有效检查。
b、决策服务用HTTP的“二次导向”式把命名对象指向当前地址, 从而满足其需求,它采用Berkeley DB技术,性能高, 可用性强(采用负荷分担冗余服务器等)。命名系统通过分级处理把命名责任分散到哈佛各个组织单位。命名服务与LDI存储技术是一个整体, 存储对象能按要求自己接收形式正确、注册得当的命名。
②存取管理。整个数字化图书馆都充满着知识产权问题以及限定存取对象和获得服务的问题。存取管理服务旨在提供一个供多个系统共享的机制。此服务有两个重要功能:
a、鉴定权。此服务需要使用者的一些信息, 以保证所提供的申请是有效的。但由于没有私人识别密码,这个服务只能提供相对的真实性。明年此服务很可能并入全院个人识别码服务系统中去。
b、个人档案。许多图书馆采用会员制而不是个人识别, 让一组人获得使用权(这组人可以是在读学生、法律专业教职工等等)。个人档案服务提供对建立一组使用者有用的一整套数据要素,这些数据是从全院LDAP服务体系里的存取管理系统中获得的。有效信息和个人档案都被存在使用者的浏览器的临时文件夹中,这样做可以免去使用者浏览时重复的使用有效信息。因为用户界面对外开放,所以临时文件夹有一定期限,以避免诸多问题。要求填写有效信息的应用软件可以忽视这些临时文件夹而要求最新的有效信息。
四、主体项目
LDI的一大部分投资(5百万美元)用来支持能够通过LDI 基础结构建立可用数字化资料的独立项目,这些项目旨在:
1、帮助确定开发优先顺序。 基础结构各组成部分的发展计划是基于投资项目的需要之上的。
2、基于实际需要,而不是基于理论分析。
3、测试/验证基础结构。 实际应用和真正的使用者可用来设计进行测试和验证,并能为应用软件的更新提供反馈信息。
LDI最初两年里,每半年处理一次申请提案, 提案会从哈佛的许多角落纷沓而来。为给基金会的九个工程项目注明日期,就牵扯到大量的资料。
①视图资料。用来转化现存视图资料是提案中最大的一类工程。
②文本资料。哈佛和Radcliffe 的档案室接受投资来把两个学院所有的年度报告进行数字化。
③地理信息。利用地图资料馆,环境工程计划和计划研究院所筹建的工程将建成一个目录。此目录有地理检索,数据储存和供馆长在网上发表选用数据的设备。
④录音。音乐图书馆的一个工程将涉及到数字化转化、保存和网上存取。
⑤混合媒体。有两个工程涉及多种形式数字资料的收集。
五、现状与将来发展
LDI工作人员已经与哈佛各部门的人共同合作。 这些部门是图书馆、 档案室、 博物馆、 学术性与课题辅导部门、 信息技术部门、 Arboretum部、Herbarium大学与各种学术中心和系部。技术基础设施里有一部分已经召开新闻发布会来开始其生产。知识库的首次新闻发布会定于今年十月进行。其它各部分还在筹建或分析之中。。所有的工程都已开建,包括有中国历史图片、哈佛和Radcliffe历史资料。目前, 图书馆在数字化资料上最大的一笔投入是对电子杂志进行合法化处理。然而,至今还没有出现令人信服的策略来对这种电子杂志进行保存和归档。与其它很多研究性图书馆一样,哈佛也处在把电子杂志归档的困境中,想用LDI构建的基础结构来辅助对大规模的电子杂志的归档。LDI最明显的特点(无疑这是一个弱点)是它的所有资料仅限于哈佛内部,无庸置疑,任何一个图书馆的数字化资料都将对外开放,在很长一段时间里,把外面不同形式的资料转化为供学院使用的统一资料将会是构建学院级数字化图书馆最大的挑战。到目前为止,几乎无人关注整合内外部资源意味着什么。这很可能是LDI后其的焦点工作。
更多资料请浏览〈http://hul.harvard.edu/ldi/〉
编译自:D-Lib Magazine November 2000 Volume 6 Number 11 IBBN 1082-9873