国际数字图书馆技术研究进展分析_数字图书馆论文

国际数字图书馆技术研究进展分析,本文主要内容关键词为:研究进展论文,数字图书馆论文,国际论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1介绍

上个世纪的最后十年是信息技术、网络理念与网络技术蓬勃发展的十年。这十年中,人们提出了大量基于信息技术和网络技术应用的课题。数字图书馆也可以看成是这一时期的产物,因为这十年是它由概念的产生,到理论体系、框架的讨论,到技术内容的研究,再到实物建设的重要阶段。

目前,世界上许多国家都在从事与数字图书馆相关的研究,不少国家取得了较大的进展。但是大量的项目、技术研究资料使人们眼花缭乱,当人们为开发、建设自己的数字图书馆而想借鉴他人研究成果时,经常会有一种无从下手的感觉。本文的目的就是归纳、综合当前世界上数字图书馆技术研究的主流,希望能给这一领域的研究者以参考、启发。

2数字图书馆研究领域最新热点

随着数字图书馆研究的不断深入,其内容也正从抽象的体系、机制等讨论逐渐转变到以应用为主的实物建设领域。目前全球大大小小的数字图书馆研究项目不计其数,基本可以概括为以下几个领域和相关重点:

3重点技术研究分析

我们可以把数字图书馆研究技术的重点,按照功能分为信息内容的生产、信息的访问与检索、数字化信息的表现与浏览等领域分别观察。

3.1信息内容的生产

在数字图书馆发展的初期阶段,信息内容的生产是一个重要的研究课题和一项艰巨的建设项目,活动的重心主要放在传统信息资料的数字化,其中涉及大量的文本资料、图像资料和一些音频视频资料。具体的应用技术是(大批量文本和图像资料的)扫描、字符识别、扫描后处理等等。

目前,数字图书馆界就有关信息内容生产的研究重点已经与美国记忆[1]时代的初期阶段有了很大的不同。 从目前众多研究项目趋势分析,研究重心逐渐转向自动获取数据的方法以及开发相关工具。具体的项目为:如何整合和组织多个生产者的数据;数字化数据格式的转换;以及数字化信息元数据的生产等。例如,哈佛大学和麻省理工大学正在研究的虚拟数据中心(VDC)[2]就是要开发一个系统,通过该系统的软件把多种社会科学数据馆藏联接整合起来,并让它们与其它数字图书馆服务进行交互。 斯坦福大学目前正在进行的数字图书馆技术项目[3]就是要设计和运行协作创建信息所需的基础构架和服务。目前,研究自动生产元数据的项目很多,其中包括自动创建元数据的模板[4][5][6][7],它们适用于像医学、数学、物理学等多种学科的资源;自动析取(获取)元数据的工具[8][9];元数据格式自动转化的工具[10][11]等等。

3.2信息的访问与检索

信息是一个十分广义的概念,本文仅限于电子信息,它的形式可分为文本、图像以及音频视频信息。

3.2.1文本信息检索

文本是目前电子信息,特别是网络电子信息最为普遍的一种存在形式。科学管理文本信息,并使其能够按照用户需求及时检索利用是时下的一个研究重点。其中最重要的是要求从语义上找出与查询语句关键词相匹配的内容,或者从查找内容的线索(如作者、最后修改日期等)找出相关内容,而不是像Lycos,Infoseek等一些搜索引擎那样,只是简单匹配与查询语句相同的文本内容。无论是要实现信息检索的语义匹配,还是要通过信息线索找到信息内容,大部分研究项目的总体思路是对信息进行预处理,而这一思路体现在数字图书馆项目中,可能还要在前面加上“自动”两个字。也就是说,数字图书馆相关的研究技术重点放在如何自动地对信息进行预处理。有人认为,这是从信息检索到知识管理的升华[12]。这方面涉及到的相关技术有:自动标引、信息自动分类等。

亚里桑那大学管理信息系统系的人工智能实验室进行的自动标引信息[13]和信息自动分类[14]研究是这一领域的著名研究项目。自动标引信息主要是对标引算法和技术进行了研究,主要采取了聚类(clustering)算法,这些方法包括Ward聚类,多维制图,语义标引,以及自组织图像(SOM)。 他们试图寻找一个支持数字图书馆中知识管理的自底向上的方法,因为他们认为应用算法从多个数据库中产生知识是知识管理的核心。这种自底向上的方法一般需要两个阶段,一是对象识别、截词以及标引;二是分析并分类。他们的分类系统采用了图像算法,把主题相近的文献放在一起,用不同的颜色标记出来,每一次点击都会进入更深入的一层,直到最后拿到所要的文献。

3.2.2图像信息检索

此处的图像包括图片、照片、手稿等文献资料。图像信息检索技术是博物馆学、医学、地理学等学科共同关注的重要研究项目。目前比较大型的研究项目有加利佛尼亚大学伯克利分校进行的“再创信息发布与使用”项目[15],该项目就文献图像的内容分析、通过图像内容进行图像检索等技术进行了研究;还有肯塔基大学的数字化雅典宇宙项目[16],就如何存储、查询、编辑人文科学资料的技术进行了研究。特别值得一提的是,他们的技术所针对的对象是英国图书馆中历史悠久,部分损坏的棉质藏品,因而对许多图书馆都有参考意义。

3.2.3音频视频信息检索

卡内基梅隆大学的Informedia项目[17]针对音频视频资料进行了大量的研究。目前已经进入了第二阶段。在第一阶段,该项目进行了语言识别、图像理解、自然语言处理等技术的研究,从而实现了自动转录、分割以及标引线性视频信息。正在进行的第二阶段,致力于音频和视频资料的标引、浏览、查询、检索,以及把它们嵌入到教育,信息以及娱乐等环境中使用。该项目的技术正逐渐成熟并趋向实用。另外,伊利诺斯大学的人类活动数字图书馆项目[18]也主要用于视频资料的内容检索,该项目的特点是在限定查询入口(把入口限定为主体+动作+对象)的前提下对视频资料进行检索。

3.3数字化信息的表现与浏览

威斯康星大学数字图书馆项目针对不同的馆藏,设计了不同的信息表现与浏览方式。现在已经有三个主要界面可以使用[19][20 ][21]。他们先为这些资料创建一个数据模型,然后再添加一些它们觉得必要的元素以提供信息理想的访问与浏览。有关数字化信息表现与浏览的另一个重要研究就是了解美国Ⅱ项目[22],该项目主要利用结构化元数据标准来实现许多功能。在该项目的资源网站上,正在将手写本的布里日记作为范例进行演示。

标签:;  ;  

国际数字图书馆技术研究进展分析_数字图书馆论文
下载Doc文档

猜你喜欢