数字图书馆关键技术的分析与启示(上),本文主要内容关键词为:关键技术论文,启示论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数字图书馆是现代高新技术支持的数字信息资源系统,是下一代因特网网上信息资源的管理模式,它将从根本上改变目前因特网上信息分散不便使用的状况。数字图书馆涉及到的技术很多。首先,数字图书馆是一个以网络化方式互相联接的信息系统,因此它必然需要一切支持信息系统的技术,如网络技术、信息压缩与传送技术、分布式处理技术、安全保密技术、可靠性技术等等。其次,数字图书馆是一个具有图书馆功能的信息系统。从技术角度看,数字图书馆是将馆藏的多媒体资料以计算机所能存取的形式进行表示、存储、处理和传输。因此,这里我们要研究的数字图书馆关键技术,是指数字图书馆作为具有图书馆功能的信息系统所需要的技术。
自从美国颁布实施“数字图书馆倡议”之后,各国都掀起了一股研究数字图书馆的热潮,其中美、英、法、日四国的研究成果尤其引人注目。研究四国在数字图书馆关键技术上的侧重点和先进程度,与我国的研究方法、开展步骤进行比较,有利于我们找出自己的不足,以待改进。
1 国外的数字图书馆关键技术研究进展
1.1 美国的数字图书馆关键技术研究进展
1.1.1 IBMDB2数字图书馆
(1)信息的创建与捕获技术
电子信息进入一个具体的IBMDB2数字图书馆的渠道有两种:一是IBM及其合作伙伴将用户现存的工具进行统一,二是将用户的信息直接导入数字图书馆,即创建原始内容和捕获开放环境中的现存资料。IBM和梵蒂冈图书馆研发的扫描技术在信息行业中处于领先地位。由于IBMDB2数字图书馆将高分辨率扫描与颜色标准技术相结合,因此他们捕获、再现的图像的质量和颜色近乎完美。此外,他们还开发了先进的处理软件使图像看起来更加清新,便于在Internet上阅览。原始资料由于年代或粗心的缘故发生的变质和遭到的破坏,可以在转换为数字形式后得到恢复。IBMDB2数字图书馆既能让用户看到一份被损坏的文件的原样,也能让用户看到它修复以后的样子。
(2)信息的存储与管理技术
IBMDB2数字图书馆提供一个开放环境下的高性能、可扩缩的信息存储与管理系统,可在多种平台上运行。IBMDB2数字图书馆的信息管理特征包括自动做索引、做文件夹、标明相互关系、抽取特征和翻译功能。
IBMDB2数字图书馆在IBM管理信息的基础上开发了一种独特的对象存储管理的体系结构。其核心存储与管理基础设施是图书馆服务器,它管理目录信息,提供馆藏里的对象指针。对象服务器里包括一个数字图书馆实际的数字化内容的文件,如一段视频剪辑。客户端(或终端用户)接收一个所需馆藏信息的直接路径而数字图书馆里的数据受到保护,不让用户随便访问。图书馆服务器以这种三角形的体系结构阻止非授权用户接近对象服务器。数字化的图像、音乐和视频数据越来越大,把常用的对象存贮在离用户近的地方,降低了通信成本并提高了执行性能,因为重放对象的次数被降至最低。
在一个IBMDB2数字图书馆解决方案中,存储其中的对象可按提问检索。IBMDB2数字图书馆解决方案提供一系列开放的应用界面,便于访问服务器、与服务器交互以及把对象传送给客户端。对象可以直接传送给客户端,这样文件就放在工作站上准备再次利用。而且,对象可以在客户端水平传送和送出。比方说,一个以WordPerfect格式传送的文本对象可以在用户的桌面上用WordPerfect激活。IBMDB2数字图书馆还提供等级存储管理。数字对象可以存储在人们想要存储的地方。最有可能被访问的对象通常存储在磁盘上,而较少被访问的对象则移至磁带或光存储器上。这样做的好处是在存储的维护方面节省成本。IBMDB2数字图书馆对大量存储设备是开放的,以保证被需求信息得以传递。
(3)信息的搜索与访问技术
IBMDB2数字图书馆的解决方案提供一种独立于内容的数据存储方式,允许将各种对象存储在可扩缩的档案里。用户想要访问的各种媒体的对象以适合于每种对象类型的方式分门别类。如果用户正在查找一种对象类型,那么他可以利用一个参数搜索,如作者、主题、题名、长度等等,寻找元数据条目。
一般的信息搜索只允许用户用关键词提问,然后返回一个条目列表,列表的索引中有该关键词。IBM的搜索技术则十分丰富,它有成熟的分析文本和图像的工具。IBMDB2数字图书馆提供自然语言提问——允许用户用简单、自然的风格表达提问,而不考虑具体的单词的位置。这种提问返回一个等级列表,最可能相关的列在前面。该技术还实现了对词语进行文本分析,例如“白宫”与“白色的房子”就进行了区别,但是又认识到了“IBM”与“国际商用机器公司”之间的联系。上述的文本挖掘功能还扩展到进一步的基于文本的搜索功能,提供像聚类和抽取技术这样的工具来组织信息。
IBM成功的图像搜索技术,对图像内容提问(QBIC)允许用户用颜色比例、分布、位置和图像纹理(用图示表示)来进行搜索,例如从调色板上选取颜色或是从一系列样本图像中选取纹理。IBMDB2数字图书馆技术已触及视频内容搜索。
(4)信息的传递技术
IBMDB2数字图书馆是开放的,其内容可以通过私人网络、企业内部网、WWW或交互性的电视机直接传递给用户。IBM还开发了扩展的高级网络能力,如异步传输模式(ATM)开关和网络管理软件,来辅助数字和模拟信息传送。此外,值得一提的是IBM数字图书馆为Avid的联接技术。
IBM数字图书馆为Avid的联接的特征包括:支持开放媒体框架(OMF)交换文件格式;易用的“对编辑友好的”界面;Avid平台上的基于JAVA的客户端;可以导入和导出IBMDB2数字图书馆的OMF文件;OMF元数据的自动登记/编目;用户定义的描述,可附至AvidOMF媒体文件;用户定义的描述可以通过IBM数字图书馆为Avid客户联接进行更新;资产的安全由基于口令的访问保证;在Avid媒体创作者(Media Composer*),MCXpressfor WindowsNT*和 AvidXpress上运行等。
IBM数字图书馆为Avid的联接开发了IBMDB2数字图书馆的功能,包括:支持多平台(Windows NT和ALX服务器,Windows95,Windows NT,MAC和SGI客户端),可攀登的技术(从单个的工作站和分布式的服务器群),全球可通过私人的网络和/或企业内部网访问所有的媒体资源,支持全面的媒介存储(磁盘,磁带和CD-ROM)以及高级搜索关键词、自然语言提问和模糊检索。
(5)权限管理技术
IBMDB2数字图书馆的权限管理类似于从一个自动取款机里取款。首先用户接受身份鉴定,输入密码,请求得到某信息或对象,于是系统检查用户提问是否合法。在同意的情况下,被请求的对象就可以加上水印以防止非法复制。整个过程在一个安全的环境下进行,不会有被侵入的危险。而且,信息或对象的增值可以得到及时的补偿。总之,权限管理的过程是:签名、密封、传递。IBMDB2数字图书馆可以用电子签名的方式鉴别原始媒体——照片、手稿、声频、视频、胶片和图像。带有这些签名的数字内容就被识别为有效的。IBM的电子商业产品Cryptolope Live!标志着其信息传送对于内容权利人和用户来说都迈进了一大步。Cryptolope是一种可以在公共网络上运行的密码保护的“信封”。任何人想打开一个Cryptolope读其中内容,都必须使用一个密钥。用户可以预览一个Cryptolope的内容之后再决定是否为密钥付费。对于需要增加安全性的敏感信息,一个Cryptolope可能需要几个密钥。当一个 Cryptolope在网络上运行的时候,只有那个目标接收者知道它的存在。IBM的电子商业服务自经营以来一直保持着权限付费的完好记录。IBMDB2数字图书馆的权限管理能力依赖于Cryptolope技术。Cryptolope技术是IBMDB2数字图书馆权限管理策略的基石,它能谨慎地识别出每一个作者,跟踪谁出售了什么。
1.1.2 伊利诺斯大学的信息搜索与访问技术
(1)多媒体检索系统
传统理论一直认为,检索系统可依靠其丰富的内部结构对天然的、未经解释的比特流进行提问与检索,但是现在出现的视听数据对数据管理提出了新的挑战。针对这个问题,数字图书馆首倡计划的成员S.Mehrotra,M.Ortege和K.Chakrabarti提出,管理视听数据需要以下技术:对可视对象有效地建立模型并描述,支持基于文本的检索和相似检索,对包括多重近似匹配的复合提问(如这些匹配的布尔组合)的评价方法,多媒体对象与其他传统数据的结合。他们在数字存储技术、图像分析与计算机视觉以及数据库管理方面的进展使人们有信心相信开发功能强大的、支持复杂的多媒体数据的检索系统是可能的。
(2)检索高维数据
现在出现的数据库应用越来越需要数据库为高维数据(其维数可能达到100)的存贮与检索提供支持。现存的多维检验结构(如网格文件、R树)没有达到这样高的维数。它们要么用维数列出指数的复杂性,要么当维数增加时降为一个线性搜索。美国军队研究实验室成员S.Mehrotra,K.Chakrabarti和 K.Porkeaw正在研究克服这种维数灾难的机制。他们的研究方法包括设计新的多维数据结构(能提供保证好的效果),开发远程保存转换(从高维空间转为低维空间)。这样低维数据就能用现存的多维数据结构进行检索了。
1.1.3 加利福尼亚大学的图像检索技术
(1)Blobwortd表示方法
我们知道,从大量多变的集合中用图像内容进行检索是一个富有挑战性但又十分重要的问题。加利福尼亚大学伯克利分校电气工程和计算机科学系的研究者们提出了一种新的图像表示方式,他们将原始的像素数据转换为一系列图像小区域,这些小区域在色彩和纹理上是连贯的。这种Blobworld的表示方式是在一个色彩-纹理-位置三者结合的特征空间里将像素聚集形成的。小区域的分割算法完全是自动的,该算法已经运行在一个含有10000张自然图像的集合中。
采用这种Blobworld表示方法的图像检索系统的一个重要特点是,允许用户看到所提交图像和提问结果的内部表示方式。同类的其他系统往往不让用户看到系统的工作原理,因此这些系统的提问结果可能令人费解,尽管用户可以通过调节器来校正相似度。
这种系统允许用户通过相当于对象的图像区域的查找在对象水平上提问,而不是对图像的全部属性提问。研究者们提交的结果表明:用Blobworld区别对象来提问所产生的结果,其精度明显高于用整幅图像的色彩和纹理矩形图来提问所产生的结果。
(2)将本文与图像特征聚簇进行图像数据的自动组织
该方法是由加利福尼亚大学伯克利分校计算机科学部的Kobus Barnard和David Forsrth提出的,它同时利用了从图像中抽取的特征和与图像同时出现的文本信息。首先,采用简单的结合方式对于有经验的用户按适当的关键词访问数据库效果是最好的。其次,即使是作这样理想的假设,找到想要找的图像仍然很困难。研究者们明确声称:解决这个问题最好是使用所有知道的信息。第三,标引的细节应当对用户隐蔽。用户应当能找到看上去与他的兴趣相符的图像,而不是要求用户对相似性进行量化(除非是用选择方式)。因此,他们想到对图像进行聚簇,将用户引到感兴趣的图像面前。他们采用的聚簇方法是期望值最大化(EM)算法,用最小描述长度标准选取簇的数目。
聚簇的第一个问题是选择特征及其表示方法。对于文本,他们使用现有的或没有的单词,忽略那些在整个数据库中少见的单词。因此单词的特征矩阵仅仅是一个1和0的矩阵,其中行对应图像,列对应单词,而元素则对应图像的关键词集中有无那个单词。
处理图像特征的方法则更复杂一些。他们选择的是利用Blobworld数据中可获得的特征的方法。这里的信息比大多数选项的水平要高一些,但是使用这种信息确实增加了一些复杂性。在Blobworld方法中,图像被分割成许多小块。小块的数目随图像不同而不同。虽然他们对每个小块所处的背景感兴趣,但是他们不知道哪一个小块最有价值。于是他们也对每一个小块的重要性聚簇,作为第二层次上的EM聚簇。在EM方法中,每一张图像对于其所在的每一簇来说是作为丢失数据处理的。为了充分利用Blobworld数据,他们将每一个小块划到某一簇的适当性也作为丢失的数据,这个丢失的数据与簇的成员结合处理。
为了验证这个想法,两位研究者从Corel图像数据库中选取了大约2400张图像进行实验。其目标是努力做到用等级方式组织整个收藏集(大约34000张图像)。
(3)验证主体计划
David Forsyth和Margare Fleck进行了一个有趣的实验来验证他们的主体计划(bodyplan)。他们把来自各种渠道的100张马的图像和1086张控制图像混合在一起,用搜索工具寻找像兽皮的图像区域,也就是寻找直的和近似圆筒形的兽皮区域,然后使用一个主体计划来推理这些区域的空间分布,找出马的图像。主体计划就是在拼成一匹马的成熟模型的基础上识别马。结果该程序可以从很多方面识别马。
两位研究者通过一个参数来调整程序的执行情况,这个参数是用来评估一组看上去像马的图像到底是图像噪音,还是真的马。如果参数值很高,那么反馈就很低,但是反馈率(获得的测试图像的百分数除以获得的控制图像的百分数)很高,这意味着获得的图像很可能是马。如果参数值很高,那么反馈就更高,但是反馈率较低,用户得到更多的马和控制图像。执行的水平可能有多种。但是他们做实验的一组图像的反馈是15,比较低,然而反馈率大约是23%,意味着对于100张测试图像和1000张控制图像,期望的精确度大约是66%。因为寻找片段的过程有时会被栅栏和类似的东西迷惑,有些图像就丢失了。这纯粹是一个执行问题。本来在结果中可以再看到大约5张马的图像和大约4张控制图像,但是这些图像在执行中被分块搜索器漏掉了。
(4)伯克利数字照片集
伯克利数字照片集里有80000多张数字图像,其中的许多图像还链接到其他的在线数据集。CalPhotos是一个含有34053张植物、动物、人物和风景的图像集。用户既可以用具体指定的方式搜索,也可以用传统的提问方式进行。以植物图像集为例,在用第一种方式搜索时,用户可依次输入或选择要搜索植物的名称、照片类型、地点、大陆、国家、美国的州、加州的县、集合、摄影者、颜色以及照片号。其中颜色有红、赭、黄、蓝绿、浅蓝、深蓝、紫、淡红和白色等九种颜色。这些图像存储在文件系统中,而不是数据库中,因为从数据库中提取图像比将图像的位置(即文件名)存储在数据库中,花的时间要长。系统中的每一个记录都包含一个照片ID,它映射到照片在磁盘上的实际位置。一个html提问表访问一个计算机程序,该程序生成一个SQL(标准提问语言)提问给Informix数据库,提交提问并处理结果,生成一个新页面来显示匹配的图像。
1.1.4 卡内基·梅隆大学的Informedia数字视频图书馆
Informedia数字视频图书馆开创了视频音频的自动标引、导航、可视化、搜索与检索的新方法,并且把它们广泛运用在教育、信息和娱乐系统中。Informedia系统提供对现在和过去的电视与广播新闻及纪录片广播的全文搜索与检索。系统采用人工智能与高级系统技术以全自动化的方式对每天的内容进行捕获和信息抽取,并把它们存储在在线档案中。当前的图书馆里有过去两年里1500个小时的每日新闻和公共电视、政府机构的纪录片。原型数据库允许根据声道、封闭字幕和屏幕上的文本对个别视频段落进行快速检索,支持任意说出的或文字输入的主题词提问。它还能够对相似的脸和图像进行匹配。研究者们采用独特的语音识别、图像理解和自然语言处理技术相结合的办法,自动录制、分割及标引线性视频。这些工具也同样运用在智能视频搜索、导航和选择性检索中。这个过程自动为每个故事片段生成各种摘要,如标题、幻灯影片的故事概要和视频速览。
Informedia-Ⅱ在潜在信息抽取的速度和准确度上都有所提高。潜在信息包括名称、地点、日期和时间索引,还有动态故事分割、说话者声音和面部的识别、视频事件的特征与相似度匹配。执行的目标是实现实时分析处理,做到同时编入现行的图书馆,支持分布式私有视频档案的互操作。Informedia-II计划还能为自动从视频材料中抽出的索引建立关系和集合。
1.2 英国的数字图书馆关键技术研究进展
1.2.1 不列颠数字图书馆
该数字图书馆拥有一个庞大而复杂的IT环境,包括几个大的和许多小的应用系统,它们彼此之间以各种方式进行交互。为了成功地管理这些交互,该馆在物理层、运输层和应用层采用了一系列技术标准与协议。该馆正在为其信息系统的分布式组成部分建立一个体系框架。这首先得支持访问发展计划(ADP),但是将来一切具有重要战略意义的研究成果都准备在这个框架内运行,其中包括DLS(数字图书馆系统)。该框架的潜在技术是适应CORBA的中间层,其组成部分内置于Java和C++中。DLS将包括两个主要部分:数字存储应用和发现与检察应用。
数字存储应用是不列颠图书馆的数字设备之中心。它通过硬件、软件和操作环境等手段保证数字集合的长期可获得性,其中操作环境提供安全存储、长期管理以及数字对象的保存。发现与检索应用为用户提供搜索和传递数字集合中各条目的界面。
DLS基本的图书馆要求是,它应当从一开始就要保证尽可能地保存里面的数字资料。为了保存一个数字对象并保证长期访问,对象必须要么移入一个新的硬件/软件环境,要么使它原来的环境尽力跟上技术的变化。但是这两种方法都依赖于相关元数据的保存,DLS的体系结构将采用其中一种或两种保存方法。该馆采用CEDARS概要说明作为DLS元数据定义的基础。
1.2.2 DeMontfort大学的ELINOR项目
ELINOR(电子图书馆信息在线检索)是DeMontfort大学在电子(或“数字”)图书馆领域的第一个项目,而DeMontfort是第一个建立全文本电子图书馆系统供学生使用的英国大学。该项目始于1992年,由DeMontfort大学、不列颠图书馆研究与发展部和IBM英国科学中心资助。其目的是开发一个教学与学习环境中的电子图书馆,在这个图书馆中学生和教职工可以通过桌面工作站使用大量文本和图像形式的信息与学习资料。截止1995年底,该系统包括了120多册完整出版的课本和许多其他的课程资料、考试卷和杂志。这些成果是花费了无数个小时与出版商协商版权和版税问题才取得的。为了简化协商过程,他们共同建立了一个许可证模型。小组成员SimonZhao开发了一个使用跟踪系统,该系统可以控制印刷,并付给参加的出版商以版税。
该小组最近决定,将进一步开发版权管理软件(ERCOMS)。从技术上讲,该项目以调查文件图像处理技术为始端,印刷资料转换为图像(TIFFgroup IV)形式便于浏览与阅读。所选系统是Excalibur的 EFS文件管理软件。为了生成可搜索的ASCII文件,他们使用了OCR光学字符阅读器)。EFS软件包括一个自由文本的模糊搜索引擎,用来按字母形状搜索文件内容(这样就避免了OCR错误或用户拼写错误的问题)。
DeMontfort大学校内的用户可以通过一个典型的WWW界面访问ELINOR系统。由英格兰高等教育基金会资助的一个较小的子项目(ELVIS)已经开发了一种典型的ELINR用户界面,供视力不健全的学生使用。
1.2.3 牛津大学Bodleian图书馆的丰田市成像计划
这个数字化的成像系统是由丰田市1993年发起的。它的处理对象主要是约翰逊集合中的15类机动车,还有1000张其他交通工具的图像。图像是用柯达公司的照片-CD技术生成的:原来的图像先被拍摄到35mm的幻灯片上,接着再扫描到照片-CD盘上。最后把图像转变成分辨率不同的JPEG图像和GIF图像。每个条目的书目信息以SGML格式保存,与TEI模式一致。SGML记录经过一个TCL程序处理,转化为HTML,显示在WWW上。
1.3 法国的数字图书馆关键技术研究进展
1.3.1 法国国家图书馆的Gallica
法国国家图书馆(BNF)已经数字化了100000幅图像,这些图像是从法国国家图书馆之外的文件集和BNF各部门的世代收藏中选取的。已数字化的收藏通过BNF的内部网络传递,一旦网上通信牵扯到的技术和法律问题解决之后,所有数字化的文件将会上传到各种“信息高速公路”。
BNF的第一版网站是在1996年上载到Internet上的,它描述了BNF的馆藏、实用信息、新闻、重大事件的进展和专业信息。最重要的是该网站提供免费接入BN-OPALE和BN-OPALINE数据库,这两个数据库包括2500000多篇参考文献,可以用Telnet方式搜索。到新的集成信息系统完成之后,读者将可以搜索图书馆的全部目录,包括从Gutenberg到现在的印刷资料,还有声音记录和音频资料,一共大约有800万条。
Gallica2000是BNF数字图书馆的最新版本,它包括从中世纪到20世纪早期的多媒体文件,是世界范围内电子网络上最大的免费数字收藏集之一。Gallica2000将BNF所有的数字化文件(不论有无版权)列成一个目录。但是,只有列为无版权的文件才可以查阅。该目录允许用户浏览整个文集,以文本方式查阅内容页、杂志和图片说明。所有的文件都有相应的以标题冠首的编辑文本,年表和其他相关网站的列表可以帮助用户充分地利用Galliea的资源。
在技术上,新的Gallica2000版本集成了主要技术进步与BNF的档案与电子文件搜索系统的成果。并不是网上所有的15000000页都存储在快速存取磁盘上。有些资料存储在自动电唱机上,这就需要长一点的等待时间。而最常用的文件则导入快速存取的高速缓冲存储器。
Galliea网络服务器提供接入目录的服务,目录管理访问权限,选出无版权的文件。这些文件从档案系统中调出,呈现给用户。除了从存储单元中调出文件外,系统也将搜索单个的页号。文件也能通过编辑页访问,这些编辑页提供基于主题的信息和年表。
文本图像用AerobatReader软件以可移植文档格式显示,用户可在Galliea网站免费下载该软件。文件也可用可移植文档格式或标记图像文件格式全部或部分下载。图解资料用JPEG格式显示。
1.3.2 声频视频资料的搜索技术
法国的Entrepriseindustrielle,OTH和SETEN三家公司已经联手开发出了一种新的高效系统,可搜索BNF的声频视频和多媒体资料。搜索涉及到的所有功能都由这个系统管理与组织,如音频与视频控制板、数字与模拟文件的存储、传输和传递、工作站显示与交互功能、用户与音频/视频板的通信、与主要信息系统的链接和部分资料的数字化,还有访问统计与它自身的操作功能。
1.3.3 BNF的信息系统
BNF计算机化计划从数据上看在世界图书馆界是最大的。该计划的完成将需要400个人年。一旦全部完工,这个带有14个数据库主机、47个存储服务器和3000个工作站的新系统将提供异常快速的处理能力和6万亿字节的存锗容量。规模之大需要相当的项目管理能力(60个人)和国际性的工业伙伴。BNF曾在欧洲范围内发了一封邀请加盟信,CapGemini、IBM和Alcatel公司(100名员工)应邀而至。BNF与Bull签订了设备供应与集成的合同。Bull是包括Sequent、Experdata、Oracle、Microsoft和Foresystem在内的合作单位的领头人,这次合作成立了一个80人的小组。
1.3.4 IRCAM多媒体图书馆:数字音乐图书馆
IRCAM是法国指挥家、作曲家Pirre Boulez于20世纪70年代末建立的一个研究当时音乐的非营利协会。现在在Laurent Bayle的带领下,该协会正在建立一个数字音乐图书馆。
(1)总体结构
该馆的总体结构采用client/server。其中,Server存储目录和数字化的集合。在用户终端,HTML是系统的唯一界面。这种选择是为了让公众以现有的工具(如网络浏览器)远程访问在线图书馆。
(2)标准
总体界面:HTML(和Z39.50)
目录记录:UNIMARC
IBCAM录音:MPEG-lLayer2(384kb/s)
商业CD:44.1KHz的立体样本(1.4Mb/s)
压缩视频:MPEG-1(1.8~2Mb/s)
静态图像:JPEG(和GIF)
标签:数字图书馆论文; 信息存储论文; 数据库系统论文; 用户研究论文; 图书馆论文; 文本分析论文; 对象存储论文; 数据检索论文; 用户分析论文; ibm论文;