数字图书馆技术之进展,本文主要内容关键词为:数字图书馆论文,进展论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔中图分类号〕 G258.94〔文献标识码〕 B
〔文章编号〕 1003—6938(2000)02—0062—04
现代信息技术,尤其是计算机技术、高密度存贮技术、通讯技术、网络技术和多媒体(超媒体)技术的发展,为图书馆的数字化发展提供了强有力的技术支持,从而使人们关于数字图书馆的设想逐步变成现实。目前世界各国,尤其是发达国家都十分重视数字图书馆的发展,纷纷制定开发计划,并保证充足的经费加以落实。如美国已于1994年—1997年期间完成了其第一阶段的试验开发计划,目前已进入第二阶段的研究与开发;英国、法国、德国、日本、意大利、新加坡等国家也已分别于1993年、1994年开始了其数字图书馆发展计划,并已取得较理想的阶段性成果,将进入更深层次的研究与开发。另外,西方发达国家还在倡议开发建立全球数字图书馆,并已着手规划、设计与研究,不久即将面世。数字图书馆作为未来图书馆的一个发展模式,已经被许多国家认定下来。但是数字图书馆的发展,除了经济方面的影响因素外,技术方面则是更关键的。从数字图书馆概念的提出到发展,每一项成果,无不是在相关技术获得突破性进展后取得的。因此,为了促进我国数字图书馆的发展,本文想集中对数字图书馆开发技术及其进展加以讨论与探究,并以一管之见与相关同仁交流。
1 数字图书馆管理技术
与传统的图书馆相比,未来的数字图书馆除继续保留部分纸质印刷品文献等非数字化资料外,数字化的信息资源将成为其主导资源。但总的趋势是实行全计算机管理,这样工作效率最高,工作质量(从形式到内容)也将发生质的变化。数字图书馆的管理工作大致可以分为两类:一是业务管理(——宏观管理与调度);一是信息资源管理。因此相应地涉及两类管理技术。业务管理技术,在图书馆自动化发展这么多年之后,已基本趋于成熟,以前已实现自动化或有一定基础的图书馆,这方面的改造工作将不会很大。将来这方面的发展主要是研究开发更先进的管理软件与计算机管理系统。信息资源管理技术则一直是备受关注的难点之一,尤其在图书馆资源实现数字化后,更要求有一些先进的存储管理技术。
正如众所周知的,图书馆实现数字化后一个最明显的特征是其“馆藏”的外在化和无限化,即其“馆藏”不仅是指其实际拥有的资源,还将包括一切它所能提供的“外地”资源。一个数字图书馆的资源真正称得上是海量信息,因此就涉及到对真正海量的信息的存储与管理。这里存在的问题是,一方面要保证海量信息存贮有序,另一方面还要保证不影响读取速度和服务效果。尤其是针对不同的用户群落和服务对象,各种资源的重要程度与使用频度是极不相同的。如何既保证资源的广泛性和全面性(包括信息源的全面与信息本身的全面),又保证利用时的高效率,这就对存储、管理技术提出了较高的要求。另外,随着多媒体信息的增多,读者对多媒体检索技术也提出了更高的要求,这也要求有相应的存储技术相配套。 目前在信息存贮技术方面的研究重点是建立在SGML(Standrd Gendralized Markup Language )等电子文本格式基础上的全文存贮与全文检索。[1] 其中全文存贮指包括文本信息和图象信息混合的电子全文信息,目前有页点阵信息存贮和SAC Ⅱ代码存贮两种方式。许多原始文献提供系统和CD—ROM 数据库等已采用光栅扫描方式存贮了大量页点阵全文文本,但这种方式不能进行内容处理。全文数据库的制作方式有4种:(1)用键盘输入或OCR方法将印刷品全文输入; (2)图形、图象用扫描仪输入;(3)将激光照排文件转换到数据库当中;(4)先建成全文数据库,再依此制作印刷品。前3种方式已较多采用,第4种方式是今后发展的方向。
数据全文(包括文字、图形、图象,以多媒体方式)存贮后,如何在高效利用存贮空间、方便传输的前提下又不影响存取速度与利用,也是目前研究的重点,而且这方面的发展将是永无止境的。
2 数字化信息生成技术
数字化信息生成技术大致也可以分为两类:[2] 一类是将大量现存的以不同形式和载体存贮的信息资料数字化,如将文字资料、图片、声像资料等转换成方便计算机处理的数字化信息。直接用于该项任务的技术包括图象扫描与处理,文字、图象、语音的识别、转换以及对数字化初始信息的各种再加工技术。另一类则是直接生成数字化资料的技术与方法。信息资料数字化后,直接方便了信息的压缩与高效存贮,并能有效地降低信息传输成本,从而从根本上促进信息服务业的深入发展。近年来这两类技术都有不同程度的发展,但针对一些特殊信息(如图形、图像、声音等多媒体信息和中文信息等)的实用化处理技术还有待于进一步发展。目前有许多公司或单位声称已成功地开发出了这方面的产品,但从使用者角度看,其技术指标差异甚大,其中部分产品距实用还有相当大的距离。尤其是多媒体信息的数字化转换与加工处理技术,在原理与方法上都还需要做大量的研究探索,因此仍然是当前研究的重点与热点。而对于华文国家,当然还包括中文信息数字化技术的深入开发问题。
3 数字化信息检索技术
随着数字化信息生成技术的发展,数字图书馆的信息资源将日益丰富多样,从而对检索技术也将提出新的要求。目前对文本信息的检索已基本能够实现全文检索,并达到了不受语种限制的全文匹配水平。同时超文本检索技术的发展也很快,在实现字符匹配的基础上正向实现概念匹配方向发展。因此,目前的新型全文检索已有三种主要实现方法:(1 )采用自由指定的检索项(如关键词字符串等)直接与全文文本的一次数据高速对照,进行检索;(2 )对文本内容中的每个检索项进行位置扫描,然后排序,建立以每个检索项的离散码为表目的倒排文档;(3)采用超文本(Hypertext)模型建立全文数据库,实现超文本检索。其中超文本是非线性结构的文本,它是完全按信息块之间的逻辑关系组织信息块,并依此引导检索浏览。随着相关硬件、算法、文本处理技术及人工智能技术的发展,文本信息的深层检索技术日臻完善,发展前景乐观。但除了文本信息之外,声音、图形、图象信息也日益多了起来,对这几类信息的检索则远比文本信息要复杂得多。开发以语音、图形、图象为基本内容进行查询的技术是目前研究的重点和热点。比如目前已有研究者力图实现可以按图形、图象的颜色、灰度、纹理和位置进行查询,可以按语音的曲调、旋律进行查询等。相应的检索技术如正在开发的三维可视化超媒体检索技术、基于内容的视频信息检索技术、高智能化信息检索技术,以及针对中文信息的一些特殊检索技术等。但这些目标与技术的成功实现还有待时日,除非一些相关技术(如模式识别技术、人工智能技术等)取得相应的突破性进展,并被成功地应用到数字图书馆发展中。
4 数字化信息传播技术
信息的有效传播主要涉及三方面技术:一是信息打包技术;一是网络通信技术;一是网络/系统设备的共享性技术。目前对于文字信息,如无特别原因,已基本可以实现实时传输,但对于音频、视频等多媒体信息要实现“无障碍”实时传输目前还存在一定困难。要解决这一问题,办法也有两个:一是增加网络带宽,改善网络互联协议;一是采取一定的压缩打包技术。增加网络带宽主要依赖于网络硬件技术的发展,并且也并不是无限制的;压缩打包相比较而言似乎更可取,但也必须要保证不能太影响读取与再现速度,保证信息解压后能不失真地重现。另外,为了保证接收方快速有效、不失真地接收到原信息,双方入网的设备与系统的兼容共享性要好,这又涉及到硬件设备设计与生产标准和软件系统设计标准的问题。为了实现音频、视频等多媒体信息能象文字信息那样方便、快捷、高效地传输,除不断改善网络协议,增加网络带宽,研制新的网络互连设备外,研究开发更先进、实用的压缩打包技术也是一个重要方面。
总之,关于数字化信息(尤其是多媒体信息)的传送,在压缩打包技术方面,目前一些数据公司已经开发了一些较实用的打包技术,并在压缩原理上作了许多有益的探索,为今后的深入研究提供了基础;在网络设备方面,未来的NⅡ和GⅡ将是最好的环境,但目前综合业务数字网(ISDN)则是基本的传输网络。ISDN分为窄带(N—ISDN)和宽带(B—ISDN),前者美国、欧洲、日本已投入使用,已可以传输声音等连续媒体和低质量的视频信号。后者正在研究之中,如用ATM、 帧中继等可较好地作为多媒体信息交换方式的网络。而在近期内,有线电视(CATV)广播网络可以说是DL最有前途的传输环境——对其加以改进使其具有反向传输功能之后,就可以用它实现高品质的计算机联网、信息终端和交互式电视等功能,就可以作为DL的传输环境。[3]
5 数字化信息安全防护技术
信息数字化后,在方便利用的同时,也使非法盗取、复制、修改他人作品变得更容易、便捷。另外,数据的意外丢失与被损坏也成为更经常的事。因此,信息的安全保护问题就变得日益突出。目前这方面的研究主要涉及两个方面:[4]一是系统安全性;一是数据安全性。 保证系统安全性主要是要保证系统内的数据不被损坏、丢失,主要方法是做好数据备份,防止意外损害,防止网络黑客等一切非法入侵者。这方面是目前系统安全维护工作中最受关注的。无论是操作系统的使用、软件的设计以及系统管理制度的制订,都在这一方面做出了很大的努力。
数据安全性则主要包括保持数据的一致性、完整性和使用权限的可控制性等。它包含以下几个方面:
(1)数据的保密性。这比普通加密方式更进了一步, 要求任何人都不能看到或修改越过其权限以外的数据(数据加密)。图书馆实现数字化以后,提供的信息内容更丰富,来源也更复杂,因此数据的保密性控制问题也就突显了出来。
(2)数据的防篡改性。保证数据的完整性与一致性。
(3)防抵赖性。任何人已经发出的信息, 都应凭信息本身即可确定数据只能由该人发出,同时还应确定发出时间等差别信息。这一点在数字化社会中是十分重要的,因为这是能够作为法律依据的数字化凭证(数字签名)。采取这方面的措施主要是为了限制“垃圾信息”上网与传播。
(4)身份识别与鉴定。鉴别对方的真实身份或合法性。 对人员进行级别划分,不同级别的人具有不同的网络(管理/使用)权限。
(5)知识产权保护技术。包括版权管理、版本控制等。 其中版权保护问题已在原有计算机读取管理技术以及域名管理技术的基础上基本得到了较好的解决。版本控制主要是一个动态跟踪、识别与标识的问题,在现代技术条件下也是应该能够很快解决的。
总之,在网络这个开放的环境里,信息共享不等于完全无限制。目前为了保证某些数据的安全,在技术上往往是采用元数据上网的方式。因为元数据是描述数据的数据,从它身上人们可以获知有关数据的特征描述,诸如从哪里可以获取到原始数据。当用户真要获取原始数据时,还要遵循特定的程序,并接受严格的审查,保证机密信息免受居心叵测者的攻击,这样就较好地保证了原始数据的安全性。但这又涉及到一个信息安全防护与方便利用两者之间如何协调的问题。自网络发展起来后,信息安全问题就一直受到各方的重视与关注,相应技术的研究与开发活动也十分活跃,目前已有不少实用的技术出现。但随着反安全技术的发展,这方面的研究仍然是任重而道远。
6 数字图书馆系统开发技术
从总体上来说,数字图书馆系统的开发主要涉及如下一些技术:[5]
(1)内容处理技术(Contents processing technology)。 即提供基本信息和辅助信息(包括数字化的和非数字化的信息)的建立、存贮和检索的技术。
(2)信息存取技术(Information access technology)。保证可以不受时、空限制地存取各种类型的信息。
(3)用户友好性智能化界面技术(Human-friendly,inteligent interface)。
(4)交互操作性技术(Interoperability)。 保证多机种环境下交互操作的可能性。
(5)可扩充性技术(Scalability)。保证DL系统能应付信息与用户的增长。
(6)开放系统开发技术(Open system development)。
(7 )高灵活性系统开发技术(Highly
flexible
systemdevelopment)。
这些技术总的可归为三类:(1 )系统总体结构设计技术(System architecture)——它定义系统的总体结构, 并提供公共服务和界面。(2)单个(专用)技术(Individual technologies)——包括查询技术、 检索技术、 内容输入与加工技术等。 ( 3 )集成技术(Integration technology)——它保证将所有单个技术按系统总体结构设计装配成一个完整的系统。其中系统结构起着核心作用,应该被设计得具有较好的可交互性,因为数字图书馆是一个开放、互连的系统。系统结构包括:信息结构、窗口结构、多媒体数据库结构、应用系统结构等。单个技术方面,目前的发展重点是文献的数字化转换与加工技术、智能化信息检索技术、选择性信息发布技术、基于概念的文本检索技术、三维可视化超媒体检索技术、基于内容的视频信息检索技术等,这在前面已分别有所讨论,这里不再赘述。系统结构设计目前较公认的是采用三层模型结构, 即描述层(Presentation
layer )、 功能层(Function layer)和数据层(Data layer)。这种设计法可以保证系统具有较高的灵活性和可扩充性。其他技术的开发一般也要求应运用三层模型与面向对象的技术。已进入下一代数字图书馆开发的国家如日本,已经在这些方面进行着深入的探讨,并得到相关产业界的广泛支持。同时在数字图书馆系统开发方面,目前国内外都已涌现出一些比较实用的典型,这为后来者提供了很好的示范作用。
7 中文信息数字化处理难点与进展
与西文信息处理相比,中文信息处理有三大难题:一是输入方式,二是模式自动识别,三是机器理解。目前第一个难题已经基本解决,即已提出了较好的汉字编码方案,基本解决了中文信息的输入问题。第二大难题正在探索之中,但也已有了较大突破,并促进了第一个难题的解决。如目前已逐步开发成功基于汉字模式识别技术的字符识别输入法(包括手写体字符识别输入法和印刷体字符识别输入法)、语音识别输入法等。中文信息的理解和处理则包括汉字语言的自动切分、自动标引、自动翻译、自动文摘以及自然语言理解、多模式检索等。其中自动切分即自动分词技术是一个核心问题,自动标引、自动翻译、自动文摘、自然语言理解、多模式检索等都以它为基础。
汉字自动切分的方法有两种:基于底表的机械匹配法和基于知识的理解式切分法。目前用于自动标引的切分法多限于机械匹配法,概括起来有三类:面向主题词典的切分、面向文献语言的切分和单字切分。面向主题词典的切分法又称大词典法,词典大,切分正确率高,但冗余大,网罗度小;面向文献语言的切分,采用压缩型词典,如部件词典、非用字后缀表、后缀链接表等,其冗余度小了,切分更接近于自然语言,但容易产生歧义;单字切分冗余度最小,切分方法简单,最接近自然语言,但它事实上没有切分,只是建立了一个“唯检索”的单字索引,它分不出主题词或关键词。
理解式切分的分词系统由数据库、知识库和推理机三部分组成。数据库中存放词条,知识库中存放已形式化的各种语法规则、语义规则和语法知识,推理机则将语法专家在分词过程中进行推理判断的思路作形式化描述,作为推理规则存放于系统内部,然后综合运用数据库和知识库模拟语法专家的逻辑思维过程实现自动分词。
面向汉语理解的切分必然是理解式切分,因为在这里理解与切分是并行的:通过上下文的理解来确定片断的切分,同时上下文的理解又以其切分为基础。理解式切分比起机械匹配法无疑是一个进步,但语法规则的笼统和复杂给其向机器可用形式的转化造成了很大的困难,其实现还尚待时日。目前有人提出了两种理解式切分法:语境相关法和生成——测试法。前者强调在分词过程中进行部分句法语义处理,后者强调上下文信息对分词过程的控制。
如何提高汉字信息切分速度也是目前急需解决的一个难题。目前已有单位在这方面取得重大突破,如武汉大学计算机系曾研制出一个自动分词系统,其切词速度可达每秒数千字。技术上主要采用了词法分析、句法分析和篇章分析(上下文动态追塑数千字),外加一些精巧的算法。另外该系统还合理地解决了人名、地名、机构名的切分难题。[6]
中文信息自动切分技术目前及今后发展的重点将是:(1 )高效匹配算法及其完善;(2)各种分词知识的获取、表示与利用;(3)人工神经元网络在分词技术中的应用;(4 )开发高智能化的综合中文信息处理系统等。
对中文信息的处理如果能很艰好地解决了上述的自动分词、自动标引、自然语言理解、多模式检索等问题,那么也就解决了中文信息数字化处理的核心问题。
(收稿日期:2000—01—25)