数字图书馆系统主要技术需求,本文主要内容关键词为:数字图书馆论文,需求论文,系统论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、背景
数字图书馆系统是中国数字图书馆工程的重要组成部分,是数字图书馆在网络和计算机技术上的具体实现。我们认为:数字图书馆系统是一类可扩展的知识网络系统,它采集、加工、处理、存储、组织、发布和利用数字化信息及知识。这种系统涵盖多个分布式、大规模、具有可互操作的异构多媒体资源库,通过全球网(WWW )对国内外用户提供高效跨库无缝连接的信息服务。
这类系统,无论从科学研究或是从实践活动来看,其实现都存在相当大的复杂性,需要有一系列的突破,方能接近当前发展的前沿水平。
中国数字图书馆工程系统,将按一种逐次发展的系统模式来组织,考虑为两个阶段:第一阶段(第一代:初步实用系统):
将在工程的前2-3年使用。
其内容为:
●开发实用的数字资源加工编辑系统,统一加工模式和方法,为进行资源库生产性加工提供软件保障。
●完成数字图书馆初步实用系统的开发。在采用国内外已有技术的基础上,开发出具有自主产权的初步实用系统。系统将实现:小规模(2TB)可扩展知识网络,内含10个左右的分布式资源库, 实现跨库无缝查询,向用户提供声、像、图、文等多媒体内容,实现小量智能软件的集成。第二阶段(第二代:国际先进的实用系统):
将在工程的第三年开始试用及实用化,第四年以后正式使用。
其内容为:
●采用多Agent分布式人工智能技术建造中大规模、 可扩展的数字图书馆系统,由于其技术难度大,必须请我国一流的科技单位(如中国科学院计算技术研究所)进行攻关性研制。其成果提供给中国数字图书馆工程使用。
●同时,系统应使用并行处理高端服务器,高效多级智能存储系统,及支持并行算法的搜索引擎,以实现高效查询及跨多平台、跨系统、跨语种、多语种、个性化界面等功能。
二、系统的主要技术需求
1.数字图书馆系统体系结构
数字图书馆系统体系结构定义总体系统结构并提供公共服务和界面,包括通信体系结构、Agent体系结构、多媒体数据库体系结构、 及应用体系结构。
●基于多Agent的分布式人工智能技术,建造中大规模、 可扩展的数字图书馆系统体系结构。
●系统应采用面向对象的技术构建,以CORBA为基础,并支持XML,JAVA及Web。
●系统应支持并行机制,以加速系统运行。
●该体系结构应支持可扩展的海量资源存储,并要求在合理的代价下实现。这需要有不同于现有的高性能计算机的智能存储体系结构。
●该系统应是支持海量资源快速搜索和调度的高性能系统:在资源达到相当规模以后,不仅资源本身会以分布的方式存储,而且其元数据也不可能继续采用集中的模式,因此需要高性能的系统来快速调度资源,快速搜索分布式的资源,以及将查询检索结果快速整合后提供给用户。
●分布式环境下的信息封装:为使数字图书馆系统在分布式的异构平台上具有可扩展性,更快地通过加强与其他系统的互操作性扩大其应用范围,需要对数字图书馆的资源采用面向对象的技术进行封装。
2.计算机系统-网络系统-存储网络系统模型
需考虑在总量为100TB(本项目期间为20-30TB )的分布式资源库环境的前提下,提供实际可行的事务处理型系统模型。该系统至少应能支持:
用户接入能力为每天1000万次;
峰值接入能力为每秒10万次;
每天信息输出能力为200GB;
传输的主要是多媒体信息类型。
3.数字资源加工编辑相关的要求
●压缩、解压缩技术:在数字图书馆资源的建设与使用的过程中,资源的加工必须是一次性的,而经过加工的资源应适应多种不同的用途。
例如,对于图象,在经过资源加工以后至少要以以下三种形式对外提供:
(1)用于长久保存的原始存档形式的;
(2)用于通过网络对公众提供的高倍压缩、解压的图象;
(3)用于通过网络对公众提供的低分辨率浏览图标等。
对于上述需求,要求压缩、解压缩技术要提供无损可还原的和有损的两种,此外,由于用途的不同,其技术的重点也不同,对于存档用的资源,重点在于无损和可还原;而对于供公众和检索系统用的资源,重点在于可以让用户快速利用。同样,对于音频、视频的资源也有类似的要求。
●自动标引、自动文摘生成、自动篇名生成技术:资源加工的一个重要环节是元数据的制作,及主题和分类标引,这个工作量大,标引速度缓慢,具有成熟经验的人才缺乏,及由于参加者众多造成语义上可能的不一致等问题。自动标引技术应该以现有的主题和分类词表为基础,具有自学习的能力,学习成熟人员的经验,为标引人员自动生成或辅助生成主题和分类,并对人工标引进行必要的校对。同时,要求具有智能化的自动文摘生成技术及自动篇名生成技术来大批量地生成文摘数据和篇名数据。
●工业化的OCR技术:为完成大批量的数字化工作, 需要可靠的不依靠人工校对的图像处理和OCR技术, 该技术要支持汉字大字符集下的工业化扫描和识别,其识别精确度要在99.99%以上。
4.数字图书馆用户服务系统相关的要求
●支持SGML/XML的搜索引擎:数字图书馆用户服务系统的资源表述将以SGML/XML为主,因此需要一个支持SGML/XML的搜索系统,该搜索系统应既可以支持集中的元数据资源,也可以支持分布的数字资源库;同时亦具有其他常用的检索功能,并且应该满足对海量数据(3 亿以上条目)的快速查询。
●音频、视频网络流式控制、传输、播放软件及其实用生产加工系统。可在因特网上高质量、低码流的播放MPEG-1,MPEG-2,MP3 及WAVE等文件,提供用户使用。
●多语言技术:要保证系统支持多语言技术,同时为满足更大范围的用户的需求,系统要通过机器翻译、多语言测览等功能为用户提供跨语言的支持。
●基于内容的图象及视频检索技术:除对资源采用预加工方式处理外,希能从原始信息当中自动提取各类特征信息,实现快速检索。
5.安全性要求
●水印技术与密钥技术相结合的软件:通过这种技术将对数字图书馆的数字资源进行有效的知识产权保护。
●系统安全技术:在数字图书馆系统中,保证数字对象的安全是一个重要的工作,除了进行一些电子商务的认证、调度系统的认证等技术以外,需要这种信息安全化技术用于大量的对象资源网络应用的环节中。