数字图书馆关键技术的分析与启示(下),本文主要内容关键词为:关键技术论文,启示论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
2 中国的数字图书馆关键技术研究进展
2.1 信息的捕获与创建技术
1999年11月24日,北京汉王科技公司召开了“专业OCR技术成果发布会”,会上演示了该公司的专业OCR(光学字符识别)技术及相关产品。汉王公司这次推出的“新世纪OCR”版本在专业化方面进了一大步。该版本提供快速准确的纯中英文识别功能,识别率达到99.9%,中英文混排识别率可达到98%以上,对较工整的手写文稿识别率在95%左右,识别速度达150字/秒(PII266)。在版面分析方面,新世纪OCR具有自动版面分析功能,能够自动区分文字、表格和图像等。为了方便用户批量录入,他们还特地提供了几种常见的版面格式供用户预设。
2.2 信息的存储与管理技术
在完成了信息的捕获与创建工作之后,自然就得对它们进行存贮与管理。存贮与管理的质量直接影响到信息的搜索效率。中文信息的存贮与管理与英文信息相比有其自身的特点,因此我们尤其要注重中文文本的分析技术、分类与聚类技术、数据挖掘技术。此外,由于Internet上英文信息的数量与质量均处于领先地位,如若不加以利用,则数字图书馆的内容质量会大打折扣,因此,多语言技术也是中文信息管理技术的重要组成部分。
2.2.1 文本分析技术
(1)汉语文本特征的抽取方法
山西大学计算机科学系的研究人员从自动文摘的需求出发,探讨特征词自动抽取的方法和技术,设计并实现了两种不同的特征词自动抽取算法。一种是基于统计的特征词抽取方法,另一种是基于分类的特征词抽取方法。这些方法对文本的自动分类和全文检索也有一定的借鉴意义。
(2)字串去重的快速算法研究
利用计算机处理文本信息时,字串去重是一个比较重要的问题。例如,在电子词表的建设过程中,往往也涉及到词条的去重问题。考虑到词条数目多以万计,去重效率就显得比较突出。上海交通大学网络信息中心的研究人员提出了4种有效的快速算法,其平均时间复杂度为O(nlogn),空间复杂度为O(n)。其中利用首字hash方法的去重算法,即先统计同一首字的字串数,再统计同一首字的字串,记录相应的下标,接着对同一首字的字串子集进行快速排序,最后对字串子集顺序扫描,设置标志位进行去重,比直接利用快速排序算法具有更好的性能,其思想可用于改进快速排序算法。
2.2.2 分类与聚类技术
(1)中文文献自动分类中的知识库构造及其仿真算法
上海交通大学网络信息中心的研究人员用分类域模型来描述中文信息自动分类中的分类法,通过计算类别特征项在分类域中的Hamming距离,对类别特征项依据其在分类域中的类别分布进行聚类,从而实现对向量分类法中的特征向量维数的压缩,并进一步构造用于中文自动分类的知识库。
(2)基于字频向量的中文文本自动分类系统
山西大学的研究人员提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现基于全局最小错误率的汉字-类别两个向量空间的映射函数,并用该函数对测试文本进行分类。
2.2.3 数据挖掘技术
(1)Web网页识别算法研究
WWW上的文本信息挖掘工作是网络信息处理领域的新课题。中国科学技术大学电子工程与信息科学系的研究人员研究了两种机器学习算法——Rocchio算法和Widrow-Hoff算法在Web网页识别领域中的应用,并对几种网页识别算法进行比较。他们发现两种机器学习算法的记忆能力均好于预测能力,且二者差别较大,这与算法本身的局限性和实验的样本数目较少有关。在处理单词过程中,Rocchio算法是按照正例和反例以组的形式来处理每个单词的,而Widrow-Hoff算法则是以文档为单位来处理的。当特征提取效果较好时,可以看出Widrow-Hoff算法的优越性表现得比较突出。
(2)面向粗糙集的数据挖掘方法
数据挖掘技术是信息系统的一个重要研究内容,它可以从大量数据中自动发现对决策有帮助的知识。许多数据挖掘技术需要将数据集划分为精确的正例集和反例集,因此仅仅适用于精确集(或经过删除噪声数据后的精确集),不适用于粗糙集。而现实中,具有相同特征的数据有些属于正例概念,有些属于反例概念,我们称这样的数据集为粗糙集。粗糙集不能根据概念在条件属性上的特征描述将数据集截然划分为互不相交的正例集和反例集,只能划分为近似集。粗糙集是普遍存在的现象,因此开发出一种面向粗糙集的数据挖掘技术在信息系统的研究领域具有重要意义。哈尔滨工业大学管理学院结合粗糙集理论提出了一个信息系统的粗糙集模型,并在此基础上设计了一个属性约简方法及从粗糙集中发现规则的算法:Apriori-2。
2.2.4 多语言技术
(1)基于范例推理的机器翻译系统
该系统是基于范例推理方法在机器翻译领域中的应用,由上海交通大学计算机系推出。其基本思想是:系统先存储大量来自真实双语文本的翻译范例。对待译句进行翻译时,系统通过分析从范例库中找出和待译句相似的,有利用价值的翻译范例,通过类比,对翻译范例进行转换,生成待译句的译文。他们提出的新的相似度量准则使系统在保证翻译覆盖率的前提下提高了翻译的准确度,而含有抽象范例的范例库和递归抽象搜索算法则提高了系统的时间效率。
(2)受限汉语与汉英机器翻译系统
顾名思义,受限汉语是在语法和词汇方面受到某些限制的汉语子集。受限汉语研究的任务就是要定义这样一个汉语子集,该子集既具有一定表达力、便于阅读,又能降低计算机处理的难度。北京信息工程学院的研究人员认为,如果坚持对汉语的真实文本进行机器翻译路线,则不可能使汉英机器翻译质量取得实质性的突破。因此,从计算机技术在自然语言信息处理领域的实际能力出发,开发面向受限汉语的汉英机器翻译系统,是机器翻译技术未来发展的基本方向。
(3)BT863-Ⅱ汉英机器翻译系统中的兼类处理方法
哈尔滨工业大学计算机科学与工程系将精简循环网络引入汉语词的兼类处理,并针对精简循环网络只能记忆和使用上文信息的问题提出了正反向精简循环网络的思想,使上下文信息在网络中同时得到有效利用。通过神经网络方法与规则方法的合理结合,在分词正确的情况下,BT863-Ⅱ中汉语词兼类处理的准确率达到了98.1%。
2.3 信息的搜索与访问技术
2.3.1 搜索引擎技术
这里值得一提的是一种基于DOM的结构化搜索引擎。按照W3C的定义,DOM(Document Object Model)是一个允许程序或者脚本能够动态地存取和更新HTML/XML文件内容、结构以及风格的接口和平台。华东师范大学计算机系多媒体实验室的研究人员在分析了一般internet网络搜索引擎的结构和特点之后,利用DOM存取和处理HTML文件的原理和方法,提出了基于DOM的结构化搜索引擎,其基本思想是利用W3C提出的DOM规范和编程接口对HTML文件重新解释,提取出HTML文件的树形逻辑结构;在索引时将HTML文件的结构信息和结点(Node)内容一起保存,按结点的结构和属性等建立索引;查询时,以结点为单位进行检索,根据结点的结构。属性进行匹配度加权计算。通过这一方法,该搜索引擎实现了更加准确的、面向对象的检索。
2.3.2 图像及视频检索技术
(1)分形编码在图像检索中的应用
分形编码在图像压缩方面取得了很好的效果,同时,分形编码也能够用于基于内容的图像检索。华南理工大学电子与通信工程系与香港理工大学电子与资讯工程系经共同研究,提出了一种基于块限制的分形编码算法和匹配策略,并将它们用于图像检索。在编码算法中,图像被预先分成互相不重叠的子图像块,然后对这些子图像进行独立的分形编码,从而获得整幅图像的分形码。该编码算法能够在很大程度上减少编码时间。在进行图像间相似性的匹配时,他们采用改进的基于九叉树的分配策略,从而避免了全局地进行分形码的匹配,减少了计算量。实验结果表明,这种编码算法和匹配策略能够比较有效地应用于基于内容的图像检索,在计算时间和存储时间上都优于实验中其他两种方法。
(2)十种基于颜色特征的图像检索算法的比较和分析
在基于内容的图像检索中,颜色特征已得到广泛应用。清华大学电子工程系的研究人员,对十种利用颜色特征进行图像检索的算法,利用同一图像库进行了实验比较。实验采用的算法包括:分别在HSV和MTM空间,采用直方图法和中心矩法。直方图法又分一般直方图法和累加直方图法。而一般直方图法的相似度量又分别采用相交法、欧氏距离法和加权距离法。实验结果表明,无论在HSV空间或MTM空间,累加直方图法均优于一般直方图法。对这一点还首次给出了严格的理论证明。实验结果还表明,加权距离法比欧氏距离法总体上没有明显改善,MTM空间比HSV空间也没有显出优势。而中心矩法算法简单,检索速度快,通过调整加权系数,检索精度可以接近累加直方图法。实验和分析对选择和优化检索算法有一定的参考价值。
(3)基于MPEG-7的图像检索模型研究
上海交通大学图像通信与信息处理研究所的研究人员,研究了基于内容的图像检索系统中的目标描述模型的建立方法。他们首先指出目标描述模型是图像检索的关键技术,在分析了MPEG-7草案中有关多媒体描述的基本术语、描述机制和MPEC-7的应用框架之后,针对MPEG-7提出了一种适合于图像检索的目标描述模型。该模型对提取出的多种视觉特征和相应的表示方法采用了分层结构。模型满足用户对所需特征进行不同级别检索的要求。
2.3.3 可视化信息检索技术
(1)用Delphi开发通用数据库可视化查询器
用户建立数据库的目的之一就是为了能够方便有效地查询数据库中的数据,因此构造方便、高效的查询系统便成为设计数据库应用系统的主要目标之一。当今世界上绝大多数关系数据库采用的查询语言是工业标准的SOL语言。浙江大学计算机科学与工程学系的研究人员在数据库应用程序开发中,用Delphi开发了一个通用的数据库可视化查询器。用户可以根据自己的查询需要,在这个可视化查询器提供的操作面板上方便地、全方位地组织自己的查询语句。即用户可以决定显示那些字段、记录,以哪种方式显示等等。
(2)基于概念的中文文本可视化表示机制
为了浏览因特网上日益增多的在线中文文本,大连理工大学计算机系与东北大学计算机系经共同研究给出了基于概念的中文文本可视化表示机制,以直观的方式组织和表示文本及文本集。其基本思想是:首先在概念扩充的基础上,进行文本分类。然后,利用本文所述的文本特征抽取方法和摘要方法,获取文本类别、文本、正文的标记信息,通过类别、文本、正文的超文本连接,帮助用户有目的、有选择地浏览文本。
2.4 信息的传递技术
2.4.1 压缩技术
(1)非线性编辑系统中的数字视频压缩技术
非线性编辑系统对数字视频压缩技术有特殊的要求。北京大学计算机研究所的研究人员在实验的基础上比较了MotionJPEG和MPEG2P@ML的算法性能,分析了视频压缩格式不兼容性给非线性编辑系统的设计和实现带来的问题,并认为要解决视频压缩格式的不兼容性,最好的办法是使系统具有较强的硬件独立性。因此,他们设计并实现了一个基于MotionJPEG的非线性编辑系统,采用Matrox公司的DigiLE卡提供实时双通道视音频IO和实时切换特技,在系统设计中加入一层硬件抽象层,以减少系统对特定视频卡的依赖性。
(2)基于小波变换的多光谱图像压缩方法
中国科学技术大学电子工程与信息科学系在分析多光谱图像小波变换后系数特点的基础上,提出了一种共享有效图的小波变换压缩方法(SSMWT)。该方法将小波变换压缩技术中的零树编码推广到多光谱图像压缩中,利用多光谱图像的结构相关性,对多幅小波图像只需构造一幅有效图。同时去除空间冗余和谱间结构冗余,并与KL变换相结合,进一步去除谱间统计冗余。实验表明该方法是有效的。
2.5 权限管理技术
2.5.1 水印技术及密钥技术相结合的软件
(1)基于小波变换的静态图像数字水印算法
国防科技大学电子工程学院的研究人员提出了一种基于小波变换并且不需要利用原始图像信息的静态图像数字水印算法,并给出检测门限的确定方法。实验结果表明,该算法较好地保持了图像质量,并且对各种常用的图像处理方法显示出较强的稳健性。
(2)逆镶嵌水印攻击和单向数字水印
数字水印是镶嵌在数据中,具有抗检测、抗伪造、抗擦除特性,并不影响数据合法使用的具有可鉴别性的数据。它可以起到证明作品的版权归属和所保留版权的作用。在水印的实际使用中,需要考虑裁决上的问题。对于存在着容易实现的逆镶嵌水印过程的水印方案,也同时存在着边镶嵌水印伪造攻击方法。中国科学院研究生院信息安全国家重点实验室的研究人员发现,使水印的镶嵌过程具有单向性可以解决这一问题,于是他们提出了一个利用序列密码的单向数字水印方案。该方案可以避免出现无法判决的版权争议,并可以解决码字保密等一些安全问题。实验结果表明这是一个可行的水印方案。
(3)一种多用户数据库应用系统安全机制的实现方法
西安交通大学电信学院软件研究所的研究人员,针对一个具体的多用户数据库应用系统安全性要求的特点,提出在数字图书馆应用程序上实现安全机制的一种方法。其基本思想是:多个终端用户共用同一个用户账号,也就是共用基表,在每个基表上附加一个名为PW的属性(property);在主控模块中,终端用户必须先输入口令,该口令作为一个参数(parameter)传入各子程序,在添加记录时,自动将该口令赋给PW属性值,若口令为空或不正确,则不允许插入记录,并给出提示;在进行查询时,不受口令限制,任一终端用户均可查询所有记录;在修改和删除记录前,程序先核对用户输入的口令与记录中的PW值是否相等,如果相等,则允许修改、删除,否则便不允许。
3 国内外数字图书馆关键技术研究进展的比较
从国外发展看,数字图书馆建设必须以高新技术作为支撑。如在信息的创建与捕获环节中需要扫描技术、原有信息导入技术、OCR技术等;在信息的存储与管理环节需要等级存储技术、自动索引技术、信息抽取技术、数据挖掘技术等;在信息的搜索与访问环节需要自动分类技术、自然语言处理技术、多媒体检索技术等;在信息的传递环节需要压缩技术、网络技术等;在信息的权限管理环节需要水印技术、电子签名技术等。
美国的“数字图书馆首倡计划”将研究任务分别交由6所大学承担,如密西根大学的“密西根大学数字图书馆研究计划”,伊利诺斯大学的“建立交互空间——为大学工程杜团服务的数字图书馆结构”计划,加州大学伯克利分校的“环境电子图书馆:一个可扩展的、智能的、分布式电子图书馆模型”计划,卡内基·梅隆大学的“在创建与利用时集成声音、图像及语言识别能力的数字视频图书馆(Informedia)”计划,斯坦福大学的“斯坦福集成数字图书馆计划”,以及加州大学圣巴巴拉分校的“亚历山大计划:建立一个提供大量图像及天文学信息的分步式数字图书馆”。除此以外,美国的各IT公司与协会也成功地开发出了几个数字图书馆系统,如IBM公司的IBMDB2数字图书馆,Sun公司与加州大学伯克利分校合作开发的SunSite数字图书馆(http://sunsite.Berkelev.edu/),ACM(美国计算机协会)的ACM数字图书馆(http://www.acm.org/dl/),IEEE的计算机协会数字图书馆(WWW.computer.org/epub/)。在研究过程中,他们不仅注重数字图书馆支持技术的研究,而且注重宏观体系结构的构造,如康奈尔大学的Dienst系统和FEDORA体系结构等。在具体技术方面,他们具有从信息的捕获与创建、存贮与管理、搜索与访问、传递到权限管理的完整的研究体系。当“数字图书馆首倡计划”进入第二阶段之后,又有几家机构加入了赞助机构的行列,它们是国家医学图书馆、美国国会图书馆、国家人文捐赠协会。这一计划的内容更为宽泛,但重点仍是应用研究与测试平台的建立。
英国数字图书馆的建设强调发展混合型图书馆。所谓混合图书馆就是把不同来源的某一范围的技术融入图书馆的运作环境当中,并且开始探索电子及印刷环境中的集成系统和服务。混合图书馆应集成不同类型资源的访问,采用的技术与数字图书馆所用的技术有所不同,并能跨越不同的媒体。混合图书馆反映图书馆处于转换状态,它既不是完全的印刷图书馆也不是完全的数字图书馆。混合图书馆就是要努力采用可以应用的技术把各种事物融入到图书馆中,使印刷资料和数字资料得到最佳利用。他们认为如果建成一个具有完整功能的数字图书馆很难的话,那么就先完成一个具有部分功能的数字图书馆子系统。例如英国的DeMontford大学的ELI-NOR(电子图书馆信息在线检索)项目。在研究主体上,英国的数字图书馆研究项目主要由英国国家图书馆承担,也有由各高校开发的数字图书馆项目,如Elib,牛津大学Bodleian图书馆的丰田市成像计划。英国一些信息公司仅有少量资助,这与英国政府所采取的私营财务倡议(PFI)有关。PFI的基本思路是允许私营企业和公用部门结合在一起,各自从事其最擅长的业务。在公用服务中,公用部门的作用是启动者和监管者,而由私营企业提供管理、创建和投入资金。实质上PFI的内涵对公用部门而言,主要是将风险转移给私营的合作企业。对私营企业而言,则主要是对产品或服务进行投资,赚得有吸引力的回报,同时也有益于公众。经过四五年的努力,数字图书馆的PFI计划未得到私营企业的充分响应,反而使原本领先的英国数字图书馆的发展明显落后于美国。1998年,英国政府对于数字图书馆及公众学习网建设放弃PFI方法,改为由发行彩票赢利中筹款(彩票赢利的三分之一用于文化重建),而国家图书馆的数字图书馆建设主要由政府资助(拨数字图书馆专款2.5亿英镑)。目前,该方法已开始启动。英国国家图书馆已与IBM英国公司签订了合同,IBM英国公司将于2001年10月向英国国家图书馆交付数字图书馆系统。
法国的数字图书馆开发方法非常讲求实际,他们将数字内容资源库建设真正放在第一位。表现在:早从1995年起,优先开发资源加工系统(Thot编辑器于1997年免费提供用户使用)。其所采用的技术是SGML/XML,保证了加工后的资源的长久通用性。加工的数字影像,分辨率很高,极为精美,极具长期的保存价值。法国国家图书馆推出的Gallica2000是世界范围内电子网络上最大的免费数字收藏集之一。大规模开展数字内容资源库建设,到2000年政府已投入的经费达8100万法郎。在数字图书馆的系统及其技术实现方面,目前INRIA(国家计算机科学与控制研究所)也立足于SGML/XML,并在做进一步的研究与开发。
日本的数字图书馆研究可谓目标明确、协调得力、重视实践经验、重视技术难点突破。目前,日本数字图书馆的研究与开发大体分为三大类型:(1)以馆藏发展为中心,如日本学术情报中心(NACSIS)及日本国会图书馆(NDL)。(2)以信息系统为中心,如通产省(MITl)所属信息技术促进局(IPA)及日本信息技术开发中心(JIPDEC)。此外,各著名计算机公司都在进行研究。(3)以用户及社会需求为中心,如分散在一些大学、研究所及公司中进行的项目,例如多语种翻译代理、无数据研究、语义研究等等。日本文部省已对6所大学(奈良尖端科学技术大学,京都大学,筑波大学,东京技术大学,图书馆情报科学大学等)开发数字图书馆项目给予了资助。1995年由政府投入并由通产省组织国内10家一流的信息公司(日立公司,富士通公司,NEC公司等)联合进行“下一代数字图书馆系统的研究与开发”项目,已于2000年中完成,技术上与国际主流一致,达到了相当高的水平。该项目成果向全国提供使用,在日本因特网上称之为“公共图书馆数字图书馆系统”。
中国试验性数字式图书馆项目(CPDLP)是由国务院文化部牵头,国家图书馆、上海图书馆、深圳图书馆、中山图书馆、辽宁省图书馆、南京图书馆、文化部文化科技开发中心共同承担的大型数字图书馆项目。目前,CPDLP已取得了较大的进展,主要是建成了《中国国家书目回溯数据库系统(1949—1987)》。但是这仅仅是一个书目数据库系统,而数字图书馆不光是书目数据库系统,甚至不光是数据库系统,它至少应当是以网络方式联接的多媒体数据库系统。在专家眼中,一个建设完备的数字图书馆应当成为:重要信息的生产基地,多种信息资源的聚集中心;读者、专家、图书馆员交互的枢纽;信息发现、搜索、捕捉的导航站点。在国家图书馆的数字图书馆研发主页上我们可以看到,建设数字图书馆的重要意义之一是“促进我国信息技术的发展,同时带动与之相关的计算机技术、网络技术、通讯技术和多媒体技术等各项高新技术的迅速发展。这些高新技术迅速转化为现实生产力,将对我国知识创新体系的建立起到极大的促进作用。”由此可见,我国的数字图书馆将体现我国的信息技术的前沿,是我国的联网信息系统的一个典范。因此,在资源建设上,应当发挥包括国家图书馆在内的中国图书馆界的信息资源优势,而在数字图书馆的关键技术研发上,我们必须更多地求助于高等院校、科研机构、IT公司等专门的技术研究机构。实际上,这一点在中国数字图书馆工程的技术研发原则中也早有体现:“争取科技主管部门的支持,在863相关项目的带动下,组织有关科研院所、高校等单位联合引资、共同开发,争取在技术层面上达到国际水平。”而在技术推广上,文件明确指出:“应用国内外包括国家863项目等较成熟技术,开发数字图书馆应用系统,逐步建设若干个样板工程,积累成熟经验后,尽快在工程中推广使用。”从前文我们可以看出,我国的计算机界和图书情报界已经“无意识”地为中国的数字图书馆关键技术的研发做出了杰出的贡献。我们具有较为完整的从信息的捕获与创建、存储与管理、搜索与访问、传递直到权限管理的研究体系,只不过研究者们并没有有目的地、有计划地针对数字图书馆的关键技术开展研究,他们只是笼统地针对信息系统。正如微软中国研究所的张亚勤博士在武汉大学作的产品演示会上回答某同学的提问“中国的同类技术与美国的相差多远?”时所说的:“中国自主开发的技术在先进性上与美国相差不远,但是在实践上则很有距离。”张博士的话放到数字图书馆的建设问题中来说,就是如果将已有的技术成果有计划地应用到中国的数字图书馆建设中去,我们会真正做到在技术层面上达到国际水平。
当然,我们在数字图书馆关键技术的研究中有其侧重点,例如我们在数字资源加工编辑方面的研究是最活跃的,如文本分析技术、分类与聚类技术、数据挖掘技术等。这似乎表明我们抓住了数字图书馆是具有图书馆功能的信息系统这一点,因此很注重数字图书馆的内容质量,但是对于多媒体信息的研究,包括多媒体信息的捕获与创建、存贮与管理、搜索与访问乃至传递不论是与国外的类似研究相比,还是与国内对文本信息的研究相比,都显得不够活跃。
4 我们的对策
综上所述,我们可以看出,研究策略和研究盲点对技术的进展有着巨大的影响。因此我们的对策也主要从这两方面着手。
(1)加强与高等院校、科研院所以及IT企业的合作,构建完整平衡的数字图书馆建设体系
前面的分析告诉我们,美国的数字图书馆实践走的是一条产、学、研一体化的道路。技术与资金兼备的著名IT企业IBM才能够推出像IBMDB2数字图书馆这样完整的软件包。这是给我们的启示之一。无独有偶,辽宁省图书馆在其新馆系统选型之际,也选择IBM数字图书馆解决方案进行数字图书馆实践,从而成为中国第一家拥有完整的数字解决方案的图书馆。与技术力量雄厚的机构合作的另一个优点是,这些机构提供的框架模型的各组成部分具有内在的联系,例如文本信息的存储、标引和检索都各有多种方案,标引方案可以根据存储方案的特点进行选择,而检索方案又可以根据标引方案的特点选择,因此,把这三者联系起来研究,有利于获得最高的效率。实际上,我们已经这样做了,如中关村科技园区数字图书馆群项目的研究单位中就有首都信息发展有限公司;数字图书馆系统工程的研究单位中就有北京曙光天演信息技术有限公司;中国数字图书馆联盟成员中就有北京易宝北信信息技术有限责任公司等。对于一个具有590所大学、学院(1998年全国教育事业发展统计公报)的大国来说,这是一支建设中国数字图书馆的生力军。他们也想为中国数字图书馆事业出把力,希望借鉴国外的经验,整合有关高等院校、科研院所以及IT企业的技术优势和特点,在国家图书馆的统一部署下,发挥他们的作用,把中国数字图书馆建设好。
(2)加强可视化信息处理的研究,充分发挥网络环境下信息处理的优势
这里所说的可视化信息是指散布在各种媒体(包括DVD、WWW和字处理文件)上的大量照片、图表和视频。我们建立数字图书馆的目的就是要为读者方便、快捷地提供信息,因此,必须让目前在现实世界中的诸多信息映射到数字图书馆中。前面我们说过,映射的方法有两种:捕获与创建。可视化信息是否需要标引,目前还没有定论。从美国加州大学伯克利分校的研究成果来看,他们并未像对待文本信息那样来处理图像,但是他们能够让系统识别马的图像,这个成果令人瞩目。可视化信息处理的应用领域非常广泛,如建筑和室内设计,生物化学中的分子鉴定,博物馆和艺术长廊,服装采购,检索教育资源、娱乐,电影与视频的编辑,法律鉴定,地理信息系统,新闻业,医学诊断,远程探测,交通监视以及旅游等等,这些广阔的应用领域都激励着我们加强可视化信息处理的研究。
标签:数字图书馆论文; 自然语言处理论文; 文本分类论文; 用户研究论文; 文本分析论文; 图书馆论文; 用户分析论文;