关于信息网络文献数据库设计的思考_分布式数据库论文

信息网络文献数据库设计的思考,本文主要内容关键词为:信息网络论文,文献论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 分布式数据库系统是网络文献数据库发展的潮流

“网络就是计算机”,信息网络将是现代信息化社会发展的必然趋势。分布式数据库则是数据库技术与计算机网络技术相结合的产物。数据库是一种抽象的集中数据管理方法,它通过集中实现数据管理,通过抽象实现数据的独立性,给用户提供了一个总的、聚合的、唯一的数据集合及其统一的管理方法。计算机网络是分散的计算机系统,在利用通信线路相互连接的计算机之间分布数据与程序,适应用户地域分散的需要。因此,分布式数据库是集中与分散的统一,它能够在一个更高的层次上,给用户提供前所未有的功能。未来的文献数据库就应该是一个分布式环境下的管理系统。

一个分布式数据库是一个处理属于一些相关数据库数据的系统,这些相关的数据库称作一个结点。一般地说,它们地域上分布在一些由数据通信网络相联的不同物理场所。结点也可以在同一机器上,这里的关键是可以处理一些数据库的机制。在分布式系统中存在两种类型的用户,全局用户、局部(或结点)用户,全局用户看到的是分布式数据库的全局视图,局部用户看到的是某一个结点数据库的局部视图。全局用户在分布式数据库管理系统的控制下,处理整个分布式数据库中的数据;局部用户在局部数据库管理系统的控制下,处理某一特殊结点的数据。

未来的全国图书馆网络系统就应该是一个典型的分布式数据库管理系统。假定这个系统中有四个结点,分别分布在北京、上海、武汉、广州,其中北京地区图书馆馆藏目录保存在北京的数据库中,上海、武汉、广州地区的图书馆馆藏目录分别保存在上海、武汉、广州的数据库中,这些数据库通过通信线路相联,构成一个统一的分布式数据库(见图1)。

图1 全国图书馆网络系统示意图

在这样的系统中,任一个结点的用户(如武汉),可以查找该结点上各个图书馆的书目,这种查询我们叫局部查询,同时也可以查找另一个结点(如北京)的图书馆的书目,这种查询我们叫远程查询,还可以同时进行局部查询与远程查询。分布式数据库一个主要功能就是给用户提供进行复杂查询的能力,使用户就好象在一个单一的数据库操作一样。

分布式数据库管理系统一般处理过程如图2所示。

图2 分布式数据库处理过程

全局用户提出一个查询(或称用户请求,包括查询、增加、修改、删改等)因为查询是根据全局视图而作的,所以称作全局查询(全局请求)。当分布式数据库管理系统接收到一个全局查询时,分布式数据库的转换模块访问系统目录,根据查询得到的访问数据位置,将总体查询分割成用局部功能表达的查询,送到分布执行模块,分布执行模块根据所得的查询给出处理调度并组织实施,如果子查询涉及到本地数据,则将子查询送本地数据库管理系统,否则通过通信线路送到远程的局部数据库管理系统,各局部数据库管理系统处理子查询并将其结果送分布执行模块,由其将其中一些子结果送到转换模块,由它对这些子结果作适当的计算组合,给用户提供总的结果。这里的转换算法的作用是分割、计算和重新组合;分布执行模块的作用是给出查询的处理调度过程,保证其同步各子查询的执行正确地实施,并作为分布式数据库管理系统与网络通信的接口。

由上述可知,分布式数据库管理系统具有局部自治性、全局可协调性、可靠性、可维护性和可扩充性等特色,因此,在考虑信息网络文献数据库处理方式时,分布式处理势在必行。

2 分布式数据库环境与工具的选择

理想化的分布式数据库管理系统对于用户应是一个单一的、非分布式系统,采用现有产品来实现这样的系统是数据管理和系统设计的难关。在现有产品中,虽然与真正实现分布式数据库管理系统的目标还有很大的差距,但是这些产品所提供的许多新特性能使数据库管理者和信息系统决策者最早地实现这一目标。不过,在众多的产品中,诸如Oracle公司的Oracle7、Informax公司的Informix-Online、CA 公司的 OpenIngres/star、Tandem Computer有限公司的NonStop SQL、Sybase公司的Sybase等,如何选择,是我们十分关心的问题,在选择中有诸多因素需要考虑,全面衡量一个产品的方方面面。

(1)产品质量 产品质量是指稳定性。 由于近年来数据库软件厂家因竞争而争先恐后地推出新技术,使得新产品开发周期大大缩短,虽然都有严格的QA(质检)和Beta测试过程,结果用户在深入的使用中发现产品存在许多毛病,如死机、异常中断、性能极低、数据处理结果与实际不符等等。因此,严格考察产品质量不可忽视。

(2)性能价格比

用户总是希望以最便宜的价格买到性能最好的产品,这就是性价比。目前,在数据库产品中随着数据量不断增加,用户数不断增多,处理环境复杂(OLTP+批处理+决策支持),不同产品其性能差别相差竟达几十倍到上百倍。而性能上的问题有时会导致整个系统瘫痪。然而,性能总是和价格相关联的,总的来说,性能越高其价格比性能较低的产品要贵。因此,只要用户在可能的经济条件下选择性价比最好的产品为好。

(3)功能 分布式关系数据库管理系统要从八个方面考查:

①透明性 在靠近用户服务点处查找不同数据库中数据的能力,是关系数据库管理系统的中心问题,而对于分布式数据库则更为重要。数据定位、数据的实际存储格式及存储数据所使用的方法对于用户应是透明的。

②数据完整性 在分布式环境中,保证数据完整性需要对分布式事务或分布式请求的支持。这种能力允许在多个场所局部地远程地处理由多个SQL请求所组成的事务。

③分布式处理 关系数据库管理系统一般都不支持随机的多地读、多地写及多地读/多地写。但是,一个真正的分布式关系数据库管理系统不仅必须支持远程请求、远程事务,而且还必须支持分布式请求,因为任何功能都很少隐含着位置相关性。

④异步复制 异步复制技术提供无需分阶段提交开销的扩散数据更新结果的能力。

⑤性能特性 在分布式关系数据库管理系统中,有几种改善关系数据库性能的方法,如裂化,复制及分布或查询优化。

⑥管理与安全 在目前的分布式关系数据库管理系统产品中管理与安全装置特别薄弱。虽然某些产品通常提供对远程起始和远程结束的支持,但很少对多地的协调起始和协调结束提供支持。

⑦可用性和自治权 本地自治并不意味着本地拥有者不能暂时将管理授权给远地。相反,这种授权却是一种有效的方法。万一本地数据库与远地数据库失去了联系,它也不会影响局部数据库的继续操作。

⑧互操作性 在操作平台一级,互操作性就是与硬件无关、与操作系统无关和网络无关。不管在分布式环境中所选择的硬件、操作系统或网络如何结合,分布式关系数据库管理系统软件应仍能按相同的方式工作。同样,不论在某一时刻这些环境项有了变动,也不应影响其它结点和场所。

(4)开发效率 丰富的数据库开发工具,对提高开发效率、 缩短开发周期是十分有效的。

(5)易实施性 所选择的数据库管理系统软件应易安装和维护,这就是所谓的易实施性。

(6)产品的扩展能力及未来的走向 在信息网络系统中, 由于其潜在的扩展趋势(用户数增加、功能增强、设备升级、增加新的模块或应用等),要求数据库及开发工具软件具有很强的扩展能力。

3 分布式汉字文献数据库设计

分布式关系数据库管理系统,不同于集中式关系数据库管理系统,也不是简单的数据分散管理。从图2可见, 信息资源的分布式管理是其机制通过系统目录来实现的。目录的内容包括:逻辑结构的定义、物理结构的定义、文件统计信息、帐目数据、数据库中每一数据项在网络中的位置等。传统的文献数据库多采用词切分与单汉字检索,这些方法不适于信息网络分布式数据库的设计。

我国网络文献数据库主要是汉字信息,对网络文献数据库的操作,实质是对汉字信息进行处理。70年代中期,当时国家科委组织了汉字信息工程,即“748”工程,“748”工程集中了当时国内大学及科研机构的计算机专家,主要解决汉字信息计算机处理中的汉字输入输出问题。目前,汉字信息处理三大难题(汉字的输入输出,汉语语词的自动切分及汉语的句法、语义自动分析)中汉字输入输出问题已获得解决,在这个意义上,计算机的人机界面已经形成。而汉语的词的自动切分还存在许多困难,由此,直接影响汉语的句法、语义的自动分析。从1963年国内开始对国外自动标引研究的介绍,到80年代初才真正开始自己的汉语自动标引的研究。目前,我国汉语文献自动标引算法很多,在计算机上已实现的大致可分两类模式六种算法。一种是词模式,另一种是字模式。所谓词模式,就是数据库操作以词为基础的模式;所谓字模式,就是数据库操作以字为基础的模式。两类模式六种算法,见我国汉语文献自动标引方法一览(表1)。

表1 我国汉语文献自动标引方法一览

算法名称 模式

主要研究成果代表

词典切分标引法词 陈培久的 "汉语科技文献标题的自动

标引试验" ;王永成的"部件词法";赵

宗仁的"语词结构类比自动标引系统"

;毛玉姣的"关键词法标引试验"等

切分标引法词 姚天顺的利用前、后位切割标志表进

行文本切割; 吴蔚天的非用词后缀表

法等

统计标引法词 北京大学图书馆学系的" 自动标引系

统" ; 邓钦和、龙泽云的统计分析标

引法;夏海的"上下文比较标引"等

机助标引法词 顾耀芳的实用机助标引; 章元峰的机

助联机标引试验系统EMAOLIS—1; 苏

新宁的利用dbase Ⅲ实现中文标题的

后方一致与任意一致的检索等

神经网络汉语分词法词 贺前华、徐来铮模拟实现的汉语分词

神经网络系统

单汉字标引方法字 李志清的无标引检索技术的研究; 黎

小林等的单汉字机助标引与检索的研

究; 刘春科等单字标引技术用于实现

全文标引与检索的研究与实践等

表中两类模式六种算法,各有长短,就两类模式而言,词模式对数据库的操作着眼于体现相对独立完整概念的词,比较符合人们的思维和表达习惯。并且借助词表,可实现对同义词、多义词、近义词、反义词、相关词等的规范和控制,从而保证对数据库操作在一定的检索语言基础上进行,显然有利于检全率和查准率的提高。不足之处是:①词表维护永无止境。各学科和社会生活的发展,新的概念和新的词汇层出不穷,而词表更新存在“时滞”;②词表中所收的词,是不可能达到彻底的专指性的,受到人工标引的局限性,而降低查准率;③数据库数据的人工标引与建立词表,费时费工,极不经济。单汉字(字)模式,避开了分词障碍,实现容易,不存在词典构造问题;新概念词能即时处理;解决了汉语交集型字符串标引的问题。不足之处:①无检索价值的虚字或分辨力低的常用字占据索引比例大;②以单汉字为标引单元,扩大了索引(倒排)文档的存储空间,据不完全统计,在全文数据库中,随着正文量增加,其索引文档也随之增加。 例如,有一篇文献其长度为2,138,608个字节,一个汉字占两个字节,若一个地址占四个字节,则单汉字索引长度为9,033,626个字节,其长度为原文的4.22倍。 在网络分布式文献数据库的目录中,应体现倒排文档的内容,因为倒排文档指出了查询数据项在网络中的位置。根据分布式数据库的查询处理过程,目前的数据库结构模式,在网上“跑”的数据量大大增加,当多个用户在网上同时操作时,汉字信息的传递则成了网络的“瓶颈”。“瓶颈”问题得不到解决,将会直接影响未来的信息网络建设。

如何解决网络“瓶颈”,我认为应该从“汉字”这个根本进行。我国是一个近两千多年的汉字文化的古国,自秦始皇统一中国,实行书同文,两千多年中,汉字没有发生太大的变化,这说明汉字是一种稳定的文字,一种成熟的文化,并且形成一系列固有的特性,例如:

(1)汉字字量 汉字是表意文字,或称象形文字, 它的每个字有其特有的形状和构造,这是不同于各种拼音文字的一大特色。不同领域的使用,汉字字量就有所不同,所用汉字字量的多少是一个重要问题。

(2)汉字字形 汉字字形分解后,其基本组成部分有部首、 字首、字根、笔画、位点。在构造汉字库时显得十分重要。

(3)汉字字体 用于汉字排版的汉字信息处理系统中, 对汉字字体种类要求较高。

(4)使用频度 这里说的频度有两层意思。 一层是对于不同的汉字,在不同的专业领域中使用频度是不同的;另一层是同一篇文献中,使用重复频度,大量统计表明,这种重复频度很大。

(5)汉字发音 每个汉字有它的标准(普通话)发音。 这对于计算机系统中按音序检索汉字提供了依据。

(6)汉字索引 可以从不同角度检索汉字。

(7)汉字排序 与西文排序比较,汉字排序是一个复杂的问题。汉字可以用笔画排序,也可以用汉字拼音排序,还可以以汉字的综合使用频度排序。

(8)汉字标准交换码

(《信息交换用汉字编码字符集——基本集》(GB 2312))。

以上这些汉字属性,倒底哪些属性与解决信息网络分布式文献数据库在网络上“瓶颈”有关,关系有多大,如何从这些关系中找到解决的办法,是我们十分关心的问题,也是我们有待解决的问题。如果从解决这个“瓶颈”问题入手,我想传统的词模式或字模式在网络中带来的问题,就应该迎刃而解了。

4 汉字定位码值等值查重法

信息网络文献数据库是实现科学文献数据库的一个重要工具。网络数据库数据来源的广泛性和数据搜集的途径与渠道的不同,则造成数据库存储与检索不规范。同时,也反映了数据库的质量不高。因此,研究信息网络科学文献数据库的查重技术,是一个十分重要的课题。

利用汉字标准交换码(GB 2312—80 )和汉字机内码的汉字属性,作者提出“汉字定位码值等值查重算法”,并在长江三峡工程科学文献数据库中得到运用。此算法思路:

(1)《GB 2312—80》收集了6763个汉字,每个汉字以区、位定位,6763个汉字共分94个区,94个位,即每个区中有94个汉字。将6763个汉字构成94×94矩阵的汉字位置表,初始化汉字位置表,置每位为0。查重时,查寻字段第一个汉字在位置表中的标志是0还是1,0 表示第一次参加比较,此时,置该字段第一个汉字在位置表为1,同时, 查找与其它比较字段第一个汉字在位置表中的标志,若为0, 则表示不是重复字段,跳过,否则,进行比较;若查寻字段第一个汉字在位置表中的标志为1,则表示该字段曾参加过查重,此时,只与其它比较字段比较。 这样,就可以减少对非重复记录的比较次数,提高查重效率。

(2)构造一种算法,对汉字机内码进行运算,用数值相等法, 代替字串——比较法,提高比较速度,字串越长,效果越明显,效率越高。

作者在AST 386/20机、4兆内存、470兆外存环境下,对50600个纪录查重作了一个比较,用比较匹配字串法查重(即“两两纪录进行全等比较,若完全匹配(全等),则其中一条必为重复纪录”),耗时1836秒(34分12秒),用数值相等算法(即采用思路2),耗时1567秒( 26分7秒),用汉字定位字串比较法(即采用思路1),耗时801秒(13 分20秒),用汉字定位码值等值法,耗时769秒(12分49秒)。 从上述几种算法比较可见,充分利用汉字属性,耗时越少,信息流量越少,因此,在中文科学文献数据库的设计中,充分考虑汉字固有的特性,确是解决汉字信息在网络通讯上“瓶颈”问题的一个突破口。

5 结语

信息网络是信息化社会发展之趋势,分布式文献数据库是网络数据库发展之必然,汉字分布式文献数据库的操作与西文分布式文献数据库的操作有别,汉字则是信息网络通信之“瓶颈”。根据汉字本身固有之特性,利用其属性则是解决此“瓶颈”问题的突破口。本文提出了这个问题,并用一实例证实了这个论点。这只是一种探索,要构造一种非词模式、非字模式的新模式、组织信息网络上分布文献数据库,需要进一步实践,不断完善,相信在未来的信息网络上一定能较好地解决这个问题。

标签:;  ;  ;  ;  ;  ;  ;  

关于信息网络文献数据库设计的思考_分布式数据库论文
下载Doc文档

猜你喜欢