数据库及其发展概况,本文主要内容关键词为:发展概况论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
摘要 本文论述了数据库的产生、发展趋势及国内数据库的进展情况。同时,还对数值型数据库、全文数据库、多媒体数据库、光盘数据库和智能数据库专家系统作了概括的介绍。
关键词 数据库 发展
近年来,随着信息时代的到来和高新技术的发展,利用计算机技术、光纤通信技术、光存储技术、多媒体技术等为解决大量信息存储与交流,建立了各种类型的数据库。我国信息工作适应经济建设和社会发展的需要,开始打破了原来那些传统模式,调整和改革了固有的业务方向。数据库的发展大大改变了情报工作原有的模式。本文概述了国外数据库的产生、发展趋势,着重叙述了国内数据库的发展及几种待进一步发展的数据库概况。
1 数据库的产生、发展与类型
1.1 产生
“数据库”这个词最早出自美国。50年代美国就有利用电子计算机进行数据存贮和检索的军事机构,这个机构被称为“数据基地”(Data base),也就是我们所称的“数据库”。
1.2 发展
数据库的发展大体上可划分为三个时代:
(1)图书馆时代:指第二次世界大战前,人们以图书馆的方式保存和管理情报资料。
(2)文献工作时代:指第二次世界大战后至60年代。这个时期,科学技术有了较大的发展,从而促进了信息资源的迅猛增长,在图书馆事业的基础上,出现了对科技情报的加工处理,并以二次文献的形式提供服务。情报资料的管理单位为文献中心或专业情报中心。
(3)数据库时代:指60年代到现在。随着科技情报和知识载体的更新以及信息技术的发展(主要指电子计算机的发展),引起了世界范围内科技情报体系和工作模式的改变,出现了数据库行业。所谓数据库行业,泛指对情报的收集、加工和组织为计算机可读介质,并根据用户需求,通过计算机检索为用户提供各种情报服务。
国外数据库的发展,大体经历了摇篮期、稳定期和成熟期三个阶段。
1.3 类型
数据库按其性质基本分为三大类:
1.3.1 文献型数据库:包括专业文献库、馆藏书目库、联合目录数据库、专利文献数据库、全文数据库等。
1.3.2 数值型数据库:包括科学数据库、工程技术数据库等。
1.3.3 事实型数据库:包括经济与商情数据库、管理数据库、公用服务数据库等。
上述三大类中每类还可以再进行细分,数据库的类型没有一个统一的标准,有的论者对文献型数据库再作如下分类:(1)按记录内容分:题录数据库、文摘数据库、书目数据库(图书、期刊)、全文数据库和混合数据库(文摘、全文共存)。(2)按存贮介质分:磁介质数据库(磁盘、磁带)、光盘数据库(CD-ROM、WORM等)、多媒体数据库(集多种介质于一体)。(3)按记录信息类型分:文字型数据库、语言型数据库(录音资料)、影像型数据库(缩微资料、录像资料、影片资料)。(4)按文种分:中文数据库和外文数据库(外向型数据库)。
随着科学技术的不断发展,不难预料还会有许多新的数据库类型出现。
下面分别介绍一些新型且有较大发展前途的数据库:
(1)数值型数据库
数值型数据库也常被称为“源数据库”、“数据文件”、“数据银行”。它提供的信息覆盖一大类的专业范围,在商业和经济领域中,数值库能提供特定产品的价格趋势、国家工业增长率等数值信息。在科技领域,数值库能提供物质的物理化学性质、结构、频谱等。
数值库的检索方法与文献型和事实型数据库不同,数值库存储的数据通常成组排列,它们本身并不被检索,但它们与字母或数字形式表达的可检索的关键词或叙词相联结。例如:一个气象数值库包括由许多气象数据构成的一些表,每张4表都与一个特定的城市和日期联系在一起。用户可根据需要检索特定城市和日期的天气信息,或者,根据需要打印出某一特定日期的最高温度超过给定值的所有城市名称,在这种情况下,城市名称、日期、最高温度以及最低温度都可作为可检索的数据。数值型数据库的检索方法很多,不同的数值库检索方法也不同,没有一个统一的模式。数值库的检索结果可能与文献库完全不同,后者检索结果可能是上百条文献,而数值库的检索结果可能只是单一的值或一组数据。数值库对数据的可靠性要求较高,还有些列出了数据的误差估计、数据来源和实验条件。数值型数据库至今还没有解决标准化问题。
(2)全文数据库
传统的文献库以索引型和摘要型数据库为主,而在全文数据库中,不仅记录着二次情报(如:题目、著者、关键词、摘要等),还记录着大量的一次情报(文献全文)。具体说是指将经典著作、法律条文及案例、重要科技期刊、新闻报道以及百科全书、手册、年鉴等的全部文字或非全部文字(包括原著全部主要内容)转换成计算机可读形式。全文数据库的建设是文献数据库的重要发展方向。美国的DIALOG系统中1988年全文数据库占数据库总数的16%。我国近年来也建成一些全文数据库,最早的中文全文数据库是台湾中央研究院研制的6个古典文学数据库;此外还有:上海交大的“法律条目全文数据库”,武汉大学的“湖北地方志全文数据库”以及陕西中医研究院建立的《伤寒论》全文数据库等几十个,其发展正方兴未艾。
建立全文数据库必须有大容量存储系统的计算机,同时,能有效地解决图、像等文本中出现的各种媒体。检索通常是采用自然语言、高速对照的方法实现的。全文数据库可为用户提供印刷品,CD-ROM还可提供联机检索服务。
(3)多媒体数据库
80年代以来,支持多种媒体数据的存储和处理的数据库技术得到了发展。多媒体数据库(MDBS)是相对于传统的仅支持单一媒体的数据库而言,是将图像、图形、文字、动画、声音等多种媒体数据结合为一体,并统一地进行存取、管理和应用。科学数据库中有众多的对象涉及多种媒体数据,如:动植物标本库等,它们对客观世界所存在的对象能更生动地进行保存和查询,除了能浏览相应对象的文字描述,还可以观看对应的图形、图像,甚至听到声音,典型的鸟类数据库就是这样一种类型的数据库。
提供多媒体数据存储和检索功能的系统将是一个更直观、更真实的科学数据库系统。研究多媒体数据库将涉及到它们的数据模型、存储技术和用户界面等技术领域,它们与传统的数据库技术内容相比有很大的不同,在技术上存在着某些难点,目前,虽然有一些能支持多媒体技术的计算机系统,但在若干理论问题上,如支持多媒体的统一数据模型,还要再做出努力,当前还缺少商品化的多媒体数据库管理系统,但这些技术问题的存在并不妨碍多媒体数据库的应用,它可以从简单到复杂,从初级到高级,渐进发展,并在应用中完善和提高。
(4)光盘数据库
光盘技术80年代蓬勃兴起于世界各地,至今还在不断完善之中。但尽管如此,人们还是迫不及待地在利用这项技术。用于信息服务的第一种光盘是1985年研制出来的CD-ROM(只读光盘),它与其它存储介质不同,最重要的特点是它的海量存储能力,一张12英寸的光盘单面存储容量相当于一万多页的资料或五万帧画面。此外,还具有成本低,可在微机上使用,并可随机存储信息,有优良的存档特性;还可方便地存取图形和图像。目前,光盘主要分4种:①只读光盘(CD-ROM),这种光盘只能读取,不能改写。②可读写光盘(WORM),这种光盘既可写,又可读,但写进的信息不可抹去,所以特别适用于建立数据库及电子档案。③可擦写光盘(Erasable),这种光盘是光盘产品中最好的一种,它采用磁光技术,既可读又可写,还可抹去重写,而且能做到擦写100万次以上。④磁光盘,最近日本SONY公司推出一种国际标准磁光盘。它比硬盘容量大,比软盘速度快,而且不受杂散磁场的影响。它可以写入,抹去重写,储存时间可达30年。
(5)智能数据库专家系统
随着计算机人工技术不断发展和人们对信息需求的不断提高,未来的数据库在检索技术上将更多地研究把逻辑思维方法、统计预测方法和系统论证方法融合于计算机上,形成智能技术,建立数据库专家系统。
知识数据库与专家系统的出现,使信息检索工作达到了智能化的程度。专家系统是一种基于专家知识的计算机程序控制系统,它能模拟专家求解问题的能力,对特定领域中的问题做出专家水平的结论。这就是说,它能对提问者所提出的问题进行逻辑分析、联想、推理与演绎,并作出判断与决定。如果需要的话,它们还能为更深入的研究提供一次文献的引文及其它有关的支持数据。
数据库专家系统是信息的智能研究系统。它必须具有数据统计、预测模型、模式识别、关联分析和评估论证等社会功能。数据库专家系统具有如下特点:
①启发性。数据库专家系统能运用专家的知识和经验进行推理、判断,给人以新的启发。专家系统通过总结规划,发现问题,扩充知识,不断丰富知识库,为信息人员作辅助分析,为用户决策起参谋作用。
②透明性。专家系统能解释本身的推理过程,能回答用户提出的问题,方便用户。系统还能比较灵活地更新知识、扩充知识及传授知识。专家系统在解题时,不受周围环境的影响,能比较客观地分析推理。
③实用性。专家系统强调实用性,能解决人们生产实践、科学研究及其它领域的实际问题,能达到情报专家的水平。专家系统汇集了许多领域专家的知识和经验及他们相互合作解决问题的能力,比单一专家知识更广博,能消除各种干扰及时间限制,做到迅速、准确。
建立专家系统的设计开发,必须统筹安排,组织协调,通常按以下步骤进行:
①可行性分析。开发建立专家系统的准备工作,首先是进行可行性分析论证。在设计时必须选定能够突破的专业领域。一般选定一些在计算机应用开发上有成功尝试的和专业研究较深较窄的专业领域进行。另一方面,情报专家、专业技术人员和计算机专家之间在各自的专业领域相互了解、相互沟通。从而,可协同考虑整个系统的设计、知识表示和推理策略;学科间相互了解应贯穿于以后的各阶段中。
②知识库的建立。专家系统的建立是基于广博而高深的知识,因此,必须建立知识库。建立知识库首先要考虑知识的获取。这项工作是难度较大的,也是系统成败的关键。知识获取一般经过识别、概念化、模式化、实施和测试5个步骤,选择合适的系统开发工具和系统结构(计算机系统及数据结构),建造知识库,并利用一些典型问题进行调试、修改。
③系统建立与调试。设计推理策略、人机交互方式,并运用大量实例组织、调整知识库。并将新获得的知识库、研究的推理策略、系统交互部分及知识获取部分等用程序语言进行编码,并全面考虑时空因素,调试修改系统。系统的建造过程是一个逐步扩充、完善和反复的过程。
总之,建立专家系统需要各方面的专家,需要各种技术方法,需要装备和资金。
2 国外数据库发展趋势
2.1 社会化
目前,科技文献几乎已经百分之百地数据库化。数据库已跳出科学技术领域,扩展到企业、管理、市场、新闻、法律、社会生活领域,其服务正在发展成为像水电、煤气、电话一样的社会公共事业。
2.2 加工深度化
数据库的发展不仅表现在专业范围的扩大上,而且还表现在对信息加工和利用的深度上。如果说数据库主要加工和利用的信息对象是书刊和科技报告等成品型情报,那么,在数据库时代,数据的收集范围已扩大到随时发生的、流动中的半成品型和零次情报,加工精度从整册图书发展到每篇文章和具体数据。从文字加工发展到声音、图像等各种介质的加工。因此,文献型、书目型数据库已不再是主要数据库类型了,事业库、数值库、管理库、各种信息库的比重越来越大。
2.3 商品化
由于数据库可以实现资源共享,因此,已经全面走向商品化,数据库成为技术市场的重要商品。数据库的生产和服务需要采用高成本的信息处理技术和大量的人力,而加值的数据库信息能为用户换来时间、速度和金钱。
2.4 产业化
数据库生产和服务的市场产值越来越大,数据库行业已经具有产业化的规模和地位。在发达国家,数据库行业已按其它产业模式,实现生产、加工、流通、批发、销售的产业化改组。
2.5 技术手段现代化
数据库时代最明显的趋势是计算机信息技术的普遍应用,而且不断更新换代,采用新的信息技术的周期越来越短。在计算机、通信和数据库建设构成情报现代化的三位一体中,更加强调数据库的开发和利用在信息技术应用中的主导地位。
2.6 资源化
数据库的发展和对社会各领域的渗透,提高了情报的社会地位。数据库的发展水平越来越被看作与国家经济实力、科技成就、外交地位、文明程度等同样重要。数据库事业的社会功能出现了实质性变化,数据库作为重要的战略资源受到国家和社会的重视。
世界上已建成许多闻名的数据库系统,例如:美国洛克希德公司的DIALOG系统,它包含560个数据库;美国系统发展公司的ORBIT系统,美国文献检索服务社的BRS系统,意大利宇航中心的ESA-IRS系统;日本的JOIS系统等,每个系统都含几十至几百个数据库。这些系统通过卫星、光纤网络与世界各地联系在一起。特别是1989年美国建成Internet交互网络,它是个巨大的信息宝库。但Internet上的数据库到底有多少确实难以统计,1992年出版的用户手册和数据库目录中列举了200多个数据库,其实远远不止这些。例如,Internet可检图书馆目录和数据库,包括了从国会图书馆到欧美各国许多公共图书馆和大学图书馆的几百个联机目录及数据库。有人估计,Internet的数据库总数不下1万个。Internet不仅有大量的科技数据库也有大量其它方面的数据库(时事、社科、文学艺术等)。连入Internet的网络达41520个(1994年10月前),连入Internet的计算机多达386万台,全球有数千万人在Internet上进行信息交换。Internet积累了大量的信息资源,并与日俱增,这是全球及人类的巨大财富,已成为信息时代全球可共享的最大信息基地。正因为如此,美国许多人主张在Internet的基础上来建设信息高速公路。
3 国内数据库的发展概况
我国数据库建设应认为从1975年开始,比国外约晚10~15年。虽然起步较晚,但发展很快。据国家科委统计,1991年底全国在不同机型上建立的不同规模的各种类型数据库有806个,而这些数据库多数是文献型的。馆藏书目数据库62个,专业文摘库98个,引进磁带建立的文献库36个(5个重复)。中国科学院“八五”期间共建立了29个数据库,其中,文献库8个,数值库17个,事实库4个。其它系统,如高校、冶金部、化工部、农业部、部队等系统也都建立一批数据库,库存内容涉及党政、军事、金融、科技、卫生、商业、能源、交通、冶金、航天、机械、轻工等各个领域。
天津国家海洋局情报研究所1986年引进了“ASFA CD-ROM”数据库算是我国正式利用光盘的第一例。近几年我国又陆续引进了许多光盘数据库。但总的说来,我国对这一技术的利用还处于起步阶段,对光盘的利用主要还是使用国外数据库生产商生产的CD-ROM数据库,开发自己的CD-ROM数据库或使用另外两种光盘的情况还很少。至1991年,我国已有126个单位引进了53种199个CD-ROM数据库。1992年6月,我国自建的第一个CD-ROM光盘数据库,即《中文科技期刊CD-ROM光盘库》,由中情所重庆分所开发成功。该库收录了1989~1991年4600余种科技期刊,入库记录总量61万条。盘片是委托美国加工的。1993年2月国家专利局将18万条专利制成CD-ROM数据库,从而成为我国自建的第二个CD-ROM数据库。1993年4月由中科院上海有机化学所研制的“中国化学文献数据库光盘”制成发行。这说明了我国对光盘技术的应用又上了一个新台阶。
另外,尚须提出的就是中国交通部情报所,已成功地利用CDS/ISIS软件,将建立在磁盘上的“中国交通文献库”30837条记录转存在WORM光盘上。随后它又从LISA的CD-ROM光盘上套录了27009条记录到WORM上,另外,在WORM上还建成了IRRD(Internation Road Research Documetation国际道路文献库)库,内存记录24万条。这三个数据库已于1992年12月通过鉴定。该所研建的这种微机—光盘检索系统已达到实用程度。具有相当规模的中西文WORM光盘文献数据库的建立,开创了我国自建光盘数据库成功的先例,具有广泛的应用前景。
未来数据库的建设,数据的录入将排除键盘打字,大量采用新的输入技术,如光学字符识别、CCD扫描器等。在汉字输入方面,印刷体汉字字形识别已达到较高水平。在语言识别与控制方面也即将成为现实。用于文献处理的自动标引技术在国内也取得了很大进展。因此,未来数据库建设将全面计算机化,省去繁重的人工数据加工、数据录入。知识库与专家系统的出现,使信息检索工作达到了智能化程度。