中国文献数据库建设的成就,本文主要内容关键词为:中国论文,文献论文,成就论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[摘要] 从文献数据库的数量、类型、介质和质量四个方面介绍了我国80年代以来文献数据库建设的成就。最后指出发展中国文献数据库必须采取的措施。
[关键词] 文献数据库 光盘 质量
第62届国际图联(IFLA)大会将于1996年8 月在我国首都北京召开,这是对我国图书馆变革的一次挑战。面对信息社会的悄然来临和在全球兴起的“信息高速公路”热潮,会议所确定的9 个副主题均与建立各自国家的文献数据库密切相关。数据库建设是把人类文化精华用现代化的方式展现于世的有效手段。
1995年5月,中共中央、 国务院“关于加速科学技术进步的决定”指出:“重视科技信息的有效利用和传播,加强科技图书、资料和数据库的建设。要有计划地建立全国科技信息资源传输的设施,建设连接全国科研机构、高等学校的科教信息网络,实现科技信息共享和交流的现代化”。作为一种计算机可读的、有组织的相关文献信息的集合,文献数据库是建立科技信息网络不可缺少的信息资源。遵照上述精神,本文试就我国近年来文献数据库建设的成就和发展作一阐述。
我国文献数据库建设从80年代初期的初创阶段,经过10多年努力,现已进入成熟发展阶段,其特点为:
1 数量增多
据文献[1]报道,1990年底我国自建文摘数据库98个, 书目数据库62个,引进文献库36个。据1991年底的统计,在国家科委信息司注册的各类数据库(涉及科技、工程、经济等19 个领域)为806 个, 共计5000万条记录。其中科技和工程方面的数据库为360个,占45%。 1992年列入国家科委出版的《数据库指南》一书的各种数据库为137个, 如按其类型统计分析(见表1),文献型数据库为37个,占27%。 若按此比例推算,在806个数据库中,文献数据库约为218个,如再考虑综合型数据库的因素,则可看出文献数据库的数量是逐年增多的。 在其中509个有记录量的数据库中,有10万条以上记录的库为63个,占12.5%(见表2)。
表1 数据库类型统计
类型数量 比例
文献型 37个27.0%
数值型 43个31.4%
事实型 38个27.7%
综合型 19个13.9%
合 计 137个 100%
表2 509个数据库记录量分布
记录数量1万以下
1~10万 10~100万 100万以上
库数量 283
163 54 9
百分比%
55.9 31.710.71.8
我国有关部门于1995年初进行的联合调查之最新统计表明:现有各类数据库1200多个,其中文献数据库约占40%。
据《1992年台湾数据库指南》报告,我国台湾省公私机构建立并提供涉及各领域的各类型(题录、全文、数值)数据库有229 个(不包括通过电信网络或光盘形式的数据库),其中中文数据库175个, 英文数据库54个。
2 类型齐全
从所记录的文献内容(文字)来区分,文献数据库有文摘数据库、索引数据库、书目数据库、全文数据库和混合数据库五类。各类中又可按记录的具体内容来区分,如在书目数据库中按图书、期刊、特种文献等区分,或按文种(中文、西文、俄文等)区分,也可按馆藏状况区分为××馆藏书目数据库或××联合目录数据库。近年来,我国在各类文献数据库建设中均取得了一定成就。
2.1 文摘数据库
它是以期刊论文为主的附有文摘的二次文献数据库。列入《数据库指南》中的文献数据库大多数是文摘数据库。这些库大都是被列为我国“七五”或“八五”重点建设的数据库,许多库的文献量都已增至10万条以上(见表2)。 中央各专业部委系统陆续建立了农业、林业、化工、石油、煤炭、食品、交通、船舶、冶金、机械、兵工、航空、航天、地质、药学、中医、生物医学、标准、专利等20多个专业文摘数据库。中国科学院文献情报系统研建了一批有关基础学科和高技术领域的文摘数据库,包括化学、生物学、物理学、力学、光学、电子学、计算机、天文学和稀土文献等。例如《中国化学文献数据库》的文献量从1990年的6万条增至1994年的14万条,文摘拥有率在95 %以上,检索途径有10余种,其规范化程度较高,曾获得全国科技情报数据库成果一等奖。可以说,文摘数据库的发展程度影响并决定着我国文献数据库的发展水平。
2.2 索引数据库 它是用各种索引方法制作的二次文献数据库,又称题录数据库或篇名数据库。近年来,我国研建的大型索引数据库首推中国科技信息研究所重庆分所的《中文科技期刊篇名数据库》。该库的记录数量从1989年建库初期的60万条增至1993年6 月的95 万条, 到1994年10月,文献量已达到140.8万条。文献源从建库初期的3200 种期刊增至1994年10月的5330种期刊,是我国最大型的文献数据库。其次有上海图书馆研制的《中文社科报刊篇名数据库》, 该库已收录1993 ~1994年的数据30万条,主要来源于3800种哲学、社会科学期刊,146 种报纸,每月以1600条的速度递增。它们均可从作者、题名、关键词、分类号、主题词等途径检索。该库的问世将逐步取代我国长期编制的近百种报道国内文献的书本式检索刊物。我国的一些专业部门和单位也在原有数据积累的基础上,分别建立了自己专业的题录数据库,如水力水电题录数据库、电力题录数据库等。
引文数据库是索引数据库的一种特殊形式,它是在文献正文与引文之间建立起索引关系的数据库,在查找文献和分析评价科学活动中具有特殊作用。由于管理与决策的科学化、定景化的需要,我国自1991年起筹建了《中国科学引文数据库》,由中国科学院文献情报中心研制,目前已从315种重要期刊中积累了20余万条来源文献、60 余万条中国引文和100余万条外国引文的信息,可用多种检索方法进行检索。 国内其他单位也进行了专业文献引文数据库(如化学)的研究与探索。
2.3 书目数据库
建立书目数据库是实现图书馆自动化的核心问题,也是开发利用图书馆信息资源的基础工作。我国是采取分头分段的方法建库的, 如北京图书馆研制的《中国国家书目数据库》, 按CNMARC 格式编制了1988年以来大陆出版的图书书目共计22万条记录; 深圳市、湖南省、南京市、黑龙江省及汕头大学等图书馆合作进行回溯(1984~1987年)建立的中文书目数据库有6.5万条记录;北京大学、 北京师范大学等29所高等院校图书馆合作回溯(1978~1987年)建立的中文书目数据库有5.5万条记录。另外,广东省30 多个图书馆联合建立的机读书目数据库约有100多万条记录, 并可通过网络系统实现书目资源共享。国内各级图书馆大都利用这些书目信息资源建立自己的馆藏书目数据库。
联合目录数据库是书目数据库的另一个侧面,它是反映与共享馆藏文献资源的数据库。近年来,我国首先研制的是期刊联合目录数据库,这是由于期刊资源在我国信息资源利用中的重要地位所决定的。表3 所列的是主要联合目录数据库;其他各地区、各系统(如国防科技情报系统、医学科学院、交通部、上海高校系统、湖北省等)也陆续建立了各种形式的联合目录数据库。
表3 主要的期刊联合目录库
2.4 全文数据库
它是存贮一定数量的文献全文或其中主要部分的一次文献数据库。它比二次文献数据库有更多、更好的检索方法,其传递的信息是完整的。我国近年来建成的全文数据库逐年增多,有上海交通大学的《法律条目全文数据库》、武汉大学的《湖北地方志全文数据库》和《国共两党关系通史全文数据库》、北京信息工程学院的《体育新闻信息库》、中国人口信息研究中心的《人口与计划生育法规文献全文数据库》以及北京大学和上海交通大学合作开发的《中国经济法规全文数据库》等,在中医古籍方面,有陕西省中医研究院等单位建立的《素问》、《伤寒论》、《金匮》等20多个全文数据库。在文学名著方面,有《红楼梦》、《骆驼祥子》等。新闻、出版单位开发的全文数据库有《新华社电讯稿全文数据库》、《经济日报社新闻资料全文数据库》、《人民日报全文数据库(光盘)》和《邓小平文选(1~3卷)全文数据库》等。例如《九四人民日报·市场报全文数据库》收有1994年《人民日报》报道的全部41000多篇文稿和《市场报》全年报道的14806篇文稿,其信息量大而全,可通过日期、标题、版次、版名、作者、文中关键词等查找到全文文稿,从而使读者获得完整全面的信息。
我国台湾省也开发了一批全文数据库,如特大型的《汉籍全文光碟资料》。它以《二十五史》的全文资料为基础,后续加入了《十三经》注疏以及先秦诸子的19种著作编制而成。
3 介质多样
我国自建的文献数据库目前仍大多数建在各种类型的计算机系统内,利用磁介质(磁带、磁盘、软磁盘)进行传递与交换。自1992年图书情报界第一张CD—ROM光盘——《中文科技期刊篇名数据库》光盘推出之后,又有一些大型文献数据库制成光盘数据库(见表4)。最近, 《中国大学学报论文文摘库(CUJA)》、《中国农林文献数据库》和《中文社科报刊篇名数据库》等也将陆续实现CD—ROM化。
表4 文献情报系统自建的主要光盘数据库
利用各种多媒体信息系统开发的多媒体数据库不断涌现。如果把一本多媒体电子出版物理解为一个多媒体文献数据库的话,已完成的有冶金部自动化研究院的《多媒体汉英字典》、北京汉声电脑公司的《多媒体动物百科全书》、北京金盘公司的《中国邮票》、江苏省的《中外故事集锦》、香港联合电子公司的《儿童启蒙宝库》和台湾的《中国诗乐之旅》等。正在制作的还有《中国大百科全书》、《中国美术全集》等。这种集文字、图形、图像和声音为一体的全方位信息数据库(属混合数据库)的发展正方兴未艾。
4 质量提高
文献数据库的质量是其生存与发展的关键。我国于1979~1994年间颁布了情报文献工作的正式国家标准39项,待批标准16项;制定了《中国机读目录通讯格式》(CN MARC);发布了信息技术标准近千项, 其中的不少标准是与文献数据库建设密切相关的,它们为文献数据库质量的提高提供了保障。笔者在文献[1]和[8]中已强调了只有不断提高文献数据库的质量,才能使之在进入数据库市场后充分发挥其社会效益和经济效益,并认为文献数据库的质量要从文献数据库生产的每个环节抓起,实行全过程的质量控制,进而提出了评价文献数据库质量的10项标准。具体而言,文献数据库的质量决定于数据的质量,特别是文献的标引质量与标引深度,它们直接关系着、影响着文献的查全率与查准率。有关文献数据库的质量问题已引起各建库单位的重视,如《中文科技期刊篇名数据库》在其建库初期的标引错误率为10%左右。1994年,该库建设者又组织专职人员对数据进行了审核,从而使数据错误率大为降低,分类标引深度从1个分类号改为1~2个,主题标引从16 个汉字增加到22个汉字,采取了一些技术措施,对检索软件进行了改版,增添了专业类的后控词表方法,开展了对数据库评价的有奖征文活动等。他们如此重视文献数据库的质量并培养了一支素质较高的业务骨干队伍,证明我国文献数据库的质量正在稳步提高,这也是我国文献数据库建设步入成熟阶段的标志。
综上所述,中国文献数据库的建设与发展必须制定全国的发展规划,统一归口管理,协调建立一批大型文献数据库或外向型文献数据库,促使文献数据库的生产走产业化或集团化的道路,建立我国的数据集团和国家书目数据中心(或联合编目中心),采用新的数据库技术、光盘技术、多媒体技术和网络通信技术,生产多种数据库产品,为我国的“信息高速公路”建设提供丰富的数据资源。同时,要进一步研究解决文献数据库建设中的标准化、规范化和汉字信息处理中的技术问题,并联合起来,在应用现有的各种软件的基础上研制国产的通用型情报检索软件和自动化软件,建立一支素质高的文献数据库工作者队伍,不断提高文献数据库的质量。同时,注意探讨文献数据库的知识产权保护问题,以保证我国的文献数据库产业更加兴旺发达。