论我国全文数据库的开发与利用,本文主要内容关键词为:论我国论文,全文数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
全文数据库也就是一次文献数据库,即将原始文献整个进行信息化,转换成机器可读形式。图书馆与情报机构是无法做这一工作的,只能根据原始文献进行浓缩处理,建立二次文献数据库,也就是所谓的书目数据库。因为要将原始文献存入数据库需要有足够大的存贮空间,需要有很长的时间进行转换,工作量之大费用之高为一般图书馆与情报机构所难以承受,全文数据库的建立成了可望而不可及的奢望。
随着科学技术的发展与普及应用,实现全文数据库与检索服务的条件慢慢形成了,这是外界因素创造了条件,创造这一条件的根源是:国家新闻出版署指定的一些印刷厂几乎全部实行了出版物的激光照排。图书在出版之前就进行了信息化转换。各种连续出版物——主要是报纸和期刊的编排也大多实行了激光照排,这就意味着将文献全文信息化的工作用不着图书馆来做,已由社会的其他部门做了,这的确令人兴奋。然而,这些原始文献的信息化形式除了在出版中用于制版外,似乎并没有再派上别的用场,令人心痛的是没有引起人们的注意与足够的重视,以至使这些宝贵的信息资源没有得到利用。
显然,这种现象不能继续下去了,应该采取有效的措施开发利用这些宝贵的信息资源,抢救这些信息资源。
1 全文信息资源的现状
全文信息产品现在主要是作为出版者与印刷者的业务产品形式,并且是一种中间产品形式,对于出版者与印刷者来说是无足轻重的,所以,只要纸质的正式出版物一旦出版发行,这种信息产品也就被遗忘了,有的还保留一段时间,有的也许由于存贮空间与存贮设备有限等原因,待正式出版物出版后即被清除。
2 收集全文信息资源的措施
要做好收集全文信息资源这一工作,必须采取有效措施,必须是全国性的协调,而不是局部或少数单位来做这一工作。
2.1 行政措施
所有出版单位出版的图书必须无偿呈交给国家图书馆样本,这是用行政手段来保证的。同样也可用行政措施要求出版单位呈交出版物的信息产品,这样各种出版物的信息化产品就可集中到国家图书馆,并由国家图书馆统一编排加工。
2.2 经济措施
开发和利用全文数据库必然会产生一定的经济效益,可以用购买的方式向各出版者定购所有出版物的信息化产品。
2.3 协调措施
动员出版者无偿提供出版物的信息化产品同时也无偿向他们提供全文数据库的检索服务,用这种互利措施吸引出版者。
3 全文信息资源的加工整理
全文信息资源的加工整理不但技术性强,而且很复杂,这不仅要处理文字性的数据,还要涉及到多媒体的处理,况且各种出版物的出版形式不同,其编排形式也不同,加工处理起来并非易事。
3.1 标准化
标准化是全文信息加工重要的一环,这里主要指字符标准化与全文信息产品格式的标准化。字符标准化也就是全文数据输入计算机形成的机器代码必须使用国际标准或国家标准,如“GB2312-80信息交换用汉字编码字符集基本集”。格式的标准化也是重要的一方面,但这些要交给出版者做似乎不可能,出版者以自己出版形式的方便来设置格式,不可能依照某一标准进行。他们是决不会自找麻烦的,这一工作只有开发者自己做了。
3.2 标引加工
3.2.1 形式分类
把全文信息资源按其外在特征分类,如图书归一类,期刊与报纸又各归一类。而图书又按其开本形式的不同来归类,这是因为图书的开本不同,每一页上的字数也不同。
3.2.2 学科分类
把全文信息资源按学科来分类,使之归类于不同的文档。当然,这种分类是粗分类,可以参照图书上的ISBN的分类号分类。期刊的分类要复杂一些,简单的做法是以种分类,但这样难以反映出期刊中文献的实质的内容,并且有些期刊本来就是综合性的。当然这可以用编制索引的方法弥补。复杂的做法以每篇文献的学科内容来归类。这就打破了期刊的外在形式,做起来工作量大,也很复杂,但检索起来很方便。
3.2.3 编制索引
主题索引:主题标引一般抽取15个主题词左右,编成倒排档,这是查找文献主要途径。
题名索引:由于是全文数据库。用户从题名查找是出于一种习惯性,为了防止同题名造成误检,可在题名后加上著者。
代码索引:ISBN码与ISSN码是国际图联为了方便计算机的检索而特意为图书与连续出版物设置的代码,这种代码是对应于某种图书或某种期刊的。
4 开发利用
4.1 版权问题
全文数据库开发之后向社会提供服务,这里面有一个严峻的问题,就是版权。出版者是决不允许他的版权受到侵害的,况且全文数据库向社会开放势必形成与出版者的竞争,这也为出版者所不能容忍。所以全文数据库的开发利用的第一个问题就是解决版权。
版权问题的解决是一个复杂而棘手的问题,供读者查阅似乎是不成问题的,但要整篇提供给读者特别是通过通讯线路全文传输给读者似乎问题就不那么简单了。这是一个有待研究探讨的问题。
4.2 与二次文献数据库的配合利用
二次文献数据库的建立在图书馆及情报机构已非常普遍。读者从二次文献数据库中查到了所需的线索后,却不一定能找到一次文献,因为那个图书馆也许根本就没有订那种期刊,并且在附近图书馆也找不到,全文数据库的出现就弥补了这一缺陷。因为全文数据库可以廉价地无限地复制,也可以通过联机检索查到。
4.3 全文复制服务
读者可以通过计算机的打印机很方便地得到某篇文献的全文,即使打印一本书也是可能的,也可以很方便地将一篇文献或一本书传输给用户的电脑。
4.4 减少期刊的订购
既然有了全文数据库,就可以减少期刊的订购种数与复本数,将这些经费用于全文数据库的开发利用,可以得到更佳的效果。这可以更大程度地做到资源共享,某一地区的图书馆在期刊的订购可以互相协调,互相弥补,只订与本图书馆的读者对象密切相关的部分,其他的可以利用全文数据库补充。
4.5 按专题提供全文服务
当用户在研究某一课题时,得到这一课题的全部文献是可能的,这不仅只用于为读者提供服务,还可以按专题汇集文献,整理出版。
5 “信息高速公路”带来生机
“信息高速公路”计划的实施,给全世界带来了震动,我国“信息高速公路”的建设将分两步进行,这给信息产业的发展创造了机遇,同时也为我国全文数据库的开发利用带来了机遇。
首先是为全文数据库的建立提供了方便,出版者可以通过“信息高速公路”直接将全文数据传输给国家图书馆或某一全文数据库,既然通过“信息高速公路”传输33卷的《大不列颠百科全书》只需4.7秒钟,那传输一本几十万字的书或一本十几万字的期刊就更容易了。
其次是用户可以很方便地利用全文数据库,用户通过自己的计算机可以在极短的时间内得到所需文献的全文。
第三是“信息高速公路”为全文数据库的开发利用扩大了市场,发展了一大批“消费者”,用户可以通过自己的计算机系统到全文数据库中查到,这是科学技术与社会发展必然趋势。
(收稿日期:1995-07-11)