数据库建设中一些问题的思考,本文主要内容关键词为:数据库论文,建设中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
我国数据库建设的进展取得了令人欣喜的成绩,图书馆机读目录建设和国内文献的计算机检索等两大问题已经初步解决。这一发展过程自80年代起步、徘徊,90年代中期初露端倪,近两年获得大发展。
对于数据库建设有不少讨论,从一些文章看,不外乎有以下几点:领导重视、要给以支持,一开始要特别注意规范和质量,要有规划、不要低水平重复等等。这些观点均不错,但实际操作时并不是那回事。
1 关于数据库建设的机制
在讨论文献库建设的成就时,我特别推崇西南信息研究所的“中篇库”和清华大学的“中国学术期刊光盘”的作用。尽管他们起步晚,但观念对头,运用市场经济机制,抢占了市场,取得成功。“中篇库”从一开始就紧紧抓住市场营销这一块,尽管,最初库中文献的著录十分简单,也不规范,在文献管理专家眼里算不上什么,但它有收录文献全,时效快的特点,并紧紧抓住市场这一块。占有市场就有钱,有钱能发展,现在,它的著录内容就丰富了,并有了文摘。同样,清华大学在组建“中国学术期刊光盘”时也充分表明了市场经济意识和运行机制的重要性。学校支持的800万元讲明三年要还。一次性的800万元,可以办大事。我们中国科学院建立文献数据库,十几年的累计投资可能也有近500 万元,但分散在这么长的时间,这么多的单位,每年一点点经费,就只能勉强维持。同样是清华大学,以前曾做过CUJA高校学报数据库,机制不同,结果也就不同。
几乎没有一个领导会认为这项工作不重要,特别是大家都已经认识到在我国的信息高速公路中,有路有车无货的现象严重,领导们也在考虑对数据库建设的投入。但每一领导也同时在考虑,这一投入到什么时候止。事实上,在一些系统和单位,对数据库建设的投入还是不少的。其中大多数是不了了之,投资编了主题词表,做了万把篇文献,建了数据库作为成果鉴定,以后没有新的投入,数据库的建设也就因此寿终正寝。中国科学院的文献数据库建设尽管也取得一定成绩,但总离不开拨款支持。应该说,数据库的建设是受到重视和支持的,但支持和重视必须要伴随机制的转换,“中篇库”和“学术期刊光盘”的成功经验正是我们需要学习的。文献数据库建设成功的根本是观念和机制。
清华大学的“中国学术期刊光盘”的发行影响很大,但是从市场经济的角度看,可能也隐伏着某些危机。近两年,国外Web 版期刊发展迅速,几乎重要的期刊均同时出版印刷本和Web版。在Web版出版后,同样的光盘版全文期刊有的开始停了。由于光盘版期刊的出版比印刷版滞后,因此对印刷版的发行影响不大。而Web版就不同了, 通常它先于印刷版,这会影响印刷版的销路。国外期刊,无论印刷版和Web版, 均由同一家出版公司经营。印刷版的减少与Web版的增加是互补的, 出版公司不会减少收入,相反,在销售政策上把Web版与印刷版捆绑销售, 还能增加收入。但对于“中国学术期刊全文光盘”,清华并不具有这些所包含期刊的所有权。将来Web版发行时, 清华与各杂志编辑部的分利将会是一个新的矛盾。另外,目前还有不少刊物的运作还未全成本核算,现时有些编辑部关心的是如何扩大影响,而不是经济利益。一旦编辑部全成本核算,势必会出现经济利益的矛盾,一旦出现这种状况如何解决,也是非常值得研究的。
2 有关规范和标准的讨论
关于规范化和标准问题,确实是数据库建设中必须注意的问题,没有人能够否定它。在现行标准中,数值数据库和事实数据库并没有什么数据规范可依,文献数据库和图书目录库都有成熟的标准,如GB -2901文献目录信息交换用磁带格式、GB-3860文献主题标引规则、GB -3793检索期刊条目著录规则等。这些标准中,GB2901及后来的CN-MARC在图书目录中用得较多,书本式文摘索引基本上采用GB-3793标准。但在文献数据库中,文献标引标准就很难说,依笔者所见,文献标引的标准缺少可操作性,对于同一篇文献,并不因为有了这一标准后不同人标引会得到相同的标引结果。即使是信息交换标准,也不是所有的系统都使用,占领市场的“中篇库”和“中国学术期刊全文光盘”都没有使用,因为他们是最终产品,交换不是主要问题。中国科学院建立的文献数据库中确实在规范上面化了不少功夫,编专业表,制定数据加工规范、工作也算到家,但在市场方面落后一步,以后的步履就比较艰难了。实际上,类似例子在OCLC和RLN之间也明显地存在。
如上所述,先抓市场,再提高质量才是明智之举。我对标准的看法是谁先占领阵地,用的人多了,就自然而然成为标准, 微软的WINDOWS不是标准,大家却跟着它转。标准出现在事物发展之后,如HTML、SGML没有成为国际标准,却受到公认,有人说将成为国际标准。标准随科学技术的发展就要不断修正,实际上对MARC的非议和改革呼声已经越来越高[1-2]。在文献情报数据库中,我们要理智地对待标准,不可一点也不遵循标准,也不要被标准束缚。
3 数据库建设的组织模式
回顾我国文献数据库的建库历史,最初受时代的局限,存在着计划经济中的理想主义。当时分析了西方国家各自为政,没有统一的规范,因而期望编一部“汉语主题词表”把我国的计算机情报检索统一起来,以充分体现社会主义的优越性。实际上这未能够做到,在那个时候失去了利用计划经济体制组建一个集中建立数据库单位的机会。于是各单位纷纷提出建立各个专业数据库的项目,形成十分分散之势。为此,一些有识之士提出要规划,不要重复建库等观点。
对于数据库的规划,只能是规划建库目标。中国那么大,条块分割,规划无法保证不重复建库。市场经济需要竞争,如果按规划,也就没有“中篇库”、“中国学术期刊光盘”,它们都不是计划中的,而是在通过技术的发展和市场的调研中提出的。
实践证明,分散建库不可取。文献数据库加工的理想模式应该是相对集中,专业分工明确。集中可以采用先进的联机标引加工的流程,并可协调标引思想:专业分工明确使一个标引员只负责一个小专业文献的标引,可确保标引一致性。美国CAS就是集中模式, 联机加工体系中可利用联机词汇库实时纠错,利用联机词表确保标引用语的正确性和动态增加的一致性,且一个标引员只负责80类中某一类的文献,确保了同类文献标引的一致性。笔者在建立中国化学文献数据库工作中,深深体会分散加工的弊病。在从无到有的时候,动员较多的人员协作,把工作做成时,这种模式发挥了作用。这也是计划经济的产物,因为标引人员的工资不计成本,分散加工的低效率影响不明显,随着科研体制中实现全成本核算,必须要解决工作效率问题,这时才觉得必须建立一个能联机集中的加工体系[3-4]。
4 数据库质量及标引的作用
依笔者之见,衡量数据库的质量有以下几条:首先是收录时全和精的统一、其次是标引、再则是文摘、最后是录入正确性。作为数据库产品还需要有功能齐全的检索软件支撑。“中篇库”的收录方针是全,“学术期刊光盘”和中国科学院的“科学文献数据库”则体现了精,全可避免漏检,但要有良好的标引和软件支持。全的负面是误检,检出非原始性的信息、低水平的文章、内容类同的文章会浪费检索者的时间。笔者并不认为收录越全越好,而是强调全和精的统一。ISI 收录的期刊并不多,但通过引文分析把有水平的刊物基本收进去了,可以说是全和精的统一。
关于标引,笔者似乎感到随着因特网的兴起以及全文检索技术的发展,标引的作用在削弱。由于标引的效率低而成本高,不少人认为是建立数据库的瓶颈。于是开展了提高标引效率的各种方法研究:有自动标引、后控规范和联机标引等[5-6-7]。 自动标引的效果并不如预期的理想,研究多,实用少。而与此同时,全文检索软件的功能得到很好的发展[8]。再从用户的实践看,使用数据库时,利用主题标引少了, 而用文献中的任意词组合的全文检索多了。如我们经常使用的CA,过去用书本索引检索时,只能依赖它的标引体系,现在用CAonCD光盘检索,很少考虑它是如何标引的,经常使用它的Word项的全文检索功能。凡此种种,对于是否要在标引上化大力气的怀疑越来越多,笔者也经常思考这一问题。近日有机会与中国专利局检索咨询中心的专家刘延淮讨论这一问题:网上各主要国家的专利均已全文上网,可以进行全文检索,这样专利局是否还有必要租用WPI。刘的回答是肯定的。 因为未经标引加工的网上专利文献数据库的误检太大,专利审查员如果要从这么多的检索结果来判别,太浪费时间,耽误专利审查,因此宁可每年化230 万元引进WPI。这是一种强调规范化加工的观点。从美国的CA看, 它的标引是无可挑剔的。特别是对化学物质的精加工形成的结构登录体系,则是无法取代的强大检索工具。另一方面,我曾分析了ISI 对它的四种检索性刊物的加工(SCI,Current Contents,Curent Chemical Abstractsand Index Chemicus,Current Chemical Reactions), 发觉它们的标引也很随便,没有什么规范,而是利用原作,力求简单。把原作的题录和文摘输入;把化学反应式剪贴到固定格式的版面上;把出版物的目次复印后出版;我曾在ISI参观过,发现有许多工作是简单的劳务, 即使是SCI,主要是参考文献输入时的规范化,不需要作很多的标引分析。 但这些产品确有很好的服务功能和市场竞争力。同样他们的产品也在从粗到精而不断改善,如Current Chemical Reactions 印刷本刊物发展到ChemPrep光盘。综上所述,标引要有特色和质量,不能超越全文检索作用的标引是无意义的。不管如何,随着信息技术发展,标引的作用及如何应变是一个值得研究的问题。
关于数据库的质量,很重要的一项是支撑软件的功能,而软件的功能如何实现则取决于数据著录的完整性和数据组织的合理性。对此,“中篇库”,也有不少值得改进之处,如年份限定功能、同一课题接上次检索功能、全文检索功能的加强等,对这些问题已经有人提出[9]。
5 拓展建库思路
我觉得我国现在的文献数据库工作不够完善,大家的注意力均集中在国内文献。即使是国内文献,由于改革开放,许多一流论文已经投在国外著名刊物上。因此,尽管前面已经对我国的文献数据库建设作了乐观的评价,但也不得不指出,依赖自建中国源文献数据库还不足以查全中国作者的论文。另外,在对文献的加工深度方面还没有新的突破,大家都局限于一般性的标引。笔者曾提出过文献深度加工的概念[10],希望大家不要局限于中国文献源的一般性加工,而要深入到文献中的具体特定数据,建立特定的数值数据库,使文献库与数值库等共同发展。国内外的工具书和数值数据库的基础数据还是来自于文献。但这只是一种意向,真正实施比较困难。从数值数据库来说,仅仅中国源文献是不够的。即使是文献数据库,也要考虑国外文献源的数据库。现在,引进国外磁带建立联机数据库已经不现实和过时了。相反光盘数据库的引进使我国科技人员文献检索的水平大大提高。现在我国引进光盘已经不少,不少人提出要协调,避免重复引进。对此我有自己的看法,就是加强知识产权法制观念,遵守光盘数据库的使用有范围限制,规定在一个校园使用就只能按此执行。因此只要确实需要,又有经济能力,没有什么可协调的。引进光盘数据库的价格非常昂贵,如CA光盘对学术机构一年的订购价达20万人民币。这是大多数单位无法承受的。根据我们对文献计量的研究和对读者的调查,认为建立国外核心期刊的文献数据库是符合我国国情之举,可以使国内的没有能力引进昂贵国外光盘的一般单位均能实现计算机检索。对于建立国外文献数据库,沈迪飞同志很早就提出了信息自立的概念,这非常正确。我们也研究开发了“KCBD化学核心期刊文献数据库”光盘。
未来信息技术的发展会更快,信息技术的发展离不开信息资源的发展。图书馆是信息资源的集散地。今后,图书馆的主要任务是瞄准先进的信息技术,注意开发利用适用的信息资源,比你的服务对象领先一步掌握信息技术和资源,使自己在信息服务链中从中介作用转换到引导作用,造就更多的端用户(end-user)。同时, 我们的国家一定要基于信息自立发展各种类型的数据库,并转变观念,转换机制,提高信息产业中信息资源的份额,提高国产数据库在广大用户中的使用比例。
收稿日期:1999-10-08