信息资源建设离不开升级换代--论我国数字图书馆中文信息的挖掘与处理_数字图书馆论文

信息资源建设离不开升级换代--论我国数字图书馆中文信息的挖掘与处理_数字图书馆论文

信息资源建设不能只增长不升级——论我国数字图书馆中文信息的采掘与加工,本文主要内容关键词为:信息资源论文,中文论文,数字图书馆论文,加工论文,论我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

有人认为,随着信息时代的来临,发展中国家可以获取与发达国家同样的信息资源,在发展经济与科技方面能够与发达国家站在同一起跑线上,所以信息时代为发展中国家的发展提供了一个千载难逢的机遇,只要紧紧抓住这一契机,就完全有可能缩小与发达国家之间的差距,甚至与发达国家并驾齐驱。然而,这种说法如果不进行严格区分,就会产生一些误导作用。实际上,发展中国家要想与发达国家完全做到机会均等是不可能的,只能依靠自身的努力在某些方面创造同样的条件。中国是发展中国家,在未来的信息化进程中,有希望赶上发达国家,但不仅需要做出加倍的努力,还需要有一个正确的决策。因此,本文在此准备提出三个问题进行讨论:(1)信息资源的采掘与加工,应符合知识创新的需要;(2)应客观地看待互联网上中文信息占有量的问题;(3)在增加中文信息量的同时,更应当保证其质量。在建设中国数字图书馆的过程中,对信息资源采掘、加工的数量与质量,将决定其存在的价值,决定其能否更好地为我国的科技与经济发展服务,决定我国信息化建设的进程。

1 信息资源的采掘与加工应符合知识创新的需要

早在两年前,江泽民同志就对关于建立我国的知识创新体系问题作了重要的批示,中科院也于1998年6月13日在北京召开了“落实科教兴国战略,实施知识创新工程”的会议,正式宣布启动“知识创新工程”。这是加速我国科技与经济全面发展的一项基本国策,也是我们现在与将来的工作重点。同样,我们今天所从事的信息化建设、数字图书馆信息资源建设,也是这一基本国策的进一步延伸。也就是说,我们现在所谈到的信息资源的开发与利用,与我国知识创新工程能否顺利实施,我国能否在下一个世纪缩小并最终消除与发达国家之间的差距,能否成为一个世界强国的问题密切相关。因此,我们现在所进行的信息资源开发与利用,必须适应知识创新与经济发展的需要。

在互联网上,我们可以利用电子商务加快工作效率,从而赢得高额回报;可以迅速地收集大量的资料,供我们作某项研究之需,从事知识的创新与生产;同样,我们也可以利用它来满足我们的消遣需求。但是,无论我们利用互联网来做什么,都是需要以物质资源的消耗为代价的,在这些消耗付出之后,我们应当得到更多有益的回报,而不是为了某一方面的享受。根据人类社会发展的规律,我们可以得出这么一个结论,即科学技术的发展首先是为了满足人类的物质生活需要,只有当物质生活水平发展到一定阶段时,才能进一步满足人们的精神需要。在建设中国信息网络及构建数字图书馆的信息资源时,我们尤其应当注重这两者之间的先后关系,否则,就将如同美国西蒙斯学院教授陈钦智所说的那样:“所有这些吸引了亿万美元巨额投资的产品和服务目前看来更多的是与公共传输、游戏爱好及产品的娱乐方式相关。如果真是这样,则把我们所渴盼的数字化信息高速公路叫作‘数字化娱乐高速公路’不是更确切了吗?[1]”

建设信息高速公路与占有大量的信息资源,是需要以物质代价与科学技术为基础的。发达国家可以凭借雄厚的经济势力与大量的人才,在短时期内全面地完成信息化设施的基础建设,在满足知识创新与物质生产需要的同时,也能够满足人们精神生活的需要。而发展中国家却只能付出有限的代价,如果采取与发达国家同样的做法,不仅不具备足够的经济承受能力,也是一种极不明智的做法。事实上这是一场不公平的竞争,发展中国家因受到种种因素的制约,在进入信息社会的预赛时期即已落后于发达国家,当你还未到达预赛的终点的时候,别人就可能已进入下一轮竞赛的起跑线了。因此,从总体上讲,要消除这两种国家之间的差距是一个艰难而漫长的过程,发展中国家不仅要付出数倍于发达国家的努力,还需要有一个正确的决策,只能将有限的力量集中在某一点上进行突破,在其他方面则不得不作出一些牺牲。如果不这样做,则可能永远失去赶上发达国家的机会,最终只能靠别人的恩赐而生存。

认清这点非常重要。客观条件决定了我们所能够采取的做法,就是在现阶段只能紧紧围绕支持知识创新、支持科技经济的发展来建设信息资源的保障体系。也就是要“少花钱、多办事”,而且还要办好事。具体地说,就是我们在构建数字图书馆的馆藏信息资源时,必须慎重地加以选择,必须将对当前我国科技、经济发展需要最有益的文献信息进行数字化的转换工作,而那些属于消遣型的文献资料则不必要制成数字化信息,至少目前没有这个必要。因为这是需要花费巨额资金与无数人的劳动才能达到的,如果将大量的娱乐消遣型信息纳入数字图书馆的馆藏建设,那是一种得不偿失的事情。

2 客观地看待中文信息在互联网上的占有量问题

有人曾经做过调查,在互联网上,英文信息占97%,法文信息占2%,中文信息只占千分之几。于是,人们据此得出一个结论,就是如果我们再不主动去占领制高点,可能会丧夫一切机会和权利,因此摆在我们面前一个急待解决的问题,就是加速我国数字图书馆的建设,将大量的中文信息进行数字化的加工处理,从而在国际互联网中占据一席之地。

实际上,我们现在不必过多地注重中文信息量的多少,而应当注重收集代表最先进水平的信息,将其进行整理与加工后,供我们所使用。以目前中文信息在互联网上的占有量来看,确实是太少,但形成这种局面的原因却是多方面的。第一个原因是英语在世界上使用的范围最广,在某种程度上已经取代了世界语的地位与作用。世界上有许多国家与地区是以英语为官方语言的,尤其是以科技、经济发达著称的西方七国,就有三个是以英语为母语的国家。第二个原因是英语文献在科技方面具有一定的代表性,名列世界权威级的刊物以英语刊物为最多,世界各国的科研机构与个人也往往直接用英文发布信息。第三个原因则是互联网络是由美国创建后,才逐步遍及全球的,美国是世界第一经济大国与科技强国,也是信息生产的超级大国,它不仅占有最多的信息资源,还是最先提出并实施将知识信息进行数字化的国家。如果将美国所构建的网上信息排除在外,那么互联网上英语信息的占有量又能有多少呢?再说,中文信息在互联网上的占有量虽然只有千分之几,俄文、德文、日文、意大利文的信息占有量也同样如此。

从另一方面来看,信息的传播,是与科技、经济的发展相同步的。在过去的封建社会中,中国的经济与科技处于世界领先地位,周边国家都曾多次派遣留学生来中国学习,当时他们所大量接受的就是中文信息,如果当时已经有了互联网络,那么中文信息的占有量无疑应该是最多的。日本是世界上接受外来语言信息最多的国家,日语中的外来语词汇多得连日本人自己都不能够全部辨认,如果再进一步追根寻源的话,就连描述信息的文字都取之于中国,但这一切并未能妨碍日本成为世界第二经济大国,也并未挫伤日本人的民族自尊心,而由于科技与经济的发达,反而成就了日本人的民族自豪感。因此,我们接受用什么语言所描述的信息并不重要,重要的是我们能否接受最新的、代表最先进水平的信息,能否通过对这些信息的消化与吸收,加速我国的经济建设与科技发展。

在一定阶段内,人们的知识创新水平,取决于他所接受的信息,人们只能在掌握现有的知识水平上进行知识创新。如果你所接受的是最先进的信息,那你的知识创新水平也就代表最高的层次;如果你所接受的信息是处于第二或第三层次的,那你所谓的创新活动就毫无意义,因为你只是重复别人已经做过的事情。不可否认,与世界发达国家相比,中国尚处于落后的水平,以科技方面而论,用中文描述的信息也相对较为滞后,因而我们更应该注重先进信息的吸收与消化,而不必过分强调它是用何种语言进行描述的。如果我们能够取得科技与经济的高速发展,能够实现将中国建设成世界第一强国的理想,那么中文信息在互联网上的占有量也必然会随之而增加。所以,如果说中文信息在互联网上的占有量过少,令人感到担忧的话,其根源并不在信息占有量的本身,而是源自经济的落后与科技水平的低下。

当然,建设中国数字图书馆的最终目标,就是要使得中文信息在互联网上广为传播,这应当是毫无疑问的,但从目前来说,我们要有一个轻重缓急的顺序问题。鉴于我国当前的国力,所能够投入的财力有限,而需要解决的问题又非常多,矛盾十分突出,因而首先应该从最有利于我国科技经济发展的角度来构建信息资源,应该将用各种语言描述的、具有最先进水平的信息兼收并蓄,加以处理后供我们所使用。

3 在增加中文信息量的同时更应当保证其质量

当我们明确了构建中国数字图书馆的信息收藏体系,必须紧紧围绕我国知识创新工程的需要,适应经济建设与科技发展的需要,兼收并蓄用各种语言所描述的信息之后,我们还需要解决第二个问题,那就是如何对所收集到的信息进行加工处理。只有这样,才能构建一个高质量的信息资源仓库。因此,在信息资源的加工方面,也就存在着一个质与量的问题。当然,质和量的问题是相对的,没有数量就谈不上质量,但如果仅仅注重数量,而不能同时兼顾质量,那不仅会导致巨大的浪费,还有可能延误我国信息化建设的进程。

目前,我国国家图书馆在构建数字图书馆的过程中,将大量的纸质文献资料通过电子扫描,以图形存储的方式输入电脑网络,以供网络用户的阅读需要。据有关人士介绍,用这种方式,每天输入电脑网络的纸质文献资料达20万页之多,如果单就数量来说,这种增长速度是相当快的,但如果以质量而论,又是怎样一种情况呢?

将文字类的纸质文献转换为电子文献有两种方式:一种是通过电子扫描后,以图形方式储存在电子媒体上;另一种则是经过电子扫描后,再以专用软件进行识别处理,经校对无误后以文本文件的形式储存起来。这两种方式可说是各有利弊,前者占用存储空间大,且不利于检索,但能够快速地对图文资料进行转换,可以实现大规模生产;而后者的优缺点与前者正好相反。国家图书馆目前采取这种做法,其理由是:一是将文献资料转换成电子文本文件工程量太大,目前不具备大规模生产的条件;二是采用图像压缩技术可以使所占用的空间大大缩小;三是可以依照《中国文献编目规则》对其进行深度标引,以满足用户的检索需求。

笔者认为,就目前情况而言,国家图书馆采用图形存储的方式似可理解,但从长远考虑却非良策。因为人们利用电脑网络获取信息,所需要的往往是某一篇文献或与某一主题相关的内容,有时甚至只是某一段文字或是某一句话,而很少有人愿意坐在电脑面前阅读整本图书,因为这既不符合人们的阅读习惯,对身体也有害处,而这正是以图形方式储存的电子文献所不能完全解决的。尽管可以利用文献标引规则,对这些以图形方式储存的电子文献进行主题标引,但标引人员对文献所进行的先组式标引,是无法与使用者的特定需求相吻合的。这种情况一旦发生,使用者就可能必须逐页地翻阅整本文献,以大海捞针的方式来解决自己的需要。

“实际上,最理想的图文资料数字化方案是在系统内部存放原始资料的两个版本:一个是图像方式的,另一个是文本方式的,这两个版本以相互映射的关系存在于系统之中。人们看到的是图像版,检索和引用则由计算机访问内部的文本版来实现”[2]。当然,构建数字图书馆的馆藏,图形文件与文本文件并不矛盾,只是加工的程度不同而已。现在国家图书馆选择图形方式来实现图文资料的数字化,并不能完全取代文本文件的功能,这种做法可以使得数字图书馆中的中文信息量在短时期内有很大的增长,但却不能很好地满足用户的需求,所以这项工作可以说并不十分完美。

4 结束语

在对一个传统图书馆进行效益评估时,人们往往不是看它有多少藏书,而是看它满足读者需求的程度。评价一个数字图书馆也同样如此,不是看它有多少信息量,而是看它所储存的信息是否能够方便地满足用户的需求。在现阶段,评价我国的数字图书馆时,首先更要看它是否能够满足我国知识创新工程的需要,是否能够满足我国科技与经济发展的需要。这应当成为我们的共识。

网络时代给我们提供了丰富的信息资源,使我们快速地进行远程查询与获取信息成为可能,同时也给我们向网络输送信息提供了便利的条件。那么,我们应该向网络提供怎样的信息?答案当然只有一个,那就是先吸收,再产出。第一步是让中国了解世界,利用现代科学技术,将有利于我国科技发展与经济建设的各种(包括各种载体与语言描述的)信息,加以采掘与加工,使之成为我国科研人员可以共享的信息资源。第二步才是让世界了解中国,即是当我们对各种最新的信息进行吸收与利用,并取得了重大成就之后,再向世界展现中国的风采。

收稿日期:2000年5月30日

标签:;  ;  ;  ;  ;  

信息资源建设离不开升级换代--论我国数字图书馆中文信息的挖掘与处理_数字图书馆论文
下载Doc文档

猜你喜欢