文献数字化转换与传播,本文主要内容关键词为:文献论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1传统文献的数字化
文献是图书馆基本要素,随着社会生产力的不断提高,文献形态也随之进步。计算机的发明,使传统文献形态发生了革命性变化,出现了电子文献,诸如磁带文献、磁盘文献、光盘文献,等等。诚然载体的变革,可以反映文献形态的进步,然而这些新型文献与传统文献的本质区别,不在于载体,而决定于信息或知识的最终表达方式。因此,借用《数字化生存Being Digital》作者尼葛洛庞帝的说法,两者的本质区别是:传统文献以“原子”(atom)形式存在,电子文献以“比特”(bit)形式存在。
原子是物质的基本粒子,所谓传统文献以原子形式存在,是指这些文献的形态最终归结为物质。这是世界的“模拟化”(analog)。例如,一件印刷品上的文字或图像,从微观角度观察,它们是以油墨分子这种物质离散状态,表达某种信息或知识的。因此称传统文献都是以原子形式模拟化存在的。
比特是信息的基本单位,是一种存在(being)的状态,例如,电路的开或关。在数字计算机中,人们把比特想象成一连串0或1的数字。比特是数字化计算机中的基本粒子。所谓电子文献以比特形式存在,是指这些文献的形态最终归结为比特。这是世界的“数字化”(digital)。例如,一件电子文献上的文本或图像,它们是以二进制数(bit)0和1的线性排列状态,表达某种信息或知识的。因此称电子文献都是以比特形式数字化存在的。
数字化并不难理解,当人们用微机做文字处理时,这个行为就是一种数字化过程,由它产生的文本就是数字化文本。数字化表达方式也不是当今才有的。早在远古时代,华夏祖先伏羲氏发明的八封及衍生的六十四封,就是最早的知识的数字表达方式。八封及六十四封由阴爻、阳爻的有序排列组合而成,这种以两种状态排列组合表达事物的方式,与当今的二进制数信息表达方式,在逻辑上是完全一致的。二进制数制的发明者莱布尼茨明确肯定,二进制数源于中国的先天八封。当然,这并不表明五千年前的华夏大地就已经实现了信息、知识、文献的数字化。
数字化文献的特点是:(1)易交换,畅通无阻,无处不达;(2)高容量,可以被压缩,以惊人的速率满足人们的信息需求;(3)很稳定,可以被纠错,传输途中不受干扰,原原本本还原信息本来面目。
信息、知识、文献一旦数字化,在现代计算机技术和通讯技术的支持下,其采集、加工、储存、传播就将发生质变。由于这种变化发生在事物的最底层,因此是革命性的,并非那种迄今为止历史上曾经发生过的文献载体的改良或变革。于是,传统图书馆也将发生革命性变化,数字化图书馆应运而生。而数字化图书馆的基础,首先是文献的数字化,包括文字性的二次文献(书目、篇目)、一次文献(文章、书籍)的数字化,以及图表、照片、声像、动态图像等多种媒体文献的数字化。
由于信息技术的飞速发展,数字化文献也在大步发展。最初的数字化书目文献(二次文献)发展速度,已经让位予数字化全文文献(一次文献)。据信息管理专家董小英先生的统计资料,在60~70年代,文字型数据库中以书目型为主体地位,到80年代中期,全文数据库的比例扶摇直上,从1985年的28%增加到1996年的50%,而书目型则下降到24%。这种变化已经鲜活地发生在我们身边,各种全文数据库(光盘)如雨后春笋般地涌现,并且,势头愈来愈强劲。据国内某软件连锁公司的统计,在全国5000家左右涉及计算机软件企业中,与电子图书光盘相关的企业占27%。这是令人振奋的发展趋势,为我国数字化图书馆事业的发展,奠定了良好的数字化文献基础。
2文献数字化的实现
文献数字化的实现,就是从原子到比特的转换,即传统文献转换成数字文献的过程。在这个过程中,计算机起主导作用。计算机实现文献的数字化,准确的表述应是计算机系统实现文献的数字化,包含了计算机主机、外设、软件以及计算机网络在文献数字化整个过程中的作用。
主机 数字电子计算机的发明已有50年,自70年代出现微型计算机,计算机在文献工作中普遍发挥作用才变为可能。由于早期微机主频速度慢、内存小、外存空间有限,在处理文献时往往显得力不从心。现在的微机无论速度、内存、外存都有长足发展,尤其是外存储器技术已经具备了海量信息存储能力(以G为单位,1G=12亿字节,相当于6亿个汉字存储量),这就为文献数字化创造了硬件条件。目前,一台入门级的微机(586CUP、16M内存、1.2G硬盘,8倍速光盘驱动器等配置,价格不足5000元),就可以满足文献数字化的硬件条件。
外设 文献的数字化处理(转换)需要借助计算机外部设备,包括输入、输出设备。输入设备除通常的键盘外,还有扫描仪、数字照相机、声像转换卡(音频、视频接口)等等。扫描仪可以将传统印刷品(文字、图片)转换成数字信息,通过OCR(光学字符识别)程序还能将印刷、甚至手写文本转换成数字文本,这为大批量传统文本实现数字化输入提供了技术条件。通过数字照相机可以直接拍摄到数字化照片,声像接口可以将声音图像、动态图像数字化,这些多媒体数字化信息可以作为素材制成多媒体光盘文献。
输出设备除通常的监视器、普通点阵打印机外,还有光盘刻录机、彩色(激光、喷墨)打印机、激光照排机等等。光盘刻录机是制作数字化光盘文献的必备工具,它可以将已经制作好的、暂存在硬盘上的数字文献(文字的或多媒体的)刻录在光盘上,产生只读型或读写型数字化光盘文献。用这种方式还可以制作“母盘”,委托光盘加工厂批量生产文献光盘,以便数字信息的广泛传播。这个过程,实际就是光盘文献的制作、加工、发行、传播过程。彩色打印机可以将数字图像打印成图片、照片、幻灯片等,激光照排机可以将数字化文本(包括图片),如书刊、报纸等等,还原成传统书刊。
软件 计算机应用软件,是令计算机按照人的意图完成某项工作的程序。在文献数字化转换方面,大致可分为文字型、多媒体型两类应用软件。文字型包括对二次文献、一次文献的处理;多媒体型包括对图形、照片、声音、动态图像等文献的处理。这两类文献处理软件均涉及数据库技术,同属于计算机管理信息系统(MIS)范畴。图书馆计算机管理集成系统,首先涉及的数字文献是对二次文献的处理,例如,基于MARC格式的书目(篇目)在采访、编目、典藏、流通、查询、统计等方面的数字化业务处理。随着光盘技术的成熟与普及,以光盘为载体的数字化一次文献及多媒体文献迅速发展,与之相应的应用软件也配套产生。现实情况是,数字化一次文献光盘或多媒体文献光盘,均配有相应的应用程序,以支持该光盘文献的使用。此外,还有一类全文文献数据库生成、管理的工具性软件。这类软件近年来发展迅速,已经逐步推广应用,并日臻完善。这类软件在制作具有本馆知识产权与馆藏特色的数字化文献方面,将发挥重要作用。相信文献工作部门,迟早都要采用这类应用软件。随着因特网(Internet)在文献工作中的应用,在网上发布数字化文献需采用主页(HomePage)及超文本技术(HTML),因此,网页生成工具(软件)也是需要掌握的。
网络 计算机网络是计算机技术与通讯技术的结合,由于因特网的成功,“网络就是计算机”已经成为信息时代的潮流。这里包含两重意义,一是技术的飞速发展,上网已变得轻而易举;二是网络可以便捷、实时地实现全球性信息资源共享。在因特网上,人们既可以查询、获取数字化文献,也可以传播、发布数字化文献。在一个局域网(如校园网)中,数字化文献往往是其主要信息源。
3数字化文献的传播
作为文献工作者,职业规范要求我们最大限度地满足读者对信息、知识、文献的需求。然而,在传统条件下,由于技术手段的落后,无论你如何努力都很难完全实现这种满足,这是文献工作者的无奈。在文献数字化条件下,情况将发生根本改观,不但读者可以随时随地得到他们所需的文献,而且图书馆可以方便地做到主动地向读者推荐文献。
数字化文献的传播大致有两种途径,一是脱机传播;二是网络传播。脱机传播是以磁盘、磁带、光盘等介质传播数字化文献。网络传播则是通过计算机网络传播数字化文献。这两种传播方式,各有其长。
以光盘为介质的传播方式,简单方便,容量巨大,对用户无需太多的技术要求。这种方式,实际已产生了一个新兴行业——电子出版物,并且得到蓬勃发展。在国内市场,一些大型文献,如《人民日报50年》、中国人民大学《复印报刊资料》、《清华学术期刊》、《中国大百科全书》、《二十四史》、《四库全书》等等都已有数字化全文文献光盘。二次文献,如《北京图书馆国家书目》、中国人民大学《复印报刊资料索引》、《上海图书馆社科篇目索引》等等也都有数字化二次文献光盘。越来越多的传统文献出版单位,在出版印刷品的同时,同步出版电子版光盘。人们只要获得这些光盘,就可以方便地从中获取信息。
通过因特网传播数字化文献,需要网络设备、入网条件,以及复杂的技术支持。然而,由于技术日臻完善,操作越来越简便,更由于它的实时性、全球性,因此这种方式的优越性明显大于介质传播,必将成为数字化文献传播的主流。
因特网是全球最大的、开放的、由众多网络相互连接而成的计算机网络,可以理解为网络之网络。因特网技术的成功使得全球信息化变为现实,它的强大功能迫使各国政府纷纷效仿,建立自己的因特网,以免在信息时代落伍。为了适应越来越多的用户蜂拥上网,开拓更宽的频带、更高的速率,由美国政府出面,发动几家信息技术大公司集资5亿美元开发第二代因特网(Internet2)技术的计划已经启动。一旦成功,可以实现1秒钟内在全球范围,将全套大英百科全书从一台计算机传送到另一台计算机。
加入因特网已经不是很难办的事,只要有一台微机、一台EODEM(调制解调器)、一条电话线,经过ISP(因特网服务提供者)注册登记,获得IP地址(Internet用户地址)、E-Mail地址及用户密码后,通过拨号上网方式,即可加入因特网,共享全世界的信息资源。还可以为计算机申请域名DN(domain name为连接到因特网上的计算机所指定的名字,有了域名即拥有一个相对应的IP地址),此时的计算机不但可以共享信息,还可以主动发布信息。