文献数字化与数字化文献——对当前数字图书馆建设中若干问题的基本认识,本文主要内容关键词为:文献论文,若干问题论文,化与论文,数字图书馆论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 数字图书馆的一般定义
迄今为止对数字图书馆的一般理解是:不需要馆舍、虚拟的、以数字转换方式贮存大量文献信息资源、方便地为公众提供数字化方式检索、阅览文献资料的图书馆。它体现为基于因特网分布式的信息存储与管理,支持信息的普遍存取,集成化、个性化信息检索与服务这三个特征。只要有电脑,任何人都可以极为便利地使用分布在全球各地的图书馆中庞大的信息资源体系。
然而,实际上其概念在全球范围内至今还没有一个大家公认的标准定义和理论阐述,可谓众说纷纭。至于其实践状况,即使在欧美等发达国家也还是处于研发起步阶段,困惑我们的问题同样也困惑着他们,其现状并不比我们先进多少。2005年4月,美国斯坦福大学高级行政长官、斯坦福大学图书馆总馆(下属15个分馆)馆长、斯坦福大学出版社社长、斯坦福大学学术资源主任,并任HighWire电子出版社社长的凯勒(Michael Keller)教授,在北京作“数字图书馆的发展——以斯坦福大学为例”的学术演讲报告后,就笔者提出的三个问题:在美国,文献数字化的选择标准是什么?数字化的方式及如何避免重复现象?文献数字化后在网上的留存时间有无规定或法律保障?作了如下回答:美国文献数字化主要是做无版权争议的历史文献和已协商解决版权问题的当代文献,方式上基本以全文图像扫描为主,有重复现象但不认为是问题,目前数字化的文献在网上留存时间没有限制。这就说明即使像美国这样的国家,在数字图书馆建设的方法、步骤等方面也同样是处于摸索中前进的状态。
2 文献数字化的基本方式及存在的问题
目前有图像扫描、录校排、全息数字化三种方式,见表1:
表1 文献数字化的基本方式
方式 优点缺点
1.生产成本低1.无检索功能
2.可保留原始版面2.占用空间大
图像扫描 3.显示效果差
4.不能从版面上摘录文字
1.可实现文本摘录和全文检索 1.原版面信息无法完整保留
2.占用空间小2.生产成本高
录校排3.误差率高
4.不能规模化生产
1.可完整保留原版面的全部信息1.占用空间比录校排大(但比图像
全息数化 2.检索手段广泛 扫描小)
从表中可以看出,根据不同的使用需求三种方式各有长短,从制作技术和使用效果来看,前两种方式明显逊色于第三种。但由于技术的成熟与普及的原因,实际上目前使用最广泛的还是第一种(尤其是在国内),即初级阶段的方式。真正的数字图书馆馆藏文献除文字外还应包括有声影像,现在采用的光盘刻录只是初级形式,在概念的认识上不应过于把问题简单化。
现在国际上较流行的是正文、图像、视频、音频四种方式,对传统纸质书刊的数字转换主要是采用正文和图像方式,国内亦大体如此,且一般认为正文方式将是发展方向。
3 网络信息检索
目前网络信息管理机制及规范尚未建立,在庞大杂乱无序的信息面前,既缺乏有效整合能力又难以用现有搜索引擎的索引功能快速全面检索所需信息。
宏观而说,数字图书馆的发展应该有一种统一的、标准的分类方法,让读者通过计算机网络查询、检索信息,快速准确地查到所需的数字化信息内容。但是目前的信息检索方式还处在开发摸索阶段,尚未解决网上海量信息源的存储技术,而用浏览方式又根本无法满足需要,所以检索的效率和速度是数字图书馆面临的最大障碍。
具体而言,面对不同的文献载体形式,可以选用不同的数字转换方式,而转换方式的不同其检索状况也不相同。这就产生了一个问题——数字化的目的是什么?是仅仅为了节省藏书空间,还是为了更便捷地使用?恐怕是应以后者为主。如前表所述,对古籍善本,采用图像扫描方式可以很好地保留文献原貌,但无法检索。而对一般文献采用录校排的文本方式就便于检索,但又无法保留文献的完整原貌。
在同样以“用”为主的前提下,检索就成为使用的难点。从理论上说图像扫描后进行OCR识别,再进行人工标引就可以达到检索目的,但实际上人工标引所涉及的费用和人力,无疑将提高数字化的成本,而录校排文本方式因为可以全文检索就占据了优势,将来图像扫描方式会渐次被其取代,至于全息数字化方式,因其技术要视IT业技术的发展而逐步完善,故目前尚不成熟,还未达到广泛应用的阶段。
4 操作技术标准
到目前为止,网络信息服务缺乏理论指导,资源共享的运行机制又未形成,不同区域之间在网上索取原始文献的构想大体还处于纸上谈兵状态,而在全国范围内又基本不存在全文文献资源数据库,且不说尚未形成规模,就连统一(或兼容)的格式也没有。
首先,从概念上说如果数字化标准格式不统一,就不是图书馆的数字化。一个或若干个图书馆搞不成数字化,它应该而且必须是一批图书馆或信息提供单位的联手运作,所有参与者都按照统一的格式、统一的标准进行数字化,其产品才能便于用户查阅使用。其次,现在各数据库之间的编码格式不同,相互间无法转换,又无跨库检索技术,造成现有的数字图书馆文献资源难以体现整体优势。第三,数字图书馆是一项投资巨大的系统工程,有了标准不仅可以降低资源数字化过程中的研发成本及数字图书馆的建设成本,而且还能加强质量控制和提高生产效率,便于推广。
但是,至今国家尚无一个权威性的、统一的可供具体操作的标准。利益驱动使得一些企业纷纷登门到各类图书馆寻找原始纸质文献资源进行数字化,在没有解决互操作技术的情况下,造成彼此资源库和技术上的互不兼容及浪费。现有的数字化文献中就已经出现了人力、物力上的浪费现象,比如同一本书,已经被某一图书馆数字化了,那么其它图书馆就没有必要因自身的需要将其再次数字化。由于无法协调造成了同一本书被不同的图书馆重复数字化,等于是若干次毫无意义的重复劳动,形成大量的初级层次的重复建设,这种吃不计成本的“亏”在我们的历史上所见太多了。再者,由于各图书馆的资源建设侧重点不同,使用户在众多的数字化文献面前难割取舍,无所适从,致使部分用户可能支付两倍或两倍以上的费用,去选择两家或两家以上的数字化产品。这也涉及兼容问题,而兼容问题说到底就是标准问题,如果说统一标准可以避免重复建设,那么,规划、制定这个标准就是首当其冲不可回避的问题。严格地说,这个标准还应当是国际性标准,参与者共同执行全球数字化的统一标准,做到世界范围内的资源共享,避免不必要的重复建设。
由于数字图书馆的标准和法规的制定及实施缺乏应有的统一标准和规范,所以在这些问题没有达成基本共识之前切忌轻举妄动。
5 资源版权与数字版权
目前,国内外的数字图书馆都面临着版权问题的困扰。著作权者抱怨被侵权,未经本人同意就将其作品数字化,严重损害了他的利益;出版商指责网络数字技术造成了大量的、无法统计的变相复印本,直接影响了他们的经济效益等等。但如果获取信息的主动权完全控制在版权拥有者手中,谁的出价高,就给谁数字化,势必形成有钱才能使用信息的情况,而这又与知识的创造与传播职能相悖。
保护作者、出版社的权益是极其重要和不可忽视的问题,但事物都是两方面的,若对其过分地保护则必然会影响信息的传播,实为两难之事,对此比较一致的看法是著作人授权并有偿使用其作品,这不失为一条可行之路。然而这还不是问题的全部,文献数字化的目的是便于为公众服务,即使上述问题能够得到比较妥善的解决,接下来就是要从技术上解决数字化文献本身不被盗版的问题,即数字版权保护技术。比如图书馆花费了很大力量将纸质文献转换成为数字化形态的纯文本供读者使用,在网上传播时很可能被人随意盗取,全部转过来据为己有,这就是数字图书馆自身的版权保护技术尚未解决的问题。所以说在保护不被盗版的前提下更好地提供服务,既是法律问题又是技术问题,其实质就是利益的重新整合。
现在出版界正在与法律界探讨关于文献数字化的版权问题,努力寻找两全之策,使版权的法律不断完善,既有效地保护著作者的知识产权,又便于为读者提供服务,保护他们作为使用者的利益。客观地说,版权作品的数字化,需要完善的法律去维护和保护,而要做到这一点并非易事,因为在那些数字化先行一步的发达国家,也是版权纠纷笔墨官司不断,依然存在着数字版权立法不完善,版权缺乏必要的法律保护等问题,无法从根本上解决数字化图书馆中的这些矛盾。同时还应该看到,因版权之虞,缺乏大量的数字化资源,而现有资源的转换成本亦不菲,并将直接转嫁于使用者。
6 网络的安全稳定性
从现有的情况看,计算机网络系统并不安全,隐患一旦发作,数字信息荡然无存。比如硬盘故障、病毒破坏、技术更新、电压不稳、误操作和断电等造成的服务器损坏,都可能引发系统瘫痪,导致数字信息无法正常存取,形成难以估量的损失。笔者所在单位就发生过一次硬盘故障,导致服务器无法正常工作,初为界面乱码继而系统瘫痪,为避免造成更大的损失,所有工作程序立即实施人工干预,关闭所有模块。对不能停止的业务流程采用手工操作,并做详细记录,待修复正常后再行输入,忙得不亦乐乎,然而问题的严重性在于丢失的数据从技术手段上说根本无法恢复。这仅仅是发生在局域网上,倘若是在更大范围的联网上出现类似故障,其影响的范围与恢复的难度和造成的损失将难以想象。
7 数字化文献使用中的问题
使用数字图书馆所需的“无处不在的网络和无处不在的计算机”,在可预见的将来还不具备普及的程度,即使有所普及也依然存在下述问题。
(1)速度。首先,在目前国内因特网带宽的现状下,文献数字化的方式基本上是按页扫描成像的图形文件,没有做OCR识别,故比相同内容的纯文本文件大数十倍以上,使得查阅速度相当慢,面对网上的这些海量无序且纷杂的信息源,读者无所适从,很难快速查到所需要的信息。其次,现阶段(包括今后相当长的一个时期)国内的个人用户是以家庭普通电话线的方式上网的,这种电话线是单回路人户,铜线直径细,信号传输能力差,噪音干扰大,使网络信息的错误率大为上升并被反复传递,这就自然延长了查阅的速度(时间),同时也就意味着读者要多支付网费或电话费,这肯定会影响他们使用这种从根本上说就不是完全意义上的数字图书馆的积极性。
(2)费用。使用数字图书馆的经济能力是个现实存在的问题,文献数字化传播会给读者带来极大的方便,这是毫无疑问的,但即使是以发展的眼光看,真正物有所值并能用得起的人尚属少数。从现有情况看,那种想象中足不出户就可得到所需文献的人更是凤毛麟角。“到”图书馆去查数字化文献,这本身就是对数字图书馆的一种讽刺,也违背了数字图书馆的服务宗旨。即使如此,去查信息的人也不多,不论是高校的师生或科研机构的研究人员,不到万不得已是不会用这种方式去获取信息的。道理很简单,那就是每查询或下载一个条目都是要支付费用的,一次、几次尚可,如长期下去高昂的费用会令人却步,难以持久访问,纵然有课题费,如若有其他方式可以解决问题,谁也不会出此下策。昂贵的费用影响了数字图书馆的发展,使用它的人公费多,自费少,限制了读者人数,这就是理想与现实之间不可否认的巨大差距。
(3)时限。数字化文献要通过网络系统传播,而网络经营商所遵循的是企业行为,客户使用网络版的数字化文献资源一般都受其时限制约,超过约定时段则需另行付费。目前无论在国内还是国外,法律上都没有规定网络服务商有保存数字化文献信息资源的职责和义务,所以数字化文献在网上的积累及留存的时限是没有保障的。再者,作为数字化信息载体形式之一的光盘,从理论上说可以长久保存,而实际上其最长有效使用寿命约在数十年左右,这还不包括因技术原因而有可能导致的问题,诸如此类都是难以与纸质文献望其项背的。
(4)习惯。从现阶段多数人的实际情况来说,基本的阅读方式还是比较喜欢纸质的文献载体形式,这不仅是几千年传承下来的方式与习惯,而且对中国来说,还是一种文化氛围的体现和反映。试想一册古籍线装书在手翻阅研读,与在屏幕上阅读,是两种完全不同的感受,后者的“书卷气”势必荡然无存。传统文化的气息是数字化所无法体现的,如纸质、印刷、版别等,这并不是说要食古不化、抱残守缺,更不是说数字图书馆与传统图书馆二者之间此消彼长,而是说要尊重客观现实,对传统文化中仍有生命力的事物不能一概否定,应该是彼此共存、互为补充、合力发展。
(5)健康。人一生中只有一对眼睛,既不能再生也不能移植。不论是阴极射线显象管(CRT),还是液晶显示器(LCD),长时间地坐在它们面前阅读,屏幕的射线和闪烁对人体尤其是眼睛都有一定程度的伤害,时间长了,不仅视觉疲劳,而且还会导致视力下降、身体乏力,直接影响人体健康。一般说近距离直视屏幕20分钟后,眼睛就会有发干、发涩、视物不清的感觉,所以喜欢大篇幅从屏幕上阅读文献的人较以往逐年减少,当然这只是经验之谈。据观察统计,多数读者还是习惯于把那些自己需要反复阅读的文献章节打印出来后带走,极少或几乎没有为了获取同一信息而反复多次在收费网上进出的读者。
从目前现有的实践看,无论国内还是国外,数字图书馆建设都面临着上述问题的困扰,在时下一片数字图书馆热的舆论中,我们应对这些现象进行冷静分析,找出解决的办法,使真正的数字图书馆进入千家万户,使人们用得好(方便)、用得起(性价比合理),名副其实地达到其理想的目标。要采用分散建库,集中联库,分散服务,资源共享的联手运作方式,发挥整体优势。以往那种不顾自己的具体实际情况,各自为政,盲目地一哄而上,造成资源浪费及诸多后遗症的历史教训,不应在数字图书馆的实施过程中再次发生。同时,还应该清醒地认识到将传统的纸质文献资源转换为数字化形态只是图书馆工作中一种与时具进的补充形式,并应有重点、有选择地进行,既不应该也不可能更不必要把所有的文献统统数字化。此外需要特别强调的是,文献数字化建设并不是图书馆工作的首要任务,更不是唯一任务,它仅仅是众多工作的手段之一而并非工作目的,切忌把工作手段作为工作目的,而忽略了目的的原本意义,对此我们应该有清醒的认识,否则将会喧宾夺主,导致思维方式和行为方式进入误区。