馆藏文献优先数字化的策略思考,本文主要内容关键词为:文献论文,策略论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着信息手段革命与信息内容革命两次巨大的跳跃性发展,全球掀起了数字图书馆建设的浪潮。数字图书馆的出现,引发了一场全球范围内的文化媒介迁移运动,促使许多国家把本国的文化遗产大规模转换成数字形态,以扩充数字图书馆的“内容”资源,以便为未来的“内容市场”竞争奠定基础。数字图书馆的“内容”资源是刺激与满足人们对文化内容需求的关键,人们对内容需求的革命性增长将推动技术革命的进一步发展,从而有力地促进国家信息化进程。
由上可见,数字图书馆建设使我们的信息产业发展战略更加明确:以内容的创造来带动技术的发展,以民族文化产业的发展来拉动信息产业的跃升,从而有力地推动国家信息化进程,在整个战略中,文化资源的数字化成为了核心行动。
图书馆历来承担着保存和传播人类文化遗产与知识的关键职能,它丰厚的馆藏闪烁着中华民族悠久历史与灿烂文化的光辉,是世界各国久久仰慕的。将图书馆馆藏文献数字化,通过英特网让世界共享,不仅为中华文化在数字形态下再现辉煌提供了一次历史机遇,而且这笔巨大资源本身对国际市场就具有无比的吸引力。然而,受财力、物力以及当前技术能力的限制,我们暂不可能将这大量的文化瑰宝全部数字化,只能分期分批、有步骤有选择地进行数字化工作,逐步将中华民族文化推向世界文化市场。优先数字化哪类馆藏文献才有可能在全球用户市场上具有竞争力?在当前技术环境与资源配置情况下,制定什么样的数字化策略才最经济与可行?这两个问题是所有从事馆藏文献数字化的同行所共同关注的,也是本文的研究主题。
1 馆藏文献优先数字化的原则
数字化活动的主要目的是提高对图书馆馆藏的获取,或通过提供数字化拷贝,保护珍贵或易损的馆藏文献。鉴于此,笔者认为以下各类文献应当优先考虑数字化。
1.1 优先数字化有利于国家和民族的知识积累、传播与创新
这一优先数字化原则是以符合本国利益、传播本国文化为目的的。考察许多国家数字图书馆的网页,都可以明显地感觉到这一点。例如,美国国会图书馆就是优先将美国1774年至1955年间各类历史、文化、史料性文献数字化,并通过因特网向全世界讲述美国的历史、战争与文化发展(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。日本也是优先将本国主要的学术刊物(含人文科学、自然科学、工程科学等)优先数字化,并通过因特网向全世界展现自己的文化、科学与技术水平。
因而,我国应当优先数字化本国的文化遗产,将被各类图书馆收藏的,由我国作者撰写的,其著作的有价值部分,与我国社会、政治、文化、科学及经济有关的内容优先数字化;本国的文化和科学领域具有代表性的出版物可考虑优先数字化。这些由本国人产生的,反映本国各方面活动的文献数字化后,通过因特网可在全世界传播中华民族文化与展现本国的科学技术水平。
1.2 优先数字化具有较高价值的本国文献
只有将具有较高价值的本国文献数字化,才有可能吸引国内与国外用户,只有这类资源才有可能在国际市场上具有竞争力;只有将具有较高价值的文献数字化,这类文献才可能为用户长期存取。具有长期利用价值的数字文献,才有可能使数字化初投资与其产生的效益相符。因而,我们必须将具有较高的文化价值、艺术价值、史料价值与研究价值的文献资源优先数字化,必须将本国的文化和科学领域具有代表性的出版物优先数字化。
1.3 优先数字化使用频率中、高的馆藏文献
数字图书馆发挥的社会效益与经济效益的大小,可以通过被访问的次数多少来衡量。只有将用户需求大的文献优先数字化,才可能提高数字图书馆被访问的频率。使用频率中高的馆藏,一般损坏风险也大。将这类文献优先数字化,可直接降低由于多次使用而给这类文献带来的损坏或丢失的风险,也促成了对这类文献的保护。
1.4 优先数字化进入公有领域的文献或不受版权法保护的文献
图书馆数字化活动应遵守知识产权法。对大多数图书馆而言,版权所有资料占馆藏的主要部分。数字化受知识产权保护的文献,需要与产权所有人协商。大多数情况下,协商版权许可是要付出高额费用的。例如,IBM在准备制作有关“哥伦布”的光盘时,仅为得到版权拥有者的同意,就花掉了100万(注:Michael Lesk.Going Digital.Scientifi American,Mar.1997)。
目前,在我国大多数数字资料上网不收费或收费低微的情况下,如果将大量受版权保护的资料数字化,图书馆是承担不起支付著作权人的费用的。因而,我国馆藏文献数字化初期的活动,应主要集中在版权期满或不受版权制约的文献上。
世界各国对作者版权的保护期是有限制的,我国著作权法第21条规定,公民的作品,其发表权和著作财产权的保护期为作者终身及去世后50年,截止于作者去世后第50年的12月31日;如果是合作作品,截止于最后去世的作者去世后的第50年的12月31日。电影、电视、录像和投影作品的发表权、著作财产权的保护期为50年,截止于作品首次发表第50年的12月31日。照此,170年前发表的论著(即1832年以前的论著)或50年以前公开发表的音像制品,是可以考虑优先数字化,而不涉及版权问题。在此时期之后出版的文献,均应仔细地检查、核实其是否仍受知识产权约束。
我国知识产权法规定,不受著作权保护的对象有:法律、法规,国家机关的决议、决定、命令和其他具有立法、行政、司法性质的文件,及其官方正式译文;时事新闻;历法、数表、通用表格和公式等不受版权法保护。对于这类不受版权法保护,具有长期使用价值的文献,可以考虑优先数字化,例如国家制定的有关法律、法规等。
1.5 可考虑优先数字化缩微胶片文献,以充分利用已有的成果
由于多方面原因,缩微胶片文献应当优先数字化。
1.5.1 缩微胶片文献内容具有较高的研究价值。我国缩微胶片文献,大多是80年代初,在文化部主持开展的“抢救祖国文化遗产”的工程中形成的。为了有组织、有计划地将我国濒临损毁的、有长期保存价值的文献缩摄为胶片拷贝,近40个公共图书馆与文献收藏单位对本馆本地区的历史文献进行了全面调研。将具有长期保存价值的重要文献,分期分批地制作成缩微拷贝。现今,有重要史料价值的建国前的旧报纸、旧期刊以及古籍善本已经制作成缩微拷贝。目前,有重要价值的普通古籍、革命文献以及建国以前出版的平装书、建国初期的报纸、期刊等仍在缩摄中,这些重要文献预期在2010年前缩摄完毕。
由此可见,馆藏文献的缩摄拷贝凝聚了我国重要文献的内容。
1.5.2 数字化缩微胶片有利于克服阅读障碍,便于用户存取。以缩微胶片为载体的文献,利用起来十分不方便。例如,在提供利用前,需要查出所需文献的缩微胶卷盒号,而从这一卷含有成百上千页的文献中,用阅读器逐页查出所需文献,操作环节多,周期长,利用起来极不方便。所以尽管缩微胶片文献上藏珍聚宝,利用者却寥寥无几。将缩微胶片的模拟影像转换为以数字信息(数字图像或数字文本)后,可以用多种途径为用户提供服务,实现快速方便地检索与查阅,为世界共享中华文化提供了工具。
1.5.3 缩微胶片文献转换为数字信息,也减少了缩微胶片文献因复制和利用带来的损坏,实际上是对缩微胶片文献的保护。
1.5.4 缩微胶片的原件不宜再作数字化处理,制作缩微拷贝的大多数文献,由于年代久远,绝大多数处于急待抢救状况。即使保存状况较好的文献,其纸张也存在不同程度的劣化。近代出版物,如旧报纸、旧期刊中许多因纸张严重变质已无法继续流通,如果再对这些文献直接进行数字化处理,许多脆化的文献就会由此而损毁。
实验表明,用缩摄影像数字系统将缩微影像转换为数字影像,要比其纸质原件经平板扫描仪扫描后转换为数字信息快6倍(注:邵杰.“缩微胶片影像数字化转换及应用”在京通过鉴定.中国档案,2000(8))。可见,将缩微胶片文献数字化不仅避免了对原件的损坏,还节省了数字化的人力与时间。
将缩微胶片转换为数字图像文献的技术早已成熟,自1991年以来,OCLC的保存资源公司就已经扫描了多种格式的缩微胶片。实践证明,今天的技术已经可将所有标准胶片上的模拟信息转换为高质量的双色或灰色的数字影像(注:刘铁庄.美国图书馆资料从缩微胶片到数字化存取的转变.国家图书馆馆刊,2002(1))。
1.5.5 扫描缩微胶片要比直接数字化其原件,获取的信息更完整。按照缩摄中心的要求,文献缩摄前必须进行一系列的补配、加工与整理工作。例如,建国前的旧报纸,保存至今绝大部分已残缺不全,许多善本也破损严重。缩摄前,许多图书馆到全国各地图书馆或其他文献收藏单位对这类文献已经进行过补缺与修补,以及逐页检查、整理、修补和著录等一系列前期工作。尽管许多报刊能补齐的是极少数,但绝大多数文献经过补缺后,明显地提高了自身史料价值。有些重要报纸,长期破坏严重,经过大规模补缺,大多充实了内容。又如,对于古籍善本,在缩摄前还请了研究古籍的行家负责古籍善本著录标板的校编等。因而,直接对缩摄胶片进行数字化要比对其原件数字化,所获取的信息更完整、更充实。
由上可见,优先将缩微胶片文献转换为数字文献,无论从哪个角度分析都是十分有必要的。
2 宜于优先数字化的文献类型
馆藏文献的数字化除需要大量的人力、物力与财力外,还需要成熟的技术支持。尽管在馆藏文献数字化方面,我们已经取得不少成果,但许多问题仍在探索之中。我们优先数字化的对象应是具有成熟的技术支持、具有成功的经验可以借鉴,并且其转换经费还得合理。对于一些文献对象数字化后,其存取格式不为用户所认同,或在当前技术条件下进行数字化可能投资过大的,都应暂缓数字化。
当前,模拟转换后的文献大多可用两类格式进行存取,一类是图像格式,另一类是文本格式。这两类格式各有弊利,并各适于不同类型的文献。在制定优先数字化策略时,我们必须对这些问题进行认真分析。
2.1 存取格式与实现方式分析
通过对传统文献进行扫描或数码相机拍摄就可以得到传统文件的数字图像拷贝。数字图像文献的最大优点是可以保存文献原貌;制作技术相对简单、制作成本相对低。其最大的缺点是占用存贮空间较大,影响传递速度,但通过压缩技术的不断提高,这个问题不会是影响数字图像利用的主要问题。其关键的问题是,尽管可以制作一些检索工具提高对数字图像文献的检索速度,但目前的技术只能检索到检索词所在的页面,不能像文本文件那样可以逐词、逐字检索到该字、词所在的句、段。这种存取格式最适于传统图片、图形文献,以及其他必须保存文献原貌的文献。
以文本方式存储文献信息的最大优势是可以通过检索系统实现模糊检索和逻辑检索,其检索深度直到所需查询的检索词所在的字句,查全率、查准率高,且检索速度快。其最大的缺点是不能保留文献的原貌以及原文献的字体,转换成本高,转换速度慢。对于以文本格式转换馆藏文献的不足,我们是可以回避的。例如,对一些不需要必须保留文献原貌的,只需要保留内容信息的文献可选取这种方式转换,但是该转换成本与转换速度是我们目前无法克服的。
目前将传统文献转换为文本格式文献主要有两种方式,一是键盘输入。用键盘录入文献内容不仅转换速度慢,录入过程中还会出现较多的文字错误,需要较大的校对工作量,无法实现工业化的资源生产。因而键盘录入方式对于大量传统文献的数字化转换工作,是没有经济可行性的。二是先转换成图像文件后再通过OCR软件将其变为文本格式。它是利用扫描仪和OCR软件(OCR:光学字符识别)。拟转换的文献先用扫描仪扫描,再用OCR软件识别,便可以将传统文献转换为可编辑加工的文本文件了。
中文OCR光学字符识别是一种文字文稿的自动输入方式,将一份文献的数字图像输入计算机,计算机取出每个文字和图像,并将其转换为汉字的编码。它不再需要敲击键盘,就可以将传统文献转换为数字文本文件。
我国从70年代末就开始研究OCR技术,到80年代中期,中文OCR已可识别上万个汉字,识别率在90%左右的软件已相当多,可以说中文OCR软件在模数转换中已经走向了实用。例如,“汉王OCR录入系统”可实现对各种现代书籍、简繁体书籍、报刊杂志、公文档案的录入识别,且识别率较高,速度快、还能实现横校、纵校与对比校等。
然而,对于馆藏文献的数字化而言,由于汉字的复杂性,OCR对各类中文文献的识别远难于英文与数字的识别,如果识别率低于90%,OCR在馆藏文献数字化的实践中就会失去意义。因为过多的错误会花费大量精力和时间去校对,这会抵消OCR技术带来的效率,特别对于以下几类文献,OCR技术目前尚不能成功地解决问题:
2.1.1 含有繁体手写汉字的古籍文献
由于当前OCR还不能识别大字符集的繁体手写汉字,因而这类古籍文献如果想要数字化为文本格式,最大困难在于OCR识别后的校对工作。由于古籍还需要很多研究古籍的专家来对文本进行核对,因而失去了使用OCR的积极意义。
2.1.2 简繁混排的中文文献
这类文献识别率低,目前所有中文OCR都将识别字典分为简体字集和繁体字集来提供给用户,而对20世纪30年代至70年代的大量简繁汉字混合使用的印刷品,无论用户选择简体还是繁体,其识别率都极低。
2.1.3 专业性强的中文文献
这类文献误识率高,现有中文OCR基本上以GB2312-80的一级汉字作为基本字符集,对专业性较强的印刷品识别率不高。
2.1.4 难于机检的汉字文献
即使汉字库的容量非常之大,在具体工作中,仍然有一些文字无法用字库中的汉字检索,如古代钟鼎文、甲骨文、篆字或其他图形汉字等。这些还有待于技术的进一步的开发,例如,近几年来,华东师大中国文字研究与应用中心正在大力开展古文字信息化处理研究,现已突破了计算机处理古文字的一系列难题。不久前开发出了“金文资料库”和“金文字库”,实现了严格意义上的金文的计算机文字处理等,使之既能最大限度地反映古文字原貌,又能快速地深入到句、段进行检索(注:文其.古文字信息化处理的可喜进展.光明日报,2002-05-22)。
综上所述,考虑到图书馆文献的多样性,以及用户对不同类型文献不同检索要求以及当前技术的可行性,必须提出优先数字化的文献类型的选择问题。将一些由于技术问题暂不能达到满意的检索效果,或利用当前技术将其转换为用户欢迎的格式可能费用过高的文献对象,暂缓考虑数字化。等待技术的发展或经验的累积再进行这类文献的转换工作,可能会更恰当、更现实。为此,笔者提出了优先数字化的文献类型设想。
2.2 优先数字化的文献类型
鉴于以上分析,笔者建议以下类型文献可以优先考虑数字化:
2.2.1 直接转换为图像文献就可以满足用户存取需求的对象,可优先数字化。
传统文献可以以多种方式转换为数字图像文献,例如,直接扫描、拍摄文献原件,或扫描其缩微拷贝等。其转换技术简单,转换成本相对较低,因而国际上目前的数字资源中,图像数据库与全文数据库的比例大约是9∶1(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。只要给每一图像文件赋一个文件名,并与对应的索引工具相链接,通过查找索引条目就可以直接得到该图像文件。因而,凡不必制作文本文件就可以满足用户需求的文献对象,均可以考虑优先数字化。这种类型文献主要有:图形或图像文献,书法篆刻,版画,名人手迹,印章,简、帛、金石铭文,拓片,甲骨文等。
(1)图形图像文献
图形图像文件是基本不以或完全不以文字记录信息,而是以图像或图形等形象化语言揭示人、物与事等的非文字文献。比起文字文献来,图形图像更鲜明、更直观、更生动。这类文献对象如图录、图片与版画等。
图录主要是用图形、图像或附以简要文字,反映各种事物、文物、人物、艺术、自然博物及科技工艺等形象的文献。图录包括地图和历史图谱、文物图录、人物图录、艺术图录、科技图谱等。图录有的编集各种历史图片资料,汇编各种绘图资料,或是摹绘、摄制和编集各种文物、人物、自然博物及科技工艺资料等,对于历史研究、文艺工作、工艺制作及科学技术研究都有重要的参考价值。
与图录文献不同,图片文献(包括照片与插图等),它们大多并未汇编为一集,而分散在不同文献之中。特别是照片,随保存时间延长,画面逐渐发黄,颜色消退,质地变脆;许多图片文献由于年代久远、存放分散而鲜为人知,使许多有史料价值的图片,湮没在浩瀚书海中。因而,无论从保存、利用还是管理的角度考虑,这类文献都需要优先数字化。
法国十分重视图形图像文献的数字化工作,早在上个世纪末,法国图书馆与各城市精品藏书馆合作,将原本分散于法国各地的古书的艺术插页用彩色高分辨率扫描入CD-R光盘中,送至国家图书馆新馆汇集后上网,让全世界与法国共享法国文化艺术精品,博得很高声誉(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。
(2)文字形体具有特殊价值的文字文献
有些文字文献,除文字表述的内容有价值外,其文字形体特征也具有重要的研究价值或欣赏价值,如果将其以全文本形式数字化,不仅费用太高而且将丢失字型本身所含有的重要价值。这类文献更宜于数字化为数字图像。因而,这类文献宜于优先数字化,例如金文、甲骨文或其他图形文字,简、帛、金石铭文,拓片,书法篆刻,名人手迹,印谱等。
2.2.2 OCR识别率高的文字文献
只要调制好扫描输入的技术指标,OCR的识别率可达90%以上的文字文献可考虑优先数字化为全文本文献,利用检索系统提供多途径检索。这一选择原则主要是基于数字化的成本与技术的可行性考虑的。一般说来,学术期刊、报纸文献以及现代书刊比较其他古籍文献来讲,OCR识别率较高。