文献数字化理论研究中的几个问题,本文主要内容关键词为:理论研究论文,几个问题论文,文献论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
馆藏文献的数字化是信息资源建设的一部分,它可以丰富虚拟图书馆信息资源,促进数字图书馆的发展。馆藏文献数字化涉及到馆藏文献的价值确定,文献的形体特征,当前与今后的用户需求,转换技术的确定、格式选择,怎样描述、传送与归档,以及怎样与其他数字化成果产生联系等许多方面。哈佛大学学者对馆藏文献的数字化决策提出了8个问题。他们认为这些问题中只要一个问题的回答是“n”,就得考虑取消馆藏文献数字化的提议。这些问题是:
(1)该数字化文献是否具有足够的实质性价值,以保证数字化工程效益;
(2)该文献数字化后是否可明显地提高存取率;
(3)该数字化工程究竟达到了什么目的;
(4)数字化拷贝是否满足了确定的需要;
(5)数字化拷贝的传送是否符合版权法或得到特许;
(6)当前技术产生的高质量图像是否可满足我们的要求;
(7)是否有足够的经费与充分的技术力量支持;
(8)当地的信息基础结构是否充分,能否支持数字文献的传送。
可见馆藏文献数字化是一项复杂的工程。不少国家的图书馆、档案馆为了指导本国文献的数字化转换工作,纷纷拿出了自己的指导方案,学者们也针对这一问题展开了研究。
2 馆藏文献数字化的意义
馆藏文献数字化是指图书馆利用多媒体技术、数据库技术、数据压缩技术、光盘存储技术、网络技术等技术手段,将馆藏印刷文献、缩微型文献、音像文献等传统介质的文献转化为数字化、电子化的光盘文献或网络信息的工作。
馆藏文献数字化是数字图书馆资源建设的首要工作,是构建数字图书馆的物质基础。它在丰富数字图书馆信息资源,促进数字图书馆发展的同时,可以充分发挥图书馆文献优势,为图书馆开展特色信息服务创造条件。馆藏文献数字化可以降低原件丢失与损坏的风险;保护受到损伤的原始文献;其数字拷贝可以起到补偿原件的作用;馆藏文献数字化可以使图书馆更有效率地管理馆藏与提供服务;馆藏文献数字化可以满足用户对文献的多种需求;数字化的馆藏文献可提高原始文献的利用率;文献数字化可以产生对原件可靠而功能性更强的数字资料;可以支持新型研究或扩大研究对象;更便于有偿服务。
馆藏文献数字化工程是:有助于文献保护的数字化工程;数字化后便于馆藏利用的数字化工程;对本馆具有重要意义的数字化工程;为其他馆藏提供背景的数字化工程;受资助的馆藏数字化工程。
3 数字化文献的选取
图书馆经过长期的积累,保存了大量的文献资源,如果将它们一一数字化,将是一项浩大的工程,人力和财力都没有保障,而且实际上大量文献已经失去了利用价值,已经没有数字化的必要。我们必须有选择地数字化那些有用的、重要的、有利用价值、有特色的文献,同时各个图书馆之间应当相互协调。董焱认为,数字化文献是否能有市场,选题至关重要。在我国光盘文献生产的早期,以图像文献为主要内容的光盘,如各种美术、文物、摄影等占有绝对地位。近几年,人们逐渐认识到文献型光盘出版物的重要,各种文献型光盘的数量增长很快,有的已可上网传播。图书馆馆藏文献中有不少适合转化为数字化文献,但在转化时需注意:图书馆应将本馆所藏特色文献转化为数字化文献,如古籍善本、近现代重要期刊和图书、历代档案、非书资料和各种影音资料等;在文献数字化过程中,既要考虑文化保存和传播功能,又要考虑市场效益;要加强数字文献资源建设中的协调与合作,避免重复开发建设。
此外,哈佛大学的D.Hazen认为一项文献数字化工程应当具备以下几个条件:当地的信息基础结构充分,可以支持数字文献传送;有大量读者需求;类似数字化产品在他处没有或者不系统,本馆具有唯一性或占绝对优势;与本馆特色,馆藏政策、原则一致;有利于国家与国际利益;有足够资金;解决了或者可以解决版权问题;本单位有足够的技术专业力量;预计所取得的效益和支出能达到平衡、合理。
4 技术因素
数字图书馆建设中最重要的是数字馆藏资源,数字馆藏又以数字图书为主。图书数字化一般有三种方式:扫描方式、文本方式以及全息技术。文本方式是最常见的数字化方法。采用计算机进行文字处理越来越普遍,出版行业也面临数字化改造,因此这种方法是新的文本文件产生的主要形式。扫描方式则是最常见的、能够快速将大量印刷型资料数字化的技术,是目前国内数字图书馆建设的主要数字化内容来源。其具体做法是采用光学扫描仪、数字相机等将现有的纸质文献经模数转换成位图,模数转换是指将模拟信息转换成数字信息,以便计算机处理的过程。转换的质量取决于扫描设定的采样密度,即通常所说的分辨率。
但是,传统的图书到底应该做成哪种格式,目前业界的意见并不一致。国家数字图书馆的一些人士认为,要保证图书数字化的零错误率、并考虑成本规模等指标,扫描是切实可行的方式。但大多数业内人士对此表示了怀疑,他们认为扫描成像用图像的格式保存,与传统的图书比虽然前进了一大步,但是无法进行文字检索分类和摘要,更谈不上深加工和处理,会降低资源的利用效率。中科院院士李国杰表示了对现在常用的扫描方式的担忧,他认为,有些图书,比如那种很古的文物,它不能拿扫描机,只能用照相机,用非常高级的数字照相机把它照进去。而且这个工作量非常大。因为,全国不是说几本书、几十本书或几百本书,还有几千、几万、几百万,那么多东西都照进去,其成本之大可想而知。采用传统的录入排版方式也有不少弊病:一是只有文本信息,不能保留原来图书的印刷的全部,如公式、图表、图形方面的信息;二是生产成本高;三是错误率高,因此很难形成规模化的生产能力。
中国工程院院土倪光南指出,在目前的图书数字化技术中,最先进的应是全息数字化技术,用这种技术制作的数字图书拥有图书的全部信息,效果最好,相比之下图像扫描方式只有图像信息,连最重要的文字信息都没有,而文本方式虽然有文字信息,但没有图形图像、字体号、版式、公式图表等信息,也很不完整。在国内,像《中国学术期刊》(光盘版)所用的书生全息技术就是非常好的,不但创下了非常好的经济效益、社会效益,同时,也没有在网上发现清华学术期刊的资料被破解,被盗版。
但是,目前中国数字图书馆已经数字化的18万本图书,都是采用图像扫描技术制作的。鉴于此,很多业内人士呼吁,在国家数字图书馆建设工程中,应该采取招标的方式,以保证所采用技术的先进性。可惜到目前为止,国家数字图书馆还没有就何时开始招标以及采用何种技术等问题进行表态。
5 著作权问题
目前,许多国际条约和国内法都把文献数字化纳入了复制的范围。1971年修订的《保护文学和艺术作品伯尔尼公约》规定:“受本公约保护的文学艺术作品的作者,享有授权以任何方式和采取任何形式复制这些作品的专有权利。”1995年美国政府发表的《知识产权与国家信息基础设施》白皮书和1996年8月世界知识产权组织(WITO)提出的《关于保护文学和艺术作品若干问题的条约》实质性条款的基础提案中,都明确规定“作品数字化属于复制”。有关数字化权的归属、内容、行使与限制可比照复制权中的有关规定。
我国《计算机软件保护条例》规定:“复制,指把软件转载在有形物体上的行为。”作品数字化事实上是把传统作品的原有形式转换成二进制数字编码,再把二进制数字编码固定在某个载体上,这一过程与将软件固定在有形物体上的过程类似。此外,最高人民法院审判委员会于2000年11月22日通过的《关于审理涉及计算机网络著作权纠纷案件适用法律若干问题的解释》中规定:“受著作权法保护的作品,包括著作权法第三条规定的各类作品的数字化形式,在网络环境下无法归于著作权法第三条列举的作品范围内,但在文学、艺术和科学领域内具有独创性并能以某种有形形式复制的其他智力创作成果,人民法院应当予以保护。”
1999年6月,王蒙等6位知名作家分别状告世纪互联通讯技术有限公司未经许可将他们的作品上网,侵犯其著作权。9月18日,北京市海淀区法院一审合并开庭审理,判决被告停止使用、在网上致歉并分别向6位原告赔偿720到13080元不等的经济损失及诉讼支出的合理费用166元。法院认为,一部作品经过数字化转换,以数字化方式使用,只是作品载体形式和使用手段的变化,并没有产生新的作品,作品的著作权人对其创作的作品仍享有著作权。同时指出,应当认定作品在国际互联网上传播是使用作品的一种方式,作品的著作权人有权决定其作品是否在国际互联网上进行传播使用。
上述事件提醒正致力于馆藏文献数字化的图书馆界,在文献处理过程中,如缺乏著作权意识,良好的心愿也可能产生侵权行为,最终被推上被告席。陈传夫指出,为了规避侵犯复制权的风险,应采取相应措施:(1)将馆藏文献数字化复制应符合合理使用的规定。(2)将馆藏文献数字化必须指明作者姓名与作品名称。(3)将馆藏文献数字化不得侵犯发表权。(4)未经许可上载提供有偿服务会侵犯出版者版式设计权。(5)将馆藏文献数字化不得侵犯信息网络传播权。(6)数字化过程中不得修改权利管理信息。(7)将版权作品数字化后提供网上付酬服务应获得授权。
6 国外文献数字化的进展
各国在数字图书馆的建设中,无一例外地都先进行数字化资源库的建设——即对文献资源进行数字化。而由于目前图书馆的数字化工作受到知识产权方面的限制,因而使得各国的数字化工作又存在一个共性问题——都从图书馆拥有知识产权的历史资料入手。
美国最有影响的数字图书馆项目“美国的记忆(American Memory)”就是这一思想的典型实例。该计划主要数字化了一些对美国历史具有重要意义的馆藏,通过网络向各界发布。美国国会图书馆作为一个收藏丰富的国家图书馆,其数字化的政策和方法突出了保藏和利用这两个要点,该计划的做法也影响了后来许多公共图书馆的数字图书馆计划。在美国的带动下,各国相继掀起数字化的高潮。
法国国家图书馆的资源数字化项目已取得的阶段性成果包括1万本图书的全文文献、10万本图书的扫描影像、30万张图片和3000件录音资料,其中最为珍贵的是14世纪的1000件精美手稿。Nancy大学的法语古典文献数字化项目已手工输入2000件作品,目的是建立法语历史文库。法国国家科技信息研究所在获得法国版权管理机构和出版商许可的前提下,将约2000种期刊通过扫描进行了全面的数字化,在法国国内提供服务。
日本国会图书馆(NDL)和27个公共图书馆参加了全国联合目录网络项目,有760万条书目记录存贮在“信息基础设施中心”的联合目录数据库中。项目还包括总共7100件古籍善本(其中1236件国宝级文物)、21000本1868年至1921年间的图书、3000本二战期间的图书、20种期刊(总共80万页)、260卷国会研究资料(约6000页)、7000篇历史政治文献、160万页其它国会会议资料等。
加拿大在这方面虽然起步较晚,但他们也于2000年初开始了“加拿大万花筒”计划,目的是加大图书馆资源的丰富性与多样性,它要建立一个多媒体的、关于加拿大历史和现状资源的数字图书馆,这些资源可以通过网络免费访问。
7 存在问题和对策
TBS信息技术有限公司副总经理鲁倩认为,目前在信息资源数字化方面存在很多问题。首先,这些资源数据库都是封闭建设的,不能实现信息共享、开放使用,而且这些资源数据库没有统一的规范、标准。其次是资源的重复建设。第三是很多信息资源建设缺少监督、统一的管理,质量比较低。在资源建设方面可能需要国家有一个政府部门统一管理、统一规划。
为解决这些问题,在不久前举行的数字图书馆国际论坛上,中国数字图书馆发展战略组提出了建立统一的国家数据中心和对数字图书馆的建设制定统一标准的倡议,这就是所谓《数字资源建设北京宣言》。其措施有:制定数字图书馆全球行动计划;建立数字图书馆全球经济与技术联盟;筹备成立区域合作中心;建立大型数字图书馆合作测试基地等。据悉,目前国家质量技术监督总局已委托中国数字图书馆战略组制定相关的技术标准,为此还专门成立了一个“统一标准组”。“要建立国家数据中心没有统一标准不行,搞数字图书馆没有统一标准也不行,因此非搞不可。”文化部原副部长、中国数字图书馆发展战略研究组组长徐文伯对记者表示。在他看来,数字图书馆工程不仅是高科技项目,也是跨部门、跨行业的大文化工程,必须由政府出面来统一规划、组织和协调,并在资金和政策方面给予支持和保障。
此外,由于数字化文献的市场尚在拓展之中,真正商品化的数字化文献市场机制还不完善。同时,由于数字化文献是高科技、高风险项目,有许多产品社会效益突出,但经济效益较低,或者经济效益的体现需要一定的时间,国家有关部门可考虑建立风险基金或风险贷款,以支持数字化文献工作。
收稿日期:2004-02-09