图书馆数字化的新模式——Google与图书馆联合数字化项目探析,本文主要内容关键词为:图书馆论文,探析论文,新模式论文,项目论文,Google论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1971年,“古登堡计划”建立了世界上第一个数字图书馆,成为图书数字化先行者。 此后,各种图书馆数字化计划不断启动,为图书馆适应社会的发展和需要奠定了坚实基 础。2004年12月14日,Google宣布将与美国和英国的大学图书馆及公共图书馆合作,开 展大规模数字化项目,从而开辟了图书馆数字化的新模式。
1 Google与图书馆联合数字化项目
Google将与美国哈佛大学图书馆、斯坦福大学图书馆、密西根大学图书馆、纽约公共 图书馆以及英国牛津大学图书馆合作,对这些馆的馆藏进行数字化,加入Google Print 数据库,从而形成一个收录3000万册图书的在线数字图书馆,供这些图书馆的用户及其 他网络用户浏览和阅读。数字化的图书既包括在版图书,也包括绝版图书;既包括仍拥 有版权的图书,也包括非版权(公共领域)图书。数字化作品不允许下载,但对于非版权 图书可通过Google实现在线全文查找、浏览和阅读;而版权图书则只提供书目信息和正 文的部分片段。
数字化合作项目首先从哈佛大学图书馆、斯坦福大学图书馆和纽约公共图书馆开始。
Google将对哈佛大学图书馆保存本书库中的4万册图书进行数字化,预计耗时6个月。若 效果良好,数字化的范围将会扩展到哈佛大学图书馆的全部1500万册藏书。斯坦福大学 图书馆同意将馆藏的800万册藏书全部数字化,第一阶段的扫描工作包括200万册图书。 纽约公共图书馆现在只将属于公共领域的非版权图书数字化,它将通过自己的网站和
Google网站实现图书查找和传递。密西根大学图书馆已承诺将馆藏的700万册图书全部 数字化(珍本书和其他易破损的资料除外),整个数字化工作的完成将历时6年。牛津大 学将把世界上最大、最古老的图书馆之一——Bodleian图书馆收藏的19世纪作品(也是 公共领域非版权作品)交由Google数字化,数量达到100万册[1]。
Google将在合作图书馆安装高速扫描设备(斯坦福大学图书馆除外,它的书将直接送到 附近的Google总部),由Google的工作人员负责扫描,并将扫描文本传送到中央设备进 行质量控制检测和将OCR转换成文本。
Google数字化的首要目标是绝版书,无论是非版权作品还是版权作品。至于新到馆的 图书,目前不在Google的数字化范围之内。如果确实需要将这部分资料数字化,Google 将会与Google Print计划中的出版商直接合作。
2 图书馆数字化的新模式
图书馆数字化是图书馆发展的一个必然趋势。美国国会图书馆的“美国记忆”工程、 英国大不列颠图书馆的数字化工程、中国国家图书馆牵头的“中国数字图书馆工程”等 都为图书馆数字化提供了可资借鉴的经验。目前,我国省市级公共图书馆、科研系统图 书馆和高校图书馆的数字化工作正在起步,大多数图书馆从建设特色数据库着手,也有 个别图书馆如广东中山图书馆通过与超星数字图书馆的合作,实现了更大范围的馆藏数 字化。而Google与图书馆的联合方式则为图书馆数字化提供了一种新的模式。
2.1 通过与网络服务商的合作拓展和延伸图书馆的信息服务职能
与大型门户网站和搜索引擎如Google、Yahoo、百度等进行合作,有助于图书馆信息服 务职能在Internet上的延伸与拓展,促进图书馆整体服务水平的提高,也是图书馆在网 络环境下促使职业更新和发展的一种有效途径。OCLC的CEO Jay Jordan就指出:“
Google将我们5年前的战略规划变为现实。图书馆与Web交织在一起势在必行”[2]。
2.1.1 实现图书馆馆藏资源最广泛的共享
图书馆信息服务的一大宗旨就是让尽可能多的用户方便、快捷地免费利用图书馆的各 种资料,但受传统载体的限制,目前图书馆中丰富的资料还只局限于为特定区域的少数 读者服务。此外,图书馆原有的数字化馆藏以网络数据库的形式存在,而目前仅次于电 子邮件的第二大网络应用领域——搜索引擎由于受技术的制约,无法索引该类数据库, 从而造成这部分资源成为“隐蔽网”(亦称“不可见网”)。因此,对于那些习惯于使用 搜索引擎获取信息的用户而言,“信息盲区”不可避免地出现了。而通过与网络服务商 合作进行馆藏数字化,使用户通过搜索引擎就可以免费获取这些资源,无疑为图书馆资 料的传播和利用提供了新的途径,最广泛地实现了知识、信息的共享,使得图书馆资料 真正成为人类的共同财富。哈佛大学就将与Google的合作看成是创造公共利益和服务全 世界的好机会。校长Lawrence H.Summers说:“哈佛大学拥有世界上最大的大学图书馆 ,如果这次计划取得了成功,我们将有潜力提供世界最大的传播系统”[3]。届时,不 但哈佛大学的学生和教职工可以通过访问HOLIS(Harvard Online Library Information System)直接利用500万册数字化保存本,世界各地的用户也可以通过Google使用这些资料。
2.1.2 促进图书馆门户网站的建设
图书馆门户网站是图书馆开展信息服务的窗口,也是影响图书馆资料利用的一个重要 因素,因此,加强门户网站建设已成为图书馆的核心工作之一。通过与网络服务商合作 开展图书馆数字化项目,一方面会极大地丰富合作馆门户网站可存取的资源总量,使其 成为互联网上资源提供的一大亮点;另一方面,还可以提高图书馆门户网站的点击率。 如Google与图书馆的数字化项目将为利用Google的信息查找者提供收藏有相应印刷本的 本地图书馆链接,这必然会增加图书馆网站的访问量。而用户在使用过程中往往会产生 新的信息需求,从而为图书馆不断改进门户网站的建设提供了持续的推动力。
2.1.3 促进图书馆员职业的更新与发展
在信息社会,图书馆员的角色将从单一化向多元化发展,他们不再是单纯的“服务员 ”、“保管员”,而将以“信息导航员”、“网络导航员”的身份立足于社会;以“信 息专家”、“知识专家”的形象面向用户。惟有如此,图书馆“信息服务枢纽”的地位 才能真正得到体现。由网络服务商完成对图书馆馆藏的数字化,大大减轻了图书馆员的 工作压力,使他们可以有更多的时间对多种形式的馆藏进行有效组织整理,为用户提供 类型多样的信息服务。正如Outsell咨询公司管理层所指出的:“Google此举并未给图 书馆敲响丧钟,相反,它恰恰成为图书馆员从大量书架中解脱出来、开发提升其专业知 识技能的又一契机。图书馆员理应借此机会,充分发挥其信息组织的才能,并不断帮助 用户提高发现、利用和获取任何形式信息的能力”[4]。
2.2 各方利益共享
2.2.1 网络服务商
网络服务商作为赢利性机构,通过广告获取收益是其生存和发展的最重要手段之一。 随着网络用户的不断增多,在发达国家,网络已取代传统媒体,如广播、电视、报纸等 成为发布广告的最佳渠道,网络广告是网络服务商最看好的赢利点之一。Google作为世 界上最大的搜索引擎站点,在实现其“组织世界上的信息,实现全球存取和利用”宗旨 的同时,也通过目标广告(targeted advertising)取得了纯收入中95%以上的收益[5]。 2004年第一季度财务报表表明,在新浪4140万美元的收入中,广告收入也占到1100万美 元[6]。通过与图书馆合作实现馆藏资料的数字化,不但有利于推进网络服务商的主流 业务,而且可以通过加插广告或链接获取经济利益。
2.2.2 合作图书馆
与网络服务商的合作为图书馆带来的直接利益就是可以解决图书馆由于资金、技术上 的不足而造成的数字化“瓶颈”。由于受资金的制约,图书馆独立进行的数字化往往只 能局限在某一范围内。另外,部分图书馆选择自行数字化的做法也容易导致低效率、高 成本。因此,通过寻求专业合作伙伴实现大规模运作,无疑会降低数字化成本,提高数 字化速度,将数字化生产从小作坊方式转变为真正的产业化。在Google的合作项目中, 参加图书馆无需投入资金就可以获得交由Google数字化的馆藏资源,而且Google所拥有 的先进扫描设备会保证“扫描过程比现今的其他任何高速扫描都要轻柔得多”[7],从 而不会对图书馆资料造成任何损坏,也无需拆除装订。
2.2.3 出版商与版权人
图书馆数字化的一个重要方面就是在扩大知识、信息传播和利用的同时,保障出版商 和版权人的利益。为此,Google与出版商和版权人也建立起了合作关系,确保他们的参 与会获得丰厚回报。Google承诺参加Google数字化项目的出版商和版权人将获得以下利 益:
(1)无需成本即可增加图书的可见性。利用Google的查找者将会看到Google Print结果 链接显示在Web查找结果的第一页,点击该链接即可检索非版权作品的全文和版权作品 的书目信息及正文片段。
(2)吸引新读者,扩大图书销售量。Google会建立在线购买链接,如在线书店Amazon、 Barnes & Noble等;绝版书店如Alibris;还可以通过OCLC Open World-Cat图书馆定位 服务链接到本地印刷本收藏馆。这一功能不但有助于提高在版书和绝版书的可见性,而 且通过设置“购买这本书”(Buy this Book)链接和广告也会扩大图书的销售。
(3)提高对出版商网站的访问率。Google会在自己的网站上建立出版商标志、出版商网 站链接,提高网络用户对出版商网站的访问率。
(4)从Google的背景广告中获取新的财政来源[8]。Google将与出版商和版权人共享在
Google Print界面建立有关链接和登载广告所获得的收益。
2.2.4 用户
图书馆数字化项目的最终受益者将是图书馆用户以及可以利用网络的所有用户。一方 面,他们可以跨越时间和空间的限制,存取、利用自己所需要的各种数字化资料;另一 方面,搜索引擎如Google等拥有较为成熟的检索机制及检索帮助系统,通过它们用户可 以方便快捷地查找所需信息。Google创始人之一兼产品部主管Larry Page说:“甚至在 我们创建Google前,我们就梦想着将图书馆员精心组织的不可置信的海量信息实现在线 查找。今天,我们很高兴地宣布可以对这些令人叹为观止的图书馆的馆藏进行数字化, 从而使得每一个Google用户都可以即时实现查找。我们与这些图书馆的合作将进一步强 化Google现行的Google Print计划,该计划使得用户可以在全文图书数据库中找到自己 所需要的东西,同时出版商和作者通过这些信息获得收益”[9]。
2.3 重点解决版权问题
版权问题的解决是图书馆馆藏数字化的前提。在各国的司法实践中,数字图书馆被版 权人诉上法庭的例子屡见不鲜。2002年5月,陈兴良诉中国数字图书馆有限责任公司一 案是我国图书馆界因版权纠纷被提起诉讼的第一案,此案最终判决中国数字图书馆有限 责任公司侵权。之后此类诉讼频频发生,去年中国社科院知识产权中心郑成思等7位专 家诉北京书生公司侵犯版权案也引起了很大反响,该案一审也认定书生公司侵权。可见 ,版权问题已成为数字图书馆建设中最棘手的问题之一,能否妥善解决好版权,关系到 图书馆馆藏数字化的程度。
2.3.1 重视版权问题
Google与5大图书馆联合的数字化项目十分重视版权问题。Google Print网页明确申明 ,“我们尊重版权法以及作者为作品所付出的巨大的创造性劳动”[10],图书馆的图书 内容在网页上的显示将符合版权法的规定[11]。
图书馆和出版商对于此数字化项目的版权问题也十分谨慎。牛津大学和纽约公共图书 馆同意进行数字化的资料都是已进入公共领域的非版权资料;其他合作图书馆也都积极 澄清与版权相关的问题。美国出版商协会(Association of American Publishers,AAP )执行主任Patricia Schroeder指出:“Google正在与出版商合作,以创造一种全新的 传递内容的方式。我们一直保持着警觉状态,除非该系统崩溃或我们在Google的商业模 式中发现大规模的盗版、漏洞或变化,否则我们会与Google好好合作”[12]。
2.3.2 根据版权的不同情况采取不同的资料提供方式
除了各个合作馆为自己的用户提供数字化资料外,Google也将根据资料版权的不同情 况,提供差异性数字化服务。对于进入公共领域的非版权资料,Google将为用户提供在 线全文查找和全文浏览,在网页上不插入任何广告或链接;对于受版权保护的资料,
Google将提供全文查找,但只提供正文的个别片断和书目信息;对于出版商同意在线提 供部分或全部正文的版权资料,Google将设置书店链接、出版商标志、出版商网站链接 ,获得的收益部分归属出版商。所有数字化资料都不允许下载。Google这种版权处理方 式为数字环境下图书馆版权问题的解决提供了新的解决方案。
2.3.3 兼顾版权法的双重目的
版权作品兼有私有财产的性质和公共产品的特征,因此,版权法的目的也包括两个层 次:保护相关权利人特别是作者的版权;促进文化与科学的发展与进步。前者是版权法 的直接目的,后者则是最终目的。版权法就是通过对版权的保护和限制以平衡权利人和 使用人之间的利益。
在数字技术产生以前,版权法在保护权利人权益的同时,通过合理使用、法定许可、 强制许可等手段平衡权利各方的利益。在数字技术条件下,版权人的权利呈扩张趋势, 图书馆合理使用的范围相对缩小,对用户提供的服务也受到限制。目前,大多数图书馆 为了避免版权纠纷,数字资源建设只涉及非版权作品,但这远远不能满足读者的需求。 也有少数图书馆勇于面对版权作品,担当起获取版权人“海量许可”的重任,如超星数 字图书馆就采取与作者签定许可协议的方式获得授权,然而这种做法却需要耗费大量的 人力、物力和财力。Google与图书馆的数字化项目为数字环境下图书馆的资源建设和读 者服务开辟了一条新的途径,它既保证了版权人的权益,有效防止盗版;又确保读者在 任何时间任何地点都能即时获得所需资料或有关线索;同时图书馆在无需为“海量许可 ”花费巨资的情况下,有效实现保存文化遗产和为读者服务的职能。可以说,Google的 做法兼顾了各方利益,有利于社会文化和科学的发展,体现了版权法的立法宗旨。
2.4 注重隐私保护
无法切实保障用户隐私是制约网络服务和信息利用的重要因素。尽管许多网站都制定 了隐私保护政策,明确告知用户网站利用Cookies或类似工具收集个人信息的目的及类 型,但在国外发达国家的图书馆特别强调保护用户隐私的原则下,网络服务商利用提供 数字化资料收集用户信息的行为显然与图书馆的政策相背离。正因为如此,
Google-Watch高级主管Daniel Brandt专门写信给ALA主席Maurice J.Freedman,指出“ Google为了提高目标广告的收益,必然加大对用户信息的收集;另一方面,在图书馆提 供给Google数字化的非版权作品中,包含着大量100年前政治和无政府主义方面的文献 。如果对Google的隐私保护措施不加限制,可能有一天Google会根据法院传票的要求将 阅读过该类文献的读者名单提供给FBI。因此,图书馆现在就应表明自己对保护用户隐 私的立场”[13],要求Google尊重在其网站查询图书馆数字化资料的用户的隐私权(匿 名权)。这意味着Google不能利用Cookies记录查找者的IP地址或表明身份的ID。
尽管目前我国公众的隐私意识普遍还比较淡薄,网站、图书馆对用户的隐私也未给予 足够的重视,但可以预见,随着人们法制观念的日益增强以及自我意识的不断提升,对 隐私保护的要求将会越来越强烈。因此,图书馆在与网络服务商合作开展数字化的过程 中,必须采取一定措施强化对用户的隐私保护,只有这样,才能保证人们毫无顾虑地利 用图书馆资料。
密西根大学校长Mary Sue Coleman说:“Google开创的项目标志着一个时代的到来, 即世界上任何人都将可以通过互联网获取大量本来以印刷文本存在的人类文明记录。这 一始创性的项目将对现在及未来产生巨大而深远的影响”[14]。与网络服务商合作开展 数字化,对图书馆而言既是一种全新的尝试,也是顺应时代发展潮流的举措,它必将推 动现代图书馆事业的健康发展。
收稿日期:2005-01-28