百万图书计划与Google数字图书馆的比较研究_数字图书馆论文

Million Book Project和Google数字图书馆计划之比较研究,本文主要内容关键词为:数字图书馆论文,计划论文,Book论文,Million论文,Google论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G250

2004年12月14日,Google携手纽约公共图书馆和哈佛大学、斯坦福大学、密歇根大学、牛津大学图书馆共同启动了一个数字图书馆计划(Google Digital Library Project),以将馆藏图书数字化并引入公共阅读领域,引起了全球瞩目[1]。Google作为一家新兴的商业化搜索引擎公司, 为什么要涉足图书的数字化领域呢?它开展的这一项目与已有的项目(较为典型的如Million Book Project)有何异同?其独特之处在哪里?自身局限性又是什么?本文试图通过对Google数字图书馆计划与Million Book Project(MBP)的对比分析,找到这些问题的答案。

1 项目概述

1.1 MBP

MBP是美国卡内基梅隆大学发起的一个数字化项目, 初衷是要“在卡内基梅隆大学建立一个超大规模的、可提供自由阅读和搜索的数字图书馆”。它是网络档案项目(Internet Archive)的一个子项目,网络档案项目为MBP提供质量控制工具并协助其获取图书,其所产生的数字化资源也将作为永久性档案保存在网络档案项目中。MBP现已在美国、中国、印度、埃及、加拿大和荷兰等国设置扫描中心,到2004年6月,已经有5万余种书籍被数字化。在印度,大量扫描中心已经建立,每天可扫描3000个页面。中国也正在对图书馆特藏和失去版权保护的图书进行数字化。另外,MBP项目与数家出版社达成协议,将部分书籍数字化并提供免费搜索。到2004年6月,项目数据库中已经有多达3000家出版商出版的书籍[2]。

MBP的目的在于促进现代科学成果和传统智力资源的充分利用, 拓展各种文化间的交流,加速人类知识的创新。其使命是建设一个公用图书馆,促进人类知识的自由存取,最终使所有人在任意的时间和地点都能够存取书籍、杂志、报纸、绘画、图像、音乐、视频或者参考资料。该项目所面临的最大挑战是如何组织其所计划的百万册带有文本和图片的书籍并提供全球存取,也就是书源组织问题[3]。

1.2 Google数字图书馆计划

Google数字图书馆计划分为Google Print和Google Scholar 两部分。 Google Print于2004年10月启动,通过整合多家出版商和图书馆的信息资源来提供网络搜索服务。Google于2005年5月26日正式推出了全新的Google Print搜索引擎,其搜索范围包括数量巨大、类型繁多的图书,如小说、参考书、学术专著、教科书、儿童读物、科学图书、医学图书和教育图书等。另外,Google Print还提供了书目及馆藏信息、原文文献扫描页面、网上书店链接等。Google Print针对不同的合作伙伴又分为出版商项目和图书馆项目两大部分。

Google Scholar则是Google于2004年12月推出的一项崭新的搜索服务,这一服务能够帮助用户查找包括期刊论文、学位论文、书籍、预印本、文摘和技术报告在内的学术文献,内容涉及诸多学科,并且经过了业内专家的评审,具有一定的权威性。Google Scholar与Google Print一个主要针对期刊论文,另一个则主要搜索图书信息。

Google作为一家商业化公司,所有活动的最终目的是为了赢取利润。在推出数字图书馆计划时,Google对外声称是为“使用户更方便地查找信息内容,实现开放存取”(语自Google Scholar总设计师Anurag Acharya)。实际上,其更重要的动机却是通过提供更为优质的服务占据更大的市场份额[4]。

2 MBP与Google数字图书馆计划之比较

2.1 组织者、参与者及组织方式

MBP最先是由Raj Reddy博士发起的,并由不同领域的专家(包括来自美国国家科学基金会和麻省理工学院的专家和数字图书馆联盟项目的负责人)参与到计划中来。美国参与此项目的组织包括斯坦福大学、加州大学伯克利分校等若干所高校。中国参与项目的组织包括中国科学院、教育部及北京大学、清华大学等高校。印度的成员组织则包括印度科学院、国际信息技术学会、Maharashtra工业公司、 印度信息技术学会以及Anna大学等高等院校。MBP 还与若干出版商合作开展了图书数字化工作[5]。

参与Google数字图书馆计划的则主要有密歇根大学、斯坦福大学、哈佛大学、牛津大学、纽约公共图书馆以及部分出版社,项目的开展是在Google公司的组织和推动下进行的。

2.2 发起背景和原因

当今世界,因特网得到了越来越广泛的应用,但网络信息资源的权威性和完备性仍让人质疑,这已经成为因特网发展过程中的一大制约因素。而图书馆又保存着大量人类精神财富和智力成果,因此,图书馆文献资源开发及数字化就成为一种必然选择。

图书馆存在的一个重要原因,是它能够在一定程度上保障信息的公平存取,为每个人提供相对平等的学习机会,这也是图书馆界的共识和公有理念。但现在的情况是,不同国家的图书馆馆藏在数量和可获取性上存在巨大差异[6]。为了在一定程度上改变这种状况,MBP应运而生,它将海量的印刷型文献数字化并上传到因特网上供人们自由阅读,这是最终实现信息公平存取的重要步骤。

Google作为一家近年来才崛起的网络公司,已经打败了众多竞争对手,成为搜索引擎世界的领头羊。但Google能否保持长期繁荣呢?现在,Google的收入绝大部分来源于在线广告,业务单一,潜在风险很大。为了降低风险,Google正努力转型,尝试多元化战略。“内容至上”成为Google与微软和雅虎的竞争策略。

另外,Google与数字图书馆是有一定渊源的——“早在创建Google以前,我们就曾梦想把图书馆员如此钟爱的丰富的图书资源搬到网上,使其可供搜索”;“我们的目标不但是要让用户在津巴布韦轻易地找到不显眼的交通岗,而且要让用户阅读到莎士比亚的不朽剧作”[7]。Google的创始人之一——拉里·佩奇这样说道。Google 2004年在纳斯达克成功上市,也为这一计划做好了充分的资金准备。因此,2004年底,Google正式推出了数字图书馆计划。

2.3 资金

MBP拥有来自多方面的资金和帮助。具体说来, 美国国家科学基金会为其提供了购买设备(如扫描仪、计算机、服务器和相关软件)的资金,中国和印度提供从事扫描、标引工作的人力——大约每年各2000人,共5年时间。部分公司和基金也会提供支持。印度MBP的语言转化研究项目还能从印度科学院获得额外的资金支持;在中国也可获得教育部的大额投资;中国教育部、中国科学院和印度科学院提供了人员和设备参与到合作研究项目当中[8]。

Google数字图书馆计划的费用则全部由Google公司承担。藏书在扫描完成之后会被运送回图书馆,图书馆还能免费获得一份该图书的电子版。尽管Google高层未对Google数字图书馆计划所采用的技术及潜在费用发表评论,但有分析师认为,每本书的数字化成本将为10美元左右。预计将有共1500万种书籍和文件上网,总共需要10年时间,成本总计1.5亿美元。那么,Google的实力究竟如何,能够维持项目的长期运行吗?Google 2004年的年报显示,它在2002年和2003年的净收入保持在1亿美元,2004年增长了近3倍,达到3.99亿美元。2004年8月,Google在纳斯达克首次公开招股,股票发行价为85美元,而纳斯达克的数据表明,截至2005年7月19日收盘时,Google股价已飙升至309.9美元,市值早已突破800亿美元,超过了全球第一大娱乐公司时代华纳的748亿美元。Google2005年上半年获得了260亿美元的收入,纯利润为7.12亿美元。独立调查公司Conscius Capital Partners分析师Kona Shio认为,以银行存款19亿美元的实力,这项计划对于Google来说简直是九牛一毛。

2.4 资源采集和数字化

MBP的资源主要来自大学图书馆、大学出版社和学术团体的藏书,一部分来自联合国食品和农业组织。项目组积极争取从大学、出版社或学者那里获得版权许可,现已有4.5万种技术报告完成了数字化,正在将美国国家科学院出版社(National Academy Press)近3500种1994年后出版的书籍数字化。据统计,项目的平均扫描速度为每秒钟1页,每天2万页。如果按1年200个工作日计算,那么1年可扫描400万页,约合1.3万余种书,预计2005年完成该项目[9]。

Google数字图书馆计划的资源同样来源于图书馆和出版商。Google与5所世界顶尖级图书馆合作,获得了不同程度的书籍数字化权限(见表1)。另外,Google Scholar与计算机器协会(the Association for Computing Machinery)、国际电工与电子工程师协会(IEEE)和OCLC开放性WorldCat图书馆定位服务(OCLC's Open WorldCat Library Locator Service)等出版机构也建立了合作关系。Google还收录了Open Archives Initiative中OAIster所包含的上百万篇论文,并提供CrossRef(一个提从参考引文链接服务的图书馆出版商合作组织,它尝试将元数据公布给搜索引擎。9个CrossRef成员单位参与了CrossRef Search项目,与Google联合推出检索服务。用户通过Google可以查询这些出版社的200多万篇学术文章的文摘)的链接服务[10]。

Google计划在10年的时间里,将1500万册书籍数字化并上网。现在,Google的书籍扫描速度平均为2.25本/分钟,按照每本书300页计算,也就是每秒钟扫描12.25页,这个速度超出了MBP,但由于项目的开展远远晚于MBP,因此要等到2010年以后才能完成对所有图书的数字化。

表1 各图书馆对Google数字图书馆计划的开放度对比

图书馆名称

文献数量 限制条款描述

哈佛大学图书馆

允许对4万册图书进行数字化,其

他馆藏待定.

斯坦福大学图书馆 允许对其所有的800万册图书进包括绝版的牛顿所著《基本原

行数字化.理》.

牛津大学图书馆

只允许对1900年以前出版的100

包括绝世珍宝、达尔文所著的

万册图书进行数字化. 1871年版的《人类起源》.

密歇根大学图书馆 允许对其所有的700万册图书进

行数字化.

纽约公共图书馆 只允许对不受版权保护的珍本学

术资源进行扫描,包括易碎的珍贵

馆藏.

2.5 可用性

MBP的最终目的,是让所有人在任何时间、任何地点都能获取多种形式的信息资源,即提供利用。那么,我们来考察一下MBP是否真的方便利用。在网络档案项目主页(http://www.archive.org/)上有一个检索菜单,任何网络用户都可以选择检索不同形式和内容的文本、动画、声频、软件、论坛资源。文本检索项目之下包含百万册图书计划,用户可以通过关键词,也可以通过浏览题名、主题词、语言或者扫描中心的方式进行查找,可以说,检索途径实现了多样化,而且能涵盖不同载体形式。但其关键词检索速度较慢,可获取的资源也十分有限,检索结果中经常有死链接出现。

Google数字图书馆计划拥有超大型索引库,所有数字化资源都将存储于斯。世界各地的用户,只要能够联网,就可以通过Google存取索引库中的部分信息。其方便、快捷、开放的搜索服务,是其他信息查询方式难以望其项背的,这也是Google在世界搜索引擎行业迅速崛起,受到普遍欢迎的最重要的原因之一[11]。

2.6 总体效果(期望)

MBP的工作主要是保存和提供图书馆的电子化文献资源,为正规教育体系提供补充。这是人类历史上的一个创举,它第一次将世界上所有重要的科学和艺术作品数字化,并且提供免费存取。因此,MBP在教育科研和文化遗产保存等方面的价值是不可估量的。

Google数字图书馆计划在宣布伊始,就得到了极为广泛的关注,不少人对其做出了积极的评价。斯坦福大学图书馆馆长米切尔·凯利认为,未来20年内,世界上绝大多数知识必将被数字化,信息的公开、自由存取是大势所趋。纽约城市大学研究生中心的人文学院院长大卫·纳索表示,通过关键词来搜索书籍以及研究文献,不仅可以缩短学术研究成果传播的时间、减少传播过程中所花费的金钱,同时能够拓宽科学家们的研究视野。牛津大学图书馆服务负责人罗纳德·米尔恩更是不吝赞美之词,认为Google数字图书馆计划的重要性几乎能与印刷术的发明相提并论[12]。

2.7 相关科研项目和质量控制

2.7.1 相关科研项目MBP的一个重要任务是为信息技术研究提供试验平台。它所支持的研究领域包括机器翻译、大规模分布式数据库、存储格式、数字图书馆应用、分布与保存、安全性、搜索引擎、图片处理、光学字符识别(OCR)、语言处理和版权法等。下面集中谈谈四个重点研究领域的情况。

● 信息存储和管理。MBP完成时将制造出大约2.5亿页,即5000亿的字符信息。图片的存储将近似于50petabytes。建立和管理这样大的信息库会带来许多技术难题,也为相关领域的研究提供了肥沃的试验田。MBP要求保证遍布世界的分布式数据库的安全性和可存取性,在网络速度不同的情况下,保证数据库的外观和使用感受在任何一个地点都是相同的,这一科研项目就可以通过MBP实现。

● 搜索引擎。现今,搜索引擎算法一般是基于关键词匹配原则,而且一次只能用一种语言。MBP提供了一个超大规模的多语言数据库,能够保证基于概念和内容的知识检索。

● OCR库。OCR的主要作用是能够帮助实现全文标引和搜索。它只用于创建可搜索的索引而不会直接向用户公布。在字符识别成功率已经提升到98%的情况下,用户就能够更容易地检索到相关页面。

● 元数据。数字图书馆联盟(Digital Library Federation)制定的标准和元数据将应用于整个项目。卡内基梅隆大学图书馆开发出了应用Z39.50协议标准的软件,以从书目记录域中搜寻和检索相关的元数据。当前的研究项目之一是建立为“文档结构自动发现”的软件,避免低效的手工输入。数字图书馆联盟的元数据收割项目结果也将应用于研究之中,使MBP Book Collection将来能被Google标引,并通过OAI协议收割内容[13]。

Google为了避免将情报泄露给竞争对手,极少公布其技术和在研项目。但Google声称Google数字图书馆计划所采用的扫描技术是其独创的,能够减小扫描过程中对书籍造成的损伤。当前,Google的数据库和服务器主要安置在美国加州总部,全球分布式数据库还未建立。

2.7.2 质量控制质量控制方面,MBP数字化所依据的标准都是经数字图书馆联盟认可的,数字化图片(包括所有类型的页面在内)必须保证98%的准确率。用户报告丢失页面的工作流程也必须设计出来。而Google并未向外界过多宣传其质量控制情况,只是在用户使用时,发现问题可以与Google客服部门联系。

3 存在的问题

3.1 MBP的隐忧

3.1.1 可行性 MBP是一个高校发起的纯公益性项目,虽然联合了多家组织共同努力,但要实现全球范围内信息普遍存取这一近乎理想的目标,力量仍显单薄。笔者认为,既然最终要实现普遍存取,就要让各类型组织普遍参与才有可能达成,而不能仅仅限于政府、部分高校和科研机构。另外,MBP的资金是靠政府划拨或组织捐赠的,没有自己稳定的现金流,不能保证项目长期有效地运行。

3.1.2 保存问题 上文提到,MBP完成时将制造出大约2.5亿页字符信息。这些信息的存取要靠一定的载体才能实现,成本较高。同时,全球分布式数据库的安全性和可存取性需要更为完善的技术解决方案。因此,保存问题实际上仍是资金和技术力量的问题。

3.1.3 内容的聚合 即文献资源的搜集问题。MBP的数字化信息主要来源于出版商和图书馆等机构,获取出版商的版权许可是一个很大的挑战,书籍的主题和出版年方面会有严格的限定。另外,也要与分布在各地的各类型图书馆联系,获得许可才能开始工作。

3.1.4 有效性 使用MBP并不方便,获取的资源也非常有限。MBP的对外宣传做得不够,多数潜在用户还不清楚他们可以通过MBP获取如此丰富的资源。这使MBP的使用效果大打折扣[14]。

3.2 Google的缺陷

3.2.1 版权 Google对外宣称将严格遵守版权法,却没有明确规定对版权图书的处理原则。由于这一数字化项目规模庞大,涉及多方合作者,难免会牵扯到众多出版商的利益。2005年,ALPSP(知识界及专业学术出版社协会的简称,代表了全球30多家非盈利出版社,其中包括一部分大学出版社)声明,Google在没有咨询各出版社的情况下,“私自”出版其图书产品的数字化版本,显然违反了版权法律。ALPSP要求Google立即停止正在进行中的数字化工作。Google在对图书做数字化之前必须首先征得出版社同意,并签署相应的版权协议。美国大学出版社协会(Association of American University Presses,由125家出版社组成的行业团体)于2005年5月特意致函Google,警告Google此举从根本上严重违反了《版权法》(Copyright Act)。6月20日,兰登书屋、美国大学出版社协会、John Wiley & Sons等出版商向Google集体发难,联名指责Google的计划可能会严重侵犯版权。

面对困境,Google已经成立了一个专门小组致力于解决版权问题。在这方面,Google应参照MBP的经验。MBP曾遇到过相同的问题,但通过长期耐心的工作加上一定的处理技巧(即只要求特定书籍的版权许可,注意不损害出版商的利益),MBP得到了越来越多的大学出版社和研究团体的图书全文数字化许可:Texas大学出版社、Brookings Institution、the American Meteorological Society、American Institute of Biological Sciences和Rand McNally已经允许将其脱版的图书数字化,National Academy Press允许将其1995年之前出版的所有图书数字化[15]。

3.2.2 文化冲突 Google在短短几年内迅速崛起,已成为美国信息文化新的代表。现在,Google不仅是一种搜索行为,更潜移默化地影响着每个用户的价值观念。Google推出图书数字化计划后,世界一些国家表示要坚决抵制。欧洲学术界及政界人士已经提议一项替代性方案,即“欧洲数字图书馆”计划,对抗Google的数字图书馆计划。

3.2.3 如何盈利 如果这项计划顺利实施,Google肯定是最大的赢家,但这需要较长的盈利周期。Google公司国际媒体部经理弗罗斯特坦称:“我们到现在为止还没有找到这项计划的赢利办法。我们可能会借鉴Google Print的做法,当用户寻找一本书或从别的地方浏览到这本书的时候,我们会在介绍本书的网页下侧登一则相关的广告,或把用户带到出版商的网站上去,便于寻找更多的资料。这两种办法我们还在考虑之中”[16]。

3.2.4 其他问题 Google数字图书馆计划缺乏与其他数字化项目的合作。 一般的数字化工作首先要查重,看某一本书有没有数字化记录。MBP就是如此,它会及时下载并使用OCLC在线目录中的元数据记录查重。OCLC还正在帮助MBP开发一个防止图书数字化中出现复本的电子注册系统。MBP会获得OCLC提供的永久档案,并通过WorldCat得到更大的图书存取权限。Google Print却缺少查重这一步骤,它也尚未得到OCLC或者其他信息组织的数据支持。因此,其数字化工作的科学性和质量就会大打折扣。Google数字图书馆计划还存在其他问题,比如隐私权和商业歧视等,这里不再一一说明。

标签:;  ;  ;  

百万图书计划与Google数字图书馆的比较研究_数字图书馆论文
下载Doc文档

猜你喜欢