国外图书馆数字馆藏众包建设实践调查与分析_图书馆论文

国外图书馆数字馆藏众包建设实践调查与分析，本文主要内容关键词为：图书馆论文,国外论文,数字论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

修回日期：2014-11-20 本文起止页码：83-90 [分类号]G250

DOI：10.13266/j.issn.0252-3116.2014.23.012

众包指的是一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法[1]。作为一种应用领域广阔的创新型商业理念，众包的核心思想实际上就是“集思广益”，是利用群体的智慧和力量完成个人或机构无法或难以完成的任务。众包产生于2006年，其一经提出就迅速得到了各个领域的普遍关注，近年来付诸实施的相关应用项目越来越多，单维基百科一个网站上登记的众包项目[2]就从2010年1月的35个增长到2013年3月的158个，2014年10月底登记项目已有238个[3]。国外很多图书馆也纷纷在数字馆藏建设中引入众包理念，在公众帮助下完成或正在完成很多本机构无法完成的任务和工作，取得了良好效果。截至2014年10月底，维基百科“crowdsourcing”词条下[3]列出的与图书馆相关的项目已有15个，未曾列出的仍有很多。国内基本上还处于理论研究阶段，相关研究[4-6]虽已涉及国外的一些实践案例，但基本上只有“美国纽约公共图书馆菜单数据库众包应用”等4个，尚缺乏对国外实践较为系统的调查和分析，因此也未引起国内图书馆数字馆藏实践工作者的足够重视，目前也尚无相关成功实践见诸报道。笔者在维基百科列出的15个项目基础上，跟踪调研国外近3年内相关会议PPT、研究论文以及网络博客中提及的项目并进行分析，以揭示众包成功的规律，力求为国内图书馆开展相关实践提供一定的借鉴。

1 国外图书馆数字馆藏众包建设实践

众包在图书馆数字馆藏建设中有非常广泛的应用前景，比如让公众挑选馆藏书目中的错误、评估馆藏信息和记录的可靠性、为馆藏记录增补信息、为馆藏增加用户创建的原生内容、制作电子书、校对馆藏数字全文文本、手写记录的转录等，其中最有必要的就是让公众来描述那些因为图书馆无力编目或描述而无法检索利用的资源[7]。近年来，也有越来越多的国外图书馆正在将众包的理念应用于图书馆数字馆藏建设实践中，归纳起来，最主要有三大类实践：数字馆藏的征集与整理、数字化资源OCR(Optical Character Recognition，光学字符识别)错误纠正、数字资源组织描述，以下依次进行讨论。

1.1 数字馆藏的征集与整理

数字馆藏建设中，特色数字资源的征集、整理经常需要耗费相当多的人力、物力和时间精力，对于部分特色数字资源，图书馆甚至不知道向何处去征集，这些都是催生数字馆藏建设中众包模式应用的关键因素，数字馆藏整理过程中也因此出现了大量的众包实践。

基于众包的数字馆藏征集就是通过一定途径(一般是网络平台)向不特定的公众发出馆藏征集的需求，公众根据需要提供数字化的特定资源或非数字化资源，由图书馆数字化后加入到数字馆藏建设集合中，国外此类实践很多。大英图书馆联合牛津大学等机构参与建设的“欧洲1914-1918”数字馆藏建设项目就是其典型代表，该项目征集公众原来没有出版过的与战争相关的信件、照片、纪念品、人工制品、文件，最终数字化后在网上提供共享。项目允许公众自己数字化后提交，也允许提交非数字化版本，由项目组负责数字化[8]。丹麦哥本哈根建筑设计保护与表演艺术图书馆在Arkitekturbilleder.dk现代丹麦建筑归档馆藏建设项目中采用众包方式，让分散于各地的公众协助拍摄高质量的各地现代丹麦建筑照片，提供给图书馆建库使用[9]。新西兰豪罗芬努阿图书馆在构建一个名为Kete Horowhenua的数字资源共享知识库时，以众包的方式向公众征集有关豪罗芬努阿地区的图片、音频记录、视频记录、文档、网络资源等[10]。此征集类的案例还有很多，这里不再枚举，但除这些资源类征集外，还有一类线索征集也需要注意，比如英国伦敦政治经济学院图书馆在构建社会学名家查尔斯·布斯的在线归档特色数据库时，需要了解他当年在伦敦进行各种调查时的街道等地理位置如今是否存在的相关线索，也是通过众包用户参与的方式完成的[11]。

在图书馆的数字馆藏建设过程中，馆藏的征集和数字化只是第一步，尤其是对于那些只扫描为图片的数字资源而言，其距离便于利用还有很多工作要做，比如要将这些图片上的文字识别出来以便于全文检索，对图片内容进行二次组织以便形成所需要的文献单元等，这就是数字馆藏整理的重要内容。文字识别方法有很多种，其中使用最多的就是OCR识别，由于国外有大量的实践，下面单独讨论；另一种就是对照图片直接录入文字，国外也有较多的相关实践，英国伦敦大学学院2010年9月开始的边沁手稿录入项目就是其典型代表——该项目在专门设计的录入网站上发布已拍摄为图片的哲学家杰里米·边沁未发表的约6万页的手稿，公众通过浏览边沁手稿的图片，完成人工录入[12]。美国杨百翰大学等共同建立的Family Search也是类似的众包项目，该项目需要完成的是来自于全球110个国家和地区的240万张缩微历史文献图片，公众要在自己的计算机上安装工作需要的软件，然后从其网站上下载图片并将图片上显示的内容录入到软件中，再提交回该网站。全球有数十万公众参与了该项目，截止至2014年7月底，已经完成了近12亿的数据记录[13]。类似的项目还有英国牛津大学Bodleian图书馆2012年5月启动的乐谱信息录入项目[14]、美国爱荷华大学“DIY History”项目中以众包方式录入美国内战日记和包括馆藏手写菜谱在内的特藏文献[15]、美国路易斯维尔大学“Louiseville Leader”数字报纸项目中以众包方式录入报纸数字化后图片中包含的文本内容[16]、纽约公共图书馆数字菜单数据库建设中由众包用户录入菜单图片中的菜单名称[4]等。国外图书馆实践中也出现了以众包方式对数字内容进行二次组织的案例，国际生物多样性历史文献数字图书馆(Biodiversity Heritage Library)就是其典型代表，该馆采用众包方式邀请公众从在线数字图书(多为会议论文集)中抽取其中的某一篇文章制作独立的在线文献单元、标注简单元数据再上传，从而满足读者对数字化图书中单篇文章的需求，2010年1月-2011年4月间，有大约6万篇论文被从数字化图书中抽取出来，40%以上的被标记了相关元数据[17]。

1.2 数字化资源OCR识别错误纠正

数字馆藏建设过程中，大量的非数字类资源通过数字扫描或数字拍照的方式转换为数字图像。这些数字图像中的文本型数字图片则需要借助于OCR技术转化为文本型内容，才可以实现全文索引、检索、复制等操作，以更好地提供服务。但是由于馆藏语种复杂多样，涵盖的时间比较长，涉及的字体非常复杂(如果数字化版本是手写体，则更为复杂)，给这些资源的OCR识别带来了极大的困难，产生了大量的识别错误，数字化资源正确的OCR识别已成为数字馆藏建设中急需面对的挑战[18]。OCR识别错误的纠正只能通过人工的方式实现，但相当多的图书馆却没有足够的人力、精力和物力进行这方面的工作，于是很多图书馆在这项工作中引入了众包的理念，使其成为众包在图书馆数字馆藏建设中应用最多的领域。由于时间跨度比较久远、出版发行量巨大、内容字体字号复杂多样等原因，当前数字报纸OCR识别需要纠错的内容最多(相关研究表明[19]，20世纪早期出版的报纸OCR字符识别的准确率为68%)，再加上报纸文章篇幅大多较短小、内容大多通俗易懂，涉及的历史事件和内容对大众有很强的吸引力，当前数字馆藏OCR识别纠错的众包应用中又以数字报纸项目作为重点，有大量实践[20-22]涌现，包括澳大利亚国家图书馆、芬兰国家图书馆、大英图书馆、越南国家图书馆、美国田纳西州立大学图书馆、美国加州大学图书馆、美国弗吉尼亚公共图书馆的数字报纸项目等。

数字报纸项目最为典型的是澳大利亚国家图书馆数字报纸项目[23]，该项目应用众包进行OCR识别内容纠错开始于2008年8月，Wiki项目介绍[3]称其是世界范围内第一个大规模应用众包理念的图书馆类项目。澳大利亚国家图书馆利用此项目，将其经过选择的1803-1954年间没有版权的历史报纸进行了数字化，并经过OCR识别之后为用户提供全文检索。面对无法估量的OCR识别错误，项目引入众包理念，借助于专门的数字资源呈现系统，请公众对OCR识别内容进行校对、对资源进行评论和增加标签[24]。项目建立了用户BBS论坛以用于众包用户的交流，设置了众包用户贡献度排名、采用了类Wiki的方式来允许不同用户对同一内容进行核对性多次校正等，既鼓励了公众参与，也在一定程度上保证了纠错工作的质量。经过几年的努力，项目已取得非常理想的效果，相关数据表明[25]：截至2014年10月底，已有142 226人注册参加纠错工作，超过1 429万篇报纸文章被正确校对，2014年1-10月每月活跃用户基本上都在8 000人以上，2014年前10个月每月的纠错量都超过250万行。澳大利亚国家图书馆数字报纸项目的负责人R.Holley博士通过发表文章和到世界各地作报告的形式宣传其项目众包应用经验，极大地推动了国外图书馆数字馆藏建设中对众包的应用，之后有大量的数字报纸项目都采用了众包方式开展相关工作。美国Veridian[TM]公司还据此专门研发了Veridian数字图书馆呈现系统[26]，用于OCR识别内容的纠错、评论和增加标签工作，弗吉尼亚公共图书馆、加州大学图书馆、剑桥图书馆、越南国家图书馆的数字报纸的OCR识别纠错项目都利用了该系统。

芬兰国家图书馆的数字报纸项目是另一个值得关注的典型案例。不同于上述实践案例，为了鼓励公众参与，项目组专门请公司设计了游戏系统，公众要么尽可能快地将OCR待识别内容和正确内容建立关联，要么尽可能快地拼写出OCR待识别内容的正确内容，在玩游戏过程中，完成OCR内容的校对工作[27]。游戏系统增加了校对工作的趣味性，短期内就吸引了大量公众注册参与，该项目开始于2011年2月，截至2012年10月，注册用户有109 321人，共完成了8 024 530个纠错微任务[20]，项目取得了非常良好的效果。

当然，也有一些非数字报纸的项目[21]，比如美国爱荷华大学图书馆的“美国内战数字日记”项目、俄罗斯数字期刊项目、英国伦敦大学学院图书馆对英国哲学家杰里米边沁(J.Bentham)历史馆藏的OCR识别的整理等，其OCR识别错误的校对和数字报纸并无太多区别，这里不再赘述。需要特别说明的是，还有一种基于众包的数字馆藏OCR识别错误校对工作，有可能是在公众完全不知晓的情况下协助其完成：美国卡内基梅隆大学研发了一款名为ReCAPTCHA的校验码软件[28]，其功能和其他校验码软件相同，都是用于网站防止垃圾注册和评论等，但需要识别的验证码内容却是该校数字报纸等数字馆藏中OCR无法准确识别的内容的扫描图，这些网站的用户在正确识别出这些扫描图中的文字之后，其答案会被传回卡内基梅隆大学，用于数字资源项目OCR识别错误的纠正。

1.3 数字资源组织描述

馆藏资源组织描述是馆藏利用的前提，丰富多样的资源描述将为用户提供多角度的利用渠道。馆藏资源组织描述长期以来也一直是图书馆“最为专业”的工作之一，图书馆员利用分类编目和主题标引等方法对馆藏资源进行组织，但是坦率地讲，这些印本时代“功勋卓著”的方法在数量增长速度飞快和用户利用需求多样化的数字馆藏建设中变得有些“力不从心”，于是众包被引入到数字资源组织描述工作中，具体包括数字资源描述元数据方案的制订、数字资源基本编目类组织描述、标签类组织描述。

图书馆数字资源描述元数据方案的制订最初都是业内相关专家完成的，现已有通过用户众包方式投票决定具体元数据方案组成的案例，其典型代表就是新加坡南洋技术大学图书馆[29]。该馆在构建中国旗袍特色数据库时，先将DC、VRA Core中的元数据要素和其他标准中描述艺术品的元数据要素组成“元数据池”，让用户挑选出对于其利用最重要和最不重要的元数据要素，依用户投票数排序，选出用户认为最为有用的要素组成描述旗袍的元数据方案。数字资源基本编目类组织描述是指将描述数字资源的基本信息，比如图书题名、作者、出版社、出版时间等信息通过用户众包的方式完成。Library Thing、Biblios.net和Open Library等目录数据库都是依靠用户参与标注完成的，正是得益于用户参与，这些目录数据库(包含数字资源)编目数据量的增长速度非常快，Open Library在2007年11月-2011年初，目录库中的数据已经近2 000万条[30]。美国普林斯顿大学在构建钱币数据库时，用户在上传自己钱币照片的同时，需要输入钱币出现的年代、地区、货币材质等基本信息，完成数字资源的基本编目组织[31]。

用户根据自己的理解，用加标签的方式对数字资源进行组织，则是众包数字资源描述中最为流行的方式。Web 2.0技术和理念在图书馆界的应用与发展将用户标签、评论、评级等功能拓展到图书馆OPAC中，相当多的图书馆都已经支持用户对OPAC能够揭示的资源增加标签、评论、评级。除OPAC平台外，国外图书馆数字馆藏平台建设实践中也大量采用了这种方式，相关资源以照片和图片类资源为主。概括起来，代表性的实践主要有3类：①用户在对数字资源OCR错误识别过程中也为相应资源增加标签和评论，以前文提及的数字报纸类项目实践最为典型。前文提及的澳大利亚国家图书馆、大英图书馆的数字报纸项目的数字报纸OCR错误识别平台都具有该功能，Veridian数字图书馆呈现系统[26]也专门提供这方面的功能，而且达到了比较满意的效果。比如澳大利亚国家图书馆的数字报纸项目从2010年10月至今每月用户提供的标签量都在4万-7万之间[25]。②图书馆利用第三方社交网站吸引和接纳用户对馆藏数字资源的tag标注，并通过tag组织使这些资源能够被检索和利用。澳大利亚国家图书馆2006年就通过“Picture Australia”项目将馆藏图片发布到Flickr接受公众的tag标注和评论[32]。美国国会图书馆2008年1月份就开始与Flickr合作，将本馆4 615幅无版权的照片发布在Flickr上，让公众对这些历史照片进行标注和评论，然后通过Flickr的API将这些标注和评论数据下载导入到本地系统中[33]。此后，该馆将馆藏的部分新闻图片、照片放在Flickr上接受公众的标签标记和评论[34]，目前正在接受标签标记的是B.Norton等人拍摄的照片资源[35]。大英图书馆2013年12月将上百万馆藏照片上传到Flickr，接受公众对于照片的标签标记以便于知道这些照片都包含什么内容[36]，图书馆资源只有经过标引组织以后才能为公众所查看和使用的传统做法正在发生改变。当然，这里平台并不只是Flickr，澳大利亚昆士兰州立图书馆2010年就将馆藏特藏照片放在澳大利亚维基百科上，让公众打标签和描述[37]。③图书馆借助游戏吸引用户对馆藏资源进行标签标记。公众在玩游戏过程中，需要用自己的语言描述场景图片、影片、音频、图书、手工品的内容，这些描述语言就成为揭示具体内容的标签标记，通过对标签的组织最终实现这些资源更加深入的内容的揭示和利用。相关的典型案例有很多，比如：荷兰声音与视觉研究院的Waisda项目2009年推出了一款游戏，公众在影音播放过程中记录下影音内容(标签)，获得游戏积分和突破关卡，从而吸引和激励用户为存档的电影增加描述性信息，便于实现基于内容的检索和利用[38]。丹麦国家图书馆的GeF项目中的“照片馆藏2010”也是通过游戏方式获得用户标注的标签，只用了一个星期的时间，2 000余副照片就获得20 000余个标签，实现了预期目标[32]。大英图书馆与美国达特茅斯学院的Tiltfactor游戏研究中心合作，于2014年6月推出了“Ships Tag”、“Book Tag”、“Portrait Tag”3款分别针对其馆藏中的船只照片、图书、肖像添加标签的游戏[39]。英国爱登堡图书馆也于2014年8月开始利用游戏邀请用户描述其照片馆藏[40]。

2 国外图书馆数字馆藏众包建设实践特征及成功经验分析

2.1 实践特征

上文围绕目前数字馆藏建设中众包应用最多的3个方面，简单勾勒了国外图书馆数字馆藏众包建设的基本现状，囿于文章篇幅，也还有很多相关的众包项目未列出。但综合分析这些实践，仍可发现众包应用的一些共同特征：

2.1.1 基本上都是围绕特色馆藏建设进行，且选择的资源大多都无版权问题不管是OCR识别纠错、资源图片内容录入、还是资源组织，要想让公众用户参与，就需要将全文免费、无条件开放给公众，这就要求这类资源应该是获得授权或者无版权的资源，这样的资源在购买的商业数据库中是不太可能存在的，而且商业数字资源的错误识别、内容录入等工作由公司来完成，不需要图书馆考虑。因此，众包应用都是围绕特色馆藏建设进行的，而且在各馆引进数字资源同质化情况加剧的情况下，特色馆藏建设已经成为各馆建设的重点，围绕特色馆藏进行此类工作也就不足为奇了。即使是对于特色馆藏，各个项目也大都选择的是处于公共领域的资源，或者直接从作者或提供者手中获得的“合法”、无版权纠纷的资源。

2.1.2 工作量巨大或无法预期，单靠图书馆力量无力按时顺利完成从目前实践来看，应用众包的数字馆藏建设项目中需要处理的数据内容数量都非常巨大，前文已经提及的大英图书馆需要处理的图片有上百万张[36]，牛津大学Bodleian图书馆的纸质乐谱收藏品达到50多万件，这些数据处理工作凭有限馆员在有限时间内根本就无法完成。这一点从成功应用众包模式的项目所完成的工作量也可以看出，如澳大利亚国家图书馆数字报纸项目在2.5年内修改了3 200万行错误，芬兰国家图书馆的数字报纸项目一年内完成了800多万的微任务[24]。如果这些工作由专业的团队通过外包的方式完成，则需要大量经费，同时完成这些工作时间周期也很长。还有一类是工作量无法预期，比如纽约图书馆的“菜单项目”在建设初期对于总共有多少菜单、能收集多少菜单，在数据上无法清楚地把握。还有一类就是图书馆无力完成的工作，比如在资源的遴选过程中，图书馆员无相关的知识储备，需要具有专业知识的公众用户协助完成，如俄亥俄州大学图书馆的Biz商业维基资源库[41]；或者资源需要从用户角度，以标签形式去标注组织，图书馆不能越俎代庖。

2.1.3 工作任务简单，单个任务耗时短，无需培训或只需简单自培训既然众包是面向不特定公众的，因此不太可能进行细致的工作培训，最多就是通过简单的说明来进行自培训。这就要求分配给公众参与的任务不能太复杂，且完成每个单一任务所需要的时间不宜过长，不同任务之间前后关联性不强，公众可随时参与和退出，这些任务都具有“微任务”性质。从澳大利亚国家图书馆数字报纸等项目中的OCR错误识别、边沁手稿等项目中的内容录入，再到为各类图片或其他类型数字馆藏增加标签标识，都体现了这个特点。

2.1.4 馆藏资源涉及的内容多为非纯学术类，但内容对公众来讲有益或有趣前文已经提及大量的数字报纸项目使用众包方式是因为报纸的具体内容大多通俗易懂，涉及的历史事件和内容对大众有很强的吸引力，大众参与在义务帮助图书馆的同时，也了解了大量自己感兴趣或者有用的内容。再比如，英国牛津大学Bodleian图书馆的乐谱信息录入项目，是为19世纪维多利亚时期的钢琴乐谱标引信息，这些音乐资料当时主要适用于家庭娱乐。纽约公共图书馆的菜单录入项目，则实际上提供了一个专门的美食家社区，纽约历史爱好者、厨师，作为志愿者贡献了他们的时间和精力，帮助翻译菜名和价格，使得这些资源被更方便地提供给他人使用[42]。

2.2 成功经验

2.2.1 选择合适的馆藏资源从上述相关实践可以看出，具有无版权、工作任务简单、单个任务耗时短、内容有趣、数据量极大等特点的馆藏资源更适合应用众包。向社会公众发布的用于众包的资源，大多不在“合理使用”的范畴之内，版权问题是众包不能触及的法律红线，否则由于涉及的资源量巨大而可能造成麻烦无穷；工作简单、内容非学术性和有趣是一个众包任务成功的前提，数据复杂、内容枯燥将很难找到有兴趣的参与者，极有可能造成众包项目的夭折，而且复杂的任务如果无法进行细致的培训，工作质量也很难保障；工作量巨大也是一个必要条件，除个别小型的“试水”项目和诸如让用户从自身角度进行标引的项目外，数据量很小的资源没有必要进行众包，图书馆员在可操控的时间范围内就可以完成，没有必要为此耗人力建平台、做宣传、准备资源、核对质量、思考激励机制等，后者所耗费的时间资源成本要比完成小数量资源更大。当然，这里需要说的是，众包涉及的资源应该是必须由人工干预才能完成的资源，如果该项工作机器可以自动完成，就完全没有必要采用众包，这也正是众包优势之所在。

2.2.2 选择合适的众包项目平台从现有实践调研来看，数字馆藏众包项目的成功实施需要强有力的网络技术平台支持。这里的网络技术平台主要实现的功能有项目宣传(含前期招募宣传和后期进展宣传)、公众招募、项目发布和管理(馆藏上传和公众任务操作、质量控制)，大型项目还要为公众交流和公众激励提供支持。这些功能可以在一个平台上全部实现，也可以根据需要在不同平台上分别实现。项目宣传和公众招募一定要选择合适的平台，有合适的平台，才会找到合适的业余爱好者，才能够吸引到众多的参与者加入其中，众包项目才能够得以完成，这就需要根据众包项目的具体内容选择合适的平台。前文提及的丹麦哥本哈根建筑设计保护与表演艺术图书馆的现代丹麦建筑归档馆藏建设项目因为需要寻找拍摄建筑照片的高手，就选择了在有建筑学背景摄影者活跃的论坛张贴广告和宣传[13]。美国国会图书馆、澳大利亚国家图书馆、大英图书馆将大量的图片类资源放在Flickr这样的第三方社交平台上去接受公众的标签标注，就是基于Flickr上广大的公众群。截至2014年2月初，Flickr在全球63个国家已有9 200万的用户，每天有200万的用户分享100万的照片[43]，在这样的网站平台上投放图片，能更方便地找到对相关图片资源感兴趣的人。也正因为此，美国国会图书馆的4 615幅照片在其发布24小时之后，就产生了4 000多个不同标签和500多条评论[33]。除了第三方平台，国外实践中也出现了很多独立的众包平台，比如前文提及的被众多图书馆采用、可实现用户OCR纠错和增加标签与评论的Veridian数字图书馆呈现系统、美国西南大学图书馆在Zenas Matthews墨西哥日记项目[44]中人工录入照片文本内容时采用的免费软件FromThePage[45]等。好的平台还应该能供众包用户之间进行交流，支持诸如“工作量排行榜”等激励措施和质量控制的功能，这些在前文提及的澳大利亚国家图书馆数字报纸项目中已得到充分体现。

2.2.3 使用合适的激励机制 R.Holley在总结澳大利亚国家图书馆数字报纸项目成功经验的基础上提出了图书馆成功实施众包的六大原则[46]，“给众包参与者必要的激励”就是其中之一。Web 2.0时代，让网络背后的陌生面孔参与到图书馆的资源建设中来，完善的激励机制和切实可行的激励措施是必不可少的[47]，这就需要了解Web 2.0环境下的用户参与动机。相关研究表明，用户参与的动机主要有求知、互惠、交往、兴趣、胜任性心理满足和实用价值等多种[48]，众包实践用户的回馈反映出的参与动机则主要体现在兴趣、利他、学习、回馈社会、胜任性挑战等方面[24]。激励机制要做的是针对不同的动机，利用合适的方法激发用户参与和持续参与的积极性，并引导用户以正确的方式实现预想的动机。目前，用户参与的激励机制主要有物质激励、积分制和排行榜公示等。物质和金钱激励是一种短期内广泛聚集人气的方法，但图书馆是非营利机构，长期的物质激励方式显然不可能实现。因此，众包项目的内容或形式首先要“有趣”，满足公众某种兴趣非常重要。虚拟积分以及相应级别的升降，可以激发用户一定程度的兴趣和积极性，前文提及的边沁手稿录入项目[13]采用积分制就获得了非常好的激励效果。虚拟积分可以鼓励用户贡献内容和核查内容，有利于用户参与，有助于形成和扩大用户群体[49]。国外图书馆实践中大都采用了贡献排行榜公示机制，按照马斯诺的需求层次理论[50]，排行榜激发了用户追求自我实现的内在需求，在一定程度上能够起到促使用户之间竞争的作用，这种竞争能推动众包工作取得更多进展，也是一种有效的方式。当然，借助于游戏固有的积分、闯关等激励机制激励众包参与者，也被前文实践证明为非常有效的激励方式。

3 结语

在图书馆数字馆藏建设中应用众包可带来很多好处[24]：①实现图书馆构建某类(种)馆藏的目标，即便该馆没有收藏相关资源；②为资源和服务提升或增加价值；③激励社区对图书馆的认知和参与；④充分利用社区的知识；⑤增加公共对于文化遗产的主人翁意识和责任意识；⑥建立社区的信任和忠诚；⑦凸显图书馆的作用和价值。数字馆藏建设的众包应用还可以大大提高用户对于馆藏的利用和交互率[51]。但是，数字馆藏建设中应用众包毕竟还是一种比较新的模式，国内外图书馆界都有一个逐渐认识的过程，笔者通过调研也发现，近两年国外图书馆界相关项目有增多的趋势，尤其是英国，2013-2014年间就增加了好多比较大型的相关项目。国外图书馆数字馆藏建设中应用众包的实践困难，国内图书馆特色数字馆藏建设中也频频遇到，图书馆大量的数字化成果正在因工作人员数量紧张、无法及时顺利完成组织和整理而长期未能提供给用户使用，目前国内尚未出现众包的相关应用的一个重要原因应该是：国内图书馆，尤其是图书馆实践者和决策者对其运行模式、应用场景、技术平台、保障机制等的了解和认识还不足。学界需要更加深入地研究和更加广泛地宣传，相信国内图书馆在对国外实践的了解愈来愈深入的情况下，在不久的将来也会出现相关的实践尝试。

当然，数字馆藏建设应用众包也会带来系列问题[52]：①资源的版权问题。因为要对不特定的公众开放，开放的资源必须慎重选择，有可能造成侵权。②资源的安全性问题。众包后这些馆藏资源极有可能被拷贝走，有可能被滥用和破坏。③馆藏建设工作的质量控制问题。不同于受过职业培训的馆员，参与众包的公众文化水平及工作能力不一而足，不一定能保证工作质量。除此之外，作为一种建设模式，众包更多地还是要考虑其管理问题，需要有合适的技术平台、到位的公众宣传招募机制、恰当的激励机制等，这些所带来的困难也不容小觑。另外，由于国内经济和社会发展正处于上升期，社会公众本身的工作压力很大，图书馆数字馆藏建设要吸引到公众的参与可能会有更多的压力；国内版权环境也与国外有一定的差距，数字资源众包后版权和资源的安全性问题需要重点考虑。因此，选择在数字馆藏建设中应用众包模式的决策也还需要慎重，需要充分考虑相关的问题和工作难度。令人欣慰的是，国外经过比较长时间的实践，已经摸索出前文提及的一些成功经验，也有一些较为成熟的技术平台，充分借鉴和利用这些成果，可以使国内相关工作开展得更加顺利一些。另外，国内图书馆界还需要对国内其他行业较为成功的众包项目及公众参与动机进行研究分析，以获取更加适合国内情况的成功经验，根据动机调查，有的放矢地设置激励机制，以达到更好的应用效果。

标签：图书馆论文; 众包平台论文; 元数据论文; ocr论文;

国外图书馆数字馆藏众包建设实践调查与分析_图书馆论文

猜你喜欢