数据驱动型数据采集建设的趋势与实例_图书馆论文

数据驱动型数据采集建设的趋势与实例_图书馆论文

数据驱动的馆藏建设趋势及实践案例,本文主要内容关键词为:趋势论文,案例论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      一方面用户的获取需求及对服务和内容的要求不断提升,另一方面图书馆的预算不增反减,这就使图书馆处于一种两难境地。与此同时,用户对图书馆空间期望和需求的改变也迫使图书馆重新考虑大量物理馆藏的处置问题,实现空间重构使图书馆这一两难困境又进一步加剧。这一背景下,利用数据提供有关整个物理和数字馆藏以及空间的洞察力,发现用户变化的需求和期望;利用数据打破图书馆本地局限,了解相似机构的馆藏状况,在国家分布式馆藏管理情景中,重新定位本地馆藏,利用集体智慧辅助本地馆藏管理决策成为新的热点。本文对近年来国外图书馆界数据驱动的馆藏建设实践进行梳理、总结和分析,以为国内拟开展数据驱动实践的机构提供参考。

      1 数据驱动的馆藏资源建设方法与项目

      1.1 数据驱动本地馆藏资源建设的方法

      2010年大学与研究图书馆协会ACRL发布的《未来大学图书馆的十大发展趋势》报告指出“馆藏的增长取决于用户”,即用户驱动,以用为主是图书馆发展的必然选择[1]。不以单个馆为目标追求馆藏量的增长,而应以服务用户为根本,重在建立用户与其所需资源的链接。馆藏建设的任务是响应用户需求变化,让用户持续获取相关资源。近20年来,图书馆开始基于用户的真实需求进行馆藏建设而不是尝试确定用户的需求,所使用的方法主要有以下两种。

      1.1.1 用户决策采购

      用户决策采购(Patron-Driven Acquisition,PDA)是近年来在美国大学图书馆迅速兴起的一种馆藏资源建设模式[2]。它是一种由用户驱动的资源获取方法,与20世纪70年代以来对图书馆的藏书建设最有影响的图书纲目采购计划(approval plan)不同,PDA不是图书馆代表用户购买资源,而是通过用户目录链接的点击或类似行为,让用户触发购买。对图书馆而言,该方法具有提高成本的有效性、增加资源的使用和流通以及促进馆藏平衡发展等优势[3]。

      2010年的一项研究比较分析了伊利诺伊大学厄巴纳-香槟分校和宾夕法尼亚州立大学通过纲目采购计划方法所获取图书的流通情况,结果表明有相当大比例的图书从未离开过书架[4],而在开放书架上长期维护一本图书的成本据称会达到$140/卷[5]。基于PDA方法,图书馆只购买那些用户真正想要的资源。理论上,图书馆不购买任何内容,直到用户点击他们想要阅读的某一本图书的链接。PDA方法不仅保证了资源是基于需求购买的(确保所购买的资源至少使用过一次),有更高的流通率,而且选书人员的主动性和分布的广泛性也有助于促进馆藏的平衡发展[6-7]。

      自巴克内尔大学首先尝试利用读者馆际互借申请信息作为图书馆图书采购依据(即PDA的雏形)后,迄今已有600余家图书馆采用了PDA模式[8]。尽管PDA方法还存在成本、配置文件设置和思想障碍等问题,但基本上证明了读者决策采购是图书馆一种有效的、较好的辅助采购方法。目前,PDA的试点工作已经比较成熟,成为很多学术图书馆和联盟采购工作中的一种标准方法。鉴于这一重大转变,NISO最近推出了一组面向图书的DDA实践建议(NIS02014b)[9]。

      1.1.2 游戏化方式

      “游戏化”是指在非游戏背景中使用游戏设计元素,即游戏相关的概念和技巧,将游戏设计的思想应用于非游戏应用系统中使其更有趣、更有吸引力,并非独立的游戏[10]。国外图书馆已经尝试将游戏化引入图书馆服务,在用户的图书馆服务体验中增加游戏因素,目的在于利用游戏中的积分和等级奖励体系来鼓励用户使用图书馆[11]。

      最著名的例子是英国的图书馆游戏(Library Game)[12],它通过一种基于社交及游戏的学习平台来提高图书馆资源的利用率,目的是借助这些类似游戏的特征鼓励用户积极使用,不断发现新资源。Library Game不仅提供给用户一种新鲜、有用的社交发现界面,也给馆员提供了一种获取用户如何利用图书馆相关数据的新方式。Library Game使用图书馆系统数据,如图书馆的访问数据、借阅图书甚至访问电子资源的数据,借助社交网络的形式,通过积分、徽章等机制,为流通的过程提供一个社会化元素,显示出其他用户正在借阅哪些内容以及不同活动的奖励点,动态展示分值的变化。允许用户评论图书馆的资源,同时将评论内容一并展示在图书馆馆藏目录中,用户可以创建朋友列表,并浏览他们的借阅历史。最重要的是,图书馆可以使用Library Game所提供的这些先前不可能获取的更深层次的数据分析用户的行为和借阅模式,以为其服务和馆藏提供支持。

      此外,也有一些图书馆利用现有的应用系统和服务如SCVNGR(一种游戏平台,侧重于地理位置服务的游戏元素,并通过游戏元素和获得奖励等方式来鼓励用户的参与[13]),作为一种鼓励用户使用图书馆的方式。虽然这样的方式仍旧处于早期发展阶段,但是它们代表着一种吸引用户使用图书馆馆藏和服务的新方式,不仅使用户体验更有趣,更重要的是这些方法创造了一个积极的反馈环路,能够产生更深层次的数据,帮助图书馆持续不断地改进服务、优化馆藏。

      1.2 数据驱动的国家馆藏资源建设项目

      随着技术发展和标准完善,图书馆的馆藏数据得以更好地保存,以更加及时且准确的方式呈现,可获取性不断提升,这为突破本地决策局限,实现区域和国家层面上的决策创造了条件[14]。图书馆投入更多精力在整个联盟、区域或国家层面上考虑馆藏建设,对馆藏进行系统化组织成为新趋势。

      1.2.1 英国研究资源集中保存项目

      研究资源集中保存项目(UK Research Reserve,UKRR)就是通过国际协作方式来应对低利用率印本期刊带来的挑战。它以大英图书馆为依托,开展合作存储活动,以缓解图书馆面临的储存空间紧张、资金不足和资源利用率下降等问题。UKRR的重点在于确保那些安全存储在大英图书馆文献供应中心的基础研究收藏的完整性。为保证可获取性并分担长期保存费用,大英图书馆保存一个副本,成员馆保存另外两个副本[15]。UKRR成功地构建起了参与者之间的一种信任关系,基于此而产生的这些可靠、综合、及时的数据使图书馆在决策时更有信心[16]。

      1.2 美国缅因州的共享馆藏战略

      缅因州8个最大的图书馆和缅因州信息网(Maine InfoNet)通过共享馆藏战略(the Maine Shared Collections Strategy,MSCS)实现该州印本资源的协同管理。它开始尝试解决“专著共享”的挑战,通过发展Print-On-Demand(POD)和E-book-On-Demand(EOD)服务,提供了一种既能发现数字副本需求,服务学生和研究者对印本持续偏好的方式,扩大对现有数字化图书馆藏资源的获取,支持对共享印本馆藏的长期管理,同时又能实现数字资源与印本馆藏的整合。在可持续性馆藏服务(Sustainable Collection Services,SCS)的帮助下,MSCS比较并分析了5个不同的图书馆系统,整合HathiTrust和Internet Archive titles数据,涉及8个合作伙伴馆藏的约300万条记录[17]。

      1.2.3 英国国家专著战略

      英国国家专著战略(National Monography Strategy NMS)探讨了从印本到数字专著的过渡给图书馆带来的挑战;分析在整个国家层面上创建、收集、保存和数字化学术专著的潜力;提出应对数字化专著挑战的方法,包括建立国家层面的专著知识库,提供全面且开放的书目和馆藏数据,使任何感兴趣的开发者都可以基于这些数据开发新的应用系统和服务,由此促使面向图书馆、系统供应商、出版商和用户的新的应用系统和服务的持续发展与完善。在英国,支撑专著国家战略发展的大多数内容都是基于准确、及时的数据,这些数据为在本地和整个国家系统上辅助和推动决策制定提供了可能[18]。

      2 数据驱动的馆藏资源建设实践

      2.1 数据驱动的本地馆藏资源建设

      隶属于哈佛大学法学院图书馆的哈佛图书馆创新实验室(the Harvard Library Innovation Lab)开发了一种图书馆分析工具包—Haystacks。Haystacks通过可视化的方式展示图书馆的活动,使图书馆用户和图书馆员均可以基于此做出相对明智的决策。在最近几年,Haystacks开发团队对哈佛大学图书馆的数据收集实践进行了广泛的研究,并开发了工具,可以实现对哈佛大学图书馆超过1.2亿条馆藏内容的数据进行检索和可视化呈现[19]。

      分析工具包的构建是基于“checkout and check—outs”项目,该项目提供了网页供用户浏览哈佛大学图书馆馆藏中流通最频繁的资源,或浏览不同学院中借阅频次高的资源。哈佛大学图书馆希望“checkout and checkouts”项目能够整合其他的图书馆数据,形成一种更易于导航的格式。使用开源软件包,一方面使图书馆能够追踪和可视化各种类型的数据,比如电子资源使用统计和参考咨询统计数据;另一方面也为图书馆的用户提供了一个窗口,使其可以了解哈佛大学图书馆的馆藏使用随时间的变化情况[20]。

      为了确保所开发的产品能够适应当前数据收集和使用的现状,开发团队一方面对哈佛大学图书馆员进行广泛且深入的访谈,明确如何收集统计数据以及哪些数据最有用。团队收集的数据有图书馆空间利用数据、参考咨询交互数据、采访和流通数据以及电子资源使用统计数据。另一方面,积极关注其他图书馆、档案馆和博物馆和类似组织正在收集、使用和共享自己机构数据的情况,希望从中获取一些开发灵感,具体调研了北卡罗来纳州立大学图书馆的Dataviews Dashboard[21],印第安纳波利斯博物馆的Art's Dashiboard[22]以及布朗大学图书馆的项目,以此确定能为图书馆员和用户均提供有用信息的数据可视化方式。这一过程中发现,不同校区的图书馆甚至同一图书馆的不同部门以不同方式收集数据;来自不同出版商的数据在格式、可用性方面存在较大差异,特别是电子资源的数据;尽管有遵从COUNTER标准的数据,但这一数据仍难以与其他数据整合,特别是那些在COUNTER标准发布之前出现的数据。

      哈佛大学图书馆聘用数据可视化公司Rosten Woo,同时图书馆技术人员开发了API,以支持可视化专家抽取哈佛的数据。图书馆技术人员主要收集三种数据,即电子资源下载统计数据、国会图书馆分层结构化的分类数据(hierarchically structured Library of Congress classification data)以及LOC分类之外的,LOC索书号补充的电子资源下载统计。分析工具包的开发过程中涉及了MARC记录、LOC分类号、LCSH以及COUNTER统计数据,但由于无法获取财务数据,以至于无法显示每次使用的成本。尽管如此,该工具为图书馆员提供了一个窗口,使其可以了解馆藏的使用情况,能够帮助馆藏开发馆员明确馆藏获取和使用的趋势,使预测和满足用户需求变得更为简单;也为用户提供了一个展示馆藏的新窗口,通过可视化方式展现主题,使导航更为简单,让用户比以往任何时候都更能够深刻地了解哈佛大学图书馆馆藏的使用情况。

      2.2 数据驱动的国家馆藏资源建设

      2.2.1 Copac tools项目简介

      Copac馆藏管理工具项目(the Copac Collection Management,CCM tools)致力于提供一种馆藏管理支持服务,利用它所提供的工具,图书馆员可以对馆藏相关的活动(如图书剔旧、保存或数字化稀有资源以及馆藏评价和建设等)做出更加理智的决策。英国研究图书馆协会(Research Libraries UK,RLUK)发起白玫瑰联盟图书馆(利兹、谢菲尔德和约克大学)和Copac团队之间的合作,受JISC资助2011年启动Copac tools项目,最近曼彻斯特大学图书馆、英国皇家外科医学院以及伦敦大学图书馆也加入此项目。Copac吸纳越来越多的英国和爱尔兰研究型图书馆加入进来,将其馆藏目录整合在一起,绘制起一个越来越有价值的图书馆馆藏全景图。

      一些图书馆员使用这一服务为其馆藏管理决策制定提供帮助。然而,Copac最初设计的目的是作为一个联合目录服务,因此将其应用于数据驱动的决策场景中时,它存在一些局限性。Copac tools项目的目标是充分挖掘Copac数据的潜力,使参与的图书馆以及整个图书馆联盟均受益。为此,该项目针对Copac数据构建了一个新界面,该界面提供给图书馆员一系列工具以支持其在馆藏层面对数据进行充分揭示,并为基于比较分析进行决策提供支持。馆藏管理的需求以及参与图书馆的热情不断推动该项目的发展,到目前为止这已经成为推动项目成功的一个关键因素。该项目基于图书馆员的真实需求进行技术开发,由专门的技术专家将这些需求转化为现实,最初的开发活动是伴随着图书馆使用案例的发展而迭代进行的。通过这样一种方式,Copac tools项目所开发的工具可以为早期使用案例中所反映出的一系列活动提供支持,并通过实际的使用对其进行检验和完善。

      目前Copac tools支持三种类型的检索:一是手工检索少量文献或个人项目;二是批量检索文献,例如使用从本地图书馆目录输出的本地记录号文件进行检索;三是在某一学科领域进行关键词检索,如根据作者进行检索等。可以通过图书馆或者地理位置对检索进行限制,例如限定于某一个特殊的区域,有助于提升对本地情景中馆藏的了解;也可以检索指定的一组图书馆的馆藏,显示出哪些内容是共有的以帮助做出剔旧决策。2013年CCM tools测试版向RLUK成员馆及所有向Copac贡献内容的图书馆发布,以获取更多的有关该工具当前功能的使用反馈,并发掘图书馆新的使用案例,为此,项目团队整理了支持材料,并建立了一套社群支持机制。该项目虽然仍处于试验阶段,但是一些参与的图书馆已经开始将CCM tools作为其日常活动中的一部分。具体使用场景涉及以下几个方面。

      2.2.2 Copac tools在馆藏管理中的应用

      (1)支持存储管理。应对图书馆面临的不断增加的空间压力,为剔旧决策的制定提供支持是Copac tools主要的应用领域之一。Copac tools支持图书馆将其馆藏与其他的图书进行比较,以确定哪些资源是稀有资源,结合使用统计数据,提供一个关于剔旧的标准,这一功能是推动参与者尝试该工具的一个主要驱动力。谢菲尔德大学利用该工具设置了剔除标准,通过图书馆管理系统导出的ISBN号,在Copac tools中进行批量检索。以8本为最低要求,将从Copac tools中批量检索获取的数据导人谢菲尔德大学图书馆的管理系统,生成一个使用较少专著的剔除清单。由此,谢菲尔德大学既节省了29米长的书架存储空间,又实现了特有馆藏资源的保存[23]。谢菲尔德大学图书馆声称,通过使用Copac tools使图书馆设计更加自动化的馆藏剔旧流程成为可能。此外,使用Copac tools的批量检索功能,省去了馆员人工核对Copac馆藏的工作量,使馆员的工作时间大大缩短。如曼彻斯特大学使用Copac tools建立起一个识别并处理剔除资源的工作流,发现馆员只需要花费4~5天的时间即可完成先前通过人工方式需用七周才能完成的工作[24]。

      Copac tools所提供的统计数据具有可比性,这就为管理者证明决策的合理性创造了条件。此外,可视化的图表展现方式既使馆员在进行馆藏决策时表现得更专业,也有助于为利益相关者澄清馆藏相关的问题。馆员可以借助该工具识别哪些内容对馆藏而言有最大的益处,并进行存储和数字化决策。但是需要注意的是,在使用该工具之前,图书馆必须首先明确划分稀缺资源的标准,例如多少副本保存在其他地方才能算作是稀缺资源?其次,确定稀缺资源的标准后,还要进一步制定这些资源的馆藏管理政策。从目前的案例看,不同的图书馆存在较大差别,包括特定区域政策的使用范围。最后,所有决策的制定还应该考虑发展国家馆藏的整体需求。

      (2)支持馆藏评价。馆藏评价的前提是收集表述明确的统计数据,Copac tools可视化的数据描述方式为图书馆实时地获取这些数据提供了平台。因此,除了支持馆藏管理活动,图书馆还可以使用Copac tools从单个馆自身的角度或者从与其他馆之间关系的角度来深入理解其馆藏状况。通过简单易用数据格式所展现的馆藏比较,让图书馆了解自己的优势领域,发现先前尚未列入关注范围的重要领域以及传统馆藏领域。在数字资源使用程度不断提升的环境下,印本馆藏建设的目标应该是发展独有的资源,以提升图书馆的声誉。Copac tools可以帮助图书馆识别这些对地区或国家而言都具有重要性的馆藏领域,为图书馆的营销提供机会,为资助申请提供支持,以保存和发展这些领域的资源。先前这一工作主要是借助主观的方法,依赖图书馆馆藏专家和学术员工的知识和意见,因此当专家离开或退休时,存在流失这些知识的风险。使用来自Copac tools可比较的数据,使图书馆可以采用一种更合理的基于循证的方法来进行馆藏分析[25]。

      (3)实现多来源数据的整合。随着对Copac tools的不断熟悉,一些项目尝试增加分析的复杂性,将一系列不同来源的数据整合进来,既考虑在整个国家层面上进行馆藏建设的合理性,又考虑与具体竞争对手和优质机构的比较,同时还考虑某一具体学科领域的情况来综合决断。约克大学整合不同来源的各种统计数据,比如使用统计、年限和馆藏获取率(stock acquisition rate)等,进行差距分析,确定排名靠前的一些图书馆所共有的馆藏,继而分析某一个具体的学科领域中,最具优势馆藏的图书馆。约克大学将这一结果用于指导未来的资源采购计划,以此优化馆藏资源,涵盖那些新发展起来的学科领域[26]。目前,约克大学已经将这一活动嵌入在约克5年内容战略中,以促进学院和图书馆之间更积极合作关系的发展。约克大学的案例表明,尽管Copac tools不会针对每一个馆藏管理问题提供具体的解决方案,但是其数据却提供了有价值的支持信息,给参与的图书馆提供了一个机会使其可以尝试先前因为成本高或者不可能实现而放弃的一些馆藏研究。从仅关注剔旧这一主题转向改善利益相关者之间的合作关系,通过图书馆营销,确定馆藏建设活动或资助申请中潜在的合作者。

      3 结语

      受当今数据驱动决策制定大趋势的影响,图书馆纷纷开始寻求新的使用数据的方式,以充分挖掘和利用他们已经收集起来的数据,在最大限度地提高预算的同时更好地为用户提供服务。从目前国外的实践来看,数据应用体现在两个层面:一是基于本地数据开展数据驱动的馆藏建设,以PDA、DDA方法以及游戏化方式为代表;二是基于多个机构的联合数据开展数据驱动的馆藏建设,英国研究资源集中保存项目、美国缅因州的共享馆藏战略以及英国国家专著战略的实施,充分说明未来图书馆将投入更多精力在整个联盟、区域或国家层面上考虑馆藏建设,对馆藏进行系统化组织成为新趋势。

      哈佛大学图书馆分析工具包的实践案例展示了在本地层面实施数据驱动决策的整个过程,它给我们的启示是,尽管数据驱动决策是在本地层面开展,但是强化合作依然是有效实施数据驱动决策的必由之路,开发数据分析和展示工具,需要开发团队和图书馆员之间的合作以回答如何收集数据、哪些数据有用的问题;为了能为图书馆员和用户提供最有用信息的数据可视化方式,可以考虑开发API,借助外部数据可视化公司的力量来实现。

      Copac馆藏管理工具项目展示出将多个机构的数据整合在一起,绘制整个地区或国家层面馆藏全景图所带来的影响和发挥的作用,也充分说明本地图书馆的数据和联盟、地区图书馆数据之间的差异将被进一步削弱,图书馆做出的针对本地的决策将影响或者被同一地区或国家的其他图书馆的决策所影响。尽管Copac最初设计的目的是作为一个联合目录服务,但是多机构数据的整合却为参与者提供了开展探索性馆藏研究的机会,然而为了使Copac馆藏管理工具能够在数据驱动决策中充分发挥作用,Copac项目团队一方面致力于开发新的Copac数据库以提高基本记录的质量;另一方面继续挖掘新的使用案例,获取更广泛的用户使用需求(包括那些没有向Copac贡献内容的图书馆),难点在于如何与那些没有贡献的图书馆合作,确保充分理解其需求并为其提供最有效地支持。

      总之,如果图书馆真的想要开始转变其服务,提升用户体验,那么就需要揭示新形式的数据和洞察力,通过分析证明图书馆的影响力和价值。

标签:;  ;  

数据驱动型数据采集建设的趋势与实例_图书馆论文
下载Doc文档

猜你喜欢