阅读大数据——图书馆联合体的创新型数据服务探索,本文主要内容关键词为:数据论文,联合体论文,图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250.7 [文献标志码]A [文章编号]1005-8214(2015)05-0001-04 1 引言 对于“大数据”(Big data),研究机构Gartner给出了这样的定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。[1]目前,业界将大数据归纳为4个“V”——Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。2012年3月,美国政府发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative),此项带有2亿美元推动资金的倡议,旨在通过推动和改善与大数据相关的收集、组织和分析工具及技术,提升从海量和复杂的数据集中获取知识和洞察分析的能力,美国已将大数据作为国家级的战略。由此可见,在大数据时代,图书馆对其赖以生存的两大基石“读者”和“资源”应该作出新审视,为阅读创造前所未有可量化的维度,使阅读大数据将“读者”、“资源”和“图书馆”紧密联系在一起,从而为提升图书馆服务价值提供新的强大动力。 图书馆的变革实际上早已开始,从“为书找人”到“为人找书”,从“图书馆数字化”到“数字化图书馆”,从传统图书馆向复合型图书馆转型,但是大数据时代开启了重大的时代转型,如果把大数据作为一种新技术,也必然要经历Gartner技术成熟度曲线的萌芽期、膨胀期、谷底期、爬坡期和稳定期等阶段。而图书馆始终关心的“以读者为中心”的服务创新在大数据时代遇到前所未有的挑战,虽然众多图书馆都希望知道自己的读者从哪里来、希望到哪里去、究竟他们在看哪些书、想看哪些书、关注哪些内容信息、对哪些图书馆的阅读环境和服务有好感、经常去哪些图书馆、希望图书馆如何改进服务等,但是,图书馆坐拥大量文献资源和信息系统,却不知如何利用自身信息系统内的数据资源、通过数据分析挖掘产生新的效益,从而为读者提供新的服务内容和服务形式。 作为单体图书馆的上海图书馆拥有大量的文献资源和读者群,但对于读者在图书馆的借阅行为缺乏深入了解,也没有相关的系统记录和读者行为分析以改善和提升图书馆的服务品质。随着上海地区图书馆联合体建设的推进,上海市中心图书馆“一卡通”服务体系的完善,自2008年开始,上海图书馆对图书馆联合体提供核心支撑的图书馆集成管理系统开始记录读者所有的借阅行为和流通历史记录。随着数据大规模的累积,如何充分利用这些数据为读者服务,进而对图书馆的资源配置、馆藏建设、读者服务、运营状态和发展趋势作出相应的预测和反馈是摆在我们面前的一大课题。 上海市中心图书馆是在不改变各参与图书馆的行政隶属、人事和财政关系的情况下,以上海图书馆为总馆,其他区(县)公共图书馆、高校图书馆以及专业图书馆等为分馆,以计算机网络为基础,以知识导航为动力,以文献资源共享为目标,以提高读者服务水平为目的,组建的一种新颖的图书馆联合体。[2]在联合体中的图书馆能实行统一的借阅制度,实现文献异地通借通还“一卡通”服务。2013年,上海图书馆作为上海市中心图书馆总馆,同时支撑着总馆和中心图书馆253家区县和街镇“一卡通”图书馆分馆的运营(中心图书馆“一卡通”成员馆主要有上海图书馆总馆1个,上海少年儿童图书馆1个、服务网点数1个,区县分馆23个、服务网点数46个,街道乡镇服务点213个、服务网点数236个,其他服务点10个、服务网点数10个,高校分馆1个,专业分馆4个,服务网点299个),其中“少儿一卡通”成员馆机构数148个,上海市中心图书馆服务网点总量达299个,分拣中心1个,总读者群逾210万,全年书刊通借通还流通量达4432万册次(2009年1887万,2010年2349万,2011年3053万,2012年3071万)。海量的读者数据、读者信息行为产生的数据在系统中沉睡,等待发挥它们的价值。在保障用户隐私的基础上,上海图书馆一直在尝试激活系统中沉睡的海量读者数据、读者信息行为数据,发挥它们应有的价值。 2 数据可视化 2.1 数据可视化的概念、作用与特性 数据可视化致力于创建那些以直观方式传达抽象信息的手段和方法。[3]可视化的表达形式与交互技术则是利用人类眼睛通往心灵深处的广阔带宽优势,使得用户能够目睹、探索并理解大量的信息。[4]视觉是人类最重要的感知,人脑所能接受的外界信息90%以上源于人眼的视觉感知,[5]高质量的信息图能比文字更快速地被理解。因此,利用可视化技术将经过整序后的复杂数据集合以精简的图形、文字、数字相结合的方式展现,可以使得观众快速了解数据所想展现的内容以及洞察关键。 2.2 数据可视化在图书馆的应用 西雅图公共图书馆(Seattle Public Library,SPL)改建建筑空间时提出,利用信息技术将图书管理视作数据,将图书馆视作数据交换中心,利用可视化手段展现数据。SPL与交互媒体设计George Legrady合作的名为“Making Visible the Invisible”的项目计划在十年间将采集的图书流通量以小时为单位进行分析,并利用可视化技术将分析结果展现在6个LCD的屏幕上,该屏幕位于改建后的SPL主要咨询台上方,背后即为SPL的一个大型开放式信息检索、研究阅览室。[6] 3 数据分析 3.1 应用案例 2013年度,上海图书馆和上海市中心图书馆“一卡通”系统总流通量4432万册次,同比增长17.5%。流通读者数60.5万,年平均外借量26.06册,一半以上的读者年外借量超过14册。这个“阅读大数据”的发布,既是为了通过数据分析了解读者喜好,反映读者阅读倾向,更是为了合理配置馆藏采购,更好地贴合读者的实际需求,提供更好的读者服务。 图1 2013热门关键词 通过对2013年度的流通数据进行分析,寻找热点分类、热门作者、热门出版社,发掘各类图书中的阅读热点(见图1)。通过比较成人与少儿不同类型图书的区别,力图叙述热点背后的故事。如:成人读者的阅读选择主要呈现的特点是“诺奖热”、“时事热”;少儿读者的阅读选择更加多样化,但总体偏爱绘画型寓教于乐的绘本、百科全书等科普类读物。 结合读者年龄、性别等属性,分析不同读者群的阅读倾向。2013年度,图书馆联合体的流通读者中,总体以青年人为主,其中年轻读者群中,女性的占比略高,年老读者中,男性的占比略高。在政治法律、军事、数理化工业技术各个方面,男性的外借量都明显大于女性,女性偏向文化、教育、语言等类型的图书。 3.2 数据分析维度 在没有阅读大数据积累的过去,图书馆大部分依靠读者调查和反馈来获取一手的读者意见,其统计方法以抽样调查为主,即使有信息系统数据支撑,其数据量和数据管理也难以有效支撑阅读大数据的分析,结果相关性和针对性不足,统计效率和实时性也较差。新的阅读大数据分析以全数据代替抽样,以大数据高效率分析取代抽样精确性分析,以寻找阅读关联性结果为阅读因果分析提供依据。因此,阅读数据分析就以读者最感兴趣的图书流通数据为主要采集对象,从人、书、地三个实体理解数据。人,是访问图书馆的读者,他们借阅书刊、检索数据库、获取新知。不同的人具有不同的性别、年龄、学历、职业等属性,影响他们不同的阅读习惯和偏好。书,是图书馆提供借阅服务的根本,经过编目人员的专业加工,具有书名、著者、出版社、分类号、封面等各种属性。地,是由上海图书馆和上海市中心图书馆联合体的性质决定的,具有层级、区县等属性。 4 数据服务设计 4.1 数据采集与分析 在人、书、地三个实体的基础上,加上时间信息,构成的一次借还行为即为数据采集的一条原始信息行为。这样一条简单的信息,并不足以支撑数据服务的设计表现,为了能记叙性、比喻性、联合性地将数据设计以图形化信息呈现,需要将流通信息结合各个实体的不同属性,通过借出/归还的单一事件驱动,加之以地点信息,表现出系统的特征。因此,在流通数据的基础上,数据采集的范围包括图书馆自动化管理系统、读者信息管理系统。由于系统内的图书编目不涉及封面,为了可视化呈现有更具体、直观的效果,还需与第三方机构合作,获取图书封面,通过开放接口(API)的方式进行数据交换。 大数据分析面临的一个问题就是隐私性,在综合考虑数据安全性、读者隐私的前提下,上海图书馆采用自主研发方式,利用系统自动采集,隐去读者标识,在统计分析的基础上,通过提供webservice接口方式,形成一套标准的数据输出。每天采集流通信息12万册次以上,每分钟采集一次数据,每天的数据采集完毕后,进入历史库,以日期为单位进行切片保存。 图2 以流通行为触发的数据流示意图 4.2 数据输出 经过整序处理的数据,通过标准的webservice接口输出,数据接口同时提供XML、JSON两种格式的输出结果。由于XML的结构规范要求严格,而书名等文字信息中可能包含一些特殊的字符格式,这些字符可能会导致程序无法正确解析整个XML文件,因此,采取JSON返回方式具有更高的稳定性。JSON是一种轻量级的数据交换格式,文件不具有明显的强结构特征。 5 数据应用 图书馆联合体要展现流通数据的可视化,需要呈现出图书馆即时服务的情况,时间、地点维度是较易被考虑到的展现方面,不同地区的图书馆由于服务范围、区域用户的不同,服务量有所差别;不同的日期、同一天内的不同时间,图书馆服务量都会有所不同。 图3 某馆某日外借册数 据统计,双休日的到馆读者数一般为工作日的1.5~2倍。由图3可以看出每天流通发生有两个高峰,分别在上午10点至11点和下午14点至16点,不仅读者可以从中获取信息,规避等候时间;图书馆的工作量安排也能根据该分布更趋合理。 在经济类图书中,最受读者欢迎的为财政、金融、经济计划与管理以及贸易经济类图书(见表1)。在信息时代,电子商务不断挑战传统销售行业。读者在本大类比较关注的热点话题是销售与电子商务。 对图书馆阅读流通数据的分析可以预测读者群体性的偏好,也可以为图书馆资源建设、馆藏采选等提供全面翔实的依据,同时也可以为读者的个性化服务提供相关图书推荐。美国亚马逊曾经有一支业界评价极高的书评团队,负责为亚马逊销售图书撰写书评和推荐新书,经过亚马逊使用的大数据分析之后,亚马逊发现机器根据读者原有购买图书的历史和偏好来推荐图书,其销售成功率远高于书评团队对读者的群体性推荐。因此,除了书评之外,其推荐图书改由系统进行大数据分析后进行推荐,这些做法现已在电子商务的B2C领域被广泛应用。目前,上海图书馆也联合了中心图书馆“一卡通”的各成员馆通过“我的图书馆”个性化服务系统为读者推荐图书,根据其历年来的阅读偏好有针对性地推荐到馆新书,并直接提供借阅链接和图书封面、书评等,此项服务推出后深受读者欢迎。 5.1 数据可视化的叙事性 以上海图书馆到馆读者的即时展现屏为例,最醒目的右侧的圆圈内,显示的今日到馆总人次的数字(见图4),该数字不断跳跃上升,展示了阵地服务的热度。而左下角区域又利用上海图书馆楼层平面图的形状,展现不同楼层今日进入读者数的变化。 5.2 数据可视化的热点变化 以图书馆联合体书刊流通数据的即时展现屏为例(见图5),该屏以服务时间为横轴,每5分钟采集汇总的借还数据的柱状图表达流通量随时间流逝的变化情况,配色采用对比强烈的绿色和橙色,在冷色调的蓝色背景上,跃动效果感强,而衬底的灰色图形则显示前一日的流通情况,低调的灰色即不会夺走对当日借还数据的关注,又起到了对比的作用,可谓一目了然。 图4 今日到馆 5.3 数据可视化的视觉体验 以上海图书馆和上海市中心图书馆“一卡通”馆今日借出/归还图书封面屏为例(图略),该屏呈现的是当前正在外借/归还书刊的封面,不断向外扩散/向内聚集的图书封面,极具视觉冲击力。 由于每个数据集都有其独特的特性,[7]可视化能够最大化地展现这个特性。根据数据特点,数据可视化展示效果灵活、丰富,风格统一简洁。作为领悟阅读大数据的新含义、探索提升阅读服务体验的一种方法,通过这种即时信息图形展现图书馆联合体各个图书馆的服务情况,既方便图书馆了解自身服务运营状态,又能吸引读者关注的兴趣;读者可边享受视觉盛宴边学习知识,求知欲亦能被大大激发。 图5 即时数据屏 6 结语 阅读大数据的分析、设计、展示的主要目的是借助数据分析挖掘和数据可视化的手段,更高效和清晰地交流、展现数据背后的真实信息,但这并不意味着数据图表会因实用而枯燥,因华美而繁复。通过了解业务,理解数据,把握设计与功能之间的平衡,透视阅读数据背后的意义,即能够为读者提供更高效便捷的服务,提升图书馆联合体的服务效能,使读者在数字之外有所启发。[8]数据分析展示不仅是一项简单的创新服务,同时也是很好的阅读推广手段,可以重塑读者与图书馆、读者与书、图书馆与内容供应者之间的关系,开启图书馆转型发展的新方向。阅读大数据:图书馆联盟创新数据服务的探讨_大数据论文
阅读大数据:图书馆联盟创新数据服务的探讨_大数据论文
下载Doc文档