大数据生态系统在图书馆中的应用,本文主要内容关键词为:生态系统论文,馆中论文,数据论文,图书论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 研究背景
“大数据”概念最早出现于2008年9月的Nature杂志上,2011年5月全球最大的战略咨询公司McKensey发布大数据调研报告,而后《纽约时报》[1]及《华尔街日报》[2]开辟专栏,对其展开激烈讨论,并作为专栏封面。之后,包括Oracle、Microsoft、IBM、Yahoo!、VMWare、FaceBook等几乎所有IT巨头,纷纷加入到相关的软硬件技术研究的阵营中。但真正确立“大数据”作为未来信息技术发展核心地位的,则是2012年美国奥巴马政府宣布推出的“大数据的研究和发展计划”。该计划将“大数据”作为全球性发展战略计划,集合美国国防部、能源部、国家科学基金等六个联邦部门和机构,大力推动及改善与大数据相关的采集、组织、分析、决策工具及技术[3],该举措无疑表明了大数据技术将会在未来数十年内影响着全球知识创新和知识服务形式。在即将出现的大数据的各项问题面前,图书馆已经感受到其所带来的转变和创新知识服务的巨大压力,促使图书馆需采取一些不同于以往的方式,而应对知识服务新型需求的最佳途径则是直指问题本身,而不是围绕大数据这个话题[4]。
2 大数据给图书馆带来的挑战
2.1 大数据的基本概念及其主要来源
大数据就是能从各种结构化、半结构化和非结构化数据[5]中,快速获取有价值信息的能力。它具有四种基本特性:(1)数据量大。从TB级别跃升至PB级别,甚至更高,传统的集中存储与集中计算已经无法处理呈指数级别的数据增长速度;(2)数据多样性强;(3)处理速度快;(4)价值密度低。以视频为例,连续不问断监控过程中,有用的数据可能仅仅只有一两秒[6]。而RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据将会成为图书情报机构未来大数据的几个主要来源[7]。
2.2 大数据给图书馆带来的新挑战
美国McKinsey Global Institute在2011年的调查报告中指出,全球将近87.5%的数据未得到真正利用[8]。最早将“大数据服务”引入图书馆中并着手实施的是Harvard[9-10]。这一引进使我们看到,在关注每一个具体图书馆的结构化信息资源需求的同时,非结构化数据分析变得可行和经济高效,能够实现知识横向扩展以满足急剧扩张的知识服务需求。结合现阶段信息技术的发展状况及信息资源的利用需求,大数据给当前图书馆各个方面带来巨大的冲击及挑战。
(1)数据类型增多、数据量增长及数据复杂性的增强给现有的存储能力及计算能力带来巨大挑战。第一,计算能力、存储能力的增强远远落后于数据量的增长及数据复杂性的变化;第二,物联网、传感网、移动互联网及云计算等信息技术的飞速发展,使得数据移动较之以往更为频繁,而数据的移动亦成为信息资源管理最大的开销,这就促使知识管理及信息服务模式从传统的数据围绕着计算能力转,转变为计算能力围绕着数据转[11];第三,可信计算、高可靠性、高可扩展性、高可用性的规模、语义、统计及预测性等数据分析技术、新的数据表示方法[12]等都是亟待解决的技术问题;第四,用户流失分析及价值分析促使图书馆不得不寻求新的解决方案。正如OCLC的Research Libraries、Risks和Systemic Change研究报告指出的那样,价值质疑、技术障碍等重大危机已经严重困扰着图书馆,高校教职工已经逐步弱化了图书馆的存在价值,用户流失异常严重[13],而大数据技术不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等需要什么,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测,从而应对图书馆未来所面对的生存危机。如美国Hiptype公司用大数据分析技术来研究电子书读者阅读习惯和喜好[14],这也是国内外图书情报领域首例利用大数据技术构建知识服务社区实体(包括用户及资源)行为的智能分析引擎。
(2)超越常规报表分析的多维度分析需求的挑战。与传统的常规报表分析相比,大数据分析正向实时分析、知识预测的深度分析、知识拓展的广度分析等多维度分析转变。图书馆也就面临着更加复杂、更大规模的多维度分析需求来了解现有知识服务体系发生了什么,更需要利用大数据分析对将要发生什么进行预测和分析。
(3)对图书馆的软硬件资源、网络资源、人力资源等基础设施带来巨大挑战。考虑到经济成本、人力成本等要素,许多知识服务机构将软硬件资源的建设由以前的追求高端服务设施向中低端软硬件基础设施构建的大规模计算机集群转变[15],对支持半结构化、非结构化和复杂结构化的海量异构数据的存储与计算技术和能力提出了更高要求,从而要求将大数据的存储、计算过程转移到为大规模分布式数据密集型应用而设计的基础设施中[16]、将分块的大数据集复制到集群服务器节点进行处理的网络基础设施、构建具有保护高度分布式基础设施和数据的可信应用体系的软硬件基础设施,从而帮助建立更加灵活的、智能的网络化信息资源智能组合方式[17],并且培养专业服务能力更强、专业面更广、技术要求更高的图书馆馆员。
3 大数据管理的新生态系统的研究与实施
数据成本下降促使数据量急剧增长,新的数据源和数据采集技术的出现使数据类型增多,各种非结构化的数据又增加了大数据的复杂性,但从大数据应用中却可以发现具有极强挑战性的科学问题及社会问题,这有助于以大数据为基础的科学研究第四范式及新型知识服务范式的形成,而现有数据中心技术难以满足大数据的应用及知识服务需求,整个知识服务架构的革命性完善势在必行。对大数据进行获取、存储、组织、分析和决策的基本策略是把大数据的计算推向数据,而不是移动数据[18]。因为在大数据处理过程中数据移动代价过高,在分布式环境中,传统的数据处理方法在不高于TB级别数据时可以接受,但面对大数据,其执行时间和执行成本至少会增长几个数量级,特别是对大量的实时数据分析时,这种移动数据的计算模式是不可取的。
3.1 大数据管理的新生态系统的浮现
生态系统是指多种生物共存共生的自然系统,在此处主要用来描述围绕大数据管理的共存共生的各类技术和工具。新技术不断出现和进化,使得非结构化数据处理变得可行和经济高效,数据处理方式也朝着透明化、虚拟化、智能化及安全化的方向发展。通过充分运用云计算环境中存储、计算及网络等资源的分布式网络化服务的资源组合新能力[19]、新方法重新定义了获取、存储、组织和分析数据的方式,而开源云计算框架Hadoop就是其中最为流行的一种大数据处理框架[20],特别如Google、Yahoo!、Oracle等著名企业,均成功地利用Hadoop开源框架开发出了大数据管理系统,让研究人员看到了Hadoop在解决图书馆的大数据应用和难题时的巨大潜力。但图书馆在利用Hadoop构建自己的大数据管理系统前,一定要确保充分了解相关的核心技术,不要盲目跟风。图书馆不同于一般企业,它有着自己的特殊需求、资源构建方式、大数据处理需求及自身的技术条件。与传统的结构化数据处理技术、数据库管理系统相比,Hadoop有自己的优势,它既能处理关系数据库中的结构化数据,同时也能在由普通服务器组成的Hadoop云计算集群中,根据大数据的规模和问题的复杂度,有针对性地处理图像、音频、视频信息等非结构化数据,如图1所示。简言之,Hadoop正演进为非结构化数据处理机分析的最佳新型方法。
从这个新生态系统的生态环境和体系结构中,可以看到大数据管理的新生态系统所浮现出来的几个特点[21]:(1)具备高度的可扩展性和灵活性,支持PB级甚至更大规模数据的获取、存储、组织、分析和决策;(2)得益于云计算技术的存储和计算能力,将大数据计算推向数据,而不是移动数据,从而在靠近数据的云节点上进行大数据的深度分析;(3)能够有效地解决传统的大数据处理方式所面临的两大难题,即结构化及半结构化数据的复杂处理需求、非结构化数据的需求。针对结构化大数据管理,构建以关系数据库作为大数据管理的核心数据引擎的大数据生态系统,而处理结构化大数据的关系数据库管理技术已经非常成熟(如Oracle、Sql Server等),均提供了强大的结构化数据管理及处理、数据仓库、数据挖掘、数据分析、数据决策等功能;针对复杂的结构化及非结构化大数据管理需求,可以通过Hadoop开源框架及其相关技术予以解决。从技术上看,HDFS和MapReduce作为Hadoop的两项关键服务,能够将对复杂结构化大数据和非结构化大数据的获取、存储、组织、分析及决策变为现实,而Hadoop所支持的各项技术,诸如Hadoop Common、Chukwa、HBase、Hive、Pig、ZooKeeper等大数据处理添加件、交叉集成件和定制件均能为大数据生态系统提供强大的技术支撑。
因此,笔者认为,在这个大数据管理的新生态系统中,传统结构化数据管理模式与非结构化数据管理模式的有机结合是这个新生态系统得以发展和推广应用的理想方案,如图2所示。传统的关系数据库负责其擅长的OLTP类的数据处理,为大数据管理系统提供数据源,并且将大数据经过深度分析之后的结果存储在关系数据库中,再通过可视化云终端交互技术为用户提供可视化和查询使用,而可视化处理终端不再承担分析功能,仅仅实现数据的可视化;而真正的结构化大数据的复杂处理需求和非结构化数据处理需求,就依靠高度可扩展的Hadoop大数据处理系统来完成。充分利用MapReduce技术良好的扩展性,实现新旧数据、新旧信息系统、新旧软硬件资源之间的兼容,并设计新的数据处理算法,实现大数据的深度分析,从而发现新知识。此外,许多大数据开源工具,如Cloj ure和Thrift均搭建在Hadoop框架上,也能够为大数据获取、存储、组织、分析和决策提供模块化技术构建,并在大数据业务的软硬件部署上提供深度支持。如Datameer提供一种平台,用于采集与读取不同类型的大型数据库,将它们植入Hadoop框架中,然后提供分析这些数据的工具。提供类似的“大数据”分析技术的商业厂商有Appistry、Cloudera、Drawn to Scale HQ、Goto Metrics、Karmasphere和Talend,IBM、微软和甲骨文都支持与Hadoop的互动,开源BI厂商Pentaho也支持Hadoop[22]。
3.2 软硬一体优化集成的大数据综合解决方案
从大数据管理全生命周期研究角度,即大数据知识服务执行前、执行中、执行后出发,笔者认为图书馆的软硬件一体优化集成的大数据综合解决方案的研究和实现分为五个方面:(1)获取阶段(Acquisition-phase,Acq-phase);(2)存储阶段(Storage phase,Sto-phase);(3)组织阶段(Organizational phase,Org-phase);(4)分析阶段(Analysis phase,Ana-phase);(5)决策阶段(Decision-Making phase,D & M-phase)。每个方面在图书馆大数据处理体系中所涉及的操作和管理内容都不同,如图3所示。
(1)获取阶段
Acq-phase主要是指从数据类别、数据来源及获取模式的角度出发,研究大数据获取的系统结构、组织与运行模式等方面的技术,同时研究实施大数据获取的相关标准和规范。包括笔者在内,我们常常是从信息资源检索角度来认识数据获取的。但是,获取大数据的根本在于:以用户对大数据处理需求为中心,融人大数据深度分析及智能辅助决策的过程,支持对大数据问题解决方案的探索、发现、构建和测试等的知识服务机制。它可能包括支持用户同时发现和跟踪众多数据信息,辨析数据类别、数据来源及获取模式,抽取和组织相关数据的快速、反复的变化轨迹,能够根据需要以自助方式快速发现、挖掘结构化和非结构化数据,也包括进一步挖掘大数据结构中的冲突、异变和获取的可能性。
大数据获取手段主要有传感器数据抓取(即智能云图书馆传感网)、统计信息和网络抓取(QOS网络管理)、Web应用(如社交网络中的点击式抓取、或蜘蛛爬虫式抓取、舆情分析等)、移动服务功能数据抓取等。大数据获取方式分为两种:①快速发现、挖掘、辨析、抽取所有结构化和非结构化数据;②根据需要快速发现、挖掘、辨析、抽取指定结构、类型、大小或内容的结构化和非结构化数据。大数据的获取方式决定了这一过程必须面临着内外部数据快速增长、预定义的数据获取模型、信息获取方式和运行模式无法满足意外业务需求,以及根据需要以自助方式快速发现、挖掘、辨析、抽取数据等难题所带来的技术和思想上的挑战。Acq-phase构造的大数据获取服务是依据数据处理需求之间的抽象流程约束构造出来的数据流转关系或流程。Acq-phase涉及的主要操作有数据或信息发现,在数据获取模型中采集、过滤符合处理需求的数据,采用拖放式应用构建、辨析及抽取数据,通过交互式搜索、导航和分析实现展示数据挖掘和分析结果,如图4所示。
(2)存储与组织阶段
如前所述,大数据最佳存储方式是关系型数据库与云存储方式的有机结合。由于大数据存储最大的特点是拥有海量存储空间、高性能存储能力、低成本存储设备以及可扩展的存储模式,笔者曾经对云计算环境下大数据存储及处理的业务需求进行过深入分析,并在集中或分布管理的廉价计算机集群上构建了一种可扩展的、具备一定负载均衡能力的高性能云存储体系[16],故此处不再赘叙。
MapReduce是2004年由Google提出的面向非结构化大数据分析和处理的并行计算模型,包含HDFS、并行编程模型、并行数据分析和处理引擎三个层面的技术体系。最早是用于网络数据的处理,如文档抓取、倒排索引的建立等,在大数据处理过程中,无须复杂的数据处理和写入数据库的过程,而是对非结构化数据直接进行分析和处理,并且采用移动的数据计算模式。
依据数据的结构特征,选择合理的数据组织方式。目前大数据组织方式主要有三种:关系数据库主导型(R-D型)、MapReduce主导型(M-D型)及关系数据库和MapReduce集成型(R&M-D型)。关系数据库主导型关注于如何利用MapReduce来增强关系数据库的数据处理和分析能力,将Sql与MapReduce编程模型结合起来,针对大数据处理提出Sql-MapRe-duce数据处理框架[23],从而同时获得Sql的通用性与MapReduce的开放性、灵活性;MapReduce主导型主要关注于利用关系数据库的Sql接口和对模式的支持等技术来改善MapReduce的易用性,较为典型的应用是Hive、Pig等;关系数据库和MapReduce集成型代表性的研究是Yale大学的Azza等人提出的Hadoop数据库(现改名为Hadapt)[24]、Stone Braker等人设计的Vertica数据库[25]及NCR公司设计的Teradata数据库[26]。
显而易见的是,三种方式实际上都需要实现关系数据库与Hadoop数据处理技术的有机融合,区别在于融合程度的差异。而对大数据处理过程则分为两个阶段,第一阶段是使用Hadoop对数据处理任务进行分解和组织调度,第二阶段则是用关系数据库进行数据的查询和处理,考虑如何在不影响全局的情况下,提高大数据管理系统的主节点的可靠性[27]。大数据组织可以充分利用Hadoop的数据组织机制提供系统的容错性、扩展性和灵活性,解决大数据处理的横向扩展问题;利用关系数据库实现数据的查询和存储机制,解决性能问题[28-29]。
(3)分析阶段
与传统的数据分析相比,大数据分析过程在战略高度上实现了三大转变:由对历史数据的广度分析向实时数据及知识预测的深度分析的转变、由关注数据分析结果向数据驱动优化的转变、由数据分析零碎视图向统一视图的转变。实际上,大数据分析方式也如前所述,分为关系数据库主导型、MapReduce主导型及关系数据库和MapReduce集成型三种形式,通过强大的大数据分析平台实现可视化分析、数据统计、数据挖掘、预测性分析、文本分析、图形分析、空间信息分析、智能语义分析、语义引擎、数据质量和数据管理等功能。由于大数据的特殊性,大数据分析技术尚处于摸索阶段,新技术层出不穷,依据大数据分析实时性的业务需求分类,可将大数据分析技术分为实时数据分析和离线数据分析。实时数据分析一般用于移动、互联网B2C及金融等行业的大数据分析,这些行业往往需要在极短的时间内返回数亿行结构化或非结构化数据的分析结果,才能达到不影响用户实时体验的目的,如EMC的Greenplum、SAP的HANA、Oracle的Exalytics等大数据实时分析工具。但对于离线统计分析、机器智能学习、搜索引擎的反向索引计算、推荐引擎的计算等对反馈时间要求不是很严格的大数据处理需求,可采取离线数据分析的技术。通过大数据获取将数据采集到专用的数据分析平台上,类似的工具有Facebook的Scribe、Hadoop的Chukwa、淘宝的Time-tunnel等,均可以满足每秒数百MB的大规模日志数据采集、传输和分析需求,并将这些数据上传到Hadoop系统中。
(4)决策阶段
大数据带来的最大优势是根据实时大数据进行决策,从而将大数据转换成可操作的智慧型的知识服务。充分利用大数据处理和分析能力的优势,在于通过采用大数据技术对用户在社区网络中的足迹、点击历史、浏览历史、信息反馈,直接真实的展示用户的性格、偏好、意愿等相关数据进行分析之后,帮助图书馆感知知识服务的市场、用户的需求和能力、未来的发展形势等,以便图书馆对价值评估、服务能力和服务水平等做出更科学的决策,包括目标用户服务细分、精准服务推销等。图书馆的大数据决策工具主要是为用户及所属服务机构提供数据分析与决策结果及大数据处理引擎,并且可以帮助图书馆收集、组织和智能化分析由网络、移动互联网数据以及应用程序等产生的数据。大数据决策工具具备处理结构化、半结构化和非结构化数据的独特方式,让图书馆和用户可以监控、获取、存储、组织、分析和决策的实时和历史大数据,其数据来源可能是网络、机构数据、社交媒体、移动互联网等,并最终帮助图书馆决策者做出准确的判断,帮助图书馆实现智能运营,使得资源供应者、使用者、运营者、开发者在各个方面提高运营效率。
4 结语
毫无疑问,大数据带来了全新的知识创新体系及知识服务模式,但每种信息技术都不是完美的,在大数据面前,还有很长的路要走。大数据技术迫使我们反思传统的数据获取、存储、组织、分析和决策架构,虚心地研究MapReduce、Sql-MapReduce等新生技术架构,以站在更高的层次来思考问题,从而找到适应时代需求的大数据生态架构。但是,正如范并思教授所言,信息技术发展所带来的机会总是稍现即逝的,如果我们只是观望[30],那么我们将永远只能抓住信息技术应用领域的尾巴。
标签:大数据论文; 数据分析论文; 数据处理论文; 非结构化数据论文; mapreduce论文; hadoop论文; 用户研究论文; 云计算论文; 生态系统论文; 结构化方法论文; 用户需求分析论文; 用户分析论文;