图书馆需要怎样的“大数据”,本文主要内容关键词为:图书馆论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 讨论背景
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,之后这一概念出现在《纽约时报》[1]及《华尔街日报》[2]专栏封面上,而将“大数据”作为全球性发展战略计划,则始于2012年2月美国奥巴马政府宣布推出的“大数据的研究和发展计划”,该方案计划投资两亿多美元,在美国国家科学基金、美国国防部等六家政府部门协作下,大力推动及改善与大数据相关的采集、组织、分析、决策工具及技术[3]。事实上,包括IBM、Oracle、HP、Microsoft等几乎所有叫得出名字的IT行业巨头都加入到了大数据的行列,纷纷通过收购与大数据相关的软硬件技术供应机构,来实现大数据软硬件一体化技术整合,力求在新的信息竞争环境中处于更加主动的竞争地位及获得更加有利的竞争优势。
由于知识传播与利用形式不断变化,各种新技术机制在知识创造、组织、传播和应用中扮演着愈加重要的角色[4],使得知识服务受众、知识服务提供者、知识服务运营者及知识本身不仅覆盖了图书馆基础服务体系,还直指结构化、半结构化及非结构化数据的常规、广度及深度分析、科技创新能力智能评价、知识服务竞争力分析、知识创新预测性分析、服务态势综述等高附加值服务,从而实时地创造能高效率解决科技创新、知识服务、协同运营和实现机构目标的能力,为所服务机构创造先觉价值和提供智慧服务。本文在大数据的时代背景下,探讨了大数据的基本特征、存在的问题、给图书馆带来的挑战及未来主要的研究热点,期望能够为未来的图书馆知识服务创新体系提供理论参考。
2 大数据给图书馆带来的新挑战
2.1 什么是“大数据”?
“大数据”与“海量数据”不同,并不仅仅指数据量大的数据,还要看它的第三个维度,也就是时间或速度维度(涉及数据流、结构化与非结构化数据的处理速率及效率),它不仅包含了“海量数据”的含义,而且在内容上超越了海量数据。众所周知,数据正以惊人的速度激增,除大众所熟知的科学数据、电子商务信息、计算机仿真等领域的数据来源外,经笔者分析,还可列举出图书情报领域的未来大数据的几个主要来源:(1)RFID射频数据:RFID嵌入到图书馆相关资源中,实现资源的跟踪及分析,虽然现阶段国内图书馆还没有实现RFID的全面推广,但一旦得到广泛应用,将会是大数据的主要来源之一;(2)传感器数据:通过分布在图书馆不同位置或环境中的传感器对所处环境和资源进行的感知,不断生成的数据,由于长时间积累所产生的数据量也非常巨大;(3)社交网络交互数据:随着社交网络应用的逐步推广,社交网络所产生的数据量远远超过以往任何一个信息传播媒介,毫无疑问,它将会成为未来很长一段时间内,大数据最为主要的来源之一;(4)移动互联数据:移动互联网及移动互联技术的不断完善,使得图书馆可以灵活获取移动电子设备、人员、资源、用户行为和需求等信息,并对这些信息进行实时分析,从而帮助我们开展有效的智能辅助决策[5]。
对于绝大多数图书情报领域人员来说,“大数据”似乎有所耳闻,但究竟什么是“大数据”,恐怕尚是一个陌生概念。基于此,笔者在总结分析相关文献之后,将大数据的概念归纳为两个方面:四种特性及三种挑战。
2.1.1 四种特性
从各种结构化、半结构化和非结构化数据中,为快速获取有价值信息,从而使用全新方法来获取、存储、组织、分析大数据,并利用分析结果做出最有利的决策。因此,以下四种特性概括了大数据的主要特点,或者说具有这四种基本特性的数据才可以称之为大数据:
(1)容量(Volume):数据量巨大,从TB级别跃升至PB级别,甚至更高,传统的集中存储与集中计算已经无法处理呈指数级别的数据增长速度;
(2)多样性(Variety):传统数据管理流程无法处理异构和可变的大数据,这些数据可能具备结构化、半结构化和非结构化属性,如访问日志、网络检索历史记录、Email、社交媒体、音视频、博客、微信和传感器数据等,甚至包括随时间演变、不一致的和冲突的数据格式;
(3)速度(Velocity):数据实时生成,同时要求按需提供交互式的、实时或准实时的数据分析,而数据分析的新趋势,则是超越常规数据分析模型的深度分析需求的增长,因为用户不仅仅需要通过数据了解现在发生了什么,更需要利用数据及时地对将要发生什么进行预测;
(4)价值(Value):单条数据并无太多价值,但庞大的数据量蕴含着巨大财富,将已有结构化(如关系型数据库、面向对象数据库中的数据),半结构化数据[6]与非结构化数据(如文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等)进行融合和分析后,会挖掘出很多新的业务信息[7]。
2.1.2 三种挑战
以上所描述的是大数据所具备的基本特性,结合现阶段信息技术的发展状况及信息资源的利用需求,如何正视大数据给当前图书馆各个方面带来的冲击及挑战,也是理解什么是“大数据”所必须掌握的内容:
(1)数据量增长所带来的存储能力及计算能力的挑战。在飞速发展的数字信息环境中,数据成本下降促使数据量急剧增长,新的数据源和数据采集技术的出现使数据类型增多,各种非结构化的数据又增加了大数据的复杂性,但从大数据应用中却可以发现具有极强挑战性的科学问题及社会问题,而这有助于推动以大数据为基础的科学研究第四范式,促进图书馆形成新型知识服务范式,而现有数据中心技术难以满足大数据的应用及知识服务需求,整个知识服务架构的革命性完善势在必行。首先,存储能力的增长远远落后于数据量的增长,设计最合理的分层、分级存储架构已成为信息资源管理及知识服务体系的关键;其次,移动互联网技术的完善,使得数据移动较之以往更为频繁,而数据的移动亦成为信息资源管理最大的开销,这就促使知识管理从传统的数据围绕着计算能力转,转变为计算能力围绕着数据转[8];第三,高通量计算机、高可靠性、高可扩展性、高可用性的规模、语义、统计及预测性等数据分析技术、新的数据表示方法[9]等都是亟待解决的技术问题。
(2)由传统常规分析向广度、深度分析所带来的挑战。数据分析成为图书馆知识服务体系创新与完善必不可少的支撑点。图书馆不仅需要通过数据了解现在知识服务过程发生了什么,更需要利用数据对科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测,以便应对图书馆未来所面对的生存危机,在行动上做出一些主动准备。值得补充的是,这些分析操作除了包括数据关联关系分析、时间序列分析、大规模图分析、社会网络分析及移动平均线分析等广度及深度分析,还包括常规分析。
(3)基础设施挑战。数据量及非结构化数据的迅速增加,使得存储及计算规模不得不随之增大,导致其成本急剧上升,处于成本的考虑,越来越多的知识服务机构将应用由高端服务器转向中低端硬件构成的大规模计算机集群[10],从而对支持非结构化数据存储及分析的基础设施提出了很高要求。第一,需要将存储、计算需求分布到为大规模分布式数据密集型应用而设计的基础设施中[11];第二,需要拥有经济高效的存储与计算能力,足以获取、存储和分析TB、PB级别的数据,并拥有足有的智能分析能力来减少数据足迹(如大数据压缩、自动数据分层及重复数据删除等);第三,需要拥有可快速将分块的大数据集复制到集群服务器节点进行处理的网络基础设施;第四,需要拥有保护高度分布式基础设施和数据的可信应用体系的软硬件基础设施;第五,作为人力及智力基础设施,技能熟练的图书馆员也是图书馆大数据研究及处理最值得期待的挑战之一。
2.2 大数据给图书馆带来哪些问题?
2011年美国McKinsey Global Institute发布了Big Data:The Next Frontier for Innovation,Competition and Productivity的调查报告,指出尽管全球数据飞速增长,但有将近87.5%的数据未得到真正利用,许多数据资源并没有形成真正的知识源以供研究人员利用[12]。图书馆历来是信息技术应用的重镇,“大数据”时代亦不例外。Harvard已经将“大数据”的服务引入了图书馆中[13],并付诸应用[14]。这是一种最具颠覆性及创造性的引进,它使我们看到,在关注每一个具体的图书馆的结构化信息资源需求的同时也可使非结构化数据分析变得可行和经济高效,从而实现知识横向扩展以满足急剧扩张的知识服务需求。作为一个新的尚未开发的信息源,非结构化数据分析可揭露之前很难或无法确定的重要相互关系。而作为图书情报领域一项技术推动的战略,旨在获得更加丰富、深入和更加准确的用户、知识运营者以及知识服务洞察,并最终提高图书馆的核心竞争力,与以往相比,大数据应用可更加快速地做出时间敏感的决策、监控最新知识服务趋势、快速调整方向并抓住新的知识服务机遇。正如数字图书馆、Library 2.0、云计算技术出现之初,图书情报界所出现很多质疑声音一样,图书情报领域研究大数据的尝试也不可避免的遇到质疑,为了推动图书情报领域里的大数据技术与提升知识服务能力、降低知识服务成本,有必要对大数据时代,图书馆所面临的问题及机遇进行一些讨论。其中,在思想观念上,有三个问题值得所有图书情报界人员深入反思和探讨:
(1)相较于图书馆所拥有的不断增长的数据量而言,图书馆能够分析的数据比例在不断降低,如何充分把握大数据所带来的技术优势与数据分析方法,有效提高图书馆能够分析的数据比例,加强知识服务的智能辅助决策能力。
(2)从图书情报领域数据分析和应用的现状而言,现在的图书馆及人员在面对一些“可能是机会的数据”时,并没有清醒的认识,缺乏将数据转换成知识的思想意识及非结构化数据持久化处理及深度分析的技术及解决方案。
(3)最终的问题应该回到图书馆与人员如何认识、管理和分析其所拥有的各种结构化、半结构化和非结构化数据,如何建立软硬件一体化集成的大数据综合解决方案、数据及知识获取、存储、组织、分析和决策的大数据解决方案。
另一方面,由于对于图书馆及人员而言,大数据技术仍然是一种全新的且未被市场验证和核实的新兴技术,任何一个准备实施大数据计划图书馆,从技术上都必然会被问道:
(1)哪些数据应该属于大数据的范畴,应该被分析及预测?
(2)待分析的数量巨大的非结构化的静态和动态数据是否真的具有所需要的价值?人力、物力、财力及发展张力的投入回报方面是否符合本机构的发展规划?
(3)非结构化数据缺乏固定结构,受数据来源、类型、时间及空间等因素的影响,非结构化数据呈现不同特征及表现方式,也需要采用不同的数据获取、存储、组织、分析及决策技术,如何依据本机构自身的数据特性,选择合适的、有针对性的大数据技术也应当成为需要深入探索的话题。
(4)很多数据的可用周期很短,且属于不同领域、不同时域或不同地域,怎样将其进行有效的整合、集成及分析?
(5)什么时候以及如何在已有的数据获取、存储、组织、分析和决策流程中加入大数据的支持?
(6)大数据解决方案与传统的信息资源管理、信息服务方式、知识创新模式、数据存储和分析技术之间的区别及关系是什么?
(7)哪种场景更适合大数据解决方案?
(8)大数据解决方案是进一步完善还是完全取代传统信息资源管理、信息服务方式及信息处理技术?
2.2 大数据怎样帮助图书馆?
以上都是图书馆在探索和实施大数据解决方案的过程中,无法回避的问题。图书馆对于大数据而言,通常有三种角色:大数据的使用者或受益者、大数据的提供者或开发者及大数据的运营者或维护者[15]。在前述的情景描述中,可以了解到,当前几乎所有大数据技术及产生的相关服务都可以在图书情报领域得到应用,特别是能够给我们带来如下新型知识服务帮助:
(1)可以帮助图书馆建立各类知识服务及业务建设的风险模型。即图书馆的各类风险评估模型,例如数字图书馆信息安全风险评估模型、信息资源采购及应用评估风险模型、图书出版的收益与风险模型、知识产权风险评估模型等,都可以通过大数据分析、预测及智能辅助决策技术建立具有自身机构特色的、科学的及实用的风险模型。
(2)图书馆用户流失分析及价值分析。OCLC的Research Libraries,Risks,and Systemic Change研究报告指出,价值质疑、技术障碍、人员队伍无法适应未来挑战等重大问题已经严重困扰着图书馆,高校教职工已经逐步弱化了图书馆存在价值,用户流失异常严重[16],大数据技术不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等需要什么,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测,从而应对图书馆未来所面对的生存危机。
(3)可以帮助图书馆建立新型知识服务引擎。技术引擎是图书馆信息服务的技术核心,如何利用大数据技术构建图书馆的新型知识服务引擎,将会是未来几年内图书情报领域信息技术研究的主要内容。新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、知识服务社区实体(包括用户及资源)行为智能分析引擎、用户知识需求预测引擎、及多维度信息资源获取、组织、分析及决策引擎等。例如美国Hiptype公司将大数据分析技术来分析电子书读者阅读习惯和喜好[17],这也是国内外图书情报领域首例利用大数据技术构建知识服务社区实体(包括用户及资源)行为智能分析引擎。
(4)可以通过分析资源(包括软硬件资源、网络资源、信息资源、服务资源及知识资源等)的状况来预测可能的故障,或对于资源突然的波动可以帮助图书馆制定应对策略?例如网络攻击、风暴、垃圾资源过滤、软硬件资源故障、信息服务需求障碍、及知识资源波动等。
(5)可以帮助建立更加灵活的、智能的网络化信息资源智能组合方式[18]。图书馆可以灵活、方便地从已有结构化及非结构化数据资源中抓取有用的知识、关系、模式、症状用于新的知识服务方式。
(6)如前所述,传感器数据也是未来大数据的主要来源之一,对图书馆自然环境、人文环境及技术环境数据多维度大数据的智能分析及智能辅助决策,进而实现机构管理、发展及服务的预测、优化和监管。
2.4 当前研究现状及未来大数据主要研究热点
随着数据量的飞速增长,对大数据进行获取、存储、组织、分析和决策的基本策略是把大数据的计算推向数据,而不是移动数据[19],因为在大数据处理过程中数据移动代价过高,在分布式环境中,传统的数据处理方法在不高于TB级别数据处理可能可以接受,但面对大数据,其执行时间和执行成本至少会增长几个数量级,特别是对大量实时数据分析,这种移动数据的计算模式是不可取的。
一般情况下,大数据管理全生命周期过程包括大数据获取、存储、组织、分析和决策五个阶段,围绕大数据管理生态系统的研究,可以围绕结构化数据管理及非结构化数据管理两个方面进行研究。围绕结构化数据管理,即传统的关系数据库管理系统,衍生出传统的大数据获取、存储、组织、分析和决策生态系统。而关系数据库作为大数据管理的核心数据引擎,各类结构化数据通过ETI工具按照其结构特征进行组织,存储到关系数据库中,再在客户端通过SQL语言进行例行性的数据分析,进而根据数据分析结构进行技术性决策分析,目前,处理结构化大数据的关系数据库管理技术已经非常成熟,如商业型Oracle、Sql Server、开源型MySql等,均具备了强大的结构化数据管理功能,并且均拥有较为强大的数据仓库功能,对于的数据挖掘技术也已经充分满足一般的结构化数据分析、决策需求。但针对复杂的结构化和非结构化大数据处理需求,Sql语言表达能力就暴露出了一定局限性,在某些特殊大数据处理过程中,需要把数据从数据库中读取出来,导致大量数据的移动,将数据导入到前端分析工具(如SPSS、SAS等),借助于统计分析软件进行大数据深度分析和决策,这样产生的致命性问题就是大数据移动会造成性能急剧下降。因此,SPSS、SAS等数据分析企业正在致力于把计算过程封装在数据库系统中执行,但目前进展有限,并且大数据分析函数的分布化、并行化、数据处理系统的扩展性、灵活性、智能性等仍然是难以解决的问题。
随着Hadoop开源框架及其相关技术的迅速兴起和逐步完善,使其成为打开大数据之门的金钥匙,也成为解决传统的大数据处理方式所面临的两大难题的关键,从而推动大数据管理的新生态系统的浮现。从技术上看,Hadoop两项关键服务:采用Hadoop分布式文件系统的可靠大数据存储服务、及基于MapReduce编程模型的高性能并行大数据处理服务,能够提供对结构化和复杂数据、非结构数据的快速、可靠分析变为现实,并可与老的信息管理系统部署在一起,从而能够以有利新方式组装新旧数据集合,让图书馆可以根据自有信息和问题定制知识服务组合方式,更容易地分析和研究复杂数据,同时作为一个自愈系统,在出现系统变化或故障时,它仍可以运行大规模的高性能处理任务,并提供数据。其他诸如Hadoop Common、Chukwa、HBase、Hive、Pig、ZooKeeper等大数据处理添加件、交叉集成件和定制实现,均能为新生态系统提供强大的技术支持。
尽管如此,当前各个方面的相关研究都不能完美的解决大数据核心问题,仍然有许多极具挑战性的工作等待着我们去研究。
(1)关系数据库和MapReduce技术有机融合的研究。如前所述,MapReduce与关系数据库各有优缺点,如何依据不同的大数据处理业务需求,设计同时具备两种技术优势的技术架构(即有关系数据库的通用性、易操作性和MapReduce的可扩展性、开放性、灵活性、容错性和智能性),在对关系数据库更深层次了解的基础上,深入分析MapReduce编程模型内在的局限性和并行计算模型。如何有机融合关系数据库技术和MapReduce技术,使之能够有效地支持迭代式并行计算模型的执行,这也是大数据处理技术的核心问题之一。
(2)对结构化数据和非结构化数据更加复杂的或更大规模的分析。MapReduce计算模型在很大程度上,能够弥补关系数据库在这两个方面的缺憾,而在云计算环境中可以初步实现更加复杂和更大规模的大数据处理,比如大规模社会计算、大规模社交网络、时间序列分析、大规模图分析、及更细粒度的仿真等,这一类技术仍然不够成熟,需要花费更多的时间、精力去探讨。
(3)大数据获取、存储、组织、分析和决策操作的可视化接口。如何较好地实现大数据处理的各个阶段的可视化、智能化、及个性化的展示和操作,尤其是多维数据操作、及决策结果评估的可视化的智能展示。
(4)大数据管理系统的可靠性研究[20]。当前大数据管理体系是基于大规模廉价计算机集群的云计算环境,采用的是主从结构,由此决定了主节点一旦失效,势必会造成整个大数据管理系统失效的局面。因此,如何在不影响全局的情况下,提高大数据管理系统的主节点的可靠性,将是未来需要解决的关键问题之一。
(5)大数据的网络传输和压缩问题。MapReduce编程模型的计算特征决定了其性能取决于I/O和网络传输质量和计算代价。而数据压缩技术不仅可节省存储空间、节省I/O及网络传输带价,还可利用云计算环境中存储能力和并行计算能力,大幅提升大数据管理系统的性能[21-22]。He Yongqiang和Avrilia Floratou所带领的两个团队均成功的利用数据压缩技术提升了大数据管理系统的性能,但这些研究都是基于他们各自的大数据处理模型,而非默认的Hadoop数据处理模型。因此,基于MapReduce编程模型的通用型大数据压缩技术也是尚待研究的核心技术之一。
3 结束语
大数据伴随着云计算、移动互联网、物联网等信息技术的成熟而迅速发展,并且越来越受到业界和学术界的关注,相较于过去几十年数字图书馆的研究与发展,大数据技术在未来几年给云图书馆[23]将会带来革命性、持续性和创造性的变化,会对我们所熟知的知识服务能力和知识服务机制产生重大的颠覆和创新,也对现有的技术和方法提出更高的要求,而这一切可能会超出我们正常期待的范围。综合分析过去两年内对大数据技术的关注和研究,笔者认为,在未来几年,在大数据获取、存储、组织、分析和决策过程中,对应的体系架构、计算模型、数据模型、智能辅助决策模型、性能优化模型及知识服务模型等基础理论方面,将会出现更多的研究成果。
毫无疑问,大数据技术是图书情报领域无法逃避的未来技术发展形态,也为图书馆实现知识服务模式的转变、知识管理模式的突破、合作交互型知识创新模式的完善、知识服务流程的动态监测等业务需求提供了新的思路和解决方案。目前,尽管大数据技术的研究还处于起步阶段,依然还面临着许多问题和争议,但是,随着市场的发展和信息技术的不断成熟,围绕大数据的问题将逐渐得到解决,这些争议也将会有更加清晰的结果。可以说,大数据技术是云图书馆在未来一段时间内的亟待完善和解决的关键问题之一,该领域的相关问题也会成为图书情报领域研究的重点内容之一。大数据技术的发展、成熟与应用也需要图书情报界和业界人员的共同努力。
标签:大数据论文; 非结构化数据论文; 数据与信息论文; 信息存储论文; 云计算论文; 结构化方法论文; 数据分析能力论文; 能力模型论文;