黑龙江省图书馆 黑龙江 150090
摘要:本文介绍了大数据特征,分析了图书馆应用 “大数据” 的策略建议,探讨了图书馆推进大数据的技术支持。
关键词:大数据;图书馆;应用
一、前言
利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化数据信息,寻找他们的隐性诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制已成为大数据时代图书馆提高服务体系的组织水平、推动行业发展与制度建设的捷径之一。
二、大数据特征
1.数量 Volume
第一个特征也是最重要的,大数据描述的是大批量数据,数据量级一般可以达到 PB(1024TB)级规模,根据互联网数据中心(IDC)的监测,全球在2010年正式进入ZB(10243TB)时代,2011年全球数据量将达到1.8ZB,预计到2020年,全球将总共拥有35ZB 的数据量。日益庞大的数据量使得人们对数据的有效利用日益重视,从而衍生了大数据概念。大数据需要处理的是各类统计、用户行为等数据,如企业的经营交易信息、商品物流信息、社会网络交流信息、位置信息等,数据规模极为庞大,有着自己独特的处理方案。
2.多样性 Variety
大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成了大量的异构数据,因此不能再用处理结构化数据的方法来进行处理。
3.速度 Velocity
大数据对数据实时处理有着极高的要求,需要实时反馈结果,捕捉、分析、处理每一个瞬时出现的数据,因此通过传统数据库查询方式得到的当前结果很可能已经没有了价值。
4.真实性 Veracity
大数据策略可以提供更为真实的数据,通过对大量数据的分析,在用户行为、数据总结和未来预测方面做出准确的判断,为政府、企业、科研决策提供了真实可靠的依据。
三、图书馆应用 “大数据” 的策略建议
1.对大数据的存贮、分析、处理能力应提高
其实数据不一定非要用阿拉伯数字来记录,如:文字、音频、视频都是其常见格式。图书馆的大量数据应分为两部分存储,一部分考虑到光盘存储对数据存储本身而言具备离线存储功能,稳定,不易遭到破坏与攻击,以光盘的形式存储;另外考虑到硬盘存储速度更快、联网更方便,以硬盘形式存储。以往,图书馆的数据处理牵涉的大部分是结构化的数据信息,可供分析的数据比例不大,要想从中挖掘出十分有价值的信息难度较大。大数据时代的到来,它的特征与优势促使读者的信息化需求发生变化,用户迫切需要图书馆提供智能化、个性化的服务。图书馆应及时改变数据处理范围和方式,利用现有条件挖掘潜力,对读者的借阅记录、信息行为、微博等各类数据进行深入分析,挖掘出有价值的信息。改善基础设施,提高服务方案,提高对大数据的分析和处理能力,提高服务效率。
2.图书馆面临硬件基础设施和技术人才的挑战
大数据时代,图书馆需要拥有经济、高效的存储和计算能力来存储和分析各类读者用户的信息,这需要建立在拥有较先进、完备的硬件基础设施和信息技术人才的基础之上。
期刊文章分类查询,尽在期刊图书馆
3.图书馆应用大数据存在的隐私问题及解决办法
随着互联网的发展,读者在不同的地点会留下越来越多的数据痕迹。由于这些数据具有关联性、累积性,人们多关心其隐私可能被暴露。所以大数据时代图书馆应高度关注和重视大数据成本问题与隐私问题,进行数据分析和数据挖掘应该在不暴露用户个人隐私的前提下,坚持保护用户的个人隐私权。既要提倡数据共享,又要防数据被滥用。虽然全国人大已经通过加强网络信息保护的决定,使大数据的挖掘与利用有法可依。但还是希望早日出台“信息公开法”以适应大数据时代界定数据挖掘、利用的权限和范围;另一方面图书馆员自身应该树立良好的职业道德,在工作中高度关注和重视大数据的隐私问题,坚决维护用户的隐私权,这样才可以使读者的个人信息在合理、合法的范围内有效传播,以达到在充分发挥大数据优势的同时,又不侵犯用户隐私的共赢目的。
4.应用大数据图书馆应构建网络安全整体架构
Web 服务作为图书馆数字化的重要组成部分,它为最终用户提供了访问图书馆资源的重要接口。但是由于安全定位不同,使得传统的IPS或防火墙无法真正做到完全理解HTTP,不能有效地保护Web应用业务安全。图书馆应采用专业级的Web防火墙对Web网站进行Web应用安全防护,来阻断如SQL注入、远程文件包含、脚本……,schema中毒、cookie 中毒、以及其他Web应用攻击的威胁,保护这个重要的入口。这样就可以保证Web应用程序安全性的同时还可防止敏感的数据库内容外泄,为图书馆Web应用提供了专业级的应用安全防护。
四、图书馆推进大数据的技术支持
1.基于No SQL解决数据异构集成
No SQL就是Not only SQL的缩写,意即非关系型数据库。作为近年来兴起的非关系型数据库,No SQL通常采用分布式、集群化的数据存储模式,主要用于大规模结构和非结构数据存储管理,具有大容量、高性能、高扩展等特性,并具有良好的Map Reduce支持。因此,用它来解决大数据环境下数字图书馆种类繁多、事先无确定模式、异构数据占绝大多数的数据存储问题是一种非常好的技术支撑,也有助于数字图书馆之间的合作与信息共享。
2.基于HNC的文献知识元检索
HNC概念层次网络,是面向整个自然语言理解处理的理论体系。该理论在深入挖掘汉语特点的基础上,以意义表达和语言理解为主线,建立了一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式,“在汉语语句理解方面达到国际领先水平”,并已获得国家发明专利。
HNC概念:符号含有大量的语义信息和不同概念之间的横向纵向关联,使得知识元之间具有一定的语义链接。而知识元是指相对独立的表征知识点的一个元素,它可以是一段文字、一幅图表、一个公式等。图书馆的信息检索技术主要分为:全文检索、数据检索和语义检索类。前两类属于传统的检索方式,也是国内大多数图书馆所采用的方式。通常使用关键词词形的简单匹配,而不考虑语义,结果一方面出现大量含有该关键词但与我们想检索的文献毫不相关的信息;另一方面使与关键词相关但文献中没有出现该关键词的信息丢失。因而很难兼顾查准和查全,具有很大局限性。而语义检索,也可以叫做知识检索,是一种基于知识的语义的分析检索,是在自然语言理解、计算语言学发展的基础上产生,由知识库支持在检索的查准率和查全率上较好地满足用户的检索要求,是信息检索发展的趋势。
3.基于PKI技术保护读者隐私
PKI公钥基础设施是一种新的安全技术,采用数据加密和数字签名来实现用户身份认证,并在开放的互联网环境中提供一体化服务的非对称加密法。它由公开密钥密码技术、数字证书、证书发放机构(CA)和关于公开密钥的安全策略等组成,是目前比较成熟完善的Internet网络安全解决方案。国外一些大的网络安全公司纷纷推出一系列基于PKI的网络安全产品,为电子商务的发展提供了安全保证。
结束语
从大数据中去捕捉、分析向读者推送有潜在价值的数据,将成为大数据时代图书馆的一大主要业务,并且这些业务开展的水平也将决定着大数据时代的图书馆发展水平及方向。因此图书馆要把握住这次机遇,找准切入点,坚定图书馆为政府、为企业、为科研、为社区服务的宗旨,扩大服务面,提高服务质量,开创新的服务方式,以更开放的服务进一步提升图书馆的社会价值,真正成为社会的知识中心、学习中心和文化中心。
参考文献:
[1]严浪.大数据在图书馆的应用与对策[J].图书馆学刊,2014(5):7 -8.
[2]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5):37-40.
注:黑龙江省艺术科学规划项目立 项编号:2015C002
论文作者:艾军
论文发表刊物:《基层建设》2016年10期
论文发表时间:2016/7/27
标签:数据论文; 图书馆论文; 信息论文; 语义论文; 用户论文; 读者论文; 时代论文; 《基层建设》2016年10期论文;