摘要:随着社会的发展,大量的信息、数据资料集聚在一起,相关单位为了辅助决策、运行,将这些数据通过不同的方式进行计算、筛选,这样就使大数据处理技术得到了快速的发展。通过大数据处理,可以对个人或组织的行为进行分析,企业展开准确定位和营销,单位进行合理的预测与决策,个人也从中提高自身的价值。但是,由于面临数据量大,需处理的程序繁杂以及技术不成熟等原因,一些数据的上传者,经常在有意无意中会将一些敏感性的信息透露出去,为网络信息安全埋下了隐患。
关键词:大数据平台;网络安全;防护
1大数据的含义及发展现状
1.1 大数据的概念及特征
大数据是随着云时代的发展而提出的,其英文名称是Big data,通常用来形容一个企业发展过程中所产生的大量非结构化和半结构化的数据。大数据是伴随着互联网技术的普及而发展起来的。其主要特征是数据量大、运作速度高、数据形式多样化以及价值的不确定性。其中数据量大是因为每天需要通过各种数据传输系统在数据终端之间传输处理的数据是非常大的,以至于现在数据的衡量单位已经从GB上升到了ZB(1ZB=240GB);运作速度高是随着现代计算机容量和计算能力的极大提升,计算机数据传输和加工的周期缩短,数据的处理效率大大提高;数据形式的多样化主要是指各行各业所提交、存储、运算、整理的数据的具体化形式比如格式、单位等存在各种类型的区别;而数据价值的不确定性是指对具体数据所能够发挥的价值是难以确切估量的,数据往往存在潜在的挖掘价值。
1.2 大数据发展的现状
各种类型的数据通过各自的渠道汇总起来所形成的大数据是推动社会进步和组织改革的重要理论支撑,通过数据分析可以预测出组织发展的方向,进而为下一步的决策提供参考。例如一些地区利用对手机的定位和相关的交通数据进行城市建设及规划,利用气象数据来预测天气变化情况,利用各种搜索词语来确定社会热点等等。同时,通过对大数据的开发和应用,企业也制定了适合自身的营销策略、产品研发以及客户需求预测等重要内容,为企业提高了利润空间。然而,任何一种新事物的出现并不是没有任何瑕疵的,大数据也不例外。数据安全问题就是大数据时代下面临的一项重要难题。在大数据平台下,网络信息安全问题主要体现在以下两方面:首先是防止数据遭受丢失、盗取、篡改等破坏性活动的难度不断提高。
2大数据平台常见安全威胁
以 Hadoop 为基础的开源大数据分析框架,涵盖国内诸多行业,如电信、金融、医疗、能源等。Hadoop 大数据平台由多个组件构成,各组件的安全性以及组件间连接的安全性,都将影响大数据平台的整体安全性。大数据平台的安全威胁,主要来自四方面。一是各类新型软件、硬件、协议的并入带来的未知安全漏洞。随着大数据平台的不断扩展,以云计算等为特点的新型软硬件系统的并入所带来的新的安全漏洞成为大数据平台安全性的重要威胁。同时,现有的安全防护技术,无法对新技术的未知漏洞进行实时监控。二是大数据平台自身安全保障机制薄弱。以 Hadoop 为参考框架的大数据平台,其自身就存在安全威胁。如身份认证、权限控制、安全审计等不健全,降低了网络安全水平。三是以分布式计算、存储为特征的计算模式模糊了安全边界。大数据平台底层协议相对复杂,加之开放性存储和计算框架,使得网络安全边界难以界定,也给大数据安全带来威胁。
期刊文章分类查询,尽在期刊图书馆
3 Hadoop 大数据平台的安全性管理
3.1Hadoop 主要安全技术
从 Hadoop 安全技术内容来看,主要包括身份认证、访问控制、数据加密和安全审计等方面。身份认证主要是确认访问者身份的过程,其作为大数据平台的最基础安全机制,主要有三类认证方式,即简单的用户登录认证、基于Kerberos 的加强认证以及基于 LDAP 轻量目录访问协议的弱认证方式。简单认证方式是早期的身份认证技术,安全性不足;Kerberos 认证方式,安全性较强,特别是基于对称秘钥算法的认证方式,便于实现用户请求与访问服务之间的相互认证,提升了大数据平台的安全性,也是当下大数据平台网络用户认证的主流方式。访问控制是对大数据平台的数据设置用户访问权限,通过限定用户对数据资源的某种访问等级来实现开源技术下的安全访问。通常,在权限设置上,主要利用 HDFS 系统来完成权限控制。如设置访问控制列表,规定哪些资源可以访问、哪些资源不能访问;基于角色的访问控制,指定访问权限与不同角色,拥有指定角色权限的用户可以访问该资源。另外,在 HBase、Accumulo 系统中,利用标签来实现访问控制。在创建文件时,由标签管理员对其授予某一安全标签,其他拥有相应标签管理权限的用户可以访问,否则,将无法访问。这些访问控制模式的主要特色是建立在权限控制、角色分配基础上,以实现大数据环境下对网络资源的有效管理。数据加密技术是保障大数据平台数据安全性的重要手段,通常分为静态存储、传输中的加密以及基于密钥的加密方式。如对文件进行加密处理后再存储,或者将数据加载于Hadoop 系统时立即进行加密管理。另外,对于动态数据的加密,Hadoop 大数据平台可以为传输的数据提供安全层认证加密。安全审计是大数据平台标识不同数据资源合法使用的有效方式,其过程是对各类活动进行记录、识别、存储、分析,何时被何人访问、数据的来源与被使用方式等,可以据此来判定该数据是否被入侵攻击。另外,日志与安全审计为实现数据流向跟踪与违规数据监测提供了依据。
3.2 Hadoop 安全威胁分析
在 Hadoop 集群管理中,因 Kerberos 服务器仅有一个,其在访问控制管理上,因负担过重,可能会超出负载而影响大数据的安全访问。一旦 Kerberos 服务器出现故障,会给整个平台安全性管理带来直接影响。另外,随着大数据网络平台的拓展,一些来自网络的恶意攻击,对现有 Hadoop 平台而言,显然是难以抵御的。因此,引入第三方网络安全管理就显得尤为关键。
3.3 Hadoop 安全防护建议
提升大数据平台的安全管理等级,需要从事前预警、事中防护、事后追溯三方面来完善。事前预警,通过引入系统风险评估系统,设置可能的安全风险及预警措施;事中防护主要是引入动态防护技术,包括数据采集、存储、处理过程中的身份认证、访问控制、数据加密等技术;事后追溯主要是通过网络数据安全审计,利用数据溯源技术,来查找数据泄露原因,并利用数字水印、数字指纹、数据血缘追逐等技术来实现安全性管理。
结束语
Hadoop 大数据平台是基于开源结构的分布式数据存储架构,其主要应用于可信网络环境下,而随着用户量的增加,一些恶意用户以伪装合法用户形式入侵 Hadoop 集群,篡改、删除数据等,无疑增加了 Hadoop 框架的安全风险。因此,在构建安全防护体系中,一方面要立足自身安全机制,引入数据安全、加密、认证机制,来提升防护等级;另一方面,借鉴商业 Hadoop 系统安全防护技术,引入多因素认证系统、准入控制技术、细粒度访问控制技术、数据脱敏及安全审计等机制,来提高大数据平台的安全管理水平。
参考文献:
[1] 郜书锴,白洪谭.理解大数据时代的数字鸿沟[J].新闻研究导刊,2014(1).
[2] 张倩. 大数据在突发事件政府决策中的应用[J].东北农业大学学报:社会科学版,2013(6).
论文作者:闫晓欣
论文发表刊物:《电力设备》2018年第18期
论文发表时间:2018/10/22
标签:数据论文; 平台论文; 安全性论文; 技术论文; 访问控制论文; 方式论文; 系统论文; 《电力设备》2018年第18期论文;