(河南省机场集团有限公司 河南省郑州市 451161)
摘要:如今,人们生活在大数据的时代,大数据为人们的生活带来很大的便捷。然而,大数据的采集、存储以及使用过程中,都潜在着风险,使得大数据安全问题日益严重。为此,近些年提出了许多大数据安全保护技术。本文对当前大数据安全保护关键技术的研究现状进行分类阐述,分析其优缺点。
关键词:大数据;数据安全
引言
随着信息科技的不断发展,数据信息已经渗透到政治、经济、文化、民生等方方面面的活动中。随着互联网应用的日益深化,人们真正的步入了大数据的时代。据统计,目前谷歌搜索平均每秒有超过200万的使用量,人们每天发布的Twitter数量超过3.4亿,每天还有40亿各种内容的共享数据通过Facebook用户而产生。现如今,各个行业都在不断产生着大量的数据。几乎各个产业领域都将迎来基础数据建设及大数据应用系统建设两方面的爆发式发展的机遇。截止目前,全世界已经正式有将近40个国家和地区构建了自己的数据开放门户网站。大数据的发展扩大了信息的开放程度,随之而来的就是数据安全与隐私保护的问题。
1大数据的含义
研究机构Gartner给出“大数据”定义,“大数据”是海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
2数据安全与隐私保护技术
2.1数据发布采取匿名措施
主要针对结构化数据和非结构化数据两种,对前者进行保护时,对用户的数据发布次数和状态进行了规定,这是数据保护的前提环境和条件,即一次静态发布。在这样的条件下,先按照属性对标识符进行分组,同一属性的为一组,方便信息匿名的集中处理,分组处理方式有两种,分别是元组泛化和抑制处理。将匿名模式定义为K匿名,这样的匿名处理普适性很强,但对于特殊属性的单一标识符,这种模式就无法发挥作用了。这种数据匿名技术在理论上是可行的,但在实际中,前提条件却得不到满足,用户数据发布无法一次性完成。这就给了攻击者从不同发布点收集整理用户信息的机会。非结构化数据是由点和边组成的图结构数据,所以点和边属性成为攻击者的入手点,也成为安全与保护技术的控制点。针对用户信息点属性匿名以及用户标识匿名处理时,采取的措施主要使其可见性为零,对于边属性匿名处理时,要将信息传递双方用户之间的连接关系只设置为对方可见,如此攻击者也就看不到这些隐藏的信息。
2.2基于属性加密的访问控制
基于属性加密的访问控制是一种利用密文机制实现客体访问控制的方法,主要可以分为两种:基于密钥策略的属性加密(KP-ABE)和基于密文策略的属性加密(CP-ABE)。在KP-ABE中[39],引入了访问结构,密文与属性集合相关联,密钥与访问策略关联,只有当用户提供的属性集可以达到密钥的访问结构时才能解密文件,KP-ABE主要用于访问静态数据。在CP-ABE中,密文由访问结构生成,密钥是用户的属性集合,只有当用户的属性满足密文中的访问结构时才能解密该段密文。CP-ABE使得数据拥有者可以灵活地控制哪些用户访问数据,因此也被广泛地用作云计算的访问控制方案。
2.3角色访问控制技术
这种技术也被称之为角色挖掘,其内涵是访问网络数据的自上而下模式在发挥算法编制作用时,会对不同用户进行分类和管理,使用户的访问权限受到管理,也就是在用户访问时,对用户进行一定程度的拦截,用户角色在拦截过程中相关信息会得到优化和提取,只有通过拦截考验的用户,才对相关数据有访问权。
期刊文章分类查询,尽在期刊图书馆如此所有的用户通过角色挖掘,都被纳入到监控范围内,这是对用户行为的一种监督和提醒,相对的其他用户的信息处理以及使用安全系数会得到提高。但这种技术也是有缺陷的,数据集在存储处理的过程中有可能发生动态变更,变更范围也无法控制,所以还要解决此类问题,将这种技术与其他防护技术共同使用。
3大数据的数据保护关键技术
3.1数据质量
数据质量直接影响大数据分析的结果,影响基于数据的决策结果,因此针对大数据的数据质量问题一直备受学术界和产业界热切关注。数据质量的一个核心技术问题是识别数据中的错误,即数据的不一致性检测。在2010年提出一种分布式数据中违反条件函数依赖(CDF)的检测方法;2014年,做出了改进,提出增量的分布式数据的CDF违反检测,该文献实验证明能有效捕获分布式数据中的错误。分析错误的原因可能是数据不一致,或模型错误。因此数据质量研究的另一个方向是判断导致数据质量问题的原因是数据不一致还是约束不一致。对错误数据的清洗研究目前主要都采用基于主数据、编辑规则的方式,通过与主数据每个属性上的定义域进行比较,挖掘编辑规则,然后根据编辑规则进行修复。
3.2数据管理
目前,在Hadoop开源社区中出现了两个数据生命周期管理的开源项目:ApacheAtlas和ApacheFal-con。ApacheAtlas通过定义元数据对象的模型表示Hadoop和外部组件的元数据对象,并进行分类,帮助Hadoop栈内外的工具间进行元数据交换;ApacheAt-las与ApacheRanger项目结合提供安全策略,并可记录授权、数据访问、拒绝访问等事件,支持对这些事件的索引功能;ApacheAtlas提供了可视化数据血缘关系的能力,提供了在许多分析引擎(如Storm、Kafka和Hive)上移动数据的完整视图。ApacheFalcon定义了数据采集、处理和导出的数据管道,使用管道自动生成Oozie工作流;其本质是将数据和处理过程的配置信息转化为业务处理流程;ApacheFalcon提供可视化的数据管道系统,可跟踪数据管道的审计日志,查看数据管道的血缘关系。ApacheAtlas侧重元数据管理,而ApacheFalcon更侧重于数据生命周期管理。学术界也已对大数据管理开展了相关研究。分析了大数据管理目前面临的问题和挑战,并给出了相应的解决方案和最佳实践。提出一种分层的大数据管理处理工作流,对每一层涉及的大数据管理技术现状进行详细阐述。则对大数据管理中的内存数据管理和处理的关键技术进行了深入调研。
结语
大数据作为国家基础性战略资源,已广泛应用于各重大行业,其安全问题得到学术界和产业界的高度重视和积极研究。本文介绍了大数据安全相关的法律法规和标准现状,分别从大数据生命周期安全和大数据平台安全两个角度分析目前大数据面临的安全问题,阐述大数据安全关键技术研究现状及其开源项目,最后提出了大数据安全在标准缺口、关键技术难点和大数据安全分析3个方面的开放问题。大数据安全技术的发展,不仅是大数据产业发展所驱动的结果,还是国家部署的重要战略。加强研究大数据安全保护技术,可推动大数据的开放共享,有力支撑大数据产业的持续发展,更加增强国家网络空间安全的防御能力。
参考文献:
[1]张海浪.浅析计算机网络安全技术及其防范策略[J].数字技术与应用,2016,(29):70+93.
[2]田碧蓉.浅析计算机网络安全防范措施[J].才智,2016,(06):253.
[3]杨光,李非非,杨洋.浅析计算机网络安全防范措施[J].科技信息,2015,(19):170+182.
[4]王蒙蒙.基于数据消冗技术的大数据加密算法研究[D].郑州:华北水利水电大学,2013.
[5]戴华秀.基于电子商务安全的数据加密技术的研究[D].南昌:南昌航空大学,2011.
论文作者:杜鹏飞,郑博
论文发表刊物:《电力设备》2018年第2期
论文发表时间:2018/5/31
标签:数据论文; 属性论文; 用户论文; 技术论文; 数据管理论文; 密钥论文; 信息论文; 《电力设备》2018年第2期论文;