(湖北华中电力科技开发有限责任公司 湖北武汉 430077)
摘要:本文旨在针对大数据高速、海量、多样、价值和可视化等特点解决基于大数据的安全分析所面临的问题。提出了基于大数据的安全分析平台的技术框架,并阐述了安全分析平台的构建,分析了采用的关键技术,对同类安全分析平台具有借鉴作用。
关键词:大数据;存储;索引;异构;可视化;分析
0引言
毫无疑问,我们已经进入了大数据(Big Data)时代。人类的生产生活每天都在产生大量的数据,并且产生的速度越来越快。根据IDC和EMC的联合调查,到2020年全球数据总量将达到40ZB。Gartner将大数据定义为“海量、高速、多变的信息资产,需要对它进行经济的、创新性的信息处理从而获得超越以往的洞察力、决策支持能力和处理的自动化”
大数据早就存在,它已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。之前只是一直没有足够的基础设施和技术来对这些数据进行有价值的挖据。随着存储成本的不断下降、以及分析技术的不断进步,尤其是云计算的出现,不少公司已经发现了大数据的巨大价值:它们能揭示其他手段所看不到的新变化趋势,包括需求、供给和顾客习惯等等。
1平台目标及技术需求
大数据分析平台建设目标主要解决大数据面临的问题,主要体现在高速、海量、多样、价值和可视化上,以下对这些建设目标进行详细阐述:
VELOCITY:解决高速安全信息的采集和分析
大数据安全分析平台需要应对企业和组织日益增长的安全信息包括安全日志和事件、网络流量元数据、原始网络流量等的高速采集和预处理,突破传统SIEM/SOC的3万EPS的极限,并可随着采集信息的规模增大而弹性扩展。
VOLUME:解决海量安全数据的存储和分析问题
从数据规模和容量上来说,原始流量远大于网络流量元数据,而网络流量元数据远大于安全日志和事件,大数据安全分析平台应能够根据需要实现对这三种主要数据的存储和分析,将海量数据分布式保存在各计算资源上,并可自由扩展计算资源和存储空间。平台应能够处理PB级数据,并具有高可靠、高扩展、高效和高容错等特点。
VARIETY:解决异构安全数据的分析
大数据安全分析平台应支持多种日志源和日志类型,并支持对半结构化(例如原始数据报文、邮件、WEB请求与响应)和非结构化信息(例如可疑代码、原始流量、镜像文件)的采集,具备异构数据间的关联分析(即情境关联)能力,具备从事件到流量元数据到原始流量和文件的对应和关联分析。
VALUE:从海量的低价值的数据中找到有价值的信息
大数据安全分析平台应能提供多种实时和历史分析方法,以及分析工具接口,帮助安全分析人员从海量的低价值数据中获取真正有价值的信息、值得去关注的信息,用于辅助决策和管理支撑。
VISUALIZATION:安全分析结果的可视化呈现能力
大数据可视化帮助越来越多的组织从浩如烟海的复杂数据中理出头绪,化繁为简,变成看得见的财富,从而实现更有效的决策过程。大数据安全分析平台应通过灵活的数据和可视化框架,使用户能够利用数据适应不断变化的需求和查询。大数据安全分析平台应提供丰富的可视化展示组件和功能,提供多样的布局定义、灵活的仪表定义;通过多种图表结构实现对多维数据的展示,增强对数据可视化的发现、跟踪、分析和理解,提高表达主题的吸引力和说服力。
2技术需求
管理范围需求
大数据分析平台应实现对企业和组织的信息系统相关资产(包括业务系统、软硬件资产、网络和安全设备)产生的与安全相关的各类海量信息。具体应包含如下内容:
1、海量安全日志和事件信息
2、海量网络流元数据
3、设备和系统运行状态信息
4、海量网络原始流量数据
5、多种原始攻击样本文件和代码
6、安全漏洞和配置脆弱性信息
7、用户身份信息
8、各类威胁情报信息
功能需求
大数据分析平台应提供以下功能,以满足日益增长的对海量安全数据的快速采集、存储、分析和展示能力的需求。
安全事件和信息管理与分析
兼容传统的SIEM/SOC产品,实现安全事件和信息管理能力的扩充,解决海量信息安全日志和事件的数据采集和存储瓶颈,实现对海量数据的管理。解决传统的SIEM/SOC的应用/数据库架构导致的性能瓶颈,提高数据存储的历史周期、存储事件的汇总度(广度和深度)和查询分析的速度;采用分布式计算、数据挖掘等方法提供深层次的事件关联处理、分析和展现功能;应能依据数据规模进行弹性扩展,实现平台的快捷部署与管理,并整合多种安全分析工具和技术。
流量行为采集与分析
对网络中的网络流量元数据(Flow)进行采集和存储,对网络流进行流信息监控、制定流合规检测策略、发现异常流量及应用行为、进行流信息全存储,从而保证网络的正常、有序,从流安全角度辅助防范APT攻击。
全流量存储与分析
大数据安全分析平台应能实现网络原始流量数据的采集、存储、分析和回溯。根据客户对网络和数据的要求不同,实现按需存储,解决客户对重要海量数据的采集和存储。并可以针对存储的全流量数据进行分析,发现可疑问题进行取证,并根据需要对历史的数据进行原始数据的回溯。
APT检测
大数据安全分析平台应能实现对APT攻击的检测。扩展采集对象和信息,采用新一代的分析检测技术,通过异常行为分析和综合关联分析技术,发现未知攻击和可疑攻击行为,并对其进行还原和协议分析,从而有效检测0Day攻击,并深度提取可疑执行样本,从而b帮助安全分析人员发现APT。
恶意代码检测
大数据安全分析平台应能采集并存储网络全流量数据,对全流量数据进行检测,有效发现恶意代码并进行保存。
威胁情报管理
大数据分析平台应提供智能威胁信息管理功能,通过海量异构数据进行威胁数据采集分析,综合平台发现的威胁信息、外部安全社区发布的威胁信息、人工分析的威胁信息,形成组织有用的集中的安全情报并推送下发,供分析引擎使用,实现智能威胁信息的充分利用,形成安全分析人员的决策辅助支撑。
安全需求
权限划分要求
大数据分析平台需要进行管理权限的划分,不同的管理员具有不同的管理权限,例如管理配置权限与审计操作权限分离。
登录安全要求
大数据分析平台在用户登录上需要强身份鉴别功能以及鉴别失效处理机制。
传输安全要求
大数据分析平台内部各个组件之间的通讯协议,以及客户端与大数据分析平台之间的通讯协议应支持身份认证与传输加密,确保数据在传输过程中不被泄漏、篡改和删除。
数据安全要求
大数据分析平台的后端存储了海量的安全信息数据,其数据量相比传统安全分析平台有了巨量的增长,大数据分析平台应确保数据的完整性和可用性,提供合理的数据备份方案,在平台出现软硬件故障时,保障数据不会被损坏和丢失。由于大数据分析平台可针对海量数据进行抽取和关联,使破坏隐私更加容易,应采取措施确保客户的数据不被滥用和泄露。
兼容性需求
大数据分析平台应具有良好的兼容性,包括平台兼容性和工具兼容性。可支持多种浏览器,跨平台运行。也应可以通过较少改造兼容客户已投资建设的IT安全设施,可利用各IT安全设施采集和分析的数据进行综合分析,充分利用客户原有投资。
扩展性需求
大数据分析平台对被分析对象及安全数据有良好的扩展性,其应支持各类常见的异构信息的采集,并可扩展新的结构化或非结构化信息数据类型,并可根据分析要求对异构数据进行不同策略的存储。
可靠性需求
大数据分析平台应具有持续不间断地满足客户相关应用目标的能力,应保证平台安全可靠运行,应通过可靠的数据备份策略和方法保证大数据资产安全可靠存储。
3平台架构设计
3.1总体架构设计
大数据安全分析平台总体设计如下图。
大数据分析平台应分为采集层、大数据层、分析层、管控层和呈现层。
采集层采集与安全相关的海量异构数据,主要分为两大类型,一类为高频数据,也就是通常所说的大数据,以海量、高速、异构为特征,主要有外部流、运行状态和性能数据、日志和事件、原始流量镜像包和Flow流数据等,通过高速数据总线采集;另一类为低频数据,包括常见的资产信息、拓扑信息、配置信息、弱点信息、身份信息和威胁情报等,通过数据低频数据总线进行采集。
大数据层实现对采集数据的预处理和存储,将需要的数据转换为结构化数据,对非结构化数据进行索引和存储,将数据分别送至分布式文件系统和内存中供分析层使用。
分析层实现对预处理后的海量数据的实时和历史分析,采用多种分析方法,包括关联分析、机器学习、运维分析、统计分析、OLAP分析、数据挖掘和恶意代码分析等多种分析手段对数据进行综合关联,完成数据分析和挖掘的功能。
管控层实现日常安全管理的工作,经过分析层,大数据分析平台将发现的问题呈献给管控层,管控层实现信息安全的监控预警、安全审计、安全度量、运营管理和情报管理的工作。
呈现层负责对海量数据的原始数据、分析结果数据和管控数据进行可视化展示,提供人机交互界面,向安全管理人员呈现全方位安全状态。
3.2核心功能设计
大数据分析平台的核心功能主要分为采集与存储、实时分析、历史分析、追溯取证、恶意代码分析、情报分析、可视化展示等方面。
采集与存储
大数据分析平台采集不同类型的异构数据,这些数据基于传统的SIEM/SOC采集的数据进行扩展,他们的种类不同有运行状态与性能数据、日志和安全事件、原始流量镜像包、网络流量元数据(Flow),以及资产信息、拓扑信息、配置信息、弱点信息、用户身份信息、威胁情报信息等;结构不同,有结构化、半结构化和非结构化数据;规模不同,有高速数据,如性能、日志、原始流量、网络流量元数据等,有低速数据,如资产、拓扑、配置、弱点、身份和情报等。
针对这些海量多样数据,大数据平台提供各类专用可扩展的分布式采集器以满足数据需求,分布式采集器对采集的数据进行预处理,并使用高频数据和低频数据总线将采集的数据送至不同的区域进行存储,供后期分析使用。高频数据总线根据资源管理器的调度将预处理后的数据发送至分布式计算存储节点的高速缓存(即内存)中,同时,分布式计算节点对高速缓存中的数据进行分析,并将数据保存在分布式文件系统和NewSQL数据库中。
实时分析
实时分析主要由各分布式计算存储节点进行,分析管理中心采用流式计算框架,使用复杂事件处理(Complex Event Processing)技术的流式分析引擎对采集的数据进行实时关联分析,关联分析有集中式实时分析和分布式实时分析,CEP分析引擎采用基于规则关联和情景关联的分析技术。
同时,分析管理中心使用持续聚合引擎对实时数据进行基于机器学习的实时分析,机器学习引擎使用的算法有基于行为轮廓的学习算法、基于熵模型的学习算法、持续的聚类分析算法、持续分类算法、指标分析方法、基于自学习的周期性和非周期行异常分析方法等,通过实时分析发现当前正在发生的安全威胁和攻击。
历史分析
针对保存在分布式计算存储节点和数据库中的历史数据进行历史分析,可发现过去未发现的问题,帮助安全分析人员进行调查分析发现问题,改进算法并消除再次发生的隐患。历史分析针对保存在分布式文件系统中的数据进行,实现的功能有追溯分析、取证分析、查询统计,有效的弥补了传统数据库技术效率低下的问题。
针对历史数据进行数据挖掘,以从海量的低价值数据中发现对企业和组织有价值的信息,为组织安全管理带来收益。数据挖掘采用基于MapReduce的处理机制,使用数据仓库技术对历史数据进行分析,挖掘方法有预测分析算法、统计学方法、聚类/分类/推荐算法,决策树分析、图分析方法等,为安全分析人员提供有价值的安全分析决策支撑数据。
追溯取证
大数据分析平台实现了原始流量、网络流量元数据(Flow)、日志和事件、威胁情报等的存储与分析,通过多种分析方法发现威胁。通过不同类型数据的综合关联,实现从“威胁攻击告警”追溯到相关的“安全事件”再追溯到相关的“网络流量信息”,最终追溯到威胁和攻击的“原始数据包”,通过对原始数据包的还原与分析,完成对安全威胁和攻击的调查取证。通过MapReduce的处理机制,实现对历史数据的快速检索和查询,追溯相关数据,完成调查取证的功能。
情报分析
大数据分析平台提供丰富的决策支撑知识库,有资产库、拓扑库、配置库、弱点库、身份信息库、威胁情报库、信誉库、敏感信息库等内容。通过情境感知引擎,对威胁情报进行综合分析,形成平台可读、可识别、可执行、可修改的威胁情报知识,为各分析引擎提供知识支撑。
可视化展示
平台在展示层提供丰富的可视化展示功能和组件,可视化展示安全分析人员重点关注的信息,将重要和可疑的数据以醒目的方式展示。同时,提供友好的人机交互界面,安全分析人员可通过人机交互进行可视化编辑关联分析规则,编写数据分析算法。平台还提供丰富的对外接口,方便与第三方系统集成,包括第三方分析系统,展示系统和安全工具等。
4关键技术
分布式海量数据存储技术和文件索引技术
基于复杂事件处理(CEP)和分布式实时计算的流式分析技术
基于Map/Reduce架构的批量数据处理技术
大规模并行处理(MPP)数据库技术
弹性搜索引擎技术
交互式查询技术
全包存储与原始流量还原与分析技术
多种机器学习和数据挖掘技术
动态虚拟执行技术
云计算技术
5平台市场价值
大数据安全分析平台可帮助客户解决信息安全分析和管理过程中遇到的困难,提供强大有效的信息安全分析工具,保护已有投资,实现客户信息安全投资的增值,具体价值如下:
1)帮助客户解决海量异构数据的存储;
2)实现海量数据的实时和历史分析,了解当前及过去,并预测未来;
3)提高安全分析人员对安全事件的调查效率,使海量数据的分析变为现实;
4)为客户提供统一的安全威胁检测能力,实现事件、流、原始流量、用户身份、威胁情报的综合关联分析;
5)提供强大的APT分析能力和手段
6)提供完整的取证能力,可定位至流和原始报文
7)提供完善的威胁情报管理和分析,转化为安全生产力
8)支持全流量数据分析
9)兼容现有SOC/SIEM,保护已有投资
10)与云平台融合,方便管理维护
11)丰富的可视化数据展示和人机交互界面
6 结束语
大数据的应用是十三五期间国家电网公司信息化“SG-ERP V2.0”实施的关键技术,具有广阔的发展前景。基于大数据的安全分析所带来的挑战,无论在管理还是技术层面都是前所未有的。作为企业信息化管理者,应该努力探索解决之道,通过深入的分析和挖掘,找出内在的规律和潜在的隐患,确保电网生产的安全,实现创建全球能源互联网的宏伟目标。
论文作者:冯刚平
论文发表刊物:《电力设备》2017年第23期
论文发表时间:2017/11/29
标签:数据论文; 平台论文; 海量论文; 大数论文; 信息论文; 据分析论文; 流量论文; 《电力设备》2017年第23期论文;