关键词:数据挖掘;云计算;算法;云数据分析平台
前言:随着现代电网建设速度的不断加快以及规模的不断扩大,人们对电力系统的要求也在不断的提高,同时电力系统产生了大量的电力数据,这就需要电力系统具有一定的数据分析和处理能力,保证电力系统的正常安全运行,尤其是智能电力系统的不断发展,更需要其具有强大的数据处理能力。随着云计算技术的不断成熟和应用,电力企业应用云计算强大的数据存储和数据处理能力,建立起相应的电力云数据分析平台,从而可以有效解决大量电力数据处理方面存在的问题。通过利用相应的数据挖掘算法,可以有效分析和处理相关数据,将数据挖掘算法应用于电力云数据分析平台,能够充分发挥两者的优势, 对海量的电力数据进行处理并获取有用的信息。
一、云计算和数据挖掘相关技术概述
(1)云计算技术。云计算的本质是将大的计算任务进行划分为较小的任务,之后将这些小的任务分配给服务器中的相关计算节点进行并行处理。云计算能够通过网络按照一定的方式获取需要的资源, 其本身具有较多的特点和优势,比如具有较大的规模、虚拟化、较高的可靠性、通用性以及较高的可扩展性等,这也是云计算技术能够在较短的时间内得到较快发展的原因。云计算还具有较多的技术,其中最为关键的技术有数据存储技术、数据管理技术和资源调度。云计算能够保存相关数据的多份副本,有效保证了数据的可靠性,其分布式存储能够满足大量用户对资源进行同时访问的需求,保证系统对数据处理工作的高效率;云计算具有的较为先进的数据管理技术,能够保证对大量数据的有效管理,其采用的是一种列存储的管理模式。在一定的资源环境下,资源调度能够按照一定的调度规则进行资源的调整,并且其能够在很短的时间内实现系统进程的调度。
(2)数据挖掘技术。信息化时代的到来,使得电力企业的数据信息在不断的增长,大量的数据积累在电力系统的相关平台上,需要进行有效的分析和处理。数据挖掘技术是指利用相应的数据挖掘算法和其他工具,在大量的、复杂的数据中寻找到具有有用价值的数据信息,同时也可以发现数据信息之间的关联和相关规则。数据挖掘具有较为丰富的挖掘算法和不断完善的数据挖掘工具,数据挖掘包含着多种算法,每一种算法对应着不同的需求和应用场景,通过利用这些数据挖掘算法,就可以很好地获取到所需要的数据信息。
二、电力云数据分析平台分析
(1)电力云数据分析平台介绍。在电力云数据分析平台中,一般 是其基础云平台,并且能够实现相关数据输入到云数据分析平台的功能,在云数据分析平台中也包括并行化、增量化的ETL 组件,通过将相应的数据挖掘算法注入到云数据分析平台,就可以实现对海量数据的处理以及进行可视化展示。在云计算平台中包含着多种类型的计算节点,每个计算节点都具有特定的功能,当数据在计算节点之间进行传输的时候回占用较大的网络资源,这就需要每一个DataNode 具备数据存储和计算的功能,从而减少相关数据的传输, 这些节点还能够并行处理相应的数据挖掘任务,有效提升处理的效率。
(2)电力云数据分析平台架构。电力云数据分析平台的系统结构,在这个平台中包含了工作流引擎、门户、数据源服务器和Hadoop 集群等多个组件。在 Hadoop 集群中含有多个类型的几点,同时还有文本数据源服务器。
期刊文章分类查询,尽在期刊图书馆云数据分析平台中的工作流引擎可以对工作流进行编辑并执行相应的挖掘任务。
三、数据挖掘算法在云数据分析平台的应用
(1)关联规则算法。在关联规则的算法中,算法是其中最为经典的算法,也常常被用于执行相应的数据挖掘任务,在本文的研究中探讨了 算法在云数据分析平台的应用。传统的单节点算法不能够有效完成对海量电力数据的挖掘,所以基于云计算平台对算法进行并行化改进,使其能够适应复杂的电力数据挖掘任务。
通过选取某一电力企业的电力数据,使用该算法进行并行数据挖掘处理,在这个过程中,云数据分析平台的客户端会下发相应的数据挖掘任务请求,当平台的主控节点接收到相应的请求后,会向 NameNode 节点进行数据的申请,接着根据其返回的云数据信息将该算法发送到相应的数据存储计算节点上,云数据服务平台上的各个计算节点会产生相应的局部频繁项集,最后再由主控节点进行全局支持合计数的统计,从而利用平台对海量的电力数据进行处理,并完成相应的数据挖掘任务。
(2)朴素贝叶斯分类算法。在数据挖掘算法中,朴素贝叶斯分类算法不但是最经典的分类算法,也是一种较为简单的分类算法,其是以贝叶斯定理作为算法的基础。传统的朴素贝叶斯分类算法存在一定的不足,通过应用云计算的 MapReduce 对朴素贝叶斯分类算法进行改进,实现该算法的并行化。朴素贝叶斯分类算法用途较为广泛,通过利用该算法对大量的电力数据进行分析,可以得到有效的处理结果, 利用获取的有价值的信息就可以实现对用户行为的分析,而在这个过程中,最关键的就是对相关电力用户进行分类。在得到不同用户的大量电力数据后,利用电力云数据分析平台中的相关组件数据进行预处理,接着利用已经并行化的朴素贝叶斯分类算法对相应的数据集进行有效的处理,从而达到相应的数据挖掘目的。
(3)主要工作有以下几个方面:(1)基于密度的聚类算法DBSCAN并行化改进。现有的并行DBSCAN算法在进行数据分区时,通常是将原始数据库划分为若干个互不相交的子空间,随着数据维度的增加,对高维空间的切分与合并将消耗大量的时间。针对这一问题,本文提出了改进的并行基于密度的聚类算法(S_DBSCAN),并在Spark上具体实现。经实验表明,改进的S_DBSCAN算法在保证一定正确聚类结果的同时,具有更好的运行效率与可扩展性。(2)局部加权回归LWLR算法并行化改进。现有的并行LWLR算法,在进行近邻搜索时,采取的是遍历数据集中所有对象的方法,使得算法的效率较低。针对这一问题,本文提出了一种基于改进近邻搜索策略的T_LWLR算法,经实验表明,改进的T_LWLR算法具有良好的可扩展性,同现有的并行KNN-LWLR算法相比,T_LWLR算法具有更短的运行时间,算法的运行效率得到了提升。(3)基于云平台的数据挖掘分析系统的设计与实现。在改进的S_DBSCAN与T_LWLR算法的基础上设计并实现一个数据挖掘分析系统。用户可根据具体的应用场景,通过简单的参数配置来进行挖掘分析工作,并在系统中对改进的算法进行了具体的应用。
小结:综上所述,随着电力系统不断向智能化方向发展,越来越多的电力数据会积累在系统中,这就需要对海量的电力数据进行有效的处理并获取有用的数据信息。通过云计算技术和数据挖掘技术的结合,将数据挖掘算法应用于电力云数据分析平台上,用云计算来挖掘和处理数据,实际上带来了数据挖掘需求,个性化需求和多样需求的增加,传统的数据挖掘系统和方法无法满足数据个性化和多样化的要求,缺少处理动态数据和参数调节的装置,可信安全性较差。目前,传统的数据挖掘系统和方法存在无法满足数据个性化和多样化的要求,缺少处理动态数据和参数调节的装置,可信安全性较差的问题。
参考文献:
[1]张庆科,杨波,王琳,等. 基于异构模式的云计算关键技术研究[J]. 山东科学,2011,(5).
[2]赵俊华,文福拴,薛禹胜,等. 云计算:构建未来电力系统的核心计算平台[J]. 电力系统自动化,2010,(15).
[3]杨旭昕,刘俊勇,季宏亮,等. 电力系统云计算初探[J]. 四川电力技术,2010,(3).
[4]田卫东,姜海辉. 一种有效的并行序列模式挖掘算法[J]. 计算机工程,2009,(18).
论文作者:张天辰
论文发表刊物:《科学与技术》2019年第12期
论文发表时间:2019/11/15
标签:算法论文; 数据论文; 数据挖掘论文; 电力论文; 平台论文; 电力系统论文; 节点论文; 《科学与技术》2019年第12期论文;