云计算视域下数据挖掘技术论文_袁琳静

云计算视域下数据挖掘技术论文_袁琳静

河南中钱商贸有限公司 河南郑州 450000

摘要:随着科学技术的发展,我国的数据挖掘技术有了很大进展,云计算、大数据等现代信息技术广泛应用于各个领域,且发挥着重要的作用。本文基于云计算视角,深入研究了数据挖掘技术,结合当前数据挖掘方面应用存在的问题,提出了具体的措施建议,以期为不断推动云计算与数据挖掘技术全面融合方面的研究提供一定的借鉴。

关键词:云计算;数据挖掘;海量数据

引言

近年来,我国逐渐步入了信息化、大数据时代,海量数据铺天盖地的覆盖过来,让人们应接不暇。为了能够更好的管理和运用大数据,这就需要对大数据进行有效的管理,结合Hadoop平台来对海量数据进行管理和挖掘,逐渐构建出以数据挖掘技术为基础的大数据的管理模型,从而不断有效的采集、分析、管理和运用海量数据,逐步实现大数据的一体化,不断提升大数据的管理的效率和质量,进而促进国家以及社会更好的运用大数据来发挥作用和价值。

1云计算技术的基本概述

第一,通过应用云计算技术,能够给用户提供所需的自助服务。第二,在云计算技术的作用下,能够随时随地借助各种网络设施,实现云计算网络系统的访问,并利用云计算技术来建设多人共享资源池。第三,在云计算的作用下,能够快速部署,将其应用功能充分发挥。通过探究得知,云计算技术能够给网络交易双方提供虚拟化的资源支持,在实际建设数据挖掘平台的过程中,通过把云计算技术运用其中,能够充分发挥应有的应用价值。

2数据挖掘

数据挖掘(DataMining)是指从模糊的、大量的、有噪声的、随机的和不完全的实际应用数据中,提取那些人们事先未知的、隐含在其中的、但又非常有用的知识和信息的过程。数据挖掘就是通过在数据库中的大量信息中分析每个数据,从中找出其规律并挖掘出有用信息的技术,主要包括这三个步骤:数据准备、寻找规律和规律表示。数据挖掘按照其挖掘目的可分为关联分析、分类分析、类聚分析、特异分析、演变分析和异常分析等挖掘任务。数据挖掘过程是一个通过原始数据不断修改、调整和循环的挖掘知识过程,可分为这四个步骤:1)数据预处理(数据采集、数据清洗、数据集成、数据抽样和数据转换);2)数据挖掘(通过各种挖掘算法,对预处理的数据进行知识发现的过程);3)模式评估(根据用户特点、爱好等来识别如何表示知识模式)4)知识表示(将最终的挖掘结果通过可视化的知识表示技术展示给用户。)

3基于云计算的海量数据挖掘系统

3.1数据挖掘

从实际角度来说,数据挖掘也就是数据库各项信息探索的过程,主要是利用对应技术和方案在海量数据中找出所需及赋有应用价值的新型。针对企业而言,其更愿意利用一系列方式从海量数据中挖掘具备较强应用价值的新型,同时数据规模越大越好,这样能够确保挖掘数据的真实性和合理性。在这种情况下,给海量数据挖掘应用环节提出了严格的标准。在云计算技术下,能够更好的满足上述需求。云计算技术能够对海量数据实现科学分类和保存,并结合数据挖掘技术应用状况,实现数据的动态分布,以此经数据挖掘技术作用充分发挥,利用容错机制促进数据挖掘稳定性的提升。

3.2账户管理

在云计算技术的指导下,借助数据挖掘技术可以构建完善的系统数据挖掘平台,进而在账户管理过程中,可以通过对收入、支出以及账户余额、历史交易记录等进行查询、浏览。支出明细主要是为了对用户使用云计算具体付费服务、相关账目明细等进行记录管理。收入明细主要是对用户应用数据挖掘技术获取的资源进行记录,并可以对普通挖掘算法进行购买和使用,不断对报酬明细进行优化。账户余额主要是为了对收支差额进行动态计算显示的过程。

期刊文章分类查询,尽在期刊图书馆用户可以对整体操作过程中的记录进行全面了解,实现实地查询。

3.3算法实现

在处理杂乱无章的大规模数据时,先要将其分割成无数个块后再将大规模的计算任务扩展到由大量普通单机服务器组成的无限规模机器群集上并行完成。算法具体实现步骤为以下几步:1)定义一个Map(映射)函数,从结构各异的大数据集中解析每个数据从中提出表示数据特征的键值key和value。2)把用户的挖掘请求当成相应的作业,利用Map函数将其拆分成若干个不同的Map任务,并将这些子任务分配到数据挖掘平台中不同的机器上去处理,再由给定的键值对<key1,value1>生成新的对应键值对<key2,value2>。3)合并Map输出的相同key2键值后经过Shuffle阶段映射成一组新的键值对<key2,lsit(v2)>。4)判定所有子任务是否完成映射,完成后进入下一步,否则继续映射。5)定义一个Reduce(归约)函数,并把新的键值对<key2,lsit(v2)>指定给它,形成新的键值对<key3,value3>,并将其写入文件。6)将这些文件结合起来的目标文件就是挖掘结果,对其进行可视化处理后输出展示给用户。

4基于云计算的非连续层次数据挖掘算法仿真实验与测试

在完成上述一系列非连续层次数据挖掘算法改进后,要证明它在云计算环境下的稳定性与准确性,所以应该基于云计算连续层次数据挖掘算法来深度调整它的数据挖掘性能,展开仿真实验。这里采用到了仿真软件配合计算机进行非连续层次数据的数据挖掘算法编程设计与仿真实验验证,其中所有的非连续层次测试数据均来自于大型云存储数据库,其采样样本个数应该为1024个,采样周期应该为0.04s~0.08s。在非连续层次数据挖掘算法改进的过程中就曾经受到过SNR的串扰干扰影响,其干扰指标数据最高可达到24dB,数据的标量时间序列基频应该在100Hz左右,其中包含至少3个非线性数据特征分量与频率分量。在数据挖掘算法仿真分析过程中,还要对非连续层次数据的原始数据,包括它的信息流模型进行分析,分别提取其中的特征向量数据,获得其原始数据的信息流时域波形图。基于云计算背景下的改进后数据挖掘算法在对非连续层次数据原始数据信息的分流方面是存在较强的非线性特征与自耦合性干扰的,它会直接导致数据挖掘精度变低,数据挖掘方法性能变差。在这种情况下必须改进数据挖掘模型,利用上文所提到的语义指向性特征提取方法提高数据波束聚类挖掘的收敛性,包括提高数据挖掘性能。

4云计算视域下数据挖掘技术应用方面存在的问题

(1)基于云计算的数据挖掘技术开发存在很多的不确定性,在数据挖掘任务描述、数据采集以及数据处理方面都存在很多的可变因素。(2)数据挖掘方式和结果之间存在很多的不确定因素。在实际应用数据挖掘技术过程中,选用的方法、结果以及目标如何体现匹配性和一致性等方面还容易受到很多外界因素以及关联因素的影响,从而难以进行全面确定。(3)挖掘结果评价方面受到使用者关注目标的判断,从而导致评价结果各异。(4)软件与服务性能是否满足和符合使用者的要求、预期,安全性、正确性以及服务效能等方面还需要不断提升。

结束语

总而言之,作为大数据背景下的核心技术之一,云计算得到了各个领域的认可和应用,通过把云计算技术运用到海量数据挖掘活动中,不但能够有效提升海量数据挖掘结果的真实性和精准性,同时还能促进数据应用价值的提高。

参考文献

[1]葛晓玢,刘杰.基于云计算的数据挖掘平台架构及其关键技术研究[J].景德镇学院学报,2017(06).

[2]马宏斌,王柯,马团学.大数据时代的空间数据挖掘综述[J],测绘与空间地理信息,2014(07).

[3]许晓燕.基于云计算的数据挖掘云服务模式研究[J].电脑知识与技术,2018,14(19):16-17.

论文作者:袁琳静

论文发表刊物:《基层建设》2019年第9期

论文发表时间:2019/8/2

标签:;  ;  ;  ;  ;  ;  ;  ;  

云计算视域下数据挖掘技术论文_袁琳静
下载Doc文档

猜你喜欢