摘要:所谓的大数据挖掘技术,其实就是从海量数据信息中进行有价值信息提取的技术。伴随着物联网、云计算等技术的发展,数据信息复杂程度不断提高,采用传统数据挖掘算法已经无法实现数据实时挖掘。基于云计算模式建立大数据挖掘体系架构,需要结合大数据特征实现相关技术集成,达到有效实现数据挖掘的目标,继而使大数据挖掘技术优势得到充分发挥。
关键词:云计算;大数据挖掘;解决方案
经济社会向前发展,大数据时代的到来,为推动计算机数据挖掘技术深度应用提供了更为广阔的平台,云计算视域下数据挖掘技术应用领域越来越广泛,但是在具体应用过程中也遇到一些问题,需要尽快解决。加强云计算视域下数据挖掘技术应用探索,具有深远的社会影响。
1数据挖掘技术与云计算基本内涵与特征概述数据挖掘技术是指通过采取一定的方法,对被挖掘对象文档中的信息数据等进行提取,进而进行进一步的分类整理和分析汇总,为数据应用、存储共享和科学预测等提供基础支持的一种技术。数据挖掘技术是一种系统的概念,包含很多的子系统和关联技术。主要功能体现在三个方面:(1)具有分类聚类功能。在对相同的交易数据库管理过程中可以对项目之间的关系进行离婚,借助专业化软件以及分类聚类技术对数据项进行分组,便于数据后续查询和应用管理。(2)具有分析预测功能。数据挖掘技术可以总结数据的规律,对相关数据之间的自变量、因变量之间的关系进行挖掘研究,从而为找出数据规律更好地为决策制定等提供参考。(3)数据挖掘技术可以进行虚列模式编辑,这样可以按照时间顺序对数据之间的内在联系进行分析,依据重要等级划分层次,更好地进行有效开发和利用。数据挖掘的基本过程包括数据准备、数据挖掘、模式评价分析以及知识运用四大主要环节。云计算是基于互联网的相关服务的增加、使用和交付模式,借助互联网来提供动态易扩展且经常是虚拟化的资源。云计算具有显著的特性,主要包括服务器规模大、可靠性强、通用性高、资源虚拟化、成本价格相对较低、拓展性强、可以提供按需服务等。基于云计算开发数据挖掘系统,具有显著的优势。一方面数据挖掘技术本身处理数据信息量比较大,复杂程度越来越高,所以可以借助云计算技术进行深度融合,提高高效处理水平,另一方面可以借助云计算技术构建低成本分布式并行计算环境,从而降低对高性能机器的过度依赖。此外还可以借助云计算技术提升设备处理效能,更好地控制容错性。
2基于云计算的大数据挖掘解决方案
2.1平台解决方案
结合大数据挖掘体系架构可知,平台层是实现大数据挖掘与分析的关键环节。采用Hadoop平台,能够为多功能大数据挖掘体系架构的实现提供支持。从结构上来看,Hadoop平台包含数据源、大数据挖掘平台、用户层三个部分,数据源为复杂处理对象,由结构、半结构和非结构数据组成。在大数据挖掘平台上上,包含各种计算模式,面对实时数据可以提供多种分析与挖掘功能。用户层可以提供系统认知与接受服务,实现数据信息交互。Hadoop以HDFS、MapReduce和HBase为核心,能够快速运行,并且具有较高扩展性和容错性,能够实现数据批处理和流处理,增强数据流的可伸缩性。但采用Hadoop难以进行拥有复杂关系的图数据处理,无法为内存计算提供支持,因此需要融入并行计算PowerGraph等工具,促使数据处理和查询速率得到提高。
2.2数据预处理
采用Hadoop平台进行数据预处理,不同于传统数据挖掘,无需采用既定ETL等驱动方法实现静态数据处理,而是能够根据数据变化进行技术的选用,实现动态数据预处理。具体来讲,就是采用多模式实体识别、远程自动采集融合、数据流实时处理等各种技术获得更强迭代计算、并行计算等能力。
期刊文章分类查询,尽在期刊图书馆在数据传输迁移期间,采用Sqoop等流式计算技术完成数据流同步处理,使数据能够得到即时处理。而大数据的处理不关注因果联系,只是根据数据间的关联关系进行数据处理,因此更能增强数据预处理的实时性。
2.3数据存储管理
以往数据挖掘需要采用行存储方式,利用关系数据库系统进行多维数据模型、结构化数据等各种数据的存储,数据将被随机存储。由系统内部进行存储模式定义,导致数据存储相对被动,缺乏可扩展性,并且无法实现数据灵活管理。采用大数据挖掘技术,主要采用列存储或行存储模式,能够对结构和非结构数据进行存储。采用该种数据存储管理方法,能够使数据得到灵活存储管理,增强体系可拓展性。为保证数据一致性,同时对关系数据模型进行兼容,需要采用Spanner系统,为同步跨数据中心复制提供支持。采用不确定关系模型进行数据存储,能够对动态数据进行直接存储。
2.4数据计算分析
云计算环境下,数据类型繁多,数据形式多样,数据规模也不断地扩大。要想将这些数据进行整理分析,深度挖掘数据之间的关联,并将结果给用户合理使用,算法成了关键技术和重要工具。在云计算环境下,数据量的大小很难精确估计,依赖于小规模分布式计算机的集群来实现大批量的数据处理是远远不够的,最为关键的是运算部署难度系数大,成本投放扩大。在这种情况下,把云计算技术运用到数据挖掘中,能够发挥一定效率。构建一个基于Hadoop的开源并行数据挖掘平台,利用MapReduce框架,来实现数据处理。数据挖掘技术从产生以来,涉及多种多样的算法,不同的算法具有不同的使用环境和范围,也会产生不同的效果。用户可以根据数据的情况和自己的需求来选择算法,也可以对算法进行转化,充分利用云计算技术对算法的帮助来提高数据挖掘的能力和水平,将数据挖掘算法和功能展示出来,为达到用户最终的数据挖掘目标而工作。基于云计算的数据挖掘算法,往往会和其他领域的算法结合起来,比如人工神经网络系统可以应用于基于云计算的数据挖掘技术中来,实现对超多数据的处理分析。深度学习算法可以对大批量的数据进行处理,同时,可以通过样本集的训练,让算法进行自动的数据处理和挖掘。遗传算法在数据挖掘技术中的应用也非常广泛,通过可视化技术作为辅助手段,依靠动画、影像技术实现形象化的可视化展现,给用户更好的体验。丰富了信息技术的展示模式,有助于更好地推广应用。
2.5数据挖掘展示
对采用数据挖掘算法处理得到的数据,还要进行展示。过去采用的挖掘技术仅能展示出简单数据结果集,所以只适用于数量小、关系简单的情况。针对大数据挖掘得到的信息,需采用文字、报表和可视化图形等各种方式进行模型效果展示。能够采用的图形包含饼状图、散点图、GainLift图等,受I/O限制,难以对多维、海量和动态数据间的联系进行反映。采用人机交互方式,能够采用图像、动画等方式增强数据解释直观性,达到较好的可视化效果。现阶段,能够采用的可视化技术包含聚类分析可视化技术、宇宙星球图、标签云等,需要采用并行算法实现数据并行处理,完成高效原位分析,获得协同可视化效果。
3结语
大数据作为新兴事物,目前依然未能得到较好的挖掘处理。在云计算基础上,针对大数据挖掘体系架构存在的问题提出相应解决方案,采用Hadoop平台丰富体系功能,能够实现数据信息实时处理,为用户提供有效信息资源。实际采用该方案时,需要结合数据预处理、存储、分析计算和展示需求进行技术的合理应用,继而取得良好大数据挖掘效果。
参考文献:
[1]商挺.浅谈基于云计算的大数据挖掘及解决方案[J].中国新通信,2018,20(23):68.
[2]孙培锋.基于云计算的大数据挖掘体系架构研究[J].信息技术与信息化,2018(09):167-169.
论文作者:蒋诗百,摆小军,刘权,马婉贞
论文发表刊物:《基层建设》2019年第25期
论文发表时间:2019/12/12
标签:数据论文; 数据挖掘论文; 技术论文; 算法论文; 数据处理论文; 平台论文; 模式论文; 《基层建设》2019年第25期论文;