摘要:随着云计算技术的出现,为数据挖掘系统的优化设计提供了技术支持,进而解决数据大量增长和挖掘系统性能不足间的冲突。本文主要分析了云计算基础上数据挖掘系统的设计与实现,将云计算技术与数据挖掘技术相结合,提高系统的计算能力,深入挖掘信息价值,以便提高数据分析效率,满足用户的使用要求。
关键词:云计算;数据挖掘;系统设计
前言
信息时代背景下,大数据、云计算等先进技术在人们工作生活中取得广泛应用,在面对多样化网络数据信息时,应进行信息分析和筛选,去除冗余信息,使用户快速获取有价值的信息。数据挖掘系统的构建,能满足上述信息使用要求。在数据挖掘技术应用下,能高效处理信息庞大及组成机构复杂的数据信息,表明数据挖掘系统具有较高应用价值。
一、基于云计算的数据挖掘系统设计
在云计算平台上进行数据挖掘系统设计,主要目的在于充分发挥云计算的计算能力及数据存储能力,确保数据挖掘系统在面对海量数据时体现出较好应用性。实际进行系统设计时,应主要考虑以下问题:设计高效、可靠的数据挖掘计算方法;明确数据特征,根据分析结果将数据分配到不同节点上,同时进行多类数据的计算;建立知识库,针对用户满意的结果,可将其保存在知识库中,逐步实现知识库完善构建。在知识库作用下,进行有价值信息的挖掘,并能改善系统性能;注重界面的合理设计,设置开放接口,以便保障用户体验良好[1]。在明确上述设计要点的条件下,能进行之后的系统设计工作,结合目前应用性强的数据算法,提高系统设计效果,并设计功能模块,确保数据挖掘各环节的有机衔接。
通常来讲,在云计算环境中进行数据挖掘系统构建,是指将多种技术融合在一起,系统内主要包括三大功能模块,如任务调度模块、算法模块以及数据集模块,数据挖掘系统模型如下图所示。用户可利用移动终端完成互联网操作,进行信息查询和使用。
图1 基于云计算的数据挖掘系统设计模型
在明确数据挖掘系统功能模块设计要点的情况下,可具体分析模块设计要点,以便保证系统功能正常发挥,能为用户提供有价值的信息,使其各项操作顺利进行,是提高系统性能的有效措施。下面本文将围绕三大功能模块讨论系统设计流程。
(一)任务调度模块
在数据挖掘系统运行过程中,要完成多个调度任务,为了保证系统高效运行,应设计任务调度模块,避免出现任务执行冲突现象。在具体建立任务调度模块时,应注意到该模块由知识库和调度控制部件两部分构成,在两者协调作用下,能有效接收用户需求指令,将任务信号传输到控制端。其中任务调度部件主要完成接收界面或者开放端口发出的行为指令,并在与其他功能部件共同作用下完成操作任务,确保用户请求实现的有效性和及时性;知识库体现出易操作、知识结构化和易利用等优点,将优质知识信息集中在数据库中,智能判断用户需求的数据信息,并利用知识表达方式将网络存储器中的组织、存储及管理等有关的知识内容进行整合,得出有效的分析结果,在系统的数据分析管理过程中,对用户请求进行有效判断。将满足用户需求的数据挖掘结果看作是有用知识,将其导入知识库中,逐步完善知识库内容,并突出用户评价反馈环节,注重数据挖掘系统功能的完善。
(二)算法模块
算法模块设计好坏对数据挖掘系统整体运行质量有直接影响,为了提高系统使用效益,应建立算法库模块,不断优化算法流程,确保各类数据能在算法模块运用下有效计算,并挖掘其中的有用信息。将算法模块引进挖掘系统的重要意义在于提高数据计算准确性,将数据库和算法模块分离开,降低耦合度,为各个功能模块的升级维护提供条件。通过算法库的扩展和完善,可适应数据量不断增长的趋势,切实发挥数据挖掘系统功能[2]。通常将数据挖掘分成描述型和预测型两种,其中描述型数据挖掘是指采取简单论述的方式,将大量数据的性质表示出来;而预测型挖掘方式强调利用特定方法,将数据集转变成数据模型,用于预测之后数据的性质。如线性回归、决策树、神经网络是典型的预测模型,能提高数据分析效果,促进系统改进设计。
(三)数据集模块
要想取得理想的数据挖掘效果,需要保障数据环境良好,能为数据挖掘和分析创造基础条件。数据集模块的构建能满足上述要求,该模块主要功能为降低数据异构性,去除数据库中的空缺数据、冗余数据和不相符数据,从而做好数据筛选作业,能为之后数据传输和存储提供有效信道,为数据挖掘高效性及准确性提供基础。对于数据集模块来讲,主要包括数据文件、数据存储、数据处理等部件,分别对应不同功能,满足大量数据处理要求。
二、系统实现
本次系统开发是基于云计算技术,要想实现云计算技术与数据挖掘技术的有机融合,应注重挖掘算法的改进,确保计算方式满足大规模服务器上数据挖掘的需求。在系统运行中,能将总的挖掘任务分成多个子任务,将任务分配到计算机设备上进行同时处理,通过调整系统资源完成数据挖掘。该系统开发语言为Python,具有资源库丰富、可扩展和可移植的优点,有利于系统良好开发。算法运行步骤为:定义一个映射函数,在大数据组织中分析各个数据,提出数据特征对应的键值;将用户请求看作是相应的任务,借助Map函数,将其分成多个小任务,并由不同机器完成这些子任务,结合已知的键值,生成新键值;当合并函数输出同样的键值后,将其映射成一组新键值;当全部任务完成映射后,可进行之后操作,反之继续映射。为了验证系统设计合理与否,可将其运用到师生电子数据资源查询中,以学术论文为数据集,评判系统在论文查询和使用中的运行性能。验证结果表明,挖掘算法在数据分析上有较好适用性,能结合用户需求信息,为其提供相应的文献资源连接,并能结合用户系统操作特点,将有价值的知识传递至知识库中,由此提高用户体验。
结论
综上所述,将云计算技术融入到数据挖掘系统建设中,提高系统性能,使其能运用在大量网络信息的分析及整理中,为用户提供有价值信息,突出数据使用价值。本文进行了云计算技术与数据挖掘技术融合途径的研究,在设计多个功能模块的基础上,丰富系统运行功能,并通过实际验证,明确该系统设计的可行性。
参考文献
[1]王晓妮,韩建刚.基于云计算的数据挖掘系统设计与实现[J].计算机技术与发展,2019,29(03):178-182.
[2]李颖.基于云计算的分布式数据挖掘系统设计与实现[J].电子技术与软件工程,2016(15):204.
论文作者:黄鹏
论文发表刊物:《基层建设》2019年第14期
论文发表时间:2019/7/29
标签:系统论文; 数据论文; 数据挖掘论文; 模块论文; 算法论文; 信息论文; 用户论文; 《基层建设》2019年第14期论文;