摘要:当下数据挖掘技术已成为计算机领域的一个新的研究热点,其应用也渗透到了其他各大领域。在大数据背景下数据挖掘能够为企业进行数据采集和处理,本文将对数据挖掘在企业发展中的应用展开阐述,并对数据挖掘技术的发展创新作了展望。
关键词:数据挖掘;大数据分析;企业管理;信息技术
随着互联网的出现和发展,企业内部网和企业外部网以及虚拟私有网慢慢的推广并应用了,此后,人们就可以跨越时空地在网上交换数据信息和协同工作,完成一些之前无法想象的事情。当数据量极度增长时,人脑已经无法面对海量数据进行快捷的分析,这时需要一种有效的方法,由计算机及信息技术来提取有用信息和知识。所以,从数据库中发现知识及其核心技术——数据挖掘便应运而生了。数据挖掘是一门新兴的交叉学科,它集成了许多学科中成熟的工具和技术,助它可解决企业所遇到的至关重要的商业问题和决策问题。
一、数据挖掘在企业应用中的基本过程
从大数据中自动地提取多层特征,通过数据驱动的方式,采用一系列的非线性变换,从原始数据中提取由低层到高层、由具体到抽象,可以有效指导数据挖掘技术进行提取、整理数据和知识。由数据挖掘的基本过程如图1所示:
1.1数据准备
数据准备,是从海量的原始数据中准备要据挖掘的数据,它是长期的、无规律的数据积累的结果。由于原始数据不适合数据挖掘,所以要先进行预处理,包括数据选择、清洗、推测、转换等操作。数据准备的好坏直接决定着数据挖掘的质量和效率。
1.2数据挖掘
数据挖掘是整个程序的关键过程,按照数据挖掘的目标要求,选择合适的算法,来挖掘数据规律,常见的算法有决策树、分类、神经网络、Apriori算法等。
1.3模式的评价、分析
对挖掘过的数据结果进行解释、分析、提取有意义或有使用价值的规律,还原成人们能够理解的数据语言。
1.4知识运用
知识运用就是对挖掘的评估结果在现实决策中的运用,这是一个非常重要的过程,也是数据挖掘的最终目标,价值的体现。
二、数据挖掘技术企业发展中的应用
2.1聚类分析
聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的析过程,其目的就是通过相似的方法来收集数据分类.它是一种无先前知识,无监督的学习过程,从数据对象中找出有意义的数据,然后将其划分在一个未知的类,这不同于分类,因为它无法获知对象的属性。“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律,聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域。聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法,硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类。模糊聚类就是根据隶属度的取值范围的大小差异来划分类。一个样本可能属于多个类。常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等。
2.2分类和预测
分类和数值预测是问题预测的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类。分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别。常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等。预测就是根据分类和回归来预测将来的规律,常见的预测方法主要有局势外推法、时间序列法和回归分析法。
2.3关联分析
在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生。关联分析就是利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测,如经典实例购物篮分析,就是通过分析顾客购物篮中物品的管理规律,来分析顾客的购物心理和习惯,然后根据这种规律来帮助营销人员制定营销策略。
2.4人工神经网络
神经网络通过复杂的大批量数据进行分析,实现对于计算机或人脑而言非常复杂的模式抽取及趋势分析,它是建立在自学习的数学模型基础之上的,神经网络既可以是有指导的学习,也可以是无指导聚类,但无论哪种,输入到神经网络中的值都是数值型的。目前在数据挖掘中,最常使用的是BP网络和RBF网络两种神经网络。
2.5遗传基因算法
在数据挖掘中,遗传算法经常被用作评估其他算法的适合度.它是一种由生物进化而启发的一种学习方法,通过对当前已知的最好假设变异和重组来生成后续的假设,用目前适应性最高的假设的后代来代替群体的某个部分,来更新当前群体的一组假设,以便实现各个个体的适应性的提高,遗传算法由三个基本过程组成:繁殖(选择)、交叉(重组)、变异(突变)。
三、数据挖掘应用的创新展望
随着数据挖掘越来越受到重视和关注,越来越多企业开始对其业务开展数据挖掘应用。可以通过数据挖掘技术进行业务检测、潜在客户的风险评估、趋势分析等。在客户关系管理方面提供不可忽略的作用,数据挖掘可以通过大量数据,分析出适合客户的产品使用模式或协助了解客户行为,从而可以改进通道管理。举个例子,很多时候,我们会发现当消费者需要一件产品的时候,这件产品便会促销打折,很多人会认为这是巧合,实际上是依靠数据挖掘技术基于顾客生活周期模型来实施的。可视化技术是数据挖掘中应用非常广泛的一种辅助技术,它借助图形、图像、动画等手段形象地指导操作、引导挖掘和表达结果等。这种手段很好地解决了数据挖掘中涉及的比较复杂的数学方法和信息技术的表现形式,方便了用户理解和使用技术,为数据挖掘技术的推广普及起到很大的作用。并且数据挖掘技术还可以进行客户统计与分析,能提升销售和广告业务的准确性与有效性。
四、结束语
传统数据挖掘技术很难有效地对海量、高维、动态的网络数据进行分析,这成为当前商业智能、决策分析和知识发现等领域中的主要技术瓶颈,网络动态数据挖掘能有效解决这一问题。通过对数据进行挖掘,我们可以找到对商业销售及生产极为有效的一些信息,这些信息一般通过具体的模式得到反映。数据挖掘将是今后几年全球范围内重点投资研究的十大新技术之一,它引起了学术界和工业界的广泛关注,是当今数据库系统研究和应用领域内的一个热点问题。
参考文献:
[1]数据挖掘技术综述[J].蔡娜.电脑学习.2016(03)
[2]论数据挖掘技术的发展前景及应用[J].王浩川,何艳丽.中州大学学报.2017(02)
[3]浅谈数据挖掘技术及其研究现状[J].刘先花.现代情报.2017(03)
[4]数据挖掘技术及其创新[J].袁溪.科技资讯.2016(10)
论文作者:刘静楠
论文发表刊物:《电力设备》2018年第14期
论文发表时间:2018/8/21
标签:数据挖掘论文; 数据论文; 算法论文; 技术论文; 神经网络论文; 它是论文; 过程论文; 《电力设备》2018年第14期论文;