(浙江盾安人工环境股份有限公司 浙江杭州 311100)
摘要:大数据时代的到来,使得数据挖掘技术成为极具影响力的工具,颠覆了以往各个领域的运作模式,使得各行各业能够把握更高效的运行方案。随着数据挖掘带给人们方便的同时,个人隐私的安全问题也亟待解决,只有建立完善的法律法规,加强数据基础设施保护,充分发挥标准的指导和引领作用,才能让数据挖掘技术更好地为社会服务。
关键词:大数据;数据挖掘技术;应用
1关于大数据
其实大数据并不仅仅指海量的数据,把大型关系数据库称为大数据也有不对。大数据具有“高维、海量、实时”的特点,就是说数据量大,数据源和数据的维度高,并且更新迅速的特点。而这些特点都是传统方式难以应对的,相关的技术就要升级,新的技术栈通常基于分布式架构解决,而分布式架构又带来一致性、资源调度、性能优化等多种问题,由此批处理、流计算、图计算、即席查询等方向都有发展。大数据使用到的相关技术包括有数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模块预测和结果呈现等。传统的数据挖掘就是在数据中寻找有价值的规律,这和现在热炒的大数据在方向上是一致的。可以理解成大数据是场景是问题,而数据挖掘是手段。大数据是包含数据挖掘的,两者是息息相关的。
2数据挖掘技术概述
数据挖掘的本质是在数据库中发现隐藏的知识内容,是当今社会人工智能和数据处理领域重点研究的课题。之所以称为“挖掘”,是因为这项技术所寻找的知识是之前并不确定的、具有潜在价值的、隐藏的内容。数据挖掘的过程就是决策支持的过程,数据挖掘就是以统计学、大数据技术为基础,以自动化学习、AI智能以及识别技术等为基础,非常规化地自动分析来自各行各业的数据,并总结出一定的关系网络,从中发现隐藏的模式或潜力,来协助决策人员引导市场发展、降低风险,做出正确的预判。
从技术上讲,数据挖掘是需要从一些大量的问题数据中提取隐藏的知识和有效信息,并且保证提取出来的信息和知识是之前不知道的,确保具有一定的潜在价值。这些问题数据包含不完整的数据,有缺损的数据,不能完全识别的数据,以及随机的应用数据。其中,数据的来源必须要真实,数据量要大,提取的信息必须是目标用户群所感兴趣的,并且在实际操作中要可行[1]。
对于原始数据,可以是来自各行各业的数据库,例如关系数据库中的结构化数据;一些文本、视频资料等半结构化数据;例如在网络上散布的非常零散的没有任何关联的数据。针对提取有效信息和知识的方法包含演绎、归纳整理、数学模型、非数学模型等。提取出来的知识可以用在信息检索、快速查询、过程控制等,还可以用于维护数据本身。因此,数据挖掘是一项混合技术,它能够把数据充分利用起来,从简单的查询到复杂的演绎,从简单的表层知识到深入的隐藏知识,这都是当今社会进行决策和引导的关键技术知识。
3数据挖掘技术的分析方法
3.1聚类
聚类分析是将数据集划分为多个类似的组,其目的是最大限度地提高识别相同的数据类型之间的关联性。通过不同数据之间的关联性,找到有用的数据集。这种分析方法可以应用在客户群体、客户分类、背景分析,以此事先分析客户需求并提前进行准备,聚类分析广泛存在于心理学、医学、销售等领域中的数据识别分析。
3.2分类及事先推测
分类是对相同的数据库里面的数据根据形式、特点进行对应分类,并针对不同的目的进行统计和划分。这种方式的好处是可以通过数据的某一特点,反映该数据项的目的需求。该方式可用于客户分类、客户特征、满意度、购买趋势的分析,该方式对于单一行业来说数据积累越多价值越高,是一种连续积累的价值功能模型。
3.3关联分析
在自然界中,各事物之间存在一定的联系。关联分析利用这一特性,查找存在于本数据集合与对象集合之间的关联、相关性或因果结构。该方式能发现交易数据中不同商品的关联性,防止在交易过程中可能出现的问题,或者寻找市场的影响因素以不断改良自身产品,使利益达到最大化。
期刊文章分类查询,尽在期刊图书馆
3.4特征分析方法
特征分析方法的特点是在数据库内部的一组数据中提取关于该组的数据,从而显示整个数据的特征,作为营销人员对客户流失数据的提取,了解如何利用这些数据找到原因,有助于留住客户。
4在大数据中数据挖掘技术的应用
4.1超市中的应用
沃尔玛公司在欧洲的分店的有一个经典的案例:沃尔玛公司采用数据挖掘技术对欧洲店的一年的销售数据进行分析,发现一个让人惊讶的关联结果:在居民区中纸尿布卖得好的店铺啤酒也卖得很好。原因是欧洲的妈妈让爸爸去超市买纸尿布时,爸爸通常都会顺带给自己买两罐啤酒。因此纸尿布与啤酒一起销售出去的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。
通过类似的数据挖掘方法,发现商品与商品之间的关联规则,在零售业更是应用得炉火纯青。在吉之岛超市中,摆放寿司的地方总能看到芥末和酱油。超市里在牙膏的旁边通常配备牙刷和剃须刀;洗发水的旁边摆放香皂和浴巾;在水果店里苹果的旁边摆放香蕉;在市场中售卖活鱼的档口中也售卖姜、葱、芜荽,这样一种商品的售卖可以促进另一种商品的消费。
4.2公安系统执法应用
2018年4月,深圳交警结合视频识别技术,试点人工智能“刷脸”系统,对交通违章行为进行治理。人脸识别出违章者信息,5月1日上午9时,深圳市福田区国花路与桂花路交汇处,红灯亮起时,一名身穿红色工服的快递员,因为闯红灯,被深圳实行“刷脸”执法以来,开出第一张罚单。刷脸执法系统主要通过视频检测到违章行为,深度学习人脸技术,对人脸进行实时提取和识别,自动储存闯红灯的人脸数据,并通过实时搜索比对,通过数据对接手段,核实违章者身份。
目前人脸识别技术广泛应用在公安执法系统中,警方只需将指定对象的脸部数据采集到公安系统数据库中,那么只有该指定对象一出现在视频中,系统就能精确地将识别出来。因此还被应用于抓捕罪犯、寻人等。人脸识别技术的开发虽然需要借助其他技术,但是其主要技术还是来自数据挖掘中的分类算法。
4.3银行应用
银行的主要功能除了储蓄之外,就是贷款业务了。贷款是银行最重要的业务之一,是通过赚取存取款利率之间的差价而获取利润。而贷款给谁?谁能如期还贷?因此信贷风险分析是非常重要的,这关系到银行是否按时拿到还款,是否能赚到钱。银行信贷风险包括正常、关注、次级、可疑和损失等风险。正常和关注这两种风险对银行信贷风险影响很小,一般情况下贷款人会按期偿还本金和利息,贷款损失的概率较小。对于损失、可疑和次级这三种贷款风险,银行贷款就需要承担很大的风险了。
银行使用数据挖掘技术对贷款申请人的相关数据进行分析,如贷款人年龄、收入、职业、贷款用途、贷款人及家庭经济情况、贷款金额和贷款期限进行分类和筛选。建立信贷风险分析机制,提取分类规则并确定重要的决策属性,选取最优信贷评估模型对贷款申请人信用风险进行分析、评估和预测,把信贷风险降至最低。
结束语
大数据是数据集优化、分配和管理发展的背景和平台。在操作过程中,数据的潜在信息不易准确搜索,需要进一步挖掘和优化数据挖掘技术。可见,数据挖掘技术在大数据时代占有重要地位。它的技术发展和应用表明,数据信息的编辑和处理功能影响重大,具有重要的发展意义和作用。
参考文献
[1]曹诚诚.大数据时代的数据挖掘技术分析[J].数字技术与应用,2017(12):202-203.
[2]李婧.大数据背景下企业数据挖掘技术的应用研究[J].现代经济信息,2017(23):312.
[3]唐雅璇,李丽娟,吴芬琳.大数据时代的数据挖掘技术与应用[J].电子技术与软件工程,2017(21):159.
论文作者:沈群美
论文发表刊物:《电力设备》2018年第23期
论文发表时间:2019/1/2
标签:数据论文; 数据挖掘论文; 技术论文; 贷款论文; 知识论文; 客户论文; 银行论文; 《电力设备》2018年第23期论文;