摘要:数据挖掘技术是伴随当代信息技术的快速发展而出现的一门新兴技术,它可以帮助人们从海量的信息数据中抽取隐含、具有潜在价值的信息和规律。数据挖掘的应用非常广泛,从生活到生产,从经济到金融,从军事到科技,到处都有数据挖掘的影子。本文以三个案例为载体,展示数据挖掘在生活中的应用。
关键词:数据;数据挖掘;反腐
数据挖掘技术是伴随当代信息技术的快速发展而出现的一门新兴技术,它可以帮助人们从大量的信息数据中抽取隐含、具有潜在价值的信息和规律。一般的数据挖掘过程分为数据取样、数据探索、数据调整、模型化、和评价等阶段,这个过程又称“SEMMA”方法。
一.数据挖掘模型化及评价
模型化(Modle)。模型化是数据挖掘的核心工作,建立数据模型就是根据数据转换后的样本数据,分析判断数据特征,选择和运用建模知识,建立相关模型。提取数据信息就是依据数学模型,从调整过后的数据中发现隐藏的知识、特征或者规律。评价(Assess)。评价就是结合挖掘结果和任务需求,采用某种度量方式对数据挖掘结果进行验证和评估。评价的一种方法是直接使用原先的模型样本和样本数据进行检验;另一种方法就是找另一批数据并对其进行检验。再一种方法就是从实际运行的环境中取出新鲜数据进行检验。进行数据分析的方法多种多样,主要的方法有关联分析、聚类分析、序列模式分析、分类分析等(参看下图)。
二.数据挖掘应用举例
案例一:汽车安全带的使用
汽车安全带,是研发出的所有救命装置中性价比最高的一种产品。事实上,汽车最开始是没有装配安全带的。给汽车装配安全带的想法也不是政府提出来的,而是一位名叫麦克纳马拉先生(后担任美国国防部部长)的功劳。1950年,美国死于交通事故的总人数大约为4万。这个数字与目前死于车祸的人数差不多,但是这种简单的数字对比极易产生误导作用,因为当时的汽车行驶里程比现在要少得多。当时还在福特公司任职的麦克纳马拉十分关注汽车事故致死和伤人问题。当他问那些“汽车人”这个问题产生的原因时,得到的回答是,没有数据可用来分析这个问题。当时,康奈尔大学有些航空研究人员正研究防止飞机致死问题,于是麦克纳马拉聘请他们研究汽车相撞事故。通过对相关的数据挖掘发现,发生事故时,乘客整个人会被猛烈地掀起来,随后头部就会撞在车上某个部位,而人类头盖骨根本就撞不过汽车内部所用的坚硬材料。如果不让乘客被抛起来,岂不更好?麦克纳马拉想,飞机都配有座椅安全带,为什么汽车不能配呢? 于是,麦克纳马拉规定,新出厂的福特车型都要配备更安全的方向盘,仪表盘也要加装衬垫。当下,美国汽车交通事故的每英里致死率降幅如此之大,其中一个主要原因就在于此。使用安全带将死亡危险降低了70%。实际上,自1975年到2010年期间,安全带已挽救了大约25万条生命。
案例二:营销策略
尿布的功能众所皆知,它能和啤酒有什么关系?我想一般人都会觉得这二者是风牛马不相及的事。但在美国的超市和靠近妇产医院附近的商店里,竟然将尿布与啤酒放在一个货架上销售。并且销售数据表明,经过这样的摆放调整,尿布和啤酒的销量竟然同时大增。你不会认为美国超市真是想得周到,连喝啤酒之后,小便失禁的防范都考虑到了吧?当然不是这样。其实,促成美国超市作这样的货架摆放,以促进销售量增长的原因,其实是数据挖掘的功劳。国际知名企业某公司通过对公司商品的销售量及其数据关联情况的深入分析,发现有大量的顾客在购买尿布的同时,也购买了啤酒,这一发现立即引起了数据挖掘分析人员的高度关注。为了弄清真相,他们对购买顾客的身份等情况进行了数据分组分析,发现这些购买尿布同时又购买啤酒的人,80%是年轻的父亲。说到这里,你应该也能理解:原来年轻的父亲酷爱喝啤酒,他们在购买尿布的同时,不忘犒劳自己,也购买了啤酒。事实上,在信息化、数字化高速发展的今天,利用数据挖掘,明确发展方向,制定决策,已经逐步被企业管理者们所重视。目前,一些商用车制造企业,已经加强了这方面的调研,他们对在车管部门上牌的数据进行分析研究。比如:所登记的汽车型号,颜色,用途,用户信息等“数据”,以及每个车主的姓名、年龄、地址、电话、用户等等。通过对这些数据的汇总整理和分析可以客观真实地体现具体车型的销量情况,分析出各个汽车产品的销售区域、用户特征等等很多信息,这无疑对于汽车制造企业的生产经营决策是有很强的参考价值。
案例三:信息管理系统大数据平台
将多套房产挂在他人名下的市人大某工作委员会原主任朱某,在大数据平台下最终“现出原形”;市某局原副局长王某某利用职权为他人提供方便、收受他人干股的违纪问题,也没能逃脱大数据平台的“法眼”;市某局原处长侯某某的违纪线索,也通过大数据平台反映出来的其担任领导职务前后出行情况的明显变化被调查人员敏锐捕捉。“房产虽然不在朱某名下,但是水电气、物业等费用都是朱某一家缴纳,说明这些房产平时都是朱某一家管理使用的,这里面恐怕有猫腻。”哈尔滨市纪委的调查人员顺着这一线索,利用大数据平台,一举查清市人大某工作委员会原主任朱某挂在他人名下的房产多达11套。此外,朱某自家名下还有8套房产。后经过调查,纪委发现朱某确实存在严重违纪违法行为。
在核查市某局原副局长王某某违纪问题时,调查人员通过大数据平台,发现王某某的弟弟为哈尔滨某公司股东,该公司在2011年时由一人全资占股变更为5人共同持股。而5名股东中,除王某某的弟弟以外,股东张某某的父亲曾在市某局任职,股东郑某曾在市某局任职。后经查证,上述3人均利用自己或亲人职务上的便利为该公司谋利益,各收受该公司20万元干股。通过调查一个人的违纪问题,利用大数据平台,挖出3名违纪人员。“他在任职5年间,乘坐航班54次,头等舱就坐了24次,而此前4年乘坐航班19次,头等舱一次没坐过;任职后他出行住宿次数明显增加,入住宾馆档次明显提高。此外,他的妻子在其任职后出国(境)18次,而之前仅出境到香港一次。”通过大数据平台信息分析,加上实际查证,侯某某确实存在严重违纪问题。
三.结语
人过留名,雁过留声。任何人、团体只要在这个社会上生存,从生产到生活,从个人到群体,就都会留下相关数据。尤其是在这个互联网、信息化爆炸的时代,无论是购买记录还是消费行为,无论是室内或者户外,涉及个人生活的数据都是庞大的。对于个人来说,利用好这些数据将会给自己的生活带来更多的便利;对于企业来说,利用好这些数据将会对企业的生产经营决策起着指导性作用;对于国家来说,利用好这些数据对于制定相关政策方针有着高屋建瓴的作用。总之,生活中涉及的数据是海量的,用好这些数据,对于解决生活中的问题大有裨益。
参考文献:
[1]张娴.数据挖掘技术及其在金融领域的应用[J].金融教学与研究,2003.
[2]程吉林.基于数据挖掘技术的互联网金融风险分析[J].金融天地,2016.
[3]史蒂芬?列维特,史蒂芬?都伯纳.超爆魔鬼经济学[M].中信出版社,2010.
[4]于露,刘一霖.哈尔滨开发运用信息管理系统大数据平台——为监督执纪插上科技的翅膀[N].中国纪检监察报,2016.12.
论文作者:李代钦
论文发表刊物:《防护工程》2019年第7期
论文发表时间:2019/6/27
标签:数据论文; 数据挖掘论文; 汽车论文; 麦克论文; 安全带论文; 尿布论文; 啤酒论文; 《防护工程》2019年第7期论文;