面向CRM的贝叶斯分类算法及并行化研究

面向CRM的贝叶斯分类算法及并行化研究

钟世刚[1]2003年在《面向CRM的贝叶斯分类算法及并行化研究》文中提出随着信息技术的不断发展和企业竞争的加剧,数据挖掘越来越多地应用于企业的生产和管理中。这一趋势的持续和企业数据的膨胀,只靠传统的单机已难以胜任,此时采用并行处理技术是解决效率问题的有效途径之一。在数据挖掘的基础上,加上管理思想、管理技术的不断发展,客户关系管理(customer relationship management,CRM)已逐渐在企业中推广应用。接触点管理、提高客户的赢利能力、客户的细分、交叉营销等是客户关系管理的重要组成部分。从数据挖掘的观点来看,它们都与分类算法密切相关。因此研究好分类算法对于企业充分利用CRM,意义十分重大。分类算法常见的有判定树归纳分类、贝叶斯分类和贝叶斯网络、k-最临近分类、粗糙集方法以及模糊集方法。实际应用中对这些算法进行取舍时,可以从准确度、速度、伸缩性、强壮性和可解释性等几个方面来评价。综合这几个指标,贝叶斯分类算法的优点较为突出。该算法基于贝叶斯定理,可解释性方面可以与判定树相比,准确度可和神经网络分类算法相媲美,用于大型数据库时该算法已表现出高准确度与高速度。朴素贝叶斯分类算法应用于连续属性值时并不太理想,为此本文结合Holte的1R离散化方法和熵的原理,提出了一种新的离散化方法。该方法至下而上地合并区间,不分解区间,也不采用熵的离散化方法所用的递归进程,更避免了熵方法中必须对每一个值进行试探来选择分割点的弱点。集群系统有与专用的并行系统相竞争的性能,其性价比已占优势,其中的PVM应用相当广泛。本论文在PVM的基础上研究并实现了优化贝叶斯算法的并行化,并且分析了该算法的加速比和时间复杂度,分析表明在类比较多、或者待分类的数据样本比较多时,用该并行算法可以较大幅度提高数据分类的效率。论文最后讨论了该并行算法在企业中的应用模式及意义,进一步说明所涉及并行贝叶斯分类算法的实用性。

祖巧红[2]2007年在《基于实例的OLAM技术及其多维可视化研究》文中研究表明随着计算机的普及、大容量存储技术的发展,人们在日常事务处理和科学研究中积累了大量的各种类型的数据。这些历史数据背后蕴藏了对决策有重要参考价值的信息,如何充分、有效利用这些历史数据是目前人们关注的问题。数据仓库、联机分析处理和数据挖掘技术已经成为解决“数据爆炸、知识贫乏”问题的有效途径。可视化技术能为数据挖掘提供直观的数据输入、结果输出和挖掘过程的交互探索分析手段,可以在人的感知力、洞察力、判断力参与下提供数据挖掘手段,实现可视化辅助挖掘手段以及挖掘结果的可视化。可视化挖掘手段易于从纷繁复杂的变量关系中理清头绪,找到关键变量;挖掘结果的可视化最终呈现给用户一个直观、易于理解的结果,有力地提高数据挖掘进程的效率和结果的可信度。可视化与数据挖掘的结合已成为必然。如何将数据仓库及数据挖掘的相关技术应用于制造业客户关系管理,是目前制造行业迫切需要研究的领域。该领域包括基于数据仓库的在线分析和数据挖掘关键技术的研究,分析型CRM系统的实现,更加有效挖掘算法的设计和应用以及OLAM可视化等方面。本文探讨了制造行业的客户关系管理系统实施过程中的若干关键技术,同时对客户关系管理的OLAM技术及其可视化实现进行了研究,开发了基于OLAM的客户分析挖掘原型系统。论文研究了数据挖掘(DM)和在线分析(OLAP)结合的OLAM理论,讨论了分析型客户关系管理的核心技术,对某制造业业务分析后构建了客户分析的各主题数据仓库,为进一步分析客户数据、挖掘客户产品销售规律,科学的进行客户细分打下了基础。采用相应算法研究了客户细分的叁大指标客户终生价值,客户忠诚度和客户资信的计算;(1)分析客户终生价值的构成,研究考虑支出分配的客户终生价值模型,分析该模型的影响因素;根据客户购买转移的“无后效性”,提出用马尔可夫链研究客户转移矩阵的计算思路,结合案例定量分析了客户支出分配变化对客户终生价值的影响。(2)研究客户忠诚的相关理论,建立预测客户忠诚度的指标体系;鉴于客户忠诚计算的复杂性,作者提出采用模糊神经网络算法预测客户忠诚度;为了保证模型训练效率,提出将属性重要性理论用于模糊神经网络初始权重确定的思路,实验证明有明显效果。(3)研究模糊综合评价法的理论,并将其应用于企业客户、个人客户的资信评价中,建立了两类客户的资信计算指标体系,用优化选择法确定了各指标权重,利用模糊理论确定影响客户资信的指标隶属度,通过软件实现了客户的资信计算。作者提出一种基于客户终生价值、客户忠诚度、客户资信综合因素相结合的CLV/CL/CC客户细分模型,在对各因素指标预测计算基础上,利用K-means2算法进行聚类,并将聚类的结果簇作为加权贝叶斯算法进行客户分类预测的前一步,将两种算法优势互补,有效实现了客户细分,提高了客户分类判别的精度。客户产品销售的购物篮挖掘及在线分析是目前研究的热点之一。论文研究了基于关联规则的OLAM及其多维可视化的若干关键技术,对产品销售的数据进行了序列关联分析并将其可视化,剖析了销售产品之间的关联规律,为企业的促销策略等决策支持提供依据。对产品销售额、订单量等交易数据通过多维度多层次的上卷、下钻、横切、纵切等在线分析,以可视化、可理解的方式剖析了深层的客户属性因素。在全文研究的基础上,将所得结论结合某企业的产品销售,设计并实现了一个基于数据仓库的联机客户分析挖掘系统,将上述的分析模块和算法模型集成到系统中,实现客户的终生价值、资信计算及客户忠诚度预测,对客户进行细分、深入分析产品销售规律,并能实现OLAM的可视化分析。作为一个工具平台,为进一步管理及研究客户提供了有力的支持,为这些领域的分析人员提供了有力的决策支持手段。

张永芳[3]2016年在《基于Hadoop平台的并行数据挖掘算法研究》文中指出由于科学研究、通信技术以及IT技术等的迅猛飞速发展,庞大的数据集合由GB往TB发展,甚至将来的ZB。云计算凭借其超强的计算能力和可靠的计算能力为数据挖掘技术的改进带来了一丝生机。本文采用Hadoop分布式云计算平台,基于该平台的两大核心技术MapReduce和HDFS,实现数据挖掘算法中分类聚类算法的并行化,通过实践论证了基于该平台的分类聚类算法具有良好的加速比、扩展性及分布式运算效果。主要内容如下:1.引入开源分布式计算平台Hadoop,包含它的两大核心技术MapReduce和HDFS。详细介绍了MapReduce和HDFS的运行机制及实现原理。给出数据挖掘技术的概念,介绍数据挖掘算法中的分类聚类算法;并根据现有的知识结合数据挖掘技术的特点分析数据挖掘的发展趋势。2.基于前面的Hadoop理论知识,完成了本文所需的高可靠Hadoop平台的搭建。针对1.0.0之前的Hadoop版本缺乏安全性认证,引入Kerberos的安全策略;针对HDFS的NameNode、MapReduce的JobTracker的单节点故障问题,使用了DRBD镜像块设备存储技术。最终搭建成功高可靠安全的Hadoop环境。3.着重介绍基于Hadoop平台实现K-Means聚类算法的主要思想和实现的代码;并且通过几组实验,实践说明基于云计算平台的K-Means聚类算法具有良好的扩展性能和较好的扩展性能。4.详细介绍了基于Hadoop平台的朴素贝叶斯分类算法的主要思想及实现代码;并对MapReduce化的朴素贝叶斯算法和改进前的朴素贝叶斯算法比较,分析改进后的分类算法的分布式运算效果。

黄海龙[4]2002年在《面向CRM的分类算法及应用研究》文中研究表明数据仓库和数据挖掘技术的快速发展,促进着企业决策支持系统的不断更新,也促使企业与客户之间的经济关系发生着重大变革。客户关系管理(CRM)作为近年来数据挖掘技术在企业决策支持系统中又一新的应用,使企业在经营模式、销售战略以及市场服务等多元领域都突破了传统框架。传统的“以产品为核心”的生产经营战略也变革成“以客户为中心”的新型商业模式。客户关系管理中需要理解客户特性和客户行为,利用数据挖掘的分类工具,实现对客户群的认识、分类和评估,然后通过优化服务来实现客户获取、客户保留、客户忠诚和客户盈利的目的。针对客户关系管理中客户分类这一重要环节,作者在分析了现有的数据挖掘分类工具的基础上,采用了决策树分类算法来构造客户分类器。针对多种决策树分类算法存在的不稳定性问题、效率问题和可伸缩性问题,作者采用多属性代替单属性分割的方法来解决决策树的不稳定性,并且结合提高算法效率和可伸缩性的目标,针对SLIQ和C4.5两种算法作了改进和实验。针对SLIQ算法,将单纯利用单属性分割的Gini值作分割指标的方法修改为利用近似最佳分割点和分割谓词的方法,使算法稳定性提高,并且生成的决策树更为紧凑;将驻留内存的散列表用数据库表代替,并且在结构上作了一定的修改,这样可以存储多个最佳近似分割点,从而使算法脱离了内存的限制,提高了可伸缩性;针对C4.5算法,作者为了将不稳定性的改进方法模块化,对C4.5的信息增益的计算作了修改,同时用计数排序代替线性排序来搜索分割点,使算法在时间复杂性上得到一定程度的优化。通过对算法的初步改进,也对决策树算法的不稳定性问题提出了改进的实例,为提高决策树算法稳定性、高效性、可伸缩性提供了一条途径。作者将改进的算法运用于“重庆市移动通信公司话费管理系统”,构造了一个客户分类器,通过对客户属性和业务数据的分类模型建立试验,实现了构建稳定的、可伸缩的分类器的基本目的,从而也证明了针对决策树不稳定性和伸缩性问题的改进的可行性,具有一定的理论价值和实用价值。

薛峙[5]2003年在《基于PVM的SLIQ算法的并行化研究》文中研究说明数据挖掘作为知识发现过程关键技术,已逐步得到广泛应用。分类是数据挖掘及CRM的重要组成部分。SLIQ串行算法是由IBM Almaden 研究中心提出的一种高速可伸缩的分类算法,广泛应用于大型商业的CRM、信用等级分级等领域。随着应用中数据量的迅速膨胀,采用并行技术是提高数据挖掘效率的一个重要途径。本文首先分析了串行SLIQ算法的原理和特点,针对其不足提出了一些改进方法,然后在基于PVM的环境下实现了算法的并行化,分析了算法的时间复杂度和加速比,提高了SLIQ算法的效率,具有一定的理论意义和实用价值。串行SLIQ算法通过预排序和广度优先技术,能够更加快速和准确地处理大量数据集,并能同时处理离散字段和连续字段。但是,原算法在计算决策树节点的最佳分割点的时候,存在着对属性和记录的多余计算问题。本文提出应该动态的删除叶子节点的记录以及当前节点的祖先节点的分割属性,从而可以明显地减少不必要的计算以及属性表在磁盘和内存之间的IO交换操作。由于难以解决数据挖掘中任务划分的问题,SLIQ算法并行化的主要方向是实现数据的并行。SLIQ算法采用了新颖的数据结构,需要预先建立属性表,所以应该采取基于属性的数据分割策略。算法在把属性表和类表进行预先分配时采用的是静态平衡策略,对数据的分配按照数据量平均分配,将连续属性和离散属性分别平均分配到各个结点上;在执行分裂后,由于需要计算的属性不断减少,则采用了动态负载平衡的策略,通过消息传递的方式将部分计算任务分配给负载较轻的处理机单元。通过对串行和并行算法时间复杂度的计算表明,当数据集充分大时,由于连续属性的排序计算操作分散到各个处理机单元上进行,显着降低了计算时间,从而可以得到近似于处理机个数的加速比,对于离散属性,本并行算法对串行算法的性能提高有限

李敬有[6]2007年在《基于数据挖掘技术的智能信息处理》文中指出在全球性的网络化、信息化进程中,信息过量成为人人需要面对的问题,也就为信息处理提出了新的要求。信息处理技术由查询、统计、分析方法学延伸和扩展到数据挖掘技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是当今国际上人工智能和数据库研究方面最富活力的新兴领域,其目标是为了满足用户需求,自动处理大量的原始数据,从中识别重要和有意义的模式,并将其作为知识加以表达。本文首先阐述了数据挖掘的基本概念及处理方法,论述了基于关联规则的Apriori算法及其改进的相关算法,研究了分类方法中的贝叶斯网络分类方法和判定树分类算法及聚类方法。然后将全国计算机等级考试、网络日志、大型超市的数据库作为数据源,以Bayesian网络的数据补全算法、基于关联规则的Apriori并行算法、基于分类的判定树归纳算法和基于聚类的K簇算法为基础,重点研究以上数据挖掘算法的改进以及对上述数据源的智能信息处理。成功地解决了信息处理中只能进行查询、统计等功能,而无法对数据中潜在有用的信息和知识进行提取的弊端。

黄伟良[7]2004年在《基于数据挖掘的CRM决策支持系统研究》文中研究指明数据仓库和数据挖掘技术的快速发展,促进着企业决策支持系统的不断更新,企业决策支持系统是近年来数据挖掘技术在客户关系管理(CRM)中的又一新的应用。决策支持系统作为分析层次的CRM主体,需要理解客户特性和客户行为,利用数据挖掘工具,实现对客户群的认识、分类和评估,然后通过优化服务来实现客户获取、客户保留、客户忠诚和客户盈利的目的。 本文以徐工集团营销公司CRM开发为背景,对其中涉及的决策支持关键技术在作深入探讨和研究。主要是对当今流行的基于数据仓库的数据挖掘技术作了相关介绍,并阐述数据挖掘技术在DSS中的应用。选取决策树分类算法为研究重点。研究了SLIQ算法的预处理、计算最佳分裂、执行分裂几个大的阶段以及具体算法设计实现过程,并在随后结合该算法设计客户价值分类模型。 结合当前流行的MS.NET技术,构建了应用于该机械制造业的DSS系统解决方案。最后提供了该方案的技术实现方法,完成了系统的原型的开发。

李丛[8]2009年在《数据挖掘中的分类技术在我国保险业CRM的研究应用》文中研究指明随着计算机技术和经济的飞速发展,全球各行服务业的数据库不仅在数量上及规模上也发生了翻天覆地的变化,数据挖掘正是在这样的应用需求背景下产生并迅速发展起来的一个重要的研究领域,数据挖掘技术作为多学科的集成,已成为最重要的信息处理技术和方法。客户关系管理作为一种以客户为中心的经营策略,可以很好完成客户的获取与保持,为经营者提供决策支持,而数据挖掘作为一种分析工具,可以应用在客户关系管理中的大量数据分析和客户价值挖掘中。因此,在客户关系管理中构建有效的数据挖掘应用,研究有助于提高客户关系管理中的决策支持功能的数据挖掘技术和理论,是非常有意义的一个课题。本文介绍了数据挖掘技术中的分类技术在我国保险业客户关系管理中的应用,主要采用了决策树和神经网络算法对保险业客户关系管理中的客户细分、客户流失等方面进行分析,并在研究了相关客户关系管理体系结构的基础上,通过实验来构建一种基于weka平台的保险业客户关系管理系统,并给出部分挖掘结果。在客户群体细分中,提出了一种基于ID3算法的改进算法,一般来说,准确迅速的选择属性,使计算量减少,就可加快算法生成树的速度。选择年龄、驾龄、平均赔付率等5个属性作为条件属性,分别运用ID3算法及其改进算法选出决策属性,得出决策树,以细分具有哪些特征客户具有高的风险。客户流失分析采用了分类算法中的神经网络算法,选择年龄、文化程度、年收入、工作地区、职业、险种等属性作为相关客户数据指标,将这些指标输入遗传神经网络,经过训练得出客户流失预测模型,通过预测模型来指导决策者是否对特定客户群采取必要措施来降低流失率以及对哪些客户采取挽留措施。

邓小龙[9]2010年在《基于复杂网络分析的新一代电信CRM关键技术研究》文中认为随着固定电话和移动电话的日益普及,电话用户的数量规模逐渐增大。电话呼叫网络和短消息网络是复杂网络在人类社会中的一种具体表现形式,直接的表示了人与人之间的社会网络。它们所代表的电信客户之间的呼叫信息对于电信企业的营销和经营分析,具有重要作用。近年来随着计算机处理能力的增加和数据存储能力的进步,国内外研究人员开始对这些海量的社会网络数据进行处理和分析,并发现这些社会关系网络数据具有某些特别的复杂网络统计结构特征,如“小世界效应”、“无标度特性”等。同时,由于电信运营商之间的激烈竞争,各电信运营商不断推出新的电信产品和业务,对原有的CRM业务支撑系统提出了新的支撑要求。因此电信运营商逐渐开始关注将复杂网络技术和新一代电信软件支撑技术应用于构建灵活的CRM软件架构,并支持海量客户业务运营数据的分析和研究。如何评估客户流失造成的影响、如何提升客户流失预测的效率、如何在海量客户数据上运行流失预测算法、如何找出客户中联系紧密的客户社团、如何构建支持复杂网络分析技术并符合NGOSS软件体系框架的CRM软件,都是电信运营商将复杂网络分析技术应用到CRM需要解决的关键技术问题。本文针对以上关键技术问题,在构建基于复杂网络分析技术的新一代电信CRM的相关研究领域中深入研究了下列问题,并取得了如下成果:1.对电信客户流失后网络统计特性的变化做了系统分析:提出了通过复杂网络统计特性分析电信重要客户的相关方法,针对统计特性指标中节点的主要中心性维度,验证和研究了电话呼叫网络中客户流失与复杂网络相关统计特性的变化规律:度较大的电信客户流失后对该客户所在客户社团的网络容量影响较大;中介中心性较大的电信客户流失后对该客户所在客户社团的网络结构特征影响较大;度较小的客户相对于中介中心性较小的客户更容易流失。以上结论可以用于运营商识别重点电信客户和客户流失预防。2.为了提升电信客户流失预测的效率,本文引入遗传演化对基于心理学扩散模型SPA (Spreading Activation)的流失预测算法进行改进,提出了基于遗传演化的电信客户流失预测算法GASPA (Genetic Algorithm based Spreading Activation).经过在实际数据集上进行测试,发现GASPA算法提高了SPA模型的Lift曲线值,增强了SPA模型的客户流失预测效果。3.为了在海量数据上运行客户流失预测算法,本文提出了流失预测算法GASPA在MapReduce平台上的并行化实现方案M-GASPA (Mapreduce-GASPA)。通过在实际电信呼叫数据集上进行验证,M-GASPA提高了流失预测算法GASPA可处理数据的规模,增强了GASPA算法的性能,并降低了算法运行时间。4.为了找出电信客户中联系紧密的客户社团,提高社团划分精度,本文提出了基于信息熵(Information Entropy)的社团划分算法(简称IE算法)。该算法从信息熵的角度揭示了社团划分中模块度的深层次本质特征。在有着确定社团结构的数据集和不确定社团结构的数据集上,通过选取Q值、社团划分个数、社团最大连通分量大小和强弱社团个数比例四个重要参数,将IE算法与两种最主要的基于模块度的划分算法GN(Girvan-Newman)和FastGN(Fast Girvan-Newman)进行对比,实验结果证明了IE算法在社团划分性能上优于GN和FastGN;将IE和其他七种最主要的经典社团算法进行时间复杂度分析,并在随机网络和真实网络上进行实验,结果表明该算法时间复杂度在GN与FastGN之间,时间复杂度小于GN而精确度优于GN,证明了在大多数数据集上IE算法的社团划分准确度优于传统基于点边比率的社团划分算法的准确度。5.为了构建支持复杂网络分析技术并符合NGOSS软件体系框架的CRM软件,本文提出了符合新一代电信运营支撑理论、集成社会网络分析技术的CRM框架。该框架可集成社团发现IE算法、并行化流失预测算法M-GASPA和并行化中介性算法,并通过结合其他复杂网络算法,进行客户社团发现、客户流失预测、客户维系挽留等相关基本操作,达到精准营销和降低客户流失比例的效果。6.为适应电信行业新业务推出速度快、业务种类多的特点,减少业务逻辑代码的维护工作量,本文提出了基于SOA的省级新一代电信CRM具体构建方法。通过服务原子化方式,将不同业务的数据信息和相关操作封装为格式统一的原子服务,同时原子服务间可以灵活组合或分拆以适应变化的电信业务组合方式,实现了底层业务逻辑代码的高效复用。本文提供了逻辑层次结构、数据建模、原子服务构建方式以及相关实现细节,并给出了构建中基于原子服务的服务定单模型分解实例和处理界面。

何元[10]2011年在《基于云计算的海量数据挖掘分类算法研究》文中研究说明随着数据存储量的急剧增加,海量数据处理和海量数据计算成为了数据挖掘领域中一个重要的问题。传统的串行数据挖掘算法往往只能够处理一些小规模的数据,当面对海量数据时,它们的执行速度会降低甚至无法运行,因此这对目前的数据挖掘提出了严峻的挑战和考验。而分类算法作为数据挖掘中极其重要的一个部分,在信息检索、网络搜索以及CRM等方面扮演着重要的角色。目前绝大多数的分类算法都是串行的,在处理大数据集时可行性差、效率低、分类准确率低的问题日益突出,导致了计算资源的不可估量以及执行时间的无限延长。现代社会所处理的数据是海量的,在云计算出现以前,在做数据挖掘时以往都期望用高性能机或者是更大规模的计算设备来进行处理;另外在海量数据的背景下,挖掘过程当中需要有很好的开发环境和应用环境,在这样的情况下,采用基于云计算的方式来进行数据挖掘是比较合适的。而且由于目前并行分类算法的缺少,大规模数据集日益庞大,传统的数据挖掘系统已经不能对这些海量数据进行高效挖掘和利用,如何提高算法的并行性和效率是目前亟需解决的问题。本论文以实验室粤港关键领域重点突破项目为基础,分析和研究了舆情分析系统项目中应用到的海量数据挖掘的相关技术。由于舆情分析系统处理的数据都来自因特网,每天需要处理的数据量非常庞大,要对这些海量数据集进行训练和分类,就必须保证舆情分析系统能维持在一个稳定、高效的环境。如何提高舆情分析系统分类的效率和性能,是本论文要解决的问题。本论文的先进性在于,分类算法在舆情分析系统中是非常重要的一部分,根据舆情分析系统的需求分析和系统设计,为舆情分析系统设计了一种基于Strategy模式的分类算法模块。并且设计了不同的并行分类算法,通过在MapReduce框架下对分类算法的封装,大大提高了算法的运行效率,使得分类算法的加速比接近于线性加速比。舆情分析系统根据这个算法模型,可以动态地调用不同的分类算法对舆情数据进行分类,提高了系统分类算法的性能和效率,从而大大提高了舆情分析系统的稳定性和可靠性。

参考文献:

[1]. 面向CRM的贝叶斯分类算法及并行化研究[D]. 钟世刚. 重庆大学. 2003

[2]. 基于实例的OLAM技术及其多维可视化研究[D]. 祖巧红. 武汉理工大学. 2007

[3]. 基于Hadoop平台的并行数据挖掘算法研究[D]. 张永芳. 安徽理工大学. 2016

[4]. 面向CRM的分类算法及应用研究[D]. 黄海龙. 重庆大学. 2002

[5]. 基于PVM的SLIQ算法的并行化研究[D]. 薛峙. 重庆大学. 2003

[6]. 基于数据挖掘技术的智能信息处理[D]. 李敬有. 哈尔滨工程大学. 2007

[7]. 基于数据挖掘的CRM决策支持系统研究[D]. 黄伟良. 南京理工大学. 2004

[8]. 数据挖掘中的分类技术在我国保险业CRM的研究应用[D]. 李丛. 江苏科技大学. 2009

[9]. 基于复杂网络分析的新一代电信CRM关键技术研究[D]. 邓小龙. 北京邮电大学. 2010

[10]. 基于云计算的海量数据挖掘分类算法研究[D]. 何元. 电子科技大学. 2011

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

面向CRM的贝叶斯分类算法及并行化研究
下载Doc文档

猜你喜欢