基于JEP的分类算法研究

基于JEP的分类算法研究

李丹[1]2011年在《基于JEP的癌症分类算法研究》文中提出分类是数据挖掘和机器学习领域的一个重要问题,目的是通过训练数据集构建一个分类器来预测新的实例类别。近年来,DNA微阵列的发展为很多领域提供了一种高维数据,主要应用于癌症诊断和预测。跳跃显露模式(Jumping Emerging Pattern, JEP)是一种区分能力强的特殊模式,在分类方面有很明显的优越性。随着DNA微阵列和基因模式的快速发展,本文提出一种基于JEP的癌症分类算法。为了进一步提高癌症分类准确率,本文还研究了基于JEP癌症分类的组合分类算法,这在生物学、医学领域具有重要的研究价值和实际意义。本论文主要从基因表达数据的分析着手,其主要工作归纳如下:一、对基因表达数据进行预处理,DNA微阵列产生的数据具有高维性,有很多噪声,本文采用基于信息熵的离散化方法将连续属性离散化,依据最小长度原则找出基因的分割点,计算熵值,筛选出分类特征基因。熵值越小,特征基因分类能力越强。这种离散化方法可以有效消除噪声数据的影响。二、提出一种更具鉴别能力的基因模式,称为增强跳跃显露模式(IJEP),这种模式满足增长率趋近无穷大,且任何子集都不是IJEP的条件。提取IJEP的特征基因是通过基于信息熵的离散化方法获得,并在计算信息熵时,通过引入贝叶斯m-估计以克服小容量样本下频率等于概率的缺陷,从而提高熵的可靠度。叁、用边界算法挖掘出有效的IJEP。用BORDER-DIFF算法获得不同的边界对,再用MBD-LLBORDDER算法产生IJEP。有效的缩短了IJEPs的挖掘时间。针对挖掘出的IJEP,提出一种癌症分类算法(CIJEP),同时通过改进相似度量的计算来提高预测的可信度。四、以基于IJEP的癌症分类器作为基分类器,将集成机器学习应用到癌症分类中,提出了Bag-CIJEP、Boost-CIJEP两种算法,在四个数据集上进行实验,实验结果提高了癌症的分类准确率。

刘孟旭[2]2004年在《基于EP的多分类器表决分类算法》文中进行了进一步梳理数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类算法已成为数据挖掘的一项挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的差异,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 另一方面,提升(Boosting)与装袋(Bagging)以及其他基于委员会的方法能够显着改善某些算法的分类准确率。基于委员会的方法试图通过合并多个弱分类器建立一个有效的委员会来构造一个更加有效的分类器。以提升和装袋为代表的组合分类方法成为提高某些算法分类准确率的有效方法。但是,现有的组合分类方法研究主要使用决策树、神经网络以及贝叶斯方法作为基分类器,其他类型的分类算法还有待进一步研究。 本文首次提出了建立基于EP的多分类器表决分类算法的思想。由于采用什么样的算法建立基分类器成为实现上述思想需要解决的首要问题,因此我们又提出了一个新的基于EP的分类算法作为基分类器的学习算法,即:基于基本显露模式的分类算法(Classification by Essential Emerging Patterns,CEEP)。以CEEP算法为基分类器学习算法,我们进一步提出采用自助方式建立多个并列的基分类器,通过投票表决的方式合并多个基分类器的组织策略,最终实现了本文提出的算法思想,得到一个融合了基于EP的分类算法和组合分类方法两者优势的新型的分类算法,即:基于EP的多分类器表决分类算法(Classification by Voting Classifiers based on Essential Emerging Patterns,CVCEEP)。 CEEP算法采用了一种基于模式树(P-树)的更快速有效算法挖掘eEP,改基于EP的多分类器表决分类算法进了己有的同时使用支持度和增长率EP的评分标准,提出以增长率为标准的评分策略,并且解决了参数的自适应选择等问题,实验表明CEEP算法具有很好的分类性能。因此,CEEP算法既是CVCEEP算法的一个重要组成部分,也是一个独立而完善的基于EP的分类算法。 为了测试算法的分类性能,我们使用UCI机器学习库中的12个数据集作为实验数据集。并且将实验结果与NB、CS.O、CAEP、LB以及BCEP比较, CEEP算法显示了很好的分类性能,而且CVCEEP算法的分类准确率和CEEP相比有显着提高。实验结果表明,本文算法的分类准确率可以与已知最好的分类算法相媲美。

刘刚[3]2004年在《数据挖掘技术与分类算法研究》文中认为数据挖掘(Data Mining)是致力于数据分析和理解,揭示数据内部蕴藏知识的技术。它是未来信息技术应用的重要目标之一。经过数据挖掘领域研究工作者十几年的努力,出现了许多数据挖掘的新概念、新方法,特别是最近几年,一些基本概念和方法趋于清晰,数据挖掘的研究正向着更加深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也要经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。 分类作为数据挖掘的一个重要研究课题,在统计学、机器学习、神经网络和专家系统中得到了较早的研究,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量和维数越来越大,建立高效的、适用于大量数据集的分类算法已成为数据挖掘面临的一个挑战性问题。近年来,数据挖掘界提出一种新的知识模式,称作跳跃显露模式(JEP:Jumping Emerging Pattern),用来表示两个数据集之间的重大差异,并出现了一些基于JEP的分类算法。研究表明,这些基于JEP的分类算法具有很好的预测准确性,而且数据量和维数都是可规模化的。但是,这些基于JEP的分类法通常需要挖掘大量的JEP,因此影响了它们的效率,且增加了分类算法的复杂性。本文提出一种特殊类型的JEP,称作最有效的跳跃显露模式(SJEP:most Significant Jumping Emerging Patterns)。分析结果表明,SJEP具有很强的区分能力,足以用来建立精确的分类算法。由于已有的算法都不能直接挖掘这种SJEP,本文给出了一种可以在两个数据集上双向挖掘SJEP的有效算法,并讨论了如何建立基于SJEP的分类算法(SJEP_Classifier)。与已有的基于JEP的分类算法相比,基于SJEP的分类算法不仅使用的JEP数量少,预测精度高,而且可以在很短的时间内(通常为若干秒)完成学习阶段。实验结果表明,本文的分类算法(SJEP_Classifier)在平均预测精度方面也优于CBA和C4.5等分类算法。 总之,本文在分析、归类现有数据挖掘研究成果以及原型系统的基础上,进行了数据挖掘应用系统体系结构和基于SJEP的分类理论模型以及算法方面的研究,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有潜在的应用前景。

李曼[4]2002年在《基于JEP的分类算法研究》文中指出数据丰富而知识贫乏的状况导致了数据挖掘的出现,并且在短短的几年内,引起了许多领域的人们的极大兴趣。分类作为数据挖掘的一个重要主题,在统计学、机器学习、神经网络和专家系统中得到了较早的研究,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量和维数越来越大,建立高效的、适用于大型数据库的分类算法已成为数据挖掘的一个挑战性问题。 近年来,数据挖掘界提出一种新的知识模式,称作跳跃显露模式(Jumping Emerging Patterns,JEP),用来表示两个数据集之间的重大差异。并且,建立了一些基于JEP的分类算法。研究表明,这些基于JEP的分类算法具有很好的预测准确性,并且在数据量和维数上都是可规模化的。 但是,这些基于JEP的分类算法通常需要挖掘大量的JEP,因此影响了它们的效率,并增加了分类算法的复杂性。本文提出一种特殊类型的JEP,称作最有效的跳跃显露模式(most Significant Jumping Emerging Patterns,SJEP)。分析结果表明,SJEP具有很强的区分能力,足以用来建立精确的分类算法。由于已有的算法都不能直接挖掘这种SJEP,本文给出了一种可以在两个数据集上双向挖掘SJEP的有效算法,并讨论了如何建立基于SJEP的分类算法(SJEP_Classifier)。 与已有的基于JEP的分类算法相比,仅使用SJEP建立的分类算法使用的JEP数量少得多,不仅能够获得相同或更高的预测精度,而且可以在很短的时间内(通常为若干秒)完成学习阶段。实验结果表明,本文的分类算法(SJEP_Classifier)在平均预测精度方面也优于CBA和C4.5等分类算法。

关孜娉[5]2017年在《基于NSJEP-list的强跳跃显露模式的挖掘方法及应用》文中进行了进一步梳理强跳跃显露模式(Strong Jumping Emerging Pattern,SJEP)是近年来提出的一种具有良好区分能力的区分模式,基于SJEP的分类算法能取得较高的分类准确度,因此SJEP逐渐成为分类算法中一个重要的研究方向。由于目前SJEP的挖掘算法大部分都是基于树结构的,因此造成挖掘算法在时间和空间上消耗较大的问题;同时,在不平衡数据集的领域,SJEP无法表现出在普通数据集中展现出的良好的区分能力,特别是在正类的分类中。因此,本文针对SJEP的挖掘及分类算法进行了相关研究,主要工作如下:针对基于树结构的SJEP挖掘算法存在的时间和空间消耗较大的问题,设计了一种新的数据结构——NSJEP-list,并基于该结构,提出一种新的SJEP挖掘算法一—PPSJEP。该算法首先遍历数据集构建一颗PPSJEP-树,然后构造满足条件的1-项集的NSJEP-lists以代替PPSJEP-树,最后,通过对1-项集的NSJEP-lists的交叉迭代得到更长项集的NSJEP-lists,从而挖掘出所有的强跳跃显露模式。实验表明,基于NSJEP-list的挖掘算法可以有效地过滤掉冗余的JEP,并且,挖掘效率较传统的基于树结构的SJEP挖掘算法更高。在不平衡数据集中,由于从正类样本中挖掘出的模式不仅数量少,而且所对应的支持度也较负类偏小,这使得在分类过程中对正类的分类十分不利。针对这一问题,提出一种扩展的SJEP模式(extend-SJEP),该模式在正类中可以挖掘到一些额外的具有良好区分能力的模式;基于上述模式,提出一种改进的基于SJEP的分类算法,该算法通过对大类和小类分别赋予不同的权值,来降低传统的基于SJEP的分类算法中分类结果过度倾向于大类的问题。实验表明,这种扩展的SJEP模式和改进后的分类算法在类不平衡的情况下都表现出更优的区分能力,特别是在对少数类的分类中。

陈东[6]2012年在《癌症基因微阵列分类方法的研究》文中进行了进一步梳理癌症是复杂的遗传性疾病,具有巨大的危害性及多发性,成为影响人类健康的重大疾病,其发病机制从根本上来说都和基因息息相关。基因微阵列分类技术能够帮助人类发现正常细胞组织与疾病组织之间的基因的本质差异、很好地理解肿瘤发病机制,识别致癌基因,对癌症的临床诊断及治疗具有非常深远的意义。然而,由于基因微阵列数据具有高维、高噪音、样本少等特点,传统的统计方法很难对其进行有效的分类,为了解决上述问题,本文在深入分析微阵列分类技术的基础上,开展了相关的研究。主要的内容如下:决策树(DT)和大覆盖规则(LCR)微阵列分类方法在一定程度上体现了基因的相关性,但缺乏稳定性且算法收敛慢,容易产生大量冗余分类规则。本文基于遗传编程(GP)提出一种最优规则遗传算法(BRGA)对分类规则进行优化的方法,获取最佳分类规则集,此算法可以调整分类器模型的相关参数,在适当增加迭代基础上大幅提高分类的精确度,具有相当的灵活性和可理解性。传统的显露模式EP微阵列数据分类方法,在EP获取过程中的基因属性选择部分常常采用离散信息熵方法或其它复杂的算法来去除无意义的噪声基因,得到最具辨识力的属性基因,进而产生EP分类模型来预测未知样本。但这些方式计算较为复杂且开销较大,不易于理解。本文提出的基于等宽分割基因属性的跳跃显露模式(F_JEP)算法,将基因微阵列数据定义为函数形式,便于表达。在属性选择环节,基于等宽方式的离散方法,采用一种极为简易的等宽断点搜索方式分割微阵列基因属性值,获取有重大分类意义的基因,进而形成基于等宽分割基因属性的跳跃显露模式F_JEP。通过仿真实验,利用六个基因数据集检验了BRGA算法和F_JEP算法的分类预测性能,并将F_JEP算法与着名的叁种基因微阵列分类算法NB、IB及C4.5在分类预测性能上进行比较,结果表明F_JEP算法在癌症基因微阵列分类性能方面明显优于NB、IB及C4.5算法,同时,BRGA算法和F_JEP算法与相关文献的癌症基因微阵列分类方法相比,在具有较高分类精确度和稳定性前提下大幅降低了计算复杂度及冗余,降低了运算开销。BRGA算法和F_JEP算法是高效、灵活且扩展性强的基因微阵列分类方法。由于实验条件和生物学发展的局限性,算法仍需进一步提高和完善,有待于在生物学和临床医学上得到应用。

陆丽娟[7]2011年在《强跳跃显露模式挖掘算法及其应用》文中研究说明分类是数据挖掘中一个很重要的研究课题,在神经网络、统计学以及机器学习等领域得到了广泛的研究,但是大部分分类算法适用于小型数据集。强跳跃显露模式(Strong Jumping Emerging Patterns, SJEP)是近年来提出的一种新颖的知识模式,它具有很强的区分能力。针对大型数据集而提出的基于SJEP的分类算法具有较高的分类准确度。本文主要针对SJEP的挖掘及分类算法做了一系列的研究,主要工作和贡献包括以下几点:(1)针对基于SJEP-树的挖掘算法在挖掘过程中存在的冗余等问题,提出一种基于排序SJEP-树的改进SJEP挖掘算法,该算法在头表中设定标记域,过滤大量冗余的JEP;同时,在树节点中存放项名在头表中相应的序号,简化构造排序SJEP-树和后缀子树的复杂度;引入邻接表存储SJEP,减少JEP的比较次数。实验结果表明,改进后的算法的运行效率高于SJEP-树挖掘算法;(2)针对SJEP-树挖掘算法中存在的冗余问题,以及P-树挖掘算法频繁合并子树的问题,提出一种新颖的基于SP-树的SJEP挖掘算法。该算法先统计该项横向链表上不同节点的数目,然后判断是否需要进行子树合并,减少子树合并的次数,并且在合并和遍历子树的时候,动态设置子树节点中序号域的值,删除冗余的树枝。实验结果表明,SP-树挖掘算法挖掘SJEP的时间性能要优于SJEP-树挖掘算法;(3)采用分层十-折交叉验证方法来评估SJEP分类算法的分类性能。实验结果表明,对于同一数据集,在不同的最小支持度阈值下,分类准确度不同,并且若选取合适的最小支持度阈值,能够利用较少的SJEP达到较高的分类准确度。(4)分析比较SP-树挖掘算法和STSJEP-树挖掘算法的时间性能,实验结果表明,对于同一数据集,在同一最小支持度阈值下,SP-树挖掘算法挖掘出SJEP的时间性能要优于STSJEP-树挖掘算法。

于大东, 刘东波, 罗睿, 王建新[8]2007年在《基于JEP平均长度的分类方法》文中研究说明本文研究了JEP——一种在不同数据集之间支持度从零到非零跳跃性变化的项集在数据分类中存在的问题,提出了项集独立支持度的概念。相对于传统的项集支持度来说,独立支持度能够更加全面地描述数据的分布特征,为更加准确的分类提供依据。进而,在独立支持度的基础上提出了JEP平均长度的概念,并提出了一种以测试样本所覆盖JEP的平均长度作为分类特征的分类方法,该方法可以更加有效地区分类边界上的数据,能够为数据提供更为准确的分类。

温箐笛[9]2006年在《训练基于EP的分类器算法》文中研究表明数据挖掘又称数据库中知识发现,是从大量数据中用非平凡的方法发现有用的知识。分类是数据挖掘中的一项非常重要的任务,在商业、金融、电讯、DNA分析、科学研究等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类方法,大部分算法是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类法已成为数据挖掘的一个挑战性任务。 基于显露模式(Emerging Pattern,EP)的分类方法是针对大型数据集的分类提出的,EP是G.Dong和J.Li提出的一种新的知识模式,这些模式能够捕获目标类和非目标类上多组属性之间的不同,具有很好的分类性能。第一个基于EP的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、BCEP和DeEPs等一系列基于EP的分类算法。相关研究表明,基于EP的分类算法的平均分类准确率优于决策树等传统算法,显示了EP在分类方面的优越性。 本文提出了一种可调整权值的基于EP的分类方法CEPAW。CEPAW使用基本显露模式(eEP)并聚合eEP的区分能力建立分类器。在聚合eEP的区分能力时,eEP的权值通过训练自适应地选取。训练分为两个阶段:第一阶段的主要任务是挖掘eEPs,构造初始分类器。在EP的选取以及评分函数方面,我们都采用了不同于以往的基于EP的分类算法的方法。第二阶段是权值的自适应调整。开始,所有EP的权值相同。反复地使用初始分类器对训练样本进行分类,并通过考察每个EP对训练样本的分类效果调整EP的权值,直到分类器的分类准确率不能再提高。 为了测试算法的分类性能,使用了UCI机器学习库中的12个数据集作为实验数据集,并将实验结果与NB、C5.0、CAEP、LB以及BCEP算法进行比较。结果表明,CEPAW具有更好的分类准确率,自适应地选取EP的权值比以支持度为权值的评分策略更加合理。当数据分布发生轻微变化时,通过再训练,调整EP的权值,CEPAW可以较好地适应新的数据分布。

山丹[10]2007年在《基于显露模式的分类算法研究》文中提出数据挖掘是研究从大量数据中用非平凡的方法发现有用知识的理论与方法。分类作为数据挖掘的一个重要课题,在统计学、机器学习、神经网络和专家系统中得到了较早的研究,但其中大部分都是内存驻留算法,适用于小型数据集。随着数据集的数据量和维数的增加,建立高效的、适用于大型数据集的分类算法已成为数据挖掘的一项挑战性任务。基于显露模式(Emerging Patterns,EPs)的分类方法是针对大型数据集的分类提出的,EPs作为一种新的知识模式,其能够捕获目标类和非目标类上多组属性之间的差异,具有很好的分类性能。本文首先介绍了分类的相关概念及基本技术,随后详细介绍了显露模式的基本概念及有效的使用边界操作挖掘EPs的MBD-LLBORDER算法和作为输入的最大模式求解算法FP-MAX,然后简要分析比较了目前几种已有的基于EPs的分类方法。最后,在此基础上详细给出了CAEP的具体实现方法,并在CAEP算法基础上提出改进思想,提出了一种新的基于EPs的分类算法,即基于基本显露模式的分类算法(Classification by essential Emerging Patterns,CeEP)。分析了算法的可行性和正确性。该算法采用了一种类似于Fan和Ramamohanarao在2003年提出的一种特殊形式的EP,同时改进了已有的同时使用支持度和增长率的评分标准,提出以增长率为标准的评分策略,并且解决了参数的自适应选择等问题。为了测试算法的分类性能,本文使用UCI机器学习库中的22个数据集作为实验数据集。并且将实验结果与NB,C4.5,TAN以及CAEP比较与分析。实验表明CeEP算法具有很好的分类性能。

参考文献:

[1]. 基于JEP的癌症分类算法研究[D]. 李丹. 湖南大学. 2011

[2]. 基于EP的多分类器表决分类算法[D]. 刘孟旭. 郑州大学. 2004

[3]. 数据挖掘技术与分类算法研究[D]. 刘刚. 中国人民解放军信息工程大学. 2004

[4]. 基于JEP的分类算法研究[D]. 李曼. 郑州大学. 2002

[5]. 基于NSJEP-list的强跳跃显露模式的挖掘方法及应用[D]. 关孜娉. 湖南大学. 2017

[6]. 癌症基因微阵列分类方法的研究[D]. 陈东. 湖南大学. 2012

[7]. 强跳跃显露模式挖掘算法及其应用[D]. 陆丽娟. 湖南大学. 2011

[8]. 基于JEP平均长度的分类方法[J]. 于大东, 刘东波, 罗睿, 王建新. 计算机科学. 2007

[9]. 训练基于EP的分类器算法[D]. 温箐笛. 郑州大学. 2006

[10]. 基于显露模式的分类算法研究[D]. 山丹. 北京交通大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于JEP的分类算法研究
下载Doc文档

猜你喜欢