基于多元t分布的概率主成分分析及其应用

基于多元t分布的概率主成分分析及其应用

王海贤[1]2005年在《有限混合模型、非线性二维主成分分析及其在模式分类中应用》文中研究表明本文以统计理论为基础,研究两个方面的内容:(a)对有限混合模型的有关议题进行了较为系统的研究;(b)结合人脸识别问题,研究了二维主成分分析的非线性扩展。在统计模式识别中,有限混合模型是一种正式的(基于模型的)无监督聚类方法,而基于二维主成分分析的方法的核心问题是研究无监督的特征提取。它们都属于统计模式识别中无监督的范畴,无监督方法的特点是直接利用没有类别标记的样本进行学习或特征提取。本文的主要研究内容及创新如下: 研究一族重尾分布—多维t分布的有限混合模型。我们常用Gauss混合分布来对多维数据集进行聚类或拟合,但在许多应用中,Gauss分布的尾部比需要的要轻,而且分量均值和方差矩阵的估计会受到关于分量的非典型观测样本的严重影响。作为一种鲁棒的替代方法,采用多维t混合分布建模是一种标准的选择。此外,多维数据集常不可避免地有丢失值发生。我们基于极大似然估计,利用期望最大化算法导出了有数据随机丢失时多维t混合分布的拟合框架。这里,期望最大化算法既用来处理丢失值又用来估计模型参数。获得的结果可用于广泛的无监督聚类及有监督判别问题。 对有限混合模型中分量数目g的估计进行研究。这是有限混合模型拟合的一个重要议题,一些经典的混合模型拟合方法(比如极大似然方法、Bayes方法)都是在固定g的情况下进行学习。然而有时g的值不可得知,我们必须从获得的数据集对其(及模型其它参数)进行推断。这是模型选择的问题,也是用期望最大化算法拟合有限混合模型的主要困难,因为期望最大化算法本身不能估计g;相反,它需要事先指定g才能进行模型其它参数的估计。为了解决这个问题,我们提出了一种无监督学习有限混合模型的逐步分裂融合期望最大化算法。这里的无监督有叁层含义:(a)没有/不需利用样本的类别信息;(b)能够自动估计g;(c)不需要仔细的初始化。该算法交替分裂和融合混合分量,从而同时估计g及模型其它参数。此外,用来有效选择分裂或融合操作的两个新准则也被提出。实验结果显示了该算法的有效性。 研究概率二维主成分分析及其混合模型,及它们在人脸识别中的应用。主成分分析(或特征脸)是一种成功的子空间人脸识别方法,并且已成为事实上的人脸识别领域其它方法识别性能的评测基准。然而,几乎所有基于特征脸的人脸识别方法,都是在高维的图像空间进行,这使得寻找脸空间的计算不易。最近提出的二维主成分分析直接基于原始图像矩阵计算,摆脱了特征脸方法从图像矩阵向向量转换的限制,被证明了是一种高效的人脸识别方法。我们考虑一个新的图像空间—图像矩阵的行所在的

赵建华[2]2002年在《基于多元t分布的概率主成分分析及其应用》文中指出主成分分析(PCA)是一种常用的降维技巧,在图像处理、模式识别以及数据挖掘中都有很广泛的应用。但是,作为一种全局线性投影,经典的PCA用于实际中经常出现的非线性数据时不可能令人满意。于是,近年来人们提出了各种各样的非线性PCA及混合PCA.其中,特别重要的是由[39,40] 提出的概率PCA(本文称为Gaussian-PPCA).在此学位论文中,我们将Gaussian-PPCA推广为基于多元t分布的概率PCA(下文称为t-PPCA),从而得到了一类无论在理论上还是在实际应用中均具有较大意义的通用数据降维算法。具体说来,我们的主要工作包含以下内容:理论方面:假设数据来自m个d元t分布的混合;而每个混合成分均满足迷向(iso-tropic)因子分析模型见§3. 2. 1) 。在第叁、四两章,我们用EM型算法导出了模型参数的极大似然估计。在此基础上,我们得到了一类新的数据投影及其重构的算法,即,t-PPCA.当t分布的自由度ν=∞时,t-PPCA就是Gaussian-PPCA,当m=1时,t-PPCA定义的数据投影的确来自某个矩阵S’的主成分分解(见§3. 1) ;但只有在ν=∞时,S’才退化为样本协方差矩阵S.这说明经典主成分分析仅适用于来自正态分布的数据。应用方面:我们用多元t分布的有限混合作为数据模型,保证了t-PPCA的稳健性,从而比Gaussian-PPCA更具实用价值。这在第五章的应用研究中得到了充分的证明。在§5. 1的手写英文字母识别的实验中,结果表明t-PPCA的错误率大大小于使用Gaussian-PPCA的错误率(见表5. 1) 。同时,我们发现数据投影对于某些分类是必须的。这一现象有待于进一步的研究。在§5. 2的图像压缩实验中,我们的图象重构质量明显优于使用Gaussian-PPCA的图象重构质量(比较图5. 2及图5. 3) 。

孙小军[3]2018年在《基于双线性概率主成分分析的聚类算法研究》文中研究指明聚类分析是根据事物自身的特性对被聚类对象进行类别划分的统计分析方法,在模式识别、生物医学以及图像分析等重要领域有着广泛的应用,使其成为一个十分活跃的研究方向。随着科学技术的飞速发展,数据集规模的不断扩大,各行各业中积累了大量且具有高维特性的数据,这些特征为数据分析提供了新的可能,但同时也是障碍。传统的聚类算法在处理低维数据时可以得到较稳定的聚类结果,但在高维数据的聚类过程中,会导致传统聚类算法失去聚类分析的意义,从而降低了聚类的有效性。为了能够很好地处理高维数据,聚类分析的研究方向将转移到高维空间上,包括对高维数据的预处理或者数据降维技术的运用。数据降维技术不仅可以有效解决高维数据中的‘维数灾难’问题,降低数据复杂度,还可以减少数据中的噪声和冗余,提炼出人们感兴趣的数据结构,以便能进行更好地分析和研究。为了在聚类算法中实现降维,学者们将聚类算法中的混合模型聚类方法和降维技术中的主成分分析方法进行结合,提出了混合概率主成分分析模型(MPPCA),该模型能同时实现降维和聚类。但对于高维数据(例如图像数据),MPPCA模型的处理方法是将矩阵拉直后进行运算,这样很容易造成维数灾难。为了能更好地处理高维数据,本文在现有的降维模型和聚类模型的基础上,提出了基于二维矩阵型数据的降维方法,更好地改进了高效处理高维数据的聚类方法。全文主要工作包括如下:1.在基于二维矩阵型数据降维方法的双线性概率主成分分析模型(BPPCA)的基础上,结合混合模型,提出了混合双线性概率主成分分析模型(MBPPCA),分析说明了该模型的理论性质。2.对于本文提出的模型的参数估计问题,在EM算法的基础上,给出了ECM算法和AECM算法两种方法来对参数进行估计,并分析了两种算法的计算复杂度,结果显示AECM算法的计算复杂度要明显小于ECM算法的。通过数据模拟,分析比较了两种估计算法的估计精确性和算法收敛性等两方面的性质,结果表明随着样本量的增加,两种算法的估计值不断逼近参数真实值,并且两种算法的估计精度都比MPPCA模型中的参数估计方法要高,ECM算法的收敛速度比AECM算法的要快些。3.对本文提出的模型和已有的PPCA模型在手写数字识别数据库和UMIST人脸数据库上进行试验分析,比较模型的识别效果。对于手写数字识别数据库,本文比较了MBPPCA模型和MPPCA模型在聚成不同的类别和降成不同的维数时的识别效果。结果表明对于该数据库MBPPCA模型的识别效果比MPPCA模型的差些,这与理论推导有些不符,具体原因有待进一步研究。对UMIST人脸数据库,本文比较了BPPCA模型、MPPCA模型和MBPPCA这叁个模型,在选取不同训练样本数、不同降维数和不同类别数上进行人脸识别分析,选取不同降维数上的最优识别率,结果显示MBPPCA模型在不同训练样本数和不同类别上的识别效果都要比BPPCA模型和MPPCA模型的好,说明本文提出的模型在该数据库的识别效果比较好。

刘瑞[4]2012年在《非正态和多元过程能力分析及其在流程和离散制造业中的应用》文中指出本文基于过程能力分析,研究了非正态数据和多元数据的过程能力指数在实际生产中的应用。在非正态数据过程能力指数的研究中,选取了七种典型方法,采用蒙特卡洛模拟法比较了七种方法的优劣。模拟数据来源于对数正态分布和威布尔分布,每种分布选取两种不同的参数,即共有四种不同的分布曲线,每种分布曲线下产生50组样本容量为100的随机数据。模拟分别设定目标Cpu为1、1.5和2,由目标Cpu计算出在四种分布曲线下的公差上限即USL,并随后应用于计算过程能力指数的过程中。运用七种方法分别计算在每组数据下的过程能力指数,并得出每种方法计算结果的均值和标准差,作为评价该方法优劣的准则。并将该模拟结果应用于某含乳饮料制造业的非正态数据分析中,研究了非正态数据过程能力分析在实际中的应用,验证了模拟结果的可行性和有效性。多元数据的过程能力分析采用建立多元控制图和计算多元过程能力指数的思路。多元控制图的建立基于多元数据的主成分分析,将原始变量通过线性组合得到相互独立主成分。计算每个样本在主成分上的得分,并以主成分对应的特征根为权重对主成分得分进行加总,得到综合得分,对综合得分建立控制图,实现对多元过程的监控。如果控制图显示过程处于稳定受控状态,则可对数据进一步计算过程能力指数。多元数据的过程能力指数计算属于学术界研究的热点和难点,目前尚未形成统一定论,本文采用了单元过程能力指数的几何平均作为多元过程的过程能力指数;另一方面,基于前面多元控制图的研究,提出了以综合得分为指标计算过程能力指数的方法,以此评价分析多元质量特性的过程能力。

李鹏飞[5]2006年在《多元质量特性过程能力分析与控制》文中研究说明多元系统的研究已经进行了比较长的时间,而且也产生了多种方法,如主成分分析、逐步回归、多重回归、附加信息检验、多元过程控制图等等。但是多元质量特性过程能力分析和控制过程的研究的时间还不长,相比较一元过程能力分析过程来说还不系统,还没有形成一个系统的分析和评价方法。我们有必要对其进行深入地研究,以便多元质量特性过程能力分析和控制的方法能更好的应用于生产过程中。本文首先对多元统计方法T~2进行介绍,为本文的研究打下理论基础,这其中包括叁方面的内容:统计距离的概念, T~2统计假设, T~2统计的特点。接下来对历史数据的收集进行研究,数据收集是进行过程能力分析的基础和前提。这其中主要对实际生产过程中经常出现的问题进行系统地总结和分析。在此基础上,对如何通过历史数据建立稳态进行研究,其中的主要内容分为已知参数的情况下的异常值判异,未知参数情况下的异常值判异。建立短期稳态后,我们需要对过程能力进行评价,这时就需要使用多元质量特性过程能力指数,通过多元过程能力指数,我们可以判断该过程是否达到了进行控制的标准,进而确定是否将该过程转入控制阶段。在最后部分,本文使用这个多元质量特性过程能力评价体系对某一实际的生产系统进行分析研究,取得了良好的效果。

刘利云[6]2008年在《高速钢轨轧制参数优化系统的研究与应用》文中指出本文介绍了钢轨的生产流程和研究状况,分析了当前具有代表性的钢轨生产的发展趋势,论述了数据挖掘算法。根据某轨梁厂高速钢轨万能轧制的特点和要求,运用数据挖掘对钢轨万能法轧制表参数数据进行研究,开发了一套基于数据挖掘的钢轨轧制参数优化系统。该系统对轧制表中可控参数进行数据挖掘,寻找影响轧制钢轨规格尺寸精度的主要因素,并优化出这些主成分的优势区间,用到的数据挖掘算法主要是主成分分析(Principal Component Analysis简称PCA)和优势区间控制算法。轧制表参数通过数据挖掘之后,可以将各个可控参数的预设值缩小到一定区间范围,使相应的各机架操作人员有一个确定的范围来调整设定这些主要因素的取值,不至于将这些因素由于主观的设定而过高或过低,导致轧制出的钢轨不合格。根据本系统参数的优势区间,在轧制过程中可以对设定条件进行动态的修正,对提高钢轨最终形状尺寸的精度和减少废钢产品率有很大意义。该系统从体系结构上分为数据采集层、数据挖掘层和专家数据库生成层;从功能上分为四大功能:①系统具有采集数据功能;②系统能对影响万能法轧制钢轨规格尺寸的可控参数进行主成分分析,并能在分析的同时实现数据显示、数据预处理、数据保存等功能;③系统能对影响万能法轧制钢轨规格的主成分甚至所有的可控参数进行优势区间分析,在数据优势区间分析的同时进行历史数据回放、优势区间显示、显着性分析以及专家建议等;④本系统还具有专家数据库生成功能,以各参数的优势区间、显着性以及专家建议等生成专家数据库,同时还有生成报表功能。该系统在软件设计方面,以Microsoft Visual C++6.0为开发平台,通过MATCOM与Matlab6.5接口进行编程,综合了VC和Matlab两种开发软件的优点,采用SQL Server 2000数据库技术,对系统信息、设备信息、采样数据进行有效管理;系统结合了Windows操作系统的多线程与多视图技术,实现了各功能模块并行处理模式,这种模式的运用既保障了系统数据采集的实时性,又可以现场进行各种分析,充分利用、发挥了Windows操作系统的优势,具有良好的界面友好性。文章最后详细阐述了高速钢轨轨轧制参数优化系统的仿真及工业应用情况,验证了系统的可行性、高效性,为进一步的研究打下了良好的基础。

于凌波[7]2008年在《多工序制造过程计算机辅助误差诊断控制系统》文中研究指明质量管理伴随企业管理的实践而不断发展和完善,现在已经成为一门独立的学科。其中,统计过程控制(Statistical Process Control, SPC)是目前企业中广泛采用的质量管理手段。它通过对关键质量参数和关键工序的样本采集和统计分析,以概率论和数理统计为基础,采用统计控制图、统计描述、统计相关分析、实验设计、回归分析等方法,分析处理与产品质量相关的生产过程数据。传统的统计过程控制采用单变量统计过程控制方法,只对生产过程中某一个工序的一些重要指标单独地实施统计过程控制。如果需要分析多变量、多工序系统,传统的统计过程控制方法显然无能为力。研究多工序、多变量生产过程质量分析和评价方法,对正确实施多工序生产过程质量控制具有现实意义。减少产品制造过程中出现的各种波动,正确找出制造过程中的波动源,是多工序、多变量生产系统实施质量控制和质量改进的基础。多元质量控制是同时对多个质量特性进行控制的一种方法。T~2控制图的优点是能够全面地考虑各元之间的相关性,并能在变量相关的条件下精确地给出第一类错误的概率α,但它最大的缺点就是不能诊断。当涉及到的变量数目很多时,在寻找样本的分布规律时工作量很大且样本之间关系容易分辨,另外由于各指标的数据信息之间不可避免的存在重迭。需要用少数变量对若干个指标进行综合,以期既能降低指标的维数,又能充分反映指标的信息。采用主成分分析(PCA)作为主要多元统计方法,把多个指标转化为少数几个独立指标分析。结合T~2控制图控制图与主成分分析两者的优点,本文提出T~2 -PCA方法,在T~2控制图的基础上,对所有因素作主成分分析,并绘制相应的主成分单值控制图与单变量控制图,作为对T~2控制图的诊断手段。在多工序加工过程(MMP)中,最终产品的变异是各工序中变异的积累或者累积。建模并控制故障传播,对提高产品空间质量非常必要。采用两种质量的叁图诊断系统,借助选控图将上下工序责任分离,以达到诊断目的。编写多工序制造过程的计算机辅助诊断系统,实现对多变量、多工序制造过程的数据处理,并输出相应的处理结果,以此诊断。

杜伟[8]2016年在《SPC法在装饰装修工程质量控制中的应用研究》文中指出着眼于建设工程的质量控制,把SPC(统计过程控制)质量控制方法应用到装饰装修工程的质量控制,并结合墙面大理石安装工程和地面活动地板安装实例进行验证分析,证明了统计质量控制在装饰装修工程质量控制中的可行性和有效性,对装饰装修工程的质量控制具有指导性。首先对质量管理理论做了综合论述,分析了新形势下我国建筑工程质量控制的缺陷所在,提出了把SPC法应用到装饰装修工程质量控制中的新思路;第二,针对SPC法的质量控制理论做了概述,并把多元统计过程控制(MSPC)方法和主成分质诊断作为重点内容阐述,先后分别介绍了Shewhart控制图、Hotelling多元T 2控制图和过程能力指数Cp,组成了建立统计控制模型的基本要素;第叁,详细阐述了质量诊断及其方法:主成分分析法,建立了基于主成分分析的工序质量诊断模型,通过T2统计量和SPE统计量来实现质量诊断;第四,结合两个工程实例:墙面大理石安装工程和活动地板铺设工程,利用现有的数据进行多元统计过程控制在石材饰面安装和活动地板安装过程中的模拟应用,通过提取质量特性,采集质量特性的数据,做出多元T 2控制图;在控制图的基础上分析多元过程能力,建立PCA质量诊断模型,分别对两个质量特性指标:“墙面石材接缝宽度X1”、“活动地板表面平整度Y1”失控模拟,做出质量诊断分析;最后论述了质量改进的基本模型,就以上两个失控质量特性提出相应质量改进方案和改进措施,完整地实现了装饰装修施工的质量控制,证明了SPC法在装饰装修工程质量控制中的可行性与有效性,说明了PCA法在质量诊断中具有明显的效果,同时引进了质量改进模式,完善了质量控制模型。结尾部分对统计过程质量控制的应用做了总结,并对SPC法在工程的应用和推广做出展望。

赵凯[9]2011年在《多元制造过程能力分析及质量诊断》文中提出在实际的制造过程中,被加工零部件或产品往往具有多个质量特性,且这些质量特性之间存在一定的相关性,如何确定该过程的过程能力指数以及对过程质量进行诊断,是迫切需要解决的问题,该问题的研究不仅对多元制造过程能力分析研究具有重要的意义,而且对多元制造过程的质量进行监控和诊断均具有一定的理论意义和实用价值。本文在实地调查的基础上,以制造生产过程为研究对象,针对具体的问题,采用主成分分析、支持向量机等方法和技术,系统地研究了多元制造过程中多元过程能力指数分析及质量诊断的理论方法和技术,这对于制造企业分析其过程现状,从而提高其产品的质量具有很重要的意义。本文的研究内容主要包括:1.生产过程质量控制与诊断体系构建。针对制造企业过程中的质量的问题,引起产品质量缺陷的既有过程运行参数也有设备及零部件因素,较完善地构建了生产过程质量控制与诊断体系与流程,更好地考虑了产品加工过程中导致产品质量缺陷的深层次原因,为制造过程波动溯源和质量改进提供有力和明确的支持。2.多元过程能力指数的度量与构建。产品的制造过程能力体现了过程稳定地实现加工质量的水平,过程能力分析的目的是研究制造过程的变异相对于设定公差的满足程度。由于产品需要多个质量特性进行描述,因而增加了多元过程能力分析的复杂性,需要对其进行降维,以简化分析过程。首先应用主成分分析法对多元过程进行降维,得到主成分分量的规格区间。在此基础上,首先提出基于体积比的改进Taam多元过程能力指数,并对其进行了统计假设检验。之后,利用主成分分量的概率密度函数,给出了多元过程的叁种不合格品率,并基于此进行了过程能力分析。3.多元质量控制与诊断应用研究。在多元质量控制中,由于多个质量特性之间存在相关性的问题,多元控制图一旦发出报警信号,很难判断是哪个或者是那些变量的组合出现了问题。针对实际多元过程中均值偏移问题应用支持向量机方法进行了诊断研究,首先选取要研究的变量,每一个变量分为正常和异常两种情况,每一个变量分别用一个SVM分类模型来诊断该变量是否发生偏移,在对每一个变量的偏移进行诊断时,同时考虑了其他变量对该变量的影响,模型子个数与过程质量特性个数相等,最终结果将多元过程均值偏移划分成不同的模式组合,从而实现过程质量的诊断。

徐东锋[10]2015年在《基于振动传递率函数和统计假设检验的海洋平台结构损伤识别研究》文中进行了进一步梳理由于受到激励未知、测量噪声以及建模误差等因素的影响,基于振动的结构损伤识别结果存在明显的不确定性。为此,本文利用振动传递率函数和统计假设检验(的方法)进行结构损伤识别研究,主要内容如下:(1)介绍了结构损伤识别方法的研究背景及意义,综述了基于振动的结构损伤识别研究与发展现状。(2)介绍了振动传递率函数、主成分分析以及统计假设检验等基本理论。(3)基于振动传递率函数和t检验的结构损伤识别研究。首先,将损伤前后的振动传递率函数进行分组并分别构造振动传递率函数矩阵;然后,运用主成分分析对振动传递率函数进行压缩处理,提取主成分,计算结构损伤前后主成分之间的马氏距离,并将其作为统计分析的样本。最后,构造统计量利用t检验进行损伤识别研究。海洋平台数值模拟和振动台模型实验证明了该方法是有效的。(4)基于振动传递率函数和多元统计假设检验的结构损伤识别研究。利用主成分分析(PCA)提取结构损伤前后的振动传递率函数的第一阶主成分,并将其作为正态总体的一个样本,构造统计量利用多元统计分析中的F检验法进行损伤识别研究。海洋平台数值模拟和振动台模型实验证明了该方法是可行的。(5)将两种方法的统计结果进行比较分析,得出了一些结论。

参考文献:

[1]. 有限混合模型、非线性二维主成分分析及其在模式分类中应用[D]. 王海贤. 安徽大学. 2005

[2]. 基于多元t分布的概率主成分分析及其应用[D]. 赵建华. 东南大学. 2002

[3]. 基于双线性概率主成分分析的聚类算法研究[D]. 孙小军. 云南财经大学. 2018

[4]. 非正态和多元过程能力分析及其在流程和离散制造业中的应用[D]. 刘瑞. 天津大学. 2012

[5]. 多元质量特性过程能力分析与控制[D]. 李鹏飞. 天津大学. 2006

[6]. 高速钢轨轧制参数优化系统的研究与应用[D]. 刘利云. 重庆大学. 2008

[7]. 多工序制造过程计算机辅助误差诊断控制系统[D]. 于凌波. 江南大学. 2008

[8]. SPC法在装饰装修工程质量控制中的应用研究[D]. 杜伟. 广州大学. 2016

[9]. 多元制造过程能力分析及质量诊断[D]. 赵凯. 天津大学. 2011

[10]. 基于振动传递率函数和统计假设检验的海洋平台结构损伤识别研究[D]. 徐东锋. 青岛理工大学. 2015

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于多元t分布的概率主成分分析及其应用
下载Doc文档

猜你喜欢