PLSR模型的回归效果分析*,本文主要内容关键词为:模型论文,效果论文,PLSR论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:0212 C8
引言
回归分析是统计学的一个重要分支, 它的应用是十分广泛的。 从1809年Gauss创立最小二乘法算起,已经经历了近200年的历史,其内容发展的非常丰富,并且成为统计界和应用界日益关注的研究方向
回归分析是统计分析的一种方法和技术。它是从试验或观察数据出发,寻找合适的数学模型来近似表达变量之间的数量关系,研究它们之间的密切程度以及进行预测和推断。一般在建立多元线性回归模型时,都要假设设计矩阵X中的列向量之间不存在多重共线性, 而在实际问题中多重共线性的现象是普遍存在的。如果变量间存在近似多重共线性,回归系数最小二乘法估计
的均方程差变大,这表明估计
与参数值β可能相距甚远,估计精度下降,使估计值的稳定性变差。实际应用的经验也已经证实,当增减回归方程中的变量与样本时,其他变量回归系数可能有较大的变化,甚至改变符号与实际问题产生矛盾。
一、消除多重共线性影响常用的几种途径
多重共线性产生的原因是多方面的,大体可以分为两种情形:一种情形可能变量之间客观上就存在近似线性关系,特别是多输入、多输出高维复杂系统中,变量的自相关与互相关现象普遍存在,而且程度还比较严重;另一种情形可能由于收集数据的局限性所致。
(一)通过数据的收集、整理和加工消除多重共线性
问题所涉及的变量本身是不相关的,但是其样本可能没取出全部信息而呈现出一定的相关性,这种原因产生的多重共线性是非本质的。可以通过重新收集和扩大收集数量,或者对数据进行分解、综合、降维等技术处理来消除共线性。例如,当样本为时间序列数据时,利用差分法对数据进行变换。
(二)设法排除引起多重共线性的变量
这类方法比较多,有基于自变量的多重相关平方和的多重相关法,基于一组变量内部的多重相关系数的方法,逐步回归法等。这种工作可以解决实质性问题,但是有可能会把本应保留的系统信息舍弃。
(三)适当选取参数的估计方法
满足G—M条件的最小二乘LS的估计量是最佳线性无偏估计,这也是最小二乘经久不衰的原因之一。但是当X[T]X奇异或接近奇异时, 情况就不同了,针对此种情况,统计学者相继提出了一些新的估计方法,岭估计、主成分估计、特征根估计、部分最小二乘估计等,它们共同特点是有偏估计。
至今关于消除多重共线性的研究仍然是个热点。
二、部分最小二乘回归PLSR与其它回归方法的比较
(一)多元线性回归MLR、主元素回归PCR、部分最小二乘回归PLSR
设有经过标准化处理后的n×p型数据矩阵X
(1)多元线回归MLR(Multiple Linear Regression)
多元线性回归的数学模型:
Y=X β+ω (3.1)
E(ε)=0 D(ε)=σ[2]I(将I│X)仍记为X)
普通最小二乘LS的估计值
=(X[T]X)[-1]X[T]Y 具有线性无偏估计中方差最小性。回归方程Y=
可以证明,均方误差MSE(
)=σ[2]tr(X[T]X)[-1]
(2)主元回归PCR(Principal Components Regression)
多元线性回归数学模型与(1)相同。
利用主元分析法提取主元Z,主元Z的数学描述为:
Z=XU或X=ZU[T]
(3.3)
其中U=(u[,1],u[,2],…u[,p])为X[T]X的特征根λ[,1]≥λ[,2]≥…≥λ[,p]>0所对应的单位正交化的特征向量,Z=(z[,1],z[,2],…z[,p])。
将(3.3)代入(3.1)式中得主元Z的回归模型
T=ZU[T]β+ε=Zα+ε
(3.4)
其中参数 α=U[T]β或β=Uα
根据方差累计贡献率确定主元的个数r(r<n)。这时可将(3.4)式变为
Y=Z[,c]α[,c]+ε
(3.5)
其中Z[,c]=(z[,1],z[,2],…z[,r])。α[,c]的普通最小二乘LS估计
=(Z[T][,c]Z[,c])[-1]Z[T][,c]Y
令U[,c]=(u[,1],u[,2],…u[,r]),利用β=Uα, 得参数β的主成分估计
(3)部分最小二乘回归PLSR ( Partial
Least
SquaresRegression)
部分最小二第PLS是由H.wold在在60年代后期提出的,主要是用于处理两个数据阵X、Y之间的关系,因而PLS 用于建立多因变量与自变量之间的统计关系。从某种意义上讲,PLS是改进的POR, 这是因为在PLS中也要提取主元作为PLS成分,但在PCR中的主元提取仅考虑X 阵中的信息,而没有涉及Y阵,PLS分解主元时同时考虑了X阵和Y阵,使主元在描述X阵方差的同时尽量获取更多的Y阵方差,也就是在主元的选取除最大限度保留原自变量的信息外,还要与因变量相关性尽可能大。
一个部分最小二乘模型包括外部关系(X和Y分别进行分解)和内部关系(连接X和Y)。PLS首先对数据X和Y分别进行主元分解, 即把它们由各自的主元和负荷向量表示出来:
上述式子表示的关系称为外部关系。T和U分别是由数据X和Y的各个主元向量构成的矩阵,而P和Q则是由负荷向量构成的矩阵。部分最小二乘的内部关系为:u[,h]=b[,h]t[,h]其中b[,h]=t[T][,h]u[,h]/(t[T][,h]t[,h])。在这里b[,h]相当于多元回归或主元回归中的回归系数。
通过Y=XB[T]+F建立两个数据阵之间的关系。设
为Y的估计值,通过下两式:
得出回归模型。
PLSR通常采用NIPACS算法。详见参考文献[2]、[3]。
确定PLSR模型中所保留主元个数非常重要。可以用几个不同的方法来确定所需元素个数。国外大部分采用交叉检验方法。这种方法先将数据分为训练数据和测试数据,用训练数据建立模型,每增加一个主元素时,将相应的PLS模型在测试数据上进行测试。 当所用元素多于一定数目时,PLS模型在测试数据上的误差将会增加。 在测试数据上误差最小的PLS模型相应的主元个数为合适的元素个数。
(二)关于PLSR、PCR、MLR三种回归模型实例比较
通过对几类回归模型的讨论,可以看出求解参数的估计值时都要用到最小二乘法,当自变量存在多重共线性时,最小二乘回归性能很差,这样就需要千方百计地消除多重共线性,主元回归与部分最小二乘回归已把接近于零的特征根所对应的主元舍去,从而消除了原变量间的多重共线性,也就彻底消除了使最小二乘回归性能变差的根源,它们允许自变量中有互相关现象存在,在这方面主元回归与部分最小二乘回归优于普通最小二乘回归。
回归系数估计的精度与回归方程预测精度是评价一个回归效果的众多因素中的两个重要指标,下面通过实例对上述三种回归模型进行比较。
实例:
常压塔是炼油过程常减压蒸馏装置中的关键设备,其过程变量包括上百个温度、压力和流量。通过对工艺、机理的了解和质量相关因素的分析,确定该实例中的质量指标和过程变量之间存在着线性关系。选取27个位号作为变量集。这27个变量包括10个流量、5个压力和12 个温度。收集了1998年6月1日到8月9日共70天的数据,Y 阵为常压塔常二线油品的初馏点化验值,所用数据都为8小时采集一个,每天三个,共210个采集点。利用约3/5的数据作为建模数据,剩下的采样点数据作为预测数据,用来检验各个模型及相互比较。
利用124个采样点,建立MLR、PCR、PLSR三种回归模型。 采取交叉有效检验方法确定主元的个数。PLSR模型采用3个主元,PCR采用12个主元,两模型的回归系数相差不大。MLR 模型的回归系数和前两种模型相差较大,这是由于变量之间存在多重相关性而引起的。
利用余下的86个采样点的数据,通过三种模型进行预测。表1 表示的是三种模型在前6个采样点的预测结果比较。表2是通过五项综合指标进行比较,这五项指标分别是: Coef 为真实值和预测值的相关系数;AveErr为绝对误差的平均值; AveErrPer 为相对误差的平均值;HitRatio为命中率,它代表相对误差在3 %以内的采样点占总预测采样点的百分比。残差平方和均值。
表1 PLSR、PCR、MLR三种模型预测精度比较(前6个采样点)
PLSR预测值
PCR预测值
真实值 PLSR 绝对 相对 PCR
绝对 相对
预测值误差 误差 预测值误差 误差
184.00188.71-4.712.56 187.11-3.111.69
181.00187.35-6.353.51 186.08-5.082.81
184.400
187.12-3.121.70 184.77-0.770.42
184.00187.19-3.191.73 185.82-1.820.99
183.00186.04-3.041.66 186.03-3.031.65
186.00188.95-2.951.59 188.92-2.921.57
MLR预测值
MLR 绝对
相对
预测值
误差
误差
190.59 -5.59
3.58
190.19 -9.19
5.08
188.56 -4.56
2.48
186.50 -2.50
1.36
184.10 -1.10
0.60
190.94 -4.93
2.65
表2 PLSR、PCR、MLR三种方法预测精度综合指标比较
预测模型Coef AveErr
AveErrPerRMSE HitRatio
PLSR
0.85673.71571.9903 4.89070.7674
PCR0.85963.65951.9596 4.87350.7791
MLR0.81834.09272.2048 5.55630.7093
由上面的表可以看出:PLSR、PCR优于MLR模型。
三、结论
部分最小二乘回归PLSR是一种有效地降维和消除变量间相关性多元统计方法。特别是对于过程数据高度相关的连续过程,PLSR、PCR 结合了投影技术的回归方法,比一般的多元线性回归方法效果要好。PLSR还可以利用多种非线性方法来拟合PLS的内部关系, 在原有优势下应用到非线性系统。