主变量筛选方法,本文主要内容关键词为:变量论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、问题的提出
有关高维随机向量的统计特性分析或高维变量的观测数据的处理在大型工程问题中是常见的,如判别分析、聚类分析、典型相关分析、回归分析等方法[1]均是针对这类问题而提出的实用方法。众所周知,识辨系统在一个低维空间要比在一个高维空间容易得多,主成分分析[1,2]是在力保数据信息丢失尽可能少的原则下,对高维变量空间进行降维处理的有效方法之一。然而,主成分分析有三大不足之处:其一,计算量大。这是因为在对随机向量X=(x[,1],x[,2]…,x[,p])'的主成分分析中,必须用到X的协方差阵的全部特征值和对应的特征向量,这些量通常是对V用迭代法计算得到,这在p很大(如p≥30)时,其计算量是惊人的,且当V“病态”严重(即变量X多重相关性[3]x突出)时,其迭代收敛速度慢,计算误差(即舍入误差)可能大,致使计算结果不可信。其二,由于主成分是X的分量的线性组合,这使得在一个问题中所求主成分只有极少数有解释意义,而多数主成分很难对原变量X作出合理的解释,这是不争的事实。其三,当变量X多重相关性突出时,一些主成分将会过分地夸大某些因素的作用(见本文第4节的3),歪曲真实的数据信息,无法客观地反映原变量X的统计特性。
鉴于以上分析,本文利用矩阵的扫描运算,从X中直接选择部分变量(称为主变量),用这些主变量来反映X的统计特性,以达到对高维变量空间降维处理的目的,同时又能克服类似于主成分分析中的缺陷。为此,给出如下预备知识。
二、预备知识
三、主变量描述及筛选方法
我们知道,在主成分分析中,主成分是X的分量的线性组合(这使得在一个问题中所求主成分只有极少数有解释意义,而多数主成分很难对原变量X作出合理的解释),第i个主成分的方差为λ[,i],且各个主成分的方差之和为
,是X各分量的方差之和,即所谓X的“总方差”[1,2]。但当变量X多重相关性严重时,tr(V)含有过多的重复信息,将会导致一些主成分的过分夸大作用[3]。
如何构造很少几个指标以致能刻划高维指标X的统计特性?为了克服主成分分析方法的不足,本文从X的“总方差”tr(V)出发,按方差大的原则(方差大的分量反映X的能力强),采用在对角线上选最大值者作枢元(对角元至多作一次枢元)对V逐次用S运算,从X中逐次选择枢元对应的变量(如枢元在位置(3,3),则对应的变量为x[,3])。若经过r次S运算,则得到r个变量形如X[,(1)],并称这r个变量为X的主变量,且按枢元选入顺序将第R次枢元对应的变量称为X的第R个主变量,R=1,2,…,r。如何确定r?分析如下:
四、注释
1)本文方法简单易实行,计算量少。这是因为,对于p个变量X=(x[,1],x[,2]…,x[,p])'的模型,每选入一个主变量只要作一次扫描运算,计算量约p[2]次乘除法,若整个过程选入r(r<p)个主变量,则约需r×p[2]次乘除法。其次数值计算稳定性好,主要体现在以最大对角元为枢元作扫描运算。
2)本文方法是用所选主变量X[,(1)](r个分量,r<p)来反映原来变量X(p个分量)的统计特性,以达到对X降维处理的目的。由于X[,(1)]是X的部分分量。因此,X[,(1)]的含义明确,且有其余变量X[,(2)]的近似线性关系式(6)(见上节注1)。另外,该方法是用(而不是tr(V[,11]))来刻划X[,(1)]反映X的能力大小,且该量扣除了X[,(1)]的分量之间的重复信息(见上节),这也就是选取主变量的基本原则。于是,阈值α可理解为所选主变量X[,(1)]包含了原变量X的大约α×100%的信息。一般可取α≥85%或由经验确定。
3)在对系统进行分析或评价过程中,为了更完备地描述系统,尽可能不遗漏一些举足轻重的系统特性,分析人员往往倾向于尽可能周到地选取有关指标。这些,在系统的指标体系中,往往会出现变量多重相关的现象。当变量X多重相关性突出时,主变量筛选方法效果显著,下面的例子足以能说明这一断言。
若系统有两个独立因素X[,Ⅰ],X[,Ⅱ],其中对X[,Ⅰ]用四个完全相同的变量x[,1],x[,2],x[,3],x[,4]来描述,而对X[,Ⅱ]仅用一个变量x[,5]来描述。记X=(x[,1],x[,2],x[,3],x[,4],x[,5])',且设
此外表明因素X[,Ⅱ]对系统的作用强于因素X[,Ⅰ]。
若用主变量筛选方法分析该系统,可得两个主变量(其中x[,5]是第一个主变量),反映X的能力大小用
刻划(而不是用tr(V)=5.1,这是因为tr(V)包含了分量x[,1],x[,2],x[,3],x[,4]中过多的重复信息)。这样的主变量X[,(1)]能充分反映X的统计特性,这与系统的实际十分一致。
若用主成分分析,可得X的两个主成分,第一、二主成分分别为,y[,1]的贡献率达78.4%。若按75%的精度反映该系统,则仅取第一个主成分y[,1],而[y,2]被完全忽略掉;且y[,1]是刻划因素X[,Ⅰ]对系统的作用,y[,2]=x[,5]表示了系统的重要特征X[,Ⅱ],而y[,1]对系统的作用远大于y[,2]的作用,这与系统的实际不相符。这说明当变量多重相关性突出时,主成分分析法可能歪曲真实的数据信息。
4)若X的分量由于量纲(或单位)差别太大,导致各分量的方差差别大,类似于主成分分析,可对X的相关矩阵R用主变量筛选方法求主变量,以达到降维的目的。
5)在实际问题中,若V或R未知,则先求相应的估计,然后对
采用主变量筛选方法求主变量。
6)对于高维变量问题,若所选主变量仍太多,可再对主变量用主成分分析法进行再次降维。按照主变量筛选方法,主变量的多重相关性远小于原变量X的多重相关性,故上述处理方法将大大削弱了多重相关性对主成分的影响。
7)在大型工程问题中,主变量筛选方法是一种中间环节,常用在对高维变量或高维观测数据进行降维得到主变量,再对主变量采用相应的数据分析方法,如典型相关分析、判别分析、回归分析等。
五、数值例子
为了研究某河流域汛期的降雨趋势,需要该地区的降雨资料。已知该地区有十个气象站1[#]~10[#],其中1[#]~7[#]建在平原,8[#]建在丘陵,9[#]建在山区,10[#]建在山区与丘陵的交界区域。以x[,i]表示第i站每个月的降雨量,i=1,2,…,10,记X=(x[,1],x[,2],…,x[,10])'。表1给出了随机向量X的(样本X[,1],…,X[,24])24组数据(最近八年[每年5、6、7月三个月]共24个月的降雨资料),表2给出了X的协方差阵V的估计量(见表1)。下面研究各气象站降雨量之间的联系及聚集的趋势。
其余变量x[,2],x[,3],x[,4],x[,6],x[,7]也有类似的近似线性关系式(由表4)。这些结果与实际十分一致:最重要的是x[,9],反映山区的降雨量;其次是x[,5],反映平原地区的降雨量;再次为x[,8],反映丘陵的降雨量;在平原的其余站的情况均可由x[,5]近似线性表示(这也说明变量X多重相关性突出),而x[,10]是x[,8]和x[,9]的近似线性表示,正是反映山区与丘陵的交界区域。这说明,通过主变量筛选方法可得,仅由9[#],5[#]和8[#]站的降雨资料就能反映该地区的降雨趋势。
若用主成分分析该问题,如表5,可得X的主成分分别为y[,1],y[,2],…,y[,10],且y[,1]和y[,2]的累计贡献率达93%,若按90%的原则选取主成分,则只取第一和第二个主成分y[,1]和y[,2]。y[,1]主要是变量x[,1],…,x[,7]的线性组合,其贡献率达72%。从实际问题看,y[,1]过分地夸大了平原站的降雨资料的作用(主要原因是x[,1],…,x[,7]多重相关性突出,其中包含了过多的平原地区降雨量的重复信息);y[,2]主要是x[,8]与x[,9]的线性组合,但解释意义不够明确;而按主成分原则丢弃的第三个主成分y[,3]主要是x[,8],x[,9]和x[,10]的线性组合,正好反映的是山区、丘陵的降雨趋势,该主成分的贡献率仅为6.6%,与y[,1]相比,是处于极其次要的地位,这与实际问题不相符。
标签:相关性分析论文;