对主成分分析综合评价方法若干问题的探讨,本文主要内容关键词为:若干问题论文,综合评价论文,成分论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
主成分分析法在社会经济统计分析中的应用越来越广泛,随之也产生了一些值得注意和研究的问题。本文对应用主成分分析进行综合评价时遇到的若干问题进行深入讨论。
一、主成分分析与因子分析的联系与区别
相当数量的应用文章对主成分分析与因子分析不加以严格区分,因而对分析结果的解释非常模糊。我们认为主成分分析与因子分析两者之间有联系,但也存在着明显的区别。
从联系上看,主成分分析和因子分析都是将多个相关变量(指标)转化为少数几个不相关变量的一种多元统计分析方法。其目的是使在高维空间中研究样本分布规律的问题,通过降维得到简化,并尽量保留原变量的信息量。两者都有消除相关、降维的功能。
主成分分析是通过变量变换把注意力集中在具有最大变差的那些主成分上,而视变差不大的主成分为常数予以舍弃;因子分析是通过因子模型把注意力集中在少数不可观测的公共因子上,而舍弃掉特殊因子。主成分个数与公共因子个数的选择准则通常是相同的。
对主成分分析中的主成分与因子分析中的公共因子的含义均需进行明确解释,否则,会遇到应用上的困难。
虽然主成分分析法与因子分析法有着密切联系,但从应用上更需关注的是它们之间的区别。
1.主成分分析的实质是P维空间的坐标旋转, 并不改变样本数据结构,不能作为模型来描述;因子分析的实质是P维空间到M维空间的一种映射,需构造模型。
2.主成分的个数与原变量个数相等,而公共因子的个数小于原变量的个数。
3.主成分分析是把主成分表示为原变量的线性组合;因子分析是把原变量表示为公共因子和特殊因子的线性组合。
4.主成分分析由可观测的原变量X直接求得主成分Y,并可逆;因子分析只能通过可观测的原变量去估计不可观测的公共因子F,不能用X表示F。
5.主成分分析中的L阵是唯一的正交阵;因子分析中的A阵不唯一,也不一定是正交阵。
6.主成分分析主要应用在综合评价和指标筛选上;因子分析除这两个作用以外,还可应用于对样本或变量的分类。
二、能否对主成分实施旋转
一般情况下,主成分的含义是模糊的。为了获得对主成分的明确解释,能否象因子分析那样,当初始公共因子不能解释时,采取最大方差的正交旋转,使旋转后的公共因子有更明确的实际意义?我们认为对主成分再实施旋转是不可行的。
1.对于给定的评价指标向量X和样本观测数据阵X=(x[,ij]),进行主成分分析,得到的主成分向量Y具有唯一性。 这是因为主成分分析实质是对原指标变量进行线性变换,即Y=L[,T]X,由于L 阵是唯一的正交阵,所以主成分向量Y具有唯一性。如果对主成分实施旋转, 则会有下列情况发生:
式中θ是正交阵。若式(1)成立,则说明L阵和主成分均不唯一,(1)这在理论上是无法解释的。由于数据阵X没变,因此相关阵R 也不变,当然R阵的特征值和特征值对应的单位特征向量也不会变, 这就说明L阵具有唯一性。而实施旋转必然导致L阵不唯一,显然旋转应被否定。
2.从主成分的几何解释上看,主成分分析法实际是对以原指标变量为坐标的坐标系进行坐标旋转,找出样本点分布最分散的几个相互正交的方向。第1主成分Y[,1]是样本点散布最开的方向;第2主成分Y[,1]是第一主成分Y[,J]所生成向量空间的正交补内样本点散布最开的方向,…,第j 主成分是第1,第2,…,第j-1主成分所生成向量空间的正交补内样本点散布最开的方向。对于给定样本来讲,这些散布最开的n 个相互正交的方向也是唯一的。如果可以对主成分实施旋转,就等于在已求得上述方向之后再进行坐标旋转,结果是以的各分量作为坐标,如果这些坐标对于给定样本来讲也是散布最开的相互正交方向,则等价于主成分不唯
这在理论上不成立;如果这些坐标不是散布最开的相互正交方向,则等价于不是主成分。果真如此,也就失去了对它们进行解释的任何意义。
3.有的文章提出了实施旋转,并作了理论上的论证〔1〕。 我们认为这种观点和理论论证值得商榷。
综上所述,对主成分再实施旋转是错误的。
三、变量尺度对主成分分析的影响
不同的变量尺度对主成分分析结论究竟会产生什么影响?我们对此作了数学推导和验证,结论是:
1.变量尺度的变化会改变变量的方差和均值,但不改变变异系数。
2.变量尺度的变化不会改变变量间的相关系数。
3.如果无量纲化采取标准化、均值化或极差正规化方法,变量尺度的变化不会改变数据变换后的变量方差。
4.如果无量纲化采取标准化、均值化或极差正规化方法,设r[,xixj]为变换前相关系数,r[,zizj]为变换后的相关系数,数学上可以证明r[,xixj]=r[,zizj],变量尺度变化不改变数据变换后的相关系数。
5.由结论3和4,可推导出变量尺度的变化不改变变量无量纲化后的协方差阵(如果采用标准化协方差阵等于相关阵,那么相关阵也不会改变)。在上述考察的基础上得出的结论是:由于变量尺度的变化,不改变变换后的协方差阵,因而也不改变特征值λ,当然也不改变特征值所对应的特征向量,即L阵不变,但主成分向量Y的值发生了变化。因此有些文章和书中说,主成分分析一个明显的特征是每个主成分依赖于测量初始变量所用的尺度,这是正确的。但是又说当尺度改变时会得到不同的特征值λ,则是错误的。由于变量所用尺度不同,使原始指标变量数量级差异较大,而变量值大的对综合指标(主成分)Y的影响也大, 为了消除这种影响,要求指标数量级差异不能太大,为此才进行无量纲化处理,但并不一定要求数据变换后一定要方差为1, 因此标准化不是主成分分析法唯一的无量纲化方法,那种出现在大多数(几乎全部)文章中的主成分分析必须标准化处理的认识,显然是片面的。
四、原始数据的无量纲化处理与主成分的求取
原始数据的无量纲化既是多指标综合评价的基本要求,也是主成分分析法的特殊要求。因此,在采用主成分分析法之前,必须对原始指标变量数据进行无量纲化处理,这一点早已取得共识。但是如何进行无量纲化处理,过去大都采用标准化的方法。我们认为,无量纲化无论采用什么方法都会有信息丢失,因为无量纲化中的除法实质是几何上的相似变换,相似变换必然改变数据结构,也就改变了变量的变异信息,所以变换前后的方差之和不相等。这可通过数学得到证明。
五、特征向量的确定与主成分得分值
六、对于Y=L[T]X的L阵中元素L[,ij]及其正负号的解释
主成分分析法是将主成分写成原指标变量的线性组合,其系数l[,ij]反映了指标变量x[,i]对主成分y[,j]的作用,或者叫主成分x[,i]在指标x[,i]上的权数。由于作用有大小,也有方向问题,所以l[,ij]出现负值时,说明指标变量x[,i]对综合指标y[,j]的贡献为负。对于正向指标,可用系统理论来解释。指标体系是由多个指标构成的系统,而每个单独指标游离系统之外和纳入系统之内,其作用会有量的增减和质的变化,系统内的每个指标是在与其他指标的相互关联中发挥其协同效应的,如果关联不存在,这种协同效应就消失了。因此,即使是评价指标体系中的正指标也可能出现负权数。另外从主成分分析的几何意义上看,以原指标变量为坐标轴的坐标系进行旋转,得到以主成分变量为坐标轴的坐标系。当l[,ij]为负值时,说明主成分y[,j]在原坐标系第x[,i]的坐标轴上的投影方向为负方向。
此外,主成分分析应用的条件,主成分分析法对某些问题降维不显著等课题,都是值得我们认真研究和探讨的。
注释:
〔1〕陈述云等:《对多指标综合评价的主成分分析方法的改进》,载《统计研究》1995年第1期。