优势分析方法及其应用,本文主要内容关键词为:及其应用论文,优势论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
多元回归分析(multiple regression)是用多个预测变量(X[,1],X[,2],…,X[,P])解释或预测标准变量y的一种常用统计分析方法。在该统计分析方法中,一个统计学家和应用者非常感兴趣的问题是,比较所选定的回归模型中各个预测变量之间的相对重要性(relatire importance),即对各个预测变量解释或预测标准变量的重要性进行排序。
传统上,确定回归模型中预测变量的相对重要性的方法有两类[1]:(1)以斜率为基础的指标,比如回归系数、标准化回归系数、正态标准系数以及准标准系数。这些指标可以被解释为,当模型中其他的预测变量保持恒定时,某预测变量变化一个单位(或标准单位)所导致标准变量的变化率;(2)方差降低指标,即预测变量的有用性,如偏相关的平方、准偏相关的平方以及预测变量的直接效应与整体效应的乘积。这些相关性指标可以被解释为,各个预测变量解释标准变量方差的百分比。
然而,上述两类指标都有一个严重的缺陷——模型依赖性。即,预测变量之间的相对重要性可能会随由全模型(full model)所衍生出来的子模型(subset model)的变化而发生改变。比如:用4个变量(X[,1] to X[,4])解释或预测变量y时,有可能出现这种情况:当模型为全模型(包含X[,1] to X[,4])时,β[,1](变量X[,1]的标准化回归系数)大于β[,2](变量X[,2]的标准回归化系数),即β[,1]>β[,2]。此时,说明变量X[,1]在解释或预测变量y时,要比变量X[,2]重要。但是,如果将变量X[,3]和变量X[,4]从该全模型中删除后,标准化回归系数之间的关系可能会出现逆转,即β[,1]<β[,2]。此时,说明变量X[,1]在解释或预测变量y时,不如变量X[,2]重要。除此之外,Johnson(2000)还指出,用标准化回归系数来确定各个预测变量之间的相对重要性,还会产生以下四个后果[2]:夸大与标准变量具有最高相关的预测变量的相对权重;降低模型中其他预测变量的相对权重;符号逆转。比如,与标准变量呈正零阶相关的某一预测变量,在多元回归中出现负的回归权重,从而掩盖其与标准变量之间的真实关系;样本的微小差别就有可能导致回归权重的巨大差异。
为解决上述问题,Budeseu等人近年来发展出了一种新的确定回归模型中各个预测变量之间相对重要性的方法,即优势分析(dominance analysis)。
2 优势分析:确定回归模型中各个预测变量之间相对重要性的新方法
2.1 优势分析方法的优点
优势分析方法平均了变量的直接效应(仅考虑变量本身)、总体效应(依赖于全模型中的所有预测变量)和偏效应(依赖于所有子模型中的其他预测变量)。该方法的一个最大优势是全面比较了在所有可能的子模型情况下,各预测变量解释或预测标准变量的相对重要性。如果各预测变量在所有可能的子模型中的优势关系恒定,即预测变量之间存在完全优势(complete dominance),那么用该方法来确定预测变量之间的相对重要性还有以下一点好处,即各个预测变量的总平均贡献之和等于已知方差。因此,预测变量之间的相对重要性可以被表达为各预测变量的总平均贡献占已知方差的百分比,从而使各预测变量的相对重要性得以更加准确、直观的表达[3]。除此之外,由此方法所确定的各预测变量之间的相对重要性序列不会夸大或降低某一预测变量解释或预测标准变量的重要性。
2.2 优势分析的三个分析阶段
2.2.1 模型选择
一般而言,主要有两种取向影响着研究者对回归模型的选择。即,解释取向(explanation approach)和预测取向(prediction approach)[4]。解释取向是指,研究者根据先前的理论或以前的研究识别出真正的预测变量,并决定模型的选择。其目的是验证一个具体的理论或想法。相反,预测取向仅仅是简单地试图发现最佳的预测模型,其常用的技术是用逐步回归法(Stepwise)探索出一个最佳回归模型。当然,在某些情况下,研究者可能会综合运用这两种取向对模型进行选择。但是,不管研究者采用那种取向,一旦某模型被选择,该模型也就会被认为是一个正确的模型(即总体参数的样本估计值是没有偏差的)[5]。
对于优势分析中的模型选择,研究者同样可依据上述取向中的任何一种,确定一个回归模型(在优势分析中被称为全模型)。有了全模型后,就可得到由该模型所衍生出来的所有可能的子模型。计算子模型个数的公式为2[P]-1(P为全模型中预测变量的个数)。例如,当全模型中的预测变量有3个时,由该全模型所衍生出来的子模型个数为2[3]-1,即7个;当全模型中有4个预测变量时,子模型的个数为2[4]-1,即15个。
2.2.2 计算各预测变量的增值贡献
优势分析的关键是计算出当各个预测变量被加入到不含变量自身的子模型后所带来的R[2]的改变量(通过统计分析软件SPSS采用层级回归就能获得[6])。表1是全模型中含有3个预测变量时,当各预测变量被加入到不含预测变量自身的子模型后,该变量所带来的增值贡献的一个例子[3]。
得到了各预测变量的增值贡献后,就可以依据公式1计算出它们解释或预测标准变量的平均贡献。然后,再根据公式2便可得到该变量解释或预测标准变量的总平均贡献。计算变量X[,i]解释或预测变量y的平均贡献的公式为:
2.2.3 优势定性分析
Azen和Budescu(2003)将各预测变量之间的优势关系分为三种水平,这三种优势关系由强至弱依次为:完全优势(complete dominance)、条件优势(conditional dominance)、总体优势(general dominance)。完全优势是指,各预测变量在所有子模型中,其相对重要性序列是恒定的。条件优势是指,在平均贡献情况下,预测变量之间的相对重要性序列是恒定的。总体优势是指,在总平均贡献情况下,预测变量之间的相对重要性序列。
举个例子对优势分析的这三种分析水平做进一步说明。A城市是否要比B城市暖和?对于该问题的回答,可以在三种不同的水平上进行:如果一年中的每一天,都有A城市的温度比B城市的高,那么A城市完全要比B城市暖和;如果一年中A城市每个月的平均温度都要比B城市的高,那么在此条件下,A城市要比B城市暖和;如果A城市的温度只是在年平均气温的情况下要比B城市的要高,那么总体而言,A城市要比B城市暖和。
Azen和Budescu还指出,当预测变量之间存在完全优势关系时,它们之间肯定也存在条件优势关系,当然也存在总体优势关系。反过来,则不成立。值得注意的是,如果能进行强水平的优势关系分析,就不要进行弱水平的优势关系分析。只有当强水平的优势关系不能建立时,才进行弱水平的优势关系分析。
2.3 优势定量分析
如果各预测变量之间的相对重要性在各子模型中都保持恒定(即存在完全优势),那么优势分析还有一个非常重要的特征,即各个预测变量的总平均贡献之和就等于全模型的确定系数(上文所说的已知方差)。用公式表达为:
当研究者发现,各预测变量之间的相对重要性在各子模型中并不稳定,但是又想确立变量之间的完全优势关系时,怎么办?一个简单的解决办法是,删除在完全模型中对标准变量贡献最小的那个预测变量,获取一个更简单模型(simpler model)[1]。
3 不良家庭环境、不良学校教育、不良社会文化影响高中生心理健康水平的相对重要性分析
优势定性分析结果表明:X[,2]完全优势于X[,1]、X[,1]完全优势于X[,3]、X[,2]完全优势于X[,3],由于X[,1]、X[,2]、X[,3]两两之间均存在完全优势关系,因此可以对这3个变量在预测高中生心理健康水平时,做进一步的优势定量分析。优势定量分析的结果为:不良家庭环境占已知方差的25.44%,不良学校教育占已知方差的64.86%,不良社会文化占已知方差的9.70%。这一结果直观地表明,在预测高中生心理健康水平时,不良学校教育最重要,其次是不良家庭环境,再其次为不良社会文化。
4 结语
在用多个事物解释或预测某一事物时,对这些事物对该事物的解释力或预测力的大小进行分析和比较,具有非常重要的意义。从哲学角度来说,有利于抓住矛盾的主要方面,集中力量解决主要问题。从经济学角度来说,有利于有限资源的优化配置,发挥资源的最大效用。比如,假如研究发现,学校教育在解释或预测学生心理健康水平时,总是要比家庭环境、社会文化这两个因素重要。那么,由此研究结果可以得到如下启示:今后心理健康教育应该聚焦于学校教育质量的改善和提高上。
优势分析方法为分析和比较多个事物对某一事物的解释力或预测力提供了新的途径。而且,由此方法所推导出来的预测变量之间的相对重要性,比传统的方法更加谨慎和可信。目前,虽然还没有执行优势分析的计算机程序,但是优势分析的基本原理、具体操作方法相对较简单,而且关键统计量——各预测变量的增值贡献,可以通过SPSS采用层级回归直接获得,因此,优势分析还是很容易进行的。
注释:
①总平均贡献之和(0.481)与全模型的研定系数(0.480)有差异是由四舍五入造成的。