多重因素分析在大学评估指标整合中的应用,本文主要内容关键词为:因素论文,指标论文,大学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G640 文献标识号:A 文章编号:2095-1760(2013)01-0042-12
一、引言
对大学进行评估,主要是对大学办学水平,包括教育质量和办学方向进行综合评价。通过评估完善现代大学制度,提升大学的科研实力,以学科评估培育优势学科和优化学术队伍,以绩效评估激励大学之间的公平竞争和促进特色办学,以社会评估促进政府管理职能转变,等等。[1]从课程评估、学科评估到绩效评估和社会评估,可见教育评估的形式是多元化的,其宗旨和功能亦具有多样性。然而要充分发挥教育评估与评价的作用,一方面需要根据评价目标构建合理的评价指标体系[2],另一方面则需要能将各种评估指标加以有效整合的统计方法的支撑[3]。
多重因素分析(Multiple Factor Analysis,MFA)是基于主成分分析(Principal Components Analysis,PCA)的一种统计方法,与传统的因素分析不同,传统的因素分析方法是将所有变量作为一个整体来进行因子提取,用较少的因子来表征数据的特征。当所收集的数据既有连续变量又有分类变量或是明显属于不同维度的数据时就不适宜采用传统的因素分析方法。多重因素分析通过将变量分成几个子群,对每个子群和总群分别进行主成分分析,进而考察子群与总群之间和各个子群之间的关系,为深入了解事物(变量)之间的关系提供了一种有效的数据分析方法,鉴于多重因素分析方法能够同时处理具有不同属性的变量,它就成为同时分析(simultaneous analysis)或联合分析(joint analysis)的重要方法之一。[4][5]
本文将着重介绍多重因素分析方法的原理,并通过实例来说明多重因素分析的应用,希望能够丰富教育评估与评价的数据分析手段,进而拓展教育评价等相关领域的研究空间。
二、多重因素分析方法的原理
多重因素分析方法特别适合于对一批观测对象测量了许多指标的情况。由于不同的变量其测量空间或数据域不同,简单地将所有变量合在一起进行分析,正如非标准化的主成分分析会导致具有较大变异的变量组群对统计结果具有决定性作用一样[6],对所有变量进行整体分析的愿望则无法达成。而在样本量较少时,传统的因素分析方法又会面临样本适当性问题。尽管高尔(Gower)提出采用高尔系数将所有变量转换至[0,1]区间来解决非标准化问题[7],但包括随后对高尔系数的改进[8],针对的都是单独的变量。主成分分析中变量标准化的过程相当于将不同的变量赋予不同的权重后再进行分析。而当变量属于不同组群,需要将一个组群的所有变量作为一个整体(或同时)来考虑,其关键在于找到能够反映各个变量组群变异度的权重系数(相当于主成分分析中的标准差)。这正是多重因素分析方法有效地将隶属于不同组群的变量整合在一起的核心思想所在。
多重因素分析中,当一个变量组群在某个方向上具有较大惯量时,最终该变量组群会对整体分析的主轴产生影响偏差,因此需要对每个变量组群的最大轴惯量进行归一化处理。即每个变量组群的变量先各自进行标准化和归一化处理,再对所构成的矩阵进行奇异值分解,将奇异值作为矩阵的标准差,然后利用首奇异值对各变量值实施加权处理,从而使最大轴惯量归一化。由于奇异值的平方等于对该变量组群进行主成分分析后所得的特征值,所以在计算奇异值时也通常利用主成分分析计算每个变量组群的特征值,借此对每个变量组群进行加权,最后将加权后的变量组群拼接在一起通过主成分分析或矩阵的奇异值分解来进行整体分析(参见图1)。通过整体分析除能够揭示由观测对象所组成的空间结构外,多重因素分析还提供了叠加表征方法,既可以将变量叠加至空间中,也可以将观测对象叠加到空间中,以图形化的方式来直观揭示观测对象之间、变量之间、组群之间或因素之间的关系。针对不同变量组群对观测对象所进行的主成分分析(因素分析)可以称之为“局部分析”,那么通过局部分析所得到的观测对象的空间结构之间是否具有相似性?它们之间的关系如何?这正是引言中所涉及的问题。
图1 多重因素分析结构示意图
图2中,全局空间可被视作所有局部空间的集合,通过将局部空间中的观测对象投射到全局空间的主轴上就能够直观地比较对象之间的关系。当观测对象在不同变量组群上具有相似空间结构时,映射点会彼此靠近。通过投射还可以考察观测对象在局部空间与全局空间的表征点之间的距离。类似地,还可以考察和比较变量组群(指标)之间的关系、组群内的变量与所属组群间的关系。当变量组群具有相似空间结构时(观测对象之间的距离在不同的局部空间具有相似性),且局部空间与全局空间的距离越近,表明某变量组群与整体结构在某个映射轴上的相似性越高。
图2 局部空间在全局空间中的映射关系
注:i为某观测对象;表示观测对象i在变量组群j所构成的空间中的表征。
三、多重因素分析方法的应用
我们以表1中的数据为例来阐述多重因素分析的具体步骤(多重因素分析可以使用R软件中的FactoMineR包或者xlSTAT中的MFA模块来实现)。表1中观测对象共有8个(即I=8),测量指标可以分为两个变量组群(J=2):人才培养和科学研究。前者包括研究生培养和本科生培养两个变量;后者包括自然科学研究和社会科学研究两个变量(以表示变量组群所包含的变量数目,本例中;用表示第j个变量组群中第k个变量的第i个观测值,用表示第j个变量组群所构成的矩阵)。
第一步,变量的标准化和归一化处理后,使变量满足公式(1)和(2)。
第二步,对矩阵和进行奇异值分解。两种实现方法,一是通过Matlab中的函数[U,S,V]=SVD(X)进行矩阵的奇异值分解,其中U和V为标准正交阵,返回值S中的对角线元素即为矩阵的奇异值;二是通过Matlab中的函数[COEFF,SCORE,LATENT]=PRINCOMP(X)进行主成分分析,其中COEFF为因子载荷矩阵,SCORE为因子得分矩阵,返回值LATENT中为矩阵的特征值,根据特征值和奇异值的关系,计算出奇异值。上述两种方法均可以得到两个变量组群对应的首奇异值分别为1.380和1.116。
第三步,利用每个变量组群的首奇异值对每个变量组群加权处理后构建出全局空间(见公式(3))。
第四步,对变量总群进行主成分分析,在矩阵的奇异值分解中有如下关系:
Z=USV′
(4)
公式(4)中,U和V分别是Z的奇异向量,S的对角线元素是Z的奇异值,即,下面将变量组群和变量总群主成分分析所得到特征值列于表2。
接下来通过公式(5)计算各观测对象在全局空间的因子得分,其中w为加权处理系数,一般情况取观测对象数目的倒数。研究者可以根据需要对不同观测对象设置不同权重对应于加权矩阵,可记为。
(5)
所得前两个因子如图3所示,两个主成分对方差解释的贡献率在99%以上。第一主成分可能主要反映高校的综合实力②,其排名顺序依次为:清华大学>北京大学>浙江大学>南京大学>上海交通大学>复旦大学>中山大学>中国科学技术大学,与表1中高校排名顺序基本一致。第二主成分可能侧重于高校的性质③,北京大学、南京大学、中山大学和复旦大学侧重于文科;而清华大学、上海交通大学、中国科学技术大学和浙江大学侧重于理工科。从中还可以看出中山大学与复旦大学比较接近;在所分析的8所高校中北京大学独占一个象限,说明其与其他高校之间存在较大的不同。
图3 观测对象在第一和第二主轴上的分布
第五步,确定局部空间与全局空间之间的映射关系,对公式(5)作如下改写:
其中T为局部空间(变量组群)的数目。将变换后的局部空间叠加到全局空间上得到图4,从中可以发现一个有趣的现象,偏文科的4所高校与偏理工科的4所高校在人才培养和科学研究上呈相反的表现形式,与均匀磁场的偶极子的排列类似。在主成分F2上,以北京大学和清华大学为例,2所高校就人才培养而言(北京大学G1与清华大学G1之间的距离)较科学研究(北京大学G2与清华大学G2之间的距离)差别要小。换言之,北京大学和清华大学在人才培养上差别不大,主要的区别可能是因为前者侧重社会科学研究,而后者侧重于自然科学研究导致的。再由其他文理科高校间类似的相反极性可以看出,主成分F2主要反映的是社会科学研究与自然科学研究的分离。从图4中还可以进一步看出中山大学与复旦大学之间在人才培养上的差异大于科学研究上的差异;浙江大学与清华大学的科学研究上的差异要高于两者在人才培养上的差异;南京大学更接近于前8名高校的平均水平。
图4 局部空间到全局空间的映射
图5给出变量与第一和第二主成分之间的相关,可以看出本科生培养和研究生培养与第一主成分(F1)的相关高达0.90以上,四个变量与第一主成分间的相关均在0.68以上,可以说F1反映的是高校在学生培养和科研两方面的综合实力(与参与分析的变量一致);第二主成分与本科生培养和研究生培养的相关均小于0.30,但与社会科学研究(>0.50)和自然科学研究的相关较高(<-0.5),与图4反映的情况一致,因此F2可有效地区分学科性质。
图5 变量与主成分的相关圆
局部分析中两个变量组群各自抽取出两个主成分,从与整体分析的两个主成分间的相关(图6)可以看出人才培养和科学研究的第一主成分均与整体分析的第一主成分相关较高;而两者的第二主成分则与整体分析的第二主成分之间的相关互为正负。回顾表2可知,局部分析人才培养的第一主成分能够解释其95.28%的变异,科学研究的第一主成分能够解释其变异的62.3%,因此整体分析的第一主成分中涵盖了对人才培养的绝大部分解释,与图5的分析一致。整体分析的第一主成分能解释科学研究的大部分变异,其余则分解于整体分析的第二主成分,这进一步印证了整体分析第二主成分与科学研究的密切联系。综合图5和图6可以看出局部分析中人才培养的第二主成分尽管对变异的解释程度较低,但与整体分析中的第二主成分存在较高的关联度(负相关),图5中自然科学研究和研究生培养与整体分析中的第二主成分亦呈负相关,这可能与研究生参与高校科研,特别是自然科学方面的研究有关,直接考察研究生培养与科学研究之间的相关就会发现,与自然科学研究之间的相关为0.97;与社会科学的相关为0.46,本科生培养与自然科学和社会科学研究之间的相关均为0.77左右。因第二主成分主要反映高校科学性质的不同,换言之,研究生培养对自然科学研究和社会科学研究具有一定的区分力,而本科生培养则表现不明显。
图6 局部与整体分析主成分间的相关圆
图7为变量组群的表征,表示某变量组群中所有的变量整合作用,并且显示与整体分析主成分间的关系。很显然,变量组群“人才培养”和“科学研究”与第一主成分存在显著相关,同时也隐含了变量与该因素间具有高关联(参照图6);对于第二主成分,科学研究与其存在较高的关联,而人才培养与其近乎零相关,这似乎与前面指出的“研究生参与高校科研,从而提升了研究生培养(作为人才培养的一部分)与整体分析中第二主成分之间关联度”的说法相矛盾。但整体分析第二主成分与自然科学和社会科学研究的“区分”有关,尽管研究生培养指标对高科研性质的区分有一定作用,但本科生培养指标却贡献较小,两者合在一起后可能削弱了人才培养指标对高校科研性质的区分度。
图7 变量组群的表征
四、结论
多重因素分析通过对加权后具有不同变量属性的多个组群进行因素分析,使不同变量组群联系起来,从而可以在相同的数据空间中考察不同变量组群、不同变量间的关系,并且其叠加式表征方式能够直观地显示上述关系。文中多重因素分析应用实例只是从数据分析的角度对结果进行核心解读,因结果的讨论并非本文的重点,故未深入涉及,另外结果分析时研究者要结合不同研究内容和具体结果形态进行深入讨论。除多重因素分析外,研究者还根据不同数据结构形式对多重因素分析进行了拓展,例如当数据是分层结构时的分层多重因素分析方法[10],以及针对不同被试组群在相同测量指标上的二元多重因素分析方法[11]和将多重因素分析与其他统计方法结合研究更为复杂的数据结构或内在关系的方法等。
目前多重因素分析方法主要在食品偏好、体育训练和生物学的研究中有所应用,但在其他领域特别是国内的应用研究还不多见,由于多重因素分析能够同时分析异质性的变量组群,这样借助多重因素分析就可以考察相同被试不同评估内容之间的关系,且这种关系不只是停留在外显变量之间,还可以进一步考察潜变量之间的关系,由于并非所有的产、学、研指标都可以量化,所以教育的综合评估、人才的选拔、心理健康的评定等领域有着广阔的应用前景;另外正如文中所考察的高校之间的差异一样,多重因素分析还可用于比较对象间的差异,同时通过叠加表征能够有效地比较对象间差异的侧重点或者不同对象所具有的优势,同样的思路可以延伸到诸如教师评价、学科发展与管理以及区域发展诸领域的研究中。总之,多重因素分析不但可以加深我们对研究结果的理解,而且也是进行探索性数据分析,从而构建合理有效的结构方程模型的有力工具。
收稿日期:2012-11-05
注释:
①大学排名顺序的解释权归原作者所有,本文仅作数据分析用。
②③因此处重点解读MFA的运用,限于数据指标较少,此结论可能偏颇。
标签:主成分分析论文; 大学论文; 多变量分析论文; 相关性分析论文; 因素分析论文; 清华大学论文; 空间分析论文; 矩阵管理论文; 矩阵变换论文; 相关矩阵论文; 矩阵分解论文; 科学论文; 自然科学论文;