单向有序二维表的统计分析方法比较,本文主要内容关键词为:统计分析论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
单向有序二维表是R×C表的特例,是指其中一个边际变量是有序的,而另一变量是定性的。本文仅讨论定性变量为分组变量的单向有序二维表,在临床试验、心理学研究中经常见到此类有序二维表。所谓有序变量是指由于测量手段的限制无法获得变量的精确测量结果,只能采集到定量变量的大体次序,如疗效评价、抗体效价、心理活动的主观感觉等。获得样本后,通过检验:两样本来自同一总体,以评价试验结果。随着统计分析理论的发展单向有序二维表的统计分析方法经历了如下几个过程:
(1)将有序变量作为定性变量处理,采用经典的Pearson 检验比较各组构成比。这种做法有其合理之处:将潜在定量变量划分成G个区间,按样本取值是否位于某一区间计数,这样得到多项(G项)分布,用此多项分布近似潜在定量变量的分布,只要G较大且样本含量充分大,这种近似是可取的。另外在大样本时Pearson 检验遵从最大似然原理[1]。
(2)采用非参数统计分析方法(Kruskal-Wallis秩和检验,简记为K-W秩和检验)处理,用秩次反映变量的有序性。较之于Pearson 检验,非参数统计分析方法的优点看上去是明显的,它利用了变量的经验分布近似潜在定量变量的分布。但不难发现K-W秩和检验H统计量的极限分布要求秩转换后秩次统计量方差相等(Cochran定理),否则不能导出检验统计量的分布是分布。另外由于同秩(ties)较多,虽然采用了同秩校正的K-W秩和检验统计量,但在同秩较多的情况下检验统计量的性质究竟如何,也是值得注意的问题。而这种处理方法在国内教材中提及的较多[2,3]。还有一点要强调的是两组比较时Mann-Whitney法与K-W秩和检验完全等价[4]。
(3)采用CMH法(Cochran's and Mantal-Haenzel)。CMH法是MH检验的推广,通过对边际变量不同的量化(打分)实现双向无序、单向有序和双向有序的列联表的统计分析[5-7]。CHM法可以有效地控制混杂因素的影响,例如多中心临床试验中的中心效应对试验结果的影响。如果将单向有序表的有序变量量化为y=1,2,…,R,不难验证CMH就是以y为秩号的本校正的K-W H统计量或CMH,其中是y关于另一定性变量的确定系数。另外对于双向有序表的边际变量量化为x=1,2,…,C;y=1,2,…,R,不难导出,其中为x,y间的Pearson相关系数(简单相关系数)。
实际上处理单向有序表时CMH法和K-W秩和检验都应用了方差分析的基本思想——变异的分解。众所周知,方差分析的F统计量的分布与总体方差有关,那么CMH法和K-W秩和检验的检验统计量是否也与总体方差有关呢,回答是肯定的。而教科书中很少提及此问题,凡单向有序表均推荐CMH法和K-W秩和检验。是否处理此类数据时Pearson检验就失去了它的优点呢?理论上讲检验上述时Pearson统计量才是不拘分布的(distribution free),而CMH法和K-W秩和检验仪对于分布位置而言是非参的,但要求分布的方差相同。
为说明此问题,笔者拟用Monte-Carlo法比较三种检验方法处理单向有序表的功效。
一、模拟试验步骤
5.根据模拟结果作图,见图1~图6。
二、模拟结果解释
1.背景总体的方差相等,位置参数发生变化(比较):
模拟结果见图1、图2。图1中显示的是将背景分布划分成4个等级的模拟结果,图2中显示的是划分成3个等级的模拟结果。两个图形趋势基本相同,显示方差相同时Pearson检验的功效较CMH检验和K-W秩和检验的功效低;等级越多,Pearson检验的功效越低。值得注意的是Pearson检验并没有崩溃。表1中给出了一份模拟数据,由构成比可见各等级的分布接近,CMH检验和K-W秩和检验的P值分别为P=0.0001和P=0.0002,Pearson检验的P值略高为P=0.0014。
图1 三种检验方法的功效比较(,将样本值归入4个区间)
2.背景总体位置参数相等,方差发生变化(比较):
模拟结果见图3、图4。图3中显示的是将背景分布划分成4个等级的模拟结果,图4中显示的是划分成3个等级的模拟结果。两个图形趋势基本相同,显示方差不等时CMH检验和K-W积和检验崩溃,Pearson检验仍具有较高的功效,且随着的增大Pearson检验的功效明显增高。表2中给出了一份模拟数据,由构成比可见各等级的分布应该有差异,而CMH检验和K-W秩和检验的P值却分别为P=1.0000和P=0.9818。
3.背景总体方差不等(=2.25),位置参数发生变化(比较):
模拟结果见图5、图6。图5中显示的是将背景分布划分成4个等级的模拟结果,图6中显示的是划分成3个等级的模拟结果。两个图形趋势基本相同,图形显示当△较小时,Pearson检验的功效明显高于CMH检验和K-W秩和检验的功效。表3中给出了一份模拟数据,据此数据CMH检验和K-W秩和检验均未发现两总体有差异,P值分别为0.2835和0.2639。
表3 模拟总体分别为N(0,1)和N(0.2,2.25)时一个样本计算结果
三、讨论
1.由于目前尚没有有效的方法对单向有序表背景总体分布方差做齐性检验,仅使用CMH法或K-W秩和检验来处理会降低检验效能。由模拟结果可见CMH法和K-W秩和检验对分布位置差异的检验有较高的功效,而对分布离散程度的变异却无能为力。以新药临床试验中抗肿瘤药物的疗效评价(CR、PR、SD、PD)为例,无论是分布位置发生变化,还是分布的离散程度发生变化都是疗效的体现,即使试验药物与对照药物“平均”疗效差异不明显,如果试验药物疗效分布相对集中,亦说明试验药物与对照药物的疗效有差别。鉴于此,建议分析单向有序表时应同时使用Pearson和K-W秩和检验(或CMH法),并报告两种检验的统计结果。
2.推而广之,对于定量变量由于不满足方法分析条件,简单的直接应用K-W秧和检验也是值得怀疑的。如果变量代换后能使数据满足方法分析条件,应该首先选择变量代换方法。
(本文模拟试验用SAS实现,统计图用NoSA(http://nosa.myrice.com)绘制)