基于残差的趋势性分析检验线性回归关系,本文主要内容关键词为:线性论文,趋势论文,关系论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212.1文献标识码:A
引 言
线性回归模型以其理论完整、方法简便被广泛地应用于各个领域。而在应用中,人们往往是根据经验或实际问题的某些背景假定线性回归关系成立,这在很多时候会带有较大的主观性,从而有可能使得分析结果与实际不符,甚至得出错误的结论。目前,利用非参数光滑技术检验参数回归关系已取得了丰富的成果,其主要方法之一是通过定义回归函数的参数拟合和非参数拟合间的某种距离以判断参数模型的可行性(如文[1~3])。另一常用方法即阶的选择方法(如文[4])。本文从回归模型的拟合残差入手,通过分析残差的趋势性分别在有重复测量和无重复测量下给出了检验线性回归关系的方法。实例分析与模拟试验表明所提出的检验方法具有满意的功效。
一、重复测量下线性回归关系的检验
(二)青少年性焦虑程度与年龄的关系分析
表1(表略,见原文,下同)(取自[5])给出了137位青少年(10~18岁)的性焦虑程度得分Y与年龄X的列联表。为了能较直观地展现X与Y的关系,空白处的频数为零。我们利用此观察结果来分析年龄与性焦虑程度之间是否具有显著的线性关系,即检验假设(1)是否为真。
由(2)及(3)式求得检验统计量F的观察值为f=23.9,由(4)式得检验的p-值为,据此应拒绝Y与X之间的线性关系。实际上,根据上面的观测数据我们不难看出随着年龄的增大,青少年的性焦虑程度加重,且在14岁左右达到高峰,此后又随着年龄的增大,焦虑就会进一步缓解。因此,用二次多项式拟合Y与X的关系,效果可能会更好。为此检验假设
利用上述方法,求得F的观测值f=0.91,检验的p-值为p=0.493。由此可见Y与X之间的二次多项式关系是合理的。
二、非重复测量下线性回归关系的检验
(一)检验统计量及检验的p-值
由于无重复观测,在自变量的各观测点处求残差的平均已无意义,但我们可以利用非参数光滑方法对线性拟合的残差作光滑以分析残差的趋势性。由于非参数光滑方法都受到“维数灾难”的影响,在此,和大多数基于非参数光滑检验参数回归关系的方法一样,我们仅讨论一元回归问题。基于Y和X的n组观测值2,…,n,原假设仍为
在此我们采用局部线性拟合方法光滑m(x)(参见[6])。对x取值范围内的任一点,令
其中为核函数,h为光滑参数,它可由交叉确认法确定(参见文[6])。由局部线性拟合方法可得m(x)在的估计值为
其中Q=M((1-r)I-B)M。因此,若假定,则p为正态变量二次型取非负值的概率。正态变量二次型的分布目前已有丰富的研究成果,其中包括精确计算公式和近似逼近公式(见[7])。将这些结果应用于(9)式,可得p-值的精确计算公式如下:
上述精确公式涉及矩阵的特征值和复杂的广义积分,其计算量相当大。实际应用中,通常采用近似的逼近公式。一种简便且具有较好逼近精度的近似方法为三阶矩,确定a,d,b使二者具有相同的前三阶矩。由此可得p-值的一个近似计算公式如下(详细推导可参见文[8]):
我们选择上述各分布的参数使其均值为零,方差为1,以使模拟结果更具可比性。
对上述每一种误差分布,分别取n=50,100以及c=0.0,0.5,1.0,1.5,2.0按(10)式产生数据。为减少计算量,以(一)节中的三阶矩逼近方法计算检验的p-值,其中核函数取正态密度函数,即。为了解光滑参数对检验功效的影响,我们分别取h=0.4,0.6,0.8,1.0进行模拟试验。取显著水平α=0.05,对于每一组n,c及h值,重复试验500次,以原假设被拒绝的频率作为功效的模拟值(c=0时,为显著水平α的模拟值)。模拟结果如表2(表略)所示。
由模拟结果中知:
给出的检验方法的功效及精确性关于误差功分布的变化具有一定的稳健性;
2)所提出的检验方法具有较好的精确性,即在c=0时(为真),拒绝的频率比较接近于显著水平α=0.05。另一方面,检验的功效随回归函数的非线性的增强(即c变大)而迅速提高;
3)当光滑参数h在一定范围内变化时,检验的功效是相当稳定的,且当样本容量增加时,该范围似乎无明显变化。但进一步的模拟表明,过大或过小的h值都会使检验的功效有所降低。因此合理选择光滑参数值是重要的,但这也是利用非参数光滑技术检验参数回归关系中尚需进一步研究的问题。实用中可以交叉证实法确定的h值为参考,在一个更大的范围内考察检验p-值随h值的变化,以判断拒绝还是接受。
(三)粉状物对光的反射率与混合比例的关系分析
本例的数据取自文[9],是研究两种粉状混合物对光的反射率的自然对数值Y与两种粉状物的混合比例X之间是否具有线性关系。以玉米粉和大豆粉按21种不同的比例混合,测得相应反射率的对数值如表3所示(表略)。
在此仍取核函数,由交叉确认法可得h=0.34,用三阶矩逼近法求得的p-值为0.0121。另外,当h值在0.34附近变化时,p-值是相当稳定的(如h=0.25,0.35,0.45,0.55,0.65时,对应的p-值分别为0.0118,0.0122,0.0137,0.0145,0.0148)。由于p-值较小,因此认为Y与X之间存在着显著的非线性关系,这与众多文(如[2,9])所得的结论一致。