分位数回归及应用简介,本文主要内容关键词为:位数论文,简介论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212.1文献标识码:A
引言
1870年,英国的高尔顿在研究人类身高的遗传规律时发现:父母是高个子的,其子女的身高有低于父母身高的趋势;相反,父母是矮个子的,其子女的身高却往往有高于父母身高的趋势。从全局来看,高、矮个子人的子女都有“回归”于一般人身高的期望值。这就是统计学上“回归”的最初涵义。1886年,高尔顿在论文中正式提出了“回归”的概念。经过他的学生皮尔逊多年的进一步的发展后,这个出自于生物统计学领域的概念,便被推广为一般统计方法论的重要概念。
“回归分析”悠久的历史使其理论完美,计算工具齐全,这其中又以基于最小二乘法的经典线性回归在数据分析中遍地开花。原因不外是最小二乘法的解释与人们的直观想象一致;同时该方法易于计算,有时计算用手工,其优越性在前计算机时代是不言而喻的。尤其是当假设误差是正态分布时,它具有如无偏性与有效等优良性质;但是运用最小二乘法的条件比较高,如线性回归模型要求满足同方差性、随机误差间两两不相关等条件,当需要进行回归系数的显著性推断时,通常还要假设残差服从正态分布。尤其是当分布是重尾或有离群点时,其结果的稳健性较差。在实际问题中,完全满足这些基本假设的情况并不多见,然而一旦违背了某一项基本假设,那么在应用时就难以得到无偏的、有效的参数估计量。还有,大量的宝贵数据仅仅只能得到一条回归曲线,而一条曲线所能提供的信息毕竟是有限的。所以人们在使用回归分析时,也在不断地探索更新更好的方法,而条件更宽松,挖掘信息更丰富者,当属分位数回归。
自从Koenker和Bassett(1978)[1]最早提出线性分位数回归的理论以后,当时由于分位数回归本身计算的复杂性,所以它没能像经典的回归分析那样迅速普及,但对它的理论研究一直在不断的完善中。随着计算机技术的不断突破,分位数回归软件包现已是主流统计软件R、SAS等中的座上客了,分位数回归也就自然而然地成为经济、医学、教育等领域的常用分析工具。
一、分位数回归的概念、性质
对于任意实值随机变量Y,它的所有性质都可以由Y的分布函数,即:
F(y)=Pr(y≤y)
来刻画。对于任意的0<τ<1,定义随机变量Y的τ分位数函数Q(τ)为:
二、样本的线性分位回归
中位数线性回归其实是分位数线性回归的一个特例(τ=1/2),它在分位数线性回归中占有相当重要的地位,对它的研究可追溯到18世纪中叶的Boscovich研究地球椭圆率时。19世纪Rdgeworth对此有所发展,但之后则陷入了计算泥潭,太多的未知数、太多的超平面。直到20世纪40年代末,线性规划中单纯形法的出现,中位数线性回归才得以在实践中大显身手。而τ分位数的样本分位数线性回归则是求满足:
在不同的τ下,就能得到不同的分位数函数。随着τ由0至1,就能得到所有y在x上的条件分布的轨迹,即一簇曲线,而不像线性回归只能得到一条曲线。此理论看似简单,可当时想计算出β(τ)值却不是一件容易的事。随着科学家的努力和计算机技术的飞速发展,现在不少软件都有计算分位数回归的专门函数。
三、分位数回归的计算
目前,有3种公认有效的计算分位数的算法(注:目前新的、高效的算法在不断地发展和涌现中,如光滑法(Chen(2004)):通过光滑目标函数ρτ(·)后,再搜寻最优解。),且在统计软件SAS、R或Splus上都有可实现的软件包:
(一)单纯性法[1,2]
任选一个顶点,然后沿着可行解围成的多边形的边界搜索,直到找到最优点。这种算法的特点决定其较适合不大的样本量和不多的变量。
(二)内点法[3]
从可行解围成的多边形一个内点出发,但不出边界,直到找到最优点。它在样本量大时效率也很高。
(三)预处理后内点法[3]
对β(τ)预处理后,再用内点法,它适合样本量大于10的情形。
在其他情况相同时,不同算法的运算速度是有差别的,见表1。
表1 不同算法在运算速度上的差异表
样本量 单纯性法(秒) 内点法(秒) 预处理后内点法(秒)
100 0.03 0.04 0.05
10000.57 0.14 0.47
10000 17.96 1.49 1.61
100000
1317.24 24.5911.69
数据来源:Koenker & Hallock(2000).Quan tile Regression An Introduction [R].Univsersity of Illinois at Urbana-Champaign
下面主要介绍如何用主流统计软件:R(注:软件R和程序包(quantreg)都可从R的官方网站:http://lib.stat.cmu.edu/R/CRAN/免费下载。)、SAS来计算分位数回归:
1.在免费软件R上的基本语法:
d<-read.table(file="D:\\dataset\\engel.txt",header=TRUE)
engel<-data.frame(d)
attach(engel)
library(quantreg)
plot(x,y,type="n"cex=0.4
xlab=“家庭收入”ylab=“食品支出”)
points(x,y cex=0.4col="black")
abline(rq(y~x tau=0.05) col="black")
abline(rq(y~x tau=0.5) 1ty=2 col="black")
abline(rq(y~x tau=0.95) col="black")
abline(lin(y~x lty=3col="black")
for(i in 1:1ength(taus))
{abline(rq(y~x tau=taus[i] col="black")}
legend(500,2000 c(“分位数回归”,“中位数”,“线性回归”,1ty=1:3)
选读入数据,再加载分位数回归软件包,然后是作图,拟合不同的分位数回归直线(rq)和用最小二乘法拟合的直线(1m),应该注意的是,实证部分的就是这些命令的实现(见图2)。
2.在SAS 9.1(Windows版)的模块SAS/STAT中,可运行过程PROC QUANTREG(注:此过程可从:http://www.sas.com/statistics下载。),其基本语法为:
PROC QUANTREG DATA
=sas-data-set
BY v ariables; Class variables
MODEL response
=independents RUN MODEL后的(Options)可选择不同τ值: 单个:QUANTILE=0.25 多个:QUANTILE=0.25,0.5,0.75 所有:QUANTILE=ALL 缺省时,进行中位数回归。算法的选取则是在: PROC QUANTREG DATA =sas-data-set(options); (options)中: 单纯性法(缺省值):ALGOITHM=SIMPLEX 内点法:ALGORITHM=INTERIOR 预处理后内点法:ALGdDRITHM=INTERIORPP 光滑法:ALGORITHM=SMOOTHING 四、实证:恩格尔曲线 下面通过分析恩格尔(1857)数据集,揭示除恩格尔曲线以外的更多信息,以展示分位数回归的魅力。 德国统计学家恩思特·恩格尔(1821~1896),曾任普鲁士统计局局长(1860~1862)。他在1857年发表的一篇论文中,通过分析恩格尔数据集(注:数据来源:http://www.lmbe.seu,edu.cn/CRAN)——它记录了235个比利时家庭(工作收入为其家庭生活的来源)的家庭收入和食品支出的情况(见表2),阐明了一个让他流芳后世的恩格尔定律:随着家庭和个人收入增加,收入中用于食品方面的支出比例将逐渐减小。反映这一定律的系数被称为恩格尔系数,即: 它说明了经济发展与收入增加对生活消费的影响程度,揭示了居民收入和食品支出之间的相关关系。众所周知,吃是人类生存的第一需要,在收入水平较低时,食品在消费支出中必然占有重要地位。随着收入的增加,在食物需求基本满足的情况下,消费的重心才会开始向穿、用等其他方面转移。通常讲来,一个国家或家庭生活越贫困,食品在消费支出中必然占有较大的比例,恩格尔系数就越大;反之,生活越富裕,恩格尔系数就越小。正因为如此,国际上通常用恩格尔系数来衡量一个国家或地区人民生活水平的状况。根据联合国粮农组织提出的标准:恩格尔系数大于59%为贫困,在50%~59%间为温饱,在40%~50%间为小康,在30%~40%间为富裕,小于30%为最富裕。2000年,中国居民的恩格尔系数首次低于50%。 表2 恩格尔(1857)数据集节选表 家庭收入食品支出 420.1577255.8394 541.4117310.9587 901.1575485.6800 … … 在免费统计软件R(2.1.1版)上,分位数回归理论基础的奠基人之一Koneker,编写了一个专门计算分位数回归的软件包quantreg,对恩格尔(1857)数据集进行了统计分析,可选择输出许多结果(图略,见原文)。图中的实直线表示的则是线性分位数回归直线,从下到上,它们的τ值依次是:0.05,0.1,0.25,0.75,0.9,0.95。 图2(图略,见原文)清晰地展示了家庭食品支出随家庭收入增长而增长的趋势。不同,值的分位数回归直线之间的间隙先窄后觉,以及中位数回归直线一直位于最小二乘法所得到的回归直线之上,说明了食品支出是左偏的:分位数回归直线左侧之间间隙较窄,寓示了数据点比较密集;而分位数回归直线右侧之间间隙较大,寓示了数据点比较稀疏且拖尾。从图中还可以清楚地看出,中位数回归直线的位置和由最小二乘法得到的线性回归直线的位置显著不同:说明了条件密度的不对称性,也说明了此时最小二乘法显然受到两个异常点(高家庭收入和低食品支出)的影响较大,它的这种不稳健性的后果,就是对贫穷家庭的平均家庭收入预测较差,常常高估了他们的生活质量。 五、结论 从实例可以看出:把最小二乘法得到的线性回归方程的回归系数可视为条件期望函数的概括性统计量一样,也可将条件线性分位数回归的系数如此看待。分位数回归不仅反映了位置的情况,还反映了分布的形状,能更好地刻划因变量Y在条件X下的关系,提炼出更多的信息。线性分位数回归的理论从提出至今已近30余载,分位数回归不仅是占主导地位的,而且是对基于最小二乘法的经典线性回归的有益补充,并已逐渐成为一种估计条件分位数函数的标准的统计方法。