“回归分析”教学改革的几点思考--黄土回归概论_数据拟合论文

统计学中回归分析及相关内容的教改思考——兼介绍LOESS回归,本文主要内容关键词为:相关内容论文,教改论文,学中论文,LOESS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:F224

各种各样的高等教育统计基础课教材,在介绍回归分析的内容时,往往只包括散点图和回归(直线及曲线方程的参数估计。这会给学生一个印象,即两变量的关系分析也就只有(直线或曲线)回归分析这样的方法了。好象除了这些标准,死板的直线、二次抛物线、指数曲线外,就没有比较灵活的方法了。其实,两个变量之间的关系,有时会是非常微妙的,仅凭简单的直线、曲线参数方程模型是远远不够的。笔者认为,有必要在高教统计基础课中向学生介绍一些非参数回归(平滑方法)的思想及个别简单方法。

非参数回归方法或称之为平滑方法,与参数回归方法相反,不采用现成的数学函数作为模型,在统计领域中是较新的方法。用非参数回归估计回归曲线具有以下特点:第一,关于两个变量的关系的探索是开放式的,不套用任何现成的数学函数。第二,所拟合的曲线可以很好地描述变量之间关系的细微变化。第三,非参数回归提供的是万能的拟合曲线,不管多么复杂的曲线关系都能进行成功的拟合。除此之外,尽管非参数回归没有参照一个固定的参数模型,仍能给出观察值的预测值。而且,还包括弥补缺失值和内插的灵活方法。它的灵活性在预分析或探索性分析中极具价值,在一些正式的分析中也很重要,尤其是在其经济时间数列(例如股票价格等)预测中的应用也很成功。

从以上非参数回归特点不难看出,非参数回归与散点图和传统回归都有共同之处,但它有散点图和传统回归不可比拟的优点。与散点图相比,它采用了数学方法,更具科学性,并且它用回归线来概括变量之间的关系,使变量之间的关系更易于观察。例如图1 的散点似乎表明变量X与Y之间是直线关系,但采用LOESS平滑方法进行拟合的结果(见图2)却表明X与Y的依存关系不是直线关系,而是曲线关系。或可以说,前半部分是直线关系,后半部分是曲线关系(或另一直线)。所以,平滑曲线有助于避免判断其为直线关系的错误。而散点图却欺骗了人们的视线。如果接着采用直线回归来拟合两个变量的关系,其结果必然是错误的。

与传统回归拟合相比,非参数回归则显得灵活机动,可以对同一数据进行多次拟合,以探索数据中可能隐藏的某种关系。这是普通的回归拟合和散点图绝对做不到的。而且,非参数拟合可以对数据中的任何模式或变量间的任何一种曲线关系进行拟合,而传统回归却只能对个别的数据模式(直线、二次曲线等)进行拟合。实际上,非参数回归拟合往往会带来意想不到的结果。会极富戏剧性地改变人们对数据进行进一步分析的方向。因而,在此介绍其中的LOESS平滑方法。

LOESS平滑方法,是1979年由CLEVELAND首创的。LOESS 平滑方法就是使用加权最小平方法进行局部拟合。如图3说明计算某一点(x[,6],y[,6])的LOWESS平滑值的方法。其步骤如下:

第一步:以x[,6]为中心确定一个区间, 区间的宽度可以灵活掌握。具体说来,区间的宽度取决于q=fn。其中q是参加局部回归的观察值的个数,f是参加局部回归的观察值的个数占观察值个数的比例,n是观察值的个数。比例中选取q=10,f=0.5。在实际应用中, 往往先选定f值,再根据f和n确定q的取值,一般情况下f的取值在1/3到2/3 之间。q与f的取值一般没有确定的准则,如本例也可选择q=8或q=15, 其大小会影响平滑值的外观。增大q或f值,将会导致平滑值平滑程度的增加,而对于数据中潜在的细微变化模式则分辨率低,但噪音小。而对数据中大的变化模式的表现则比较好(见图4);小的q或f值, 则会使曲线非常粗糙。而对于数据中潜在的细微的变化模式的分辨率则较高,但噪音大。对数据中大的变化模式的表现就比较差。实际上,没有一个标准的f值,不同的f值有不同的结果。比较明智的选择是采用不同的q或f值画出几个图形进行比较。

图4 对同一资料取f分别等于0.3、0.6的拟合效果对比图

第二步:定义区间内所有点的权数。权数由权数函数来确定。权数函数曲线见图3(b)。权数函数可以有多种不同的选择。任一点(x[,i],y[,i])的权数是x[,i]处权数函数曲线的高度。 权数函数应包括以下三个方面特性:(1)点(x[,6],y[,6])具有最大权数。(2 )当x离开x[,6]时,权逐渐减小。(3)加权函数以x[,6]为中心对称。 本例所选用的加权函数是立方加权函数〔见式(1)〕。

第三步:对条形内的散点拟合一条直线。 拟合的直线描述条形内x与y的线性依存关系(图3(b)表明条形里的点及拟合的直线)。 任一点对于拟合直线的影响大小依赖于与之相应的权数。接近x[,6] 的点在决定拟合线中扮演主要角色。条形外的点不起任何作用。它们的权数为零。

第四步:拟合值y[,6]是x=x[,6]处y的拟合值。即如果拟合直线是y=a+bx,则y[,6]=a+bx[,6],图3(c)的实点即(x[,6],y[,6])。

通过以上四步就得到一个x[,6]处的平滑值(x[,6],y[,6])。 上述步骤对每一点都进行一遍。最终将得到一组平滑点(x[,i],y[,i]),i=1到20。将这些平滑点用短直线连接起来,就得到LOESS回归曲线。 LOESS拟合的数学过程如下:先设定f值,令△i(x)=│x[,i]-x│为x到x[,i]的距离,△(i)(x)为这些距离从小到大排序的结果。取加权函数T(u)为:

┌(1-│u│[3])[3]

T(u)=< (1)

└0

则对于x处的拟合来说,观察值(x[,i],y[,i])的权数为:

△i(x)

W[,i](x)=T〔───────〕

△[,(q)](x)

对于△i(x)<△[,(q)](x)的(x[,i],y[,i])值, 权数为正值,随△i(x)的增加而减省。对于△i(x)≥△[,(q)](x )的(x[,i],y[,i])值,权数为0。

以上LOESS拟合可以称为局部直线拟合。 在实际应用中还可以进行局部二次曲线拟合。选择采用局部直线拟合还是局部曲线(一般为二次曲线y=a+bx+cx[2])拟合,要看具体数据而定。 如果数据变化比较平缓,则选用局部直线拟合;如果数据变化剧列,则选用局部曲线拟合。

LOESS拟合的实现要通过计算机, 这是因其巨大的计算量所决定的。

标签:;  ;  ;  ;  

“回归分析”教学改革的几点思考--黄土回归概论_数据拟合论文
下载Doc文档

猜你喜欢