AID法在回归分析中的应用,本文主要内容关键词为:AID论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、问题的提出
回归预测的一个基本前提,是样本期数据比较均匀地分布在一条曲线周围,如果有些偏离回归曲线的“特异值”,并不是由随机因素的影响造成的,此时,很可能产生较大的误差,而多元统计的聚类分析中有许多适用于此情况的预测方法,其中AID 法就是一种较为简便易行的方法。
二、AID预测法
AID方法的基本思想是依据最优分割的原则, 对有序样本进行合理分类,使划分后的各类离差平方和达到极小。然后再根据预测值所属的类进行预测。AID方法的关键是如何分类,为方便起见设样本期有n组观察值为{x[,i],y[,i],i=1,2…,n}。x[,i],y[,i]均为一维数,将样本按x[,i]的大小顺序重新排列,重新排列后的样本仍记为{x[,i],y[,i],i=1,2…,n},此时x[,1]≤x[,2]≤x[,3]…≤x[,n], 按照这个次序对序列{y[,i]}进行最优分割。根据方差分析的原理, 总离差平方和
Q[,E]:组(类)内离差平方和,Q[,A]:组(类)间离差平方和。根据平方和分解公式Q=Q[,E]+Q[,A]。 在样本数据给定的情况下,总离差平方和Q保持不变,并且它与如何分类无关。 组内平方和增大则组间平方和减小,反之亦然。AID 分类的原则是使组内离差平方和达到极小,即相近的样本作为一类,并且每次只将某一类拆分成两类。比如第一次将n个有序样本分成两类G[,1]、G[,2],然后对G[,1]、G[,2] 分别再分成两类,如此下去,直到满足我们事先规定的分类个数为止; 或者事先给定一个阈值T,当各类离差平方和占总离差平方和不大于T时停止分类。假设此时我们将{Y[,i]}共分成K类G[,1],G[,2]…G[,K],则将自变量X的范围也对应地分成K个区间I[,1],I[,2],…I[,K],如果预测点X[,0]∈I[,i]区间,就以对应Y的第i类G[,i]平均值作为y[,0]的预测值。
三、实例分析
已知某企业历年来广告费用x及销售收入y的数据如下(单位:万元):
X 20
30
32
40
48
51
55
68
75
78
Y 50
73
69
87 132 140 158 102 120 128
根据散点图可以看出,除(48,132),(51,140),(55, 158)三个点之外,其余七个点大至在一条直线周围,所以这三个点为“特异值”。如果将它们作为异常值剔除后建立回归预测方程,得:y[,1]=33.37+1.15x,r[,1]=0.97(1);如果用所有样本进行回归,则为:y[,2]=44.14+1.24x,r[,2]=0.69(2)
若来年广告费用x[,0]=50万元时,用方程(1)预测出销售收入y[,10]=90.87万元;用方程(2)预测得y[,20]=106.14万元。但从上图和样本数据可以看出,实际在130~150万元之间。两个方程的预测误差都比较大,其原因是有三个“特异值”,且不是由一般的随机误差造成的,所以不适宜于用此法直接进行预测。
下面采用AID法进行预测:(1)计算y均值
,以此类推,算出E的值,计算结果列表如下:
n[,1]12
3
4
5
6 7
y[,1]
50
61.5 6469.7582.291.8 101.3
E
3472
4928.4
7524
8712.2 5616.92968 496.8
n[,1] 89
y[,1]101.4103.4
E 819542.7
由于
,所以E与Q[,A]成正比,当E增大时,Q[,A]也随之增大,Q[,E]相应减小。从上表可看出:当n[,1]=4,E=8712.2达到最大, 即样本点Y[,1]~Y[,2]作为一类时,可以使组(类)间平方和Q[,A] 达到极大,组(类)内平方和Q[,E]达到极小。又因为每次只进行两分类, 所以将{Y[,i]}分成两类{Y[,1]~Y[,4]},{Y[,5]~Y[,10]}。并且它是{Y[,i]}的一个最优分割。 由于分类的依据是使组(类)内平方和Q[,E]达到极小,但直接由离差平方和公式计算Q[,E]或Q[,A] 比较繁杂,而通过以上计算可以发现,在每次分类时,不必计算Q[,E]或Q[,A],只需计算Q[,A]中的一部分E,就可以进行合理分类了。(3 )由于第一次分类后,第二类包含的样本仍较多,故将第二类{Y[,5]~Y[,10] }继续以上(1)(2)步骤,得数据如下:
n[,1]1 2 3
4 5
y[,1]
132136143.3
133
130.4
E
4.8108
1066.7
108 4.8
当n[,1]=3时,E=1066.7又达到最大,故将{Y[,5]~Y[,10]}分为{Y[,5]~Y[,7]},{Y[,8]~Y[,10]}。这时序列{Y[,i]}分成三类{Y[,1]~Y[,4]},{Y[,5]~Y[,7]},{Y[,8]~Y[,10]}。 此时可以将上述三类各自试分为两类,依次继续下去。
结束这种分类的方法一般有:
(1)根据样本及散点图,规定类的个数, 若达到这个数目即停止再分类。
(2)序列{Y[,i]}的总离差平方和是Q,令Q[,j]是序列{Y[,i]}中属于第j类的组(类)内离差平方和。令
,它表示第i类的组(类)内离差平方和占总离差平方和的比率。可以事先给出一个T值, 并规定f[,i]≤T(i=1,2,…)时,则分类停止。
本例中总离差平方和Q=11186.9。其它三类离差平方和分别为Q[,1]=698.75,Q[,2]=354.67,Q[,3]=354.67若规定T=4%,则f[,1]=6.25%,f[,2]=f[,3]=3.1%,故对第一类再次分类为{Y[,1]},{Y[,2]~Y[,4]}此时序列{Y[,i]}分为四类,它们是{Y[,1]},{Y[,2]~Y[,4]},{Y[,5]~Y[,7]},{Y[,8]~Y[,10]}。其中f[,1]=0%,f[,2]=1.6%,f[,3]=f[,4]=3.1%,满足规定的要求, 序列{x[,i]}也相应地分成四个区间:(x 20.5],(20.5<x 40.5], (40.5<x 55.5],(x>55.5),其中小数0.5是为了保持区间的连续性。若预测广告费用x[,0]=50万元,则因为50∈(40.5,55.5)区间, 所以用第三类的均值=143.3万元作为y[,0]的预测值,显见用AID 法预测较为准确。
对本例企业来说,从散点图可发现当投入广告费用在48~55万元时,销售收入较为理想,而并非投入越多,收入越大。怎样用较小的投入获得较大的收益,这便是企业管理层一项长远而有意义的课题。
四、结束语
虽然,AID预测法比较适宜于对含有特异值的样本进行预测, 但并非完美无缺。如,上例中当x[,0]=80时,用AID法预测为116.67万元,而用剔除法建立的回归方程预测Y[,10]=125.37万元,后者比前者正确。以上用来预测当x[,0]∈I[,i]时的y值, 实际上还可结合回归或其它预测方法,如第i类的y样本较多且这一类中x与y具有回归意义,则可建立回归方程y[,i]=a[,i]+b[,i]x,此时的预测值为y[,i]=a[,i]+b[,i]x[,0]。因此在实践中应根据具体情况灵活选择预测模型,以提高预测的精确度。