多目标抽样调查中删除指标变量的预测方法,本文主要内容关键词为:变量论文,指标论文,目标论文,方法论文,调查中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212 文献标识码:A
多目标抽样调查中调查项目设计的调查表包含着繁多的指标,这种调查表的优点是可以反映出调查单位的全面信息,调查员可以比较方便地对调查项目的各指标进行统计,但有很多缺点:由于指标繁多、数目庞大、被调查单位负担沉重,容易产生错登、漏登现象;调查指标多、调查任务繁重,使得调查周期长,费用消耗高。因此,对简化调查表(删除一些指标)又不失去全面调查表所提供的信息则具有重要意义。
一、多指标变量的删除与预测模型
(一)多目标变量指标删除方法 有前进法:选择最弱(或不相关甚至独立)相关的指标作为调查指标;后退法:删除掉容易被其它指标代表(用数量表示的指标),剩余指标作为调查指标。还有“强弱相关结合法”,“广义典型相关系数法”和“聚类分析法”,这里介绍“聚类分析法”。
从总体中选取一部分有代表性的指标途径有两种:一是从指标体系中去分析这些指标之间的关系,找出一部分代表性强的指标;二是从数据出发,用数理统计的方法选取一部分“代表”性指标(即变量)。把这两种方法结合起来较为理想。下面对“聚类分析法”做了尝试。
聚类分析的基本思想是:从一批样品的多个观测指标中,找出能度量样品之间或指标之间相似程度的统计量,构成一个对称的相似矩阵,在此基础上进一步找寻各样品(或变量)之间的相似程度,按相似程度的大小,把样品(或变量)逐一归类,关系密切的归类聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有样品或变量都聚集完毕,形成一个亲疏关系谱系图,用以更自然地和直观地显示分类对象(个体或指标)的差异和联系。对变量进行聚类分析的统计量有:
1.相似系数
用相似系数或相关系数做为距离测度对指标进行聚类,根据实际情况,选取合适的阀值可以将总体指标分成几类,类内指标之间相关性很强,用一个指标可以反映类内所有指标的绝大部分信息,而类与类之间的指标相关性较弱。当然,一个类里面一般含有K(K≥1)个指标,怎样从K个指标中选择一个最具有代表性的指标呢?第一种方法:是从定性的角度出发,在所有类内指标中,指标的地位是不一样的。有的指标是相对重要的指标,有的指标的地位就相对较弱一些。这样我们选取地位最为重要的指标,作为调查指标。根据这个原则选出来的指标,既具有代表性,又最大限度地满足了人们的需要。第二种方法:是当指标的地位并无显著性差异时,从预测的精度出发,当然要选取这个类内最具有代表性的指标,即选择与其它指标相关性最强的指标。可以用如下两种方法进行选取。
方法1 设X=(x[,1],…,x[,k])是一个类内所有指标,X 的协差阵记为V(X),X的相关矩阵记为R(X),若V(X)的元素为σ[,ij],σ[,ij]是x[,i]的方差,i≠j时σ[,ij]为X[,i]与X[,i]的协方差。用r[,ij]表示x[,i]与x[,j]的相关系数,则有
此时,x[,k]对x[,1],x[,2]…x[,k-1]的多元相关性用r[2][,x(k)x-k]=σ[1](k)V[-1][,k-1k-1σ(k)]/σ刻划。如果r[2][,x(k)x(-k)]很大,说明x[,k]与x[,1],x[,2]…x[,k-1]的相关性很强,因而我们只要找出最大的r[2][,xkx(-k)],不妨设为x[,k0],则x[,k]就是类X=(x[,1],x[,2]…x[,k])'所有指标中最具有代表性的指标。
方法2 两个变量之间的相关程度是用相关系数来衡量的, 而一个变量与一组变量之间的相关程度可以用复相关系数来衡量。记R[,k(1,2,…,k-1)]为指标x[,k]与x[,1],x[,2],x[,2]…x[,k-1]的复相关系数。
以x[,k]为因变量,x[,1],x[,2]…x[,k-1]为自变量,做多元回归分析,记
R[,k,12…k-1]越大,说明x[,k]与x[,1],x[,2]…x[,k-1] 的相关程度越高,因而选取最大的R[,k1,2…k-1]不妨设为x[,k],则x[,k]就是类x=(x[,1],x[,2]…x[,k])所有指标中最具有代表性的指标。
综上所述,我们可以从一个旨标体系中选取出具有代表性的指标x[,1]、x[,2]…x[,p]做为调查指标设计简易调查表。
(二)模型的构造 此模型构造如下:
模型的参数估计与假设检验,应适当替换变量后与线性模型相同。
二、应用实例
对我国1958~1998年31年的主要工业产品产量的数据资料〔见《中国40年年鉴》,中国统计出版社,1989年(P380~P381)〕,用聚类分析法聚类可分为四类(聚类图略):第一类为(X2,X3,X18,X5,X6,X7,X15,X16,X14);第二类为(X8,X9,X4,X1,X17);第三类为(X10,X12,X13);第四类为(X11)。
一、二、三类中的指标均大于2个,而且指标的地位无显著差异,采用复相关系数法从每一类中选取最具有代表性的指标,各类的各指标的拟合优度计算结果如下:
指标X2 X3X18 X5 X6
R[,2] 0.999320.99877
0.98944 0.989700.99517
指标 X7X15 X16 X14
R[,2] 0.99351 0.997740.94341 0.99343
指标X8 X9X4 X1 X17
R[,2]
0.99938 0.999050.998380.99477 0.98796
指标X10X12 X13
R[,2]
0.98208 0.99006 0.96758
经比较,分别在第一、二、三类中选取了X2,X8,X12 做为各类中最具有代表性的指标。综合以上步骤,选取X2,X8,X11,X12共4 个指标做为调查指标,其余14个指标为预测指标。
根据模型(1.1),计算各调查变量的高次方,发现5次以上的调查变量的回归系数均不显著,因而阶数最高定为5次。同时, 我们又将各调查变量取对数做为自变量也引入模型之中,用逐步回归剔除不显著的β项,确定模型如下:
根据模型,对1983~1988年五年预测指标的预测见表1~表7:
表1
预测指标X[,1] 相对D1 指标X[,3] 相对
后年份 原值预测值误差(%)
原值 预测值 误差(%)
第一年 54.0753.10 -1.79148.80
147.63
-0.78
第二年 73.4961.29-16.61137.00
144.796.41
第三年 94.7885.53 -9.76146.70
160.939.70
第四年101.7384.90-16.54164.70
182.52
10.82
第五年117.50
105.68-10.06173.00
201.60
16.53
表2
预测指标X[,4] 相对D1指标X[,5]相对
后年份 原值预测值误差(%)
原值 预测值 误差(%)
第一年 10.219.36 -8.32
14291.00
4864.82
4.02
第二年 11.009.91 -9.91
18049.00 16492.04 -8.63
第三年 12.59
13.25 5.22
21816.00 21883.23
0.31
第四年 14.91
15.73 5.52
25187.00 23044.96 -8.50
第五年 20.47
20.12 -1.73
26537.00 28135.37
6.02
表3
预测指标X[,6]相对D1 指标X[,7] 相对
后年份 原值预测值 误差(%) 原值 预测值 误差(%)
第一年 9.9910.09 1.00661.00 604.76
-8.51
第二年 11.7811.41-3.18756.00 634.64 -16.05
第三年 14.4914.79 2.10911.00 710.96 -21.96
第四年 14.9914.26-4.86999.00 782.69 -21.65
第五年 16.0216.28 1.61
1141.00 865.06 -24.18
表4
预测指标X[,9] 相对D1 指标X[,10] 相对
后年份 原值预测值误差(%)原值预测值 误差(%)
第一年2758.20 2626.14 -4.793469.00 3387.54
-2.35
第二年2861.40 2898.99 1.313798.20 3593.52
-5.40
第三年3227.70 3222.01 -0.185431.10 5481.510.93
第四年3568.30 3564.95 -0.097317.40 7306.24
-0.15
第五年4116.70 4119.33 0.066142.40 6142.750.01
表5
预测指标X[,13] 相对D1 指标X[,14] 相对
后年份 原值预测值误差(%)原值预测值 误差(%)
第一年 92.56
92.01 -0.59 604.00
597.70 -1.04
第二年 126.18 117.20 -7.12 711.00
712.94
0.27
第三年 178.97 185.45
3.62 851.00
849.86 -0.13
第四年 202.54 191.71 -5.35 985.00
989.47
0.45
第五年 256.70 260.42
1.451195.00 1193.37 -0.14
表6
预测指标X[,15] 相对D1指标X[,16] 相对
后年份 原值预测值误差(%) 原值 预测值 误差(%)
第一年1938.00 1983.85 -2.28
377.00 360.83
-4.92
第二年2132.00 1960.16 -8.06
380.00 388.522.24
第三年2370.00 2247.60 -5.16
451.00 449.90
-0.24
第四年2596.00 2578.08 -0.69
525.00 509.71
-2.91
第五年2881.00 2928.33
1.64
506.85 506.850.17
表7
预测指标X,17] 相对D1 指标X[,18] 相对
后年份 原值预测值 误差(%) 原值 预测值 误差(%)
第一年 67.7065.48-3.2886.50
84.81-1.95
第二年 81.0083.56 3.1694.30
84.82
-10.05
第三年 100.5099.93-0.5799.60
91.21-8.43
第四年 117.50
116.79-0.61
109.60
98.27
-10.34
第五年 119.20
119.55 0.30
111.80 105.38-5.74
由相对误差可以看到在第一年的14个预测指标中全都小于10%,小于5%的有12个,占总体的85%;第二年小于10%有11个, 占总体的83%;第三年小于10%有12个,占总体的85%;第四年小于10%的有10个,占总体的70%;第五年小于10%有10个,占总体的70%;第五年小于10%有10个,占总体70%。从总体看来其效果较好,故从此例可以看出其方法及模型都是可行的。