多目标抽样调查的模型选择,本文主要内容关键词为:抽样调查论文,模型论文,目标论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C812
一、多目标抽样调查的模型
西安统计学院《工业企业多目标抽样调查方案设计》课题组利用多元统计中主成分分析的方法,多目标的主成分采用加权对称等距抽样的方法进行抽样,据此构造模型
F[*][,k]=a[,1]F[,1]+a[,2]F[,2]+…+a[,k]F[,k] (k=1,2,
…,n) (1)
当k=1时,F[*][,k]=a[,1]F[,1]。其中a[,1],a[,2],…,a[,k]为主成分F[,1],F[,2],…,F[,k]的贡献率,F[*][,k]为k个主成份的合成综合指标。
对第i个主成分有关系
二、多目标抽样模型的选择
显然,各目标x[,1],x[,2],…,x[,k]对F[*] 的影响完全由各自系数β[,1k],β[,2k],…,β[,nk]决定。在抽样方案的探讨中, 总视x[,1],x[,2],…,x[,k]的重要性相同,因此β[,1k],β[,2k] ,…,β[,nk]的差异不应太大。理论上,β[,1k]=β[,2k]=…=β [,nk]时抽样模型为最佳选择。
现实中,满足β[,1k]=β[,2k]=…=β[,nk]的情况很难发生。因此,在几种模型选择中,只要使得β[,1k],β[,2k],…,β[,nk]的差异最小的模型,应为几种模型中相对最优的模型。其差异可用标准差来衡量。令S[(i)]=std(β[(i)][,k],对于M种备选方法,若S[(i)]=min(S[(1)],S[(2)],…,S[(M)]),则方法i为最优方法。
三、应用
下面得用陕西省集体企业1995年普查数据对抽样模型进行模拟。
方法1:第一主成分排序对称等距抽样
F[*]系数向量β[(1)][,1]=(0.15,0.07,0.20,0.16,- 0.1
,0.19,0.18,0.20,0.17,0.08)
S[(1)]=0.09
方法2:特征根大于1的主成分加权排序对称等距抽样
F[*]系数向量β[(1)][,2]=(0.21,0.13,0.20,0.13,-0.02,
0.20,0.18,0.18,0.17,0.11)
S[(2)]=0.07
方法3:贡献率大于85%的主成分加权排序对称等距抽样
F[*]系数向量β[(3)][,5]=(0.17,0.06,0.22,0.08,0.00,
0.23,0.21,0.19,0.17,0.20)
S[(2)]=0.07
比较3种方法可以看出方法2为最优方法。实际抽样结果见表1 及表2。
表1 陕西省集体企业不同方法排序抽样相对误差(%)
变量 方法1 方法2方法3方法4
总产值
1.15
2.51 1.61 1.58
销售税金 1.60
4.31 0.1416.32
资 产
1.70
1.66 7.91 6.39
财务费用 1.54
2.99 0.07 2.96
利润总额
209.32 201.69
395.76
310.17
流动资产 4.04
2.93 2.27 4.52
存 货 26.63 23.6826.5023.95
负债总计 3.91
1.90 4.34 4.14
人 数
4.18
1.28 7.88 3.77
工 资 28.36
5.24 6.87 6.47
均 值 28.28 24.8245.3638.03
表2 陕西省集体企业不同方法排序抽样相对误差排序表
变量
方法1 方法2方法3方法4
总产值
1 432
销售税金 2 314
资 产
2 143
财务费用 2 413
利润总额 2 143
流动资产 3 214
存 货
4 132
负债总计 2 143
人 数
3 142
工 资
4 132
合 计 25 19
28
28
由表2可以看出,方法2最优,而且实际抽样结果与理论一致。
四、F[*]的性质讨论
采用F[*]指标抽样产生的误差来源于两个方面:(1)F[*] 反映各指标重要程度不一样,必然会对部分指标产生大的误差。上面已经说明:选择主成份合成F[*]使得β[,1k]=β[,2k]==…=β[,nk]时, 效果要好,实际中,往往通过不同方法的β[,k]向量元素的标准差大小来刻划,但可能会出现两种以上方法的标准相等或接近进对选择方法带来困难。(2)利用F[*] 采用对称等距抽样产生的另一个误差是由于不同方法F[*]的分布不同会产生不同的误差。下面就F[*]的性质进行讨论,借以确定优良方法。
F[*]具有以下性质:
1.E(F[*])=0
若x[,1],x[,2],…,x[,n]相互独立。
2.D(F[*])=β[2][,1k]+β[2][,2k]+…+β[2][,nk]
3.F[*]~N(0,β[2][,1k]+β[2][,2k]+…+β[2][,nk])
证明:
1.E(F[*])=E(β[,1k]x[,1]+β[,2k]x[,2]+…+β[,nk]x[,
n])=β[,1k]E(x[,1])+β[,2k]E(x[,2])+…+β[,nk]E(x[,n
由于x[,i]~N(0,1)(i=1,2,…,n),所以有E(F[* ])=
β[,1k]×0+β[,2k]×0+…+β[,nk]×0。
2.D(F[*])=D(β[,1k]x[,1]+β[,2k]x[,2]+…+β[,nk]x[,
n])=β[2][,1k]D(x[,1])+β[2][,2k]D(x[,2])+…+β[2][,n
k]D(x[,n])
同样x[,i]~N(0,1)(i=1,2,…,n),所以D(F[*])=β[
2][,1k]+β[2][,2k]+…+β[2][,nk],当β[,1k]=β[,2k]=…=
β[,nk]=β[,k]时,有D(F[*])=β[2][,1k]+β[2][,2k]+…+β
[2][,nk]=nβ[2][,2k]。
3.证明从略。
显然,在抽样中要减小上文提及的第二类误差,需要使得几种模型的D(F[*])最小。若满足β[,1k]=β[,2k]=…=β[,nk]的几种模型在选择时,只要判断β[,k]的大小,β[,k]小的模型优良。若不满足β[,1k]=β[,2k]=…=β[,nk],但β[,k]的标准差相同或相近时, 有:
由式(5)可以看出,不同模型若β[,k]的标准差相同时, 均值小的模型优良。
五、应用实例
西安统计学院《工业企业多目标抽样调查研究》课题组利用陕西省工业企业1995年普查数据对全部26个指标作出相关分析并选出10个相关性不太强的指标,据此,对陕西省集体企业抽样结果列表如3。
表3 陕西省集体企业不同方法排序抽样结果
变量
方法1 方法2方法3方法4
总产值
0 321
销售税金 1 203
资 产
1 032
财务费用 1 203
利润总额 1 032
流动资产 2 103
存 货
1 302
负债总计 3 021
人 数
3 021
工 资
3 021
合 计 1611
1419
表内数字0,1,2,3为各方法抽样均值与总体均值的差异水平;“0”代表差异最小,“3”代表差异最大。方法1 为第一主成份对称等距抽样,方法2为特征根大于1的主成份加权对称等距抽样,方法3 为累计贡献率大于85%的主成份加权对称等距抽样,方法4为10 个主成份加权等距抽样。
从抽样结果可看出方法2为最优方法。四种方法β[,k] 的均值和标准差见表4。从表4各方法的标准差来看方法2和方法4是优良的方法,结合均值依照本文的理论可以看出方法2、方法4中,方法2最为优良。 这个结论与实际抽样结果一致。
表4 4种方法的β[,k]的均值和标准差表
方法 均值 标准差
方法10.13
0.09
方法20.15
0.07
方法30.15
0.08
方法40.16
0.07