国家抽样调查县的代表性问题研究①,本文主要内容关键词为:抽样调查论文,性问题论文,代表论文,国家论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C811文献标识码:A
引 论
中国从1984年确定国家抽样调查县至今,已经20多年了,除了行政区域调整外,基本上没有变动国家调查县。不是我们不想变动国家调查县,而是有多种原因造成我们不能变动。我国实行改革开放已经近30年了,特别是近年来,经济发展突飞猛进,经济结构发生了很大变化,所以人们对国家调查县的代表性提出了疑问,是完全可以理解的。统计工作者应该能解释这个问题,并完善统计调查方法。
广东省是我国改革开放搞得比较好的省之一。近年来,广东省统计局在国家统计局和美国农业部的专家的指导下,在广东省进行了多变量与规模成比例的概率抽样设计(简称为MPPS抽样设计)的试点工作,取得了很好的结果。广东省统计局的有关同志近几年还对国家抽样调查县的代表性进行了研究[1],得到了一些研究成果。本文根据广东省统计局的研究成果进行讨论,进一步分析国家抽样调查县的代表性问题,然后结合抽样误差的案例分析提出自己对国家抽样调查县代表性问题的看法。在目前的条件下,我国可以采用系数调整法来调整国家抽样具的代表性,并可以得到较好的调查效果。
一、广东省统计局对抽样调查县的代表性问题研究
广东省统计局对用抽样总体推断目标总体进行了研究。之所以研究这个问题,原因是抽样总体由于历史和体制等方面原因,对总体的代表性已经不太好,但现在又不能改变,在这种情况下要完善统计调查方法。在我国的农产量抽样调查中,各省国家调查县组成一个抽样总体,省是目标总体。在目前形势下应该估计抽样总体对目标总体的代表性,以更好地对目标总体进行推断。对抽样总体代表性估计的方法有多种,各省可以根据自己的具体条件选择适当的方法。比较常用的简单方法是系数调整法或称比率(例)估计法。
广东省采用建立模型计算调整系数的方法,来对调查县代表性进行调整以得到全省的估计。它对1992~2001年农作物播种的全面统计资料(统计方法、口径相同,各个县相加等于全省),运用多种方法进行了研究。发现对各个调查主题,抽样总体的总量(用y表示)与目标总体的总量(用Y表示)的比率(例)(用M表示)是比较稳定的,即不管y如何变化,M的变动范围都很小。他们认为,产生这种现象的主要原因是抽样总体单位足够多,在广东从村的个数来看,抽样总体有10109个村,目标总体有23869个村,抽样总体的村数占目标总体的村数的比例达42.4%。如果能够取得调查年份抽样总体该主题的总量占目标总体总量的比重M,就可以用抽样总体y来推断目标总体Y。推算公式如下:
他们根据19922001年的资料建立M对y的回归方程,M=a+by。取得у后来推算Y。为了取得y与M之间的内在联系,对资料进行科学的处理,把一些偶然现象排除,具体做法是:按y大小进行排序,然后,y和M各自进行7项移动平均,剩下4项再分成两组,用最小二乘法求解两个参数a和b的值,得到如下各个品种的回归方程:
粮食:M=0.4351+0.1052E-6y
水稻:M=0.4320+0.1331E-6y
糖蔗:M=0.3353+0.1108E-4y
花生:M=0.4670+0.8984E-6y
蔬菜:M=0.4473+0.5044E-6y
他们为了检验公式能否反映客观事实,利用1992~2001年的资料代入这些方程,求得M的值,再用求出Y,最后用Y的推算值与真实值进行比较,通过上述的比较可发现在10年中,差异最大的粮食品种为-0.954%,水稻品种为0.43%,花生品种为-0.92%;蔬菜品种有一年为-2.59%,其他9年为1.3%之内;糖蔗品种6年在1.5%之内,其他4年超过3%。广东省准备以后利用这种关系来进行推算。
二、对问题的进一步分析
广东省的这个发现,即M基本上是一个常量,是符合人们的感觉和常识的。因此,我们认为这个常量可用于调查的估计。这个常量实际上就相当于调整系数,或就可以作为调整系数。笔者认为,这个调整系数可用普查或上期调查数据来计算。用下标0表示用普查或上期调查数据计算出来的调整系数,则有:
如果认为用普查或上期调查数据计算调整系数忽略了M的变动,则可以用前几年的总量进行平均计算,或利用时间数列的性质进行趋势或周期的递推。因为不管y如何变化,M的变动范围都很小,所以看来没有必要用太复杂的建立模型的方法来进行调整。广东省采用回归的方法得到推算公式,笔者不认为是实际中可采用的方便的方法。后面我们将使用1997年我国第一次全国农业普查的数据进行案例分析,分析结果完全证明了我们的推断。2007年我国开展了第二次全国农业普查,我们可以利用第二次全国农业普查的数据进行相同的案例分析。此外,我们还可以结合这两次全国农业普查的数据,进行发展趋势的分析,观察调整系数M的变化,以便对调整系数M进行修正。当然,也可以进行更深层次的分析,比如找出引起发展变化的主要因素,进一步完善调查推算方法等,这是今后研究的内容。
因为,所以即使利用回归方法估计二者之间的关系,也应该采用过原点的回归方法。现在得到的回归系数都很小,从另一个角度说明各年的调整系数相差不大,回归系数的实际意义仍需要研究,似有简单问题复杂化之嫌。另一方面,广东省的调整只讨论了数值的点估计,没有讨论数值的区间估计,即没有讨论估计的精度,忽略这个调查的重要问题是不应该的。此外,这些模型使用的历史数据太少,本身能否通过统计的显著性检验也是问题。
对广东省来说,因为基本上是一个常量,所以可以认为总体的结构在这些年内没有大的变化,利用调整系数就可以对调查年的目标总体总量进行推算。
对任何一个省,如果总体结构没有大的变动,当调查总体是由国家调查县的村组成时,都可以用上述的调整系数来推算目标总体的总量。
在广东,从村的个数来看,抽样总体有10109个村,目标总体有23869个村,抽样总体的村数占目标总体的村数的比例达42.4%。这个比例太大了,不仅不利于抽样调查关于人、财、物的节约,也不利于调查的管理,甚至可能因此造成额外的调查误差。采用合理的设计可以解决这个问题,关于这方面的讨论可以参见有关我国可行抽样设计的讨论[2]和多变量与规模成比例的概率抽样设计的讨论[3]。
三、结合抽样误差的案例分析
以某省第一次农业普查的数据为案例来进行模拟。在大型调查中,很少直接从总体中抽数量很大、分散的小单位,通常采用分层、多阶段抽样方法[4]。比如,省总体中的小单位行政村就很多、很分散,省直接抽村进行调查,就要考虑组织、管理、精度、费用等问题。本处利用普查数据进行模拟,不需要考虑这些问题,采用了省直接抽村的方法进行模拟分析。我国现行的有关抽样设计也主要是采用省直接抽村的方活来进行农产量调查的。
(一)分阶段抽样的数据模拟和结果比较
我们考虑一个三阶段抽样:省抽县,县抽村,村抽户或切块。村抽户或切块不便于使用农普数据来模拟,这里采用默认的方法,即把普查的数据当作抽样调查的数据。但我们知道,对村的调查易于操作,数据是比较容易得到的,这种假设没有问题。这样,就把三阶抽样简化成二阶抽样,并只计算二阶抽样方差,与可行的抽样设计也是一致的[3]。
1.抽样误差的分析。
我们对某省以所有县(包括县级单位)为初级抽样单位(简记为PSU),用耕地面积()为辅助变量、PPS系统抽样抽了10个县,抽中的每个县以耕地面积为辅助变量、PPS系统抽样抽了20个村,共200个村进行调查估计。这个抽样比不到1%,是相当小的。调查和计算结果列在表1中。
此省普查年粮食播种面积是8558.78万亩,推算面积与实际面积的比是0.9927,误差很小;变异系数也不太大,都不超过5%。在抽样调查中,这个结果是能被接受的。
2.系数调整法的抽样误差分析。
同样用三阶抽样方法,第一阶抽10个县、第二阶从抽中的每个县中抽20个行政村(共200个村)的农业普查数据进行模拟。普查得到的粮食播种面积是8558.78万亩,相关数据列在表2中。这10个县组成的调查总体有6383个行政村。
推算面积与实际面积的比是0.9862,误差很小。
变异系数是0.0094,这个数很小。与后面两种情况的变异系数相比,它是最小的。与前面计算的变异系数0.0377相比,它仅占25%,因此精度大大提高。我们理解为:因为调查总体由10个县组成,实际调查相当于按县为特征的分层抽样设计,所以大大减小了抽样方差。这是一个好的性质。
我们采用PPS抽样设计直接从总体中抽取200个村进行调查,得到调查总体的粮食播种面积是;=1924.27(万亩)。
推算面积与实际面积的比是1.01,误差也是很小的,仅比上面的误差略大。
经计算得到的变异系数是0.0150,这个数很小,但比前面的0.0094大。我们理解为这是没有采用分层技术而造成的结果。
我们采用简单随机抽样方法从中抽取200个村进行调查,得平均每个村的粮食播种面积是3189.95亩,调查总体的粮食播种面积是
推算面积与实际面积的比是1.06,误差比较大,是本处3个误差中最大者。
由此计算出的变异系数是0.0334,这个数也是本处3个变异系数中最大者。与按简单随机抽样计算的方差和变异系数[5]相比可以看出,系数调整方法与直接对目标总体抽样得到的结果相差不太大。直接对目标总体抽样得到的结果是:粮食播种面积平均每村是2764.27亩,省总播种面积是8586.93万亩,推算面积与实际面积的比是1.00,误差较小;但它关于精度得到的结果是v[,1]=2.17E+13,变异系数为0.0543,这个结果就相差较大了。这从另一个方面证明了使用调整系数的合理性。
(二)关于调整系数的进一步讨论
调整系数在第一次调查后得到,可以连续使用数年;也可以随时研究新情况,供调整参考使用。在有好的地图和卫星照片可供使用后,以后可以很方便地做这项工作,甚至在办公室就可以做。县里的换算系数可以用卫星测量结果与普查结果算出,甚至对村也可以这样计算。有持久边界的切块由于可以维持多年,比如5~15年,调整工作量少,所以其好处是明显的。
四、总 结
我国现在关于农产量和农业社会经济的调查主要由国家抽样调查具来进行。由于种种原因,国家抽样调查县很难进行调换。所以,对国家抽样调查县的代表性研究具有理论意义和现实意义。对长期固定样本的调查,样本的代表性是否随时间或环境的变化而变化,都是需要研究的问题。系数调整法是解决样本代表性的一种可行方法。
根据国际经验和数据模拟,使用耕地面积为辅助变量具有很大好处,到目前为止它是仅次于切块数的辅助变量。耕地面积具有两个最大的特点,一是稳定性,二是与许多农业调查指标的相关性。由于在中国农产量调查中,目前可行的抽样设计是以耕地面积为辅助变量的PPS抽样设计,所以要考虑耕地面积与其他调查指标的相关性。
另一方面,根据我国的管理体制和农业的特殊性,笔者认为以县为总体(初级单元)来设计调查是比较可行的方法。要注意,这里以县为总体来设计调查,只是要把县作为初级单元来推算总体,而不能理解为:此县所抽的样本可以推断此县总体。现在将调查县的所有行政村组成抽样总体进行抽样设计的方法,会带来许多难以解决的复杂问题。这是我们在研究统计制度与方法时应该注意的一个重要问题。