人口普查质量评估调查的抽样设计,本文主要内容关键词为:人口普查论文,质量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号 F061 文献标识码 A JEL分类号 C8 美国(Hogan和Wolter,1988)、新西兰(Statistics New Zealand,2007)、南非(Statistcs South Africa,2012)、澳大利亚(Australian Bureau of Statistics,2012)、英国(贺本岚等,2010)和中国(胡桂华,2013)等国都是在每次人口普查登记工作结束后半个月到2个月的时间内通过抽取某种地理区域(美国是街区群,我国是普查小区)的样本对人口普查的登记质量进行评估。通过评估,一方面估计人口普查覆盖误差,另一方面估计人口普查的内容误差。其中,绝大多数国家只是估计覆盖误差。 相比其他国家和地区,美国人口普查质量评估调查的水平居世界领先地位,因而研究美国人口普查质量评估调查的抽样设计方案更具有代表性和权威性。由于美国2010年人口普查质量评估调查(Robert和Michael,2008)采用与2000年人口普查质量评估调查基本相同的抽样设计(只是对样本的抽取过程做了一点调整,所做的调整是:2010年方案中对大型和中型街区群抽样层取消了第二个抽样步骤,对小型街区群抽样层则保留了第二个抽样步骤),所以本文只研究美国2000年人口普查质量评估调查的抽样方案(U.S.Bureau of the Census,2004)。 在论述美国2000年抽样设计方案以前,有必要交代一件重要的事情。美国普查局在制订2000年人口普查计划时,曾经打算把经过质量评估调查修订的各州人口普查修正数字用作国会众议院代表席位名额和联邦基金等在各州之间分配的依据(胡桂华,2011)。基于这一目标,拟实施被称之为“完全人口数目测量”(Integrated Coverage Measurement,ICM)的质量评估调查。ICM所使用的样本预定在1999年3月抽取。然而,在1999年1月,美国最高法院做出了一项裁决,明确反对把经过质量评估抽样调查修正的人口数字用作国会众议院代表席位名额和联邦基金等在各州之间分配的依据。这样一来,质量评估抽样调查数字的用途就变成了仅仅用于研究目的。随着调查资料预定用途的这种改变,所需要的样本量也应该相应地减少。按测算,为满足前一种用途,样本须达到75万个住房单元的规模,而对后一种用途,样本只需要包括30万个住房单元就足够了。可是在这时,为执行原来ICM抽样计划的大量前期工作已经做完,把这些工作成果舍弃不用显然是一种浪费。在这种情况下,美国普查局决定,先按原来的75万个住房单元样本规模的ICM计划抽出样本,再从中进一步抽一个样本,使其仅仅保留30万个住房单元。显然,这是一个在上述具体背景下可以节约时间、提高效率的最佳处理方案。这个处理方案所带来的一个附带的好处是,可以根据ICM样本提供的信息,对下一步的抽样做更精细的设计。 本文有助于为我国2020年及以后历次人口普查质量评估调查制订出科学的、可行的、符合我国国情的抽样方案,从根本上改变我国人口普查质量评估调查抽样设计方案存在的诸多弊端,显著提高我国未来人口普查质量评估的水平。 一、第一步抽样 1.抽样单位 第一步抽样以街区群为抽样单位。街区群由一个或几个相邻近的街区组成,是住房单元(位)的群体。街区群中的街区是人口普查时的普查小区。街区一定是陆地上的一个区域,它可能是城市中的一个标准地区,也可能是形状不规则但是有可以识别的政治和地理边界线的区域。街区由住房单元组成。住房单元是人口普查质量评估调查的基本调查单位,是供人们生活用的一个独立的生活区,可以是一所房子、一套公寓、一个流动的家、一组房间、单一房间等。住房单元作为人们的生活区,它应当满足下列3个条件之一。其一,有人居住;其二,虽无人居住,但这只是暂时的;其三,虽无人居住,但目标是生活区。 街区群是由调查机关运用图上作业的方法依照下列原则组合邻近的街区来划定的。第一,街区群内应当陆地构成紧密,调查员可以随意行走,而且不会增加额外成本。第二,街区群不能跨越各种重要的地理边界线,例如,不能跨越县、普查制表区、美国印第安人区域等的边界线。例外的情况是,两个城市边界线附近的两个街区可以组成街区群。第三,无论在什么情况下,不足3个住房单元的小街区群,都要尽可能地与邻近含有住房单元的街区形成新的街区群,以减少小街区群的总数目。如果附近没有含住房单元的街区,小街区本身也可以形成街区群。第四,含80个或更多个住房单元的街区一般将其自身作为一个街区群。第五,地理面积超过15平方英里的街区一般将其自身作为一个街区群。 那么,为什么要以街区群为抽样单位呢?比街区群级别低的单位有街区,另外在制订抽样方案的过程中还曾经有人建议把街区划分成几个更小的“子街区”;比街区群级别高的单位有县,还有比县更高级别的单位。为什么不选择这些比街区群大的或小的单位而最终选择了街区群做抽样单位呢?这主要是出于以下考虑:如果以街区为抽样单位,总体中抽样单位数目会太多,这将增加抽样框编制的难度,而且容易遗漏或重复;如果以比街区级别更低的小区域为抽样单位,将因小区域之间边界线难以精确划分而引起边界偏差,此外还会增加调查成本和比对误差;如果以全国性调查中经常使用的县作为抽样单位,总体中抽样单位数目太少,这会影响样本的代表性。以街区群为抽样单位,除了能够避开以上缺点以外,还有另外一个优点,那就是街区群的规模平均来说是30个住房单元,这刚好是一个调查员一个工作日较为适宜的工作量,从而可以免去因工作量与调查员能力不相称而导致的工作效率和成本上的损失。美国2000年人口普查质量评估调查中全国的街区及街区群数目如表1所示。 2.对总体中的街区群分层 为提高样本的代表性,抽样前,对每个州的所有街区群按规模大小进行分层。分层设计方案如表2所示。 在表2中,并非所有的州都设置了AIR层。设置AIR层必须满足的条件是:必须有足够多的印第安人居住在居留地上。美国的50个州中,只有26个州设置了这个层。在其他的一些州中,则把居住印第安人的街区群按照街区群的大小划入前三层中的某一适当的层。 按照表2的设计方案对总体中的街区群进行实际分层操作时,各个街区群的规模是根据1999年编制的人口普查地址目录来确定的①。不在这个地址目录的街区群,就根据1990年人口普查结果来确定其规模。 3.样本量的分配 这里所说的样本量分配所要解决的问题是,怎样把根据精度要求测算出来的全国所需要的样本量(用样本中需要包含的住房单元数量来表示)任务分配给各州(用各州需要抽取的街区群数量表示),然后再把州的任务样本量(街区群数)分配到表2设计的各层。 (1)全国的任务样本量。第一步样本的全国任务样本量是根据当初拟实施的用来评价人口普查质量的“完全人口数目测量”(Integrated Coverage Measurement,ICM)调查的需要测算出来的。根据ICM调查目标所提出的精度要求,测算出全国样本应当含有的住房单元数为75万个。假定大、中型以及AIR街区群的平均规模是30个住房单元,并且认为完成预定的调查目标主要依赖大、中型以及AIR街区群。于是推算出,为了满足ICM调查目标所提出的精度要求,全国样本中含有的大、中型以及AIR街区群的数目应当约为25000个。其中,在ICM调查目标中对于美国印第安人居留地(AIR)的抽样精度特别提出了要求(因为它在美国政治经济活动中占有重要的一席之地)。根据这一要求测算,在全国样本中应当含有355个美国印第安人居留地(AIR)街区群。这就是说,在上述25000个样本街区群中,需要分出355个给美国印第安人居留地。前面说过,在美国的50个州中,只有26个州单独设置了AIR层,而其他的州则没有设置AIR层。现在的355个美国印第安人居留地(AIR)街区群的样本量任务为了能够确保落实,自然应当交给单独设置了AIR层的26个州来承担。另外,对于小型街区群的样本量,是单独提出一个较低的精度要求单独测算的。测算的结果是,全国所需要的小型街区群的样本量为5000个街区群。将上面给出的结果列于表3。 (2)全国任务样本量分配到各州。全国26个州有AIR层,这26个州的样本量由表3中3个组成部分分配的结果共同组成;其他州和哥伦比亚特区的样本量由表3中(1)和(3)分配结果的两个部分组成。下面给出如何把表3中24645、355、5000这3个数字进一步分配到各州。 第一,24645个街区群的分配。总样本中,全国50个州及哥伦比亚特区中的某一个州被分配承担的非AIR大、中型街区群个数为: 式(1)中,n的右上角标“(1)”表示第一步抽样,下面各公式相同。 第二,355个街区群的分配。总样本中,26个有AIR层的州中的某一个州被分配承担的AIR街区群个数为: 第三,5000个街区群的分配。总样本中,全国50个州及哥伦比亚特区中的某一个州被分配承担的小型街区群个数为: 式(3)中,各州的小型街区群的个数依据“普查最初地址目录”计算,小型街区群的人口数依据1990年人口普查结果计算。 (3)把一个州的样本量分配到各个抽样层。现在的任务是求得一个州按表2的设计所划分的4个层各自应当承担多大的样本量。实际上,这里需要做计算的只是将式(1)的结果再进一步划分给大型街区群层和中型街区群层,算出表2第2、第3两个层的样本量。至于表2第4层(只限于26个州有这一层)和第1层的样本量,只要分别取式(2)和式(3)的计算结果即可,这里不必另做计算。下面就来分割式(1)。 第一,由大型街区群组成的层应抽取街区群的数目: 式(4)和式(5)中,由式(1)给出。式(4)和式(5)中的本州大型街区群层和中型街区群层中,住房单位(元)数目业已按照表2的设计方案对本州的街区群进行实际分层操作时,根据1999年编制的“普查最初地址目录”或1990年人口普查结果算出。 待到将来第一步样本(即ICM样本)抽取出来以后,要对每一个样本街区群做现场调查,编制住房单元地址目录(独立地址目录)。出于不影响后续工作进度的考虑,要求此项工作须在规定的时间内完成。为此,各州都要综合考虑抽样的精度要求、工作的时间要求、人力和经费的限制等诸方面的因素,测算出对大、中型街区群编制住房单元地址目录的可行的计划工作量。现在,按照上面的任务样本量可以算出编制住房单元地址目录的实际工作量。如果实际工作量高于计划工作量(高出10%或更多),就将任务样本量乘以计划工作量与实际工作量之比算出一个经过压缩以后的样本量。抽样的操作按照这个经过压缩以后的样本量进行。为了简便,我们不再为经过压缩以后的样本量设置新的记号,今后使用这几个记号时,如果是经过了压缩的计算,那么这个记号就表示经过压缩以后的样本量。 4.抽取样本的方式 分别在州的大型街区群层、中型街区群层、小型街区群层和AIR街区群层,以街区群为单位在各层之间独立地抽取简单随机样本(在实际操作中是做等概率等距抽样),在h层,抽足个街区群后抽样终止(h=大型街区群层、中型街区群层、小型街区群层、AIR街区群层)。 二、第二步抽样 美国2000年人口普查质量评估调查实际抽取的第一步样本中包含住房单元1989420个(其中,大、中型街区群层以及AIR街区群层的住房单元1987020个),街区群数量是29136个(其中,大、中型以及AIR街区群24136个)。现在的第二步抽样的目的是:按30万个住房单元(9765个大、中型以及AIR街区群)的需要量压缩第一步样本。 1.抽样单位 第二步抽样依然以街区群为抽样单位。抽样操作的对象是第一步样本中的所有街区群。更具体地来说是,将第一步样本在原有4个层的基础上对每一个层做进一步分层,把第一步样本的每一个新层中的样本街区群做为第二步抽样操作的对象。 2.为进行第二步抽样,对第一步样本进一步分层 (1)对第一步样本的中型街区群层做进一步分层,分层设计如表4所示。 在表4中,第一层是“少数民族层”。在这里,少数民族包括:夏威夷人和太平洋岛人、美国印第安人和阿拉斯加土著、亚洲人、拉丁美洲人、黑人。再有,注意到表4的第二、第三、第四层是用依据“独立地址目录”计算的街区群规模与依据“普查最新地址目录”计算的街区群规模进行比较的结果来划分的。我们知道,在美国2000年人口普查工作过程中前后编制了“普查最初地址目录”和“普查最新地址目录”这样两份住房单元地址目录。进行第一步抽样前对街区群按规模分层时,街区群的规模是依据前者计算的,可是普查的操作却是依据后者进行的。显然,用后者计算的街区群规模与“独立地址目录”规模的差异能更为确切地反映出人口普查登记的质量,用此种差异来分层更加符合按普查登记质量分层的初衷。 (2)对第一步样本的大型街区群层做进一步分层。分层设计为表4中的前4个层。 (3)对第一步样本的小型街区群层做进一步分层。分层设计如表5所示。 在表5中,第8和第9两个层为美国印第安人区域中部落统计区的街区群。在这里,部落统计区包括:部落管辖统计区、阿拉斯加土著乡村统计区、部落指定统计区。再有,表5的第4层为规模为10个及以上住房单元的街区群。美国2000年抽样设计中规定,对于第一步样本中在第一步抽样分层时被划定为小型街区群而经过编制“独立地址目录”发现,其住房单元数目大于10(含10)的街区群,不再对其进行第二步抽取,全部进入第二步样本。所以对这个层不去考虑它们在“是否在美国印第安人区域”和“是否为调查时编制目录街区群”这两个分层标志上的状态。 (4)对第一步样本中的AIR街区群层不做进一步分层。AIR街区群属于少数民族街区群。注意到表4中的少数民族层包括了“低于”型、“高于”型以及一致型的街区群,即对这些情况不加区分,也不再做进一步分层。 3.第二步样本各抽样层样本量的分配 我们在前面说过,为满足ICM调查目标,全国的样本须达到75万个住房单元的规模;ICM调查目标被美国最高法院否决后,对于剩下的仅仅为了满足评估人口普查质量的用途来说,全国的样本只需要30万个住房单元的规模。这30万个住房单元就是第二步样本的全国总规模(理想上的,实际上可能因街区群规模过大而使得抽取的住房单元数目超过它)。 做第一步抽样时,是把75万个住房单元的任务折算成街区群的个数,然后再分配给各州的;现在为了更加精确些,直接将30万个住房单元的任务分配给各州,而不对其进行街区群的折算。向各州分配任务时,和第一步抽样时一样,也是用1998年各州的人口数占全国人口数的比例作为分配系数。与此同时还规定,每个州分配的样本住房单元数目不得少于1800个,夏威夷州分配的最少住房单元数为3750个。各州在这里所分得的住房单元样本含量任务,也和第一步抽样时一样,是考虑由大型街区群层、中型街区群层以及AIR街区群层来承担,至于小型街区群层应承担的样本量及其进一步的分配则另外再说。 (1)大型街区群层、中型街区群层以及AIR街区群层应承担的第二步样本的样本量。记为分配30万个住房单元后某一个州应承担的任务样本含量(注意:它是用住房单元的数目来表示的,它由该州的大型街区群层、中型街区群层以及AIR街区群层来承担)。 第一,AIR街区群层应承担的第二步样本的样本量。我们记得,在抽取第一步样本时曾规定,要求在全国抽取出355个AIR街区群。当时把这个目标样本量任务用1990年人口普查人口数的比例分配给了设有AIR抽样层的26个州。现在,在抽取第二步样本时则规定,全国的这355个AIR街区群第一步样本全部进入第二步样本。这也就是说,在26个设有AIR抽样层的州各州所抽出的AIR街区群第一步样本一律全部进入第二步样本(或者说,第二步抽样为100%抽取)。 第二,大型街区群层、中型街区群层应承担的第二步样本的样本量及其进一步分配。由于在26个设置有AIR抽样层的州所抽出的AIR街区群第一步样本一律全部进入第二步样本,所以,当各个州得到本州应承担的任务样本含量准备将其向表4的各层分配时,尚需先从中减去(它是本州从AIR街区群层抽取的第一步样本中所含的全部住房单元数,在未设置AIR街区群层的州,它的值为0)。 下面来叙述,怎样把分配给本州大型街区群的第一、第二、第三、第四层(见表4)以及中型街区群的第一、第二、第三、第四、第五层(见表4)。 在这里,又有一个100%抽取的规定。即规定第一步样本的中型街区群层里面的“中型街区群变成大型街区群跳跃层”(表4中的第五层)的所有街区群100%进入第二步样本,将这些街区群中所含的住房单元数目记做。于是,接下来的问题变为,怎样把分配给表4本州大型街区群的第一、第二、第三、第四层以及中型街区群的第一、第二、第三、第四层。 显然,把分配给上述8个层所用的分配系数在原则上应当是各层的规模分别占8个层总规模的比例。在这里,所谓一个层的规模应当是指总体中这个层的规模而不是第一步样本中这个层的规模。那么,用什么来表示一个层的规模呢?可能首先会想到用人口数来表示层的规模(把全国的样本量任务分配给各州时就是用1998年的人口数来表示州的规模),但是,这个想法在现在会遇到困难,因为现在的各个层都不是自然的行政区域(这和州不一样,州是自然的行政区),没有现成的人口数目统计资料。那么,用已经抽取的第一步样本来现行调查各层的人口数是否可以呢?这也不可行。因为,整个的抽样调查目标就是要估计人口数目,现在只不过是抽样调查的一个中间环节,估计人口数目的条件尚不成熟。这就是说,计算现在的分配系数时,不能用人口数来表示层的规模。除了人口数之外,可供考虑的还有街区群数目和住房单元数目。由于街区群大小的变异较为严重,所以用街区群的数目来表示层的规模显得过于粗糙。于是,最后的选择是,用住房单元的数目来表示层的规模。住房单元的数目要依据住房单元地址目录来计算。我们现在有三份住房单元地址目录:“普查最初地址目录”、“普查最新地址目录”、“独立地址目录”,其中的“独立地址目录”是为了进行质量检查而对抽入样本的街区群特别仔细地编制的,显然应该以它为依据来计算住房单元数目。上面说,一个层的规模应当是指的总体中这个层的规模,但是,所需要的总体数值我们是没有的,它们只能用第一步样本的观察结果来估计。 把分配给上述8个层所用的分配系数除了要考虑层的规模(规模大的层多抽一些单位,规模小的层少抽一些单位)外,还要考虑不同的层在人口普查中的登记质量(在登记质量上存在问题较多的层多抽一些单位,在登记质量上存在问题较少的层少抽一些单位)。通常认为,不论是大型街区群还是中型街区群,表4的第一、第二、第三层(即少数民族层、非少数民族“低于”型不一致层、非少数民族“高于”型不一致层)属于在登记质量上存在问题较多的层,而表4的第四层(即非少数民族一致型层)属于在登记质量上存在问题较少的层。为了给前3种层多分配一些样本量,美国2000年抽样设计中给这3种层的规模分别添加了适当的膨胀系数,这种膨胀系数被称做“差别抽样因子”(Differential Sampling Factor,DSF)。各州所使用的“差别抽样因子”由各州组织调查工作的机关事先用主观的方法给定②。为“差别抽样因子”赋值的规则如下:第一,非少数民族一致型层的差别抽样因子值为1;第二,非少数民族“低于”型不一致层和非少数民族“高于”型不一致层的差别抽样因子值大于1,但是最大不要超过3;第三,少数民族层的差别抽样因子值大于1,一般定在2左右,小规模的州可以赋更大的值;第四,大型街区群与中型街区群的同一种层的差别抽样因子赋相同的值。 综合上述,把分配给上述8个层所用的分配公式为: 式(6)中,h=1,2分别是大型街区群层、中型街区群层;g=1,2,3,4,分别是少数民族层、非少数民族“低于”型不一致层、非少数民族“高于”型不一致层、非少数民族一致型层;是某一个州被分配承担的从第一步样本中抽取第二步样本的用住房单元表示的“任务”总样本量;是某一个州从AIR街区群层抽取的第一步样本中所含的全部住房单元数(在未设置AIR街区群层的州,它的值为0);是某一个州第一步样本的中型街区群层的中到大跳跃层的住房单元数目;是某个州某个h层的某一个g层的差别抽样因子;是根据某一个州第一步样本的某一个h层的某一个g层用“独立地址目录”观察值得到的整个州的该hg层住房单元数目的估计量。 式(6)的计算结果是在各个hg层(前面说过的8个层)抽取第二步样本应当包含的住房单元数目的要求。但是,第二步样本的抽取按规定应该以街区群为抽样单位。因此,下面需要计算在各个hg层各自应该抽取多少个街区群。 假定在每一个hg层中都有,本层内各个街区群的住房单元数目相同。于是,在这样的假定下有,以街区群为单位抽取第二步样本的抽样比率等于以住房单元为单位抽取第二步样本的抽样比率,即: (2)小型街区群层第二步样本的样本量。 第一,小型街区群层中规模为“10及以上”的街区群100%进入第二步样本。回顾表5,对第一步样本的小型街区群层,就街区群规模这一标志,进一步划分为0~2、3~5、6~9、10及以上这4个类型。美国2000年抽样设计规定,在第一步样本的小型街区群层中,凡属于规模为“10及以上”的街区群,100%进入第二步样本。 第二,小型街区群层中规模为0~2、3~5、6~9的街区群第二步抽样的抽样比率。于是,剩下需要考虑的是,对于0~2、3~5、6~9这3个层,各自应该以何种抽样比率从第一步样本中抽取第二步样本。为了解决这个问题,美国2000年抽样设计中拟定了一套抽样比率的控制值(见表6)。 表6中“总抽样比率”一栏的数字是这样得到的:美国2000年抽样从小型街区群层实际得到的第一步样本包含2400个住房单元(U.S.Bureau of the Census,2004),将其分别除以按街区群规模进一步划分的层的上限2、5、9,得到1200、480、267,这就是3个总抽样比率的分母。这3个总抽样比率的直观意义是什么呢?我们先来回顾表1,用其中的的数据可以算出,全国小街区群总体的住房单元数目是1029000×0.3=308700。现在就可以考虑总抽样比率的含义了。首先考虑第一个总抽样比率1/1200的含义。这时是假定全国小街区群层中所有的街区群大小都是2,在这样的假定下,第一步样本就是从308700/2=154350个街区群中抽出了1200个街区群。而1/1200意味着,要求经过两步抽样,最终要从154350个街区群中抽出154350/1200=129个街区群,这时我们来计算总抽样比率,它是129/154350=1/1200。另外两个总抽样比率的含义可以仿此解释。 表6中“第二步最小抽样比率”一栏的数字是将3个总抽样比率分别乘以120得到的。此种计算的含义是什么呢?我们知道,第二步抽样比率等于总抽样比率除以第一步抽样比率所得之商。在这里,第一步抽样比率是2400/308700=1/129。本来,现在的抽样比率应该用街区群的数目计算,不过,不论我们假定全国小街区群层中所有的街区群大小都是2,都是5,或是都是9,总之是假定全国小街区群层中所有的街区群大小都相等,在街区群大小都相等的假定下,用街区群中所含住房单元数目计算的比率和用街区群数目计算的比率是相等的,所以这里算得的1/129就是第一步抽样比率。现在把这个抽样比率适当放大一点,放大成1/120,用放大了的第一步抽样比率l/120去除总抽样比率,也就是用120去乘总抽样比率,这样就得到了表6中1/10、1/4、1/2.22这3个数字。由于1/120是一个比1/129大的数字,所以在给定的总抽样比率的控制下,用它来推出的第二步抽样比率是一个下限值。“第二步最小抽样比率”1/10、1/4、1/2.22这3个数字的用途是,保证第二步抽样的抽样比率不要太小。就是说,在各州实际做计算时,有时可能会出现这样的情况:第一步样本的抽样比率太大了,结果在给定的总抽样比率的控制下,推出的第二步抽样的抽样比率过于小,这就会影响到质量评估工作的正常进行(质量评估工作是要靠第二步样本来操作的)。于是,为此作出一项规定:一旦第一步样本的实际抽样比率超过1/120,这时一律按1/120计算而不再使用实际的第一步抽样比率。 那么,在一个州怎样具体确定自己的第二步抽样比率呢?表6给出的“总抽样比率”控制值是用全国的总样本计算的,在各州实际做计算时,一律要以这里给出的控制值做为自己的“总抽样比率”的控制值。 以此为基础,将总抽样比率的控制值除以本州实际的小型街区群抽样层的第一步抽样比率,算出第二步抽样选用抽样比率的初步测算值,即: 式(9)中,“g子层”指表6中对第一步样本的小街区群层按街区群中实际住房单元数进一步划分的0~2、3~5、6~9这3个层;比式的分子随g子层的不同分别取表6中1/1200、1/480、1/267这3个值;比式的分母是本州小型街区群抽样层第一步抽样抽出的街区群数与本州小型街区群抽样层总体的街区群数目之比。 各个g子层在式(9)的计算结果算出后,分别与表6中的“第二步最小抽样比率”控制值相比较,确定实际选用的第二步抽样的抽样比率。在这里,记“小型街区群层g子层实际选用的第二步抽样的抽样比率”为,其中下标h表示小型街区群层,g表示规模为0~2的街区群层、规模为3~5的街区群层、规模为6~9的街区群层。的取值规则是:当式(9)的计算结果大于等于“第二步最小抽样比率”时,等于式(9)的计算结果;当式(9)的计算结果小于“第二步最小抽样比率”时,等于“第二步最小抽样比率”。 (3)小型街区群层中规模为0~2、3~5、6~9、10及以上的街区群第二步样本的样本量。将由式(3)得到的小型街区群层的第一步样本规用表5的分层设计进行分层,得到规模为0~2、3~5、6~9、10及以上这4个子层第一步样本的样本量。这里,下标g表示规模为0~2的街区群层、规模为3~5的街区群层、规模为6~9的街区群层、规模为10及以上的街区群层。现在写出从中进行第二步抽样的样本量。 首先,当g等于规模为10及以上的街区群层时有: 其次,当g等于规模为0~2的街区群层、规模为3~5的街区群层、规模为6~9的街区群层时有: 4.抽取第二步样本的方式 式(7)给出大型街区群层、中型街区群层hg子层第二步样本应当抽取的街区群数目,由式(11)给出了小型街区群层hg子层第二步样本应当抽取的街区群数目。依照所算出的样本量,从hg子层的第一步样本中以街区群为单位,用等概率等距抽样(简单随机抽样)的方式抽取第二步样本。 三、住房单元比较和目标延伸搜索 在第二步抽样以后,第三步抽样之前,要安排两个另外的工作环节,即“住房单元比对”和“目标延伸搜索”(Targeted Extended Search,TES)。 住房单元比对的工作内容是:在进入第二步样本的每一个街区群内,将质量评估调查的住房单元“独立地址目录”与“普查最新地址目录”进行比对。 目标延伸搜索的工作内容是什么呢?在介绍目标延伸搜索的工作内容之前,先要交代一下进行“住房单元比对”后会出现的4种结果:第一种结果是某个住房单元名称在两个目录中都有。这种结果叫作匹配。第二种结果是某个住房单元名称在独立地址目录中有,而在普查最新地址目录中没有。这种结果叫作不匹配(匹配或不匹配是立足于独立地址目录来说的)。这是一种称之为“错误地被排除”的普查登记错误。第三种结果是某个住房单元名称在独立地址目录中没有,而在普查最新地址目录中有。这是一种称为“错误地被包括”的普查登记错误。第四种结果是在进行住房单元比较时,发现所编制的某个街区群的独立地址目录错误太多,根本无法使用。 目标延伸搜索的工作内容是:首先,选出需要进行延伸搜索的目标街区群。然后,在目标街区群的周围划出一个由周边街区群组成的环形区域,称之为延伸搜索区域。再后,针对在目标街区群进行两个地址目录比对时发现的问题,到延伸搜索区域中去进行搜索。这里所说的搜索主要指两个方面的情况:第一,对于“某个住房单元名称在独立地址目录中有,而在普查最新地址目录中没有”这样的问题,到延伸搜索区域的“普查最新地址目录”中去寻找,看能否在那里找到这个住房单元,如果在延伸搜索区域的普查最新地址目录中将其找到,则将其视同于在目标街区群的普查最新地址目录中进行了登记;第二,对于“某个住房单元名称在独立地址目录中没有,而在普查最新地址目录中有”这样的问题,将这个住房单元拿到延伸搜索区域中去考察,看看该住房单元是否应该在那里进行普查登记,如果这个住房单元应该在延伸搜索区域中进行普查登记,那么虽然它是错误地在我们的目标街区群进行的普查登记,但仍然将这一普查登记视作正确登记。 显然,在两个地址目录的比对中顺利地完成了匹配的住房单元就没有必要到延伸搜索区去进行搜索了。为此,提出“有无TES资格”这样的概念。称存在“住房单元名称在独立地址目录中有,而在普查最新地址目录中没有”或是“住房单元名称在独立地址目录中没有,而在普查最新地址目录中有”这样的问题的住房单元为有TES资格的住房单元;称至少包含一个有TES资格住房单元的街区群为有TES资格的街区群;如果一个街区群中的所有住房单元都不是有TES资格的住房单元,称这样的街区群为没有TES资格的街区群。 并不是所有的有TES资格的街区群全都进入目标延伸搜索。真正进入目标延伸搜索的街区群是从全体有TES资格的街区群中抽取出来的样本。把真正进入目标延伸搜索的街区群叫作TES调查街区群。在这里有一项特别的规定:对于在两个地址目录的比对中出现第4种结果的街区群,即如果发现某个街区群所编制的独立地址目录错误太多,根本无法使用,这样的街区群须重新编制独立地址目录,全部进入目标延伸搜索。 目标延伸搜索样本是以街区群为单位,在全国统一抽取的。样本的形成过程如图1,为了在每个条块中方便地书写数字,条块的长短与其中的数字大小不成比例。 11303 420 10883 4407 6414 62 2177=10883×20% 1089 544 544 5326 4237 1089 1150 2239 图1 目标延伸搜索样本的形成过程 下面结合图1来叙述目标延伸搜索样本的形成过程。 在美国2000年人口普查质量评估调查中,各州所抽取的第二步样本在全国汇总共有11303个街区群。其中,有420个“调查时编制目录”街区群。前面曾经解释过,所谓“调查时编制目录”街区群,指的是一些位置偏远、人口稀少、难以到达的街区群,它们只能待到2000年4月1日人口普查日,进行住房单元的人口普查登记调查时才能完成编制住房单元人口普查地址目录的工作。因此,在抽取了第二步样本之后进行住房单元比较时,这420个街区群尚无普查地址目录,无法进行住房单元比较,也就无从考虑是否需要进行目标延伸搜索。所以,在讨论目标延伸搜索问题时将它们排除在外。 在11303个街区群中,共有10883个街区群进行了住房单元比较。比较结果为:第一,有62个街区群所编制的独立地址目录错误太多。按照要求,对它们重新编制了独立地址目录,并且规定,它们全部进入目标延伸搜索。由于已经有了这一明确的规定,所以在考虑对其他街区群抽取目标延伸搜索样本计算样本量时,这62个街区群不参加计算。第二,有4407个街区群,它们的独立地址目录与普查最新地址目录能够很好地匹配,所以没有必要再进行目标延伸搜索。第三,有6414个街区群是有TES资格的街区群,目标延伸搜索样本需要从它们当中抽取。 根据经验,各个街区群里有问题的住房单元数目并不均等。从数量上说,在参加住房单元比较的全体街区群中,20%的街区群大致上包含了有问题住房单元数目之中的80%。显然,应当把目标延伸搜索的注意力集中于这20%的街区群。参加住房单元比较的10883个街区群的20%是2177。于是,下面的问题是,怎样从6414个有TES资格的街区群中抽取出有问题住房单元数目较大的2177个街区群。 直观的想法是:把6414个街区群的名称连同各自所包含的有问题住房单元数目一一列出,然后按照它们各自包含的有问题住房单元的数目降序排队,把排在前面的街区群选出。依照这个想法,具体做了三件事情: 第一,将6414个街区群按照上面的方法排序,把排在最前面的544个街区群选出(544是2177的1/4,是10883的5%),令其100%参加目标延伸搜索。 第二,把刚才选出的544个街区群从名单中删去,然后对剩下的街区群重新排队。方法是,算出每个街区群经过两步抽样以后总的入样概率,用这个概率的倒数与相应街区群中有问题住房单元的数目相乘,得到每个街区群加权的有问题住房单元数,然后用加权的有问题房住单位数将各个街区群降序排队。在这个排队的基础上,把排在最前面的544个街区群选出(连同前面的那个544,二者一共是2177的1/2,是10883的10%),令其100%参加目标延伸搜索。 第三,用分层等概率等距抽样方法从余下的6414-544-544=5326个有TES资格的街区群中按预定的计划数目抽取2177-544-544=1089个街区群。分层设计方案是:首先,按州分层。其次,在每一个州层内进一步划分为:由小型街区群组成的层、由中型街区群组成的层、由大型街区群组成的层、AIR层。在每一个州层由大型街区群组成的层内进一步划分为:少数民族层、非少数民族“低于”型不一致层、非少数民族“高于”型不一致层、非少数民族一致型层。在每一个州层的由中型街区群组成的层内进一步划分为:少数民族层、非少数民族“低于”型不一致层、非少数民族“高于”型不一致层、非少数民族一致型层、中型群变成大型群跳跃层。在每一个州层由小型街区群组成的层内进一步划分为:住房单元数为0~2、不在美洲印第安人区域、不是“调查时编制目录”街区群;住房单元数为3~5、不在美洲印第安人区域、不是“调查时编制目录”街区群;住房单元数为6~9、不在美洲印第安人区域、不是“调查时编制目录”街区群;住房单元数为10及以上、住房单元数为0~2、不在美洲印第安人区域、是“调查编制目录”街区群;住房单元数为3~9、不在美洲印第安人区域、是“调查时编制目录”街区群;住房单元数为0~9、在美洲印第安人区域(属于居留地或托管地);住房单元数为0~2、在美洲印第安人区域(属于部落统计区);住房单元数为3~9、在美洲印第安人区域(属于部落统计区)。依照上面的交叉分层设计,将5326个街区群按照其实际的标志表现放入适当的层中。然后在每一个层统一按照1/(5326/1089)-1/4.8907的抽样比率以街区群为单位抽取等概率等距样本(4.8907≈5为抽样距离)。 从图1还可以看出,全国的TES样本量为2239;其中,确定性样本量为1150,概率样本量为1089;在6414个有TES资格的街区群中,有2177个接受了目标延伸搜索,有4237个未接受目标延伸搜索。 四、第三步抽样 1.为什么要进行第三步抽样 在美国2000年抽样设计中进行第三步抽样的目的,就是要把大型街区群中的住房单元进入样本的概率降下来。我们记得,在进行第一步和第二步抽样的时候,是用住房单元数目的比例把大型街区群层和中型街区群层应该承担的总的任务样本量分配给二者的。可是,第一步抽样和第二步抽样的抽样单位都是街区群而不是住房单元,所以抽样比率其实应该用街区群的数目计算而不应该用住房单元的数目计算。用街区群做抽样单位却采用按住房单元数目计算的分配系数分配样本量的结果是:当各个街区群住房单元数目不相等时,会导致大型街区群与中型街区群进入样本的概率不相等,大型街区群进入样本的概率会高于中型街区群,相应地,大型街区群中的住房单元进入样本的概率会高于中型街区群中的住房单元进入样本的概率。这不符合我们的要求。我们希望,大型街区群中的住房单元与中型街区群中的住房单元应当以大致相同的概率进入样本。为了达到这个目标,就需要对大型街区群中的住房单元再做一次抽样,来降低大型街区群的住房单元进入样本的概率。 2.对什么样的街区群进行第三步抽样 根据上面所说,第三步抽样要在大型街区群中进行。这里,所谓大型街区群指的是按街区群的实际规模来说的大型街区群,而不是指的在第一步抽样以前所划分的大型街区群层。美国2000年抽样设计中规定,对第二步样本中实际规模大于或等于80的非AIR街区群以住房单元的“片”为单位进行第三步抽样。除此以外,第二步样本中的下列街区群不必进行第三步抽样,直接进入最终样本:一是来自美洲印第安人居留地(AIR)层的街区群,不论这个街区群有多少个住房单元;二是非AIR街区群中,实际规模小于80者。 3.第三步抽样的操作 (1)分层。在每个州中,把第二步样本中实际规模(根据“独立地址目录”计算的住房单元数)大于或等于80的非AIR街区群以街区群为单位划分在6个抽样层中。这6个抽样层的名称分别是:第一,实际规模大于或等于80的非AIR少数民族街区群层(包括“低于”型、“高于”型、一致型,不加区分);第二,实际规模大于或等于80的非AIR非少数民族“低于”型不一致街区群层;第三,实际规模大于或等于80的非AIR非少数民族“高于”型不一致街区群层;第四,实际规模大于或等于80的非AIR非少数民族一致型街区群层;第五,实际规模大于或等于80的非AIR中街区群变成大街区群跳跃层;第六,实际规模大于或等于80的非AIR小街区群变成大街区群跳跃层。其中,第一至第五层的意义见表4。第六层的意义是:某街区群在第一步抽样分层时被划定为小型,但经过编制独立地址目录发现其住房单元数目实际上大于80,应属于大型。用记号τ表示这6个层中的某一层。 (2)分别就每一个τ层,计算平均在一个街区群的群内抽样比率,它就是下面的式(16)。笔者在这里给出自己关于这个计算公式的产生和计算方面问题的一些补充。 直至抽出第二步样本为止,用住房单元数目计算的抽样比率如下: 欲调整式(12),使之与式(13)相等,只要将式(12)乘以式(13)与式(12)之比即可。不妨把这个比叫作τ层大型街区群基于住房单元数目的两步抽样抽样比率校正系数。现在写出这个校正系数: 式(14)实际上就是对第二步样本实际规模为80或80以上的街区群τ层做第三步抽样所需要的抽样比率: 式(15)分子中的比式就是式(13),是全体中型街区群基于住房单元数目计算的最终抽样比率,依照第三步抽样的目标,大型街区群的各个τ层的最终样本中所含的住房单元数目也应满足这一比率。所以式(15)的分子是大型街区群各个τ层第三步抽样的最终样本中应含住房单元数目的目标值。于是写出: (3)形成“片”。每个州中的第三步样本将分别在第二步样本中实际规模大于或等于80的非A1R街区群的各个τ层中以“片”为抽样单位来抽取。“片”是分别在上述每一个街区群内把相邻近的若干个住房单元结合在一起,由调查人员划分出来的。在这里,第一,“片”的划分是分别在每一个街区群内进行的;第二,要求同一个τ层中各个街区群所划分的“片”的数目相同(不言而喻,所划分出来的各个“片”中住房单元的数目不会全相同);第三,τ层中一个街区群所划分的“片”的数目由该τ层的群内抽样比率决定。τ层一个街区群应当划分的“片”的数目的计算方法如下: 式(17)中的“τ层群内抽样比率”由式(16)计算。在τ层,把一个街区群应当划分的“片”的数目计算出来以后,在该层的每个街区群内按照这个数目,将个数大致相等的相邻近的住房单元分别指定给每个“片”。 (4)以“片”为单位抽取第三步样本。在每个州第二步样本的实际规模大于或等于80的非AIR街区群的τ层,把各个街区群划分出来的“片”合在一起编成抽样框,从中以“片”为抽样单位抽取等概率等距样本。所抽取的“片”的数目等于该τ层第二步样本街区群的数目。 五、结论及建议 在前面,我们全面介绍了美国2000年人口普查质量评估调查抽样设计的全过程。对每一步抽样的抽样单位、样本量的分配、分层标志等内容做了较为细致的分析。这有助于相关研究人员和实际工作者了解和解决人口普查质量评估调查抽样方案设计的若干理论及其应用问题。 美国2000年抽样设计方案的要点如下:第一,各州分别独立作业。美国有50个州,外加哥伦比亚特区,相当于共有51个州。2000年抽样设计规定,分别在每个州独立抽取样本,各自都是实行三步抽样。第二,第一步抽样对街区群按规模分层,以街区群为单位分层抽取等概率等距样本。第三,第二步抽样在第一步抽样所得到样本的各层中再分别作进一步的分层,然后仍然以街区群为单位分层抽取等概率等距样本。第四,进行住房单元比较和目标延伸搜索。第五,第三步抽样在州的范围内将第二步样本中的街区群按规模划分为7个层,其中小街区群的层不再进行第三步抽样,大街区群的层以住房单元构成的“片”为抽样单位,等概率等距抽取第三步样本。 通过对美国人口普查质量评估调查抽样方案的研究,对我国2020年及以后人口普查质量评估调查抽样方案的制订提出三点建议。第一,使用抽样设计效应科学测算在一定精度要求下全国所需要抽取的普查小区数目。第二,采用多个标志(城乡、人口流动性等)做事前分层,以提高样本对总体的代表性。按2010年普查人口数或普查小区数目或普查小区的住房单元数目将全国样本量在各省(自治区、直辖市)或各个抽样层之间进行分配。为了避免有些省(自治区、直辖市)由于人口数目少而分配的样本量过小,规定最低样本量,例如,对西藏规定样本量不得低于10个普查小区。第三,以两步抽样替代2010年使用的一步抽样。首先在第一步抽样中,以普查小区为抽样单位抽取一个较大规模的样本,然后在第二步抽样中继续以普查小区为抽样单位,从第一步抽样得到的样本中抽取其子样本。 注释: ①为进行2000年人口普查,曾先后于1999年1月和2000年1月对全国所有街区群编制了两份住房单元地址目录,前者叫作“普查最初地址目录”,后者叫作“普查最新地址目录”。这里所说的是“普查最初地址目录”。质量评估抽样调查的第一步样本是在1999年3~6月抽出的,第一步样本抽出后,在1999年9~12月对进入样本的每一个街区群进行现场调查又另外编制了一份住房单元地址目录,它的编制过程与人口普查地址目录相互独立,称之为“独立地址目录”。 ②举例来说,俄勒冈州的差别抽样因子为:少数民族层为1.94、非少数民族“低于”型不一致层为2.76、非少数民族“高于”型不一致层为2.76、非少数民族一致型层为1.00(U.S.Bureau of the Census,2004)。标签:全国人口普查论文;