对美国2000年人口普查的准确性和数字评估调查的评价,本文主要内容关键词为:美国论文,人口普查论文,准确性论文,评价论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C924.1 文献标识码:A 文章编号:1007—0672(2007)06—0012—05
笔者在2007年第四期《西北人口》介绍了美国2000年人口普查的准确性和数字评估调查,即A.C.E.调查。为使读者对A.C.E.调查有比较全面的了解,本文将美国学者对A.C.E.调查的看法做一简要概述。
A.C.E.调查结束之后,美国学者对这项工作进行了评述。评述文献主要有:《对2000年人口普查的评价(Professor Eugene Ericksen,Temple university,department of sociology and statistics)》;《人口普查数据估计的决定(March 12,2003.US Census bureau)》;《2000年人口普查方法和和统计修正(David A.Freedman and Kenneth W.Wachter)》;《2000年人口普查总误差模型:怎样估计误差的构成成分(Bruce D.Spencer,May 11,2000)》;《2000年人口普查的准确性和数字评估:设计和方法—第一部分附录D,A.C.E.估计中的误差》。学者们在这些文献中从不同角度对A.C.E.调查进行了评述。以下是他们的主要观点。
一、A.C.E.调查在某些环节上没有很好地满足双系统估计所需要的假设条件
1.人口总体中的个人没有很好地满足等概率这个假设条件
人口总体中的个人,在人口普查中被登记的概率是有所差别的。有房子的人比无房子的人登记的概率大、非少数民族的人比少数民族的人登记的概率大、黑人比白人容易遗漏和年轻人比老年人容易遗漏等。不相信政府的人、不愿意别人知道自己居住在何处的人、无家可归的人、在逃罪犯、贩毒分子、外来移民、居住在边远地区的人等,在人口普查中被登记的概率很小。因为他们要么故意躲避,要么难以找到。
人口总体中的个人,在A.C.E.调查中被登记的概率也是有所差别的。人们对A.C.E.调查的响应度不会超过人口普查,因为人口普查是法律义务,而A.C.E.调查是非法律义务,能够逃避就尽量逃避,因而被A.C.E.调查登记的概率也存在差异。
解决非等概率登记问题的办法有两个:一是事后分层,将被登记概率相同的人分在同一层内:二是争取监狱、栖息处、海关、移民局等部门的支持与合作,使人口总体中的个人有同样的概率被人口普查和A.C.E,调查登记。
2.人口普查和A.C.E.调查没有很好满足独立性这个假设条件
对人口总体中的大部分人来说,人口普查和A.C.E.调查独立性假设是成立的,即是否被A.C.E.调查登记,并不受是否被人口普查登记过的影响。
但对少数人来说,在被人口普查登记(相应的,未被登记)后,可能影响到他们对待A.C.E.调查的态度,比如说,如果他们从人口普查中得到了好处,他们就可能积极地与A.C.E.调查合作,反之逃避A.C.E.调查。这些都是违背独立性假设的情形。
上述相关文献指出,如果独立性假设不成立,双系统估计量将是有偏的。具体来说,如果被人口普查登记后更乐于被A.C.E.调查登记,双系统估计量将是负有偏估计,因为其估计值小于实际值。如果被人口普查登记后不愿意被A.C.E调查登记,双系统估计量将是正有偏估计,因为其估计值大于实际值。
为满足独立性假设条件,可以采取一些措施:独立编制人口普查地址目录和A.C.E.调查地址目录:在人口普查登记和复查工作全部结束后再进行A.C.E.调查;使用本次普查员外的人从事A.C.E.调查工作,如果受经费和时间所限而使用本次普查的普查员,就将他们派往不同于原来工作过的普查小区进行A.C.E.调查工作。
3.事后层并不满足遗漏率相同这个假设条件
A.C.E.调查不仅仅是要估计事后层的人口总体人口数,还需要估计诸如普查小区、乡村、镇、县、大都市、国会行政区和全国人口总体的人口数。美国人口普查局使用合成估计法完成这些估计任务。在合成估计法中,假设事后层的人口普查数字修正因子在事后层内的每一个地方具有同质性,也就是说,事后层内任何一个地方的人口普查遗漏率是一样的。违背该假设而产生的误差被称之为合成性误差或异质性偏差。
这个假设是否成立呢?美国人口统计学家 David A.Freedman(2004年)对这个问题进行了研究。他认为,尽管2000年A.C.E.调查进行了精细的事后分层,但在事后层内依然存在一定规模的异质性偏差,即各个地方的遗漏率并非完全一样。他进一步指出,合成性误差与区域规模负相关。
Kenneth W.Wachter(2003年)指出:对人口规模大的区域,使用合成估计法,能够得到无偏估计值;对人口规模小的区域,如果其人口结构与大区域相同,使用合成估计法,也可能得到无偏估计值。
为一定程度上满足该假设条件,缩小事后层是一种选择。但是,事后层小,事后层数就多,在A.C.E.样本量一定的情况下,分配到每个事后层的样本量就少,抽样误差就大。因此,这并不是一个最佳的选择。
二、双系统估计量容易产生各种误差
使用事后调查程序C和A.C.E.调查收集的数据构造双系统估计量容易产生非抽样误差和抽样误差。这里的C程序指的是用向内移动者人口数代替向外移动者人口数和用向外移动者匹配率代替向内移动者匹配率。
1.分类误差
如果某人在人口普查和A.C.E.调查中被分配到不同的事后层中,就将这个人作为分类误差处理。在早期的事后调查中,美国人口普查局没有发现分类误差影响双系统估计量。
在美国2000年人口普查中,第一次允许回答者在普查表中填报两个以上的种族,分类误差才引起了美国学者们的关注。有关证据表明,分类误差只存在于两类人中:一类是非居留地的美洲印第安人;二是本土夏威夷人和太平洋岛人。不过,这两类人的分类误差并不是很严重。一般来说,如果这两类人的规模不大,分类误差对双系统估计量的影响也不会太大。
2.合成误差
合成估计法可用来估计非事后层区域的人口数,如普查小区、县和乡村等。合成估计的一个假设条件是:事后层内部各个地方的普查遗漏率是相同的。违背该假设,就产生合成误差。可是,这个假设一般很难成立。因为某个特定地区实际估计的遗漏率由居住在那个地区的那些人和他们的遗漏率决定,很明显,在最好的情况下,事后层中的个人有大致相等的普查遗漏率;在最坏的情况下,事后层内的遗漏率差异很大。各个地方的普查遗漏率在很大程度取决于当地的状况,而不是取决于用于事后分层的那些变量。
由于合成估计总是在人口总体无限的变异性和有限的事后层数中做出选择,所以,从某种程度上看,合成估计值是不准确的。如果事后分层变量不能真实反映当地人口特征的变异性,合成估计方法将不被提倡和使用。总的说来,地区规模越小,当地发生非同寻常情况的可能性越大,合成估计误差也越大。合成估计误差对人口数在25000以下地区(占美国所有地区的29%)的人口估计值产生比较大的影响。
1990年合成误差分析结论表明:小地区的合成误差大于大地区的合成误差;合成误差使一些地区的人口数高估,而使另外一些地区的人口数低估;对小地区(普查小区),合成估计误差比较大。
可以采取一些措施减少合成误差。例如,构造两类事后层:第一类估计人口普查遗漏率;第二类估计人口普查错误调查率。共同用于两类事后分层的变量包括年龄、性别、种族、民族和房屋所有权。仅用于第一类分层的变量包括都市区状态、普查小区类型、普查表邮寄返回率和地理位置。仅用于第二类分层的变量包括与户主的关系、房屋大小和普查表返回日期。
值得注意的是,合成估计只能纠正普查中的系统性计数偏差,而不能纠正普查小区和大片土地的一般性计数偏差和其他比较大的误差。对小地区,合成估计数与该地区的人口普查数大致相同。合并小地区合成估计数,可以纠正较大地区的系统性计数误差。由于合成误差没有加进到双系统估计量方差模型中,所以使双系统估计量方差被低估。
合成误差不能直接估计,因为直接估计需要观察很大的样本,而这需要时间和费用。实际中,合成误差估计的办法是,构造人造总体,计算这个人造总体的普查数与其真值的差的绝对值和合成估计数与其真值的差的绝对值的比值。如果这个比值接近于1.就认为合成误差小或不存在。用公式表示如下:
在这里,C=普查人口数,T=人造总体人口数真值,S=合成估计的普查人口数
3.平衡误差
A.C.E.调查由两个样本组成:P样本和E样本。P样本独立于普查。用来估计在人口普查中遗漏的个人。E样本是一个普查记录样本,用来估计在人口普查中错误登记的个人。
平衡误差一般发生目标延伸搜索(TES)操作活动中。TES的目的是:提高P样本个人匹配率和E样本个人正确率。双系统估计量需要P样本和E样本比较的结果。如果为P样本匹配搜索和为E样本正确调查搜索的努力程度不同,平衡误差就会发生。检验是否存在平衡误差的办法是:在搜索工作完成后,看E样本中错误剔除误差和错误包括误差减少的幅度是否相同(假设P样本不存在地址误差)。如果相同,就认为不存在平衡误差,反之,存在平衡误差。如果在P样本中发现的TES个人(编码为匹配)和在E样本中发现的TES个人(编码为正确调查)的数目大致相等,也认为不存在平衡误差。
在A.C.E.调查中,通过TES.P样本匹配率增加了3.8%,而E样本正确调查率增加了2.9%,这说明对P样本搜索的重视程度大于E样本,因而存在平衡误差。在搜索中发现,编码为正确调查者,其实在搜索区域之外。遗憾的是,由于对E样本搜索不彻底,使E样本中的错误调查数被低估,这使双系统估计高估。另外,为查找E样本中的重复个人,也在搜索区域进行了搜索,发现了许多重复记录的个人。由于重复记录者作为错误调查处理,所以正确调查数减少,使双系统估计量DSE被低估。
这两种误差的联合效应是,减少了DSE估计的净遗漏率。应该进行专项工作,对平衡误差对DSE的影响进行评价。尤其是,要考虑平衡误差发生的可能性。
4.统计相关偏差
长时间以来,DSE模型受到指责的原因之一是,它没有考虑到在普查中遗漏的人更可能比在人口普查中被登记的人在A.C.E.调查中遗漏,以及普查登记行为本身对回答者造成影响(是否愿意被A.C.E.调查登记)这个问题。这种问题统计上称之为“统计相关偏差”或“系统性偏差”。
严格地说,统计相关偏差,指的是一些人在人口普查中被登记的概率小,在A.C.E.调查中被登记的概率同样也小。
统计相关偏差源于人口普查和A.C.E.调查独立性假设失败,具体地说,因随机依赖性(回答者对被普查登记行为的反映,即如果从被普查登记中得到好处,就乐于被A.C.E.调查登记,反之不愿被A.C.E.调查登记)和异质性(在事后层内,不同的人被人口普查或A.C.E.调查登记的概率其实是有所不同的)而产生。
如果异质性存在,那么在普查中被遗漏的人就更可能在A.C.E.调查中被遗漏,统计相关偏差使DSE低估;如果随机依赖性存在,统计相关偏差使DSE低估或高估。研究人员一般关注的是因异质性而引起的统计相关偏差对DSE偏低估计的影响。
美国人口调查专家发现,无家可归的人、不想被调查的人、不相信政府的人、毒品走私者和非法移民等,在普查中容易遗漏,在A.C.E.调查中也容易遗漏。
人们被遗漏的原因是很多的:居住单位没有包括在普查局编制的地址目录中;居住单位虽然在地址目录中。但邮递员将普查表送错了地址;普查员走错了地方;居住单位偏远,普查员难以找到;普查日前后搬家;不理解普查表;害怕调查;普查员错误提出问题,等等。
统计相关偏差,在人口总体中并非均匀分布。1990年事后调查统计相关偏差研究结果表明:成年黑人男性在DSE中的统计相关偏差明显;成年非黑人男性在DSE中的统计相关偏差不明显;小孩和成年女性在DSE中无统计相关偏差。
那么,统计相关偏差如何计算呢?统计相关偏差率=(DA-DSE)/DA。这里的DA=期初人口总体人口数+(出生人口数-死亡人口数)+(迁入人口数-迁出人口数)。在具体计算时,先计算全国的统计相关偏差总数,然后将总数分配到各个事后层中,分别独立计算各个事后层的统计相关偏差率。
由于DA的计算口径与DSE不同,因而有必要在计算统计相关偏差之前,对其进行修正。修正从两个方面进行:一是从DA估计数中剔除群体住处人口普查数;二是将DA估计数中的拉美黑人从黑人类转移到非黑人类。
值得一提的是,由于DA估计数中的移民人口数是估计的,而不是直接得到的,因而DA估计总数不一定准确,所以用上述方法估计统计相关偏差的合理性值得进一步研究。
三、A.C.E.调查设计中的不足之处
设计A.C.E.调查的目的是:估计2000年4月1日美国范围内人口总体的家庭人口数和相应的人口普查净遗漏率。为实现这个目的,在做这项设计时。可能有些问题考虑不周。概括来讲,存在以下几个方面的问题。
1.不能直接提供总误差数
这与A.C.E.调查设计的“正确调查”的定义过于严格有关,例如,如果普查中的某人因信息不足而不能进行比较,就将他作为为错误调查处理。定义严格,提高了比较的精确性,但又增加了未匹配数和错误调查数。在计算双系统估计值时,有关构成部分将这些错误调查数剔除,因而得到的结果是净误差,而不是总误差。计算总误差有特别的意义,因为一个地方的遗漏可能被另外一个地方的重复记录所抵消,也就是说,净误差为零可能掩盖误差实际存在的这样一个事实。
2.不能提供普查过程中的特殊误差信息
在普查过程中,除发生遗漏或重复记录误差外,还会发生其他诸如普查员误差,普查管理人员误差和普查地址目录误差等特殊误差。A.C.E.设计中没有给出纠正这些特殊误差的方法。普查局使用其他方法处理它们,例如,加强质量控制、改进普查范围、更新普查地址。A.C.E.设计中也没有给出纠正普查过程中的大规模系统性误差的办法,尤其是不同人群(黑人和白人)的差别遗漏率。
3.不能够提供特定群体住处人口信息
A.C.E.调查设计没有估计群体住处人口(包括大学宿舍、机构、兵营、无家可归者和遥远的阿拉斯加人)遗漏人口数。普查局使用特殊方法估计群体住处人口数,以尽可能获得全国的人口估计总数。如果在A.C.E.设计中,将特殊群体列入估计范围,必然增加成本,而且实施起来也很困难。
4.A.C.E.调查结果与其他方法得到的结果不一致
美国2000年A.C.E.调查估计的人口总体人口数字是准确的吗?在回答这个问题之前,看下面三个数据:
人口普查数字:28140万
人口统计分析法的估计数字:27960万
A.C.E.调查的估计数字:28470万
可见,如果人口统计分析法估计的数字准确,人口普查净遗漏率为-0.64%,即多记录人口0.7%;如果A.C.E.调查估计的数字准确,人口普查净遗漏率为1.16%。
显然,如果人口统计分析法和A.C.E.调查估计的人口总体数字一致,对人口普查数字的质量做出评价并不困难。然而,现在出现了不一致的情况,这就给人口普查数字质量的评价带来了困难,也给人口普查修正工作蒙上了阴影。
这种不一致。至少说明A.C.E.调查估计结果的准确性值得怀疑,A.C.E.调查有不完善和值得改进的地方。
为什么人口统计分析法的估计数字和A.C.E.调查的估计数字差别这么大呢?为找出差别的原因,2002年A.C.E.调查质量评估机构从70000人中抽取17000人的样本,发现这源于A.C.E.调查严重低估人口总体错误调查数(145~190万)。低估错误调查数,DSE值就大。如果将这些错误调查数加进DSE,人口普查净遗漏率将从1.68%变为净重复记录0.49%。此外P样本中的错误匹配数多也是原因之一。
事实上,A.C.E.调查本身的确存在一些缺陷,例如,个人特征缺失、个人比较结果的不确定性、向内移动者和向外移动者不恰当的处理等。这方面的数据如下:
个人特征缺失或遗漏估计人数:
P样本300万E样本600万
个人比较结果估计人数:
P样本300万E样本700万
向内移动者和向外移动者估计人数:
估计普查日住处600万
向外移动者900万
向内移动者1300万
向外移动者遗漏300万
毫无疑问,以上数据对DSE产生影响。我们知道,在DSE公式中,向内移动者的匹配率由向外移动者的匹配率确定,而向外移动者的信息大多是由其邻居提供的。这种“替换答复”的质量是比较差的,不可避免地产生虚假的“未匹配”,使净遗漏率不适当增加。虽然上述数据中的缺失人口数相比人口总数并不多,但对净遗漏率的影响却很大。
A.C.E.调查估计的人口普查误差结果如下:
遗漏人口数600~800万
错误登记人口数300~400万
总误差(遗漏人口数+错误登记人口数)人口数在900~1200万
净误差300~400万
平均总误差人口数950万(遗漏6.4万和错误登记3.1万)
四、A.C.E.调查成功的地方
尽管A.C.E.调查存在上述诸多不足,但相比 1990年事后调查,2000年A.C.E.调查还是有不少改进的地方:
1.样本量由1990年的17万居住单位扩大到30万居住单位,这样,样本对人口总体的代表性增强,人口估计量抽样误差降低。
2.对在普查表中留有电话号码的居住单位使用电话调查,这缩短了调查工作时间,提高了调查效率。
3.对A.C.E.调查中的缺失数据使用估算单元的方式进行估计,而不是像1990年事后调查那样使用繁琐的逻辑等级回归模型估计。
4.对样本量小的事后层进行了前合并和后合并,从而提高了事后层双系统估计量的精度,进而保证了全国和各州及地区人口普查估计数的可靠性和准确性。
5.搜索区域范围集中在居住单位地址误差严重的街区群,只搜索了20%的样本街区群,而不像1990年事后调查搜索了100%的样本街区群。这提高了搜索效率和搜索质量。
收稿日期:2007—08—22