统计数据准确性评估的误差效应分析方法,本文主要内容关键词为:统计数据论文,误差论文,效应论文,准确性论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
统计数据准确性是统计数据质量概念中的核心特征;作为统计数据质量控制前提和依据的统计质量评估工作,也必然要以准确性评估作为核心内容。目前围绕统计数据准确性评估的研究与实践,由于评估目标和所依据资料的翔实程度不同,各种努力虽然都被冠以“统计数据质量(准确性)评估”之名,实际涉及的方法范畴和技术思路却存在极大差异,适用条件也往往不同。
针对宏观统计数据,通常是以统计核算体系中同度量指标之间在统计口径和范围方面存在的单向包含或相互平衡的内在逻辑关系、相关指标间基本稳定的经验比率或协同变动趋势等因素作为参照标准,通过判断统计指标数值与这些逻辑关系[1]、经验比率[2]或协同变动趋势[3-4]是否存在不一致的现象,以此进行准确性评估。进一步,经济研究学者利用统计核算体系中各项基础构成指标,遵循统计核算规则来重构总量统计指标。作为参照标准来评判官方公布统计数据的准确性(其中尤以对GDP及其增长速度的评估最为常见),如以实物产量增长速度的加权平均方法计算综合增长率的物量指数法[5-6],以及利用各类价格指数对名义GDP进行缩减调整的价格指数法[7]。
上述评估思路(方法)的实施,隐含着如下假定:即参照指标(或基础构成指标)必须是准确无误的,待评估指标与参照指标之间的逻辑、比率或相关关系也应是相对稳定的,否则评估结论就容易出现多重指向性,难以令人信服。如针对引起国内外强烈反响的Rawski的中国经济“低增长猜想”①,Lardy即以1997-2001年间中国财政税收与进口高达70%~90%的增长速度作为反对证据[8],任若恩认为关于经济增长率与能源增长率应该大致相等的假定是不成立的日,张新和蒋殿春则指出中国官方公布的就业数字无法反映真实情况(如隐性失业),不足以作为评估GDP增长可信度的参照依据[10]。
作为对上述方法的技术拓展,基于计量经济模型(时间序列模型)的评估方法,其结论的得出依赖于两种分析途径:一种是分析被解释变量实际统计值与模型拟合值之间的差异情况,从中识别出偏差较为显著的异常数值点[11];另一种是分析模型参数估计值的跨时期稳定性,判断模型所反映的经济运行机理是否明显有悖于社会经济常识[1,3]。相对而言该类方法更为科学严谨,但同样存在限制性条件:即要求用于拟合模型的历史统计数据(包括待评估指标本身)以及评估期的解释变量数据必须是准确可靠的,不会发生数据“污染”现象[11];即便如此,对于被解释变量的异常数值或模型参数的异常变动,也可能有其发生的客观原因(如外部冲击、体制变革等),不能一概归咎于统计准确性问题。
综上可见,在宏观层面开展的统计数据准确性评估实践,必须借助于可获取的同类统计数据资料;对应于实施操作的可行性,这类评估实践的主体通常是统计数据的使用者。鉴于各类方法在逻辑思路或技术方面存在一定的缺陷,评估通常只能给出方向性的提示,无助于进行具有公信力的统计修正;同时评估结论的可靠性也值得商榷。正因如此,在研究和实践中一直未能形成统计数据准确性评估方法的公认体系和标准,针对有关的评估结论更是颇多争议。这也是国内外各界对中国政府统计数据质量的存疑长期难以消除的重要原因之一。
相比较而言,统计数据生产者(统计部门)掌握宏观统计数据在汇总生成过程中各个环节的大量原始数据,可以基于更可靠的技术思路、利用更翔实的信息资料来实施数据准确性评估。对于评估争论的最终解决,统计部门所提供的证据和结论无疑具有更高的权威性和说服力。因此,基于统计数据生产者角度开发有效而可靠的统计数据准确性评估方法,具有迫切的必要性。
本文旨在引入社会调查领域的计量误差评估技术,结合中国政府统计数据(生成过程)的特征构造统计误差效应模型,探讨利用该模型来评估统计数据准确性的基本思想及其关键参数设定。
二、调查计量误差效应模型
计量误差是普遍存在于各类统计调查中的一种非抽样误差形式,是影响调查质量的重要因素。20世纪50年代至今,该领域的研究产生了大量文献成果,用以描述对各种误差来源的处理方法,并试图对若干类型误差来源进行综合处理与同步建模。基于本文的研究目标,这里仅简要介绍针对调查计量误差效应的一般建模思路和估计方法。
对于调查计量误差的直观理解是调查记录值与变量真实值之间的差异,由此可以得到最基础的线性计量误差模型[12-13]为
对于模型(1),假设可以对同一样本单元进行重复观测,并且不同次观测之间相互独立,则针对特定单元i的计量偏差与方差可以表示为
对于上述计量误差效应模型中有关参数的估计,结合现实情况已经发展出多种技术,如重复调查方法[15]、访问员方差研究[16]、随机试验方法及记录核对研究[17]等,其中重复调查方法是完全内生于抽样理论体系、最具普遍意义、在实践中应用最多的一种方法。通过选择对初始样本设计具有代表性的子样本,向子样本中的调查对象再次提问初始调查问题(或它们的一个子集),并结合初始抽样设计,重复调查可以实现对总体参数中计量偏差与方差(包括简单方差与相关方差)成分的有效估计测量。
上述计量误差效应模型是研究计量误差的发生机制及其影响时最为基础的模型,同时亦可作为政府统计调查数据综合误差建模的基础,本文即基于此模型展开研究。
三、宏观统计数据误差效应模型的构建
(一)误差效应模型的基本形式
宏观统计数据,不论其来源于统计报表汇总、普查或是抽样调查估计,都可看作是由基层个体单元的统计调查数据经由(加权)汇总得到的。而所谓的统计数据准确性问题,本质上是来源于个体统计调查数据中存在的误差。进一步,如果将基层单元定义为较为稳定的群或者区域(如乡、村或者居委会、小区等),则针对基层单元的各类统计误差都可对应于计量误差的范畴。由此可见,在针对宏观统计数据进行准确性评估的过程中,完全可以引入社会调查领域的计量误差量化技术,通过构造误差效应模型来进行更为深入而系统的研究。
由下文的分析可知,基于误差效应分析角度研究统计数据准确性的评估与控制问题是一种可行而有效的思路。同时,在统计汇总过程中各类重要的误差来源——包括制度因素(如统计制度缺陷或地方政府部门干扰)、操作因素(如统计人员的现场调查记录与中后期处理汇总)以及基层单元属性特征(如基层单元所属的区域或部门)等——的影响,也都可在模型中有所体现。
(二)误差效应模型的应用
有统计总量的方差为
上述参数估计量的构造完全内生于抽样理论,篇幅所限,不再赘述。
综上分析,利用重复调查数据构造误差效应模型,既可以实现传统统计数据准确性评估工作的目标(偏差评估),又能揭示统计数据变异性的程度(方差评估),并且可以评鉴各种统计调查误差来源对统计数据准确性的影响程度,针对影响较大的统计误差来源进行统计方法制度的改革完善,从而在根本上减弱乃至消除各种关键统计误差来源的不良影响。
四、对事后重复调查方法的探讨
实施统计调查事后的重复调查,是构造误差效应模型和进行误差效应分析的前提条件。本部分对重复调查方法的技术思路和方法依据进行探讨,以期尽可能提高实践应用中的设计效率。
(一)重复调查方法的技术思路选择
重复调查在调查误差识别评估中有着广泛的应用,并逐渐发展出两类技术思路:一类称为测试—重测试重复调查(test-retest reinterview),另一类称为“黄金标准”重复调查("gold-standard" reinterview)。前者通常假定重复调查是与初始调查程序相独立的重复实施,基本调查条件相同并且调查误差服从相同的分布,由此可以对调查误差方差成分进行估计。后者则假定重复调查是在更为理想和完善的调查条件下实施,可以得到无误差的、“真实”的观测值,从而产生对调查误差偏差的有效估计。
本文倾向于设计实施“黄金标准”的重复调查来获得准确数据。这一方面是因为宏观统计数据的生成过程涉及范围广、统计调查汇总成本高,实施与初始统计调查的基本调查条件相同的重复调查有资源浪费之嫌;另一方面是因为如果统计数据的汇总结构以群作为基层单元,而对群内个体单元的稳定性不作约束,则针对群单元的统计数值并非原始观测数据,实施相同条件的重复调查已无可能。而对于Forsman和Schreiner概括的实施重复调查的四种目的——识别伪造数据的调查员、识别误解调查程序并需进行补救培训的调查员、估计简单回答方差以及估计回答偏差[15],只有“黄金标准”重复调查有可能予以同时实现;当然在宏观统计体系当中需识别的误差来源要远大于调查员的范畴。
目前在政府统计部门实施的大规模统计调查中,已普遍采用事后重复调查进行质量评估和控制,因此利用其构造误差效应模型及评估统计数据准确性,边际成本仅在于技术方面而非经费预算方面。而如前文所述,误差效应分析方法将对基层单元的统计调查视为初始抽样设计(或全面调查汇总)下的又一级抽样,因此重复调查研究可以在统计抽样的理论框架内寻求一般性的解决方案,完全具备技术上的可行性。
(二)重复调查真值的存在性分析
与“黄金标准”重复调查相联系的一个重要概念是统计调查“真值”的存在性。在社会调查领域,真值是否存在,以及重复调查结果是否可以代表真值,是长久以来争论的话题。Lessler和Kalsbeek综述了定义真值的两种主张[20],一种认为真值独立于调查条件而客观存在,另一种则主张采用严格操作的方法来定义真值。前者所要求的客观条件更为严苛,适用范围因而有限;后者更具灵活性,完全可以依照调查条件所能达到的理想状况来定义真值——在此种意义下,可以用实际可取得的“理想值”或“最优值”来替代“真值”。
相对于“态度”属性的测量而言,宏观统计数据基本都来源于对基层单元的“事实”属性的调查测量。在很多情形下,目标特征的真值是客观存在的;而在真值难以侦知的情况下,借助比初始统计调查更理想的调查条件、更严格的操作规程、更富有工作经验的操作人员来实施重复调查,从重复调查子样本中获得比初始统计调查结果更接近真实结果的数值,由此也可界定统计调查误差、评估统计总量数据的准确性。可见,不论采用何种真值定义主张,都具备现实可行性。
另外,初始统计调查与“黄金标准”重复调查的相对范畴还可以进行拓展。由于统计口径的变动(如中国2004年的统计报表核算与经济普查)或者统计调查时期的推延(如不同年份的统计报表核算、人口普查与相隔五年的1%人口抽样调查)而生成的两套数据,都可以在该范畴内加以理解和分析。此时两套数据在基层单元上的差异虽已不能表述为“误差”,但本文关于统计误差效应的建模和分析方法仍然适用,仍可以从中揭示数据差异的发生机制。
五、结论及研究展望
统计数据使用者在宏观层面开展的统计数据准确性评估实践,由于所采用方法在逻辑思路或技术方面都存在一定的局限,导致评估结论往往没有足够的可靠性与公信力。而统计数据生产者掌握宏观统计数据在汇总生成过程中各个环节的大量原始数据,以及为进行统计质量监控而实施事后重复调查的数据,因此可基于更可靠的技术思路、利用更翔实的信息资料来实施数据准确性评估,其所提供的证据与结论无疑具有更高的权威性和说服力。
本文引入用于社会调查领域的计量误差效应评估技术,结合中国政府统计调查数据的结构特征,构造了表征统计数据准确性的统计调查误差效应模型。利用该模型既可评估统计偏差,也可对统计误差方差结构予以全面检视。通过对模型中若干重要参数的识别估计,可以实现对统计数据的准确性加以“准确”评估的目的,更能从中揭示因制度因素、操作因素、基层单元属性特征等对于统计数据准确性所造成的影响,发现重要的统计误差来源,从而推动统计方法制度进行有针对性的改革与完善。
鉴于该类方法涉及内容广泛,包括从统计制度层面到实施操作层面、从建模数理依据设定到具体统计数据特征考察的众多方面,难以毕其功于一役。因此论文将重点置于对该类方法基本思想的论述、基础模型的构建与参数设定以及“真值”数据获取方法的设计,而省略了对模型参数估计量的构造。加之目前国内未曾公布任何宏观统计数据所涉及的微观个体层次的初始统计与事后质量抽查的数据资料,故论文无法佐以应用实例给予演示说明。是为论文研究的缺憾之处。
本研究今后的拓展方向在于针对特定统计主题的重复调查程序的设计、误差效应模型及其参数假定的适宜性检验、参数估计量的构造等。虽然涉及过强的误差模型假定和复杂的参数估计技术,但相对于统计数据准确性评估的其他方法而言,误差效应分析方法具有理论结构的严谨性和所提供信息的深入全面性;随着中国政府统计透明度与数据可获取性的不断提高、统计质量管理体制的不断完善,预期该方法可以获得广泛的应用。
注释:
①Rawski(2001)以1997-2000年间中国经济高速增长的同时却伴随能源消耗相对下降、通货紧缩、就业人口增长缓慢等现象为由,质疑中国经济增长数据的可靠性。
②对于抽样调查数据,总体总值的估计量为(在简单随机抽样下有权重),与前者形式类似,在两类数据间不难作相应转换,故在下文中省略对抽样数据情形的讨论。
③事后重复调查是普查和大型抽样调查中普遍采用的质量评估和控制手段,利用对随机子样本二次调查所获得的数据与初始调查数据进行比较,既可对数据准确性进行评估和改进,也可实现对调查实施现场人员(主要是调查员)工作情况的监督和警示。
④例如,因调查员业务素质及其个人特征的影响,同一调查员负责调查的各基层单元的统计误差间存在相关性;人口普查中同一区域各基层单元的人口流动特征相似,易于产生普查登记误差的相关性;统计汇总或经济普查中同一行业各基层单元所面临的市场结构和生存状态相似,导致统计误差相关。
⑤根据所考虑因素的多少,可设置两级至多级数据汇总结构。此处仅讨论两级结构情形,但可由此容易地推广到多级结构。