统计应用中的陷阱_数学论文

统计应用中的陷阱，本文主要内容关键词为：陷阱论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、统计的广泛应用和普及导致新的问题

现在，越来越多的人意识到统计在人类生活的各个方面所起的重大作用。统计应用正以其历史上前所未有的速度在各个领域得到发展。统计已经服务于几乎所有的领域。统计在发达的工业化国家早已得到普及；而在统计相对起步较晚的中国，统计的普及也在加速进行。

统计在中国的普及得益于几个方面：市场经济日益增长的需求、计算机及方便统计软件的飞速发展、广大专业统计工作者的辛勤劳动、以及使用统计工具的实际工作者的努力。事实上，世界上各领域的多数统计工作都还是本领域的人士进行的。统计方法（或理论）的改进和创新与统计的广泛应用是相辅相成的。

然而，统计的广泛应用和进行统计工作的人数迅速增加，也导致人们对统计应用中可能出现的问题的忽视。实际上，在统计应用中有许多危险的陷阱；它们可能使统计推断的结果不可靠、不可信、甚至完全没有意义。

二、统计应用陷阱产生的根源

统计陷阱的产生和统计学科本身的性质及其发展的历史进程有关。这包括：统计的数学背景及其为实际服务的使命之间的关系、统计教材对现实世界的理想化、统计课本的编写特点、使用统计的人对统计概念的理解、统计应用中一系列决策的任意性、统计软件的“傻瓜化”等等。

（一）统计与数学的区别

统计需要大量的数学；现代统计的基础也是数学家所奠定的。数学是一个“是非明确”的理想世界。它自我形成一个严格的封闭逻辑体系。只要逻辑正确，最多得不出结果，但不会犯错误；这也是以演绎为主的数学魅力之所在。数学教科书也因此没有负面的内容。

但以归纳为主要思维方式的统计是描述现实世界的。应用于各领域的统计需要建立各种数学模型来近似现实世界。统计中的数学模型本身并不形成完整封闭的逻辑体系；而且结论也绝非确定性的。统计的非确定性恰恰说明它很适合于研究不确定的现实世界。

（二）统计应用过程是一系列不无危险的主观决策组成的

在实践中，统计应用的每一个环节都可能出问题。首先，人们按照自己的想法收集数据（信息）；其次，人们对现实世界的认识是某些用数学语言表示的模型、或一些想象的和不易验证的假定；这些模型仅仅是对现实的某种近似；此外，这类近似模型存在的一个必要条件是它们必须能够被人们解出来；模型的这些解可能是近似模型的精确解，也可能是近似模型的近似解，当然，这些解可能有在一定概念下的“最优性”；最后，以数学语言描述的结论和可以适用于现实世界的结论之间还有容易被忽略但可能是致命的鸿沟；也就是说，统计显著不一定等价于实际显著；有时差别相当大。

容易看出，上面提到的每一部分都带有主观性或任意性。从有某些“目的”地收集数据到建立基于某些假定和猜想的模型、从寻找解的方法到对计算机输出的解释，充满了危险和挑战。

（三）统计教科书把现实世界大大简化了

在目前的数理统计教科书中，多数仍然遵循着上个世纪三四十年代遗留下来的传统。充满了与数学模型有关的定义、定理、命题、推导和证明。但对于数学模型背后统计思想的介绍则很不充分。这些充满假定的数学模型都是对现实世界的简化。但是，没有多少人真正认识到：所有统计教科书中的教学假定都是无法用数据验证的，没有任何模型是完美的。经过这样的统计教育，人们（特别是缺乏实际经验的学生）有可能把一个人造的、但又并不完全虚幻的世界当成真实世界。为了人们容易理解，教科书把本来复杂的世界进行简化，是完全必要的。但对于已经掌握了某领域一定的知识的人，就有必要认识到书本和现实之间的差距。教科书倾向于把世界过于理想化并不是大问题，但如果我们这些写教科书的教师或“权威”自己也这么认为，问题就没这么简单了。

（四）统计软件在不断大量生产垃圾

统计软件的发展推广和普及了统计，使得统计从统计学家的圈内游戏变成了大众的游戏。输入数据，做几个选项，则计算机会输出大量漂亮的结果和图表。这种大规模产生结果的方式使得实际工作者犯错误的机会大大增加。人们往往不能意识到计算机产生的垃圾可能大大多于有用的结果。统计过程任何一个步骤的失误都毫无警告地包含在计算机输出之中。

三、统计应用的每一个环节都可能出问题

（一）数据收集时的问题

收集数据和研究的对象有关系。也和人们心中的模型有关。由于模型的选择带有主观性，很可能把无关的变量引入了模型，把有关的忽略了；这样，根据变量收集的数据做出的统计推断就不可靠了。在统计建模中经常一方面耗费资源收集了大量的数据，但由于其中缺乏有关变量的观测值而得不到可靠的结果。

抽样调查数据是典型的垃圾源。在问卷调查中，人们喜欢设计有许多问题的问卷，有些全国性调查的问题数目甚至达到四百多个。设计者的目的肯定是为了得到更多的信息；比如想通过调查知道“一星期上网20小时的男性学生每月看三份杂志”的百分比是多少。这个比例就涉及至少四个问题（每个问题又有若干选择）：周上网时数、性别、职业、每月看杂志数。在一个四百多个问题的问卷中的所有四个问题可以产生的比例个数达到上千亿或上万亿。一个大型问卷可以产生的理论比例总数可超过10的几十次幂的不折不扣的天文数字。其中绝大部分或者由于分母分子范畴的交集为空集而不存在，或者由于（总体的有关子集的）样本量太小而导致比例没有意义。但通常调查报告对这些没有意义的比例照登不误，不给出样本量、置信度、置信区间。如果不对所感兴趣的比例的分母范畴在设计抽样框时给予特别考虑，结果必然不可信。当然，问题太多的问卷使得答卷者厌倦，往往得到不真实的结果。此外，问卷问题的措辞、问题的次序、问卷人的素质、抽样框的设计等等都可能严重影响调查的结果。这也为玩弄数字（无论为了数字出官，还是什么别的目的）的人提供了机会。

连续交量如何转换为分类（定序）变量有很大任意性。经常有必要把连续变量转换成分类变量或定序变量。而在确定分划点时就有主观性和任意性。一个典型例子是如何划分高收入、中等收入和低收入人群。这种任意性给制造“猫腻”创造了条件。类似的例子还有医学统计中的病理的分期，病情的分阶段等等。

了解数据背景。在对数据进行统计分析时，必须对各种数据的背景有所了解。比如笔者曾经在一个人口数据上发现了某种可疑的“周期性”，后来发现这是由于统计方式的不同而产生的人造周期；如果把这些人为错误放入模型，就贻笑大方了。

不能随意删除观测值。在分析数据时，仅仅为了“好的拟合”而任意增补或删除观测点是不适当的。拟合不好的根本原因是模型和数据不匹配，或者是模型的问题，或者是数据问题、或者二者都有问题。如果数据经过核对是无误的，就必须改进模型，不能削足适履。所谓“离群点”、“奇异点”、“异常点”都是以目前的模型为参照的。如果换了模型，这些点就可能是“正常”的了。

（二）对统计模型和概念理解的问题

只有求得出解的模型才是可以使用的模型，但并不见得是最合理的。如前所述，模型是对世界的近似和简化。其原因之一在于人们对真实世界认识的局限性；这使得模型的建立成为人们的经验、知识、逻辑推理和主观猜想等的产物。而另一个原因是由于任何模型都是由数学语言表述的；但并不是任何模型用已经掌握的数学工具都能够解得出来；此外，即使数学方面不成问题，如果计算机和软件不能够在需要的时间把问题精确（对于模型而言）解答出来，就需要寻求近似解；如果近似解也不易得到，那模型再好也不能用。

教学假定的真伪无法用数据来验证。模型的简化包括为数学推理方便而设的各种数学假定。这些假定有助于得到近似模型的“精确解”；但是，毫无例外，统计推断中所有关于总体、数据和模型的数学假定，诸如对总体分布的各种假定、对模型的各项的假定、对大样本的假定等等都无法根据数据来精确验证。表面看来，实际工作者似乎可以不予理会这些数学问题，但这些假定的真伪很可能对统计推断的结果有决定性的影响。

变量的选择充满危险。模型的变量选择对结果的影响，不仅在回归分析，而且在多元统计分析的实践中特别明显。例如因子分析或主成分分析常被用于排序，但对于变量的随意选择可以完全操纵排序的结果。类似地，变量的选择对聚类分析、判别分析、典型相关分析等都会对结果产生重要影响。因此应避免被这些分析的复杂的数学公式和漂亮的计算机输出迷惑，而忘记了变量选择这样的要害。

能够说得清模型中的各种概念的本质吗？模型中的各种概念，比如显著性水平、置信度、相合性、最大似然原理、一致最小无偏估计、渐近分布等这些名词背后的基于重复试验、总体或大样本基础上的含义，在实际应用中容易被忘记或者忽视。另外，统计显著是不是就真的显著？“最优的”，或“渐近最优”对于计算出来的结果有什么意义？这些概念绝不能仅从其表面字意或数学定义来理解；必须要从收集数据时头脑中的模型、使用模型进行分析或者拟合时对模型和变量的选择、结论的计算、以及模型和实际问题是吻合好坏等等来分析。要弄清楚中间有多少近似、人为的、和无法说清的成分。

从实际需要来评判模型。最有发言权的还是统计模型和实际问题的相关程度。例如，统计教科书中显著性水平常取0.05，而在许多问题中这就大了几十倍或几百倍。再例如，不同的检验，特别是一些非参数检验，看上去零假设是一个，但他们所给出的不同的p值却反映了数据结构的不同方面；它们的备选假设就更不像经典统计那么容易解释；如果不对这些统计量和实际问题予以综合考虑，就可能失去许多有用的信息。在应用中实际显著比所谓的统计显著更重要。

（三）利用假设检验能证明什么是对的吗？

假设检验不能得到“接受零假设”的结论。很多人把假设检验看成是证明零假设是正确的一种方法。实际上，在我们教科书中常用的检验中，比如不对称的检验，根本不能证明零假设是对的。在不能够拒绝零假设时，只能够说明证据不足，而不能说“接受零假设”。负责任的统计学家在做出结论时应该给出该结论可能出错的概率。但是那些在不能拒绝零假设时声称要“接受零假设”的论述中，除了在理论上的备选假设为单点的情况下，从不提供在接受零假设时犯错误的概率（注：贝叶斯统计可以有接受和拒绝某假设的决策，但都是基于后验概率的比较，与经典统计的思维方式不同。）。假设检验是统计以否定为目标的思维方式的体现。实际上，统计和诸如物理学等其他科学类似，大都是在否定中发展的。

用假设检验来“验证”各种条件是误导。在充满了定义、引理、定理及推导过程的数理统计教科书中的任何结论都有一定的条件，而这些条件在具体应用中往往或者被忽略，或者被一些如同规则条款一样的步骤来“验证”。以回归为例，一些教科书要求“验证”正态性，“确定”没有自相关，“认定”没有共线性等等；在这些以验证为目标的步骤完成之后，就心安理得地认为回归结果是可靠的了。其实这些以假设检验为工具的步骤都是以没有足够证据拒绝零假设而“接受零假设”作为“通过”验证的依据。这和没有见过某人犯罪就“证明”该人没有犯罪一样荒唐。即使现存的关于回归条件的所有可能检验都无法拒绝，我们也只能够说，使用目前存在的方法没有发现问题，而永远不能说绝对没有问题了。

当然，应该鼓励利用所有可能的检验方法来试图找出问题：但永远不能证明绝对没有问题。正像发射宇宙飞船一样，人们在发射前在用各种手段试图寻找问题；但如果没有找出问题，也绝对不能说他们已经证明不会有问题了。但至少可以说：“我们已经尽了最大努力，但未发现问题。”

四、危机和挑战意味着机遇

本文所讨论的统计应用中的陷阱仅仅是冰山的一角。之所以这样强调统计应用中的问题，是由于通常的统计教科书（和其他学科的教科书一样）很少说什么不能做。这使学生习惯于“接受”课堂授予的理想化的教条，而不习惯面对充满危机和挑战的现实世界。

挑战其实不是坏事，所需要的是科学的态度和脚踏实地的精神。只要敢于怀疑教条、怀疑权威、勇敢创新，那挑战就意味着机遇，意味着进步。没有挑战就意味着没有生命。人类文明不就是在各种挑战中发展起来的吗？

标签：数学论文; 统计模型论文;

统计应用中的陷阱_数学论文

猜你喜欢