统计推理的逻辑,本文主要内容关键词为:逻辑论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:F222
一、引言
统计推理的逻辑可以有多种形式。采取哪种形式即有赖于统计推理的结果(是对行动进行选择,接受一个陈述,拒绝一个假设,确定一个概率,还是其它的形式的结果),也有赖于对统计推理中涉及到的概率的解释(即主观的、逻辑的、实验的以及其它的解释)。进一步说,统计推理的基础是有很大争议的。而大多数统计推理程序所产生的结论相对来说是没有争议的。不仅有大量的关于什么推理形式能保证产生那些没有争议结论的争论,而且有些场合结论本身还是有争议的。很有可能按照某一种统计推理方法显得可靠的推断或者程序从另一种统计推理的方法的角度就被认为不可靠,其结论也因而不可靠。
二、统计检验
统计检验的一般思想是由许多哲学家为一般的科学推断所提出的建议。这个思想是首先你应在心里有一个具体的假设,接着你由这个假设演绎出一些必然的结果,再对这个结果进行检验。如果检验的结果是否定的,你就拒绝接受这个假设。
R.A.费舍曾谈到显著性检验所依靠的统计推理的说服力是选言推理性的;既可能假设是错的,也有可能是一些不寻常的事情发生了。他用掷四个骰子作为例子,如果得到四个六点,暗示我们不能确信骰子是公正的。我们应该倾向于拒绝接受骰子是公正的零假设。
但是就零假设来说投掷四个骰子的任何一种具体的结果都具有同等可能性,如果我们心中有一些其它的假设帮助我们解释所观察到的结果,那么四个六点的结果只能够使我们倾向于——相对于其它结果更加怀疑骰子的公正性。
显著性检验相对来说较快也较容易,这对于普通的研究者就是一种优越性,但如果明确的推理止于显著性水平,就很难估价数据作为证实性材料的意义。这个事实引起一些学者(如R.A费舍)断言显著性检验只能作为一个含混的、启发性的工具以提出一些值得认真研究的调查领域。
三、假设检验
在正统的假设检验中,我们考虑到备择假设的严密的特性。我们设计的检验不仅能使拒绝正确的零假设的概率很小,并且提供最大可能的检验力以区分零假设和备择假设,并且应具有有效性和无偏性或者具有其它优良的长期(多次重复样本)属性。备择假设的明确性既容许更加明确的对待(或处理)所使用的检验的特性,也容许更加明确的对待在应用该检验时的限制和假定。然而,检验的大小即P值所反映的也不过是长期(多次重复样本)频率,该长期(多次重复样本)频率是零假设被错误拒绝的频率,这样,可能适宜也可能不适宜于统计推理某一特定场合认识论的特性,因而几乎肯定不可能揭示所有的事实。
显著性检验和假设检验的逻辑值得作如下的两个进一步的评论。假定所有合适的条件都得到满足,与某一具体研究相关的显著性水平即其P值就对其结果的说服力提供了一些认识论的指导。但如果我们考虑某一大类的这种研究,我们可以确信显著性水平是0.05的那些检验的二十分之一表示对零假设的错误的拒绝。更重要的是,如果我们看一看已经公布的结果,其中多数没有达到显著水平的结果都被剔出了,我们在看一个关于显著性检验的应用的具有高度偏差的样本,在这个样本中我们可以肯定错误拒绝零假设的频率比所用的显著性水平要高的多。
四、置信方法
通常的置信区间建立的推理按如下步骤进行。令P代表一个总体;X代表一个以该总体为基础定义的随机数量,假定我们已知X的分布的形式,例如正态分布;令μ为一个未知参数。我们把样本统计量定义为取值是一个区间的函数,该函数具有如下性质:不管所假定的X的分布的形式如何,样本产生的函数的值包含参数μ的长期频率将至少为1-P。推理的这一部分是严格的分析和演绎性。接下来我们从总体中抽取一个样本,并计算相应的区间。最后我们且用1-P的置信度断言,所计算的区间包括参数μ。
出于对概率的频率解释,这个置信系数不是概率。我们不能说μ落在某一区间的概率是1-P参数或者落在该区间,或者不落在该区间,落在该区间或者不落在该区间的频率是0%或者100%。
对于置信系数1-P的解释是一个有待于解答的问题。为什么我们喜欢大的置信系数而不喜欢小的置信系数呢?一个老一套的回答是在众多的案例中,如果该方法的假设得到满足,正确判断的相对的频率将会接近1-P,这对于我们的问题一点也没有说明,但能使我们感觉稍微好一点。尼曼抓住了问题的关键,他认为推断的结果不是对一个论断或者假设的接受和拒绝,而是按某种方式行动的决策,即按μ在那个区间来决定采取什么行动,而这种归纳推理行为的模式按照长期(多次重复样本)性质来说是当然是有正当理由的。归纳推理的概念是适应于统计处理的长期(多次重复样本)性质与我们要进行实际决策的具体情况之间的联结物。
五、信念推断
尽管信念推断所涉及的推理产生的结果有时很象那些由置信区间方法产生的结果,其所涉及的逻辑却是不同的。信念推断的结果不是对一个假设的拒绝或接受,不是一个决策,而是一个概率分布,一种特殊形式的概率分布。这里,仍然令P是一个总体,设随机数量X属于该总体并具有正态分布,该分市具有未知平均数μ并具有单位方差。随之确定的是X的平均数与X的一个观察值的差将具有正态分布并有单位方差,其平均数为已知并等于0。
现在我们取X的一个观察值,从这一步起推理就与前面所说的置信区间法大不一样了。不管μ的值是多少,X-μ服从于(0,1)正态分布。μ的信仿分布是正态分布,其方差为1,其平均数等于观察值。我们可以用这个分布以获得参数μ的信念概率的陈述。这些概率不是频率,但是其以频率为基础。
信念推断没有被很好的理解,也常常没有被准确的使用。然而,在一些简单的场合,信念分析的逻辑看起来既与常识吻合也与实际要求相符。
六、贝叶斯推断
贝叶斯推断的推理是严格的概率性质的。它以贝叶斯定理:
P(H/E)=P(H)*P(E/H)*(P(E))[-1]
为基础。贝叶斯推理的决定性的也是具有争议的特性是假定H的先验概率存在。对于认为概率代表个人相信的程度而不是任何种类的经验性频率的人来说,贝叶斯定理总是可用的。
贝叶斯推断的通常结果是对所研究的假设的概率的判断,或者说,如果我们所关心的是一个参数化的假设分布族,其结果就是一个关于该族的概率分布。其结果不是对于假设的接收或者拒绝,而是对于该假设的概率度的判定。从另一个角度来看,贝叶斯推理的结果将数据、先验概率、实际效用等合并起来产生或确定一个决策或一项行动。
有人或许会提出这样的问题,即从科学研究的目的来说接受假设是否是必不可少的。坚定的主观主义的贝叶斯门特否定这一点,其依据是从科学中我们所需要的是做出有情报或信息依据的决策,这些决策以效用和概率为基础,这样,我们永远不能接受统计假设。一些方法论主义者以及哲学家争辩道:接受科学假设本身可以被理解为一种行动,可以通过应用认识的效用将贝叶斯门特的决策理论的中心理论应用于这种行动。简而言之,就是通过考虑真值与误差的相对值以及认识和无知的相对值来进行。
七、总结
一个人对统计推理结构的认识既有赖于他所接受的概率的解释,也有赖于他所采用的作为统计推断结果的形式。如果他采纳了对于概率的频率或者反复试验的解释,那么统计推理的结构就被赋予一种特殊推理模式的长期(多次重复样本)性质。例如,假设检验的逻辑依赖于所检验的假设被错误的拒绝的频率,同时也依赖于该检验一其它长期(多次重复样本)性质,如检验力、无偏性、有效性等等。由于重要的是长期(多次重复样本)性,而不是手中现有的个案,对于优良长期(多次重复样本)性质的任何贡献都关乎统计推理的逻辑的需要,例如随机抽样、随机化检验或者混合检验等等。
当概率被解释为实际频率或者测量,我们就永远不能够对一个单一的事件指定一个概率,例如,一个具体的置信域(区间)包含某一参数这一事件。统计推理的结果不是对一个统计假设指定一个概率,无论是简单的还是复合的,也不是对一个参数的可能取值确定一个概率分布,因而必须给出其它一些解释。在关于统计推理的结果的最常见的解释中,有些是这样的:在显著性检验和假设检验中它是对零假设的拒绝;在有些有关于置信方法的解释下,是对一个假设的接受;它是进行一项行动的决策,例如拒绝接受一批船运货物或者关掉一架机器进行调整;它是一个认识论的决策以接受一个假设,或者延缓对其做出判断,或者拒绝。
贝叶斯定理常被应用于关于概率的主观解释。该定理的应用对于先验概率的要求需要的仅仅是先行的主观意见,因而总是行得通的。统计推理的结果因而可能总是对一个统计假设确定一个概率,或者对于一总体的特征参数确定一个后验概率分布。
考虑到相应的适用性,统计推理的结果还可以被构造成一个决策或者一种选择。由于长期(多次重复样本)性没有任何作用,从这个角度来看,无论随机抽样还是混合检验在统计推理的逻辑中都没有任何地位。如果应用了随机抽样,只能是出于实际的和心理上的原因。
概率可以从两个方面做出逻辑解释。其一是说概率是用语言描述的,统计假设的先验概率或者统计参数的先验分布都有精确的定义,而贝叶斯定理可以应用到决策问题或者期望问题上,这是CARNAP方法。统计推理的结果可以构造成为概率的后验分布,或者一个决策,就象在主观解释的情况下那样。
另一个逻辑方法,产生了认识论上的概率。这种方法的概率应用在统计陈述上,与主观主义的概率解释的应用一样,但是所有的概率都以已知的实际频率为基础。由于这些频率或者分布只能近似的知道,在这些条件下对于先验概率我们所能说的只是它落在一个闭区间[0,1]内。在这种情况下,可以用置信方法。在其它情况下,概率的先验分布的局限,与通过贝叶斯定理方法所产生的证据一起,产生有用的后验概率。
在R.A.费舍的方法(信念方法)和以频率为基础的概率的逻辑解释之间有着密切的联系。
一个人所采用的统计推理逻辑即有赖于其对概率的看法——频率、逻辑、认识论、主观、信念——也有赖于其对于统计推断结论的认识——对统计假设的接受或拒绝,对一个假设确定其概率或者对一个参数确定其概率分布要采取的行动。对概率的观点以及对统计推论的结果的看法都是有争议的,由于从一个角度来看的好的统计推理将会因为从另一个角度看不合适而被拒绝,这种争议不是学术上的。对于普通的统计实际工作者或者统计信息的消费者的最好忠告只是应该认识到这些争议的存在,它们对于统计推理的实施确实有影响,并且,很幸运,大多数实际的统计应用所涉及的推理理允许在每一个不同的统计方法体系内进行分析而且被认为是正当的。
译自《Logie of Statistical Reasoning