冷漠原则与贝叶斯困难_贝叶斯论文

无差别原则与贝叶斯疑难,本文主要内容关键词为:疑难论文,无差别论文,原则论文,贝叶斯论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

无差别原则(the Principle of Indifference)作为确定基本概率的原则之一,在概率论、统计学和现代归纳逻辑中占据重要的地位。不过,有趣的是,人们对于无差别原则的质疑正如对它的使用一样一直没有间断。无差别原则的致命缺陷在于它会导致逻辑悖论,即无差别悖论。无差别原则的这种矛盾品格使18世纪的数学家、贝叶斯方法的创始人贝叶斯(T.Bayes)处于一种尴尬的境地。

一、无差别原则

“无差别原则”这个名称得自于现代归纳逻辑的创始人之一凯恩斯(John M.Keynes),但是事实上这个原则几乎是伴随概率概念一道出现的。早在18世纪初概率论处于草创阶段时,概率论的先驱者之一伯努利(Jakob Bernoulli)就把它命名为“不充分理由原则”(the Principle of Non-sufficient Reason)。大约一个世纪以后,古典概率论的集大成者拉普拉斯(Pierre S.Laplace)把它正式地作为概率论的理论基础。

古典概率概念是以“等概事件”(equally possible cases)为初始概念的,其定义是:P(A)=m/n,意为:事件A的概率等于A所包含的m个基本事件在全部n个基本事件中所占的比例,而基本事件的概率是相等的。那么,如何确定基本事件的等概性呢?拉普拉斯告诉我们:“概率是相对的:部分地相对于我们的无知,部分地相对于我们的知识。我们知道在三个或更多事件中有一个将要发生;但是没有什么能使我们更为相信其中某一个事件而非其它事件发生。在这种不确定的情形下,我们不可能确定地宣称它们的发生。”(Laplace,p.6)显然,这种确定等概事件的原则是对伯努利的不充分理由原则的继承,具有认识论的甚至主观主义的色彩。

然而不幸的是,这样表述的无差别原则(不充分理由原则)很容易导致逻辑悖论。拉普拉斯注意到这一点并给出他自己的解答。他举出一个例子:A女士被告知一个硬币是有偏向性的,但却未被告知偏向哪一面,并且被要求说出这枚硬币投掷后正面朝上的概率。一方面,A女士根据无差别原则判定这枚硬币正面朝上和反面朝上的概率均为1/2,既然她对这枚硬币倾向于哪一面的问题是完全无知的。另一方面,A女士有理由说:这枚硬币正面朝上的概率不为1/2,既然已知它是有偏向性的。这样,对于这枚硬币正面朝上的概率P就有两种相反的答案:P=1/2和P≠1/2,这是一个逻辑悖论。对于这个逻辑悖论,拉普拉斯的解答是坚持前者而放弃后者。(参见同上,p.56)这一解答是对无差别原则的无条件的维护,因此难免是武断的和缺乏说服力的,也并没有从根本上解决问题。事实上,由无差别原则导致的逻辑悖论层出不穷,以致后来凯恩斯不得不认真地对待这一问题。

对于由来已久的无差别悖论,凯恩斯给予了集中和系统的讨论。其中一个较为简单的“书悖论”是这样的:某人要去某个陌生的图书馆取一本他从来没有看到过的书,他考虑这本书的封面是红色的概率是什么。他没有理由在这本书是红的和这本书是非红的之间做出倾向性的意见。根据无差别原则,他赋予概率P(红)=P(非红)=1/2。按照同样的推理方式,他对于这本书是蓝的、绿的或黄的均赋予概率P(蓝)=1/2,P(绿)=1/2和P(黄)=1/2,这些概率之和大于1。然而,这本书是红的、蓝的、绿的或黄的这些断言之间是互斥的,根据概率演算规则,互斥事件的概率之和小于或等于1。这便同前面的概率赋值发生冲突。

在维护无差别原则这一点上,凯恩斯同拉普拉斯是一致的,因为凯恩斯也认为量化的概率只有通过等概的候选者来得到。凯恩斯对无差别原则的最初表述是:“无差别原则宣称,如果没有已知的理由对我们题目中的一个候选者做出比其他候选者更强的断言,那么,相对于这样的知识,关于每一个候选者的断言有着相等的概率。”(Keynes,p.42)这一表述同拉普拉斯和伯努利的意思是基本相同的。不过,面对由它所引起的各种逻辑悖论,凯恩斯给予了更多的考虑和更为认真的对待。

二、对无差别悖论的一些解决

“书悖论”的可疑之处是,对那本书的封面是红的和是非红的赋予了相等的概率,即P(红)=P(非红)=1/2。然而我们知道,非红的并不只是一种颜色,而是可以分为多种颜色如蓝、绿、黄等,而且我们的常识是图书馆的书的颜色不只有两种。因此,一般而言,P(红)<P(非红)。在此情况下,对书为红色和书为非红色应用无差别原则是不恰当的。因此,我们应当对无差别原则的使用加以限制。凯恩斯正是这样做的,他说:“令(a[,1])、(a[,2])、…(a[,r])是我们试图通过无差别原则赋予等概率的候选者,h是证据。那么,应用无差别原则的一个必要条件是:相对于该证据,(x)形式的候选者是不可分的(indivisible)”(同上,p.60)

据此,我们对那本书的颜色的两个候选者即“那本书是红的”和“那本书是非红的”不能使用无差别原则,因为后者能以同样的方式进行划分,即分为“那本书是蓝的”、“那本书是绿的”等等。既然在这里不能使用无差别原则,那么,由无差别原则导致的“书悖论”便不复存在了。

作为比较,我们举一个类似的但却能够使用无差别原则的例子。假定我们正在考虑一辆汽车的颜色,对这辆汽车我们只知道它生产于某厂和某年;而通过查阅该厂的产品目录,我们又知道该厂于那一年生产的汽车只有红、黑、白三种不同的颜色。在这些信息的基础上,我们可以断言那辆汽车是这三种颜色之一,但却没有理由倾向于断言它具体是哪一种颜色。于是,根据无差别原则我们可以说:这辆汽车是红的概率为1/3。一般认为,这是对无差别原则的正确使用并且符合凯恩斯的不可分条件。但需指出,这种不可分性往往是人为的,而不是客观上本来如此的。如颜色在客观上并不只有红、黑、白这三种,而且其中任何一种颜色还有深浅之分,只是该汽车厂只取这三种颜色,而且每种颜色只取一种深度。有了这种不可分性的背景知识并且以此限制无差别原则的使用,就不会导致类似于“书悖论”的逻辑矛盾。

然而,凯恩斯修正后的无差别原则尽管可以解决“书悖论”,却使无差别原则的应用范围受到过大的限制,以致使它不能被用于连续性场合。如果某一参数θ在区间[a,b]是连续分布的,那么这种无差别原则就不能应用于它。为此,凯恩斯试图说明连续性场合在一定意义上是可以化归为离散场合的。他谈道:“例如,假定一个点在一条长度为ml的直线上,候选者是‘当我们沿着那条直线从左向右移动一个点时,那个点位于长度为l的区间是第x个那样长度的区间’,把它记为(x);那么,无差别原则可以安全地运用于这m个候选者,即(1)、(2)、…(m),候选者的数目m将随着区间的长度l的减小而增大。我们没有理由说,l不应当成为一个确定的长度,无论它如何小。”(同上,p.62)

应该说,凯恩斯的这一辩解是很勉强的。事实上,无论这条直线上的每一区间的长度l多么小,我们仍然可以把它分为若干更小的区间。这意味着,经凯恩斯修改后的无差别原则仍然不能用于这些小区间,因为它们不满足不可分的必要条件。由此许多学者得出结论,经凯恩斯修改后的无差别原则不能用于连续性场合,而这种场合在日常生活特别是在数学领域是大量存在的。这不能不说是该原则的一个致命缺陷。

凯恩斯对无差别原则所加的不可分条件不仅失效于连续性场合,而且后面还将表明,这一条件对于离散性场合也不具有普遍性。因此,我们有必要探寻具有普遍性的关于无差别原则的限制条件。在笔者看来,这个限制条件就是:对象的无差别性是相对于试验机制而不是相对于自然本性的。正如在汽车颜色的例子中,当我们说红、黑、白是三种不可分的颜色并且在概率分布上是无差别时,那是相对于该汽车厂的生产机制而言的,而不是指颜色的自然本性是不可分的和无差别的。在凯恩斯对连续性场合的分析中,(1)、(2)、…(m)的不可分性和无差别性如果存在的话,那也只能是相对于某种试验机制而言的,而这并不否认各个区间的长度l在客观上是无限可分的。凯恩斯的不足在于没有看到或没有强调无差别原则对于试验机制的相对性,而孤立地强调不可分性,这样便是舍本求末了。当我们对无差别原则加上“相对于试验机制”这一限制条件时,那么孤立的不可分条件就可以去掉,从而使无差别原则同时适合于离散性场合和连续性场合。

“试验机制无差别原则”可以表述为:在离散性场合中,对于若干可能结果而言,如果某一试验在其机制上是无差别的,那么,该试验得出各个结果的概率是相等的。在连续性场合中,对于某一参数θ位于区间[a,b]各点上,如果某一试验在其机制上是无差别的,那么,θ在该区间有着均匀的概率分布。

“试验机制无差别原则”与古典无差别原则及其各种修正形式的区别在于:古典无差别原则并不要求考虑试验机制的无差别性,而只要求对所讨论的各个可能事件在认识上是无差别的。根据古典无差别原则,当人们对所讨论的各个事件完全无知时,也应对它们赋予相等的概率,因为人们对它们在认识上是无差别的。与古典无差别原则不同,“试验机制无差别原则”并不是简单地要求认识上的无差别,而是要求认识到试验机制是无差别的。如果人们对两个事件完全无知,那么,他们就不会认识到产生这两个事件的试验机制的无差别性,因此,根据“试验机制无差别原则”,不能由相等的无知得出相等的概率。

如果用“试验机制无差别原则”取代古典无差别原则,我们就可以避免无差别悖论。首先以“不对称硬币悖论”为例。导致这一悖论的原因是:从物理的层面看,那枚硬币的不对称结构使我们认为正面朝上和反面朝上的概率是不相等的;但从知识层面看,我们对这枚硬币的重心偏于正面或偏于反面处于完全无知的状态,这种相等的无知使我们赋予正面朝上和反面朝上以相等的概率。现根据“试验机制无差别原则”,我们只承认前一结论而不承认后一结论,因为只有前一结论是根据对试验机制的认识做出的。这样,逻辑悖论便不存在了。

其次以“书悖论”为例。导致“书悖论”的原因是:先将无差别原则用于“那本书是红的”和“那本书是非红的”这两个命题,从而赋予二者的概率均为1/2;然后又将无差别原则用于更多的命题,从而使“那本书是红的”概率小于1/2。现从“试验机制无差别原则”的观点看,在我们没有了解那家图书馆的购书和藏书机制之前,我们得不出任何结论,因而逻辑悖论不会产生。如果我们了解有关情况如那家图书馆在购书和藏书时并不限制颜色,那么我们可以肯定,把无差别原则仅仅用于红的和非红的是一种错误的做法,因为非红的不只包含一种颜色,所以不应把1/2的概率赋予那两个命题;这样悖论也不会产生。

三、贝叶斯疑难及其解决

贝叶斯那篇提出贝叶斯方法的著名文章是他死后由他的朋友普赖斯(R.Price)于1763年发表的。普赖斯在引言中谈到,贝叶斯对他的方法是存有疑虑的,以致他以某种特殊的方式处理它并在附注中加以说明。贝叶斯在那篇文章的附注中解释他的方法为什么可以用于以下情形,他所致力解释的东西也正是他的疑虑所在。

对于一个事件M,他所知道的一切就是它在n次试验中的每一次试验可能出现也可能不出现。他没有理由假定M在这n次试验中出现i次而不是j次(0≤i≠j≤n),于是,他对全部n+1个可能结果(即M出现的次数:0、1、…n)给予相等的概率,即:

P(M在n次试验中出现i次)=1/(n+1)

不难看出,贝叶斯在此应用了古典无差别原则,他的疑虑可以归结为对无差别原则的这种用法的担心。(参见Bayes & Price,p.134、143)

正如爱德华兹(A.W.F.Edwards)指出的,我们可以根据同样的理由将相等的概率赋予n次试验的每一种可能的序列;在两个不同序列中M出现的次数可以是相同的,只要M出现的次序不同。但是,这样应用无差别原则所得的结果将是不同的。(Edwards,p.118)这是又一个无差别悖论,让我们把这个悖论讲得更为细致一些。

为简单起见,只考虑两次试验的情况,即n=2,并把M出现的结果记为1,M不出现的结果记为 0。作为试验结果的可能序列有4个,即00、01、10、11。如果按照爱德华兹的方法使用无差别原则,那么,每个序列的概率为1/4,M出现1次的概率P(01或10)=1/4+1/4=1/2。不妨把这样决定的概率记为P。如果按照贝叶斯的方法使用无差别原则,那么,可能的结果不是4个而是3个,即M出现的次数为0、1和2;相应地,每一结果的概率为1/3。不妨把这样决定的概率记为P′。这样一来,M出现一次这一事件被赋予不同的概率即P(M出现一次)=1/2和P′(M出现一次)=1/3。

这个悖论是关于离散性场合的。我们先来看看凯恩斯的不可分条件对解决这一悖论是否有所帮助。显然,爱德华兹的概率P满足这一要求。相比之下,贝叶斯的概率P′似乎不满足这一要求,因为M出现一次这个事件可以进一步分为两个序列,即01和10。但是,后面的划分是按M出现的序列进行的,而前面的划分是按M出现的次数进行的,这两种划分不符合凯恩斯“按照同一方式划分”的要求。就同一划分方式而言,P′也是满足凯恩斯的不可分条件的,因此,P和P′都不能被排除。由此可见,即使对于这个离散性场合的悖论,凯恩斯的无差别原则也是无能为力的。退一步讲,就算凯恩斯的不可分条件可以在二者之中排除一个,那也只能是P′而不是P。但是,这样又会遇到新的问题。

贝叶斯选择P′而不选择P是有理由的。我们知道,贝叶斯方法的一个重要功能就是从经验学习,即根据证据来修正和确定假设的概率,从而从验前概率P(h)得到验后概率P(h/e)。然而,如果采取P则会失去这一功能。请考虑如下公式(贝叶斯公式的一种变形):

令e代表前n个试验的结果,h代表假设:M在第n+1次试验中出现。每次试验有两个可能结果即M出现和M不出现;相应地,前n次试验的可能结果有2[n]个,亦即2[n]个序列。还以n=2为例,全部4个序列是:00、01、10、11。如果选择P,即每个序列的概率均为1/4,这意味着,M出现和M不出现的概率是相等的,即P(M出现)=P(M不出现)=1/2,并且这n次试验是相互独立的。相应地,第n+1次同类试验也是独立的。那么根据概率的特殊合取规则,P(e∧h)=P(e)×P(h);再根据以上公式,P(h/e)=P(h)。这意味着,经验证据对假设的概率不产生任何影响。

与此不同,如果选择P′,序列01和10合并为一种结果即M出现一次,那么它同00和11均有1/3的概率。这意味着这n次试验不是彼此独立的,否则,无论P(M出现)是什么,都得不到这样的概率分配。具体地说,如果P(M出现)=P(M不出现)=1/2,那么,00和11的概率均为1/4而不是1/3;如果P(M出现)≠P(M不出现),那么,00和11的概率是不等的。可见,前n次试验不是相互独立的。既然如此,那么第n+1次同类试验也不是独立的,也就是说,它将受到前n次试验结果的影响,即P(h/e)≠P(h),从而满足从经验学习的要求。

现在,我们可以根据“试验机制无差别原则”来消除贝叶斯疑难,即由P和P′形成的无差别悖论:按照P方式应用无差别原则是相对于某种独立的重复试验而言的,而按照P′方式应用无差别原则是相对于某种非独立的重复试验而言的;试验机制一旦确定,P和P′不会被同时采纳;因此,P和P′并不构成逻辑矛盾。既然贝叶斯坚持从经验中学习的原则,那就意味着他选择了非独立的重复试验机制,因而他只应采纳P′而放弃P。

一个与贝叶斯疑难相关的科学史案例是玻色-爱因斯坦(Bose-Einstein)统计学在量子力学中对玻尔兹曼(Ludwig Boltzmann)统计学的取代。二者之间的根本区别在于后者采纳概率P而前者采纳概率P′,也就是说,它们是以不同的方式来应用无差别原则的。为简单起见,我们只考虑两个微粒a和b,看它们是否具有某种性质M,若有M记为1,若无M记为0,并且先写a后写b。于是,可能的观察结果不外乎四种,即00、01、10和11。玻尔兹曼统计学根据无差别原则赋予它们相等的概率即1/4,并且成功地用于气体分子理论。然而,这一理论对于量子力学是不适合的,因为两个量子(如光量子)是不可分辨的,这使得01和10不可分辨,从而使可能的观察结果由四个变为三个。玻色-爱因斯坦统计学正是将无差别原则用于这三个可能结果,赋予它们相等的概率即1/3,从而使之成功地用于量子理论。不过,这种统计学的转变并未让物理学家们感到逻辑上的困惑,因为他们对P和P′的选择是相对于不同的试验机制的:前者相对于可分辨的气体分子模型,后者相对于不可分辨的量子模型。这进一步表明,对古典无差别原则加以试验机制的限制条件,是消除无差别悖论的有效途径。

四、无差别原则的两种用法:假设性应用和结论性应用

我们在根据“试验机制无差别原则”消除悖论的过程中,不少情况下是采取“不作为”的态度,即在我们不了解试验机制的情况下不做断言。这样做虽然可以消除悖论,但显得有些保守。事实上,在许多场合人们首先根据古典无差别原则做出预测,然后再根据经验证据加以修正。这正是吉利斯(D.Gillise)所说的无差别原则作为启发原则的功能(参见Gillise,p.48),也是贝叶斯方法的诱人之处。鉴于这种情况,我们有必要区分无差别原则的两种用法,即假设性用法和结论性用法。

古典无差别原则适合于假设性用法,即作为一种启发原则。虽然由它难免得出相反的预测,但是,两个相反的假设性预测并不构成悖论,因为假设性命题A具有可能模态,对它的恰当表达应该是“可能A”,而“可能A”同“可能非A”甚至同“非A”并不构成逻辑矛盾。

相比之下,“试验机制无差别原则”适合于结论性用法,即作为一种逻辑原则或准逻辑原则。对它的使用包含如下演绎推论的过程:如果对于各个可能的试验结果,一个试验机制是无差别的,那么,各个试验结果有相等的概率;事实上,该试验机制是无差别的,所以相对于该试验机制,各个试验结果的概率是相等的。

正如演绎规则的逻辑特征是:如果前提是真的,那么,按此规则得出的结论也是真的。虽然它并不保证前提是真的,但一旦给出真前提,它就能保证相对于此前提的结论是真的。同样地,相对于给定的试验机制,由“试验机制无差别原则”不会得出逻辑矛盾。当然,人们有可能把试验机制弄错了,正如人们有可能把演绎推论的前提误以为真,但这都不妨碍由它得出必然性的结论。

总之,在我们区分了无差别原则的假设性用法和结论性用法以后,无论古典无差别原则还是“试验机制无差别原则”都不会导致逻辑矛盾。因此,在必要时我们仍然可以使用古典无差别原则,只要我们不忘记对它的预测加上“可能”,更不要忘记在随后的试验中检验或修正它的结论。这也就是说,如果把古典无差别原则作为启发原则,那么它与作为逻辑原则或准逻辑原则的“试验机制无差别原则”在实际应用中就是并行不悖的,甚至是相互补充的。

例如,对于一枚我们不知道偏向哪一面的不对称硬币,如果我们结论性地使用无差别原则,从而赋予正面朝上的结果以1/2的概率,那么这种做法是错误的,因为它会导致逻辑矛盾。但是,如果我们只是假设性地使用无差别原则,从而把“正面朝上的概率为1/2”作为一个可能模态命题,并使它随时准备接受经验的检验和修正,那么该命题并不与任何其它可能命题或实然命题构成逻辑矛盾,包括“正面朝上的概率不是1/2”这一实然命题。

贝叶斯方法只是在假设的意义上应用无差别原则。事实上,贝叶斯在前面提到的那篇文章的那个附注中表达出这种意思。他说:“因为在这一考虑中,我只可以对它进行这样的推理,好像它的概率在开始时并不确定,然后按以下方式被决定:对于一定数目的试验,我没有理由认为它将出现某一可能的次数而不是其他次数。”这种情况之所以出现,是因为“在这种场合中,对于有关那个事件的任何试验,事先我们对该事件的概率是一无所知的”。(Bayes & Price,p.143)

贝叶斯在此所持的态度体现了贝叶斯方法的基本特征。在许多情况下我们对试验机制一无所知,只能根据古典无差别原则对于彼此竞争的若干假设赋予相等的验前概率,然后根据证据加以修正,得出验后概率;这种修正过程可以不断地进行下去,以致使得各个竞争假设的概率,其主观猜测的成分越来越少,客观经验的成分越来越多。这一过程就是从经验学习的过程。

尽管如此,古典无差别原则的假设性用法代替不了“试验机制无差别原则”的结论性用法。因为假设性用法的结果是有待经验证据检验或修正的,本质上是经验性的。但是在人们的实际思维中既需要经验性的推理,也需要先验性的推理,如演绎推理。我们在前面已经提到,“试验机制无差别原则”具有某种先验性,即:如果我们能够确定某种试验机制对于各个可能结果是无差别的,那么,我们可以结论性地赋予各个可能结果以相等的概率,而无需等到试验完成之后。例如,对于一枚均匀硬币或均匀骰子,我们可以结论性地赋予各个可能结果以相等的概率。结论性地应用无差别原则虽然只是在某些理想场合才能进行,但却是不可或缺的,因为它是我们对概率理论以及归纳逻辑进行方法论分析的逻辑起点。这种情形在其它领域也有出现,如物理学的惯性原理虽然只有在某些理想场合才能实现,但却是全部物理理论的逻辑起点。在一定意义上可以说,惯性原理也体现了“试验机制无差别原则”的精神,即在物理机制无差别的情况下,物体的运动状态保持不变。

标签:;  ;  ;  ;  ;  

冷漠原则与贝叶斯困难_贝叶斯论文
下载Doc文档

猜你喜欢