从纽科姆难题看决策理论的两个原则,本文主要内容关键词为:难题论文,原则论文,两个论文,理论论文,纽科姆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:B815 文献标识码:A 文章编号:1007-8444(2012)05-0613-05
一、纽科姆难题
物理学家威廉·纽科姆(W.Newcomb)在考虑囚徒困境问题的过程中,首先构造出纽科姆难题。罗伯特·诺齐克(R.Nozick)了解到这个难题后,于1969年撰写了一篇著名的论文《纽科姆难题和决策的两个原则》[1],标志着纽科姆难题的正式提出。
纽科姆难题体现了作为决策论中最重要且最基本的两个原则,也就是最大化效用原则与占优原则之间的冲突。诺齐克在《理性的性质》一书中谈到纽科姆疑难研究之意义时写道:“经济学家和统计学家已经发展出一种有关合理决策的精心制作的理论,并将其广泛运用到理论与政策研究之中。这是一种具有数学严格性的,既强有力而又容易掌握的理论。虽然它作为实际行为的描述之充分性已受到广泛质疑,它仍然是有关合理决策所应满足条件之研究中居于支配地位的标准理论。我认为,这种标准决策理论需扩充到与行为的符号意义及其他有关因素的明晰思考相结合,而关于当前标准理论之不充分性认识的一个有益入口,是由纽科姆问题提供的。”[2]
在学界,纽科姆难题因此引起了广泛的关注。纽科姆难题有很多版本,以下采自诺齐克最原始的表述:
假定一个拥有超能力的生物,他能够预测你的选择(或者你也可以把它想象成一个科幻故事,一个外星来的生物,拥有先进的科学技术,同时也是非常友好的,等等)。你知道这个生物过去常常能正确地预测出你的选择(并且,至少到目前为止,对你的选择没有作过错误的预测)。此外,你知道这个生物经常正确地预测到其他人的选择,而且其中很多人都处于与你类似的情形中。当然,你可以发挥想象力,把故事讲得更长,但要点是:所有的描述都是让你相信这个生物对你的选择的预测都是正确的。
现在有两个盒子放在你面前:盒子,里面有1 000美元;盒子,里面现在是空的。你面临两个选择:或者只拿走,或者同时拿走两只盒子。然而对超级生物而言,(1)如果你只拿走,为了奖励你,他就放100万美元的奖金到盒子里面;(2)如果你贪心,拿走两只盒子,他就不往里面放钱。以上所有的决策信息你是知道的,并且超级生物也知道你是知道的,于是超级生物作出了预测,然后根据预测决定往里面放钱还是不放钱。同时你也知道这个超级生物知道你是知道的,而且盒子里面或者是空的或者有100万美元,现在请你决定:哪一个行动更为合理:拿走一只盒子,还是两只盒子?
在纽科姆难题的决策情形中,决策者必须在两个可能的行动中作出决定,有两种可能的世界状态,用t来表示时间,数字越大,表示时间越晚,数字相同,表示时间一样。据此,诺齐克给出了两个相反的但同样是合理的论证。两个不同的原则建议也不同,最大化条件效用的原则建议拿走一只盒子,也就是盒子B2,强占优原则建议拿走两只盒子。
(一)根据最大化条件效用原则得出“一盒论”的论证。
前提4:如果我拿走两只盒子而不是一只,那么在任何情况下,我都能多得1 000美元
结论:因此我应当拿走两只盒子。
假定对决策者而言,1 000美元的效用比0美元的效用高,1 001 000的效用比1 000 000的效用高,拿走两只的盒子行动明显优于拿走一只盒子,所以占优策略推荐拿走两只盒子。
这两个论证,在同一决策情形中,给出了完全相反的建议。诺齐克认为这体现了合理决策行动中两个决策原则之间的冲突,也就是期望效用最大化原则和占优原则之间的冲突。
二、期望效用最大化原则与占优原则
博弈论及一般决策理论的研究方法一般有两种:标准化研究方法和描述性研究方法。标准化方法,是探讨理想的理性主体的行为,目的是给出关于人们应当如何行动才是理性的描述。这种标准化研究方法的代表人物有杰弗里(Jeffery)、莱法(Raiffa)、斯基姆斯(skyrms)。标准化研究进路,是传统的研究途径。
对置信度的限制是要求置信度满足数学概率计算的公理,也就是克洛莫诺夫公理①。这是一个融贯性要求,一旦违反就会使决策者产生不融贯的置信度,处于大弃赌情境中。
根据置信度,可以把决策分为三类:(1)如果决策者给可能行动赋予0或者1的置信概率,那么决策者面对的是确定性决策;(2)如果决策者赋予可能行动0<X<1的概率,那么决策者面对的是风险决策;(3)如果决策者不知道如何给可能行动赋予概率,那么他面对的是不确定情况下的决策。
确定性决策中,行动方案是有限的,每个行动方案都有一个确定的结果,决策者需要做的是对各个行动方案的结果进行比较,因此,“确定性决策的合理性原则是效用最大化原则,即选择那个能使决策者获得最大效用的行动方案”[3]223。
风险型决策和不确定型决策的共同点是,备选的行动方案中,至少有一个方案的可能结果不止一个,从而使得哪一个方案具有最大效用也是不确定的。在这种情况下,就需要使用占优策略原则。
在风险型决策中,决策者虽然不知道哪种结果一定出现,但是可以知道每种结果出现的概率。而在不确定型决策问题中,没有客观概率可以依据,因此“这是一个困难大、争议多的问题,也是主观贝叶斯派着重研究的问题”[3]224。
下面是决策理论中常用的两个原则:
(一)效用最大化原则。
艾尔斯认为,如果决策者相信在预言和可能行动之间有很强的联系,决策者就应该相信预言者的成功背后有一个因果的解释;如果预言并没有带来可能行动,他认为预言成功背后唯一的解释就是预言和可能行动之间具有共同原因。
给定关于纽科姆难题的情境分析,艾尔斯试图显示决策者的信念会带来选择两个盒子的解决方案。通过对条件效用的计算就可以得出拿走2只盒子的解决方案。
刘易斯批评说:“艾尔斯的理论只能应用于理想的合理决策者。”[6]他认为,如果理性包含艾尔斯所宣称的自我知识,就有决策者在作出决策之前就知道他们会怎么做了。此外,还有自我意识的决策者,他们的决定会带来比思想实验更多的自我知识。刘易斯问道:为什么我们不问对部分理性决策者而言,什么决策是理性的,他们的部分理性决策方法是否会帮助他们找出理性的可能行动?此外,在纽科姆难题中,艾尔斯的理论对部分理性决策者而言,并没有给出正确的答案。
普莱斯(H.Price)则指出,艾尔斯的辩护是自指的。“艾尔斯的理想理性决策者不仅要知道他的相关信念是什么,目标是什么,也要知道这些信念和目标是否能引导他选择两个盒子。”[7]普莱斯继续指出,在艾尔斯的辩护中,还要回应更为严重的问题。对普莱斯而言,在纽科姆难题中,假定一个和决定拿走两只盒子相关的普遍原因比假定一个和事实上拿走两只盒子的相关的普遍原因更为自然。
吉伯德和哈珀指出,有两种预期效用、两种独立性和两种占优原则。一种预期效用是根据反事实(countfactuals)概率(吉伯德和哈珀所理解的“反事实”并不要求它的前提一定是假的)而计算出来的预期效用,他们称之为U效用;另一种预期效用是根据条件概率计算出来的预期效用,称之为V效用。两种独立性是因果独立性和随机独立性,两种占优原则是有因果独立性的占优原则和有随机独立性的占优原则。
吉伯德和哈珀说:“如果合理性要求U最大化,则有因果独立的占优原则适合,如果合理性要求V最大化,则有随机独立的占优原则适合。”[8]根据他们的分析和计算结果,“一盒选择”的V效用大于“两盒选择”的V效用,而“两盒选择”的U效用大于“一盒选择”的U效用。这与诺齐克的观点是完全不同的。诺齐克认为,纽科姆难题体现了预期效用最大化原则和占优原则之间的冲突,而在吉伯德和哈珀看来,问题在于两种预期效用最大化之间的冲突。
因而会给这样的虚拟条件赋予置信度。此时,决策者用效用计算他的可能收益,于是,一个可能行动的U效用可以用下面的方式来计算:
对于吉伯德和哈珀的反事实条件理论,其问题在于假如反事实条件的前件是假的,也就是说,决策者可能相信形如的反事实条件可能实施,也可能不实施,这种情况下该怎么办?吉伯德和哈珀的回答是诉诸直觉,这显然不是一个令人满意的答案。
注释:
①也就是:(1)非否定公理:事件A的概率高于或者等于0;(2)标准化公理:事件A和事件非A的合取概率为1;(3)限定添加公理:如果两个事件A和B的析取不为空,那么P(AB)=P(A)+P(B)。