从Monty#183；Hall问题看认知计算_三门问题论文

从蒙提#183;霍尔问题看认知计算，本文主要内容关键词为：霍尔论文,认知论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：B81 文献标识码：A 文章编号：1674-8425(2016)01-0005-07

所有的博弈和决策问题都要涉及认知计算，认知事件的描述和决策问题的表征是决策的关键环节。认知与计算的关系一直是认知领域争论的焦点。从逻辑的角度说就是“认知推理能否归结为计算”。认知科学中提出过“为了理解大脑的认知功能，必须了解这一系统的计算目标”的论题，但确定完整认识活动的计算框架和规模是不大可能的，尤其是在不确定决策中控制认知和决策的概率计算依赖于随机事件的认知描述，使得上述论题受到质疑[1]112。认知与计算之间的纠缠是形形色色的认知疑难和决策悖论的根源，因而，解析认知决策悖论，玩一玩思维的魔方，也成为认知决策研究中风景独异的一条进路。

一、蒙提·霍尔问题中的概率计算

蒙提·霍尔问题(Monty Hall problem)源自抽奖游戏。这个游戏的规则是：参赛者面对3扇关闭的门，其中一扇门的后面有汽车，选中后面有汽车的那扇门就可以赢得该汽车。而另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门，节目主持人会打开剩下两扇门中的一扇，露出其中一只山羊。主持人其后会问参赛者是否改变选择，即，是放弃原来选的门换成剩下的没打开的那扇门还是坚持原来的选择。计算和决策问题是：在一扇门被打开的条件下原来选的门和剩下的门后面有汽车的概率是多少？改变选择的期望效用值是否高于坚持原来选择的期望效用值？

主张改变选择的观点认为，换一扇门中奖几率为2/3，如果不换门中奖几率为1/3，因而选择换一扇门是合理的。其中，莎凡特的论证最有代表性。她解释说：“当你第一次从3扇门中选择1号门时，该门后有汽车的可能性为1/3，而另外两扇门后有奖的可能性为2/3。但此时，主持人出场，给你提供一条新线索。如果奖品在2号门后，主持人会开3号给你看，如果奖品在3号门后，他则会开2号门。因此，如果你选择换门，那么假如奖品在2号或3号门后你都将获胜。但如果你不换门，只有当奖品在1号门后时才能获胜。”在她看来，解决这个问题的关键是主持人，因为她认为主持人总是会挑后面没有奖品的门。这里的概率计算问题是，为什么“主持人提供的一条新线索”没有改变已选择那扇门中奖的概率，却更新了剩下那扇门的概率呢？改变论者给出了两种解释。一种说法：主持人打开了剩下两扇门中的一扇空门这件事并不能改变“参赛人选择的门中奖机会为1/3”这一概率设定，这一信息对概率没有影响；另一种说法：另外两扇门后有奖的可能性为2/3，如果其中一扇没有中奖，那么改选另一扇门的中奖机会为2/3。虽然这两种说法对于信息的作用语焉不详，但都使用了这样一个认知计算：

。那么，这一计算是否正确呢？

我们先来回顾古典概率模型中的一个命题——抽彩的顺序无关性：在一个等概抽彩中，一张彩票的中奖概率与抽取的先后顺序无关。例如，一个抽彩中只有3张彩票，其中仅有一张能中奖。3个抽奖者甲、乙、丙依次抽到编号为1、2、3的彩票，3人得奖的概率均为1/3。具体地说，甲第一个抽取时是从概率相等的3张彩票随机地抽一张，根据等概条件，他所抽到的1号彩票中奖概率为1/3；乙第二个抽取时是在剩下的两张中抽一张，他抽到的2号彩票中奖为1/3=((3-1)！/(3-2)！)/(3！/(3-2)！)=2！/3！。轮到丙抽取时，他只能“抽到”剩下的3号彩票，但这张彩票中奖的概率和前两张一样是1/3=((3-1)！/(3-3)！)/(3！/(3-3)！)=2！/3！。这一看似乏味的计算意在说明，等概性不受抽取顺序的影响，而且在一系列随机事件下等概性可以保持。假设3个人中乙是急性子，不等其他人揭晓就把刚抽到的彩票撕开了发现没中奖，此时已抽到1号彩票的甲得奖的概率变为1/2，还未来得及抽取的丙得奖的概率也是为1/2。为了说明这一计算，用A记“第i号中奖”，用B记“第j号没中奖”，i≠j，P(A)=1/3，B的概率P(B)=2/3，得知事件B发生后A的条件概率P(A｜B)=P(A∩B)/P(B)=1/3/2/3=1/2。上式中A∩B表示事件“第i号中奖并且第j号没中奖”，由A

。

莎凡特的论证中“打开剩下两扇门中的一扇是空门”与“参赛人选择的门中奖”的独立性并不是题设前提，莎凡特将这一待证结论当作前提，做了一个循环论证。

概率论学者提出了相反的意见。他们按照“无差别原则”和已知信息，设事件B“打开的门有山羊”的概率P(B)=2/3与事件A“参加者选择的门有汽车”的先验概率P(A)=1/3，以及事件A∩B“打开的门有山羊并且参加者选择的门有汽车”的先验概率P(A∩B)=1/3，然后计算可得：

这一计算得出的是朴素条件概率，其中只要事件B的概率P(B)≠0，那么条件概率P(A｜B)=P(A∩B)/P(B)就有定义。如果两个事件A与B是相互独立的，即等式P(A)P(B)=P(A∩B)成立，则P(A｜B)=P(A∩B)/P(B)=P(A)，表明事件B已发生的信息不改变事件A的初始概率，否则B已发生的信息会导致事件A的概率更新。在蒙提·霍尔问题中，这一计算预设事件B“打开的门有山羊”是随机的，它与事件

“打开一扇有山羊的门”不同，后者可能是主持人的认知行为。由P(A)P(B)≠P(A)可知事件A与B是相关的，因而得知事件B“打开的门有山羊”会改变事件A“参加者选择的门有汽车”的概率。这一条件概率之所以被称为“朴素的”，是因为忽略了主持人的认知行动特征，将其行动条件简单等同于随机事件“一扇门被打开其中有山羊”。

二、交互认知：我知道什么？别人知道什么？我如何知道别人知道什么？

从认知角度分析蒙提·霍尔问题，已经提出了诸如动态认知概率逻辑等方法，例如，Kooi认为这一问题的合理决策-改变选择是违反直觉的，最好的方法是证明反直觉的结论是正确的，那就需要某些形式化方法[2]313。不过，形式刻画游戏中各方的认知状态和变化依赖于认知条件的预设。为了解形式化方法能对这类认知疑难分析起什么作用，首先要具体地分析认知条件。

(一)两种认知条件预设

如前所述，蒙提·霍尔问题上认为不必改变选择的论证是以朴素条件概率计算为基础的，它将主持人的行动结果简单等同于一个随机事件“一扇门被打开其中有山羊”，其预设是主持人随机地打开剩下两扇门中的一扇；认为应该改变选择的论证预设的是主持人知道哪扇门中有汽车哪扇门中有山羊，主持人的行为不是随机的，而是有意“打开一扇有山羊的门”。不过，这两种认知预设都不在该游戏规则中，也不能从决策情境中推出。对于一个第一次玩游戏的局中人，当他选择一扇门后等待验证自己的好运气时看到蒙提·霍尔打开另一扇门发现其中有山羊，他会如何推断蒙提·霍尔的行为特征？在这样的情境下，参赛者可能考虑的绝不仅限于上面两种认知预设，他可能做出各种猜测。例如，“主持人喜欢在参赛者已选了有汽车的门时打开一扇有山羊的门”或“主持人只在参赛者选了有山羊的门时打开有山羊的另一扇门”，不同猜测下选择也截然不同。

(二)认知条件与计算模拟

在支持改变选择的论证中，论者强调主持人知道大奖在哪扇门中，并将这一认知条件作为概率推理的基础。Mueser和Granberg为主持人的认知和行为做了明确的限制，提出了完整的问题描述[2]312：

(1)参赛者在3扇门中选一扇。他不知道门后是什么。主持人知道每扇门后面有什么。

(2)主持人必须开启剩下两扇门中的一扇，并且必须给参赛者提供换门的机会。

主持人永远都会开启一扇有山羊的门。

a.如果参赛者挑选了一扇有山羊的门，主持人必须开启另一扇有山羊的门；

b.如果参赛者挑选了一扇有汽车的门，主持人随机开启另外两扇门中的一扇。

(3)参赛者会被问是坚持他的原来的选择，还是选择剩下的那一扇门。

在这一“完整的”问题描述中，将“主持人知道每扇门后面有什么”作为推算的前提条件，那么这个条件对于参赛者的决定会产生什么影响呢？它能否使支持改变选择的论证得到逻辑辩护？按照上面的限制条件(1)，参赛者知道“3个门后面有且仅有一个是汽车”，因而应用“无差别原则”对它们赋予相等的概率或信念度；这里并没有说明“主持人知道每扇门后面有什么”是参赛者与主持人之间的共同知识。另一方面，条件(2)要求“主持人永远都会开启一扇有山羊的门”，并不衍推“主持人知道每扇门后面有什么”，主持人的认知条件对前者是不必要的。条件(3)中主持人会问参赛者“是坚持他的原来的选择，还是选择剩下的那一扇门”，并没有增加主持人与参赛者的相互认知信息。

由上述分析可知，“主持人知道每扇门后面有什么”对于“打开一扇没有汽车的门”不是必要条件；另一方面，它也不是充分条件——知道以及应该不能衍推行为。比如说，主持人在轮到他打开一扇没有大奖的门时忘记了奖在哪扇门中，但是仍然打开了一扇门，结果其中没有大奖。这可不是意外，对于n扇门游戏，随机打开一扇其中没有大奖的可能性为(n-1)/n。为了避免确定认知条件的困难，可以将游戏的主持人换为自动机，自动机可以完成主持人在游戏中的所有任务，其规则为：

a.如果参赛者挑选了一扇有山羊的门，自动机必须开启另一扇有山羊的门；

b.如果参赛者挑选了一扇有汽车的门，自动机随机开启另外两扇门中的一扇。

用自动机代替主持人意在消除限制条件中认知概念带来的含混性，其直接后果是：剩下的哪扇门被打开不再是认知推理的结果，而是以参赛者的选择为前件的“如果，则”规则的运行。在以上述自动机为原型的计算机模拟实验中，参赛者不改变原有选择获奖的比例是1/3左右，改变选择获奖的比例是2/3左右[3]168。

(三)直觉悖论与自欺论证

有论者认为，蒙提·霍尔问题的支持改变选择的推理，以及计算机模拟的结果是反直觉悖论，那么论者所谓直觉是什么呢？直觉一词颇多歧义，人们所指出的反直觉之处也不尽相同。有一个反对莎凡特论证的游戏设置是这样的：游戏中有100扇门，它们之中只有一扇门后有汽车大奖，当参赛者选择1号门后，主持人打开了从2号到99号的所有的门，其中没有大奖，那么参赛者在已选的1号门与剩下的100号门之间该做何选择呢？按照莎凡特论证，1号门中奖概率仍然是1%，而100号门中奖概率变为99%，这可能吗？这一论证揭露了莎凡特论证中的两个反直觉之处。第一个是：游戏中参赛者最初的选项总是“不好的”，改变原来的选择才是合理的。第二个是：主持人的行动总是带来提高参赛者获得大奖概率的信息。倘若后者是主持人行动的意图，实施这一意图的行动应该是“主持人在参赛者已选了有山羊的门时打开另一扇有山羊的门，并且，在参赛者已选了有汽车的门时不打开其他的门”，这样，“主持人总是打开一扇有山羊的门”就不再是游戏的规则，参赛者和观众看到的应该是“主持人有时会打开一扇有山羊的门”让参赛者再做一次选择。但是，主持人有选择的行动是否是帮助参赛者获得大奖？正如哈尔澎所指出，主持人选择是否打开一扇有山羊的门可能出于相反的意图：“主持人喜欢在参赛者已选了有汽车的门时打开一扇有山羊的门”。因而，需要更仔细地考察主持人的行动规则才能避免陷入反直觉论证陷阱[4]217。

在这个游戏中，对参赛者选择的门、主持人打开的门，以及其他各扇门均做了相应的编码，这对于认知推理和概率计算是必要的。没有编码就没有认知，也就没有确定性和不确定性的区分。相对于两个序列的编码，认知确定性是指两个序列的编码间的确定匹配，认知不确定性是指两个序列的编码间的随机匹配。在上述编码下，当参赛者选择了i号门，主持人可以按照某一顺序打开一系列门，他随机地打开除i号门之外的第一扇门后没有大奖的概率是99%，随机地打开第二扇门门后没有大奖的概率是98/99……当他打开第98扇门，其后没有大奖的概率为2/3。此时，另外两扇门中有大奖的概率取决于他是如何打开这扇门的，换句话说，回到了原先的三门游戏。

由此可以看出，莎凡特论证中将复合事件“大奖在参赛者选定门之外的其他门中”的概率转移到“大奖在剩下的一扇门”这一事件上，无论是假设“主持人知道每扇门后面有什么”还是认为“主持人随机打开某些门”，其推理都是错误的。另一方面，当打开第98扇门时决策问题回到了蒙提·霍尔游戏，如前所说，这时改变选择在期望收益最大化的意义上是合理的。在蒙提·霍尔游戏中，参赛者最初的“选择”是随机的，在一扇门打开后坚持这一选择得到大奖的概率不会高于另一扇，改变选择的决策是在弱意义下——不比坚持原选择更差——是合理的，因为支持改变选择的计算仅仅在特定的问题情境(三门游戏)中才适用。

如果从莎凡特论证得出“改变原来的选择才是合理的”，那么这一论证是自我否定的。假设有一个参赛者做了这样的推理：1、2、3号门中奇数号门有两个，偶数号门只有一个，她有了一个先验信念：大奖在奇数号门中的可能性比在偶数号门中的可能性大，并且接受了莎凡特论证，她首先“选择”了2号门，然后看着蒙提·霍尔打开了3号门是空门。当蒙提·霍尔像往常一样等待她“改变选择”时，她对蒙提·霍尔说：“我当然会选剩下的，不过，那就是我最初的选择。”悖谬在于，接受莎凡特论证意味着“改变原来的选择才是合理的”成为先验信息，这使得参赛者可以“先选择一扇我不看好的门”。

莎凡特为了强化她的论证列出了两张表，第一张表将三门编号为1、2、3，列出了大奖汽车在1、2、3号门后面而参赛者选择1号门时可能的场合，第二张在同一编号下列出了参赛者最初选择1号门而后改变选择可能的场合，莎凡特将两张表中得到汽车大奖的场合占全部场合的比例分别称为“坚持原来选择(1号门)得大奖的概率”和“改变想法另外选择得到大奖的概率”。为明晰起见，列出修改过的对比表，见表1。

从表1看出，若将获得大奖的概率等同于有利场合所占比例，则初选1号门获得大奖的概率为1/3，争议点是如何认定主持人开门后应计入的场合与有利于获大奖的场合：莎凡特将坚持原有选择获奖的有利场合等同于初选1号门获得大奖的有利场合，而将第一行中主持人打开3号门或打开2号门算作一个有利场合，这实际上是假设主持人打开另外的哪扇门不影响参赛者的选择；而她计算参赛者改变选择获得大奖的概率却将主持人打开2号门(第二行)、打开3号门(第三行)算作两个有利场合。事实上，在参赛者改变选择的场合中，第一行主持人打开3号门或打开2号门对应于参赛者改选2号门或改选3号门，是两个不利的场合。在没有其他信息的条件下，参赛者不能分辨第一行主持人打开3号门与第二行主持人打开3号这两个场合，同样也不能分辨第一行主持人打开2号门与第三行主持人打开2号这两个场合。如果主持人是随机打开3号门或2号门并且其后有山羊，则坚持选择1号门获大奖的有利场合与不利场合之比为1∶1，改变选择获大奖的有利场合与不利场合之比亦为1∶1。换句话说，将表1中第一行分成两行计算有利场合与不利场合，就得到前述朴素条件概率。莎凡特关于坚持原有选择和改变选择获大奖有利场合的计算源于其循环论证，即预设“主持人打开2号门其后有山羊或打开3号门其后有山羊”独立于“参赛者最初选择的门后有汽车”这一事件。

莎凡特列表中门的编号实际是一种编码，在推理和决策分析中编码标识状态、行动、结果，理性决策者的认知与计算总是在一定编码下刻画和分析。但是，合理的认知计算不依赖于特定的编码。表1第一行“主持人打开3号或2号”是指主持人可以随机打开两扇门中一扇门，这一不确定性对应于主持人行动与两扇门的某种编码下的随机匹配，这就产生了一系列问题：参赛者关于各扇门的编码与主持人的编码一致吗？如果一致，参赛者如何知道主持人的行动选择是在该编码下是确定匹配还是随机匹配？如果一定编码是预先给定的，该编码下选择匹配就没有时间性，“最初选择”或“新的选择”仅仅是编码中的不同匹配序列。蒙提·霍尔问题引出的认知编码的两个问题，这里先指出第一个：参赛者“改变选择”是否归因于“改变想法”，即表示行动转变的编码序列是否对应于表示认知状态的编码序列的转换？

三、认知计算

蒙提·霍尔问题又称为“三门问题”，如果改变门和奖的数量，那么原来支持改变和支持不改变的论证会产生什么结论呢？以下构造一个变体——“六门问题”说明认知计算在这类问题中的作用。6扇门中，有2扇门门后有奖品，4扇门门后没有，游戏规则是：

(1)参赛者在6扇门中随机挑选1扇门。

(2)主持人开启剩下5扇门中的3扇，如果其中有2扇门门后有奖品，游戏结束。

(3)如果其中有1扇门门后有奖品，或其中3扇门都是空门，参赛者会被问是坚持他的原来的选择，还是选择剩下的2扇门中的任一扇门。

当打开的3扇门都是空门时，利用逆概率公式不难计算，参赛者已选的门有奖的概率是2/3，此时改选是以2/3中奖概率换取1/2的中奖概率和1/3概率换取中奖，其期望效用仍然是2/3。总之，改选不会增加期望效用值。

当打开的2扇门是空门时，参赛者已选的门是空门的概率是2/3，此时改选将得奖的概率是1/2；参赛者已选的门有奖的概率是1/3，此时改选将得奖的概率是0。此时，改变选择和不改变选择的期望值都是1/3。

在这两种情形下，主持人问参赛者是否改选后，可以再打开一扇门，使得3扇空门和1扇有奖门已打开，就回到了“三门问题”。可以看出，“六门问题”的决策除了增加一些随机事件的计算外，并没有改变问题的实质。可以证明，类似的“多门问题”都可以归结为“三门问题”。两种决策建议的论证中，莎凡特论证使用了启发式信息，素朴条件化论证只使用样本信息，这是该决策问题中认知和计算的两种类型。

上述两种决策都可以用包含状态集、初始状态、行动函数、转换函数的自动机表示。其中行动函数确定了局中人在相应博弈中的行动规则，转换函数是状态随着行动变化的描述。蒙提·霍尔游戏可以这样进行：输入是编号1，2，3中的任意一个，当自动机扫描到i，则状态转换到f(q，i)=a并转向编号j。后面每个阶段的博弈是重复上述行动和转换程序。不同的游戏规则用不同的自动机模拟，具体转换依赖于在奖品放置序列与门的选择、开启序列之间的编码匹配。计算机模拟蒙提·霍尔游戏展示了决策合理性的一种确证方式：如果概率计算在一种可行的计算下带来期望收益最大化，则概率计算是合理的。决策论中描述选择行为的模型是理性、认知和行动组成的三元组，其中合理性包括行动选择的合理性和认知合理性，即决策者具有完善的逻辑推理能力和计算能力，理性选择是局中人认知计算的结果。用计算机程序估计坚持选择A门和选择另一扇门的获胜概率分别是多少，体现决策合理性中计算的作用。根据这个游戏的计算机模拟结果的统计，那些选择换门的玩家获胜得奖的几率是没有选择换门者的两倍。需要指出，用计算机重复游戏中“好”策略的取胜频率并不代表该策略的概率计算和逻辑论证有效，至多表明其认知推理及计算在一定条件下是自我实现的。这里涉及与编码有关的第二个问题：如果随机自动模拟游戏局中人的认知行动，假定主持人知道上述编码匹配，那么，他的认知行动在何种意义上是确定的或随机的？是否有人完全知道变量序列｛xi｝与参数｛θi｝序列的编码匹配，同时又知道这种匹配是随机的？在另一些条件下(比如说多门蒙提·霍尔游戏中允许主持人或模拟其角色的自动机表现博弈论所说的遗忘或颤抖的手)，自我实现的预言就可能转为自我否定的预言。

蒙提·霍尔问题表明，期望效用最大化作为合理性准则在抽彩游戏及其计算机模拟中可能是“成功”的，但在具体问题情境中需要引入某些启发式信息，它们提供了认知推理的前提，而确定它们自身的可信性需要另外的认知前提，推理链条如此延伸会导致认知计算“爆炸”[5]224。在这一问题中，概率计算与推理论证相比要简单得多，反映出不确定决策的合理性准则与认知推理的逻辑标准的差异，这种差异在使用认知编码及其随机匹配分析计算和推理的关系时显现为不协调性，这启发我们做出这样的推测：关于随机性的知识是不可证的。

引用格式：谷飙.从蒙提·霍尔问题看认知计算[J].重庆理工大学学报(社会科学)，2016(1)：5-11.

Citation format:GU Biao.Cognition and Computation in Monte Hall Problem[J].Journal of Chongqing University of Technology(Social Science),2016(1):5-11.

标签：三门问题论文; 概率计算论文;

从Monty#183；Hall问题看认知计算_三门问题论文

猜你喜欢