逻辑选择及其在重复囚徒困境博弈中的应用_囚徒困境论文

论重复囚徒困境博弈中的逻辑选择及其应用，本文主要内容关键词为：囚徒论文,及其应用论文,困境论文,逻辑论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：B81 文献标识码：A 文章编号：1673-7059-(2014)12-0019-07

重复博弈指同样结构的博弈重复若干次，其中的每次博弈称为“阶段博弈”，它是一种特殊的动态博弈。根据博弈重复的次数是否有限，重复博弈可分为有限次重复博弈与无限次重复博弈。由于任一参与人在重复博弈中都能观测到其他参与人过去的行动历史，因此所有参与人每个阶段的选择策略都依赖于其他参与人过去的行为。下面我们以“囚徒困境”(Prisoners Dilemma)为例对重复博弈进行探讨，说明在重复博弈条件下合作产生的可能性，并分析其在实践中的应用。

囚徒困境最早是由美国数学家艾伯特·培克(Albert tucker)于1950年提出来的。其内容如下：两个嫌疑犯共同盗窃作案后被警察逮捕，分别被关在不同的屋子里审讯。警察告诉他们：如果两个人都坦白，那么每人判刑4年；如果两个人都抵赖，每人各判刑1年(因为证据不足)；如果其中一人坦白，另一人抵赖的话，坦白的人当场释放，抵赖的人判刑6年。[1]5警察的这种做法实际上也符合我国法律规定的“坦白从宽，抗拒从严，疑罪从无”的原则。这里每个囚徒都有两种战略：坦白或抵赖，但其中任何一人在选择策略时都不可能知道另一人的选择是什么。图表中的数字表示对应的战略组合下两个囚徒的支付。其中矩阵中第一个数字代表决策结果后囚徒甲的得益，第二个数字代表决策结果后囚徒乙的得益。下面我们分别讨论俩囚徒在有限次与无限次重复博弈中如何选择？

一、有限次重复囚徒困境博弈中的逻辑选择

有限次重复博弈指阶段数是有限的，在决策行动时一般使用逆向归纳法，即从重复博弈的最后一个回合开始往前推理从而决定每一步的选择。我们假定：a.每个参与者(即“囚徒”)都知道“博弈的规则”和“博弈结果”的支付矩阵；b.每个参与者具有两种类型：理性的和非理性的①，并且博弈双方均不知道对方是不是理性的；c.不存在干涉个人决策的任何因素，即参与者可完全按照自己意愿自由地选择策略。在此博弈中可能存在的情况有三种：双方都是非理性的；双方都是理性的；一方为非理性的，另一方为理性的。

(一)参与双方均为非理性人

根据本论文对“非理性人”的定义，非理性人非常注重“讲义气重信誉，有强烈的合作意愿，而不顾及自身的利益”，所以，当参与双方都是非理性人时，他们都会一直合作，都会选择“抵赖”。因此该博弈均衡是(抵赖，抵赖)。

(二)参与双方均为理性人

假定用T表示该博弈重复的阶段数，我们可根据逆向归纳法来分析。先分析t=T阶段两博弈方的选择，由于此时所有阶段博弈的结果已成为既定事实，而在此阶段之后又不再有任何的后续阶段，因此实现自身在本阶段中的最大利益是两个参与人在该阶段博弈中决策的惟一原则，所以，无论此前所有阶段博弈的结果如何，理性的双方参与人都只会选择使自己得益最大化的行动。

由于隔绝监禁，信息不明，二人并不知道对方的选择。每个理性的囚徒都作这样的推理：

如果对方坦白，我抵赖的结果是判刑6年，坦白的结果是判刑4年；坦白的结果比抵赖好，那么，我应当选择坦白。

如果对方抵赖，我也抵赖的结果将是判刑1年，坦白的结果是当场释放，坦白的结果比抵赖好，那么，我应当选择坦白。

对方或者选择“坦白”，或者选择“抵赖”。

总之，我选择“坦白”是最好的策略。

此推理过程是演绎推理中二难推理的简单构成式。显而易见，这个博弈的纳什均衡是(坦白，坦白)，且是唯一的纳什均衡点。故第T阶段的惟一结果必定是(坦白，坦白)。

我们再看t=T-1阶段，由于这两个理性参与人都非常清楚后一阶段将会出现的结果，因此他们在第T—1阶段也会作与第T阶段一样的逻辑选择，故第T—1阶段博弈的结果还是(坦白，坦白)……依次类推，直到第一阶段，双方也是都采取坦白的行动。所以，对于双方都是理性的个人来说，在有限次重复博弈中，博弈的均衡是(坦白，坦白)。[2]69

(三)一方为非理性人，另一方为理性人

设想理性的囚徒可以选择任意的策略，而非理性的囚徒只有一种策略：“冷酷战略”②。我们假设囚徒甲为理性人、非理性人的概率分别为1-p、p；囚徒乙为理性人、非理性人的概率分别为1-q、q；用T表示重复博弈的阶段数。

1.我们首先讨论博弈重复两次(即T=2)的情况。

由于第二阶段是最终阶段，在此阶段之后不再有任何后续阶段，实现自身在本阶段中的最大支付是理性参与人在该阶段博弈中决策的惟一原则，所以，无论第一阶段的博弈结果如何，理性的参与人都会选择使自己支付最大化的行动，即：理性的囚徒会选择坦白。而对于非理性的囚徒来说，根据“冷酷战略”，在第一阶段他会选择抵赖，而第二阶段所采取的策略以对方第一阶段的策略为自己现阶段的策略，故理性囚徒在t=1阶段的选择将是另一非理性囚徒在t=2阶段的选择，如下表所示。我们分析理性囚徒第一阶段的选择(X或Y)如何影响非理性囚徒第二阶段的选择。

该博弈中的X、Y可分别表示“坦白”或“抵赖”，因此有四种情况：

(1)如果X表示“抵赖”，Y表示“抵赖”，则理性囚徒甲的期望支付：(-1)×q+q×0+(1-q)×(-1)+(1-q)×(-4)=4q-5；而理性囚徒乙的期望支付：(-1)×p+p×0+(1-p)×(-1)+(1-p)×(-4)=4p-5。

(2)如果X表示“坦白”，Y表示“坦白”，则理性囚徒甲的期望支付：q×0+q ×(-4)+(1-q)×(-4)+(1-q)×(-4)=4q-8；理性囚徒乙的期望支付：p×0+p×(-4)+(1-p)×(-4)+(1-p)×(-4)=4p-8。

(3)如果X表示“坦白”，Y表示“抵赖”，则理性囚徒甲的期望支付：q×0+q×(-4)+(1-q)×0+(1-q)×(-4)=-4；理性囚徒乙的期望支付：[p×(-1)+p×0+(1-p)×(-6)+(1-p)×(-4)]=9p-10。

(4)如果X表示“抵赖”，Y表示“坦白”，则理性囚徒甲的期望支付：q×(-1)+q×0+(1-q)×(-6)+(1-q)×(-4)=9q-10；理性囚徒乙的期望支付：p×0+p×(-4)+(1-p)×0+(1-p)×(-4)=-4。

所以囚徒甲和囚徒乙对应于X，Y的选择期望支付矩阵为：

4q-8≥9q-10

q≤2/5

-4≥4q-5

q≤1/4当q≤1/4时，X=坦白

当q≥2/5时，X=抵赖

同理：4p-8≥9p-10

p≤2/5

-4≥4p-5

p≤1/4

当p≤1/4时，Y=坦白

当p≥2/5时，Y=抵赖

由此可见，如果理性囚徒甲认为囚徒乙在第二阶段属于非理性的概率不大于1/4，他将在第一阶段选择坦白，如果不小于2/5，则选择抵赖。同样，如果理性囚徒乙认为囚徒甲在第二阶段属于非理性的概率不大于1/4，他将在第一阶段选择坦白，如果不小于2/5，则选择抵赖。但是，如果甲或乙属于非理性的概率介于1/4与2/5之间，则理性乙或甲又该如何选择？[3]

由于甲和乙都不会向对方透露自己是属于理性还是非理性，因而甲、乙都不能确定对方属于哪一类型。假设理性囚徒选择坦白的概率为a，则选择抵赖的概率为1-a，当理性囚徒一方认为对方属于非理性的概率p或q大于或等于a时，他将在第一阶段选择抵赖。若满足：

a×(4q-8)+(1-a)×(-4)≥a×(9q-10)+(1-a)×(4q-5)则q≤(a+1)/(4+a)

或者，a×(4p-8)+(1-a)×(-4)≥a×(9p-10)+(1-a)×(4p-5)则p≤(a+1)/(4+a)

令a=(a+1)/(4+a)

所以，当理性囚徒认为对方属于非理性的概率

时，他将在第一阶段选择抵赖，在第二阶段选择坦白。[2]69-70

2.我们再来看看T=3，即博弈重复三次的情况。

由于第三阶段是最终阶段，在此阶段之后又不再有任何的后续阶段，无论第一、二阶段双方是合作还是不合作，理性的囚徒肯定会在第三阶段选择坦白。而非理性的囚徒仍然以对方前一阶段的策略为自己现阶段的策略。就理性的囚徒甲和乙而言，第一阶段有合作的可能(双方都选“抵赖”)，也有不合作的可能(其中一方或双方选择“坦白”)。

(1)当理性囚徒甲、乙在第一阶段合作，即都选择抵赖，可能会出现如下情况：

a.理性囚徒甲、乙在第二阶段都选择抵赖。博弈路径如下图所示：

理性囚徒甲的期望支付：(-1)×q+(-1)×q+q×0+(1-q)×(-1)+(1-q)×(-1)+(1-q)×(-4)=4q-6；理性囚徒乙的期望支付：(-1)×p+(-1)×p+p×0+(1-p)×(-1)+(1-p)×(-1)+(1-p)×(-4)=4p-6

b.理性囚徒甲在第二阶段选择坦白，而理性囚徒乙在第二阶段选择抵赖。

理性囚徒甲的期望支付：(-1)×q+q×0+(-4)×q+(1-q)×(-1)+(1-q)×0+(1-q)×(-4)=-5；理性囚徒乙的期望支付：(-1)×p+p×(-1)+0×p+(1-p)×(-1)+(1-p)×(-6)+(1-p)×(-4)=9p-11

c.理性囚徒乙在第二阶段选择坦白，而理性囚徒甲在第二阶段选择抵赖。

理性囚徒甲的期望支付：(-1)×q+q×(-1)+0×q+(1-q)×(-1)+(1-q)×(-6)+(1-q)×(-4)=9q-11；理性囚徒乙的期望支付：(-1)×p+p×0+(-4)×p+(1-p)×(-1)+(1-p)×0+(1-p)×(-4)=-5

d.理性囚徒甲、乙在第二阶段都选择坦白。

理性囚徒甲的期望支付：(-1)×q+0×q+q×(-4)+(1-q)×(-1)+(1-q)×(-4)+(1-q)×(-4)=4q-9；理性囚徒乙的期望支付：(-1)×p+0×p+p×(-4)+(1-p)×(-1)+(1-p)×(-4)+(1-p)×(-4)=4p-9

由于0＜q＜1，故4q-6＞4q-9，当9q-11＞-5，即q＞2/3时，理性囚徒甲选择(抵赖，抵赖，坦白)优于(抵赖，坦白，坦白)。同样，由于0＜p＜1，故4p-6＞4p-9，当9p-11＞-5，即p＞2/3时，理性囚徒乙选择(抵赖，抵赖，坦白)优于(抵赖，坦白，坦白)。

(2)如果甲乙在第一阶段就不合作，即其中一方或双方在第一阶段选择坦白，则结果如下：

a.理性囚徒甲在第一阶段选择“抵赖”，理性囚徒乙在第一阶段选择“坦白”，非理性囚徒甲在后面阶段都选择“坦白”，可能有的博弈路径为：

理性囚徒甲的期望支付：q×(-1)+q×(-1)+q×0+(1-q)×(-6)+(1-q)×(-6)+(1-q)×(-4)=14q-16；理性囚徒乙的期望支付：p×0+p×(-4)+p×(-4)+(1-p)×0+(1-p)×0+(1-p)×(-4)=-4p-4

b.理性囚徒甲在第一阶段选择“坦白”，理性囚徒乙也在第一阶段选择“坦白”，非理性囚徒甲、乙在后面阶段都选择“坦白”，可能有的博弈路径为：

理性囚徒甲期望支付：q×0+q×(-4)+q×(-4)+(1-q)×(-4)+(1-q)×(-4)+(1-q)×(-4)=4q-12；理性囚徒乙期望支付：p×0+p×(-4)+p×(-4)+(1-p)×(-4)+(1-p)×(-4)+(1-p)×(-4)=4p-12

c.理性囚徒甲在第一阶段选择“坦白”，而理性囚徒乙在第一阶段选择“抵赖”，非理性囚徒乙在后面阶段都选择“坦白”，可能有的博弈路径为：

理性囚徒甲的期望支付：q×0+q×(-4)+q×(-4)+(1-q)×0+(1-q)×0+(1-q)×(-4)=-4q-4；理性囚徒乙的期望支付：p×(-1)+p×(-1)+p×0+(1-p)×(-6)+(1-p)×(-6)+(1-p)×(-4)=14p-16

由于0＜q＜1，故-4q-4＜0，我们只需比较14q-16与4q-12的大小即可。当14q-16＞4q-12，即q＞2/5时，理性囚徒甲选择(抵赖，抵赖，坦白)优于(坦白，坦白，坦白)。

同样，由于0＜p＜1，故-4p-4＜0，我们只需比较14p-16与4p-12的大小即可。当14p-16＞4p-12，即p＞2/5时，理性囚徒乙选择(抵赖，抵赖，坦白)优于(坦白，坦白，坦白)。[4]20

因此，在博弈重复三次中，当q＞2/5，p＞2/5时，理性囚徒甲的最佳选择是(抵赖，抵赖，坦白)，理性囚徒乙的最佳选择也是(抵赖，抵赖，坦白)。

3.当T=4，即博弈重复4次时：

类似于前面的分析，我们同样可以得出：当p，q≥2/5时，在T=1，2，3阶段，对于理性者来说，选择抵赖获得的收益最大，但在T=4阶段，由于此阶段是最终阶段，在此阶段之后又不再有任何的后续阶段，因此理性的囚徒会选择坦白，而非理性囚徒将一直选择抵赖。[1]70所以，当p，q≥2/5时，重复4次的博弈的均衡为：

4.当博弈重复n(T=n)次时：

由前面的分析可以看出，当p，q≥2/5，T＞3时，对于理性的囚徒来说，在T=1到n-1阶段选择抵赖，其期望支付值最大，而在T=n阶段时，由于此阶段是最终阶段，在此阶段之后又不再有任何的后续阶段，因此理性的囚徒会选择坦白，而非理性囚徒将自始至终选择抵赖。[4]20

由此可得，当博弈重复n(T=n)次时，只要甲或乙为非理性的概率p，q≥2/5，理性囚徒在t=1至t=T-1阶段都会一直选择抵赖，但在最后阶段选择坦白，而非理性囚徒将一直选择抵赖。

二、无限次重复囚徒困境博弈中的逻辑选择

无限次重复博弈指同一个博弈被无限期重复多次。在无限次重复博弈中，对于任何一个参与者的欺骗和违约行为，其他参与者总会有机会给予报复。它与有限次重复博弈的区别是：有限次重复博弈中，所有参与人都能准确地知道重复的次数，能准确地预测到最后一个阶段的博弈结果：任何一个理性参与人都会选择“不合作”，并且这种选择不会导致其他参与人的报复。因此，所有参与人都会在有限次重复博弈的最后阶段中选择“不合作”。[4]19而无限次重复博弈由于不存在最终阶段，所以不能像有限次重复博弈那样可以运用逆向归纳法求解。正是因为在无限次重复博弈中，没有哪一次博弈一定是最后的回合，总是存在报复的机会，所以参与人总是要考虑到其目前的行动对其余参与人所可能产生的影响，这种考虑使得每一个参与者都不会采取违约或欺骗的行为，无限次重复博弈中的参与人比有限重复博弈中的参与人更加合作。

假定甲乙俩囚徒开始都选择“抵赖”，随后一直抵赖，直到某天发现对方选择“坦白”，然后就永远选择“坦白”。我们设想甲乙从开始一直到t时刻之前都合作，即都选择“抵赖”，甲在t时该如何选择？

假定贴现因子为a，如果乙坚持“抵赖”，甲选择“抵赖”，那么甲在随后每个阶段的支付都是-1，这时维持长期合作的贴现值是：

=-1+a ×(-1)+

×(-1)+…如果甲选择“坦白”，则甲虽然在该阶段骗乙一次，得到0，即此时背叛的诱惑=0-(-1)=1，但从下个阶段开始，由于乙发现甲骗了他，乙会选择永远不再与甲合作，即永远选择“坦白”，也就是说，甲的这次背叛会遭到囚徒乙的永远惩罚，即甲在随后每个阶段的支付都是-4，这时的贴现值是

=0+a×(-4)+

×(-4)+…。

也就是说，如果a≥1/4，乙坚持“抵赖”的话，则甲的最佳选择是一直坚持与乙合作，即也一直选择“抵赖”；如果a＜1/4，则甲有可能会不合作，即选择“坦白”。只要a≥1/4，每个阶段的甲乙双方都会采用“抵赖”进行合作。如要甲乙不合作，就要设法改变贴现因子a的值。

三、重复囚徒困境博弈的应用

囚徒困境在现实社会中广泛存在，下面我们着重分析李天一轮奸案和公交车博弈。

(一)李天一轮奸案

2013年2月17日李天一等5人在海淀一酒吧与李姓女子喝酒，其后李天一等5人将其带至宾馆轮奸。20日警方将李天一等5人全部刑拘。

在这个案例中，只有王某已年满18周岁，其余4人都未满18周岁，包括李天一。北京市海淀区法院在一审中，以强奸罪判处被告王某(成年人)有期徒刑12年，剥夺政治权利2年；李天一有期徒刑十年；魏某(兄)有期徒刑4年；张某有期徒刑3年，缓刑5年；魏某(弟)有期徒刑3年，缓刑3年。北京市第一中级人民法院二审裁定驳回上诉人上诉，维持原判。李天一与魏某(兄)、张某、魏某(弟)都是未成年人，为何李某被判了10年，而其他三位只有3年-4年？

北京警方采取类似前面“囚徒困境”中警察的做法，对李天一等五名嫌犯进行分别关押，单独审讯。根据前面的分析，李天一等5人的最佳应对策略，就是保持一致立场，即“抵赖”。如果警方找不到足够证据，根据“疑罪从无”的法律规定，5人有可能无罪释放。但该博弈是有限次博弈，博弈主体很难达成攻守同盟。尽管李天一一直采取“非理性人”的策略，即一直选择“抵赖”，坚持自己无罪。如一审时，李称自己在酒店房间玩手机睡着了，二审时又改口解释案发时出去接母亲梦鸽电话，没有参与强奸。甚至在3名同案犯已认罪并指证李天一打人的不利情况下，李天一仍坚持既没打过受害人，也没与受害人发生性关系。而其他犯罪嫌疑人则采取“理性人”的策略，不仅承认有罪，还主动向受害人赔礼道歉，支付赔偿金。因此，尽管李天一与魏某(兄)、张某某、魏某(弟)都是未成年人，由于魏某(兄)、张某、魏某(弟)采用“坦白”的策略，获得的利益最大，结果只判3年-4年；而李天一一直采取“抵赖”的策略，特别是梦鸽护犊心切，非要洗脱李天一的轮奸罪名，又无法搞定其他四名同案犯，不仅得不到法官的同情，也引起了广大公众和媒体的关注和反感，所以最终结果是李天一的判决结果最重。

(二)公交车博弈

我们都有过这样的经历，在等公交车时，为了能坐上座位，很多人采取抢先上车，因此常常出现一拥而上的局面。出现这种混乱局面的主要原因是人们都认为：我不挤，而别人挤的话，我就有可能没有座位，甚至会坐不上车。这是一个典型的囚徒困境，我们都想尽早上车，结果是大家都挤车不仅浪费了很多时间，而且造成很大的拥挤成本(包括不良的社会影响)。我们假设有两个博弈方：甲和乙，两者都有挤和不挤两种策略，我们将上述情景转化为博弈模型可以表示如下。

表中的数字是这样设计的：在双方都不挤的情况下，双方的收益为1，即双方都能有效率、先来后到地上车；当有一方选择不挤时，另一方选择拥挤可获得全部收益，不仅坐上车，而且节约了时间，得益为2，不挤的一方面临排队的不公平和上不了车的风险，因而得益为0，或者接近0；当双方都挤的情况下，虽然双方都可以上车，但有一定的拥挤成本，有时还很大，得益假设为0.5。

根据纳什均衡的分析，该博弈存在纯策略纳什均衡，即“挤，挤”，博弈双方陷入囚徒困境中。产生囚徒困境的原因首先是公交车有限而等车的人很多，双方理性的选择便是挤车。虽然很多人愿意排队，但在这样的得益情况下，制度使得人们不得不去挤车。那么我们是否可以通过改变搭公车制度来改变博弈双方的收益，进而摆脱囚徒困境呢？该博弈中博弈规则的制定者，即服务提供方是公交公司，公交公司可以制定一定的制度或规则改变博弈方的得益情况，如图：

表中的数字是这样设计出来的：如果双方都挤车，公交车司机不开门，谁也上不去，使得双方的得益都为零；如果双方都不挤，都有秩序且先来后到地上车，双方获得的收益为1；若一方挤，另一方不挤，挤的一方会受到人们的鄙视，虽然其仍有可能上车，但其收益为-1。通过这样的改变，纳什均衡已经发生了变化，大家都选择了(不挤，不挤)，这就解决了囚徒困境的问题。

从公交车博弈的实例中我们可以发现，要使社会有所进步，人们的举止文明，不仅需要我们大力宣扬雷锋精神，更重要的是要有一套合适的制度，来改变人们进行博弈的收益情况，让遵纪守法的人得到更多更大的收益，让违法犯罪分子得到应有的处罚。

①这里的“理性人”指在每项活动中只追求自身利益最大化的自然人；而“非理性人”指讲义气重信誉或有强烈的合作意愿，并不在意个人利益的得失的自然人。

②本论文所说的“冷酷战略”是指参与人在开始时选择合作，如果对方在以后的博弈中合作，则该参与人一直继续合作；如果对方在某一阶段背叛，即不合作，则该参与人自此之后永远选择背叛，永不合作。

标签：囚徒困境论文; 重复博弈论文; 合作博弈论文; 理性人论文; 博弈论论文;

逻辑选择及其在重复囚徒困境博弈中的应用_囚徒困境论文

猜你喜欢