纳什均衡对我国公共管理的启示,本文主要内容关键词为:公共管理论文,启示论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
纳什均衡是现代博弈论,特别是其中占主流地位的非合作博弈理论最核心的概念。它为分析和解决经济、政治、法律等各种领域的现象和问题提供了工具,在生态环境、中央与地方关系、市场竞争、改革等问题上给我国公共管理以有益的启示。
“纳什均衡”(Nash equinbrium)即1994年度诺贝尔经济学奖得主——美国经济学家纳什(John F.Nash,Jr.)定义的“均衡点”(Equilibriumpoints),人们为了纪念纳什提出和发展这个重要概念的贡献,将它称为“纳什均衡”。从纳什均衡在1950年正式诞生到现在,先后有多种博弈均衡,纳什均衡只是其中之一。所谓纳什均衡,是指在给定条件下,N个参与人各自选择自己的最优策略所构成的一个策略组合。就是说在这样的一个策略组合中,任何人的决策在个人理性下都是最优决策[1]。纳什均衡的经典例子是“囚徒的困境”(Prisoners' dilemma)。例子假定有两个囚徒甲和乙被警察逮捕后分别关在两间房里审问,警察告知两人:如果两人都坦白各判5年;两人都不坦白各判1年;一人坦白一人不坦白,坦白者可免于起诉,不坦白者判8年。这时,两囚徒陷入了困境,究竟是坦白呢,还是不坦白呢?其博弈矩阵如表1:
表1 囚徒的博弈
注:本文表1-表6中的数据来源或参考了毛寿龙的《中国政府功能的经济分析》(北京:中国广播电视出版社1996年版)、张磊、栾贵勤的《对我国建立市场诚信体系的博弈分析》(人大复印报刊资料:《体制改革》2002年第8期和杜爱平的《从博弈均衡引发的思考》(《行政论坛》2002年第3期)。
在该博弈中,策略组B、C、D均具有不稳定性。对于策略组B来说,乙有变更选择的动力,因为这时如果他也选择坦白,那么策略组合就会变成A,他就会获得3年的减刑。同理,对于策略C来说,甲有动力选择坦白。对于D来说,任何一方均有动力去改变选择,因为若一方不变,改变的一方将由监禁1年变为免于起诉。而策略A是一个具有稳定性的策略组合。这时博弈双方处于均衡状态,即两方中只有一方改动而另一方仍保持不变,则改动的一方不能获得比原有状态更大的效益,也称为纳什均衡。如果乙的策略不变,甲的选择发生变更,那么策略组合就是C,甲的损失就会从-5增加到-8。反之,如果甲的选择不变,乙变更策略,那么乙的损失就会从-5增加到-8。甲和乙理性决策时都以自身的最大利益为目标(甲想要B,乙想要C),其选择的最终结果就是A。另外,在现实生活中,还有许多与“囚徒的困境”类似的博弈问题,它们也都存在纳什均衡。这种纳什均衡为分析和解决经济、政治、法律等多个领域的现象和问题提供了方法论,无疑也给我国公共管理以有益的启示。
一
1968年,格雷特·哈丁成功地将“囚徒的困境”与资源耗竭结合起来,从而进一步揭示了生态环境问题的产生与囚徒的行为具有极为相似之处。哈丁在其论文《公用地灾难》中提供了这样一个案例:假定有一个向所有牧民开放的公共牧场,每个牧民为了增加自己的收益,想方设法多养几头牲畜,结果大家都这么想这么做,公共牧场中放养的牲畜量巨大增加,终于有一天牧场因过度放牧而衰退,从前肥沃的草场变成一块无法放牧的荒地。哈丁说:“在信奉公用地自由化的社会中,每个人都追求各自的最大利益。这是灾难所在。每个人都被锁在一个迫使他在有限范围内无节制地增加牲畜的制度中。毁灭是所有人都奔向的目的地。”[2]无论是“囚徒的困境”还是“公用地灾难”,都告诉我们:人类行为的自利性与不合作,必定导致相互损害,产生对大家都不利的结果。后者则进一步表明,在有关“公共性”的问题上,类似“囚徒的困境”与“公用地灾难”的情况更容易产生。
经济学上将消费时具有非竞争性和非排他性的东西称为“公共物品”。非竞争性指一使用者消费该物品并不会减少对其他人的供应;非排他性指任何人不能排斥他人同时消费该物品。由于公共物品的这些特征,因此总有人希望“搭便车”而享受收益。一旦人人都这么想,“公用地困境”便会出现。总体上看,生态环境是一种公共物品。那么,在自由放任的情况下,人们的自利行为必然导致生态失衡、环境退化的后果。戴维·皮尔斯与杰瑞米·沃福德指出许多生态环境问题其实是这样产生的:“第一,许多可再生资源都不归私人拥有,所以存在着许多个实际上的或潜在的使用者;第二,每个个人都有利用更多资源的积极性,因为这样可以得到更多的个人利润,这就是支配策略问题;第三,如果所有用户都以这种方式行为,资源就会面临过度开发的风险;第四,由于这种背叛行为的刺激作用,任何协议的风险都是不稳定的。”[3](P293-294)因此,要解决生态环境问题,必须建立一种依靠公共权力来规范、约束个人自利行为,促进人们相互合作的制度。也就是说,在市场机制下,生态环境等公共物品的效率问题无法得到解决,进而需要政府干预、介入。这启示我们,为了实现社会的可持续发展,我国政府必须积极制定正确的政策,有效地进行环境管理,来加强生态环境的保护,避免“公用地灾难”的发生。
二
生态环境问题的产生与“囚徒的困境”有类似之处,宏观经济环境的恶化也如此。在我国,地方政府自主的理性的微观抉择必然导致非理性的宏观恶果,从而出现“公用地悲剧”,即“地方主义”。假定地方政府甲和乙都合作各获得5分的发展。两者都不合作均损失10分。一方合作一方不合作,合作方不仅要承担提供合作的成本,还要分担不合作方因不合作所引起的损失,从而损失14分;不合作方因不合作而得到独立发展,获10分,分担不合作所造成的损失2分,总和为8分。两者博弈的矩阵如表2:
表2 地方政府的博弈
表二中的策略组D处于纳什均衡(与囚徒的博弈类似,故不详论)。这个均衡点在现实意义上意味着,一旦地方政府陷入了地方主义的泥淖,就会越陷越深,在经济上没有动因使任何一个地方政府改变自己的策略。既然如此,要遏制地方主义,就得依靠中央政府来打破地方政府博弈中的纳什均衡。笔者认为,中央政府建立制度化的协调机构和引入有效的惩戒机制,不失为我国克服地方主义的正确选择。
众所周知,地方政府合作的可能性要大于囚徒,因为在囚徒的博弈结构中,囚徒没有机会进行信息上的沟通,唯一的沟通机会就是警察所传递的似真似假的不确定信息。在地方政府的博弈结构中,地方政府却有机会相互接触,进行适当的信息沟通,相互之间没有传递真假难分、动摇合作决心的信息的警察,而有可以利用国家利益代表的身份通过适当的办法从中协调的中央政府。所以,强化地方政府间的合作精神,以中央政府为核心建立制度化的协调机构以加强信息沟通,就是一种正确的选择。当然,这一策略若要成功的话,还需要加强我国中央政府在全国性公共事务管理方面的能力。
不过,单单通过建立协调机构加强信息沟通难以卓有成效地遏制地方主义。假定对于地方政府甲而言,在其通过信息中介机构了解到地方政府乙选择合作的概率为P[,h]的情况下,其选择合作的预期效应(根据博弈的预期效用公式[4]可作如下表示:
5P[,h]-14(1-P[,h])。
同样,其选择不合作的预期效应可如下表示:
8P[,h]-10(1-P[,h])。
那么,对于固定的P[,h]仨(0,1)必有:
8P[,h]-10(1-P[,h])>5P[,h]-14(1-P[,h])恒定成立。
换言之,信息沟通与否并不真正影响地方政府在博弈情况下的选择。对于地方政府甲来说,无论它所了解到的地方政府乙的合作概率状况如何,其最佳选择始终是不合作。因此,要克服地方主义,我国中央政府还必须大力引入有效的惩戒机制,主要包括行政处罚、司法判决等,以增加地方政府博弈的不合作成本,使其不合作的预期效用降为负值,从而改变地方政府博弈的基本结构,如表3:
表3 惩戒机制对博弈结构的改变
在这种情况下,由于不合作成本升高,两个地方政府进行博弈的最优策略变为合作。可见,中央政府切实加大惩罚的力度是我国克服地方主义的现实思路。
惩戒机制的引入为遏制地方主义提供了路径,但惩戒机制会产生新的博弈问题。当中央政府决定加大对不合作处罚的力度时,中央政府本身就成为了博弈者。在中央政府是否实施惩治措施与地方政府是否保持合作的问题上,存在如下博弈:
表4 惩戒机制引起的新博弈
对地方政府来说,当中央政府实施惩治时,其选择合作而获得的效应为5,选择不合作损失为-20。当中央政府实施放任时,其选择合作而获得的效应为-14,选择不合作而损失的效应为-10。对于中央政府来说,在实施放任时,由于不必支付执行费用,效应为0;当实施惩治时,若地方政府选择合作,则中央政府因为执行费用的支出而获得的效应为-2;若地方政府选择不合作,中央政府可因处罚收入而使效应为8。
显然,在此种博弈情形下,前文所述的“囚徒的困境”和“公用地灾难”中的均衡状态——纯策略纳什均衡并不存在,而只有混合策略纳什均衡。博弈双方在一次性博弈中没有一个确定性选择,一方的策略选择取决于另一方行动的概率。这是我国中央政府在克服地方主义中采取何种策略的理论基础。没地方政府保持合作的概率为,则对于中央政府而言,其实施惩治的预期效应为:
如要使中央政府实施惩治措施,必有:
即当地方政府的合作概率小于4/5时,中央政府的最优策略是实施惩治措施;当地方政府的合作概率大于4/5时,中央政府的最优策略是实施放任;当地方政府的合作概率等于4/5时,中央政府的策略可任意为之。
此外,造假与打假的博弈、腐败与反腐败的博弈,也都存在混合策略纳什均衡。这种混合策略纳什均衡,可为我国政府开展打假和反腐败斗争提供方法论的指导。
三
在市场竞争中,个人、企业等的自由的经济行为也存在着类似“囚徒的困境”的博弈问题。以个人的自由经济行为之博弈为例。假设市场上有甲、乙两个人,他们在交易过程中有两种可选择的策略——诚信或欺诈。如果两者均选择诚信,各获得的效应为5,若有一方选择欺诈而另一方选择诚信,诚信者因被欺诈而损失的效应为-4,欺诈者获得的效应为10。如果双方均选择欺诈,双方各付出的代价为-2。双方博弈的矩阵如表5:
表5个人经济行为博弈
在上述博弈过程中,表中策略组D处于纯策略纳什均衡,即个人甲、乙以自身利益最大化为目标,其最终选择结果是欺诈。同样,在市场交易中,企业自由博弈的最终选择结果也是欺诈。事实上,无论是对这两个人或两个企业总体来讲,还是就他(它)们个体来说,最佳结果都不是同时选择欺诈策略,而是都保持诚信。两个人或两个企业决策时都以自己的最大利益为目标,结果无法实现最大利益甚至较大利益。由此可见,在两人或两企业的二难中根据自己最大效益这种工具理性作选择,各人只能达到次优状态,而不能达到帕累托最优。若要达到帕累托最优,就有可能使自己处于最差的状态,因为彼此对对方都缺乏信任。这表明,工具理性这种以最有效的手段达到自己最大效益的行动方式,并不是普遍有效的。而最有效率的交易必须建立在协调合作的基础上,更进一步说,交易的成功在很大程度上取决于双方的信任基础是否可靠、合作基础是否牢固,交易行为是否为互利合作性的。因此,决定两人或两企业决策及其结果的一个重要因素,是他(它)们之间相互信任的程度,而这种相互信任程度的高低又取决于各自伦理道德水平的高低。
通过以上分析,我们可以得到如下启示:在社会经济活动中,政府的组织协调工作仍是必需的,放任自流并不是导致全社会最大福利的最佳政策。就我国而言,政府一要实施以德治国,大力加强伦理道德建设,提高公民个体与整体的道德水平,发挥伦理道德的经济功能;二要制定有关法规、政策,维护公平竞争的市场环境;三要引入惩戒机制,对不法、不良经济行为予以惩治。对第三点来说,政府与个人或企业之间的博弈随之产生。它们之间的博弈是混合策略博弈,存在着混合策略纳什均衡。政府是否实施惩治可根据前文所述的理论进行推导。
四
纳什均衡的另一个例子是智猪博弈。该例子假定有一大一小圈养的两头猪,猪圈的一侧有一食槽,另一侧有一控制进食的按钮。如按下钮会有10个单位的食物进槽,但先按者要付出2个单位的成本。若大猪先到吃9个单位,小猪吃1个单位。反之小猪吃4个单位,大猪吃6个单位。同时到大猪吃7个单位,小猪吃3个单位。这样有组合如表6。
表6 智猪博弈
在智猪博弈中,策略组B处于纳什均衡。对于小猪来说,最优的选择是等待(不采取行动),因为即使大猪不按各自都不得食,如果大猪按则自己得食4个单位。而大猪只有去按(采取行动),否则将一无所得。这个例子告诉我们:如果我们的经济改革和政治(行政)改革中存在一些“大猪”,则改革就会由“大猪”来推动,因为“大猪”更有积极性推动改革,他们会从改革中得到好处,且好处比“小猪”多,或至少不低于“小猪”得到的好处,否则他们比“小猪”损失更多。
在我国行政改革中,某个时期尤其是改革开始时,各种利益冲突类似表6的博弈。我们知道,我国机构改革的社会动力是很强大的。因为当我们不能满足它的要求时,便要受到它的严重惩罚,而惩罚的方式便是经济和社会危机,这是任何人都无法抗拒的。党中央之所以发动一次又一次的行政改革战役,党的十六大之所以再一次提出这一问题,其背后就是这个动力在起作用。于是,中央为了国家整体利益,为了不出现经济和社会危机,为了促进社会全面进步,积极推动机构改革乃至行政改革,从而成为改革的力量。但是,我国的机构改革在各级地方国家机关中却缺乏动力。历次机构改革回潮至少说明了这个问题。其原因是在这场改革中国家机关本身就是改革的对象,也就是自己革自己的命。于是,某些地方国家机关基于自身特殊利益不进行改革甚至抵制、反对改革,从而成为反改革力量。其实,这两种力量的博弈是市场与行政权力之间更大博弈的反映。改革开放以来,在市场与行政权力的博弈中,中央站在新生的市场一边,而各级地方国家机关某些害怕改革而失去地方利益或个人利益的人,主要站在代表旧体制的行政权力一边。中央和各级地方国家机关的这种博弈既是纳什均衡在社会经济、政治领域的体现,也昭示着中央的推动仍是今后我国各项改革取得成功的关键。