“激励悖论”与证券监管奖惩制度的博弈分析_博弈论论文

“激励的悖论”与证券监管奖惩制度的博弈论分析，本文主要内容关键词为：悖论论文,证券监管论文,博弈论论文,奖惩制度论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

近期对中国股市加强监管的呼声不绝于耳。先是去年“基金黑幕”的被披露，再到今年初由“股市泡沫论”所引发的大争论，最近是“亿安科技案”被中国证监会查处。此后，高层更不断表示，要对加强证券市场的监管和查处。进入5月，证监会主席周小川在香港《财富》论坛上发表演讲时表示，中国大陆的证券监管要重点加强监管机构执法。此后李鹏委员长也在全国人大常委会证券法执法检查组第一次全体会议上，又强调要用法律保障证券市场的健康发展。本文将从博弈论中一个有趣的被称之为“激励的悖论”的命题出发，并以“亿安科技案”为案例，用博弈论视点讨论证券监管中奖惩制度的设计。

一、“激励的悖论”：小偷与守卫的博弈

1.问题的提出

R·塞尔腾教授是因在博弈论方面的伟大贡献而获得1995年诺贝尔经济学奖的博弈论大师。1996年3月，R·塞尔腾教授在上海的一次演讲中讲到了一个关于小偷与守卫之间的博弈的例子。该博弈问题是这样提出的：

设想有一小偷想要偷窃一个有守卫看守的仓库，如果小偷在行窃时守卫在睡觉则行窃得逞可窃得仓库财物，相反守卫没有睡觉则小偷就被抓住。现在设小偷得逞则得到B的正效用（因为他可以得到价值为V的财物，并且设其单位与V的单位相同），相反如果被抓住则要被判坐牢，此时小偷得到的是负效用-P（也设其单位与V的单位相同）。同样，可设守卫睡觉而仓库没有被偷则其有S的正效用，若睡觉而使仓库遭偷则守卫要被解雇，此时他得到负效用-D（也可设其单位与S的单位相同）。而若小偷不偷，则其无所得也无所失，支付为0；同样，守卫不睡则其出一份力气得一份工资，既无所得，也无所失，支付也为0。这样，此博弈中小偷和守卫的支付矩阵就如下图1所示。

图1的箭头表明，该博弈是一个没有可被双方接受的纳什均衡的混合策略组合：假设小偷选择偷策略，则守卫最好的选择是不睡策略，但若守卫选择不睡策略，则小偷最好的选择是不偷策略，而小偷选择不偷策略的话，则守卫最好选择睡策略；但是既然守卫选择睡策略，则小偷选择偷策略才是最好……，如此循环反复以至无穷。

2.问题的进一步分析

下面我们分析小偷偷与不偷以及守卫选择睡与不睡的最佳混合策略选择。

图2、小偷与守卫的混合策略图2(a)中，横轴Pt表示小偷选择偷策略的概率，它大于0而小于1,1-P[,t]就是小偷选择不偷策略的概率，图2(a)中的纵轴表示同小偷选择偷策略的各个不同概率相对应的守卫选择睡策略的期望支付。联系图1中小偷和守卫的支付矩阵，可在图2(a)中描出点(0,S)和(1,-D)，由这两点做直线并且和横轴相交于(P[*,t],0)。可以证明，小偷的混合策略偷与不偷的概率分布恰好是P[*,t]和1-P[*,t]。下面予以简要证明。

图2(a)中，点(0,S)到点(1,-D)上的直线段上任一点的横坐标是P[,t]（P[,t]即为小偷选择偷策略的概率），则依据定义该点的纵坐标应该是S(1-P[,t])+(-D)P[,t]，此即为在此情形下守卫选择睡策略的期望支付。若P[,t]＞P[*,t]，则守卫选择睡策略的期望支付小于0，因此守卫出于自身利益的考虑，会百分百选择不睡，因为小偷偷一次则要被抓一次，由此可知对于P[,t]＞P[*,t]的偷概率不可取。反过来，如果P[,t]＜P[*,t]，如图中的p[,,t]，则守卫选择睡策略的期望支付大于0，因此守卫睡觉是可取的，并且只要P[,t]仍然不大于P[*,t]，守卫总会选择睡策略，而小偷也不会有被抓住的危险。这样，小偷在可保证不被抓住的前提下，选择偷策略的概率就会越大，而使P[,t]趋向于P[*,t]。这样我们就证明了小偷的混合策略中偷与不偷的概率分布是P[*,t]和1-P[*,t]，P[*,t]和1-P[*,t]的混合策略是小偷在最佳策略选择。

结合图2(b)，依据同样的推理，我们可知守卫的混合策略中睡与不睡的概率分布是P[*,g]和1-P[*,g]，P[*,g]和1-P[*,g]的混合策略是守卫的最佳选择。

3.问题的结论

既然上述分析中，小偷有选择偷策略的动机与可能而守卫有选择睡策略的动机与可能，那么为减少这类盗窃现象的发生，当局是该加重惩罚小偷还是加重惩罚守卫呢？当局哪种选择更为有效呢？下面的分析有助于我们得出这个问题的结论。

加重处罚小偷会使小偷在守卫保持混合策略不变的情形下小偷的期望支付为负，因此在短期中小偷会暂停偷窃，小偷停止偷窃则刺激守卫提高睡觉的概率，在图2(b)中，守卫睡觉的概率P[*,g]从提高到P[,,g]，而守卫睡觉的概率的提高又会增加小偷的偷与不偷的混合策略的期望支付，因此小偷又倾向于增加选择偷策略的概率。由此可知，只要S和D保持不变，则加重处罚小偷尽管能在短期内在一定程度上抑制盗窃，但从长期来看则只会刺激守卫多睡觉，对防范与打击盗窃现象并没有大的帮助。

相反，加重对守卫睡觉的失职行为的处罚无论从短期还是长期来看都能更有效地抑制盗窃现象的发生。设想加重对守卫睡觉的失职行为的处罚，这意味着守卫睡觉的期望支付从负效用-D恶化到-D'，因此守卫不会再睡觉偷懒，这样小偷在短期内会选择不偷而在长期内仍然选择混合策略但是会减少偷窃行为，偷窃的概率会降低到P[,,t]，此时守卫重新达到新的混合策略均衡。在这里，守卫睡觉偷懒的程度处决于小偷偷窃的期望支付，只要V和-P不变，守卫在长期中的尽职程度就不会变化。

通过以上分析，可以得知，在小偷和守卫的博弈中，无论在长期还是短期，要更有效地抑制盗窃现象的发生，加重对小偷的惩罚固然不可或缺，而更有效的措施却是加重对守卫失职行为的处罚。

二、案例分析：“亿安科技案”

据《中国证券报》2001年4月26日头版报道，“亿安科技案”终于水落石出，联手违规操纵“亿安科技”股票的广东四家投资顾问有限公司受到了证监会的严惩。证监会还详细披露了这4家公司的违规操纵内幕：自1998年10月5日起，上述四家公司集中资金，利用627个个人股票账户及3个法人股票账户，大量买入“深锦兴”（后更名为“亿安科技”）股票。持仓量从1998年10月5日的53万股，占流通股的1.52%，到最高时2000年1月12日的3001万股，占流通股的85%。同时，还通过其控制的不同股票账户，以自己为交易对象，进行不转移所有权的自买自卖，影响证券交易价格和交易量，联手操纵“亿安科技”的股票价格。截至2001年2月5日，上述4家公司控制的627个个人股票账户及3个法人股票账户共实现盈利4.49亿元，股票余额77万股。

证监会认定，上述四家公司违反了《证券法》第七十一条（注：第七十一条禁止任何人以下列手段获取不正当利益或者转嫁风险：

（一）通过单独或者合谋，集中资金优势、持股优势或者利用信息优势联合或者连续买卖，操纵证券交易价格；

（二）与他人串通，以事先约定的时间、价格和方式相互进行证券交易或者相互买卖并不持有的证券，影响证券交易价格或者证券交易量；

（三）以自己为交易对象，进行不转移所有权的自买自卖，影响证券交易价格或者证券交易量；（四）以其他方法操纵证券交易价格。）、第七十四条（注：第七十四条在证券交易中，禁止法人以个人名义开立账户，买卖证券。）的规定，构成《证券法》第一百八十四（注：第一百八十四条任何人违反本法第七十一条规定，操纵证券交易价格，或者制造证券交易的虚假价格或者证券交易量，获取不正当利益或者转嫁风险的，没收违法所得，并处以违法所得一倍以上五倍以下的罚款。构成犯罪的，依法追究刑事责任。）条、第一百九十条（注：第一百九十条违反本法规定，法人以个人名义设立账户买卖证券的，责令改正，没收违法所得，并处以违法所得一倍以上五倍以下的罚款；其直接负责的主管人员和其他直接责任人员属于国家工作人员的，依法给予行政处分。）所述的行为。依据《证券法》第一百八十四条、第一百九十条的规定，中国证监会决定：没收上述四家公司违法所得4.49亿元，并罚款4.49亿元；责令4家公司在收到处罚决定之日起3个月内，在交易所监督下卖出剩余股票77万股，并注销违规开立的个人股票账户，盈利予以没收。

证监会的上述决定，对呼唤保护的广大投资者而言，无疑是欢呼雀跃，同时它也表明，随着新世纪的到来，证监会开始把规范市场、保护投资者作为其工作的重点。就在当天的《中国证券报》头版上，还配发了题目是“重拳出击维护秩序”的评论员文章。由此可见，证监会打击证券犯罪的决心和力度日见明显，同时也预示着规范市场发展将成为新世纪中国证券市场的主题。

现在的问题是，是单纯加强对违规操纵者的惩处或者加强对监管者的监管，还是双管齐下，各有侧重，优势互补呢？

三、我国证券市场上的“守卫”和“小偷”

如果可以把我国证券市场比做上述博弈问题中的“仓库”——这个仓库确实蕴藏着丰富的可供发掘的宝藏——的话，那么证券市场监管者和投机操纵者就分别扮演了“守卫”和“小偷”的角色。下面我们将分别分析这两个角色的行为。

1.我国证券市场上，被监管者由于受到市场实际情况的约束，往往与生俱来就有串通与合谋的企图与动机，以至于其中有的要沦落为“小偷”的角色。在市场经济发达国家的成熟证券市场上，“长线多赚，短搏多亏”已然成为规律，而相比之下，我国证券市场上的投资者多是受“博傻”理论的支配，“为卖而买”，这就有庄家造市联手操纵价格牟取暴利的必然可能性。而且，自我国股市开放迄今，差不多只见到上市公司通过发行新股“圈钱”而见不到有企业实质性地拿出利润来按股分红，即使分红，也往往只有几分钱，而且还伴随着配股。在这种情形下，人们有理由相信，串谋操纵更是成为必然（注：据《上海证券报》2001-03-20，国家统计局中国经济景气监测中心对上海、北京和广州700多位居民所做的一次调查结果显示，多数居民认为我国股市泡沫严重，并且股市操纵者获利最大。据中新社报道，调查显示，多达55.3%的居民认为，股市操纵者是股市的最大获利者，这些“大户”通过操纵股市，包括钻空子甚至可以制订规则，获利最大。）。下面的博弈分析可以帮助我们理解这个问题。

我们简化地以甲和乙来表示证券市场上两个不同的投机者，在监管还很不到位的情形下，可以认为操纵价格行为被发现的几率很少，而且这些投资者依据以往经验还可能认为，即使监管者对他们的操纵行为有所察觉，也很有可能不会得到足够严厉的惩处。同时，还可假设甲乙任意一方不合作串谋而另一方举报所得的奖励也很少。这样的话，甲和乙的这场博弈的支付矩阵就可以表示为如下图3。

显然，上述博弈中有两个纳什均衡A和B，那么甲、乙串谋该选取A还是B呢？判断甲、乙会采取何种行动有两个标准，一个是盈利标准，一个是风险标准。盈利标准即经济学上所说的帕累托最优标准，风险标准则可通过偏离损失比较法来判断。下面依次用这两个标准来判断甲、乙的选择。在此先假设甲、乙串谋和不串谋的机会是一半对一半。

①.依盈利标准判断

由图3可知，甲、乙串谋的期望支付是0.5×(9+0)=4.5，不串谋的期望支付是0.5×(2+1)=1.5。显然，A相对于B来说具有帕累托优势，A成为甲、乙的选择。

②.依风险标准判断

甲的离A损失×乙的离A损失＞甲的离B损失×乙的离B损失，因为(9-2)×(9-2)＞(2-1)×(2-1)

由此可见均衡A对均衡B来说还具有风险优势，这意味着若偏离A，甲、乙的损失会更大，因此甲、乙会选择A。

其实，“在帕累托标准和风险标准之间，理论给帕累托优势以优先权，而风险优势只有在局中人面临不知道选哪个均衡好的不确定性的时候才变得重要。当一个均衡具有帕累托优势的时候，局中人一定选择这个均衡，不确定性就不存在了”（范丹墨和维布尔，1995）。由此可见，在这里凭①就足够我们做出判断了。

2.在监管者得不到足够激励和有效监管的情形下，一方面监管者有存在“偷懒”行为的可能，更进一步，如果监管者利用手中的权利寻租的话，则被监管者很容易对监管者实施贿赂并取得成功，这样将导致监管者与被监管者之间的串通与合谋，从而使投机和价格操纵者的行为得到偏袒和纵容。依照图3中类似的分析方法，我们可以通过下面假设的图4中的博弈分析来说明这一点。

在图4中，监管者接受政府的委托，代理政府对证券市场实施监管，政府成为市场监管的最终供给者。在监管者没有从政府那里得到他们认为是足够大的激励的时候，监管者很可能一方面存在着“偷懒”行为，更有甚者就是和被监管者互相“串谋”，导致监管中腐败行为的发生。事实上，由于委托者政府和代理人监管者之间，以及我国证券市场上存在着严重的信息失灵、失真和信息不对称，监管者一方面往往不会愿意主动出击，自找“苦差使”，另一方面就是存在“道德风险”，监管者为谋取自身得利，可能接受被监管者的贿赂并和其串谋。这样，在图4的两个纳什均衡A和B中，A就成为了最后的选择。

四、我国证券监管奖惩制度的设计

基于上述的分析，我们认为在证券监管中，证券监管机构和人员作为政府的代理人，一方面受政府委托对市场实施监管，另一方面也要接受包括来自委托者——政府在内的监管。从某种意义上来说，严惩证券市场上的投机操纵者固然必不可少，但加强对监管者的监管却能更使监管有效。如果说管理高层从长远计已经下定决心要规范证券市场促进其“理性”发展的话，那么在证券监管奖惩制度的设计上，监督监管者与监督违规操纵者并举，才是最好的选择。

因此，在我国证券监管的奖惩制度设计中，既要考虑对投机操纵牟取暴利者加强监管和实施惩罚，也要考虑对监管者施行行之有效的奖惩激励，从制度上保证监管的到位和有效进行。除了建立相应的激励与惩处制度外，建立监管者人力市场也不啻为一条值得采纳的措施。只有这样，才能使监管者珍惜自身的声誉。依据声誉模型(reputation model)理论（克瑞普斯等，1982），一参与人对其他参与人的支付函数或战略空间的不完全信息，对博弈均衡结果有积极的影响。只要博弈重复的次数足够的多，参与人就倾向于选择合作行为。将这一模型应用到证券监管奖惩制度的设计中，就是：只有形成一个有效的证券监管者人才市场，监管者出于声誉方面的考虑，才会倾向于选择使委托者效用最大化的行动，以赢得委托者的信任，同时得到市场的承认。因此，从长远计，建立证券监管业人力市场，同时花大力气引进和培养证券监管业的高级人才，具有实质性的意义。高级人才作为证券行业中的“精英”人物，往往视他们自身的“声誉”为“第二生命”，这对于我国证券监管的到位和有效进行具有不能替代的作用。

标签：博弈论论文; 混合策略论文; 证券论文; 操纵市场论文; 证券交易论文; 亿安科技论文;

“激励悖论”与证券监管奖惩制度的博弈分析_博弈论论文

猜你喜欢