妙趣横生的博弈论(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-05 16:10:18

点击下载

作者:余治国(编著)

出版社:北京普华文化发展有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

妙趣横生的博弈论

妙趣横生的博弈论试读:

前言

经济现象是人类社会行为的重要组成部分,它受到人类社会行为的其他部分,比如政治、文化和习俗等的影响。众所周知,人类社会行为十分复杂。因此,我们要完整解释乃至于准确预测经济现象与社会现象及其困难。但这并不是说完全不可以预测,我们可以在一定方法论的基础之上,通过简化细节来构造抽象的现实模型。然后,通过对模型的分析来把握事物的本质。

简化细节的过程便是假设的过程。经济学最基本的假设是人类行为的效用最大化,即经济人或理性人假设,参与博弈的博弈者正是为了自身效用的最大化而互相争斗。参与博弈的各方形成相互竞争、相互对抗的关系,以获得收益的多少决定胜负;一定的外部条件又决定了竞争和对抗的具体形式,这就形成了博弈。从经济学的角度来看,世界上总有一种为人们所需要的、具有稀缺性的资源,这时人与人之间就会发生竞争。当这种竞争以一种具体形式体现时就形成了博弈。

概括来说,博弈的形成有五个要素。不同要素的组合构成不同的博弈类型。这五个要素分别如下。

1.博弈要有两个或两个以上的参与者。博弈不是一个人在毫无干扰的真空中作决策。从经济学的角度来看,如果是一个人作决策而不受他人干扰,那就是一个传统经济学或管理学中经常研究的最优化问题,也就是一个人、一个企业或一个国家在既定的局面或情况下如何决策的问题。

冯·诺依曼在他的博弈论奠基之作《博弈论与经济行为》中举过这样一个经典的例子。在《鲁滨逊漂流记》中,与世隔绝的“鲁滨逊”一个人组成一个独立的经济系统。学过中学数学的人都明白,他所面临的求生问题只是一个普通的求解最大值的问题。因为鲁滨逊面对的是一些死的数据,而不是有主观意愿的人。一旦“星期五”(《鲁滨逊漂流记》中鲁滨逊的仆人)加入这个系统,这个经济系统就形成了一个博弈问题。

2.博弈要有参与各方争夺的资源、收益或叫支付。资源指的不仅仅是自然资源,如矿山、石油、土地、水资源等,还包括各种社会资源,如人际关系、信誉、学历、职位等。即使这些资源是无限供给的,我们也不可能一步迈入“大道之行也,天下为公”的大同社会。一方面,博弈者之间会发生冲突;另一方面,他们当中也包含着合作的潜力。

3.参与者有自己能够选择的策略、行动。所谓策略,指的是针对某一个具体问题所采取的应对方式。通俗地说,策略就是计策,是博弈参与者所能够选择的手段和方法。比如囚徒困境,每个局中人的行动只有两种:坦白,抵赖。策略包括:[坦白,抵赖]、[抵赖,抵赖]、[抵赖,坦白]、[坦白,坦白]。尽管最后的均衡是[坦白,坦白],但总的策略有四种。日常生活中的策略选择仅是解决问题的方法,并不牵涉到分析关键因素、确定局势特征这些理论化的内容。而博弈论中的策略选择,是先对局势和整体状况进行分析,确定局势特征,找出其中的关键因素,然后在最重要的目标上进行策略选择。由此可见,博弈对局中的策略是牵一发而动全身的,这直接对整个局势造成重大影响。

行动集为规定每个参与者可以采取的行动的集合。比如,猜硬币博弈,一个人有两个行动可供选择:正面,反面。如果是两个硬币,则行动集中的行动增加一倍:[正面,正面],[正面,反面],[反面,正面],[反面,反面]。策略是局中人在一局博弈中的一套完整的行动计划。策略与行动不同,策略包括信息。

4.参与者拥有一定量的信息。兵法上说:“知己知彼,百战不殆;不知彼而知己,一胜一负;不知彼不知己,每战必败。”可见竞争对抗还包括博弈各方拥有信息的多少。比如在上一个例子中,博弈双方都明白对方的策略与各种策略组合的博弈结果,从博弈理论来说,更拗口的说法是一方知道另一方知道自己的策略,反之亦然。这是博弈双方所掌握的公共信息,即所谓的共同知识。然而,从现实世界来看,当然不存在这样的博弈参与者。在实践中,博弈参与者拥有的信息并不都是相同的。

一般情况下,按照信息的确定性或者完美程度,人们将信息分为几个等级:一是不可预见,比如说“9·11事件”对联邦调查局来说就是一个不可预见的事件;二是在可预见的前提下,信息完美程度由弱到强依次分为可观察、可测度、可确证三种。比如在法庭上法官确认的证据。信息经济学研究的就是不完全信息条件下的问题。可确证时的情况是传统经济学所研究的范围,它使决策变成了非常简单的最优化问题。信息经济学则主要研究可预见但是不可确证的问题。

5.时序,即博弈规则中规定的每个参与者决策的先后次序。一般来说,在静态博弈中,局中人同时行动;在动态博弈中,局中人有行动的次序。通俗地说,博弈就是个人或组织在一定的环境条件与既定的规则下,同时或先后,仅仅进行一次或是进行多次策略选择并实施,从而得到某种结果的过程。我们生活在这个世界上,不可避免地要与他人打交道,这是一个利益交换的过程,也就不可避免地要面对各种矛盾和冲突。

20世纪50年代以来,博弈论与信息经济学迅猛发展。人们将这一理论广泛地应用于经济、政治、社会、军事等各个领域。然而传统的博弈论教材充斥着在普通人看来犹如天书一般的数学符号,其庞杂艰涩的程度令人望而生畏;而通俗读物却又过于强调通俗易懂,往往流于肤浅。

早在20世纪60年代中期,美国大法官波特·斯图尔特在审理一件案子时说过,他可能无法对“猥亵”下定义,但“吾见之则吾知[1]之” 。从某种角度来看,博弈论与信息经济学正是如此。为了弥补绝大多数博弈论文献或过于专业或过于简单的缺点,本书通过简洁清晰、生动活泼的语言,结合社会生活中的事例,完整介绍了博弈论与信息经济学。同时,本书还涵盖了较为前沿的演化博弈论与行为博弈论的相关知识。愿读者能通过本书学到实用的知识并将其应用到实践中去。

感谢吴世佳、黄顺霞、吴国胜、范小妹、吴丹、吴静和孙晨在本书的写作过程中给予的支持、批评和帮助。还要感谢叶楚华先生,新法家网站站长、北京龙芯智见公司董事长徐光宇先生,成都紫谷投资咨询有限公司总经理杨志宏先生,北京大学中国与世界研究中心特约研究员翟玉忠先生,加拿大皇家银行风险管理部资深顾问、中央电视台纪录片《华尔街》顾问陈思进先生,中国社科院余斌研究员,新华社世界问题研究中心前特邀研究员、北京大军经济观察研究中心主任仲大军先生,华文书局第二事业部副经理王水博士,中山大学姜子初研究员一直以来对我的帮助与关心。最后要感谢小友余之言对我在生活与精神上的鼓励和支持。注 释

[1]. 原文为:I know it when I see it。第一章博弈浅探第一节 博弈在生活中的决策

一般来说,决策论是关于单一参与者决策的分析,博弈论则是关于多个参与者之间相互影响的决策分析。从某种意义上说,决策论是博弈论的一种特例。我们可以引入一个叫做“自然”的虚拟参与者。在这里,“自然”可以被想象为无所不能的上帝,上帝现在有两种策略,让人生病或不生病。上帝采取让人生病的策略,人就采取吃药的策略来对付;上帝采取不让人生病的策略,人就采取不予理睬的策略。这是一场人和上帝之间的博弈。“自然”是研究单人博弈(决策)的重要假定。例如农夫种庄稼是农夫同自然进行博弈的过程。自然的策略可以是:干旱、多雨、风调雨顺。农夫对应的策略分别是:防旱、防涝、休息。当然,“自然”究竟采用哪种策略并不确定,于是农夫只有根据经验判断或气象预报来确定自己的行动。如果农夫估计今年的旱情较重,他就可以早做防旱准备;如果农夫估计水情严重,他就早做防涝准备;如果农夫认为风调雨顺,他就可以优哉游哉。

与自然博弈的对手可能是一个群体,比如一个生产空调的厂家。如图1-1所示,厂家在夏天来临之前有两种选择:一是提前多生产,多存货;另一种是少生产,少存货。如果将夏天看成一个参与者,夏天气温的选择也有两种——高或低。图1-1 厂家与自然的博弈

然而生活中的很多情况不是单人博弈,而是双人或多人的博弈。比如,某一天你觉得应该是你太太的生日,但又不确定。如果是太太的生日,你可以送她一束花,太太会特别高兴;你不送花,太太会埋怨你忘了她的生日。如果不是太太的生日,你可以送她一束花,太太会感到意外的惊喜;你不送花,生活同往常一样。在这个博弈里,我们看到,“自然”可以有两种策略:确定今天是太太的生日或确定今天不是太太的生日,但不论“自然”采取何种策略,你的最好行动都是买花。

尽管决策可以看成是单人与虚拟参与者的博弈,可决策与博弈之间仍然存在着很大的区别,其中的区别如图1-2所示。两者最重要的区别是在决策过程中,未来的不确定性来自于“自然”的行动,相比之下,博弈中的不确定性却来自于各个参与者对其对手的预期。图1-2 博弈与决策的区别

决策论与博弈论在实际中并非一成不变。设想你早晨从家中驾车去公司,可选择的路线如图1-3所示。早晨车流稀少,道路畅通,你作为一个决策者,此时只要依据行车路径最短原则选择即可。这只是一个简单的决策问题。当傍晚下班高峰时段你驱车回家,车流人流不息,繁忙路段堵塞严重,此时你已从一个决策者转变为一个博弈参与者。这种情况下,你不仅要考虑路径最短,还要考虑其他行车者可能选择的路段。如果其他行车者都选择最短路径,毫无疑问,此时的最短路径反而成为耗时最长的路径。当然,对于你个人来说,最好的博弈结局是其他人都拥挤在其他路段,而你选择最短路线一路畅通地到家。图1-3 行车路线选择示意图

人生也是这样。人从嗷嗷待哺的婴儿变成天真欢乐的儿童、生机勃勃的青年、负担重重的中年,最终成为行将离世的垂危老人。在我们的一生中,我们与家庭成员的关系正是从被支配者转变为支配者,最终又成为被支配者。

如图1-4所示,当我们在婴幼儿时期,完全没有生活自理能力与生活自主性,此时我们与家长的关系是支配与被支配关系。家长对我们的生活选择进行决策,家长决定我们吃什么样的奶粉,读什么样的书,交什么样的小朋友。随着我们一天一天长大,逐渐成了具有一定思考能力与自主性的懵懂少年,我们开始学会自我选择。此时,我们与家长之间的关系变成了一种博弈关系。当然,孩子与父母之间是一场没有输赢的博弈。岁月荏苒,少年变成成熟稳重的青壮年,子女与父母之间的天平逐渐向子女倾斜。时间飞逝,父母垂垂老矣,逐渐丧失了生活自理能力与自主性,父母与子女之间的关系将回到原先的起点,只不过支配者与被支配者的位置发生了改变,子女成了决策者,决定父母的生活。个人与家庭成员之间的关系在一生中经历了从决策到博弈,又从博弈到决策的变化。图1-4 从决策到博弈第二节 冲突与合作产生的博弈

两千多年前,雄才大略的秦始皇统一六国,并创建了中央集权制的庞大国家。从当时的历史条件来看,秦国虽在商鞅变法之后实力大增,但其经济、政治、军事实力尚远不能与六国总和相匹敌。在这种情况下,六国与秦国的形势就产生了两种针锋相对的可能:其一,六国采用“合纵”政策对抗秦国,也就是各国缔结军事盟约,共同抵御秦国的侵略。秦国若对任一国家发动侵略,其他国家必须无条件出兵营救。其二,六国采用“连横”政策对秦国妥协,也就是各国都与秦国签订友好互助条约,保持双边和平关系。

当时七国之中,只有齐国实力比秦国稍逊一筹,成为六国军事同盟的核心。一旦齐国放弃“合纵”政策,六国的军事同盟就土崩瓦解。历史也证明了这一点,秦国对六国联盟的破坏正是从齐国开始的。因此,秦国与齐国都有两种战略政策可以选择,那就是“合纵”与“连横”。秦国若默许六国“合纵”,齐国采用“合纵”政策,结果将是秦国势力被遏制,而齐国成为六国领袖,势力得到扩张。秦国若采取“连横”政策,齐国仍然采取“合纵”政策,结果将是秦国与六国处于对峙状态。秦国默许六国“合纵”,齐国却采用“连横”政策与秦国示好,结果将是秦国没有吞并六国的野心,自然也无法一统天下,齐国的势力也不会得到扩张。而历史事实是,秦国采取“连横”政策,齐国默许秦国的“连横”政策并与秦国建立友好外交关系。齐国最终被灭,千古一帝秦始皇得以名扬千秋。

从秦始皇的故事中,我们看到博弈中包含了竞争冲突与合作两种截然不同的策略。实际上竞争中包含着潜在合作的种子,合作中包含着潜在竞争的种子。合作博弈并不是指合作各方具有合作的意向或态度,而是指在博弈中有一些对博弈各方有约束力的协议或契约,或者说是博弈各方不能公然“串通”或“共谋”。

合作博弈最典型的例子就是石油输出国组织欧佩克(OPEC)。1960年9月,伊朗、伊拉克、科威特、沙特阿拉伯和委内瑞拉的代表在巴格达开会,决定联合起来共同对付西方石油公司,以维护石油输出国的利益。欧佩克在这种情况下应运而生。欧佩克现在已发展成为一个包括亚洲、非洲和拉丁美洲主要石油生产国的国际性石油组织。它统一协调各成员国的石油政策,并以石油生产配额制的手段来维护它们各自和共同的利益,把国际石油价格稳定在公平合理的水平上。比如有些时候为防止石油价格飙升,欧佩克可依据市场形势增加其石油产量;为阻止石油价格下滑,欧佩克则可依据市场形势减少其石油产量。

最后看这样一个例子。小张有一套住房,他自己估计的价值为80万元;小李有100万元现金,但却无房,他认为小张这套房子价值100万元。小张与小李可以选择的策略是要么同意交易,要么不做这笔买卖。只有双方都同意交易,这笔买卖才能够成功(见图1-5)。图1-5 买卖博弈

若双方以90万为交易的价码,小张与小李若都同意成交,小张获得90万现金,而小李则获得自认价值100万元的房产,加上剩余的10万元现金,其收益为110万元。若小张愿意交易并且白送小李房产,则小李获得200万元收益,小张收益为0;若小李愿意交易并且白送小张90万元现金,则小张获得小李现金90万元加上自认为价值80万元的住房共170万元,小李只剩下现金10万元。当然上述这两种情况仅仅是一种假想,在实际中除了诈骗以外不可能出现。两人都不愿意进行交易,则各自持有原先的所有物。二人博弈的最佳结果是双方都愿意进行交易,此时整体收益最大。换言之,在经济生活中,所有的买卖必然都是合作博弈。第三节 《美丽心灵》之金发女郎

美国环球公司2001年出品的电影《美丽心灵》可谓家喻户晓。该片艺术地再现了数学天才、1994年诺贝尔经济学奖得主之一、罹患妄想型精神分裂症30多年后又奇迹般恢复正常的约翰·纳什传奇般的人生经历。

这部电影有一个这样的情节:在酒吧中有两个或两个以上的男士,有多个魅力十足的女士且女士至少比男士多一人。在这些女士中只有一位金发女郎,相对于其他女士,男士们更喜欢金发女郎,但有女士陪伴总比没有好。请看图1-6所示纳什与兰哈德的策略与策略组合。如果所有的男士都去追求金发女郎,他们不仅会被拒绝,还会惹恼其他女士,结果男士们都没有找到女伴,这是最坏的结果。因此电影中的纳什建议,所有男士都应该忘掉金发女郎,追求其他女士,这样男士们都不会空手而归。图1-6 策略与策略组合

为了探讨这个问题,我们可以将它简化为双人博弈,见图1-7。假设酒吧里只有约翰和兰哈德两位男士,邀请到金发女郎给男士带来的收益是邀请其他女士的两倍。电影中的解决方法是两位男士都去追求其他女士,所得收益均为1。但奇怪的是,这一结果意味着金发女郎未收到邀请,男士们也没有得到首选目标,双方对此都不满意。实际上,电影中的战略并非最优反应。如果兰哈德邀请其他女士,纳什就应该邀请金发女郎,从而得到收益2,反之同理。图1-7 金发女郎博弈

设想另一种情况,如果纳什与兰哈德的行动选择是有顺序的,不妨假设纳什先行动,这时我们可以用扩展式来表示这个博弈,见图1-8。图1-8中的树形图每一个树枝节点代表了一种策略选择。图1-5、图1-7这样的数字矩阵则称为标准式。图1-8 金发女郎问题扩展式第四节 如果维尔纳夫懂点博弈论

19世纪初,拿破仑统帅法国大军要与英国争夺海上霸主地位,其实施这一战略的关键是消灭英国舰队。为了应对法国的挑战,英军统帅纳尔逊亲自制定了周密的战术方案。1805年10月21日,海上大战爆发。英国的地中海舰队由40艘战舰组成;由维尔纳夫率领的法国-西班牙联合舰队共有46艘战舰。特拉法尔加大海战的概况是:维尔纳夫率领的法国-西班牙联合舰队采用常规的“一”字横列,以利炮火充分展开,而纳尔逊的战术使维尔纳夫十分意外(见图1-9)。图1-9 特拉法加尔海战示意图

英国的舰队分成两个纵列:前卫或上风纵列由12艘战舰组成,拦腰将法国-西班牙联合舰队切为两段;后卫或下风纵列由15艘战舰组成。一场海战过后,法国-西班牙联合舰队惨败:联合舰队司令维尔纳夫连同12艘战舰被俘,8艘沉没,仅13艘逃走,人员伤亡达7 000 多。英国战舰没有一艘沉没,人员伤亡1 663 人。但不幸的是,作为胜方统帅的纳尔逊阵亡。

纳尔逊的获胜秘诀简单说来就是集中优势兵力歼灭敌人有生力量。实际上早在第一次世界大战期间,兰彻斯特就已指出,军队的集中在现代作战中非常重要。他建立了一些可以从中得到预期交战结果的数学模型,如常规军对常规军的模型为每一方战斗单位的损失率与对方战斗单位的数量成正比。兰彻斯特求解这些数学模型的微分方程,并推出了“兰彻斯特平方定律”。这个定律说明的是:作战部队的实力同投入战斗的战士人数的平方成正比。也就是说,如果敌人的人数是你的3倍,那么你的武器装备在性能方面要优于敌人9倍,你才能弥补数量上的不足。

用兰彻斯特平方定律可以对“纳尔逊秘诀”进行定量分析。设双2方单个战斗单位的战斗力相同,则有:英国舰队整体战斗实力40=1 2600,联合舰队整体战斗实力46=2 116,此时联合舰队占优势,设想联合舰队全歼英国舰队后,联合舰队还有艘舰只。

将联合舰队拦腰切断,是将联合舰队实力减弱的最小分割法。此22时,联合舰队的实力为:23+23=1 058,而英国舰队的实力为22(16+16)+8=1 088,已略占优势。

英国舰队两个主纵列共32艘舰只,攻击联合舰队的后一半23艘22舰只。此时,英国舰队实力为(16+16)=32=1 064,联合舰队的2实力为23=529。英国舰队已占有优势。

在全歼联合舰队后部后,英国舰队两个主纵列还可以保留艘舰只,再与小纵列舰队联合对联合舰队前部作战还占有优势。在实际海战过程中,联合舰队统帅维尔纳夫被动地被英军分割歼灭,没有对纳尔逊的战斗策略随机应变地采取对应的措施。如果维尔纳夫懂一点博弈论,在对手分割自己之后,也敢于主动分割对方,战斗的结果可能就完全不同。

不妨设想,将英国舰队的主纵列1与主纵列2分割,这时英国舰222队的整体战斗力为16+16+8=576,即使联合舰队被分割为三部222分,其整体战斗能力也有16+15+15=706。即使英国舰队奋力战至最后一兵一卒,联合舰队也还能剩下艘战舰。如果维尔纳夫学过博弈论,此役英国海军将受到致命性重创,英国将无从获得其全球殖民的关键前提——制海权,英国维多利亚时代的全球霸主地位就不可能建立,那么今天的世界格局又将是另一种格局。第二章纳什均衡与优势策略第一节 倒垃圾博弈

小张与小李在某城市各拥有一套别墅,这两套别墅紧挨在一起。该别墅区目前还没有垃圾处理服务。如图2-1,别墅边的垃圾若得不到处理,则两人主观上得到的享受可获得年效用价值4万元,如果别墅周围没有垃圾,则年效用价值5万元。这两人都是自私自利者,都将垃圾倾倒于别人房子旁边。要雇用一个清洁工处理垃圾而不是倾倒在房子周围,每年需支付5 000 元。图2-1 倒垃圾博弈

当小李雇用一个工人付出5 000 元,小张没有雇用工人时,小张房子周围没有小李倾倒的垃圾,获得主观效用价值5万元。小李房子周围依然有小张倾倒的垃圾,此时小李的收益为主观效用价值4万元-0.5万元=3.5万元。反之亦然。因此,我们可获得如图2-2所示的博弈标准式。图2-2 倒垃圾博弈的支付矩阵

博弈分析的关键是根据对方的行动选择自己的最优反应。对于小张来说,如图2-3所示,小张在小李倒垃圾的情况下,小张倾倒垃圾获得收益4万元,大于雇用工人收益3.5万元;小张在小李雇用工人的情况下,小张倾倒垃圾获得收益5万元,大于雇用工人收益4.5万元。因此,选择倾倒垃圾对于小张来说最佳。图2-3 小张的优势策略

同理,可得到图2-4。对于小李来说,倾倒垃圾也是最佳反应。倾倒垃圾对于小张和小李来说都是一种优势策略。所谓优势策略,即无论对方采取什么策略,该策略对于博弈者来说都是最佳。顾名思义,雇工人清扫垃圾则是劣势策略,即不论其他参与人采取什么策略,某一参与者可能采取的策略,都会是对自己不利的策略。优势策略与劣势策略的关系则称为占优,在这个例子中,倾倒垃圾策略与雇用工人相比是占优的。图2-4 小李的优势策略第二节 恩爱夫妻博弈与优势策略

欧·亨利的小说《麦琪的礼物》描述了这样一个爱情故事:新婚不久的妻子和丈夫穷困潦倒,妻子除了那一头美丽的金色长发,丈夫除了那一只祖传的金怀表,便再也没有什么东西可以让他们引以为傲了。虽然生活艰辛,他们却彼此相爱至深,彼此关心对方都胜过关心自己。为了让对方幸福,他们愿意奉献和牺牲自己的一切。

话说明天就是圣诞节了,小两口都是身无余钱。为了让爱人过得开心一点,彼此还是悄悄准备了一份礼物给对方。丈夫卖掉了心爱的怀表,买了一套漂亮发卡,去配妻子那一头金色长发;妻子剪掉心爱的长发,拿去卖钱,为丈夫的怀表买了表链和表袋。可是,到了交换礼物的时刻,他们却无奈地发现,对方如此珍视的东西已作为礼物的代价而出卖了。于是,花了惨痛代价换回的东西,竟成了无用之物。出于无私爱心的利他主义行为,结果却使双方的利益同时受损。

且让我们暂时抛开爱情的温馨,单从利益的角度来解读。我们假定,他们每个人都有“毫不利己专门利人”的利他偏好,这样,个人选择付出或不付出,只看对方能不能得益,与自己是否受损无关。以这样的偏好来衡量,最好的结果自然是自己付出而对方不付出,对方收益增大;次好的结果是大家都不付出,对方不得益也不牺牲;再次的结果是大家都付出;最坏的结果是别人付出而自己不付出,靠牺牲别人来使自己得益。我们不妨用数字来代表个人对这四种结果的主观感受,如图2-5所示。图2-5 恩爱夫妻博弈

无论对方选择付出或不付出,博弈者的最佳选择都是不付出,但这并不是对大家都有利的选择。事实上,大家都选择不付出,明显优于大家都选择付出的情况。具有优势策略的博弈也有占优策略均衡。换言之,在占优策略均衡中,不论所有其他参与人选择什么策略,参与人的占优策略都是最优策略。显然,这一策略一定是其他参与人选择特定策略时该参与人的占优策略。如果妻子选择不付出,也就是不剪掉金发,这是妻子的优势策略,也就是说,妻子不付出时,丈夫不管选择什么策略,妻子所得的结果都好于付出。同理,丈夫不卖掉怀表对于丈夫来说也是优势策略。

再举个常见的例子:篮球前锋和队友在面对着对方的一个后卫时,形成了二打一的局面。该前锋可以选择直接投篮,也可以选择传球给队友。根据以往经验,传球过人的成功率更高,那么传球就是该前锋的优势策略。如果一个球员具有这样的策略,无论其他球员怎么做,这个策略都会高出一筹,那么这个球员就有优势策略。当然如果球员有优势策略,其决策就会变得非常简单,只要直接采用该策略而完全不必考虑对手的应对策略。第三节 “囚徒困境”的深刻哲理

普林斯顿大学数学系主任阿尔伯特•塔克创造了一个人们耳熟能[1]详的博弈模型,这就是“囚徒困境”(Prisoner’s Dilemma)。

一位富翁在家中被杀,财物被盗。警察抓到两个犯罪嫌疑人甲和乙,但他们矢口否认。于是警方将两人隔离审讯。警官分别告诉他们说:“你们的盗窃罪证确凿,所以可以判你们两年刑期。但我可以和你做个交易。如果你招了,他不招,那么你会作为证人无罪释放,他将被判十年徒刑;如果你招了,他也招了,你们都将被判五年有期徒刑;如果他招了,你不招,他无罪释放,你被判无期徒刑;如果你们都不招,各判两年。”

警官希望所采取的游戏规则会使两名囚犯坦白认罪。“囚徒困境”博弈的最终结局恰是警官最好的结果,也是囚徒最坏的结果,即两个囚犯统统招供,结果都被判有期徒刑五年。对一个博弈来说,游戏规则非常重要,适宜的规则才能够达到目的。在我们的日常生活中莫不如此,规则制订者往往利用条件制订出有利于自身的规章制度。读到这里,很多读者不禁会问,为什么两个人都选择了“招”,傻到接受这种最坏的结果呢?

囚徒困境和其他的博弈一样,都需要有两个前提假设:囚徒甲和乙两人都是自利理性的个人,即只要给出两种可选的策略,每一方将总是选择其中对他更有利的那种策略。两人无法沟通,要在不知道对方所选结果的情况下,独自进行策略选择。囚犯甲的内心活动是:假如他招了,我不招,我就要将牢底坐穿,招了最坏坐五年,还是招了合算;假如他不招,我也不招,只坐两年的牢,但无法串供,风险太大;如果我招了,他不招,我马上被释放,也是招了合算。因此,无论囚犯乙是坦白还是沉默,囚犯甲采取坦白的策略对自己更为有利。同样,以上推理也适用于囚犯乙。结果两个囚徒都坦白了,都被判刑五年。“囚徒困境”的博弈标准型,见图2-6。图2-6 囚徒困境

囚徒困境之所为被称为“困境”,正在于:如果甲、乙二人都保持沉默,则都只被判刑两年,显然比两人都坦白的结果要好。两名囚犯都做出招供的选择,这对他们个人来说都是最佳的,即最符合他们个体理性的选择。按博弈论的说法,这是唯一的纳什均衡点。除了这个均衡点,甲或乙单方面改变选择,只会得到更差的结果。在其他结果中,比如两人都不坦白时,任何一人都可以通过单方面改变选择来求得减刑。因此,两人经过一番理性算计后,最终会选择一个使双方都陷入不利的策略。

其实“囚徒困境”不允许囚犯甲和乙进行沟通的假设,与实际生活中大部分情况有差异。比如,在爱情博弈中,很多恋人经常花前月下、彻夜厮守;在企业的价格战中,企业之间也会有沟通,甚至结成价格联盟;即使是20世纪中叶美苏军备竞赛中,两个超级大国也经常进行外交谈判,及时交换信息。因此,不妨将条件放宽,允许囚犯甲和乙在审讯室里一起待上十分钟,给予他们充分的串供机会。很明显,双方交流的主旨就是建立攻守同盟,克服自利心理。他们甚至可能会订立一个口头协议,要求双方都不去坦白。然后,双方再单独被提审。

囚犯甲一定会认为,如果囚犯乙遵守约定的话,则自己坦白马上可以获得自由;如果囚犯乙告密的话,若不坦白就会被终生囚禁。事实上,囚犯甲的策略并没有因为简单的沟通或协议而摆脱两难境地。囚犯乙亦然。

囚徒困境的游戏规则,能够让狡猾的罪犯招供,得到应有的惩罚,固然不是坏事。然而,我们不妨假设囚徒甲和乙完全都是清白的理性良民,这个博弈的纳什均衡并不会因为其清白而改变。在现实生活中,如果存在刑讯逼供,完全可能造成屈打成招的冤假错案。

更深刻的意义上讲,囚徒困境模型动摇了传统社会学、经济学理论的基础,这是经济学的重大革命。传统经济学的鼻祖亚当·斯密说:“当个人在追求他自己的私利时,市场的看不见的手会导致最佳经济后果。”(《国民财富的性质和原因的研究》)此即指,每个人的自利行为在“看不见的手”的指引下,追求自身利益最大化的同时也促进了社会公共利益的增长,即自利会带来互利。传统经济学秉承了亚当·斯密的思想。传统经济学认为,经济学不必担心人们参与竞争的动力,只需关注如何让每个求利者能够自由参与公平竞争的市场机制,只要市场机制公正,自然会增进社会福利。

但囚徒困境的结果恰恰表明,个人理性不能通过市场创造社会福利的最大化。每一个参与者可以相信市场所提供的一切条件,但无法确信其他参与者是否能与自己一样遵守市场规则。简单地说,在一个集体里,有可能每个人的选择都是理性的,但对于整个集体来说其结果却未必是理性的。例如大家所熟悉的股市,股市的参与人数虽然十分庞大,但实际上,从短期来看,股市只有多与空、机构与机构、散户与散户之间的双方“博弈”,有人将此称为“零和游戏”。

股市“博弈”双方的多数也处在一种“囚徒困境”中。对于股市中博弈双方来说,当股市涨到最高点时,无论对散户或对机构来说,任何一方最大利益在于“我卖,而你没卖,我获得最大盈利”,而对于双方来说最理想的状态是——大家都不卖,把股市推向一个更高点位,大家都有更多利润空间。但实际结果却大相径庭,市场“无形之手”没起作用,却是“囚徒困境”起到了决定性的作用。第四节 以弱战强的制胜之道

在第二次世界大战中,德国希望以最少的兵力、最快的速度侵占法国。其进攻法国无非有三种选择:从两国接壤的边境发起进攻;借道比利时和卢森堡;借道瑞士。由于瑞士是个高山国家,阿尔卑斯山脉贯穿全境,不便于开展军事行动。按常理说,第三种选择首先被排除。于是,进攻路线的选择就剩下两个:从两国接壤的边境发起进攻;借道比利时和卢森堡。

我们不妨用博弈论来简单地分析一下法国是否有好的策略来阻止德国进攻。如图2-7所示,假设进攻方德军准备进攻法国,军力是两个师;而防守的法国军队有三个师。德军与法军每个师的装备、人员、后勤等完全相同,自然战斗力相同。不妨假想,德国进攻法军有两个方向,分别是A、B两个方向。根据假设,两军相遇时,人数居多的一方取胜,因为战争中都是“易攻难守”,因此当两方人数相等时,守方获胜。同时,军队的最小单位为师,不能够再往下分割。只要德军可以突破防线,就算德军胜利;反之则法军胜利。图2-7 德军进攻法军示意图

由此看来,进攻方德军的策略有三个:

1.两个师集中向法军防线的A方向进攻;

2.兵分两路,一个师向法军防线的A方向进攻,另一个师向法军防线的B方向进攻;

3.两个师集中向法军防线的B方向进攻。

防守方法军则有四种不同的策略:

1.三个师集中防守A方向;

2.两个师防守A方向,一个师防守B方向;

3.一个师防守A方向,两个师防守B方向;

4.三个师集中防守B方向。

我们依次用排列组合来罗列双方各种策略组合下的结果,如图2-8所示。图2-8 以弱胜强博弈一

这个博弈中,德军没有劣势策略,而法军有劣势策略。

如图2-8所示,法军选择策略1,即派三个师防守A方向要劣于策略2的派两个师防守A方向,一个师防守B方向。因为,法军选择策略2的任何一个结果都不比选择策略1的结果差。

图中能够看出这么几种结果:(1)德军选择策略1时,法军选择策略2与策略1相同,都是法军胜利。(2)德军选择策略2时,法军选择策略2是法军胜利,而策略1则是德军胜利,自然选择策略2要好。(3)德军选择策略3时,法军选择策略1和策略2结果相同,都是德军胜利。但法军选择策略2略好于策略1。(4)同理,法军选择策略3也好于策略4。因此,策略1和4都是劣势策略。劣势策略从理性人的角度来看是法军一定不会采用的策略,德军知道法军不会选择策略1和策略4,这样一来,此博弈可简化成图2-9。图2-9 以弱胜强博弈二

这个简化的博弈中,法军反而没有劣势策略,德军却有一个劣势策略,也就是策略2,选择分兵两路进攻法军防线。很明显,德军选择策略2的结局就是根本不可能胜利,理性的德军自然不选择这个劣势策略。这样,博弈矩阵就可以进一步简化为图2-10。图2-10 以弱胜强博弈三

这个时候,德法双方的形势是相同的,换句话讲,尽管德军作为攻方在总兵力上劣于法军,但只要能运用谋略、攻其不备,其获胜的可能性与守方是相同的。

不过真实的历史是,1940年5月10日,德军从卢森堡和比利时东部的阿登森林地区进入法国,撕开了法国防线,德军于是长驱直入。驻守在法国和比利时边境的英法联军一下子被断了后路,被德军包围了。他们一路向后撤,直退到大海边。5月26日这一天,英国动员了所有的船只,从法国接回了33.8万人,这就是著名的“敦克尔刻大撤退”。

这个简化的特殊博弈模型蕴涵了“以弱制强”的道理。如在战争中,总兵力占优势的一方往往并不能保证在某个局部可以获得优势;处于劣势的一方则可以集中优势兵力,在某一个方向或某一场战斗中取得胜利,并逐步积累胜利成果达到整个战役的最终胜利。企业竞争亦然。资本、规模、品牌、人力等都处于劣势的企业,可以在某个局部市场上,集中自己所有的资源并加以整合,造成细分市场上对强势企业的优势,从而成为市场竞争的胜家。同理,在个人求职中,学识、水平等自身素质固然十分重要,然而在面试时,如果能够运用以弱胜强的博弈方法,根据应聘职位的需求,集中展现自身优势,恰当地运用面试方法,就可能在众多实力不凡的竞争对手中脱颖而出。第五节 房地产开发博弈与纳什均衡

在每个博弈者都有优势策略时,占优策略均衡的存在非常合乎逻辑。一个优势策略优于其他任何策略,同样,一个劣势策略则劣于其他任何策略。假如你有一个优势策略,你可以用之,并且知道你的对手若是有一个优势策略他也会照办;同样,假如你有一个劣势策略,你应该避免使用,并且知道你的对手若是有一个劣势策略他也会规避。遗憾的是,并不是所有博弈都有优势策略,哪怕这个博弈只有两个参与者。实际上,优势策略只是博弈论的一种特例。虽然出现一个优势策略可以大大简化行动的规则,但这些规则却并不适用于大多数现实生活中的状况。

来看这样一个房地产开发博弈的例子。假定某市的房地产市场需求有限,A、B两个开发商都想开发一定规模的房地产,但是市场对房地产的需求只能满足一个房地产的开发量,而且,每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下,无论是对开发商A还是开发商B,都不存在一种策略完全优于另一种策略,也不存在一种策略完全劣于另一种策略。

如图2-11所示,如果A选择开发,则B的最优策略是不开发;如果A选择不开发,则B的最优策略是开发;类似地,如果B选择开发,则A的最优策略是不开发;如果B选择不开发,则A的最优策略是开发。这样就形成了一个循环选择。对于这种博弈,只有引入纳什均衡的概念才能得到解决。图2-11 房地产开发博弈

所谓均衡,在经济学中意即相关量处于稳定值。在分析均衡价格与数量的决定和变动的状况时,供需均衡会达到供需相等,市场出[2]清 ,也就是在其他条件不变下,会维持不变的状况。某物供给量等于需求量时的价格,就是其均衡价格,对应的数量就是均衡数量。在供给线与需求线相交之处,也称为均衡点。例如在供需分析中,若某一商品的市场价格使得欲购买该商品的人均能买到,同时想卖的人均能将商品卖出去,此时该商品的供求达到了均衡。这个市场价格可称之为均衡价格,产量可称之为均衡产量。均衡分析是经济学中的重要方法。

纳什均衡的思想其实并不复杂,在博弈达到纳什均衡时,局中的每个博弈者都不可能因为单方面改变策略而增加获益,于是各方为了自己利益的最大化而选择了某种最优策略,并与其他对手达成了暂时平衡。在外界环境没有变化,并且各方坚持利益最大化原则、理性面对现实时,那么这种平衡就能够长期保持稳定。再简单一点说,一个策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的收益将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。

由此可见,纳什均衡是一种稳定的博弈结果。打一个比方,如图2-12所示,如果把一个乒乓球放到一个光滑的铁锅里,不论其初始位置如何,最终乒乓球都会稳定地停留在锅底,这时的锅底就可称为是一个纳什均衡点。相反,如果锅是扣在地上的,那么一个乒乓球很难在锅底部位保持稳定,因为往任何方向的一点点移动,都会使球立刻离开锅底。这时的锅底部位就不是一个纳什均衡点了。图2-12 物理意义上的均衡

博弈的均衡是稳定的,因而必然可以预测。纳什均衡的另一层含义是:在对方策略确定的情况下,每个参与者的策略是最好的,此时没有人愿意先改变或主动改变自己的策略。总而言之,纳什均衡的含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。根据这个原理,则本节中的房地产开发博弈的纳什均衡点不止一个,而是两个:要么A选择开发,B不开发;要么A选择不开发,B选择开发。在这种情况下,A与B都不存在优势策略,也就是A和B不可能只选择某一个策略而不考虑对方所选择的策略。实际上,在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在房地产开发博弈中,我们无法知道最后结果究竟是哪一个。第六节 猎鹿模型的合作哲学

话说某个部落有两个出色的猎人在一起狩猎,他们看到一头梅花鹿。于是两人商量,只要各守住梅花鹿可能逃跑的两个路口,梅花鹿就会无路可逃。只要他们齐心协力,梅花鹿就会成为他们的盘中餐。但如果其中有任何一个人放弃围捕,梅花鹿就会逃跑掉。“福兮祸之所依;祸兮福之所伏。”有时运气太好并不一定有好的结果。正当两个猎人严阵以待、围捕梅花鹿的时候,在两个路口都跑过一群兔子。如果猎人去抓兔子,会抓住四只。从维持生存的角度来看,四只兔子可以供一个人吃四天,一只梅花鹿如果被抓住将被两个猎人平分,可供每个人吃十天。这里不妨假设两个猎人叫A和B。

如图2-13,每一个格子都代表一种博弈的结果。具体说来:(1)在左上角的格子表示,猎人A和B都抓兔子,结果是猎人A和B都能吃饱四天;(2)在左下角的格子表示,猎人A抓兔子,猎人B打梅花鹿,结果是猎人A可以吃饱四天,B则一无所获;(3)在右上角,猎人A打梅花鹿,猎人B抓兔子,结果是猎人A一无所获,猎人B可以吃饱四天;(4)在右下角,猎人A和B合作抓捕梅花鹿,结果是两人平分猎物,都可以吃饱十天。根据纳什均衡的定义,该博弈有两个纳什均衡点:要么分别打兔子,每人吃饱四天;要么合作,每人吃饱十天。图2-13 猎鹿模型

两个纳什均衡,就是两种可能的结局。两种结局到底哪一种最终发生,这无法用纳什均衡本身来确定。比较[抓兔,抓兔]和[打梅花鹿,打梅花鹿]两个纳什均衡,明显的事实是,两人一起去猎梅花鹿比各自去抓兔子可以让每个人多吃六天。因此,合作猎鹿的纳什均衡具有帕累托优势。与[抓兔,抓兔]相比,[打梅花鹿,打梅花鹿]不仅有整体福利改进,而且每个人都得到福利改进。换一种更加严密的说法就是,[打梅花鹿,打梅花鹿]与[抓兔,抓兔]相比,其中一方收益增大,而其他各方的境况都不受损害。这就是[打梅花鹿,打梅花鹿]对于[抓兔,抓兔]具有帕累托优势的含义。

在经济学中,帕累托效率准则是:经济的效率体现于配置社会资源以改善人们的境况。如果资源已经被充分利用,要想再改善自己的境况,你就必须损害另外某个人的利益。一句话简单概括,任何人要想再改善都必须损害别的人,这时候就可以说实现了帕累托效率。相反,如果还可以在不损害别人的情况下改善,我们就认为经济资源尚未充分利用,就不能说已经达到帕累托效率。效率是指资源配置已达到这样一种境地,即任何重新改变资源配置的方式,都不可能使一部分人在没有其他人受损的情况下受益。这一资源配置的状态,被称为“帕累托最优”状态,或称为“帕累托有效”。[打梅花鹿,打梅花鹿]也可以说是猎鹿博弈的一个合作解,这个博弈又可以称之为合作博弈,合作博弈强调的是双方协调合作获得双赢。

猎鹿模型是假设猎人双方平均分配猎物。我们不妨再来做这样一种假设,猎人A比猎人B狩猎的能力水平要略高一筹,但B猎人却是酋长之子,拥有较高的分配权。可以设想,A猎人与B猎人合作猎鹿之后的分配不是两人平分成果,而是A猎人仅分到了够吃两天的梅花鹿肉,B猎人却分到了够吃十八天的梅花鹿肉。在这种情况下,整体效率虽然提高,但却不是帕累托改善,因为整体的改善反而伤害到猎人A的利益。这就是所谓的非合作博弈。

非合作博弈强调利益的冲突,即非合作甚至对抗状态。再如,“零和博弈”就是典型的非合作博弈,它是指博弈各方的所得之和为[3]零 ,在特殊情况下如二人博弈时,一方所得与另一方所失相等。从严格的数学角度来看,围棋19×19的361个交叉点就是围棋对弈者所得的总和,因此围棋棋手非输即赢,可见围棋明显是数学意义上的严格的零和博弈。值得说明的是,对于下棋这样的有限回合的博弈,由于博弈过程过于复杂而难以应用倒推法求均衡解。第七节 纯策略的纳什均衡求解

确定最优反应策略的一个简单方法,就是在支付矩阵中与每一个策略的最优反应策略相对应的收益或支付数字下标注下划线。这就是纯策略纳什均衡求解的划线法。划线法的基本思想在于,一个博弈参与者首先要做的是针对其他参与者的每种策略,找到自己的最佳对策,即自己所有的可选策略与其他参与者的策略组合之后是使自己得益最大的一种策略。这种策略是相互比较而得到的,因此总是存在。

我们用划线法求解第一章金发女郎问题的纳什均衡解。如图2-14所示,当纳什选择追求金发女郎策略时,对于兰哈德来说,追求其他女士的收益2要高于与纳什发生冲突的收益0,因此,对他来说追求其他女士是最优反应。图2-14 金发女郎博弈划线法第1 步

如图2-15所示,当纳什选择追求其他女士策略时,对于兰哈德来说,追求金发女郎的收益5要高于追求其他女士的收益2,因此追求金发女郎是他的最优反应。图2-15 金发女郎博弈划线法第2 步

如图2-16所示,当兰哈德选择追求金发女郎策略时,对于纳什来说,追求其他女士的收益2要高于与兰哈德发生冲突的收益0,因此追求其他女士是最优反应。图2-16 金发女郎博弈划线法第3 步

如图2-17所示,当兰哈德选择追求其他女士策略时,对于纳什来说,追求金发女郎的收益5要高于追求其他女士的收益2,因此追求金发女郎是最优反应。图2-17 金发女郎博弈划线法第4 步

由此可以得到图2-18,[追求其他女士,追求金发女郎]与[追求金发女郎,追求其他女士]为金发女郎问题的纳什均解。图2-18 金发女郎博弈纳什均衡解

除了划线法外,在2×2博弈中,还可以用箭头法得出与划线法同样的结果。在图2-19中随便找一个方格,博弈的一个参与者在其他博弈者保持原来的策略不变时,能够通过改变策略获得更多收益,则这个参与者调整策略,用箭头表示其改变的方向。如在第一个方格中,纳什选择金发女郎时,兰哈德由追求金发女郎改变为追求其他女士,这时箭头由第一个方格中的支付0指向下方的支付2。其他依此类推。当在某一个方格中,箭头不再指向其他方格时,该方格即为纳什均衡解,方格中双方参与者的策略均为最优反应。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载