博弈论总结(下)

上一篇关于博弈论中一些重要概念博客讲了什么叫博弈,博弈的基本元素,什么叫纳什均衡,什么叫囚徒困境,什么叫优势策略,并且讲了一个博弈的类型叫做囚徒博弈。

这次博客就分别简单介绍几种不同类型的博弈,他们的特征以及如何利用和转化不同的博弈。

囚徒博弈

表格中的数字表示两名囚徒在不同选择下的刑期

坦白不坦白
坦白(8,8)(0,10)
不坦白(10,0)(1,1)

这个囚徒博弈中,有两个纳什均衡点,一个是都不坦白,是好均衡,两人的刑期只有1年,也有一个坏均衡,两个人的刑期都是8年。

为什么说这两个都是纳什均衡点呢?假设AB都选择坦白,没有人会突然选择不坦白,因为会让自己的刑期从1到10,同样,如果AB都选择不坦白,也可以在这里均衡。

但只要有任何一人选择坦白,都会导致另一个人选择坦白,最终会重新陷入坏均衡,这就是囚徒困境。

那什么样的博弈会陷入囚徒困境呢?

  1. 只有坏均衡没有办法通过单方面改变策略获得更大收益,好的均衡都有可能通过单方面改变策略获得更大收益
  2. 信息不互通。也就是不知道其他参与方的决策,那么对方就有可能会通过在好均衡下改变策略以获得更大利益,两个人如果知道对方选择不坦白,就不会陷入囚徒困境
  3. 有限博弈。如果两人是一个帮派,帮派规定是如果背叛,出去就会被严厉惩戒,那这个博弈就不再是单次博弈,双方都认为这是一个无限博弈,二人也会都选择不坦白

智猪博弈

在一个猪圈里,有一大一小两只猪,且在同一个食槽里面进食。根据猪圈的设计,猪必须到猪圈的另一端碰触按钮,才能让一定量的猪食落到食槽里中。假设落入食槽中的食物是10份,且两头猪都有智慧,那么当其中一头猪去碰按钮的时候,另一只猪便会趁机去先吃落到食槽中的食物。而且由于从按钮到食槽有一定的距离,所以碰触按钮的猪吃到的食物量必然会减少,如此一来,会出现以下三种情况:

  1. 如果大猪去碰按钮,小猪就会等在食槽旁,在大猪赶回食槽之前,小猪可以提前吃一部分,最终大猪和小猪的进食比例是6:4
  2. 如果小猪去碰按钮,大猪就会等在食槽旁,在小猪赶回食槽之前,大猪会吃完所有
  3. 如果两只猪都不去碰按钮,那么两只猪都不得进食,最终的比例是0:0

从这个分析来看,小猪的优势策略就是等在食槽旁边,等大猪来按按钮,而大猪已经不能再指望小猪去按按钮了,自己去的话,还能吃上6分,不去大家都没得吃。于是大猪就得来回奔波,小猪坐享其成。

很显然,“大猪幸苦奔波,小猪搭便车”是这种博弈模式最为理性也是最合理的解决方式。

在生活中,我们可以看到很多这种模式的博弈:实力雄厚的大品牌会对某类产品进行大规模的产品推广活动,投放大量广告,过一段时间后,我们会发现这类产品的品牌逐渐变多,有很多不知名的小品牌。那为什么看不到这些小品牌对自己的产品进行推广呢?这就可以用智猪博弈来解释,很多小品牌并没有办法支付高额的宣传费用,所以对他们来说,最好的方式就是“搭便车”。

从这例子也可以看出,想要“搭便车”,首先要做的就是和“大猪”在一个“猪圈”里。

猎鹿博弈

从前的某个村庄住着两个出色的猎人,他们靠打猎为生。有一天,他们发现了一头梅花鹿,于是商量一起抓住梅花鹿。当时的情况是,他们只要把梅花鹿可能逃跑的两个路口堵死,那么一定可以抓到,这就要求他们必须齐心协力,否则两个人都会一无所获。

但是在这个时候,一群兔子从路边经过,如果猎人中的一人去抓兔子,那么每个人都可以抓到4只。假设一头鹿可以让每个人都吃10天,而一只兔子可以让一个人吃一天,那么这个博弈的矩阵图如下:

猎兔猎梅花鹿
猎兔(4,4)(4,0)
猎梅花鹿(0,4)(10,10)

这个矩阵中存在两个纳什均衡,要么都猎兔,要么都猎梅花鹿。

两个人都猎兔的情况下,任意一人不会单方面去猎鹿,因为会使自己的收益从4到0,两个人都猎鹿的情况下,任意一人不会单方面去猎兔,因为这样会使自己的收益从10到4

另外的两种情况是无法稳定的,并非纳什均衡,因为任何一个人选择去猎鹿,那么剩下那个人一定也会从猎兔到猎鹿,这样会使自己的收益从4到10。

这个就是猎鹿博弈和囚徒博弈的不同点,囚徒博弈的纳什均衡和猎鹿博弈的纳什均衡都是双方合作以及双方不合作,区别在于,猎鹿博弈下,非纳什均衡时,即一人合作,另一人不合作时,不合作的人选择合作会让自己的利益更大,而囚徒困境则是合作的人选择不合作会让自己的利益更大。

那么为什么二者的非纳什均衡点会有不同的变化呢,一方面是因为,猎鹿博弈的个人最大利益和整体最大利益是一致的,而囚徒博弈中,个人最大利益和整体最大利益是冲突的,另一方面是因为,囚徒博弈的参与方是没有互通消息的方式的,即他们很难达成共识。

这种个人最大利益和整体最大利益是一致的的情况,叫做帕累托优势,其准确的定义是,当其中一方收益增大时,其他各方情况没有更差。

帕累托优势有一个准则,即帕累托效率准则,用一句话来讲,如果任何人想要改善情况都必须损害比人的利益,那说明当前已经是帕累托最优了。

猎鹿博弈中,双方猎鹿的纳什均衡的帕累托效率是比双方猎兔的更高的,前者就比后者更具有帕累托优势。

当然,如果合作的结果是(17,2)或者(18,2)这种,那么它们相对于分别猎兔的(4,4)就没有帕累托优势,因为有人的利益受损了,这种情况下,猎鹿博弈就会变成囚徒博弈