博弈论总结（上）

发表于 2024-11-28 更新于 2025-07-02 分类于 Sundry Waline：

最近读了两本博弈论的相关书籍，简单总结下相关的概念。需要提前区分的几个概念是，囚徒困境，博弈，纳什均衡。

这三个概念我们在接触博弈论的时候会经常听到，他们之间的关系是：博弈有很多中不同的类型，不同的类型有不同的纳什均衡点，其中有的是好均衡，有的是坏均衡，而囚徒困境指的就是某些类型的博弈(如囚徒博弈)容易陷入坏的均衡当中。

什么是博弈论

一场博弈一般包含4个元素：

至少两个参与者。参与者在博弈中的表现便是制定决策和对方的决策抗衡，并为自己争取最大利益。参与者之间的关系是相互影响的，自己在制定策略的时候往往要参考对方的策略
利益。决策主体之所以投入博弈中来，就是为了争取最大的利益。利益是一个抽象的概念，不一定是钱，也可以是一定时间内锁定哪个电视频道。但是有一点，必须是决策主体在意的东西才能成为利益
策略。决策主体根据获得的信息和自己的判断，制定出一个行动方案，这个行动方案便是策略。博弈论的关键在于制定一个帮助本方获取最大利益的策略，也就是最优策略。策略必须要有选择性，如果没得选，也不能称为策略
信息。利益是博弈的目的，策略是获得利益的手段，而信息就是制定策略的依据

博弈的结果：

两败俱伤。每一位参与者的收益都小于损失，没有人占到便宜。有人想，理智的人是不会做出这种事情的，但是事实上，人们经常会置自己和对手于两败俱伤的困境中
零和博弈。一方有收益，另一方一定有损失，并且各方的收益和损失之间的和永远为0。赌博是理解零和博弈比较好的例子。而人际交往中的零和博弈，起因大都是一方想要吃掉另一方。零和博弈的特点是参与者之间的利益是存在冲突的，所以解决零和甚至负和博弈的最好方式是消除双方的利益冲突，比如为对方的利益找到其他的解决方式
双赢

博弈的模式：博弈的模式多种多样，如智猪博弈，猎鹿博弈，海盗分金等等

博弈从不同维度也分很多种，如合作性博弈/非合作性博弈，短期博弈/长期博弈，只有长期博弈才可能打破囚徒困境将博弈变为合作性博弈并进入好的纳什均衡

综述

合作的达成需要考虑很多方面，个人道德是一方面，法律保障的合约是一方面，最重要的是有共同利益。

凡是事物都有两面性，既然陷入囚徒困境是痛苦的，那我们可以将这种痛苦施加在对手身上。

比如你有两个供应商，你可以对一方承诺如果他降价，则全部的订单都给他，这个时候另外一个供货商也会降价，以保住自己的订单，这样，两个供应商便被你人为制造的博弈拖入了囚徒困境，最终受益的人是你。

除了竞争与合作之外，如何分配也是一个非常重要的问题，博弈论中的“智猪博弈”模式便会涉及这个问题。一头大猪和一头小猪在一起，大猪去碰按钮后投下的食物两头猪一起吃，而小猪去碰按钮，还没跑回食槽，食物就被大猪吃完了，因此，对于小猪来说，去主动碰按钮还不如什么都不做等着“搭便车”。这个问题涉及经济中的分配问题，如一些员工什么都不做就可以享受团队取得的成果和别人拿一样多的奖金，这个时候他们就会选择不出力。这种情况就需要企业建立一种公平的奖惩机制，多劳多得。

“智猪博弈”给我们的启示除了建立公平的奖惩机制外，还有就是“小猪如何跑赢大猪”，也就是如何以弱胜强，从这角度讲，“搭便车”便成了一种比较有效的方式，比如你做的产品与某个知名大品牌类似，但是有没有足够的预算投入广告，你就可以通过将自己的产品与大公司的产品放在一起比较的方式提高知名度。

决定博弈胜负的关键是做出的决策，而制定决策的依据是信息。信息还可以分为私有信息和公共信息，当你掌握的信息是私有信息时，你的决策是怎样的，当你掌握的信息是公共信息时，你的决策又该是怎样的？

有的场景下，你有一个策略，无论对方选择什么样的策略，这个策略都会给你带来最大的收益，那你就应该选择这个策略，不需要考虑对方的选择，这就叫做优势策略，如果你的策略需要参照对方的策略来制定的话，你就需要推测对方的选择，以此制定自己的策略，比如如果对方有优势策略，那么对方大概率选择优势策略，你就可以依此制定自己的策略。

什么叫纳什均衡

纳什均衡是博弈论中一个非常重要的概念，，如果一个博弈没有任何纳什均衡的点，那这个博弈的结果是无法推测的。

所谓“纳什均衡”，简单来说就是在多人参加的博弈中，每个人根据他人的策略制定自己的最优策略（不是优势策略）。所有人的这些策略会组成一个策略组合，在这个策略组合中，没有人会主动改变自己的策略，那样会降低他的收益。只要没人做出策略调整，任何一个理性的参与者都不会主动改变自己的策略。

也就是说一旦陷入纳什均衡，没有人会有动力修改自己的策略，因为自己单方面修改会导致自己的收益降低，这个策略不一定是最优的，一场博弈也不一定只有一个纳什均衡点

纳什均衡主要用于研究非合作博弈中的均衡，如果把纳什均衡比做锅里的乒乓球，如果你把几个乒乓球放到锅里，他们便会向锅底滚去，并在锅底相互碰撞，最终达到平衡的状态

囚徒博弈和囚徒困境

所谓的囚徒困境，说的是有的博弈容易陷入不好的纳什均衡，在这个博弈中，可能有更好的均衡点，大家的收益都更大，但是最终结果不会是更好的均衡点，这种没办法从坏均衡跳到好均衡的情况就叫做囚徒困境。

以著名的囚徒博弈的例子来看，表格中的数字表示两名囚徒在不同选择下的刑期

	坦白	不坦白
坦白	（8，8）	（0，10）
不坦白	（10，0）	（1，1）

这个囚徒博弈中，有两个纳什均衡点，一个是都不坦白，是好均衡，两人的刑期只有1年，也有一个坏均衡，两个人的刑期都是8年。

为什么说这两个都是纳什均衡点呢？假设AB都选择坦白，没有人会突然选择不坦白，因为会让自己的刑期从1到10，同样，如果AB都选择不坦白，也可以在这里均衡。

但只要有任何一人选择坦白，都会导致另一个人选择坦白，最终会重新陷入坏均衡，这就是囚徒困境。

那什么样的博弈会陷入囚徒困境呢？

只有坏均衡没有办法通过单方面改变策略获得更大收益，好的均衡都有可能通过单方面改变策略获得更大收益
信息不互通。也就是不知道其他参与方的决策，那么对方就有可能会通过在好均衡下改变策略以获得更大利益，两个人如果知道对方选择不坦白，就不会陷入囚徒困境
有限博弈。如果两人是一个帮派，帮派规定是如果背叛，出去就会被严厉惩戒，那这个博弈就不再是单次博弈，双方都认为这是一个无限博弈，二人也会都选择不坦白

囚徒困境当然是不好的，但是也是有所启示。如果可以通过创造条件让让自己的对手和其他对手陷入囚徒困境，那就对自己有利，如果自己不幸陷入囚徒困境，就要想办法打破囚徒困境的成立条件，比如主动获取对方信任，或者让对方认为你们之间是无限博弈（当然不存在所谓的无限博弈，但重要的是参与方是否认为是无限博弈），只有无限博弈才可能产生将非合作性博弈引向合作。

集体中的每个人的选择都是理性的，但是得到的结果却可能不是理性的结果，这种“集体悲剧”也是“囚徒困境”反映出来的一个重要问题

还有其他各种类型的博弈，有的是合作性的，有的不是，有的前面是合作的，后面是不合作的，下篇博客逐个介绍。