耶鲁博弈论 第2节 学会换位思考
一些定义
形成博弈的要素
- 参与人(players),用 $i$, $j$ 表示
- 参与人的策略(strategies),用 $s_{i}$,$s_{j}$ 表示;
所有可能的策略集合 $S_{i}$,区别于参与人的策略小写 $s$;
某一次博弈 $s$,用不带下标的 $s$ 表示,称为策略组合(a strategy profile),也称为策略向量 - 博弈的收益(payoffs),用大写的 $U$ 表示,$U_{i}$ 取决于参与博弈的 $N$ 个人的博弈策略,记做 $(s_{1},…,s_{i},…,s_{i})$,简写为 $U_{i}(s)$,由策略组合决定(即所有参与博弈的人) 我们用 $s_{-i}$ 表示除了 $i$ 之外的其他参与者的决策,因为考虑在和对手在不同选择下的收益是很有必要的,填数游戏中以标准形式描述博弈:
$$
U_{i}(s)=
\begin{cases}
5美元 - 误差 \
0
\end{cases}
$$
再用一个例子熟悉使用符号语言来描述博弈:
左 | 中 | 右 | |
---|---|---|---|
上 | 5, -1 | 11, 3 | 0, 0 |
下 | 6, 4 | 0, 2 | 2, 0 |
这里参与人是 $A$ 和 $B$
策略集合是 $S_{1}={上,下}$,$S_{2}={左,中,右}$
收益:例如 $U_{1}(上,中)=11$,$U_{2}(下,右)=0$
显然对于参与者 $B$,右是严格劣势策略。因此我们给出 严格优势策略的定义:
$$
\begin{aligned}
参与人 i 的策略 s_{i}^{‘} 严格劣于参与人 i 的另一个策略 s_{i},在其他参与者\ 选择 s_{-i} 时,选择 s_{i} 的收益 U_{i}(s_{i}) 严格优于此情况下 s_{i}^{‘} 的收益 U_{i}(s_{i}^{‘})
\end{aligned}
$$
再来一个例子:
汉尼拔将军将要攻打一个国家,他有两个营的兵力,他可以选择从崎岖道路(翻过阿尔卑斯山)进军(但是行军途中要损失一个营的兵力),也可以选择从平坦的道路(平原)进军(途中没有损失)。防守者只能在崎岖道路和平坦道路其中之一设防,当进攻者遇到防守者时,进攻者将损失一个营的兵力。若你是防守者,你该选择何处设防?
双方收益如下:(行是防守者,列是进攻者)
easy | hard | |
---|---|---|
easy | 1, 1 | 1, 1 |
hard | 0, 2 | 2, 0 |
在这个例子中,防守者似乎没有严格优势策略,但是对于汉尼拔将军(进攻方)来说,选择平坦道路进攻似乎优于从崎岖道路进攻,这只是一个优势策略,并非严格优势,只是一个弱优势。我们引出 弱优势 的定义:
$$
\begin{aligned}
\begin{array}{c}
参与人 i 的策略 s_{i}^{‘} 弱于参与人 i 的另一个策略 s_{i},在其他参与者\
选择 s_{-i} 时,选择 s_{i} 的收益 U_{i}(s_{i}) 大于等于此情况下 s_{i}^{‘} 的收益 U_{i}(s_{i}^{‘}),即\
U_{i}(s_{i},s_{-i}) \geq U_{i}(s_{i}^{‘},s_{-i})\ for\ all\ s_{-i} \
U_{i}(s_{i},s_{-i}) > U_{i}(s_{i}^{‘},s_{-i})\ for\ some\ s_{-i}
\end{array}
\end{aligned}
$$
回到填数游戏
好,那么我们现在回到第一节课的填数游戏,在 $1-100$ 之间任选一个数,最接近平均数的 $\frac{2}{3}$ 的人获胜。
老师询问了填 $33-35$ 之间的数的同学,他们回答:大家在 $1-100$ 之间随机选择一个数,最后平均值会在 $50$ 左右,而 $50$ 的三分之二就是 $33$ 左右。
这个说法看似正确,但是却忽略了一个重要前提:教室里的人并不会随机选择一个数,他们都想赢得这5美元。若人人都这样想,最终平均值会趋近于 $33$,而 $33$ 的三分之二是 $22$。然而,这还是太大了。
再次重申这个游戏的重点:每个人都有自己的策略,每个人都想赢。
那么我们来分析一下这个游戏,哪些选择是(弱)劣势策略?
设想最坏的情况,每个人都选了 $100$ 那么这样最终的结果也只是 $66\frac{2}{3}$ 最接近的是 $67$,那么选择大于 $67$ 的数相对于 $67$ 来说就是弱劣势策略。这样对于理智的人来说,游戏简化成了在 $1-67$ 之间选择一个数,因为他们知道没人会选择 $67$ 以上的数。
同样,相似的策略也会被排除,这样,$45$ 以上的数也不会有人选。但是 $45-67$ 之间的数在原博弈中并不是弱劣势策略,可是我们排除掉 $67-100$ 的时候,$45-67$ 便成为了弱劣势策略。同理,$30-45$ 也被排除,$20-30$,$14-20$……直至 $1$.
尽管 $1$ 就是这个游戏的最优策略,但是这一切都是建立在参与人都是理性的情况下,并且理性的参与者知道其他人也都是理性的。我们用术语共同知识来描述类似:我知道,我知道你知道,我知道你知道我知道…这样的循环。但是实际上,每个区间的数都有人选择,这就要考虑分布的问题了。最终老师公布结果,平均数在 $13$ 左右,最终选择 $9$ 的人获得了胜利,巧的是,这也是所有人选择的中位数。
按照之前的最优策略,为什么 $1$ 不是最终结果呢?尽管有相当一部分人选择了 $1$,