博弈论

博弈的解——混合策略

字体:16+-

假设博弈中的每一个局中人在博弈开始前就已经设想了可能发生的一切情形,并做出了相应的应对决策,也就是说局中人事先已经对博弈有了一套完整的计划,只要局中人对于每一种可能发生的情况,以及在那个时刻他所掌握的每一条情报信息的判断与博弈规则提供给局中人的情报形式相一致,这个计划将明确他会采取什么样的选择。这时,我们把这种计划称为一个“策略”。

相信不少人都玩过井字棋游戏,假设在游戏中自己先行,只要自己的方法是正确的,那么对手将无法击败自己。相反地,假设对方采用了正确的方法先行,那么自己将无法赢得对手。对于这种类型的博弈来说,它们最终的胜负结果都是随机的。

假设在某个博弈中,参与者轮流将硬币往桌上放,直到参与博弈的一方放不下硬币时,就意味着这个参与者在博弈中失败了。若在这个博弈中,自己作为先行的一方,那么便会采用完美的策略保证自己最终获胜。最简单、常用的策略是先行的一方将硬币放在圆桌的正中心,由此一来,不论对手将硬币放在何种位置,先行的一方都能够将硬币放在恰好对称的位置,这能够保证先行的一方永远不会输,而且输掉博弈的人只能是对手。

象棋实际上也和上述的博弈一样简单,假设参与博弈的两个人都拥有非常良好的计算能力,那么博弈的结果无外乎:双方打成平手、先行者必然获胜、后行者必然获胜。虽然我们并不知道最终的博弈结果是哪一种,但是我们通过博弈的逆向推理,博弈论很好地证明了象棋必定具有这种简单属性。

假设我们将象棋看成简单的博弈,那么猜硬币则不属于此类博弈,若是参与猜硬币的双方想要保持一致,那么当其中的一方选择正面时,另外一方也需要选择正面,但是假设先行者选择了正面,同时对手知道了先行者的选择,对手为了战胜先行者,便会选择反面。这时先行者又会选择反面,那么对手知道后,便会选择正面。由此看来,这是一个无限循环。

通过这类博弈,我们能够清楚地认识到,如果你不想让对手知道自己的“秘密”,那么自己也不要知道。或许你可以采用投掷硬币的方式,并且用正反面决定自己所要采取的行动,在这种随机的决定下,即使你的对手十分理性,同时知道了你的政策,最后他能获胜的几率也仅仅是一半罢了。

我们经常玩的游戏“石头、剪刀、布”,还有“配铜钱”等,都属于零和二人博弈的问题。但是这些博弈问题中,往往包含参与者自身的经验和生活常识等影响因素。

比如,有些人玩过的“配铜钱”游戏,无非是出“正面”或者“反面”两种博弈的策略选择方式,重中之重是参与博弈的人需要猜测对方的策略,这种方式似乎非常困难,而且不具有规律性。由于这个游戏的博弈规则十分明确地规定了,当其中的一个参与者做出自己的决策时,另外一名参与者禁止得到对方做出的选择的任何信息。但是这种说法仅考虑到理论层面,实际生活中进行类似的游戏时并非如此。

假设,两个局中人进行一次“配铜钱”游戏,其中的一个参与者在此次赛局中不会刻意去揣测对方的意图,而另外一位局中人是智力中上等的参与者。那么,这个局中人在博弈中要做的就是,尽量避免让对方猜到自己的对策。因此,他会在连续的局中毫无规律地出“正面”或者“反面”。

实际上,我们需要了解的是参与博弈的人在同一单独局里的对局策略,那么我们便需要针对一局进行研究和讨论,而不是讨论局中人在一连串的局中的策略。假设我们不用局中人是否出“正面”或者“反面”,而是规定出“正面”的概率为1/2,出“反面”的概率也是1/2。为了保证博弈的有理性,我们规定博弈的局中人可以在他们选择行动前,采用随机的方法,来选择自己究竟是出“正面”还是“反面”,这样就能够保证他们的利益不受到损失。这种前提规定的优点是,不论对方选择出哪一面,前面的局中人对博弈赛局的期望值永远是0。这种方式的特别之处在于,若是其中的一方十分确定对方要出“正面”或者“反面”,那么他对整个赛局的数学期望都将是0。此时,若是对手也选择了和局中人同样的做法,那么结果自然是一样的。

假设我们提前设定,“配铜钱”博弈中的一个局中人能够自主选择他认为的所有可能获胜的策略进行整合,在这种情况下,能够保证他自身的利益不受损。由此一来,采用这种决策方式,不论对手做何选择,他都不会有利益损失。相同地,假设对方也使用这种策略,便能让前面博弈对局中的人不论怎样也赢不了。

“石头、剪刀、布”中的博弈亦是同样的道理,因为每一局的玩法都会出现3种可能,与上面所提到的“配铜钱”游戏相似,选择所有可能的“混合”方式,便能获得最好的博弈策略。

除了“配铜钱”中的博弈外,我们还可以针对生活甚至文学里的内容研究博弈,就像下面这个福尔摩斯探案集中的故事:

为了躲避一直在追踪他的莫里亚蒂教授,夏洛克·福尔摩斯迫切想要离开伦敦,然后前往多维尔港,再从那里前往欧洲。然而一切并非他想象中的那样,当他乘上火车,列车将要出发时,一个他最不想看见的面孔出现在站台上,他看见莫里亚蒂教授正在站台上望着他。

在夏洛克·福尔摩斯看来,当他的对手发现自己时,便会有把握用特殊的方式追上他,而这时福尔摩斯若想逃脱对手就会有两种方法:要么直接前往多维尔港,要么只能在去往多维尔港的中间站坎特伯雷下车。此时,若是福尔摩斯的对手能够有足够的智谋,并且预料到这些情况,而且有着与福尔摩斯相同的选择,那么两个人便会选择在同一个地点下车。假设双方都不确定对方的行动决策,那么使用上述方式后,若最终他们的下车地点是同一个地方,答案不言而喻,夏洛克·福尔摩斯定会落入莫里亚蒂教授手中;相反地,若是夏洛克·福尔摩斯成功到达了多维尔港,那么他便能够逃脱莫里亚蒂教授,成功按照自身的计划远走高飞。

此时,我们不禁会疑惑,在一场博弈中究竟何种策略才是最佳选择呢?尤其是在这个故事中,怎样决策才能保证夏洛克·福尔摩斯成功逃离莫里亚蒂教授呢?他们两人的博弈与“配铜钱”中的博弈有异曲同工之妙,即莫里亚蒂教授非常希望他在这场博弈中,能够成为那个成功相配的局中人。

博弈的策略无外乎两种:第一种是夏洛克·福尔摩斯成功到达了多维尔港,但是莫里亚蒂教授停留在了坎特伯雷,那么这就意味着福尔摩斯是此次博弈的赢家;第二种是虽然福尔摩斯在换乘的地方成功逃离了莫里亚蒂教授,但是最终未到达欧洲,这种情况是此次博弈中的一个和局。