博弈理论中存在一些对人的基本假定,比如它假定参与博弈的人必须是理性的,而理性就意味着他在博弈中是从自己的利益出发的,或者说他是自私的。理性的人在博弈过程中会将自身利益最大化作为自己的目标,因此,博弈论的研究是建立在理性人之间的博弈之上的。约翰·福布斯·纳什利用他创造的“囚徒困境”博弈故事清楚地说明了“纳什平衡”的存在,也即在非合作博弈中存在一个均衡解,这个解可使博弈双方的利益都获得保障。
每场博弈中都会涉及三大要素:参与者、策略、得失。在囚徒困境中,两个囚徒是博弈的参与者,他们选择的策略都是承认杀人事实,结果两人都赢得了中间宣判结果。而如果一名囚徒承认杀人事实,另一名囚徒不承认杀人事实,其结果是承认者获得减刑,否认者获得死刑。最后两个理性的囚徒在经过慎重考虑之后,都选择承认杀人事实,这样一来他们都获得了稳妥的保命结果。除了囚徒困境,我们还能在“自私基因”“智猪博弈”等理论中找到这种均衡解。
美国博弈论专家罗伯特·阿克塞尔罗德在研究合作型博弈时首先设定了两个前提条件,第一个条件是每个参与者都是理性的(自私的);第二个条件是没有外界因素干扰参与者的个人决策。这就意味着,在合作博弈中,每个参与者都会为了最大化自身利益而进行个人决策。在这两个条件下,罗伯特·阿克塞尔罗德研究了以下三个关于合作的问题:一是博弈者为什么要合作;二是博弈者在什么时候合作,什么时候不合作;三是博弈者如何使别人与他合作。
这三个问题的研究意义深远,它们在社会实践中的合作问题上多有体现,比如贸易博弈中如何通过合作来使博弈双方都能获得稳定收益的问题等。在博弈过程中,若参与双方都追求自身利益的最大化,就会损害群体利益。
举例来说,若现在进行一场合作博弈,A、B分别代表博弈双方,两者都能自由进行无差别选择。现在,摆在两人面前的选择有两个:合作和不合作。我们用Y代表合作,用N代表不合作,并设定以下规则:若A和B都选择Y,两人都得3分;若A和B都选择N,两人都得1分;若一人选Y,另一人选N,选Y的人得零分,选N的人得5分。
在这个例子中,对这个两人团体来说,最优的策略是两人都选Y。这样一来,每个人都能得到3分,团体得分就是6分。若两人都选择N,那么每人各得1分,团体得分是2分;若一人选Y,另一人选N,则选Y的人得零分,选N的人得5分,团体得分是5分。
该博弈论通过得分矩阵可以清楚地描述个体理性与团体理性之间的矛盾。若个人在博弈中追求利益最大化,就会使群体利益受损,这就是这类博弈所体现的重要内涵。站在A的角度来考虑,可以发现,若B选Y, A在选N的情况下可以获得最大化利益,即5分;若A在B选择Y的前提下选择了Y,他可以得3分;若B选N, A也选择N,他只能得1分;若A在B选择N的前提下选择了Y,他只能得零分。A所能获得的可能得分从最高到最低分别是5分,3分,1分,零分。对A来说,要使自身利益最大化就是得5分;要使团体利益最大化就是得3分。其中的困境在于如何使每个人在选定策略后都能得到稳定的分数,同时还不让自己离利益最大化太远。个人得5分虽然可以实现其自身利益最大化,但整个团体的分数只有5分;若每人得3分,团体得6分,团体利益就能实现最大化,但个人只能获得3分,距离他们的最高目标5分还差一些。这就是个人理性和团体理性之间的矛盾。
若这个博弈只进行一次便结束,那么它在数学上是没有最优解的。若博弈可进行多次,且两个参与者知晓博弈的次数,那么理性的他们在最后一次博弈中一定会选择相互背叛,这样才能实现自身利益最大化。如果是这样的话,他们在之前的博弈中是否合作都是无关紧要的,即使两人达成了一次合作,也是没有必要的。所以,参与者在知道博弈次数的情况下不会进行合作。
但是,如果这类博弈是在多人之间进行的,同时每一个参与者都不知道具体的博弈次数,那么在这种情况下,参与者就会意识到这个问题,即在持续地选择合作时,每一个人都能持续且稳定地得到3分。若彼此持续不合作的话,每个人只能持续得到1分而已。通过这样的思考,参与者之间的合作动机就非常明显了。多次博弈的过程中,参与者未来的收益要比现在的收益增加一定的折现率,这个折现率越大,则未来的收益越重要。而这个折现率在多人博弈持续进行的条件下相对较大,所以未来的收益趋于最重要。这个时候,参与者的最优策略就与别人采取的策略产生了联系。我们假设一个参与者第一次选择合作策略,之后一旦对方不合作,他便选择永不合作。与这种参与者进行博弈,一直与他合作下去当然是最有利的。我们再假设有一个参与者无论别人采取何种策略,他都选择合作,那么与这种参与者进行博弈,始终不与他合作才能获得最高的分数。与此同时,我们对于那些总是不合作的人往往会采取不合作的策略。
阿克塞尔罗德根据这些思想制定了一个这样的实验:他邀请一群人来参加这个博弈游戏,得分规则与我们提到的A和B之间的合作博弈一样,但何时结束这个游戏,没有人知道。阿克塞尔罗德要求每一个参与游戏的人把自己感到得分最高的策略编成计算机程序,然后让这些程序两两博弈循环进行下去,看一看究竟哪种策略的得分最高。
第一轮游戏总共有15个程序参加,包括阿克塞尔罗德自己制定的一半概率合作一半概率不合作的随机程序和14个主要考察对象设计的程序。在两两循环博弈进行了300次后,阿克塞尔罗德终止了游戏,最后的结果显示,加拿大学者罗伯布的“一报还一报”程序获得了最高得分。“一报还一报”程序的特点在于第一次对局采取合作策略,之后每次对局都以对手上一次的策略作为参考,即对手上一次选择合作,我这一次就选择合作,对手上一次选择不合作,我这一次就选择不合作。阿克塞尔罗德对得分较高的程序进行了分析,他发现得分排名靠前的程序一般有三个特点:一是具备“善良性”,即从来不主动背叛别人;二是具备“可激怒性”,即对于别人的背叛不能一直许以善意的合作,还要具备一定的报复;三是“宽容性”,即别人背叛了你一次,你不能无休止地进行报复,而要在别人选择合作的时候与其合作。
阿克塞尔罗德没有满足已有的实验,他又邀请了更多的人重新做了相同的实验,并在游戏开始之前,向所有人公布了上一次实验的研究结果。这次实验的对弈程序高达63个,包括他的随机程序和62个研究对象的程序。经过一定数量的对局,这次实验的结果与上一次没有区别,最终“一报还一报”程序依然斩获了得分第一名。这次实验证明了“一报还一报”策略仍是最优解,同时也证明了排名靠前的程序都具有“善良性”“可激怒性”“宽容性”三个特点。63个程序,前15名中除了第8名程序是“不善良”的外,其余程序都是“善良的”;而在得分较低的后15名中,除了一个程序具有“善良性”外,其余都是“不善良”程序。另外,优秀程序具有“可激怒性”和“宽容性”也在实验中得到了证明。与此同时,阿克塞尔罗德在这次实验中还有新的发现,即优秀策略还具有“清晰性”,也就是说,优秀的程序通常只需要在几次对弈之后就能被清晰地辨识出来,而那些复杂的策略却并没有令人满意的得分。“一报还一报”策略显然就具备“清晰性”特点,在应用这一策略后,对手很容易发现其中的规律,并明白只有主动与对方合作才能赢得合作。