另一方面,是统计式的整体性观点。对非决定论的马尔可夫过程,概率论中的各种极限定理的应用,如大数定律、中心极限定理和遍历定理,都能揭示出在不同意义上的稳健性(或近似性) 。
我们列举一些重要的结果。
静态考察中最著名的是进化稳定策略(evolutionary stability strategy)。在同类个体形成的社会中其成员成对地相互博弈。在每次博弈匹配中其成员从一个集合中选择行动,方式是要么从祖先那里继承行动模式要么根据突变安排行动。一个理想的均衡似乎应该能够导致这样一种结果,那就是,使博弈趋向一个固定状态(steady state),所有个体选择均衡策略行动并且没有变异能够侵入群体并生存下来。进化稳定策略就有这种性质。
进化稳定策略实际上是非常强的概念,因为在对称博弈中,进化稳定策略一定构成适度均衡(van Damme,1987)。在非对称博弈中,通过允许非对称的突变,或者把这个博弈对称化 ,依然可以定义进化稳定策略,并且在这样对称化的博弈中,进化稳定策略是严格均衡。由此,我们也就知道,对多数非对称博弈,进化稳定策略不存在 。
在动态考察中,关于理性行为,纳什均衡行为,各种纳什均衡的精炼以及纳什均衡的筛选有不少结果。
Milgrom & John Robert (1991)表明,如果博弈者根据被适应性更新的预期选择最优反应,那么只有严格劣策略反复删除后的策略才保存下来;Hofbauer & Weibull (1996)表明,如果最初所有纯策略都在博弈者群体中出现了,那么在任何凸单调动力系统中,反复严格劣行动就会消失。从而在这类特定选择动力系统中,博弈者长期行为好象是理性的并且这种理性是共有知识(mutual knowledge)。
纳什均衡是任何单调动力学过程(复制者动力学过程的扩展)的平稳点,当然并非所有平稳点都是纳什均衡。对任何弱支付正相关动力系统,李雅普诺夫稳定性(Lyapunov stablity)的状态构成一纳什均衡,此时每个个体的行为好象是他们预期到这个状态并根据此预期选择最优行动 。
与知识论博弈论中关于后向归纳的争论有关,实验经济学的很多文献得出对后向归纳不利的结论,而倾向于前向归纳。Noldeke & Samuelson (1993)支持了这种看法。Cressman & Schlag (1998)也表明,仅仅在简单的完美信息扩展型博弈中,后向归纳解可以被证明为合理;但Hart (2000),在一个包含选择与突变成分的进化动力学中,如果突变率足够小,而群体数量足够地大,那么后向归纳解是进化稳定结果。特别地,策略稳定性解被揭示出与进化过程稳定性有密切关系(DeMichelis & Ritzberger, 2000)。
进化博弈也用于识别严格纳什均衡,如下图的协作博弈中,存在两个不同的均衡,其一是支付占优均衡(C,C),另一个是风险占优的(M,M)。其对应的动力系统也就有多个渐近稳定的平稳点,不同的初始状态分布 会收敛到不同均衡 ,这也正是路径依赖与锁定效应。动力系统的分岔理论表明,这是由系统的参数(这里是博弈结构)所决定的。Kandori, Mailath and Rob (1993) 表明,如果博弈者有可能突变,即以一定概率选择所有行动,那么只要突变的可能性足够地小,长期分布几乎集中在风险占优的均衡上;而Robson & Vega-Redondo (1996)则指出,如果存在随机匹配和对成功博弈者的模仿,那么支付占优的均衡能够成为长期结果。
值得指出的是,把均衡看作重复进行的学习博弈的极限行为,要与重复博弈的结果区别开来。譬如重复囚徒困境博弈中由于声誉效应导致的合作解一般不可能出现(Tit-for-Tat并非进化稳定策略),除非我们考虑一个展开型博弈的进化处理。
现在该是讨论进化博弈不能处理哪些问题的时候了。
首先,现在的文献过于集中在收敛过程上了,而非线性动力系统向我们揭示出现实世界可能具有出人意料的复杂性。人类社会的博弈历史甚至整个世界也体现出这种复杂性,甚至学习和进化本身就会导致这种复杂性循环和混沌(Ponti, 2000; Schonhofer, 1999)。从研究者对世界做出客观描述的角度,这也是值得进一步探索的领域。
其次,几乎所有目前研究进化博弈的文献都是假设同一个博弈场景重复出现,或者说今天的博弈结局并不影响明天的博弈环境。这样进化博弈模型似乎也仅在描述那些类似太阳每天东边升起西边落下的周而复始环境中的行为方面有很好的说服力。但“过去是不可追回的,未来是不可预知的”。并且,历史可能恰恰表现出另一种路径依赖性,今天不同的行动决定了明天不同的选择起点 ;如果我们把所有可能发生的行为都看作是均衡行为与趋向均衡的行为的简单叠加,并且把通过试错脱离一个过去的均衡的行为也看作一种趋向均衡的行为,这样处理有可能是可行的 。当然,即使是从研究者角度的理论,也最终需要建立在最弱意义上的不变环境假设上,否则会出现无穷回归。
与知识论框架同样,现在的进化博弈模型还没有很好地处理知识创新和技术进步。这是因为大部分模型通常是在技术 不变的假设下,探讨博弈者如何通过试错和学习来选择合理策略与行为的。在多人互动的局势内,由于创新的本质在于,它至少对某些博弈者来说是“无知”的,从而博弈者之间存在异质性,但进化博弈的对称化处理通过博弈者能够模仿的预设把这个特点给掩盖了。也就是说,在进化博弈的框架内,创新和知识进步成了不证自明的前提 。但是,在固定游戏中通过学习搜寻到最优(均衡)策略(博弈结构固定)与创新游戏的玩法(发现新的博弈结构)是不同的两回事。把通过试错脱离一个过去的博弈结构及其均衡的行为简单地看作一种趋向均衡的行为,容易漏掉一些重要的信息 。
人们为什么会去通过试错学习新知识(所谓实验中的最初行为),似乎只能在程序理性的角度上理解。这个问题本质上与“不知晓”、“信息价值”、“逻辑全知”和多样性问题有关。在直觉上,程序(procedural )理性与实体(substantive)理性 是不同的。从元理论的角度,复杂的实体理性可以描述另一层次上简单的程序理性,譬如我们考虑计算复杂性等有界理性限制,那么程序理性可以看作是决策最优性与决策成本之间的权衡。只要我们假设未来自然状态至少在“知晓”的意义上是完全可知的,那么把程序理性与实体理性看作等价的就是可取的 。Modica & Rustichini(1999)关于“不知晓”问题的结果可以作为一个佐证。但这种处理只有在个体决策的观点上才有意义;而在多人互动局势里,由于涉及到不同博弈者的主观模型之间的同构,经典的均衡分析似乎不能抓住问题的复杂性 。
|