显然如果用足够粗糙的拓扑来刻画值域,我们几乎总能作到使非连续的函数变为连续的 。所以,不同的拓扑反映了不同的稳健性,数学上看几乎有无限多种,经验上何者有意义依赖于我们是如何对待近似性的,即什么样的两个博弈局势可以看作是近似的,什么样的博弈结局可以看作是可信的。
进化博弈理论实际上是对博弈的解概念提供一种特殊的稳健性检验。现在我们会自然地把博弈的均衡策略看作是长期学习和进化所形成的稳定状态,至少是局部稳定状态。“动物或植物具有很少甚至没有理性的推理能力,但它们的行为却可以用纳什均衡来解释”(Kandori ,1997,244)。这也正如理性预期学派的创始人穆斯在回应对理性预期假设的批评时所讲,“鸟不懂空气动力学,但鸟照样飞得很好”,所以我们研究鸟的飞行可以假设鸟像懂得空气动力学一样。
稳健性检验并非意味着,我们作为研究者主张,我们所生活的世界一定是稳定的或可预测的;恰恰相反,我们就是要尽量揭示这个世界几乎是无穷的复杂性。显而易见,从作为观察者的研究者的角度看,现实世界里存在非常广泛的非连续性现象,我们也可以通过模型描述它。实际上有很多博弈论的成果表明,在不连续的博弈中也存在纳什均衡 。
那么,我们看重连续性是说,博弈者作为信息和理性程度有限的决策者,只能假设他的主观“内部世界”里对外部世界的复杂描述做简单处理。这是因为,博弈结构中的连续性主要体现为支付函数的连续性,而支付函数从研究者的角度看反映了博弈者的技术与自然规律;而从博弈者策略选择的角度看,它还反映了博弈者的知识,特别是关于他的知识与自然规律的和谐。直觉上,我们应该接受如下假设,即博弈者的策略或行为选择规则(函数)是连续的,因为博弈者对事物的分辨程度是有一定界限的,或者说他做出行动的手会“颤抖”;在某一个范围内,他只能无差异地对待在客观观察者看来不同的事物,并作出同样的决策 。
哈肯就曾强调我们的社会是如何避免类似于混沌的那种高度不可预测性的,如果我们严肃地看待混沌动力学。我们可以象人择原理(anthropic principle)那样回答,即便我们认识到我们所生活的世界是混沌的,我们(作为博弈者)依然只能以简单的行动应付复杂的世界 ,虽然我们的目标和手段可能同时都在做适应性的调整 。因为我们不能构造性(可操作)地完全认识这个混沌世界。我们关于“我们是无知的”这个苏格拉底式的元理论判断似乎只能影响我们的风险(不确定性)态度。另外,它与技术多样性之间有着密切关系,即技术多样性是对世界复杂性的应对。
学习、进化与均衡
关于纳什均衡等博弈解概念的知识论基础在于,“首先,博弈者被设想为对他们所参与的互动局势有一个完全模型。其次,他们被假设为,在考虑到其他每个人也正在做出任意高复杂性的最优计划的同时,做出任意高复杂性的最优计划;第三,所有这一切被假设为普遍知识” (Young,1998,651-2)。辅以其它假设,均衡等解概念可以看作是博弈者推演出的结果。Fudenberg & Levine (1998)指出三个问题:当博弈存在多重纳什均衡时,博弈者如何协调他们的信念以选择一个特定均衡是不清楚的;关于博弈本身的普遍知识很难建立;均衡理论在说明大多数实验中最初回合的行为上是糟糕的,即便对后来的回合的说明稍好些;从非均衡到均衡的跃迁在纯粹内省的理论中很难得到调和。
虽然知识论基础的要求是如此之强以致我们很难认为它是现实的,但是正如Weibull (1998b)所指出,如果我们能够表明博弈者“好象是”具有很好的理性和知识一样行为的,那么这就为研究者采取这样一种描述世界的方式提供了合理性辩护。现在很活跃的进化博弈理论 ,就是要在更弱也更合理的假设上探讨博弈者的长期行为,以便达到与知识论殊途同归,甚而给出更丰富的结论。也就是说,我们要探讨的是,从长期或大范围来看,博弈者通过学习和进化,他们的行为模式,在统计或极限意义上是什么,以为各种解概念下的理性行为(包括均衡行为)提供合理化论证。特别地,针对纳什均衡特别是其精炼进化稳定策略,有众多结果刻画了在什么条件下,均衡解可以看作是进化和学习的收敛或统计意义上的近似,即Young (1998,662)所谓的“高理性的解概念能够从低理性的环境中涌现,如果我们赋予这个过程足够的时间进化。换句话说,社会反馈机制可以取代在个体方面的知识和推理能力的高水平。”
一般来说,如Kandori(1997,243-244)所指出,在现代文献中,学习和进化被模糊地加以区分。关于学习的研究通常假设在一个固定匹配博弈中博弈者可以计算出最优反应,并探讨他们如何更新关于对手的策略的信念;而进化论的研究则并不必然假设博弈者具备最优化的能力,主要分析合理行为通过试错(trial and error)以及在博弈群体中的自然选择而进化 。这样的区分意味着,进化可以看作仅仅要求最弱意义的理性,通常是仅仅具有根据过去的经验和观察调整成功和失败的行动被选择的机会的能力。
易言之,博弈者“不相信或理解,他们自身的行为潜在地影响其对手的未来行动,并且他们不考虑对手也类似地调整自身行为的可能性”;“他们作出行为好象世界是固定的,即使他们自身的行为也向他们揭示出并非如此” (Mailath ,1998,1355)。
一个典型的学习和进化过程本质上包括两方面内容,其一为“选择程序(selection process)”,其二为“突变程序(mutation process)”。选择程序在不同变量之间作出区分,突变程序则产生这些变量。在进化博弈中,我们要探讨的变量就是博弈中的策略。
进化博弈理论既然是一种特殊的稳健性检验,那么其稳健性的标准是什么?可以从静态和动态两个方面考察。所谓静态,即不考虑动力学过程的细节(只要满足存在性),或者说仅仅根据一个状态所应具备的良好性质。这方面最有影响的是进化稳定策略。
而对决定论动力系统而言,最基本的稳健性是,有限时间内系统状态对系统初值和参数的连续依赖性;进一步,我们关注的是长期行为而非短期行为 ,那么有李雅普诺夫稳定性 ,渐近稳定性 ;以及在参数扰动下的结构稳定性(structural stability) 。这是拓扑式的整体性观点。
|