书签分享收藏举报版权申诉 / 210

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 简历 > 博弈论ppt完整版.pptx

博弈论ppt完整版.pptx

文档编号：1574839
上传时间：2023-05-01
格式：PPTX
页数：210
大小：1,007.99KB

博弈论ppt完整版.pptx

《博弈论ppt完整版.pptx》由会员分享，可在线阅读，更多相关《博弈论ppt完整版.pptx（210页珍藏版）》请在冰点文库上搜索。

博弈论ppt完整版.pptx

什么是博弈论？

在人世间，人与人之间的对抗和较量是一个不容回避的话题，只有直面这个话题，个人才更有可能获得成功的机会；人们试图获得成功，就有必要研究对抗局势中如何策略性地选择自己的行动；专门研究互动局势下人们的策略行为的学问叫“博弈论（gametheory）”,理性人在最大化自己的偏好时，需要相互合作，而合作中又有冲突,人类为达到合作和解决冲突所发明的重要制度之一,价格制度,市场参与者的数量足够多，从而市场是竞争性的参与者之间不存在信息不对称问题,传统的新古典经济学就是以价格为研究对象的，故又称为价格理论。

其基本假设：

传统经济学的假设及其局限性,一般均衡理论是整个经济学的理论基石和道义基础，市场机制是完美的，帕累托最优成立，平等与效率可以兼顾。

个人决策是在给定一个价格参数和收入的条件下最大化自己的效用，个人的效用与其他人无涉，所有其他人的行为都被总结在“价格”参数之中,基本假设：

完全竞争，完美信息,然而在以下情况,上述结论不成立：

非完全竞争：

垄断越来越普遍外部性：

市场不可能把所有的成本收益都计算在内公共产品：

市场无法解决“搭便车”问题逆向选择问题：

柠檬市场，二手车市场道德风险问题：

为什么市场的交易费用比较高？

传统经济学假设的局限性：

交易主体的数量其实很有限；信息是不对称的；,百年来，经济学的主要发展围绕以上五方面展开研究，建立起,垄断竞争理论产业组织理论企业理论信息经济学新制度经济学不确定下的决策（投资理论）,博弈论逐渐成为经济学的基石,博弈论对经济学的影响,博弈论改写经济学，从放宽新古典的完全竞争和完全信息两个条件展开国外经济学教科书改写，加入大量博弈论内容博弈论进入主流经济学，反映了：

经济学的研究对象越来越转向个体放弃了有些没有微观基础的假设经济学的研究对象越来越转向人与人之间行为的相互影响和作用经济学越来越重视对信息的研究传统微观经济学的工具是数学（微积分、线性代数、统计学），而博弈论是一种新的数学。

以前只有陆军，现在有了空军，其差异不可以公里计。

二、博弈论的发展概述,博弈是决策主体在互相对抗中，对抗双方（或多方）互相依存的一系列策略和行动的过程集合。

博弈论：

专门研究博弈如何出现均衡的规律的学问。

博弈论的基本内容,博弈论的分类及相应的均衡,博弈三要素：

参与人（player）行动（action）或策略（strategy）支付（payoff）,信息、战略、结果,博弈,博弈的分类,博弈论的产生与发展,1838年，奥古斯特.古诺提出古诺模型；在20世纪初，泽美劳（Zermelo）、鲍莱尔（Borel）和约翰.冯.诺伊曼等数学家就已经开始研究博弈的数理基础。

约翰.冯.诺伊曼和奥斯卡.摩根斯坦的题为博弈论与经济行为（1944年）的经典巨著奠定了在经济学中应用博弈论的基础。

一、完全信息静态博弈,定义：

博弈各方同时决策且彼此对各种策略组合情况下所有参与人相应的得益都完全了解。

表达：

在博弈论中，一个博弈可以用两种不同的方式来表达：

策略式表述：

适合于静态博弈（矩阵式）扩展式表述：

适合于讨论动态博弈（树状结构）,博弈论模型,一个博弈需要有五方面内容组成：

参与人策略支付信息均衡,囚徒困境,每个参与人的得益函数：

博弈的参与人集合：

=（A，B）；,每个参与人的战略空间：

SA=（坦白，抵赖）SB=（坦白，抵赖）,uA（坦白，坦白）=uB（坦白，坦白）=-8uA（抵赖，抵赖）=uB（抵赖，抵赖）=-1uA（坦白，抵赖）=uB（坦白，抵赖）=0uA（抵赖，坦白）=uB（抵赖，坦白）=-10,占优策略：

一些特殊的博弈中，一个参与人的最优策略可以不依赖于其他参与人的策略选择，就是说，不论其他参与人选择什么策略，他的最优策略是唯一的，这样的最优策略被称为“占优策略”。

劣策略：

如果一个博弈中，某个参与人有占优策略，那么该参与人的其他可选择策略就被称为“劣策略”。

二、占优策略均衡,在这个例子里，无论对方如何选择，每个人的最优选择：

坦白；可以预测，结果将是（坦白，坦白）,占优均衡：

由所有参与人的占优策略构成的战略组合。

占优战略均衡的出现只要求由所有参与人都是理性的，但不要求每个参与人知道其他参与人是否理性。

“囚徒困境”博弈有占优均衡，所以其结果很容易预测。

占优策略均衡,“囚徒困境”的一般表示,满足：

RTPS；SRTT,三、用法律解决“囚徒困境”,满足：

XRT,四、重复剔除的占优均衡,找出某个参与人的严格劣策略（假定其存在），把这个劣策略剔除掉；重新构造一个不包含已剔除策略的新的博弈；重复这个过程，一直到只剩下一个唯一的策略组合为止。

这个唯一剩下的策略组合就是这个博弈的均衡解，称为“重复剔除的占优均衡”。

注意，上述表述中强调了“唯一”这个词。

也就是说，如果重复剔除后剩下的策略组合不唯一，那么该博弈就不是可通过重复剔除劣策略求解的。

思路：

理性共识,0-阶理性共识：

每个人都是理性的，但不知道其他人是否是理性的；1-阶理性共识：

每个人都是理性的，并且知道其他人也是理性的，但不知道其他人是否知道自己是理性的；2-阶理性共识：

每个人都是理性的，并且知道其他人也是理性的，同时知道其他人也知道自己是理性的；但不知道其他人是否知道自己知道他们是理性的,重复剔除与理性共识,重复剔除不仅要求每个人是理性的，而且要求每个人知道其他人是理性的；每个人知道每个人知道每个人是理性的，如此等等理性是“共同知识”（共识）。

最优选择,这个博弈只要求1-阶理性共识就可以预测到均衡结果,如果R相信C是理性的，R就知道C不会选择C3，所以R的最优选择是R1；,如果C相信R是理性的，C就知道R不会选择R2和R3；,此时，C1又成为C的严格劣战略；,重复剔除的占优均衡：

（R1，C2）,选择越多，对理性共识的要求越高,0-阶理性：

C是理性的，C不会选择C4；,1-阶理性：

R相信C是理性的，R会将C4从C的战略空间中剔除,所以R不会选择R4；,2-阶理性：

C相信R相信C是理性的，C会将R4从R的战略空间中剔除,所以C不会选择C1；,3-阶理性：

R相信C相信R相信C是理性的，R会将C1从C的战略空间中剔除,R不会选择R1；,4-阶理性：

C相信R相信C相信R相信C是理性的，C会将R1从R的战略空间中剔除,C不会选择C3；,5-阶理性：

R相信C相信R相信C相信R相信C是理性的，R会将C3从C的战略空间中剔除,R不会选择R3；,不能用重复剔除求解的博弈,许多博弈没有占优均衡，也没有重复剔除的占优均衡。

实用性较强的博弈分析方法,必然是以策略之间的相对优劣关系,而不是绝对优劣关系为基础的，根据这样的思路，很容易导出博弈分析的“划线法”。

划线法,因此，以上五个策略都不可能被双方接受！

五、纳什均衡与一致性预期,纳什均衡：

所有参与人的最优战略的组合，即给定战略中别人的选择，没有人有积极性改变自己的选择。

构成纳什均衡的策略一定是重复剔除严格劣策略过程中不能被剔除的策略，当然，逆定理是不存在的。

许多不存在占优策略均衡或重复剔除的占优策略均衡的博弈，也存在纳什均衡。

纳什均衡的正式定义,有n个参与人的战略式表述博弈GS1，Sn；u1,，un战略组合s*（s1*，sn*）是G的一个纳什均衡，如果对于每一个i，si*是在给定其他参与人选择si*（s1*,，si-1*，si+1*，sn*）的情况下第i个参与人的最优战略，即：

ui（si*,s-i*）ui（si，s-i*）对任意siSi,和任意的都成立。

一致性预期,一致性预期：

基于预期的选择是合理的，支持选择的预期是正确的。

预期的自我实现：

如果所有人都认为这个结果会出现，这个结果就会出现，预期是自我实现的，预期不会错。

如果你预期我会选择X，我就真的会选择X。

如果参与人事前达成一个协议，在不存在外部强制的情况下，每个人都有积极性遵守这个协议，这个协议就是纳什均衡。

应用1古诺的双寡头垄断模型（1938）,假定：

只有两个厂商面对相同的线形需求曲线，P（Q）=aQ，Q=q1+q2两厂商同时做决策；假定成本函数为C（qi）ciqi问题：

两个厂商的均衡产量和均衡价格如何确定。

该博弈问题的标准式：

参与人厂商1和厂商2战略空间每个企业可以选择的产品产量：

Si=0，），i=1,2，qi0收益用利润额代表企业的收益,均衡,企业利润最大化的条件为：

纳什均衡产量为：

纳什均衡利润为：

反应函数,q1,q2,垄断产量和垄断利润,垄断企业的目标函数：

垄断利润为：

垄断产量：

在古诺均衡解中，这种情况就不会发生，两个企业的总产量要更高一些，相应地使价格有所降低。

卡特尔与囚犯困境,卡特尔是一种垄断组织，各个厂商互相通过某种协定达成某种默契以求获得共同的最大收益。

价格卡特尔：

制定一个共同的价格，销售同样的产品。

产量卡特尔：

统一控制产量，减少产量，抬高价格，使组织的共同收益最大，比如欧佩克就是典型的产量卡特尔。

卡特尔组织的各成员可能也会作出类似的个体最优的决策，最终损害卡特尔组织的集体利益，这样就需要强加一些惩罚性的制度安排，改变支付矩阵，迫使均衡在集体最优的地方达到。

CH4混合战略纳什均衡,混合战略及其均衡策略混合的好处混合策略的麻烦纳什均衡的存在性问题,监督博弈,有些博弈没有“纯”战略纳什均衡，如,给定工人偷懒，老板的最优选择是监督；,给定工人不偷懒，老板的最优选择是不监督；,给定老板不监督，工人的最优选择是偷懒；,如此循环,上述两个博弈的显著特征是,每个参与者都想猜透对方的战略选择，而每个参与者又都不能让对方猜透自己的战略。

这样的问题在诸如扑克牌比赛、橄榄球赛、战争等情况中都会出现。

在所有这类博弈中，都不存在纳什均衡。

尽管这两个博弈不存在纯战略意义上的纳什均衡，却存在混合战略纳什均衡。

混合战略指的是参与人以一定的概率选择某种战略。

混合战略及其均衡,设想工人推断老板以q的概率监督，以1-q的概率选择不监督；对工人来说,当q1/4时，34q2，所以工人的最优纯战略是“努力”；当q1/4时，34q2，所以工人的最优纯战略是“偷懒”；当q1/4时，工人选择什么无差异。

选择偷懒带来的效用为：

q

（1）（1q）334q选择努力带来的效用为：

q2（1q）22,混合战略,定义：

对标准式博弈G=S1，Sn；u1，un，假设Si=si1，siK。

那么，参与者i以概率分布pi=（pi1，piK）随机在其K个策略中选取的“策略”，称为一个“混合策略”,其中0pik1对k=1，K，都成立，且pi1+piK=1。

纯战略：

参与人在每一个给定信息的情况下只选择一个特定的行动；相反，如果一个战略规定参与人在给定信息情况下，以某种概率分布随机地选择不同的行动，则称该战略为混合战略；纯战略可视为混合战略的特例。

关于混合战略的支付函数,在纯战略情况下，参与者i的支付ui是纯战略组合s=s1，si，sn的一个函数，即ui=uis1，si，sn；对于任何给定的战略组合s=s1，si，sn，ui取一个确定的值；与混合战略相伴随的是支付的不确定性，此时，参与人关心的是期望效用。

用i（pi，p-i）表示参与人i的期望效用函数（其中p-i=（p1，pi-1，pi+1，pn）是除i之外所有其他参与人的混合战略组合）；i的期望支付可以具体定义为：

以2人博弈为例说明,假定S1=s11，s1k是参与者1的纯战略，S2=s21，s2J是参与者2的纯战略；如果参与人1相信参与人2的混合战略为q=（q1，qJ）那么参与人1选择纯战略s1k的期望效用为：

参与人1选混合战略p=（p1，pK）的,期望效用为：

混合战略纳什均衡,定义：

对标准式博弈G=S1，Sn；u1，un，混合战略组合p*=（p1*，pn*）是一个纳什均衡，如果对所有的i=1，n，及参与人i的任意一个混合战略pi而言，下式成立：

i（pi*，p-i*）i（pi，p-i*）,总结,上述的r*（q）称为工人对老板的反应对应函数；q*（r）则称为老板对工人的反应对应函数；一个参与人选择不同纯战略的概率分布不是由他自己的支付决定的，而是由他的对手的支付决定的；许多人认为混合战略纳什均衡是一个难以另人满意的概念；一个参与人使用混合战略的目的是给对方造成不确定性，浑水摸鱼；尽管混合战略不像纯战略那样直观，但它确实是一些博弈中参与人合理的行为方式。

求混合战略均衡要先剔除劣战略,设想C以p的概率选择C1，以q的概率选择C2，以1-p-q的概率选择C3；则对于R而言,选择R1的预期效用为：

2p2q4（1pq）42p2q选择R2的预期效用为：

3pq2（1pq）2pq选择R3的预期效用为：

p3（1pq）32p3q,问题出在哪里?

纳什均衡的存在性问题,每一个有限博弈至少存在一个纳什均衡（纯战略或混合战略）；如果一个博弈存在两个纯战略纳什均衡，那么，一定存在第三个混合战略纳什均衡。

几乎所有有限同时博弈的纳什均衡的数目都有限，并且这个有限数目是一个奇数。

总结,如何协调,仅仅“理性”是不够的：

FOCALPOINT（Schelling（1960）：

文化与制度行业组织Cheaptalking帕累托最优均衡：

可以通过协商选择一个纳什均衡：

聚点均衡（Schelling（1960））,谢林指出：

在现实生活中，参与人可能使用某些被博弈模型抽象掉的信息来达到一个“聚点”均衡。

这些信息可能与社会文化习惯、参与人过去博弈的历史有关。

比如在“约会博弈”中，如果今天是男友的生日，（足球，足球）可能是一个聚点均衡；在“分蛋糕博弈”中，（1/2，1/2）可能是一个聚点均衡，如果每个参与人都有某种公平意识的话；,在“麦琪的礼物”中，如果事前先告诉对方自己的想法，非纳什均衡的结果就不会出现；,Cheaptalking,为什么要相信？

无论乙选择什么，他都有积极性告诉甲他将选择左：

所以没有理由认为甲应该相信乙的话。

风险优势标准,由于纳什均衡要求理性共识和一致预期，当人们有可能犯小小的错误时，纳什均衡不一定被选择。

只要B有1的概率错误地选择右，A将选择下；如果B怀疑A怀疑自己可能犯错误，B将选择右；所以出现的不是帕累托最优的纳什均衡,偏离损失比较法,甲偏离A损失1，偏离B损失7乙偏离A损失1，偏离B损失7甲偏离A的损失乙偏离A的损失甲偏离B损失乙偏离B损失均衡B比均衡A具有风险优势但均衡B却不是一个帕累托均衡!

可以考虑不同纳什均衡之间的风险状况，风险小的优先。

帕累托均衡与风险优势的关系,人是会犯错误的绝大多数人都是风险规避者,哪个纳什均衡具有风险优势？

没有帕累托最优均衡,偏离损失比较法,无帕累托最优均衡,进入者偏离A损失40，偏离B损失10在位者偏离A损失50，偏离B损失0进入者偏离A的损失在位者偏离A的损失进入者偏离B损失在位者偏离B损失均衡A比均衡B具有风险优势,相关均衡,奥蒙证明（1974）：

如果博弈参与人可以根据某个共同观测到的信号选择行动，就可能出现“相关均衡”；相关均衡可能是参与人事前磋商的结果，从而使所有的参与人受益。

例子,选择混合战略，各自获得的收益为2.5假设甲、乙在博弈前一天商量，双方同意根据明天天气的情况选择行动，比如说明天是晴天就一同郊游;是阴天就一同去购物；假设明天晴与阴的概率各为1/2每个人的期望收益各为4（1/251/23），大于2.5。

三个Nash均衡解：

（1，0）（1，0）（0，1）（0，1）（5/6，1/6）（1/6，5/6）,锁定效应与路径依赖,这个博弈有三个纳什均衡：

（4,12）（2,12）（2,13）这些纳什均衡可以用重复剔除劣战略的方法得到;但如何实施劣战略的消除，对于最终会留下哪个均衡至关重要,经济学上把结果依赖于路径的现象叫路径依赖,路径依赖就是人们陷入一种情况而发现从此难以脱身；如果博弈参与人很多，达成协议的成本很高，最初的非帕累托均衡可能被锁定，导致路径依赖：

森林探险找工作婚姻改革新产品,经济学上把结果依赖于路径的现象叫路径依赖,如果博弈参与人很多，达成协议的成本很高，最初的非帕累托均衡可能被锁定，导致路径依赖：

每个人多偏好于新产品（或标准），如果其他人都选择新产品的话；但每个人都预期其他人不会选择新产品，所以每个人的最优选择不是转向新产品，结果是整个社会被锁定在现有的产品（标准）（非帕累托最优）这常被用来作为市场失灵的理论证据；经验证据：

QWERTvsDvorak键盘；BetavsVSH录象机；MAC与IBM计算机软件；但最新的研究似乎正在推翻这些广泛流传的结论。

MAC与IBM,据称，Macitosh要比命令行DOS好得多，甚至比基于DOS的Window好，但为什么消亡了？

通常的解释：

DOS成功了是因为它成功了，有更多的软件，更多的用户；具有成本优势速度优势商业环境中，一台机器只用于一种软件，一旦操作员学会，Macitosh的界面优势就没有了；为DOS写软件要容易得多。

法律和社会规范如何协调预期,法律和社会规范就是协调预期的规则，帮助人们在多个纳什均衡中筛选一个特定的纳什均衡。

社会规范是通过习惯、长期的交互博弈产生的行为规则；法律是立法机关制定的行为规则；无论是法律还是社会规范，他们的功能都是协调预期。

制度是为了稳定预期，频繁的变化会打乱人们的预期。

交通规则的演变,在多个纳什均衡之间不存在有劣之分时，偶然事件对选择具有重要意义：

从历史上来考察，许多交通规则一开始并不体现为法律，而是长期演化而来的。

现在欧洲大陆的靠右走的规则是在法国兴起的。

随着拿破仑对欧洲大陆的征服，拿破仑将法国的规则带给了欧洲，也包括靠右行驶的规则。

交通规则的演变,在多个纳什均衡之间不存在有劣之分时，偶然事件对选择具有重要意义：

从历史上来考察，许多交通规则一开始并不体现为法律，而是长期演化而来的。

在欧洲大陆的早期，道路行走规范是非常地方化的，有些地方采用靠左走的习惯，有些地方采用靠右走的习惯，是不统一的。

伴随着道路的增加和地区间交往的扩大，地方性的习惯逐步演变为区域性的规范，然后再演变为全国性的规范。

但直到19世纪前，道路规则也仅仅是作为规范而得到遵守，而不是作为交通法律而得到执行。

交通规则的演变,现在欧洲大陆的靠右走的规则是在法国兴起的。

在法国大革命以前，贵族的马车习惯上是靠左行的，因此，靠左行与“特权阶级”相联系，而靠右行被认为更为“民主”。

在法国大革命中，作为一个革命的象征，规定所有的车都要靠右走。

随着拿破仑对欧洲大陆的征服，拿破仑将法国的规则带给了欧洲，也包括靠右行驶的规则。

文化的冲突与协调,为什么欧洲大陆的交通规则收敛于一致？

英国将如何办？

文化冲突，无论是组织和组织之间的还是国家与国家之间的，大部分不过是游戏规则-社会规范和法律的冲突，用博弈论的话来说，是一个均衡选择问题：

全球化意味着资源的重新分配。

解决规则冲突的三个方式,一个规则取代其他的规则，让一部分人改变行为规范适应另一部分人，也就是所谓的接轨，如前面讲的欧洲大陆交通规则的演变所显示的。

建立全新的规则，如中国人和德国人在一起交流始都用英语，而不是中文，也不时德文；建立协调规则的规则，如入乡随俗，客随主便。

究竟那一中，与规则要解决的问题有关，也与其他因素有关。

文化既解决冲突又协调预期,尊老爱幼妇幼保护尊师重教先来后到社会分层与非对称权力（排位问题；黑社会组织）；公平观念（如分蛋糕博弈）抓阄,信息与身份（identity）,信息对预期的协调很重要；如果不知道谁是谁，协调就很困难；身份是传递信息的重要工具；身份的外在化：

服饰，车座，秘书学界的官本位问题；,产权的先占规则,人们为什么遵守这个规则？

人们希望得到别人认可的愿望；一旦规则建立，每个人都预期其他人会遵守规则；给定这个预期，每个人发现遵守规则是自己的利益所在，也希望别人能遵守这个规则，任何不遵守规则的行为都会使守规则的人受到损害或者感到威胁，从而引起后者的愤怒；任何其他人也因此会觉得自己未来的利益受到威胁，对此种行为表示不满，对受害人表示同情；少数人不遵守规则并不会导致规则的消失；但如果规则总是偏向于某一组特定的人群，受到不公正对待的人并不会蔑视不守规则的人，规则就容易被违反。

关于论资排辈问题,容易被个人操纵的信息是没有价值的；当缺乏其他有效的信息时，资历可以成为协调博弈的信息；,为什么制度要有稳定性？

制度是为了稳定预期，频繁的变化会打乱人们的预期；希思罗机场的MeetingPoint孙丕扬与万历22年（1595年）出任吏部尚书，创建了掣签法：

官员们无论贤愚清浊，一律抽签上岗。

（吴思潜规则）但最新的研究似乎正在推翻这些广泛流传的结论。

一、动态博弈,行动有先后顺序，不同的参与人在不同时点行动，先行动者的选择影响后行动者的选择空间，后行动者可以观察到先行动者作了什么选择。

因此，为了做出最优的行动选择，每个参与人都必须这样思考问题：

如果我如此选择，对方将如何应付？

如果我是他，我将会如何行动？

给定他的应付，什么是我的最优先选择？

如下棋,二、动态博弈的扩展式表述概括如下：

参与人集合：

I=1，n；此外我们以后将用N代表虚拟的参与人“自然”；参与人的行动顺序：

谁在什么时候行动；参与人的行动空间：

在每次行动时，参与人有些什么行动可供选择；参与人的信息集：

每次行动时，参与人知道些什么；参与人的得益函数：

在博弈结束后，每个参与人得到些什么；外生事件（即“自然”的选择）的概率分布。

博弈树：

不允许的情形,三、动态博弈的策略,1.策略特征：

决策不是参与人单个阶段的行为，而是各方在整个博弈中轮到选择的每个阶段时，针对前面阶段的各种情况作出相应选择的完整计划。

2.博弈方的非对称性：

在信息的占有上，后行动者能观察到此前各方的选择，所以往往比先行动者更占优势，因此，各方的地位是不对称的。

但所获得的收益不一定比先行动者多。

这与单人决策是不同的。

3.策略的可置信性问题：

策略是博弈方自己预先设定的，在各个博弈阶段针对各种情况所作的相应行为选择的计划，本身没有强制力，且实施起来有一个过程。

在该过程中，根据自己的利益需要，他完全可以改变这个计划，从而存在“相机选择”，产生策略的可置信性问题。

上述分析告诉我们,在一个都有私心，都更重视自身利益的成员组成的社会中，完善公正的法律制度不但能保障社会的公平，而且还能提高社会经济活动的效率，是实现最有效率的社会分工合作的重要保障。

当然，要保障社会公平和社会经济活动效率，法律制度必须满足两方面的要求：

对人们正常权益的保护力度足够大；对损害他人利益者有足够的震慑作用。

如果达不到这个水平，法律制度的作用就是很有限的甚至完全无效。

上述分析告诉说明,动态博弈的相机选择可信性问题可信性问题在动态博弈中具有重要意义,但实际上可信性最重要的意义还在于它对纳什均衡在动态中的有效性问题提出了质疑！

子博弈,子博弈：

一个扩展式表示博弈的子博弈G是由一个单结信息集x开始的与所有该决策结的后续结（包括终点结）组成的能自成一个博弈的原博弈的一部分。

子博弈精炼纳什均衡定义：

对于扩展式博弈的策略组合S*=（S1*，Si*,，Sn*），如果它是原博弈的纳什均衡；它在每一个子博弈上也都构成纳什均衡，则它是一个子博弈精炼纳什均衡。

精炼纳什均衡（PerfectNE）,不包含不可置信的行动的战略所组成的纳什均衡被称为精炼纳什均衡；也就是说，不论过去发生了什么，构成精炼纳什均衡的战略，其所规定的行动在每一个决策点上都是最优的，所以，又称为序惯均衡（sequentialequilibrium）;首先必须是纳什均衡，但并非所有纳什均衡都是合理的；只有战略不包含不可置信行动的纳什均衡才是合理的。

逆推归纳法（backwardinduction）,将多阶段动态博弈化为一系列的单人博弈；确立各方在各阶段的选择，逐步向前推进，找出决策者的最优决策；如此一直到初始决策。

最终，对动态博弈的结果，包括博弈的路径和对各博弈方的得益作出判断，归纳各个博弈方在各个阶段的选择，即可得到各方在整个动态博弈中的策略。

从动态博弈的最后一个阶段博弈方的行为开始分析，逐步向前一个阶段相应博弈方的行为选择，一直到第一阶段的分析方法。

CH7讨价还价与耐心,讨价还价问题纳什合作解轮流出价谈判,抛开分类，直面问题,简单的利益分割谈判；谈判力相同聚点均衡（平均分配）；谈判力不同独裁谈判；最