Uploaded by 1530309342

计算博弈2023春第01讲

advertisement
专业普及课《计算博弈原理与应用》
第1讲:课程概述
兴军亮
jlxing@nlpr.ia.ac.cn
2023年2月26日
自动化研究所
University of Chinese of Academy of Sciences
Institute of Automation
课程概述
课程简介
发展历史
内容体系
应用案例
University of Chinese of Academy of Sciences
第2/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
计算博弈原理与应用22-23春季
• 英文名称:Computational Game Theory and Applications
• 课程编号:085400M05024N
• 课程属性:专业普及课
• 学时学分:50学时,2.5学分
• 主讲教师:兴军亮、李凯
• 课程助教:臧一凡(zangyifan19@mails.ucas.ac.cn)
• 教学形式:课堂讲授和讨论
• 预备知识:高等数学,概率论、线型代数、运筹学、
程序设计、数据结构与算法、机器学习等
University of Chinese of Academy of Sciences
第3/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
计算博弈原理与应用22-23春季
• 课程的钉钉群
• 课程通知、课题提问、
答疑讨论、作业提交、
小组合作等
• 入群后请更改昵称为:
姓名-学号-专业方向
• 线上课堂:腾讯会议
• #腾讯会议:556-1873-7955
• 方便无法现场上课同学
University of Chinese of Academy of Sciences
第4/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
教学目标
• 这门课程面向的专业和学科
人工智能
计算机科学
…
博弈论
经济学
应用数学
University of Chinese of Academy of Sciences
控制科学
信息科学
第5/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
教学目标
• 主要讲授内容
历史和
现状
University of Chinese of Academy of Sciences
概念和
方法
算法和
原理
第6/90页
应用和
案例
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
教学目标
• 课程预期目标和要求
了解
• 博弈论的历史发展过程和未来发展方向
• 博弈理论方法在不用领域研究应用现状
熟悉
• 博弈的相关基本概念和均衡分析原理
• 人工智能专业智能博弈课程的研究框架
• 计算博弈求解问题的应用过程和典型案例
掌握
• 典型博弈问题的具体定义和特点
• 博弈分析和解决问题的主要思路
• 博弈计算的算法机制和实现方法
University of Chinese of Academy of Sciences
第7/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
教学大纲和计划
• 课程每讲内容:1×3+5×3+3×3+4×3+3×3+1
计算博弈课
程概述
均衡的低效
率性专题
均衡计算复
杂度专题
完全信息静
态博弈
算法化机制
设计专题
单机小游戏
AI设计
课程期末课
堂考试
完全信息动
态博弈
随机博弈
围棋博弈AI
设计
课程设计汇
报1/2/3
不完全信息
静态博弈
不完全信息
动态博弈
德扑博弈AI
设计
实时策略游
戏AI设计
University of Chinese of Academy of Sciences
第8/90页
第8/92页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
考核方式
• 会直接影响课程最终成绩的因素
• 平时作业:预计会布置4-6次作业
• 课程设计:课程中期会有一次课程设计
• 期末考试:期末会有一次考试
最终
成绩
平时
作业
40%
课程
设计
20%
期末
考试
40%
• 会间接影响课程最终成绩的因素
• 出勤情况:出勤的同学会留下好印象
• 课堂提问:每堂课会尽量增加一些提问互动环节
University of Chinese of Academy of Sciences
第9/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
主要参考资料
• 课程相关的主要教材
• Martin Osborne and Ariel Rubinstein. A Course in Game
Theory. MIT Press. 1994.
• 张维迎著,博弈论与信息经济学,格致出版社,2012
年4月出版。
• Tim Roughgarden. Twenty Lectures on Algorithmic
Game Theory. Cambridge University Express, 2016.
• Y. Narahari, Game Theory and Mechanism Design, IISc
Press and World Scientific, 2014.
University of Chinese of Academy of Sciences
第10/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
主要参考资料
• 课程相关的研究论文:小游戏及围棋AI
• Volodymyr Mnih et al. Human-Level Control Through
Deep Reinforcement Learning. Nature, vol. 518, no. 7540,
pp. 529-533, 2015.
• David Silver et al., Mastering the Game of Go with Deep
Neural Networks and Tree Search. Nature, vol. 51, no.
7587, pp. 484-489, 2016.
• David Silver et al., Mastering the Game of Go without
Human Knowledge. Nature, vol. 550, pp. 354-359, 2017.
• David Silver et al., Mastering Chess and Shogi by SelfPlay with a General Reinforcement Learning Algorithm.
Science, vol. 362, pp. 1140-1144, 2018.
University of Chinese of Academy of Sciences
第11/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
主要参考资料
• 课程相关的研究论文:德州扑克AI
• Matej Moravčík et al. DeepStack: Expert-Level Artificial
Intelligence in Heads-Up No-Limit Poker. Science, vol.
356, pp. 508-513, 2017.
• Noam Brown and Tuomas Sandholm. Superhuman AI for
heads-up no-limit poker: Libratus Beats Top
Professionals. Science, vol. 359, pp. 418-424, 2018.
• Noam Brown and Tuomas Sandholm. Superhuman AI for
Multiplayer Poker. Science, vol. 365, pp. 885-890, 2019.
University of Chinese of Academy of Sciences
第12/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
主要参考资料
• 课程相关的研究论文:实时策略游戏AI
• Oriol Vinyals et al., Grandmaster Level in StarCraft II
Using Multi-Agent Reinforcement Learning. Nature, vol.
575, pp. 350-354, 2019.
• OpenAI et al., Dota 2 with Large Scale Deep
Reinforcement Learning. arXiv prerint,
arXiv:1912.06680, 2019.
• Deheng Ye et al., Mastering Complex Control in MOBA
Games with Deep Reinforcement Learning. arXiv
preprint, arXiv:1912.09729, 2019.
University of Chinese of Academy of Sciences
第13/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
主要参考资料
• 课程相关学习资料:相关基础知识教材和课件
• Richard S. Sutton and Andrew G. Barto. Reinforcement Learning:
An Introduction (2nd Ed.). MIT Press, 2018.
• Yoshua Bengio, Ian J. Goodfellow, and Aaron Courville. Deep
Learning. MIT Press. 2017.
• 周志华,机器学习,清华大学出版社, 2016年1月出版.
• Christopher M. Bishop. Pattern Recognition and Machine Learning.
Springer. 2006.
• 耶鲁大学博弈论课程:https://oyc.yale.edu/economics/econ-159
• 斯坦福算法博弈论课程:http://timroughgarden.org/f13/f13.html
• 强化学习夏令营课程: https://rlchina.org/
University of Chinese of Academy of Sciences
第14/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
什么是博弈?
• 生活中,竞争与对抗无处不在
• 比赛、竞赛、挑战赛、友谊赛等
• 广告、销售、提薪、职位晋升等
• 对抗、冷战、战争、世界大战等
• 追女朋友、找工作、投资理财等
• 如何在对抗中获得成功?
• 关键:如何策略性地选择行动
• 博弈论就是研究互动局势下人们
的策略行为的学问
• 计算博弈:从计算视角研究博弈
University of Chinese of Academy of Sciences
第15/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
从一个例子开始:囚徒困境
• 两个同谋罪犯被隔离关押
• 互不揭发:每人要坐牢一年
• 互相揭发:每人要判刑五年
• 一人揭发:释放和判刑十年
• 最终的审讯结果会是什么?
• 两个互相揭发对方,各判五年!
• 背后的原因是什么呢?
(5,5)(0,10)
博弈论
(10,0)(1,1)
University of Chinese of Academy of Sciences
第16/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈的分类
ç
根据参与人是否合作
ç根据参与人的多少
ç
合作博弈
根据博弈结果
ç根据行动的先后次序
单人博弈
两人博弈
多人博弈
静态博弈
动态博弈
随机博弈
ç根据参与人对其他参与人的各种
特征信息的获得差异
ç根据博弈的次数
单次博弈
多次博弈
非合作博弈
零和博弈
常和博弈
变和博弈
完全信息博弈
不完全信息博弈
重复博弈
University of Chinese of Academy of Sciences
第17/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
萌芽与孕育
• 孙子兵法
• 上兵伐谋,其次伐交
• 其次伐兵,其下攻城
• 攻城之法,为不得已
• ……
• 田忌赛马
• 以君之下驷与彼上驷
• 取君上驷与彼中驷
• 取君中驷与彼下驷
University of Chinese of Academy of Sciences
第18/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
萌芽与孕育
• 1838年:库诺特(Cournot)寡头竞争模型
• 两寡头(假定A和B)生产同质产品,生产成本为零,
A、B共同面临的市场需求曲线是线性的,并且都为
两厂商所了解,A、B两个厂商都认为对方对自己产
量(决策)的变动没有反应。
• 第一次:A生产Q/2, B生产Q/4
• 第二次:A生产3Q/8, B生产5Q/16
• ……
• 最后:A生产Q/3,B生产Q/3
• 推广:如果市场的寡头有m家,则每个寡头的均衡产
量=市场总容量*1/(m+1),那么行业的均衡总产量=市
场总容量*m/(1+m)。
University of Chinese of Academy of Sciences
第19/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展:冯·诺依曼
• 冯·诺依曼(John Von Neumann)
• 贡献一:证明了博弈论的基本定理
• 1928年:极小极大定理
• 用于处理一类最基本的二人对策问
题,证明了选择“最大损失”最小
的一种为“最优”策略
• 贡献二:将博弈论引入到经济学中
• 1944年:《博弈论与经济行为》
• 将二人博弈推广到n人博弈结构并将
博弈论系统的应用于经济领域,从
而奠定了这一学科的基础和理论体
系。
University of Chinese of Academy of Sciences
第20/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展:纳什
• 约翰·纳什(John Nash)
• 1950年:《n人博弈中的均衡点》
• 1951年:《非合作博弈》
• 纳什均衡:
• 改变了经济学的体系结构
• 扩展了经济学的研究范围
• 加强了经济学研究的深度
• 形成了经典博弈研究范式
• 扩大了与其他学科的联系
• 改变了经济学的语言和表达方法
University of Chinese of Academy of Sciences
第21/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展:1994年诺贝尔经济学奖
• 纳什、泽尔腾(Selten)和海萨尼(Harsanyi)
• Prize motivation: “for their pioneering analysis of
equilibria in the theory of non-cooperative games”.
• 获奖原因:在非合作博弈的均衡分析理论方面做出了
开创性贡献,对博弈论和经济学产生了重大影响。
University of Chinese of Academy of Sciences
第22/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展:1994年诺贝尔经济学奖
• 三位获奖者对于非合作博弈的具体贡献
行动次序
静态
动态
完全信息静态博弈
纳什均衡
(
)
囚徒困境,周末约会
完全信息动态博弈
子博弈精练纳什均衡
(
)
田忌赛马,破釜沉舟
不完全信息静态博弈
贝叶斯均衡
(
不完全信息动态博弈
精炼贝叶斯均衡
信息
完全
信息
不完全
信息
University of Chinese of Academy of Sciences
第23/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展: 1996年诺贝尔经济学奖
• 维克里(Vickrey)和米尔利斯(Mirrlees)
• Prize motivation: “for their fundamental contributions
to the economic theory of incentives under asymmetric
information”.
• 获奖原因:在不对称信息的市场激励理论做出了基础
性的贡献。
University of Chinese of Academy of Sciences
第24/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展: 2001年诺贝尔经济学奖
• 阿克尔洛夫(Akerlof)、斯彭斯(Spence)和斯蒂格利
茨(Stiglitz)
• Prize motivation: “for their analyses of markets with
asymmetric information”.
• 获奖原因:在“对充满不对称信息市场进行分析”领
域对博弈论和经济学产生了重大影响。
University of Chinese of Academy of Sciences
第25/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展: 2005年诺贝尔经济学奖
• 奥曼(Aumann)和谢林(Schelling)
• Prize motivation: “for having enhanced our
understanding of conflict and cooperation through gametheory analysis”.
• 获奖原因:通过博弈论分析加强了我们对冲突和合作
的理解。
University of Chinese of Academy of Sciences
第26/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展: 2007年诺贝尔经济学奖
• 赫维茨(Hurwicz),马斯金(Maskin)和迈尔森
(Myerson)
• Prize motivation: “for having laid the foundations of
mechanism design theory”.
• 获奖原因:为机制设计理论建立的基础。
University of Chinese of Academy of Sciences
第27/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展: 2012年诺贝尔经济学奖
• 罗斯(Roth)和沙普利(Shapley)
• Prize motivation: “for the theory of stable allocations
and the practice of market design”.
• 获奖原因:在稳定合作理论和市场设计实践方面的贡
献。
University of Chinese of Academy of Sciences
第28/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展: 2014年诺贝尔经济学奖
• 让·梯若尔(Jean Tirole)
• Prize motivation: “for his analysis of market power
and regulation”.
• 获奖原因:对市场力量和管制的研究。
University of Chinese of Academy of Sciences
第29/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展: 2016年诺贝尔经济学奖
• 哈特(Hart)和霍尔姆斯特伦(Holmström)
• Prize motivation: “for their contributions to contract
theory”.
• 获奖原因:在契约理论方面的贡献。
University of Chinese of Academy of Sciences
第30/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
产生与发展
• 为什么博弈论在经济学产生如此重大作用?
• 博弈论在经济学中的应用最广泛、最成功;博弈论的
许多成果也是借助经济学的例子来发展的,特别是在
应用领域;
• 经济学家对博弈论的贡献非常突出,特别是在动态分
析和不完全信息引入到博弈论之后,例如克瑞普斯和
威尔逊都是经济学家;
• 最带根本性意义的原因是经济学和博弈论的研究模式
是一样的,这就是强调个人理性,也就是在给定约束
条件下追求效果最大化。
张维迎:博弈论与信息经济学
University of Chinese of Academy of Sciences
第31/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
传统博弈论的内容体系
合作,非合作;
静态,动态,混合;
完全信息;不完全
信息等
参与人、行动、
信息、策略、损
益函数、结果、
均衡等
非理性博弈
两人合作
博弈
演化博弈论
讨价还价解
合作博弈
多人合作
博弈
博弈论
理性人假设
联盟博弈
随机博弈
完全信息静态博弈
占优策
略均衡
占优
均衡
纳什
均衡
囚徒困境 智猪博弈
University of Chinese of Academy of Sciences
完全信息动态博弈
子博
弈
阶段博弈
不完全信息静态博弈 不完全信息动态博弈
重复 子博弈精炼
博弈 纳什均衡
冷酷策略
海萨尼转换
精炼贝叶斯
均衡
第32/90页
马尔科夫
均衡
贝叶斯纳什
均衡
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈论的基本假设
• 博弈论的三个基本假设
• 参与的局中人都是理性的(rational)
• 自己为自己的行为负责,前后一致、至始至终遵循自己的
决策,考虑对方的决策,考虑不确定性等。
• 参与的局中人都是聪明的(intelligent)
• 博弈中能够洞悉一切,对博弈的变化永久记忆,永不遗忘;
• 对整个博弈局势了如指掌,并作出完整的判断;
• 双方都知道关于博弈的相关信息。
• 参与的局中人都是经济的(economical)
• 每个参与的局中人都是追求博弈过程中的个人效用最大化,
效用通常使用效用函数来表示。
• 为什么需要理性人假设?
University of Chinese of Academy of Sciences
第33/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈论中的常见术语
• 参与人(players):理性选择主体,� = 1, …, �
• 特殊参与人(nature):虚拟参与人(运气等)
• 行动(action):选择变量,��代表参与人�的某
一行动选择,�� 代表相应的选择空间
• 损益(payoff):参与人的得与失
• 信息(information):参与人有关博弈的知识
• 策略(strategy):参与人的行动规则(计划),
s�代表参与人�的某一策略,�� 代表相应的策略空
间
University of Chinese of Academy of Sciences
第34/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈论中的常见术语
• 博弈论(game theory):研究给定博弈中,各参
与人会作出怎样的理性选择。当局者迷、旁观者
清。研究博弈论的目标是要做到当局者清,旁观
者更清。
• 博弈的规则(rules of the game):参与人+行动
+结局。规则是一种人为的限制,对资格(行为
主体)的限制,对行动空间(选择空间)的限制,
并建立行动与结局(损益)之间的联系。
University of Chinese of Academy of Sciences
第35/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈论中的常见术语
• 结局(outcome):某种行动、策略和损益的组合
• 均衡(equilibrium):行为主体间相互作用的一
种结局,在该结局中,参与人无法通过改变选择
增加收益(效用)。又称“僵局”、稳定状态。
此乃局外人所关心的。
• 博弈(game):参与人的集合+策略空间的集合+
损益函数的集合,作为动词的博弈是指参与人i在
给定的博弈中选择策略及行动。
University of Chinese of Academy of Sciences
第36/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈模型的基本要素
• 描述一个博弈模型,至少需要以下三个要素:
• 局中人或者参与人:是博弈中的行为主体,可能是自
然人,也可能是企业、团体、特定群体,甚至可以是
虚拟的参与人、无形的自然。有时候为了分析方便,
参与人每个可能信息状态都可以看到代理人。
• 策略空间:参与人�可选择的行动策略集合记为��,则
每一个选择的策略s� ∈ S� ,� = �� , …, �� 称为n个参与
人的策略组合(strategy profile),所有参与人的策略
集合组合就构成了博弈的策略空间� = ×1≤�≤� �� 。
• 损益函数:或者称为收益函数、支付函数等,是博弈
的局中人最关心的。
University of Chinese of Academy of Sciences
第37/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈问题的构成
• 此外,博弈模型还涉及到信息、效用等多种信息,
包含更多信息的博弈模型G可以使用如下的七元
组表示: G={P,A,S,I,U,O,E}
• P:Player,参与人,选手
• A:Action,动作
• S:Strategies,策略
• I:Information,信息
• U:Utility(pay off),效用,支付
• O:Outcome,结果
• E:Equilibrium,均衡
University of Chinese of Academy of Sciences
第38/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
纯策略和混合策略
• 参与人在给定情况下只选择一种特定的行动,我
们就称该策略为纯(Pure)策略
• 集合��中的每一个元素就是参与人�的一个纯策略
• 参与人在给定情况下以某种概率分布随机选择不
同的行动,就称该策略为混合( Mixed )策略
混合策略(Mixed Strategy)
假设�有�个纯策略:�� = ��1 , …, ��� ,概率分布�� = ��1 , …, ���
为�的一个混合策略,��� 是�选择纯策略��� 的概率。
• 对于石头剪刀布博弈来说:
• 纯策略:只出石头,�� = 1,0,0
• 混合策略:等概率出石头剪刀布,�� = 1/3,1/3,1/3
University of Chinese of Academy of Sciences
第39/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
混合策略的表示
• 参与人�的某一混合策略:�� = ��1 , …, ��2 , …, ���
• 参与人�的混合策略集合:Σ� ,�� ∈ Σ�
• 所有参与人的某一混合策略组合:� = �1 , …, �� , …, ��
• 博弈的混合策略空间:Σ = ×� Σ�
• 参与人�的期望收益函数(Expected Utility):
• �� � = �� �� , �−� =
•� � =
�
�
� �
��
�∈�
� � �� �
• 将参与人�在所有策略组合下的收益按照该策略组合出现的概
率进行加权平均
• 每个策略组合出现的概率等于各个纯策略概率的乘积
• �−� 代表除了参与人�之外其他参与人的混合策略组合
University of Chinese of Academy of Sciences
第40/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈问题分类举例分析
• 按照参与人是否合作:
• 非合作博弈:博弈的每个个体参与者都独立地以自己
的个人理性一直进行决策,最优化个人的效益。
• 合作博弈:博弈的一些参与者以同盟、合作的方式进
行的博弈,博弈活动就是不同集团之间的对抗。
• 举例:
• 非合作博弈:囚徒困境、棋牌游戏、体育竞技、市场
经济、战争等。
• 合作博弈:串谋的囚徒、多人棋牌、团体比赛、踢假
球、计划经济、供应链管理、欧佩克、WTO、成本分
摊、风险决策、公司治理等。
University of Chinese of Academy of Sciences
第41/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈问题分类举例分析
• 按照行动的先后次序
• 静态博弈:是指博弈过程中参与人行动时预先不知晓
其他参与人行动的博弈。
• 动态博弈:是指参与人行动有先后顺序,且后行动者
能够知晓先行动者所选择行动的博弈。
• 随机博弈:是指参与人行动既有同时发生、又有顺序
发生的博弈;进行具有状态概率转移的博弈过程。
• 举例
• 静态博弈:囚徒困境、石头剪刀布等
• 动态博弈:象棋围棋、商品拍卖、军备竞赛等
• 随机博弈:实时策略游戏、真实战争等
University of Chinese of Academy of Sciences
第42/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈问题分类举例分析
• 根据参与人的多少
• 单人博弈:个人在面临多个可选策略时的思考过程,
“跟自己玩并后果自负”;
• 双人博弈:博弈的参与者包含两个不同个体;
• 多人博弈:博弈的参与者包含多个不同个体;
• 举例
• 单人博弈:是否选修博弈论课,是否退选博弈论课,
是否找女朋友,AlphaZero模型自我博弈等
• 双人博弈:囚徒困境、围棋、象棋等
• 多人博弈:王者荣耀5v5等
University of Chinese of Academy of Sciences
第43/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈问题分类举例分析
• 根据博弈的次数
• 单次博弈:博弈的过程只进行一次
• 有限多次博弈:博弈的过程包含多次,是一类特殊的
扩展形式博弈
• 无限重复博弈:博弈的过程重复多次,每个参与者会
考虑自己当期的行为对其他参与者未来行为的影响
• 大家举例
University of Chinese of Academy of Sciences
第44/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈问题分类举例分析
• 按照参与人之间状态信息的知晓程度
• 完全信息博弈:博弈的所有参与者都对博弈各方的各
种情况下的收益完全知晓;
• 不完全信息博弈:博弈的参与者对博弈各方的各种情
况下的收益不完全知晓;
• 完美信息博弈:博弈的所有参与者都完全知晓他行动
前的博弈过程和历史;
• 不完美信息博弈:不是所有的博弈参与者都完全知晓
他行动前的博弈过程和历史;
• 大家举例
University of Chinese of Academy of Sciences
第45/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈问题分类举例分析
• 根据博弈的结果分类
• 零和博弈:指参与博弈的各方,在严格竞争下,一方
的收益必然意味着另一方的损失,博弈各方的收益和
损失相加总和永远为“零”,双方不存在合作的可能。
• 负和博弈:指双方竞争结果造成博弈结果总和为负数。
它既包括一种两败俱伤的情况,这种情况下结果双方
都有不同程度的损失;他也包括另一种“胜者”取得
的利益小于“败者”承受的损失的博弈。
• 正和博弈:指博弈双方的利益都有所增加,或者至少
是一方的利益增加,而另一方的利益不受损害,因而
整个社会的利益有所增加,对应合作博弈。
• 大家举例
University of Chinese of Academy of Sciences
第46/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈问题的表示
• 两种不同的表示形式
策略型博弈(strategic-form game)表示
展开型博弈(extensive-form game)表示
University of Chinese of Academy of Sciences
第47/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
策略型博弈表示
• 策略型博弈表示是概念上最简单的博弈表示形式,
也称为标准式表示,主要用于静态博弈,表示参
与人同时选择策略。这种表示需要同时给出:
• 参与人集合:� ∈ �, � = 1, …, � ,决定张量的维度
• 每个参与人的策略空间:�� , � = 1, …, �,每一维大小
• 每个参与人的支付函数:�� �1 , …, �� , …, �� , � = 1, …, �,
决定张量的每一个元素
• 策略型博弈表示举例
University of Chinese of Academy of Sciences
囚徒B
囚徒A
坦白
抵赖
坦白
-5, -5
0, -10
抵赖
-10, 0
-1, -1
第48/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
展开型博弈表示
• 展开型博弈表示主要用于研究和分析多阶段的动
态博弈,需要包括如下信息:
• 参与人集合:� ∈ �, � = 1,2, …, � ,可以包括自然
• 参与人的行动顺序:谁在什么时候行动
• 参与人的行动空间:每次行动时,有什么选择
• 信息集合:每次行动结束,参与人知道些什么
• 效益函数:每次行动时,参与人知道将得到什么
• 外生事件(即自然选择)的概率分布
• 通常用来表示参与人行动有先后顺序的博弈
• 一般也称为博弈的扩展式表示(Extensive-form)
University of Chinese of Academy of Sciences
第49/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
展开型博弈表示
• 博弈树定义:树中每一对结点有且仅由一个树支
与其相连,树的根是博弈的起始结点。
• 结点:� ∈ � ≐ � ,关系符号≺表示结点的先后顺序关系。具
体包括机会结点、决策结点和终结点;
• 路径:结点�之前的全部结点集合称为�的前列集,又称为�的
路径,记为� � ;
• 后续结点:结点�之后的所有节点的集合称为�的后续节点集,
记为� � ;
• 跟随:当结点�位于结点�的路径上,即� ∈ � � ,则称�跟随�;
• 树枝:结点�到其直接跟随结点�的连线,树枝代表一个可供参
与人选择的行动策略;
• 信息集:博弈决策集合的一个子集。
University of Chinese of Academy of Sciences
第50/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
展开型博弈表示
• 博弈树表示举例
�
(2,0)
(1,1)
�
�
�′
��
�′
(3, 0)
1
��′
�′
-1
(4,0) (0, 2)
1
University of Chinese of Academy of Sciences
第51/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
展开型博弈表示中的不完美信息
• 不完美信息(Imperfect Information):一些参与
者观测不到其他参与者的动作选择
• 信息集(Information Set,博弈论中的重要概念):
• 1)集合中的每个节点都是同一个参与人进行决策;2)参与人知道博弈进
入该集合,但是不知道自己具体在哪一个节点;3)每一个信息集中节点的
可选动作都相同
• 每一个信息集对应一个“决策点”
• 完美信息博弈中每一个信息集只包含一个节点
玩家2不知道玩家1选了左
还是右
University of Chinese of Academy of Sciences
第52/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
扩展式博弈中的纯策略集合
• 参与人�在其所有决策点(信息集)的动作选择
扩展式博弈中的纯策略
令� ℎ 表示在信息集ℎ下的行动集, �� ≡ ℎ� 是参与人�的信息集
集合,�� ≡ ∪ℎ�∈�� � ℎ� 为参与人�所有可选择行动的集合,参与人
�的纯策略集合�� ≡ ×ℎ�∈�� � ℎ� 。
• 每一个参与人�的纯策略集合��:
• �1 = 左,右 ,玩家1有两个纯策略
• 玩家2有两个决策点,每个决策点2种动作选择→4个纯策略
• �2 = 左左,左右,右左,右右 ,玩家2有4个纯策略,含义是
•
•
•
•
左左:不管玩家1如何选择玩家2都选左
左右:1左2也左,1右2也右
右左:1左2右,1右2左
右右:不管1如何,2都右
University of Chinese of Academy of Sciences
第53/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
扩展式博弈中的纯策略集合
• 不完美信息条件下,每个参与人�的纯策略集合��:
• �1 = 左,右 ,玩家1有2个纯策略
• �2 = 左,右 ,玩家2也有2个纯策略
• 玩家2为什么只有2个纯策略?和上个例子有什么不同?
• 因为玩家2只有1个决策点(信息集),该信息集下只
有2个动作可供选择,因此玩家2只有两个纯策略
University of Chinese of Academy of Sciences
第54/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
扩展式博弈中的纯策略集合
• 蜈蚣博弈(The Centipede Game)
IN
IN
A
P1
P2
P1
OUT
OUT
B
(2,2)
(1,3)
• �2 ={IN, OUT}
(4,2)
(3,4)
• �1 ={IN A, IN B, OUT A, OUT B}
• 很多人会有疑问:P1选了OUT之后博弈就结束了,为什么还要
指定后续的动作?
• 回忆定义:扩展式博弈的一个纯策略描述了参与者在其所有决
策点(信息集)的动作选择,不能只指定部分决策点的选择!
University of Chinese of Academy of Sciences
第55/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
扩展式博弈中的纯策略集合
• 不完美信息博弈
�1 ={UXW, UXZ, UYW, UYZ, DXW, DXZ, DYW, DYZ }
�2 ={A,B},玩家2只有1个决策点!
University of Chinese of Academy of Sciences
第56/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
扩展式博弈中的混合策略
• 与矩阵式博弈相同:
混合策略(Mixed Strategy)
假设�有�个纯策略:�� = ��1 , …, ��� ,概率分布�� = ��1 , …, ���
为�的一个混合策略,��� 是�选择纯策略��� 的概率。
玩家1的纯策略集合�1 ={A,B},
它的一个混合策略�1 为�1 上的
某一概率分布
玩家2的纯策略集合
�2 ={CF,CG,DF,DG},它的一
个混合策略�2 同样为�2 上的某
一概率分布
University of Chinese of Academy of Sciences
第57/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
扩展式博弈中的行为策略
• 玩家�的行为策略( Behavioral Strategy ):
• 为玩家�每一个决策点指定一个概率分布
• 玩家1的行为策略:
• �的概率选A动作,以1 − �的概率选B动作
• 玩家2的行为策略:
• 第一个决策点,�概率
选C,1 − �概率选D,
第二个决策点,�概率
选F,1 − �概率选G
University of Chinese of Academy of Sciences
第58/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
矩阵式表示和扩展式表示的转换
• 博弈的矩阵式表示和扩展式表示可以互相转化
• 矩阵式转化为扩展式
• 利用信息集来表示动作同时进行
石头剪刀布的
矩阵式表示
R
P2
R S
0,0
University of Chinese of Academy of Sciences
P
P1
P
S
P2
R S
P
P2
R S
…
第59/90页
P
石头剪刀布的
扩展式表示
0,0
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
矩阵式表示和扩展式表示的转换
• 扩展式转化为矩阵式
• 首先写出所有玩家的纯策略集合,集合大小确定了矩
阵每一维度的大小,然后用收益函数进行填空
A
P1
P2
C
0,0
D
1,1
B
P2
E
2,2
F
3,4
University of Chinese of Academy of Sciences
扩展式表示
�1 ={A,B}
�2 ={CE, CF, DE, DF}
A
CE
0,0
CF
0,0
DE
1,1
DF
1,1
B
2,2
3,4
2,2
3,4
第60/90页
矩阵式表示
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
矩阵式表示和扩展式表示的转换
• 扩展式转化为矩阵式
扩展式表示
�1 ={UXW, UXZ, UYW, UYZ,
DXW, DXZ, DYW, DYZ }
�2 ={A, B}
University of Chinese of Academy of Sciences
第61/90页
UXW
A
3,3
B
5,1
UXZ
..
..
UYW
..
..
UYZ
..
..
DXW
..
..
DXZ
..
..
DYW
..
..
DYZ
3,0
1,1
矩阵式表示
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
矩阵式表示和扩展式表示的转换
• 扩展式转化为矩阵式是唯一的
• 矩阵式转化为扩展式可能不唯一!
P1
C
D
A
1,2
1,2
B
3,1
2,4
A
B
1,2
P2
2,4
D
C
P1
A
B
P2
P2
D
University of Chinese of Academy of Sciences
3,1
C
第62/90页
D
C
1,2
1,2
3,1
2,4
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
随机博弈(Stochastic Games)
• 随机博弈:随着博弈进行环境状态发生随机转移
• 随机博弈可以看作是一个五元组 �, �, �, �, � :
• �是状态集合,� = 1,2, …, �, …, � 是玩家集合
• � = �1 ×… × �� ,�� 是玩家�的动作空间
• �: � × � × � → [0,1]是状态转移函数
• � = �1 , …, �� , �� : � × � → ℝ是玩家�的奖励
• 重复博弈是随机博弈的特例, � = 1
• 随机博弈是单智能体强化学习中马尔科夫决策过程
(Markov Decision Process,MDP)的推广, � =1
• 随机博弈是多智能体强化学习的基础
• 连接博弈论和多智能体强化学习的桥梁
University of Chinese of Academy of Sciences
第63/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
随机博弈例子
• 两小车都想到G位置,任意小车到达G则游戏结束
• P1有两个动作,P2有两个动作
• 虚线是障碍,只有50%的概率能通过
• 如果双方进入同一个cell,双方直接复位到原始位置
University of Chinese of Academy of Sciences
第64/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
随机博弈例子
• 随机博弈的状态转移示意图
University of Chinese of Academy of Sciences
第65/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈的解概念
• 博弈问题研究的关键:获取博弈最终的稳定状态
• 均衡:是所有参与人的最优策略的组合。
• 所谓博弈均衡,它是一种稳定的博弈结果。
• 博弈论中的解概念(Solution Concepts):
• 指定了博弈各玩家采取的策略以及最终的收益
• 可以从不同的角度得到不同的解:从局外人的角度、
从当事人的角度等
• 对于许多博弈,同一类型的解概念可能得到多个解,
存在如何选择的问题
• 得到的解可能存在不合理之处,需要进行精炼
( Refinement )
University of Chinese of Academy of Sciences
第66/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈的解概念
• 常见的解概念:帕累托最优( Pareto
Optimality )、纳什均衡( Nash equilibrium )等
• 帕累托最优( Pareto Optimality ) :资源分配的一种
理想状态,不存在使别人利益不受损的情况下改进个
别人的利益。
• 纳什均衡(Nash Equilibrium):在一个策略组合中,
所有的参与者面临这样的一种情况,当其他人不改变
策略时,他此时的策略是最好的。
比如,在二人博弈中:
给定你的策略,我的策略是最好的策略;
给定我的策略,你的策略也是最好的策略。
University of Chinese of Academy of Sciences
第67/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈的解概念:帕累托最优
• 帕雷托效益/最优( Pareto Efficiency/Optimality )
• 资源分配的一种理想状态:给定固有的一群人和可分
配的资源,如果从一种分配状态到另一种状态的变化
中,在没有使任何人境况变坏的前提下,使得至少一
个人变得更好(帕雷托改善,Pareto Improvement)。
• 只是理想状态的“最低标准”
• 未达到一定不理想
• 达到了不一定“最理想”
• 完备且充分竞争的市场
• 交换最优,生产最优,
产品混合最优
University of Chinese of Academy of Sciences
第68/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈的解概念:帕累托最优
• 帕累托最优是从一个客观公正局外人的角度来看,
博弈中是否有一些结果优于其他结果。
帕累托占优(Pareto Domination)
策略组合 � = �� , …, �� 帕累托占优�′ = �′� , …, �′� :
如果对于任何玩家� ∈ �来说, �� � ≥ �� �′
帕累托最优(Pareto Optimality)
策略组合 � = �� , …, �� 是帕累托最优:
如果不存在其他策略组合�′ 帕累托占优�
• 不存在其他策略组合增长一方收益的同时而不损
害他方。
University of Chinese of Academy of Sciences
第69/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈的解概念:帕累托最优
• 帕累托最优:不存在其他策略组合增长一方收益
的同时而不损害他方
3,3
2,0
0,2
1,1
3,3
4,1
1,4
2,2
1,-1
-1,1
-1,1
1,-1
两人零和博弈所有的策略组合都是帕累托最优?
University of Chinese of Academy of Sciences
第70/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈的解概念:纳什均衡
• 纳什均衡是博弈论中最具影响力的解概念
最优反应( Best Response)
玩家� ∈ �对�−� 的最优反应是�∗� :
�∗� 满足对任意�� , �� �∗� , �−� ≥ �� �� , �−�
纳什均衡( Nash Equilibrium )
一个策略组合� = �1 , …, �� , …, �� 是纳什均衡:
如果对任意玩家� ∈ �来说,�� 都是�−� 的最优反应
• 纳什均衡是一个稳定状态,每个玩家都没有动机
改变自己的策略
• 上述两个定义同样适用于混合策略,称作纯策略
纳什均衡与混合策略纳什均衡
University of Chinese of Academy of Sciences
第71/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
纯策略纳什均衡求法
• 固定一方的策略,求取另一方的最优反应,最优
反应的交集就是纯策略纳什均衡
囚徒B
囚徒A
坦白
坦白
2,2
抵赖
University of Chinese of Academy of Sciences
3,0
0,0
0,0
0,0
0,0
0,0
0,0
-1,1
-1,1
0,0
1,-1
0,0
-1,1
0,0
1,-1
1,-1
0,0
抵赖
0,3
1,1
第72/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
混合策略纳什均衡求法
• 右图不存在纯策略纳什均衡
纳什均衡存在性定理(Nash, 1950)
有限博弈至少存在一个纯/混合纳什均衡
h
t
h
1,-1
-1,1
t
-1,1
1,-1
• 因此存在混合策略纳什均衡
• 假设玩家1以�的概率选h,1 − �的概率选t,玩家2以�的概率
选h,1 − �的概率选t。
• 既然玩家1要采取混合策略,那么选h或t对他的收益是一样的
• 如果不一样,玩家1肯定会选收益更大的纯策略!
• 是玩家2的混合策略导致玩家1认为h和t的收益一样
• 玩家1选h或t的收益都是�的函数,通过两者相等求取�
• � × 1 + 1 − � × −1 = � × −1 + 1 − � × 1 → � = 0.5
• 同理,可得� = 0.5
University of Chinese of Academy of Sciences
第73/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
两人零和博弈的纳什均衡
• 两人博弈中,双方的损益之和为零或一个常数,即一方
有所得,另一方必有所失。
•
•
•
•
帕雷托改善(Pareto Improvement)
帕雷托效益/最优( Pareto efficiency/optimality )
非合作博弈,零和的结果出现帕雷托最优
实际案例:分蛋糕、围棋、赌博、双寡头市场竞争等
• 思考:如何分蛋糕?
• 另一个示例:红蓝双方博弈
•
•
•
•
右图策略式表示有什么特点?
红方动作:1和2
蓝方动作:A、B和C
最终双方的胜率是什么?
University of Chinese of Academy of Sciences
蓝方
红方
A
B
C
1
3, -3
-1, 1
2,-2
2
1, -1
2, -2
-2,2
第74/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
求取均衡的核心是搜索算法
• 极大极小搜索:搜索策略保证己方收益最大,对方最小!
• 最大化最差情况(最小收益)下的收益(maximin)
• 最小化最好情况(最小损失)下的损失(minimax)
• 极大极小值(maximin value):在不考虑对方行动的情
况下,己方能够获得的最大收益值;即对方知道己方行
动情况下,能够迫使对方获得的最小收益值。
• 形式化:
�∗ = max min �� �� , �−�
��
�−�
• 适用性:两人零和博弈(静态、动态、单次、多次、纯
策略、混合策略等)
University of Chinese of Academy of Sciences
第75/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
极大极小搜索的理论保证
• 极大极小值原理:亦称为博弈论基本定理,是关于如下
最大最小不等式等号成立条件的定理:
若� ⊆ ℝ� , � ⊆ ℝ� 为紧致凸集,�: � × � → ℝ为连续的
的凸-凹函数,则:
max min � �, � = min max � �, �
�∈� �∈�
�∈� �∈�
• 最早证明:1928年,冯·诺依曼
• 证明方法:利用初等概率和拓扑学的工具
• 后续证明:凸性的论证和支撑超平面的概念;完全代数
方法;不动点理论或迭代程序;凸集理论等。
University of Chinese of Academy of Sciences
第76/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
极大极小搜索示例:分硬币游戏
• 分硬币游戏:有7枚硬币,只能将已分好的一堆硬币分成
个数不等的两堆,当每堆只有1枚或2枚硬币则不能再分,
红蓝双方轮流进行,直到谁不能再分,则为输。
最大化最小收益
MAX
-1
7
6, 1 -1
MIN
MAX
MIN
MAX
MIN
5, 1, 1 1
4, 1, 1, 1
4, 2, 1 -1
1
University of Chinese of Academy of Sciences
4, 3 -1
3, 2, 2 1
3, 3, 1
-1
3, 2, 1, 1 -1 2, 2, 2, 1 1
3, 1, 1, 1, 1 1
2, 1, 1, 1, 1, 1
5, 2 -1
2, 2, 1, 1, 1
1
-1
• 己方扩展结点是“或”关系(MAX求最大)
• 对方扩展结点是“与”关系(MIN求最小)
第77/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
极大极小搜索示例:中国象棋和五子棋
• 中国象棋AI搜索复杂度
• 棋盘大小9×10,状态空间复杂
度1048
• 一盘棋平均走50步,每一步大概
有20多种走法,决策空间复杂度
约为10150
• 五子棋AI的搜素复杂度
• 棋盘大小15×15
• 状态空间复杂度3225≈10107
• 每一步有几十种走法,决策空间
复杂度约为10105
University of Chinese of Academy of Sciences
第78/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
博弈论的主要应用领域
数学:博弈论源于数学,开始属于运筹学的一个分支
军事:博弈的思想在军事斗争中无处不在
政治:国际国内政治斗争中同样存在各种博弈
经济:博弈论已经成为现代经济学研究的主流
计算机:算法博弈论是计算机中研究点一个分支
人工智能:目前是AI领域新一轮研究热潮
其他领域:管理、物流、营销、招聘、运营、生活各方面
University of Chinese of Academy of Sciences
第79/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:囚徒困境
• 两个同谋罪犯被隔离关押
• 互不揭发:每人要坐牢一年
• 互相揭发:每人要判刑五年
• 一人揭发:释放和判刑十年
囚徒B
囚徒A
招供
拒绝
招供
5, 5
10,0
拒绝
0, 10
1, 1
• 结论和启示
• 均衡点:两人各判五年
• 如何打破囚徒困境?
• 多次囚徒困境
• 重复囚徒困境
University of Chinese of Academy of Sciences
第80/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:智猪博弈
• 猪圈里有一大一小两头猪抢猪食的故事
• 猪圈很长,一头有一踏板
• 另一头是食物出口和食槽
• 踩一次踏板可出10份食物
• 从一头跑过去消耗2份食物
• 大猪小猪同时吃:(7,3)
• 大猪先小猪后吃:(9,1)
• 小猪先大猪后吃:(6,4)
小猪
行动
不动
行动
5, 1
4, 4
不动
9, -1
0, 0
大猪
• 思考和启示
• 均衡点是什么?
• 生活中有哪些相似的例子?
University of Chinese of Academy of Sciences
第81/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:斗鸡博弈
• 两只公鸡桥上相遇后选择进攻和后退的故事
• 同时进攻各损失-3
• 同时后退各损失-1
• A进攻B后退(2,-1)
• A后退B进攻(-1,2)
鸡B
进攻
后退
进攻
-3, -3
2, -1
后退
-1, 2
-1, -1
鸡A
• 思考和启示
• 均衡点是什么?
• 怎么达到均衡点?
• 生活中有哪些相似的例子?
University of Chinese of Academy of Sciences
第82/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:集资修路
• 某个偏远村庄要集资修路,每个村民自愿出资,
集资修路之后大家都受益
村民B
• 效益函数无法准确确定
• 效益函数先以右图为例
出资
不出资
出资
3, 3
2, 4
不出资
4, 2
1, 1
村民A
• 思考与启示
• 均衡点是什么?
• 如何保证把路修了?
• 生活中有哪些相似的例子?
University of Chinese of Academy of Sciences
第83/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:门店选址
• 为什么经常看到麦当劳附近就有肯德基?
• 假设A和B两点间人流量均匀分布,麦当劳先选择M
点会选在哪里?
M
K
• 肯德基再选点会选择那里?
�
�
�
• 思考和启示
• 均衡点会选在哪里?
• 生活中有哪些类似的例子?
University of Chinese of Academy of Sciences
第84/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:市场进入阻挠
• 一个企业欲进入已有垄断者的市场
• 欲进入者有两个策略
• 进入
• 不进入
垄断者
进入者
默许
斗争
进入
4, 5
-1, 0
不进入
0, 30
0, 30
• 垄断者有两个策略
• 默许
• 斗争
• 思考与启示
• 均衡点是什么?
• 生活中有哪些相似的例子?
University of Chinese of Academy of Sciences
第85/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:二手车市场
• 为什么私人二手汽车市场很难形成?
• 由于信息不对称性,造成二手车质量无法评估
• 假设二手车的平均质量为0.5
买家
卖家
• 买家和卖家如何博弈?
0
� 0.5
• 思考与启示
1
• 最终均衡点是什么?
• 生活中有哪些类似的例子?
• 如何形成二手车市场?
University of Chinese of Academy of Sciences
第86/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:警察与小偷
• 小镇有AB两个区域,只有一个警察巡逻,有个小
偷经常在A或B犯案
小偷
• 警察巡逻策略:A或B
• 小偷偷盗策略:A或B
• 警察和小偷如何博弈?
A区
B区
A区
3, 0
2, 1
B区
1, 2
3, 0
警察
• 思考与启示
• 最终的均衡点是什么?
• 生活中有哪些类似的例子?
University of Chinese of Academy of Sciences
第87/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
案例分析:枪手博弈
• A、B、C三个枪手狭路相逢,要一枪决生死
• 枪手A、B、C的命中率分别为80%、60%和40%
• 假设三人同时开枪谁存活率高?
• 假设三人依次开枪谁存活率高?
• 思考与启示
• 不同的设定下的均衡点
• 生活中有哪些类似的例子?
University of Chinese of Academy of Sciences
第88/90页
自动化研究所
Institute of Automation
课程简介
发展历史
内容体系
应用案例
本次课程作业
• 作业内容:试选取日常生活中的一些常见现象,
用博弈论的视角进行分析、解释、引申和思考。
每个人至少选取两件事例,多则不限。作业成绩
根据案例分析的透彻程度进行打分。
• 截止时间:下次上课前(2023年3月4日)
• 提交方法:在Sep课程网站上提交,同时提交电
子版到助教邮箱(zangyifan19@mails.ucas.ac.cn)
• 邮件发送规范
• 邮件主题:计算博弈第一次作业_学号_姓名
• 附件名称:计算博弈第一次作业_学号_姓名.docx
University of Chinese of Academy of Sciences
第89/90页
自动化研究所
Institute of Automation
专业普及课《计算博弈原理与应用》
感谢聆听!
兴军亮
jlxing@nlpr.ia.ac.cn
2023年2月26日
自动化研究所
University of Chinese of Academy of Sciences
Institute of Automation
Download