计算博弈原理与应用课程概述

专业普及课《计算博弈原理与应用》第1讲：课程概述兴军亮 jlxing@nlpr.ia.ac.cn 2023年2月26日自动化研究所 University of Chinese of Academy of Sciences Institute of Automation 课程概述课程简介发展历史内容体系应用案例 University of Chinese of Academy of Sciences 第2/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例计算博弈原理与应用22-23春季 • 英文名称：Computational Game Theory and Applications • 课程编号：085400M05024N • 课程属性：专业普及课 • 学时学分：50学时，2.5学分 • 主讲教师：兴军亮、李凯 • 课程助教：臧一凡（zangyifan19@mails.ucas.ac.cn） • 教学形式：课堂讲授和讨论 • 预备知识：高等数学，概率论、线型代数、运筹学、程序设计、数据结构与算法、机器学习等 University of Chinese of Academy of Sciences 第3/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例计算博弈原理与应用22-23春季 • 课程的钉钉群 • 课程通知、课题提问、答疑讨论、作业提交、小组合作等 • 入群后请更改昵称为：姓名-学号-专业方向 • 线上课堂：腾讯会议 • #腾讯会议：556-1873-7955 • 方便无法现场上课同学 University of Chinese of Academy of Sciences 第4/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例教学目标 • 这门课程面向的专业和学科人工智能计算机科学 … 博弈论经济学应用数学 University of Chinese of Academy of Sciences 控制科学信息科学第5/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例教学目标 • 主要讲授内容历史和现状 University of Chinese of Academy of Sciences 概念和方法算法和原理第6/90页应用和案例自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例教学目标 • 课程预期目标和要求了解 • 博弈论的历史发展过程和未来发展方向 • 博弈理论方法在不用领域研究应用现状熟悉 • 博弈的相关基本概念和均衡分析原理 • 人工智能专业智能博弈课程的研究框架 • 计算博弈求解问题的应用过程和典型案例掌握 • 典型博弈问题的具体定义和特点 • 博弈分析和解决问题的主要思路 • 博弈计算的算法机制和实现方法 University of Chinese of Academy of Sciences 第7/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例教学大纲和计划 • 课程每讲内容：1×3+5×3+3×3+4×3+3×3+1 计算博弈课程概述均衡的低效率性专题均衡计算复杂度专题完全信息静态博弈算法化机制设计专题单机小游戏 AI设计课程期末课堂考试完全信息动态博弈随机博弈围棋博弈AI 设计课程设计汇报1/2/3 不完全信息静态博弈不完全信息动态博弈德扑博弈AI 设计实时策略游戏AI设计 University of Chinese of Academy of Sciences 第8/90页第8/92页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例考核方式 • 会直接影响课程最终成绩的因素 • 平时作业：预计会布置4-6次作业 • 课程设计：课程中期会有一次课程设计 • 期末考试：期末会有一次考试最终成绩平时作业 40% 课程设计 20% 期末考试 40% • 会间接影响课程最终成绩的因素 • 出勤情况：出勤的同学会留下好印象 • 课堂提问：每堂课会尽量增加一些提问互动环节 University of Chinese of Academy of Sciences 第9/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例主要参考资料 • 课程相关的主要教材 • Martin Osborne and Ariel Rubinstein. A Course in Game Theory. MIT Press. 1994. • 张维迎著，博弈论与信息经济学，格致出版社，2012 年4月出版。 • Tim Roughgarden. Twenty Lectures on Algorithmic Game Theory. Cambridge University Express, 2016. • Y. Narahari, Game Theory and Mechanism Design, IISc Press and World Scientific, 2014. University of Chinese of Academy of Sciences 第10/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例主要参考资料 • 课程相关的研究论文：小游戏及围棋AI • Volodymyr Mnih et al. Human-Level Control Through Deep Reinforcement Learning. Nature, vol. 518, no. 7540, pp. 529-533, 2015. • David Silver et al., Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature, vol. 51, no. 7587, pp. 484-489, 2016. • David Silver et al., Mastering the Game of Go without Human Knowledge. Nature, vol. 550, pp. 354-359, 2017. • David Silver et al., Mastering Chess and Shogi by SelfPlay with a General Reinforcement Learning Algorithm. Science, vol. 362, pp. 1140-1144, 2018. University of Chinese of Academy of Sciences 第11/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例主要参考资料 • 课程相关的研究论文：德州扑克AI • Matej Moravčík et al. DeepStack: Expert-Level Artificial Intelligence in Heads-Up No-Limit Poker. Science, vol. 356, pp. 508-513, 2017. • Noam Brown and Tuomas Sandholm. Superhuman AI for heads-up no-limit poker: Libratus Beats Top Professionals. Science, vol. 359, pp. 418-424, 2018. • Noam Brown and Tuomas Sandholm. Superhuman AI for Multiplayer Poker. Science, vol. 365, pp. 885-890, 2019. University of Chinese of Academy of Sciences 第12/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例主要参考资料 • 课程相关的研究论文：实时策略游戏AI • Oriol Vinyals et al., Grandmaster Level in StarCraft II Using Multi-Agent Reinforcement Learning. Nature, vol. 575, pp. 350-354, 2019. • OpenAI et al., Dota 2 with Large Scale Deep Reinforcement Learning. arXiv prerint, arXiv:1912.06680, 2019. • Deheng Ye et al., Mastering Complex Control in MOBA Games with Deep Reinforcement Learning. arXiv preprint, arXiv:1912.09729, 2019. University of Chinese of Academy of Sciences 第13/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例主要参考资料 • 课程相关学习资料：相关基础知识教材和课件 • Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction (2nd Ed.). MIT Press, 2018. • Yoshua Bengio, Ian J. Goodfellow, and Aaron Courville. Deep Learning. MIT Press. 2017. • 周志华，机器学习，清华大学出版社, 2016年1月出版. • Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer. 2006. • 耶鲁大学博弈论课程：https://oyc.yale.edu/economics/econ-159 • 斯坦福算法博弈论课程：http://timroughgarden.org/f13/f13.html • 强化学习夏令营课程： https://rlchina.org/ University of Chinese of Academy of Sciences 第14/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例什么是博弈？ • 生活中，竞争与对抗无处不在 • 比赛、竞赛、挑战赛、友谊赛等 • 广告、销售、提薪、职位晋升等 • 对抗、冷战、战争、世界大战等 • 追女朋友、找工作、投资理财等 • 如何在对抗中获得成功？ • 关键：如何策略性地选择行动 • 博弈论就是研究互动局势下人们的策略行为的学问 • 计算博弈：从计算视角研究博弈 University of Chinese of Academy of Sciences 第15/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例从一个例子开始：囚徒困境 • 两个同谋罪犯被隔离关押 • 互不揭发：每人要坐牢一年 • 互相揭发：每人要判刑五年 • 一人揭发：释放和判刑十年 • 最终的审讯结果会是什么？ • 两个互相揭发对方，各判五年！ • 背后的原因是什么呢？（5,5）（0,10）博弈论（10,0）（1,1） University of Chinese of Academy of Sciences 第16/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈的分类 ç 根据参与人是否合作 ç根据参与人的多少 ç 合作博弈根据博弈结果 ç根据行动的先后次序单人博弈两人博弈多人博弈静态博弈动态博弈随机博弈 ç根据参与人对其他参与人的各种特征信息的获得差异 ç根据博弈的次数单次博弈多次博弈非合作博弈零和博弈常和博弈变和博弈完全信息博弈不完全信息博弈重复博弈 University of Chinese of Academy of Sciences 第17/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例萌芽与孕育 • 孙子兵法 • 上兵伐谋，其次伐交 • 其次伐兵，其下攻城 • 攻城之法，为不得已 • …… • 田忌赛马 • 以君之下驷与彼上驷 • 取君上驷与彼中驷 • 取君中驷与彼下驷 University of Chinese of Academy of Sciences 第18/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例萌芽与孕育 • 1838年：库诺特（Cournot）寡头竞争模型 • 两寡头（假定A和B）生产同质产品，生产成本为零， A、B共同面临的市场需求曲线是线性的，并且都为两厂商所了解，A、B两个厂商都认为对方对自己产量（决策）的变动没有反应。 • 第一次：A生产Q/2, B生产Q/4 • 第二次：A生产3Q/8, B生产5Q/16 • …… • 最后：A生产Q/3，B生产Q/3 • 推广：如果市场的寡头有m家，则每个寡头的均衡产量=市场总容量*1/(m+1)，那么行业的均衡总产量=市场总容量*m/(1+m)。 University of Chinese of Academy of Sciences 第19/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展：冯·诺依曼 • 冯·诺依曼（John Von Neumann） • 贡献一：证明了博弈论的基本定理 • 1928年：极小极大定理 • 用于处理一类最基本的二人对策问题，证明了选择“最大损失”最小的一种为“最优”策略 • 贡献二：将博弈论引入到经济学中 • 1944年:《博弈论与经济行为》 • 将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。 University of Chinese of Academy of Sciences 第20/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展：纳什 • 约翰·纳什（John Nash） • 1950年：《n人博弈中的均衡点》 • 1951年：《非合作博弈》 • 纳什均衡： • 改变了经济学的体系结构 • 扩展了经济学的研究范围 • 加强了经济学研究的深度 • 形成了经典博弈研究范式 • 扩大了与其他学科的联系 • 改变了经济学的语言和表达方法 University of Chinese of Academy of Sciences 第21/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展：1994年诺贝尔经济学奖 • 纳什、泽尔腾（Selten）和海萨尼（Harsanyi） • Prize motivation： “for their pioneering analysis of equilibria in the theory of non-cooperative games”. • 获奖原因：在非合作博弈的均衡分析理论方面做出了开创性贡献，对博弈论和经济学产生了重大影响。 University of Chinese of Academy of Sciences 第22/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展：1994年诺贝尔经济学奖 • 三位获奖者对于非合作博弈的具体贡献行动次序静态动态完全信息静态博弈纳什均衡（）囚徒困境，周末约会完全信息动态博弈子博弈精练纳什均衡（）田忌赛马，破釜沉舟不完全信息静态博弈贝叶斯均衡（不完全信息动态博弈精炼贝叶斯均衡信息完全信息不完全信息 University of Chinese of Academy of Sciences 第23/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展： 1996年诺贝尔经济学奖 • 维克里（Vickrey）和米尔利斯（Mirrlees） • Prize motivation： “for their fundamental contributions to the economic theory of incentives under asymmetric information”. • 获奖原因：在不对称信息的市场激励理论做出了基础性的贡献。 University of Chinese of Academy of Sciences 第24/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展： 2001年诺贝尔经济学奖 • 阿克尔洛夫(Akerlof)、斯彭斯(Spence)和斯蒂格利茨(Stiglitz) • Prize motivation： “for their analyses of markets with asymmetric information”. • 获奖原因：在“对充满不对称信息市场进行分析”领域对博弈论和经济学产生了重大影响。 University of Chinese of Academy of Sciences 第25/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展： 2005年诺贝尔经济学奖 • 奥曼（Aumann）和谢林（Schelling） • Prize motivation： “for having enhanced our understanding of conflict and cooperation through gametheory analysis”. • 获奖原因：通过博弈论分析加强了我们对冲突和合作的理解。 University of Chinese of Academy of Sciences 第26/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展： 2007年诺贝尔经济学奖 • 赫维茨（Hurwicz），马斯金（Maskin）和迈尔森（Myerson） • Prize motivation： “for having laid the foundations of mechanism design theory”. • 获奖原因：为机制设计理论建立的基础。 University of Chinese of Academy of Sciences 第27/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展： 2012年诺贝尔经济学奖 • 罗斯（Roth）和沙普利（Shapley） • Prize motivation： “for the theory of stable allocations and the practice of market design”. • 获奖原因：在稳定合作理论和市场设计实践方面的贡献。 University of Chinese of Academy of Sciences 第28/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展： 2014年诺贝尔经济学奖 • 让·梯若尔（Jean Tirole） • Prize motivation： “for his analysis of market power and regulation”. • 获奖原因：对市场力量和管制的研究。 University of Chinese of Academy of Sciences 第29/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展： 2016年诺贝尔经济学奖 • 哈特（Hart）和霍尔姆斯特伦（Holmström） • Prize motivation： “for their contributions to contract theory”. • 获奖原因：在契约理论方面的贡献。 University of Chinese of Academy of Sciences 第30/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例产生与发展 • 为什么博弈论在经济学产生如此重大作用？ • 博弈论在经济学中的应用最广泛、最成功；博弈论的许多成果也是借助经济学的例子来发展的，特别是在应用领域； • 经济学家对博弈论的贡献非常突出，特别是在动态分析和不完全信息引入到博弈论之后，例如克瑞普斯和威尔逊都是经济学家； • 最带根本性意义的原因是经济学和博弈论的研究模式是一样的，这就是强调个人理性，也就是在给定约束条件下追求效果最大化。张维迎：博弈论与信息经济学 University of Chinese of Academy of Sciences 第31/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例传统博弈论的内容体系合作，非合作；静态，动态，混合；完全信息；不完全信息等参与人、行动、信息、策略、损益函数、结果、均衡等非理性博弈两人合作博弈演化博弈论讨价还价解合作博弈多人合作博弈博弈论理性人假设联盟博弈随机博弈完全信息静态博弈占优策略均衡占优均衡纳什均衡囚徒困境智猪博弈 University of Chinese of Academy of Sciences 完全信息动态博弈子博弈阶段博弈不完全信息静态博弈不完全信息动态博弈重复子博弈精炼博弈纳什均衡冷酷策略海萨尼转换精炼贝叶斯均衡第32/90页马尔科夫均衡贝叶斯纳什均衡自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈论的基本假设 • 博弈论的三个基本假设 • 参与的局中人都是理性的（rational） • 自己为自己的行为负责，前后一致、至始至终遵循自己的决策，考虑对方的决策，考虑不确定性等。 • 参与的局中人都是聪明的（intelligent） • 博弈中能够洞悉一切，对博弈的变化永久记忆，永不遗忘； • 对整个博弈局势了如指掌，并作出完整的判断； • 双方都知道关于博弈的相关信息。 • 参与的局中人都是经济的（economical） • 每个参与的局中人都是追求博弈过程中的个人效用最大化，效用通常使用效用函数来表示。 • 为什么需要理性人假设？ University of Chinese of Academy of Sciences 第33/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈论中的常见术语 • 参与人（players）：理性选择主体，� = 1, …, � • 特殊参与人（nature）：虚拟参与人（运气等） • 行动（action）：选择变量，��代表参与人�的某一行动选择，�� 代表相应的选择空间 • 损益（payoff）：参与人的得与失 • 信息（information）：参与人有关博弈的知识 • 策略（strategy）：参与人的行动规则（计划）， s�代表参与人�的某一策略，�� 代表相应的策略空间 University of Chinese of Academy of Sciences 第34/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈论中的常见术语 • 博弈论（game theory）：研究给定博弈中，各参与人会作出怎样的理性选择。当局者迷、旁观者清。研究博弈论的目标是要做到当局者清，旁观者更清。 • 博弈的规则（rules of the game）：参与人＋行动＋结局。规则是一种人为的限制，对资格（行为主体）的限制，对行动空间（选择空间）的限制，并建立行动与结局（损益）之间的联系。 University of Chinese of Academy of Sciences 第35/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈论中的常见术语 • 结局（outcome）：某种行动、策略和损益的组合 • 均衡（equilibrium）：行为主体间相互作用的一种结局，在该结局中，参与人无法通过改变选择增加收益（效用）。又称“僵局”、稳定状态。此乃局外人所关心的。 • 博弈（game）：参与人的集合+策略空间的集合+ 损益函数的集合，作为动词的博弈是指参与人i在给定的博弈中选择策略及行动。 University of Chinese of Academy of Sciences 第36/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈模型的基本要素 • 描述一个博弈模型，至少需要以下三个要素： • 局中人或者参与人：是博弈中的行为主体，可能是自然人，也可能是企业、团体、特定群体，甚至可以是虚拟的参与人、无形的自然。有时候为了分析方便，参与人每个可能信息状态都可以看到代理人。 • 策略空间：参与人�可选择的行动策略集合记为��，则每一个选择的策略s� ∈ S� ，� = �� , …, �� 称为n个参与人的策略组合（strategy profile），所有参与人的策略集合组合就构成了博弈的策略空间� = ×1≤�≤� �� 。 • 损益函数：或者称为收益函数、支付函数等，是博弈的局中人最关心的。 University of Chinese of Academy of Sciences 第37/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈问题的构成 • 此外，博弈模型还涉及到信息、效用等多种信息，包含更多信息的博弈模型G可以使用如下的七元组表示： G＝｛P，A，S，I，U，O，E｝ • P：Player，参与人，选手 • A：Action，动作 • S：Strategies，策略 • I：Information，信息 • U：Utility（pay off），效用，支付 • O：Outcome，结果 • E：Equilibrium，均衡 University of Chinese of Academy of Sciences 第38/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例纯策略和混合策略 • 参与人在给定情况下只选择一种特定的行动，我们就称该策略为纯（Pure）策略 • 集合��中的每一个元素就是参与人�的一个纯策略 • 参与人在给定情况下以某种概率分布随机选择不同的行动，就称该策略为混合（ Mixed ）策略混合策略（Mixed Strategy）假设�有�个纯策略：�� = ��1 , …, �� ，概率分布�� = ��1 , …, �� 为�的一个混合策略，�� 是�选择纯策略�� 的概率。 • 对于石头剪刀布博弈来说： • 纯策略：只出石头，�� = 1,0,0 • 混合策略：等概率出石头剪刀布，�� = 1/3,1/3,1/3 University of Chinese of Academy of Sciences 第39/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例混合策略的表示 • 参与人�的某一混合策略：�� = ��1 , …, ��2 , …, �� • 参与人�的混合策略集合：Σ� ，�� ∈ Σ� • 所有参与人的某一混合策略组合：� = �1 , …, �� , …, �� • 博弈的混合策略空间：Σ = ×� Σ� • 参与人�的期望收益函数（Expected Utility）： • �� = �� , �−� = •� � = � � � � �� ∈� � � �� • 将参与人�在所有策略组合下的收益按照该策略组合出现的概率进行加权平均 • 每个策略组合出现的概率等于各个纯策略概率的乘积 • �−� 代表除了参与人�之外其他参与人的混合策略组合 University of Chinese of Academy of Sciences 第40/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈问题分类举例分析 • 按照参与人是否合作： • 非合作博弈：博弈的每个个体参与者都独立地以自己的个人理性一直进行决策，最优化个人的效益。 • 合作博弈：博弈的一些参与者以同盟、合作的方式进行的博弈，博弈活动就是不同集团之间的对抗。 • 举例： • 非合作博弈：囚徒困境、棋牌游戏、体育竞技、市场经济、战争等。 • 合作博弈：串谋的囚徒、多人棋牌、团体比赛、踢假球、计划经济、供应链管理、欧佩克、WTO、成本分摊、风险决策、公司治理等。 University of Chinese of Academy of Sciences 第41/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈问题分类举例分析 • 按照行动的先后次序 • 静态博弈：是指博弈过程中参与人行动时预先不知晓其他参与人行动的博弈。 • 动态博弈：是指参与人行动有先后顺序，且后行动者能够知晓先行动者所选择行动的博弈。 • 随机博弈：是指参与人行动既有同时发生、又有顺序发生的博弈；进行具有状态概率转移的博弈过程。 • 举例 • 静态博弈：囚徒困境、石头剪刀布等 • 动态博弈：象棋围棋、商品拍卖、军备竞赛等 • 随机博弈：实时策略游戏、真实战争等 University of Chinese of Academy of Sciences 第42/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈问题分类举例分析 • 根据参与人的多少 • 单人博弈：个人在面临多个可选策略时的思考过程， “跟自己玩并后果自负”； • 双人博弈：博弈的参与者包含两个不同个体； • 多人博弈：博弈的参与者包含多个不同个体； • 举例 • 单人博弈：是否选修博弈论课，是否退选博弈论课，是否找女朋友，AlphaZero模型自我博弈等 • 双人博弈：囚徒困境、围棋、象棋等 • 多人博弈：王者荣耀5v5等 University of Chinese of Academy of Sciences 第43/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈问题分类举例分析 • 根据博弈的次数 • 单次博弈：博弈的过程只进行一次 • 有限多次博弈：博弈的过程包含多次，是一类特殊的扩展形式博弈 • 无限重复博弈：博弈的过程重复多次，每个参与者会考虑自己当期的行为对其他参与者未来行为的影响 • 大家举例 University of Chinese of Academy of Sciences 第44/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈问题分类举例分析 • 按照参与人之间状态信息的知晓程度 • 完全信息博弈：博弈的所有参与者都对博弈各方的各种情况下的收益完全知晓； • 不完全信息博弈：博弈的参与者对博弈各方的各种情况下的收益不完全知晓； • 完美信息博弈：博弈的所有参与者都完全知晓他行动前的博弈过程和历史； • 不完美信息博弈：不是所有的博弈参与者都完全知晓他行动前的博弈过程和历史； • 大家举例 University of Chinese of Academy of Sciences 第45/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈问题分类举例分析 • 根据博弈的结果分类 • 零和博弈：指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零”，双方不存在合作的可能。 • 负和博弈：指双方竞争结果造成博弈结果总和为负数。它既包括一种两败俱伤的情况，这种情况下结果双方都有不同程度的损失；他也包括另一种“胜者”取得的利益小于“败者”承受的损失的博弈。 • 正和博弈：指博弈双方的利益都有所增加，或者至少是一方的利益增加，而另一方的利益不受损害，因而整个社会的利益有所增加，对应合作博弈。 • 大家举例 University of Chinese of Academy of Sciences 第46/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈问题的表示 • 两种不同的表示形式策略型博弈（strategic-form game）表示展开型博弈（extensive-form game）表示 University of Chinese of Academy of Sciences 第47/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例策略型博弈表示 • 策略型博弈表示是概念上最简单的博弈表示形式，也称为标准式表示，主要用于静态博弈，表示参与人同时选择策略。这种表示需要同时给出： • 参与人集合：� ∈ �, � = 1, …, � ，决定张量的维度 • 每个参与人的策略空间：�� , � = 1, …, �，每一维大小 • 每个参与人的支付函数：�� 1 , …, �� , …, �� , � = 1, …, �，决定张量的每一个元素 • 策略型博弈表示举例 University of Chinese of Academy of Sciences 囚徒B 囚徒A 坦白抵赖坦白 -5, -5 0, -10 抵赖 -10, 0 -1, -1 第48/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例展开型博弈表示 • 展开型博弈表示主要用于研究和分析多阶段的动态博弈，需要包括如下信息： • 参与人集合：� ∈ �, � = 1,2, …, � ，可以包括自然 • 参与人的行动顺序：谁在什么时候行动 • 参与人的行动空间：每次行动时，有什么选择 • 信息集合：每次行动结束，参与人知道些什么 • 效益函数：每次行动时，参与人知道将得到什么 • 外生事件（即自然选择）的概率分布 • 通常用来表示参与人行动有先后顺序的博弈 • 一般也称为博弈的扩展式表示（Extensive-form） University of Chinese of Academy of Sciences 第49/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例展开型博弈表示 • 博弈树定义：树中每一对结点有且仅由一个树支与其相连，树的根是博弈的起始结点。 • 结点：� ∈ � ≐ � ，关系符号≺表示结点的先后顺序关系。具体包括机会结点、决策结点和终结点； • 路径：结点�之前的全部结点集合称为�的前列集，又称为�的路径，记为� � ； • 后续结点：结点�之后的所有节点的集合称为�的后续节点集，记为� � ； • 跟随：当结点�位于结点�的路径上，即� ∈ � � ，则称�跟随�； • 树枝：结点�到其直接跟随结点�的连线，树枝代表一个可供参与人选择的行动策略； • 信息集：博弈决策集合的一个子集。 University of Chinese of Academy of Sciences 第50/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例展开型博弈表示 • 博弈树表示举例 � （2,0）（1,1） � � �′ �� ′ （3, 0） 1 ��′ �′ -1 （4,0）（0, 2） 1 University of Chinese of Academy of Sciences 第51/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例展开型博弈表示中的不完美信息 • 不完美信息（Imperfect Information）：一些参与者观测不到其他参与者的动作选择 • 信息集（Information Set，博弈论中的重要概念）： • 1）集合中的每个节点都是同一个参与人进行决策；2）参与人知道博弈进入该集合，但是不知道自己具体在哪一个节点；3）每一个信息集中节点的可选动作都相同 • 每一个信息集对应一个“决策点” • 完美信息博弈中每一个信息集只包含一个节点玩家2不知道玩家1选了左还是右 University of Chinese of Academy of Sciences 第52/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例扩展式博弈中的纯策略集合 • 参与人�在其所有决策点（信息集）的动作选择扩展式博弈中的纯策略令� ℎ 表示在信息集ℎ下的行动集， �� ≡ ℎ� 是参与人�的信息集集合，�� ≡ ∪ℎ�∈�� ℎ� 为参与人�所有可选择行动的集合，参与人 �的纯策略集合�� ≡ ×ℎ�∈�� ℎ� 。 • 每一个参与人�的纯策略集合��： • �1 = 左，右，玩家1有两个纯策略 • 玩家2有两个决策点，每个决策点2种动作选择→4个纯策略 • �2 = 左左，左右，右左，右右，玩家2有4个纯策略，含义是 • • • • 左左：不管玩家1如何选择玩家2都选左左右：1左2也左，1右2也右右左：1左2右，1右2左右右：不管1如何，2都右 University of Chinese of Academy of Sciences 第53/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例扩展式博弈中的纯策略集合 • 不完美信息条件下，每个参与人�的纯策略集合��： • �1 = 左，右，玩家1有2个纯策略 • �2 = 左，右，玩家2也有2个纯策略 • 玩家2为什么只有2个纯策略？和上个例子有什么不同？ • 因为玩家2只有1个决策点（信息集），该信息集下只有2个动作可供选择，因此玩家2只有两个纯策略 University of Chinese of Academy of Sciences 第54/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例扩展式博弈中的纯策略集合 • 蜈蚣博弈（The Centipede Game） IN IN A P1 P2 P1 OUT OUT B (2,2) (1,3) • �2 ={IN, OUT} (4,2) (3,4) • �1 ={IN A, IN B, OUT A, OUT B} • 很多人会有疑问：P1选了OUT之后博弈就结束了，为什么还要指定后续的动作？ • 回忆定义：扩展式博弈的一个纯策略描述了参与者在其所有决策点（信息集）的动作选择，不能只指定部分决策点的选择！ University of Chinese of Academy of Sciences 第55/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例扩展式博弈中的纯策略集合 • 不完美信息博弈 �1 ={UXW, UXZ, UYW, UYZ, DXW, DXZ, DYW, DYZ } �2 ={A,B}，玩家2只有1个决策点！ University of Chinese of Academy of Sciences 第56/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例扩展式博弈中的混合策略 • 与矩阵式博弈相同：混合策略（Mixed Strategy）假设�有�个纯策略：�� = ��1 , …, �� ，概率分布�� = ��1 , …, �� 为�的一个混合策略，�� 是�选择纯策略�� 的概率。玩家1的纯策略集合�1 ={A,B}，它的一个混合策略�1 为�1 上的某一概率分布玩家2的纯策略集合 �2 ={CF,CG,DF,DG}，它的一个混合策略�2 同样为�2 上的某一概率分布 University of Chinese of Academy of Sciences 第57/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例扩展式博弈中的行为策略 • 玩家�的行为策略（ Behavioral Strategy ）： • 为玩家�每一个决策点指定一个概率分布 • 玩家1的行为策略： • �的概率选A动作，以1 − �的概率选B动作 • 玩家2的行为策略： • 第一个决策点，�概率选C，1 − �概率选D，第二个决策点，�概率选F，1 − �概率选G University of Chinese of Academy of Sciences 第58/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例矩阵式表示和扩展式表示的转换 • 博弈的矩阵式表示和扩展式表示可以互相转化 • 矩阵式转化为扩展式 • 利用信息集来表示动作同时进行石头剪刀布的矩阵式表示 R P2 R S 0,0 University of Chinese of Academy of Sciences P P1 P S P2 R S P P2 R S … 第59/90页 P 石头剪刀布的扩展式表示 0,0 自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例矩阵式表示和扩展式表示的转换 • 扩展式转化为矩阵式 • 首先写出所有玩家的纯策略集合，集合大小确定了矩阵每一维度的大小，然后用收益函数进行填空 A P1 P2 C 0,0 D 1,1 B P2 E 2,2 F 3,4 University of Chinese of Academy of Sciences 扩展式表示 �1 ={A,B} �2 ={CE, CF, DE, DF} A CE 0,0 CF 0,0 DE 1,1 DF 1,1 B 2,2 3,4 2,2 3,4 第60/90页矩阵式表示自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例矩阵式表示和扩展式表示的转换 • 扩展式转化为矩阵式扩展式表示 �1 ={UXW, UXZ, UYW, UYZ, DXW, DXZ, DYW, DYZ } �2 ={A, B} University of Chinese of Academy of Sciences 第61/90页 UXW A 3,3 B 5,1 UXZ .. .. UYW .. .. UYZ .. .. DXW .. .. DXZ .. .. DYW .. .. DYZ 3,0 1,1 矩阵式表示自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例矩阵式表示和扩展式表示的转换 • 扩展式转化为矩阵式是唯一的 • 矩阵式转化为扩展式可能不唯一！ P1 C D A 1,2 1,2 B 3,1 2,4 A B 1,2 P2 2,4 D C P1 A B P2 P2 D University of Chinese of Academy of Sciences 3,1 C 第62/90页 D C 1,2 1,2 3,1 2,4 自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例随机博弈（Stochastic Games） • 随机博弈：随着博弈进行环境状态发生随机转移 • 随机博弈可以看作是一个五元组 �, �, �, �, � ： • �是状态集合，� = 1,2, …, �, …, � 是玩家集合 • � = �1 ×… × �� ，�� 是玩家�的动作空间 • �: � × � × � → [0,1]是状态转移函数 • � = �1 , …, �� ， �� : � × � → ℝ是玩家�的奖励 • 重复博弈是随机博弈的特例， � = 1 • 随机博弈是单智能体强化学习中马尔科夫决策过程（Markov Decision Process，MDP）的推广， � =1 • 随机博弈是多智能体强化学习的基础 • 连接博弈论和多智能体强化学习的桥梁 University of Chinese of Academy of Sciences 第63/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例随机博弈例子 • 两小车都想到G位置，任意小车到达G则游戏结束 • P1有两个动作，P2有两个动作 • 虚线是障碍，只有50%的概率能通过 • 如果双方进入同一个cell，双方直接复位到原始位置 University of Chinese of Academy of Sciences 第64/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例随机博弈例子 • 随机博弈的状态转移示意图 University of Chinese of Academy of Sciences 第65/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈的解概念 • 博弈问题研究的关键：获取博弈最终的稳定状态 • 均衡：是所有参与人的最优策略的组合。 • 所谓博弈均衡，它是一种稳定的博弈结果。 • 博弈论中的解概念（Solution Concepts）： • 指定了博弈各玩家采取的策略以及最终的收益 • 可以从不同的角度得到不同的解：从局外人的角度、从当事人的角度等 • 对于许多博弈，同一类型的解概念可能得到多个解，存在如何选择的问题 • 得到的解可能存在不合理之处，需要进行精炼（ Refinement ） University of Chinese of Academy of Sciences 第66/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈的解概念 • 常见的解概念：帕累托最优（ Pareto Optimality ）、纳什均衡（ Nash equilibrium ）等 • 帕累托最优（ Pareto Optimality ）：资源分配的一种理想状态，不存在使别人利益不受损的情况下改进个别人的利益。 • 纳什均衡（Nash Equilibrium）：在一个策略组合中，所有的参与者面临这样的一种情况，当其他人不改变策略时，他此时的策略是最好的。比如，在二人博弈中：给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是最好的策略。 University of Chinese of Academy of Sciences 第67/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈的解概念：帕累托最优 • 帕雷托效益/最优（ Pareto Efficiency/Optimality ） • 资源分配的一种理想状态：给定固有的一群人和可分配的资源，如果从一种分配状态到另一种状态的变化中，在没有使任何人境况变坏的前提下，使得至少一个人变得更好（帕雷托改善，Pareto Improvement）。 • 只是理想状态的“最低标准” • 未达到一定不理想 • 达到了不一定“最理想” • 完备且充分竞争的市场 • 交换最优，生产最优，产品混合最优 University of Chinese of Academy of Sciences 第68/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈的解概念：帕累托最优 • 帕累托最优是从一个客观公正局外人的角度来看，博弈中是否有一些结果优于其他结果。帕累托占优（Pareto Domination）策略组合 � = �� , …, �� 帕累托占优�′ = �′� , …, �′� ：如果对于任何玩家� ∈ �来说， �� ≥ �� ′ 帕累托最优（Pareto Optimality）策略组合 � = �� , …, �� 是帕累托最优：如果不存在其他策略组合�′ 帕累托占优� • 不存在其他策略组合增长一方收益的同时而不损害他方。 University of Chinese of Academy of Sciences 第69/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈的解概念：帕累托最优 • 帕累托最优：不存在其他策略组合增长一方收益的同时而不损害他方 3,3 2,0 0,2 1,1 3,3 4,1 1,4 2,2 1,-1 -1,1 -1,1 1,-1 两人零和博弈所有的策略组合都是帕累托最优？ University of Chinese of Academy of Sciences 第70/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈的解概念：纳什均衡 • 纳什均衡是博弈论中最具影响力的解概念最优反应（ Best Response）玩家� ∈ �对�−� 的最优反应是�∗� ： �∗� 满足对任意�� ， �� ∗� , �−� ≥ �� , �−� 纳什均衡（ Nash Equilibrium ）一个策略组合� = �1 , …, �� , …, �� 是纳什均衡：如果对任意玩家� ∈ �来说，�� 都是�−� 的最优反应 • 纳什均衡是一个稳定状态，每个玩家都没有动机改变自己的策略 • 上述两个定义同样适用于混合策略，称作纯策略纳什均衡与混合策略纳什均衡 University of Chinese of Academy of Sciences 第71/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例纯策略纳什均衡求法 • 固定一方的策略，求取另一方的最优反应，最优反应的交集就是纯策略纳什均衡囚徒B 囚徒A 坦白坦白 2,2 抵赖 University of Chinese of Academy of Sciences 3,0 0,0 0,0 0,0 0,0 0,0 0,0 -1,1 -1,1 0,0 1,-1 0,0 -1,1 0,0 1,-1 1,-1 0,0 抵赖 0,3 1,1 第72/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例混合策略纳什均衡求法 • 右图不存在纯策略纳什均衡纳什均衡存在性定理（Nash, 1950）有限博弈至少存在一个纯/混合纳什均衡 h t h 1,-1 -1,1 t -1,1 1,-1 • 因此存在混合策略纳什均衡 • 假设玩家1以�的概率选h，1 − �的概率选t，玩家2以�的概率选h，1 − �的概率选t。 • 既然玩家1要采取混合策略，那么选h或t对他的收益是一样的 • 如果不一样，玩家1肯定会选收益更大的纯策略！ • 是玩家2的混合策略导致玩家1认为h和t的收益一样 • 玩家1选h或t的收益都是�的函数，通过两者相等求取� • � × 1 + 1 − � × −1 = � × −1 + 1 − � × 1 → � = 0.5 • 同理，可得� = 0.5 University of Chinese of Academy of Sciences 第73/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例两人零和博弈的纳什均衡 • 两人博弈中，双方的损益之和为零或一个常数，即一方有所得，另一方必有所失。 • • • • 帕雷托改善（Pareto Improvement）帕雷托效益/最优（ Pareto efficiency/optimality ）非合作博弈，零和的结果出现帕雷托最优实际案例：分蛋糕、围棋、赌博、双寡头市场竞争等 • 思考：如何分蛋糕？ • 另一个示例：红蓝双方博弈 • • • • 右图策略式表示有什么特点？红方动作：1和2 蓝方动作：A、B和C 最终双方的胜率是什么？ University of Chinese of Academy of Sciences 蓝方红方 A B C 1 3, -3 -1, 1 2,-2 2 1, -1 2, -2 -2,2 第74/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例求取均衡的核心是搜索算法 • 极大极小搜索：搜索策略保证己方收益最大，对方最小！ • 最大化最差情况（最小收益）下的收益（maximin） • 最小化最好情况（最小损失）下的损失（minimax） • 极大极小值（maximin value）：在不考虑对方行动的情况下，己方能够获得的最大收益值；即对方知道己方行动情况下，能够迫使对方获得的最小收益值。 • 形式化： �∗ = max min �� , �−� �� −� • 适用性：两人零和博弈（静态、动态、单次、多次、纯策略、混合策略等） University of Chinese of Academy of Sciences 第75/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例极大极小搜索的理论保证 • 极大极小值原理：亦称为博弈论基本定理，是关于如下最大最小不等式等号成立条件的定理：若� ⊆ ℝ� , � ⊆ ℝ� 为紧致凸集，�: � × � → ℝ为连续的的凸-凹函数，则： max min � �, � = min max � �, � �∈� �∈� �∈� �∈� • 最早证明：1928年，冯·诺依曼 • 证明方法：利用初等概率和拓扑学的工具 • 后续证明：凸性的论证和支撑超平面的概念；完全代数方法；不动点理论或迭代程序；凸集理论等。 University of Chinese of Academy of Sciences 第76/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例极大极小搜索示例：分硬币游戏 • 分硬币游戏：有7枚硬币，只能将已分好的一堆硬币分成个数不等的两堆，当每堆只有1枚或2枚硬币则不能再分，红蓝双方轮流进行，直到谁不能再分，则为输。最大化最小收益 MAX -1 7 6, 1 -1 MIN MAX MIN MAX MIN 5, 1, 1 1 4, 1, 1, 1 4, 2, 1 -1 1 University of Chinese of Academy of Sciences 4, 3 -1 3, 2, 2 1 3, 3, 1 -1 3, 2, 1, 1 -1 2, 2, 2, 1 1 3, 1, 1, 1, 1 1 2, 1, 1, 1, 1, 1 5, 2 -1 2, 2, 1, 1, 1 1 -1 • 己方扩展结点是“或”关系（MAX求最大） • 对方扩展结点是“与”关系（MIN求最小）第77/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例极大极小搜索示例：中国象棋和五子棋 • 中国象棋AI搜索复杂度 • 棋盘大小9×10，状态空间复杂度1048 • 一盘棋平均走50步，每一步大概有20多种走法，决策空间复杂度约为10150 • 五子棋AI的搜素复杂度 • 棋盘大小15×15 • 状态空间复杂度3225≈10107 • 每一步有几十种走法，决策空间复杂度约为10105 University of Chinese of Academy of Sciences 第78/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例博弈论的主要应用领域数学：博弈论源于数学，开始属于运筹学的一个分支军事：博弈的思想在军事斗争中无处不在政治：国际国内政治斗争中同样存在各种博弈经济：博弈论已经成为现代经济学研究的主流计算机：算法博弈论是计算机中研究点一个分支人工智能：目前是AI领域新一轮研究热潮其他领域：管理、物流、营销、招聘、运营、生活各方面 University of Chinese of Academy of Sciences 第79/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：囚徒困境 • 两个同谋罪犯被隔离关押 • 互不揭发：每人要坐牢一年 • 互相揭发：每人要判刑五年 • 一人揭发：释放和判刑十年囚徒B 囚徒A 招供拒绝招供 5, 5 10,0 拒绝 0, 10 1, 1 • 结论和启示 • 均衡点：两人各判五年 • 如何打破囚徒困境？ • 多次囚徒困境 • 重复囚徒困境 University of Chinese of Academy of Sciences 第80/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：智猪博弈 • 猪圈里有一大一小两头猪抢猪食的故事 • 猪圈很长，一头有一踏板 • 另一头是食物出口和食槽 • 踩一次踏板可出10份食物 • 从一头跑过去消耗2份食物 • 大猪小猪同时吃：（7，3） • 大猪先小猪后吃：（9，1） • 小猪先大猪后吃：（6，4）小猪行动不动行动 5, 1 4, 4 不动 9, -1 0, 0 大猪 • 思考和启示 • 均衡点是什么？ • 生活中有哪些相似的例子？ University of Chinese of Academy of Sciences 第81/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：斗鸡博弈 • 两只公鸡桥上相遇后选择进攻和后退的故事 • 同时进攻各损失-3 • 同时后退各损失-1 • A进攻B后退（2,-1） • A后退B进攻（-1,2）鸡B 进攻后退进攻 -3, -3 2, -1 后退 -1, 2 -1, -1 鸡A • 思考和启示 • 均衡点是什么？ • 怎么达到均衡点？ • 生活中有哪些相似的例子？ University of Chinese of Academy of Sciences 第82/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：集资修路 • 某个偏远村庄要集资修路，每个村民自愿出资，集资修路之后大家都受益村民B • 效益函数无法准确确定 • 效益函数先以右图为例出资不出资出资 3, 3 2, 4 不出资 4, 2 1, 1 村民A • 思考与启示 • 均衡点是什么？ • 如何保证把路修了？ • 生活中有哪些相似的例子？ University of Chinese of Academy of Sciences 第83/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：门店选址 • 为什么经常看到麦当劳附近就有肯德基？ • 假设A和B两点间人流量均匀分布，麦当劳先选择M 点会选在哪里？ M K • 肯德基再选点会选择那里？ � � � • 思考和启示 • 均衡点会选在哪里？ • 生活中有哪些类似的例子？ University of Chinese of Academy of Sciences 第84/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：市场进入阻挠 • 一个企业欲进入已有垄断者的市场 • 欲进入者有两个策略 • 进入 • 不进入垄断者进入者默许斗争进入 4, 5 -1, 0 不进入 0, 30 0, 30 • 垄断者有两个策略 • 默许 • 斗争 • 思考与启示 • 均衡点是什么？ • 生活中有哪些相似的例子？ University of Chinese of Academy of Sciences 第85/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：二手车市场 • 为什么私人二手汽车市场很难形成？ • 由于信息不对称性，造成二手车质量无法评估 • 假设二手车的平均质量为0.5 买家卖家 • 买家和卖家如何博弈？ 0 � 0.5 • 思考与启示 1 • 最终均衡点是什么？ • 生活中有哪些类似的例子？ • 如何形成二手车市场？ University of Chinese of Academy of Sciences 第86/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：警察与小偷 • 小镇有AB两个区域，只有一个警察巡逻，有个小偷经常在A或B犯案小偷 • 警察巡逻策略：A或B • 小偷偷盗策略：A或B • 警察和小偷如何博弈？ A区 B区 A区 3, 0 2, 1 B区 1, 2 3, 0 警察 • 思考与启示 • 最终的均衡点是什么？ • 生活中有哪些类似的例子？ University of Chinese of Academy of Sciences 第87/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例案例分析：枪手博弈 • A、B、C三个枪手狭路相逢，要一枪决生死 • 枪手A、B、C的命中率分别为80%、60%和40% • 假设三人同时开枪谁存活率高？ • 假设三人依次开枪谁存活率高？ • 思考与启示 • 不同的设定下的均衡点 • 生活中有哪些类似的例子？ University of Chinese of Academy of Sciences 第88/90页自动化研究所 Institute of Automation 课程简介发展历史内容体系应用案例本次课程作业 • 作业内容：试选取日常生活中的一些常见现象，用博弈论的视角进行分析、解释、引申和思考。每个人至少选取两件事例，多则不限。作业成绩根据案例分析的透彻程度进行打分。 • 截止时间：下次上课前（2023年3月4日） • 提交方法：在Sep课程网站上提交，同时提交电子版到助教邮箱（zangyifan19@mails.ucas.ac.cn） • 邮件发送规范 • 邮件主题：计算博弈第一次作业_学号_姓名 • 附件名称：计算博弈第一次作业_学号_姓名.docx University of Chinese of Academy of Sciences 第89/90页自动化研究所 Institute of Automation 专业普及课《计算博弈原理与应用》感谢聆听！兴军亮 jlxing@nlpr.ia.ac.cn 2023年2月26日自动化研究所 University of Chinese of Academy of Sciences Institute of Automation

计算博弈原理与应用课程概述

Products

Support

计算博弈原理与应用课程概述

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib