Spilteori, forelæsninger

FORELÆSNING 1 Game Theory Game theory is a study of strategic decision making Game: any situation in which two or more agents choose actions, and the outcome depends on the actions of all agents - Agents/players: people, countries, firms Static games of complete information: players make decisions simultaneously, payoff functions are known to all players (common knowledge) Statis games of incomplete information: players make decisions simultaneously, some players are uncertain about some other players’ payoff functions Dynamic games of complete information: players make decisions sequentially, payoff functions of all players are common knowledge Dynamic games of incomplete information: players make decisions sequentially, some players are uncertain about some other players’ payoff functions Properties: efficiency vs stability (vs fairness) Efficiency: a state is Pareto efficient if it’s impossible to make someone happier (by moving to a new state) without harming someone else Stability: a state is a Nash equilibrium if every player is choosing an optimal strategy given the strategies of all the other players – that is, no player wants to change the strategy (deviate) given the strategies of all the players A Nash equilibrium isn’t necessarily efficient – additionally, a Pareto efficient state or a Nash equilibrium may not even be fair - In general, fairness may have several definitions depending on the context Pareto optimal/Pareto efficient state: Is it possible to make a change (move to a new state) such that some players are better-off, and no player is harmed? - Yes: the original state isn’t Pareto efficient (players can move to a new state in which they all are either happier or have the same payoff as in the current state) 1 - No: the original state is Pareto efficient (if players move to any new state, at least one player is worse-off) Payoffs/utilities Ordinal: numbers have no interpretation – one can use them to compare the numbers in two different outcomes. If outcome 1 has a payoff of 8, while outcome 2 has a payoff of 4, then one can say that outcome 1 is preferred – but one cannot say how much better outcome 1 is relative to outcome 2. Thus, positive monotone transformations of the utility functions are allowed Cardinal: numbers have an interpretation. If outcome 1 has a payoff of 8, while outcome 2 has a payoff of 4, then one can say that outcome 1 is preferred. One can furthermore say that outcome 1 is twice as good as outcome 2 Definitions Definition: the normal-form representation of an n-player game specifies the players’ strategy spaces 𝑆1 , … , 𝑆𝑛 and their payoff functions 𝑢1 , … , 𝑢𝑛 . This game is denoted by 𝐺 = {𝑆1 , … , 𝑆𝑛 ; 𝑢1 , … , 𝑢𝑛 } Definition: in the normal-form game 𝐺 = {𝑆1 , … , 𝑆𝑛 ; 𝑢1 , … , 𝑢𝑛 }, let 𝑠𝑖′ and 𝑠𝑖′′ be feasible strategies for player 𝑖 (that is, 𝑠𝑖′ and 𝑠𝑖′′ are members of 𝑆𝑖 ). Strategy 𝑠𝑖′ is strictly dominated by strategy 𝑠𝑖′′ if for each feasible combination of the other players’ strategies, 𝑖’s payoff from playing 𝑠𝑖′ is strictly less than 𝑖’s payoff from playing 𝑠𝑖′′ : 𝑢𝑖 (𝑠1 , … , 𝑠𝑖−1 , 𝑠𝑖′ , 𝑠𝑖+1 , … , 𝑠𝑛 ) < 𝑢𝑖 (𝑠1 , … , 𝑠𝑖−1 , 𝑠𝑖′′ , 𝑠𝑖+1 , … , 𝑠𝑛 ) (𝐷𝑆) for each (𝑠1 , … , 𝑠𝑖−1 , 𝑠𝑖+1 , … , 𝑠𝑛 ) that can be constructed from the other players’ strategy spaces 𝑆1 , … , 𝑆𝑖−1 , 𝑆𝑖+1 , … , 𝑆𝑛 2 Definition: in the n-player normal-form game 𝐺 = {𝑆1 , … , 𝑆𝑛 ; 𝑢1 , … , 𝑢𝑛 }, the strategies (𝑠1∗ , … , 𝑠𝑛∗ ) are a Nash equilibrium if, for each player 𝑖, 𝑠𝑖∗ is (at least tied for) player 𝑖’s best response to the ∗ ∗ strategies specified for the 𝑛 − 1 other players (𝑠1∗ , … , 𝑠𝑖−1 , 𝑠𝑖+1 , … , 𝑠𝑛∗ ) ∗ ∗ ∗ ∗ 𝑢𝑖 (𝑠1∗ , … , 𝑠𝑖−1 , 𝑠𝑖∗ , 𝑠𝑖+1 , … , 𝑠𝑛∗ ) ≥ 𝑢𝑖 (𝑠1∗ , … , 𝑠𝑖−1 , 𝑠𝑖 , 𝑠𝑖+1 , … , 𝑠𝑛∗ ) (𝑁𝐸) for every feasible strategi 𝑠𝑖 in 𝑆𝑖 – that is, 𝑠𝑖∗ solves ∗ ∗ max 𝑢𝑖 (𝑠1∗ , … , 𝑠𝑖−1 , 𝑠𝑖 , 𝑠𝑖+1 , … , 𝑠𝑛∗ ) 𝑠𝑖 ∈𝑆𝑖 Key points: - A rational player never plays a strictly dominated strategy - A Nash equilibrium (NE) may not be Pareto efficient - Nash equilibria always “survive” IESDS (iterated elimination of strictly dominated strategies) – however, if one removes a weakly dominated strategy, one may remove a NE - If IESDS eliminates all outcomes except of one, it’s the unique Nash equilibrium - In any finite static game (finite number of players and strategy sets with a finite number of elements) with complete information there is at least one Nash equilibrium, possibly in mixed strategies FRA FORELÆSNINGEN Eksempler på situationer (strategiske samspil), hvor ens payoff ikke blot afhænger af ens handlinger/beslutninger, men også af andres handlinger/beslutninger (derved et spil): - Poker - Fodbold: angriberen kan vælge at skyde bolden til højre eller venstre, målmanden kan vælge at hoppe til højre eller venstre. Payoff kan være forskelligt (vinde/tabe), selvom man foretager samme beslutning, da payoff afhænger af begge agenter i spillet - Taxi: hvis man spørger en taxichauffør om prisen ved at gøre til en bestemt destination, kan dette resultere i profit eller ingenting, alt afhængigt om man beslutter at gå distancen eller betale for taxituren – man kan endvidere spørge en anden taxichauffør om prisen til destinationen, idet denne kan være lavere Eksempler på konkurrence: 3 - Apple/Android: hvis Apple producerer en bestemt mobil, afhænger profittens størrelse af, hvorvidt konkurrenten Android producerer en bedre (måske endda billigere) mobil – og omvendt Eksempler på ikke-strategiske samspil: - Restaurant: man har præferencer for mad, der varierer fra person til person. Ens beslutning og dermed nytte påvirker blot en selv – ikke andre. Andres beslutninger påvirker endvidere ikke en, da deres beslutninger træffes ud fra deres præferencer Statiske spil: statiske spil er spil, hvor spillerne blot skal vælge én gang - Eksempelvis sten, saks, papir, hvor man vælger én gang (man vælger simultant), og man får ét payoff (vinder, taber, uafgjort) – derefter slutter spillet Dynamiske spil: dynamiske spil er spil, der har flere forskellige steps/perioder (spiller 1 starter, derefter spiller 2, efterfulgt af spiller 3, hvorefter det atter er spiller 1’s tur osv.) - I nogle spil kan spillerne observere de tidligere steps, mens de i andre spil ikke kan observere tidligere steps - Eksempelvis skak, hvor spiller 1 starter, efterfulgt af spiller 2, hvorefter det atter er spiller 1’s tur osv. Komplet information: man kender andre spilleres payoff i forskellige udfald – ved spillets afslutning har man derved en ide om, hvilke payoff spillets andre spillere har fået Inkomplet information: spillerne kan have private information – ved spillets afslutning har man derved ingen anelse om, hvilke payoff andre spillere har fået - Eksempel: en mobil sælges på auktion, hvor spillerne byder ved at skrive deres bud på et stykke papir, der efterfølgende indsamles. Spillerne ved ikke, hvad de andre spillere byder, og vinderen af auktionen findes ved at vælge det højeste bud. De andre spillere ved imidlertid ikke, om vinderen af auktion er glad eller ej (vinder/taber) – vedkommende kan have budt mindre, end han var villig til, cirka det, han var villig til, eller mere, end han var villig til Det første spil (fangernes dilemma/prisoner’s dilemma) Spillet foregår ved, at spillerne beslutter simultant. Payoff fremgår af nedenstående: 4 Spiller 2 Spiller 1 A B A (10,10) (0,20) B (20,0) (7,7) Fordeling af spillets resultat til forelæsningen er - Bemærk: antallet af personer, der har fået et payoff på 0, burde svare til antallet af personer, der har gået et payoff på 20 Hvis spilleren vælger B, er vedkommende sikret et positivt payoff – enten et payoff på 7 eller et payoff på 20 afhængigt af, hvad den anden spiller vælger. Ydermere kan spilleren få det største payoff (dermed 20) ved at vælge B, samt det største ”mindste” payoff (dermed 7) Payoff over tid, dermed hvis spillet udføres gentagne gange, højere, hvis spillerne er kooperative og begge vælger A. Det er imidlertid tiltrækkende for den anden spiller at snyde, ved at personen vælger B, idet dette giver et payoff på 20 Hvis spillet imidlertid ikke foregår ved, at spillerne beslutter simultant, vil fordelingen af resultatet være anderledes. Efter spiller 1 har truffet en beslutning, kan spiller 2 vurdere, hvilken beslutning der giver det højeste payoff - Spiller 1 vælger A: spiller 2 kan vælge A, der giver et payoff på 10 for begge spillere, eller B, der giver et payoff på 20 for spiller 2 og et payoff på 0 for spiller 1 (spiller 2 vælger B) - Spiller 1 vælger B: spiller 2 kan vælge A, der giver et payoff på 0 for spiller 2 og et payoff på 20 for spiller 1, eller B, der giver et payoff på 7 for begge spillere (spiller 2 vælger B) Uanset hvad spiller 1 vælger, får spiller 2 et højere payoff ved at vælge B – dermed er B den strengt dominerende strategi Spiller 2 Spiller 1 A B A (10,10) (0,20) B (20,0) (7,7) 5 - B strengt dominerer A for begge spillere - A er strengt domineret af B for begge spillere Hvis spiller 2 vælger først, kan spiller 1 vurdere, hvilken beslutning der giver det højeste payoff, efter spiller 2 har truffet en beslutning (på tilsvarende måde som tidligere) - Spiller 2 vælger A: spiller 1 kan vælge A, der giver et payoff på 10 for begge spillere, eller B, der giver et payoff på 20 for spiller 1 og et payoff på 0 for spiller 2 (spiller 1 vælger B) - Spiller 2 vælger B: spiller 1 kan vælge A, der giver et payoff på 0 for spiller 1 og et payoff på 20 for spiller 2, eller B, der giver et payoff på 7 for begge spillere (spiller 1 vælger B) Antagelse i spilteori: spillerne er rationelle - Spilleren kan udregne alt, dermed overskue alle problemer og overskue, hvilken strategi der giver det højeste payoff (den optimale strategi) - Spilleren er egoistisk – derved ønsker spilleren at maksimere sit eget payoff uden at tænke over, hvordan dette påvirker andre spillere En rationel spiller vil aldrig vælge en strengt domineret strategi – i ovenstående spil vil spillerne dermed ende med payoff (7,7). Spillerne vil imidlertid være stillet bedre ved begge at vælge A, idet payoff er (10,10) – dermed er payoff (7,7) ikke Pareto efficient/Pareto-optimalt - Pareto efficient: nogle spillere kan stilles bedre, uden at andre spillere kan stilles dårligere Udfaldet (B,B) er ikke Pareto efficient, da dette udfald er Pareto domineret af udfaldet (A,A) – dermed er udfaldet (A,A) Pareto efficient, da det er umuligt at stille den ene spiller bedre uden at stille den anden dårligere. Udfaldet (A,B) og udfaldet (B,A) er yderligere Pareto efficiente - Fairness: payoff i disse punkter er ikke fair, men imidlertid efficiente, da man ikke kan flytte til andre udfald uden at skade andre Det er svært at gå fra udfaldet (B,B) til udfaldet (A,A). Hvis spillerne mødes før spillet og aftaler at vælge A, da dette giver et payoff på (10,10), er det tiltrækkende for begge spillere at snyde ved at vælge B, da dette kan give et payoff på 20 - Punktet (A,A) er dermed ikke stabilt, da spiller 1 ønsker at afvige til punktet (B,A), og spiller 2 ønsker at afvige til punktet (A,B) - Punktet (B,B) er stabilt, da spillerne ikke ønsker at afvige til andre punkter Nash-ligevægt: en Nash-ligevægt er et stabilt punkt i spillet 6 Man tager atter udgangspunkt i det første spil: Spiller 2 Spiller 1 A B A (10,10) (0,20) B (20,0) (7,7) Nash-ligevægte kan findes ved at understrege – en understregning betyder, at spilleren ikke vil afvige, dermed vil spilleren gerne forblive i det payoff I punktet (10,10) ønsker spiller 1 at afvige til punktet (20,0), og spiller 2 ønsker at afvige til punktet (0,20), da dette øger payoff fra 10 til 20 - I punktet (20,0) ønsker spiller 2 imidlertid at afvige - I punktet (0,20) ønsker spiller 1 imidlertid at afvige I punktet (7,7) ønsker hverken spiller 1 eller spiller 2 at afvige, da payoff falder fra 7 til 0, hvis spiller 1 eksempelvis ændrer strategi ved at vælge A – spiller 1 vil gerne vælge B, givet at spiller 2 vælger B (og omvendt) - Punktet (7,7) er en Nash-ligevægt, da dette er et stabilt punkt i spillet Spil, lejlighedsbygning Man forsimpler spillet ved at antage, at der blot bor to personer i bygningen med lejligheder. Man forsimpler endvidere spillet ved at antage, at spilleren kan vælge mellem to muligheder (strategier) Strategi 1: man passer på fællesarealerne i bygningen Strategi 2: man er ligeglad med fællesarealerne i bygningen Spiller 2 Spiller 1 Passe på Være ligeglad 4,4 0,0 Være ligeglad 0,0 0,0 Passe på Hvis spiller 2 vælger at passe på fællesarealerne, er det optimalt for spiller 1 også at passe på fællesarealerne, da dette giver et payoff på 4. Hvis spiller 2 vælger at være ligeglad med fællesarealerne, kan spiller 1 vælge begge strategier, da payoff er 0 – man understreger dermed payoff 4, payoff 0 og payoff 0 for spiller 1 Hvis spiller 1 vælger at passe på fællesarealerne, er det optimalt for spiller 2 også at passe på fællesarealerne, da dette giver et payoff på 4. Hvis spiller 1 vælger at vælge ligeglad med 7 fællesarealerne, kan spiller 2 vælge begge strategier, da payoff er 0 – man understreger dermed payoff 4, payoff 0 og payoff 0 for spiller 2 Nash-ligevægtene i dette spil er punktet (4,4) og punktet (0,0). Givet at den ene spiller passer på fællesarealerne i bygningen, vil den anden spiller passe på fællesarealerne. Omvendt vil den anden spiller være ligeglad med fællesarealerne i bygningen, giver at den ene spiller er ligeglad med fællesarealerne Punktet (4,4) er både Pareto efficient/Pareto-optimalt og stabilt (derved en Nash-ligevægt), da man ikke kan stille nogen bedre uden at stille andre dårligere - Et udfald kan være Pareto efficient uden at være en Nash-ligevægt - Et udfald kan være en Nash-ligevægt uden at være Pareto efficient Stabilitet: et udfald er en Nash-ligevægt, hvis hver spiller vælger den optimale strategi givet strategierne, de andre spillere har valgt. Dermed vil ingen spiller skifte sin strategi givet strategierne af de andre spillere Efficiens: et udfald er Pareto efficient, hvis det er umuligt at stille nogen bedre (ved at ændre strategi, dermed flytte til et nyt udfald) uden at stille andre dårligere Spil, et lands værdi Man har et bestemt land, hvor alle bygninger, alt velfærd og yderligere svarer til $100. Landet har 100 indbyggere, der skal fordele de $100. De $100 kan fordeles (unfair) ved, at spiller 1 får $100, mens alle andre spillere (indbyggere) får $0: Spiller 1 $100 Spiller 2 0 ⋮ ⋮ Spiller 100 0 - Dette udfald er Pareto efficient, da det umuligt at stille nogen indbyggere bedre uden at stille andre indbyggere dårligere – spiller 1 bliver stillet dårligere, hvis udfaldet ændres - Dette udfald er ikke fair, da landets værdi blot tilhører én indbygger ud af 100 Spil, fangernes dilemma (prisoner’s dilemma) Agenterne, spiller 1 og spiller 2, i dette spil er kriminelle, som har begået en stor forbrydelse og en mindre forbrydelse. Politiet har kun beviser nok til at sætte de kriminelle i fængsel for den mindre 8 forbrydelse. Politiet placerer de to fanger i separate celler for at afhøre dem, da de ønsker at presse dem til at sladre om den anden. Fangerne kan vælge mellem to strategier: Strategi 1: tie Strategi 2: sladre Spiller 2 Spiller 1 tie sladre tie -1,-1 -9,0 sladre 0,-9 -5,-5 Hvis spiller 2 vælger at tie, er det optimalt for spiller 1 at sladre, da dette giver et payoff på 0. Hvis spiller 2 vælger at sladre, er det optimalt for spiller 1 også at sladre, da dette giver et payoff på -5 Hvis spiller 1 vælger at tie, er det tilsvarende optimalt for spiller 2 at sladre, da dette giver et payoff på 0. Hvis spiller 1 vælger at sladre, er det tilsvarende optimalt for spiller 2 også at sladre, da dette giver et payoff på -5 - Derved er ”at sladre” den strengt dominerende strategi for begge spillere i dette spil Nash-ligevægten i dette spil er punktet (-5,-5). Givet at den ene spiller sladrer, vil den anden spiller også sladre (stabilt punkt) Punktet (-1,-1), punktet (-9,0) og punktet (0,-9) er Pareto efficiente, da en spiller ikke kan stilles bedre uden at stille den anden spiller dårligere VIDEO 1: Kardinale og ordinale nytteværdier Payoff/nytteværdier kan være af to forskellige typer: ordinale og kardinale Ordinale: payoff/nytten har ingen fortolkning, dermed ingen betydning – man kan sammenligne nytten i to forskellige udfald. Hvis det ene udfald eksempelvis har et payoff på 8, og det andet udfald har et payoff på 4, kan man sige, at det første udfald er foretrukket fremfor det andet udfald, da 8 er bedre end 4. Man kan imidlertid ikke sige, hvor meget det ene udfald er foretrukket fremfor det andet – dermed kan man ikke sige, at det første udfald er dobbelt så godt som det andet udfald. Ordinale payoffs kan transformeres på flere forskellige måder, da payoff/nytten ikke har nogen fortolkning Kardinale: payoff/nytten har en bestemt fortolkning. Hvis nytten eksempelvis er et bestemt kronebeløb, kan nytteværdien på 5 (derved 5 kroner) sammenlignes med en nytteværdi på 8 eller en nytteværdi på 10 – det tredje udfald med en nytteværdi på 10 er foretrukket. Man kan sige, at det tredje udfald er dobbelt så godt som det første udfald, hvor nytteværdien er 5 9 VIDEO 2: Battle of the sexes, matching pennies Spil, battle of the sexes I dette spil skal agenterne, spiller 1 og spiller 2, på date med hinanden. Spillerne kan vælge mellem to strategier: Strategi 1: se opera Strategi 2: se boksekamp (fight) Spiller 2 Spiller 1 - opera fight opera 2,1 0,0 fight 0,0 1,2 Spiller 1 foretrækker at se opera, mens spiller 2 foretrækker at se boksekamp Hvis spiller 2 vælger at se opera, er det optimalt for spiller 1 også at se opera, da dette giver et payoff på 2. Hvis spiller 2 vælger at se boksekamp, vil det tilsvarende være optimalt for spiller 1 også at se boksekamp, da dette giver et payoff på 1 – man understreger dermed payoff 2 og payoff 1 for spiller 1. Hvis spiller 1 vælger at se opera, er det optimalt for spiller 2 også at se opera, da dette giver et payoff på 1. Hvis spiller 1 vælger at se boksekamp, vil det tilsvarende være optimalt for spiller 2 også at se boksekamp, da dette giver et payoff på 2 – man understreger dermed payoff 1 og payoff 2 for spiller 3. Nash-ligevægtene i dette spil er punktet (2,1) og punktet (1,2). Givet at den ene spiller vælger at se opera, vil den anden spiller se opera. Omvendt vil den anden spiller se boksekamp, givet at den ene spiller vælger at se boksekamp. Punktet (2,1) og punktet (1,2) er både Pareto efficiente/Pareto-optimale og stabile (derved Nashligevægte), da man ikke kan stille nogen bedre uden at stille andre dårligere Spil, matching pennies (zero sum game) Agenterne, spiller 1 og spiller 2, i dette spil har hver især en mønt. Spillerne kan vælge mellem to strategier (bemærk: spillerne kaster ikke mønterne, men vælger en side): Strategi 1: vælg krone Strategi 2: vælg plat 10 Spiller 2 Spiller 1 - krone plat krone -1,1 1,-1 plat 1,-1 -1,1 Spiller 1 foretrækker forskellige sider (krone/plat, plat/krone), mens spiller 2 foretrækker ens sider (krone/krone, plat/plat). Spilleren henholdsvis vinder eller taber 1 krone Hvis spiller 2 vælger krone, er det optimalt for spiller 1 at vælge plat, da dette giver et payoff på 1. Hvis spiller 2 vælger plat, er det optimalt for spiller 1 at vælge krone, da dette tilsvarende giver et payoff på 1 – man understreger dermed payoff 1 og payoff 1 for spiller 1. Hvis spiller 1 vælger krone, er det optimalt for spiller 2 også at vælge krone, da dette giver et payoff på 1. Hvis spiller 1 vælger plat, er det tilsvarende optimalt for spiller 2 at vælge plat, da dette giver et payoff på 1 – man understreger dermed payoff 1 og payoff 1 for spiller 2. Dette spil har ingen stabile punkter, dermed Nash-ligevægte, i rene strategier (man lærer senere om blandede strategier), da én spiller ønsker at afvige i alle udfald (taberen vil afvige) - Ren strategi: man vælger enten krone eller plat – dermed vælger man en bestemt strategi/action ud fra de mulige strategier - Blandet strategi: man kunne eksempelvis vælge strategi tilfældigt, selvom man foretrækker en strategi – en computer kunne vælge tilfældigt Alle udfald er Pareto efficiente, da man ikke kan stille nogen bedre uden at stille andre dårligere Zero sum games er en klasse af spil, hvor den ene spiller vinder, og den anden spiller taber – dermed er det samlede payoff (summen) for spillerne 0 VIDEO 3: IESDS Spil, iterativ elimination af strengt dominerede strategier (iterative elimination of strictly dominated strategies) Man antager i spilteori, at spillerne er rationelle – dermed vil spillerne ikke vælge en strengt domineret strategi. Ideen bag IESDS er at fjerne strengt dominerede strategier grundet rationelle spillere. Spiller 2 Spiller 1 left middle right up 1,0 1,2 0,1 down 0,3 0,1 2,0 11 Hvis spiller 2 vælger left, er det optimalt for spiller 1 at vælge up, da dette giver et payoff på 1. Hvis spiller 2 vælger middle, er det optimalt for spiller 1 at vælge up, da dette giver et payoff på 1. Hvis spiller 2 vælger right, er det optimalt for spiller 1 at vælge down, da dette giver et payoff på 2 – man understreger dermed payoff 1, payoff 1 og payoff 2 for spiller 1. For spiller 1 har man ingen strengt dominerede strategier – i nogle tilfælde er det bedst at vælge up, i andre tilfælde er det bedst at vælge down (spiller 1 foretrækker ikke nogen strategi) Hvis spiller 1 vælger up, er det optimalt for spiller 2 at vælge middle, da dette giver et payoff på 2. Hvis spiller 1 vælger down, er det optimalt for spiller 2 at vælge left, da dette giver et payoff på 3 – man understreger dermed payoff 2 og payoff 3 for spiller 2. For spiller 2 er right strengt domineret af middle – spiller 2 vil aldrig vælge right, hvis vedkommende kan vælge middle, da middle giver et strengt højere payoff (hvis middle er mulig, vil man aldrig vælge right). Med IESDS kan man dermed fjerne strategien right, hvis man antager, at spillet er komplet information: Spiller 2 Spiller 1 left middle up 1,0 1,2 down 0,3 0,1 For spiller 1 er down strengt domineret af up – spiller 1 vil aldrig vælge down, hvis vedkommende kan vælge up, da up giver et strengt højere payoff. Med IESDS fjernes strategien: Spiller 2 Spiller 1 up left middle 1,0 1,2 For spiller 2 er left strengt domineret af middle – spiller 2 vil aldrig vælge left, hvis vedkommende kan vælge middle, da middle giver et strengt højere payoff. Med IESDS fjernes strategien: Spiller 2 middle Spiller 1 up 1,2 I dette spil ender man i et enkelt udfald (1,2), som er Nash-ligevægten Sætning: i processen med IESDS vil man aldrig fjerne Nash-ligevægte i spillet – dermed vil Nashligevægte overleve processen 12 Sætning: hvis processen med IESDS fjerner alle udfald bortset fra ét, vil det sidste udfald være den unikke Nash-ligevægt i spillet – dermed er udfaldet (1,2) i ovenstående spil den unikke Nashligevægt Spil, lejlighedsbygning (igen, svagt domineret strategi) Der bor to personer i bygningen med lejligheder, og spillerne kan vælge mellem to strategier: Strategi A: man passer på fællesarealerne i bygningen Strategi B: man er ligeglad med fællesarealerne i bygningen Spiller 2 Spiller 1 A B A 1,1 0,0 B 0,0 0,0 Nash-ligevægtene i spillet er udfaldet (1,1) og udfaldet (0,0). Strategi A strengt dominerer ikke strategi B for spillerne, da spiller 1 eksempelvis er indifferent mellem at vælge strategi A eller strategi B, hvis spiller 2 vælger strategi B, da payoff er det samme. På tilsvarende måde er spiller 2 indifferent mellem at vælge strategi A eller strategi B, hvis spiller 1 vælger strategi B – dette betyder, at strategi B er svagt domineret af strategi A (man får enten større payoff eller det samme payoff) - En svagt domineret strategi må ikke fjernes med IESDS VIDEO 4: Det formelle og key points Spillere: generelt kan spillere betegnes alt – virksomheder kan betegnes virksomhedsnavne, personer kan betegnes navne osv. Imidlertid er det almindeligt at betegne spillere med numrene 1,2,3,4, … , 𝑛 Sættet, som indeholder alle spillere, er følgende: 𝑁 = {1,2,3,4, … , 𝑛} Antallet af elementer, dermed spillere, i N er |𝑁| = 𝑛 Strategier og actions: i det ovenstående (kapitel 1) er strategi og action det samme – en strategi er at vælge en action. Eksempelvis i spillet matching pennies kan man vælge mellem plat eller krone – disse er to forskellige actions. En strategi i dette spil er at vælge enten plat eller krone, derved vælge 13 en action. I kommende kapitaler er strategi og action ikke det samme, da en strategi skal beskrive, hvad spilleren skal gøre i alle steps (dynamiske spil) – disse steps har forskellige actions Hver enkelt spiller har et strategirum (strategy space), der eksempelvis kan skrives på følgende måde for spiller 1 i spillet opera/fight (battle of the sexes): 𝑆1 = {𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡} Spillerens strategirum er dermed sættet af alle mulige rene strategier. Idet spiller 2 har samme strategier som spiller 1 i spillet opera/fight, kan man skrive 𝑆1 = {𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡} = 𝑆2 Strategien, som eksempelvis spiller 1 har udvalgt fra strategirummet, betegnes 𝑠1 (dermed 𝑠1 ∈ 𝑆1). På tilsvarende måde betegner 𝑠2 den strategi, som spiller 2 har udvalgt, 𝑠3 den strategi, som spiller 3 har udvalgt, 𝑠4 den strategi, som spiller 4 har udvalgt osv. (𝑠1 , 𝑠2 , 𝑠3 , 𝑠4 , … , 𝑠𝑛 ) Payoff: strategier, som udvælges af spillerne, kan benyttes til se payoffs. Hvis ovenstående bliver spillets udfald, er payoff til spiller 1 eksempelvis: 𝑢1 (𝑠1 , 𝑠2 , 𝑠3 , 𝑠4 , … , 𝑠𝑛 ) Tilsvarende er payoff til spiller 2: 𝑢2 (𝑠1 , 𝑠2 , 𝑠3 , 𝑠4 , … , 𝑠𝑛 ) I spillet opera/fight er payoff for spiller 2, hvis spiller 1 vælger opera, og spiller 2 vælger fight: 𝑢2 (𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡) = 0 Payoff for spiller 1, hvis spiller 1 vælger fight, og spiller 2 også vælger fight, er: 𝑢1 (𝑓𝑖𝑔ℎ𝑡, 𝑓𝑖𝑔ℎ𝑡) = 1 Definition: et spil på normalform med n spillere specificerer spillernes strategirum 𝑆1 , … , 𝑆𝑛 og spillernes payoff funktioner 𝑢1 , … , 𝑢𝑛 . Dette spil betegnes 𝐺 = {𝑆1 , … , 𝑆𝑛 ; 𝑢1 , … , 𝑢𝑛 } Definition, domineret strategi: i et spil på normalform 𝐺 = {𝑆1 , … , 𝑆𝑛 ; 𝑢1 , … , 𝑢𝑛 } betegner 𝑠𝑖′ og 𝑠𝑖′′ mulige strategier for spiller i (dermed 𝑠𝑖′ , 𝑠𝑖′′ ∈ 𝑆𝑖 ). Strategien 𝑠𝑖′ er strengt domineret af strategien 𝑠𝑖′′ , hvis spiller i’s payoff fra 𝑠𝑖′ er strengt mindre end spiller i’s payoff fra 𝑠𝑖′′ for alle mulige kombinationer af andre spilleres strategier. Dermed 𝑢𝑖 (𝑠1 , … , 𝑠𝑖−1 , 𝑠𝑖′ , 𝑠𝑖+1 , … , 𝑠𝑛 ) < 𝑢𝑖 (𝑠1 , … , 𝑠𝑖−1 , 𝑠𝑖′′ , 𝑠𝑖+1 , … , 𝑠𝑛 ) 14 for alle (𝑠1 , … , 𝑠𝑖−1 , 𝑠𝑖+1 , … , 𝑠𝑛 ), der kan konstrueres fra andre spilleres strategirum 𝑆1 , … , 𝑆𝑖−1 , 𝑆𝑖+1 , … , 𝑆𝑛 Definition, Nash-ligevægt: i et spil på normalform med n spillere 𝐺 = {𝑆1 , … , 𝑆𝑛 ; 𝑢1 , … , 𝑢𝑛 } er strategierne (𝑠1∗ , … , 𝑠𝑛∗ ) en Nash-ligevægt, hvis strategien 𝑠𝑖∗ for enhver spiller 𝑖 er spillerens bedste strategi at vælge (enten højere payoff eller samme payoff) til strategier specificeret for de 𝑛 − 1 ∗ ∗ andre spillere (𝑠1∗ , … , 𝑠𝑖−1 , 𝑠𝑖+1 , … , 𝑠𝑛∗ ). Dermed ∗ ∗ ∗ ∗ 𝑢𝑖 (𝑠1∗ , … , 𝑠𝑖−1 , 𝑠𝑖∗ , 𝑠𝑖+1 , … , 𝑠𝑛∗ ) ≥ 𝑢𝑖 (𝑠1∗ , … , 𝑠𝑖−1 , 𝑠𝑖 , 𝑠𝑖+1 , … , 𝑠𝑛∗ ) for enhver mulig strategi 𝑠𝑖 i strategirummet 𝑆𝑖 . Strategien 𝑠𝑖∗ løser dermed ∗ ∗ max 𝑢𝑖 (𝑠1∗ , … , 𝑠𝑖−1 , 𝑠𝑖 , 𝑠𝑖+1 , … , 𝑠𝑛∗ ) 𝑠𝑖 ∈𝑆𝑖 Centrale pointer - En rationel spiller vil aldrig vælge en strengt domineret strategi – man antager i spilteori, at alle spillere er rationelle - En Nash-ligevægt (NE) er et stabilt punkt i spillet, der ikke nødvendigvis er Pareto efficient/Pareto-optimalt - Nash-ligevægte vil altid overleve IESDS - Hvis IESDS eliminerer alle udfald undtagen ét, er dette udfald den unikke Nash-ligevægt - I ethvert endeligt statisk spil (finite static game) – med et endeligt antal spillere, strategirum med et endeligt antal elementer/strategier og komplet information, hvor spillerne vælger én gang og simultant – findes der mindst en Nash-ligevægt, muligvis i blandede strategier VIDEO 5: Cournot duopol Spil, Cournot model Agenterne i dette spil er to firmaer, som sælger identiske produkter – dermed er forbrugerne indifferente mellem firmaerne. Firmaerne skal vælge antallet af produkter, de vil producere – spiller 1 vælger dermed 𝑞1 , og spiller 2 vælger 𝑞2 (spillerne vælger simultant, derved uden at observere den andens strategi). Det samlede antal produkter, der produceres af firmaerne, er 𝑄 = 𝑞1 + 𝑞2 . Efterspørgselsfunktionen er givet ved 𝑃 = 𝑎 − 𝑄. Den strategiske interaktion kommer i spil, idet en ekstra produceret enhed – enten fra spiller 1 eller spiller 2 – reducerer prisen på produktet for begge spillere – dermed afhænger prisen på produktet af det samlede antal af produkter på markedet. Efterspørgselsfunktionen skitseres: 15 Det fremgår af skitsen, at prisen på produktet falder med 1, når der produceres 1 ekstra enhed. Omkostningen ved at producere en enhed af produktet er c. Spillernes strategirum er defineret ved 𝑆1 = 𝑆2 = [0, ∞) Dermed er dette spil ikke et endeligt statisk spil, da spillernes strategirum ikke har et endeligt antal elementer/strategier. Payoffs er defineret ved 𝜋𝑖 (𝑞𝑖 , 𝑞𝑗 ) = (𝑎 − 𝑄) · 𝑞𝑖 − 𝑐 · 𝑞𝑖 Dermed er payoff for spiller i givet ved spiller i’s totale indtægter (𝑎 − 𝑄) · 𝑞𝑖 (total revenue, TR) minus spiller i’s totale omkostninger 𝑐 · 𝑞1 (total cost, TC) For at finde den unikke Nash-ligevægt, skal hver spiller maksimere deres payoff givet den anden spillers strategi. Spiller 1’s payoff maksimeres: 𝜋1 = (𝑎 − 𝑄) · 𝑞1 − 𝑐 · 𝑞1 = (𝑎 − 𝑞1 − 𝑞2 )𝑞1 − 𝑐𝑞1 = 𝑎𝑞1 − 𝑞12 − 𝑞1 𝑞2 − 𝑐𝑞1 Man differentierer profitfunktionen: 𝑑𝜋1 = 𝑎 − 2𝑞1 − 𝑞2 − 𝑐 = 0 𝑑𝑞1 Man isolerer 𝑞1 : 2𝑞1 = 𝑎 − 𝑞2 − 𝑐 𝑎−𝑐 1 − 𝑞2 2 2 Dette udtryk er spiller 1’s reaktionsfunktion 𝑅1 (𝑞2 ) – dermed spiller 1’s reaktionsfunktion som 𝑞1 = funktion af 𝑞2 . Funktionen viser, hvordan spiller 1 skal reagere for at maksimere sit payoff. Antager man eksempelvis, at spiller 2 producerer 10 enheder af produktet, dermed 𝑞2 = 10, skal spiller 1 producere 16 𝑎−𝑐 1 𝑎−𝑐 − · 10 = −5 2 2 2 enheder for at maksimere sit payoff. Reaktionsfunktionen viser dermed, hvordan spiller 1 skal 𝑞1 = reagere, når spiller 2’s antal producerede enheder 𝑞2 afsløres Grundet symmetri i spillet opskrives spiller 2’s reaktionsfunktion 𝑅2 (𝑞1 ) på tilsvarende måde: 𝑎−𝑐 1 − 𝑞1 2 2 Reaktionsfunktionerne skitseres og Nash-ligevægten markeres: 𝑞2 = Det eneste punkt, hvor ingen af spillerne ønsker at afvige, er skæringspunktet mellem reaktionsfunktionerne 𝑅1 (𝑞2 ) og 𝑅2 (𝑞1 ). Ved alle andre punkter på funktionen for 𝑅1 (𝑞2 ) ønsker spiller 2 at afvige, mens spiller 1 ikke ønsker at afvige. Tilsvarende ønsker spiller 1 at afvige, mens spiller 2 ikke ønsker at afvige ved alle andre punkter på funktionen for 𝑅2 (𝑞1 ) - Bemærk: i Nash-ligevægten producerer firmaerne lige mange enheder grundet symmetri i spillet – dette fremgår imidlertid ikke at skitsen, da denne ikke er skitseres symmetrisk Skæringspunktet kan findes ved at løse ligningen: 𝑅1 (𝑞2 ) = 𝑅2 (𝑞1 ) 𝑎−𝑐 1 𝑎−𝑐 1 − 𝑞2 = − 𝑞1 2 2 2 2 Idet spillet er symmetrisk, ved man, at spillerne producerer lige mange enheder af produkter i Nashligevægten. Dermed 𝑞1 = 𝑞2 𝑞1 = 𝑎−𝑐 1 𝑎−𝑐 1 − 𝑞2 = − 𝑞1 2 2 2 2 𝑎−𝑐 1,5𝑞1 = 2 𝑎 3𝑞1 = 𝑐 17 𝑞1∗ = 𝑎−𝑐 3 𝑞2∗ = 𝑎−𝑐 3 Tilsvarende for 𝑞2 grundet symmetri: Ovenstående er dermed antallet af producerede enheder for henholdsvis spiller 1 og spiller 2 i Nashligevægten. Dette indskrives på skitsen: Den unikke Nash-ligevægt skrives som (𝑞1∗ , 𝑞2∗ ) = ( 𝑎−𝑐 𝑎−𝑐 , ) 3 3 Prisen, som forbrugerne betaler i Nash-ligevægten, er 𝑃 = 𝑎 − 𝑄 = 𝑎 − 𝑞1∗ − 𝑞2∗ = 𝑎 − 𝑎 − 𝑐 𝑎 − 𝑐 𝑎 + 2𝑐 − = 3 3 3 Setuppet i dette spil er interessant, da firmaerne bestemmer antallet af producerede enheder, hvorefter markedet vurderer, om prisen skal hæves eller sænkes. I et normalt setup foregår det således, at firmaerne sætter priserne, mens markedet bestemmer efterspørgslen – dermed antallet af enheder, firmaerne skal producere til den fastsatte pris. I Cournot modellen (derved dette spil) er setuppet således, at firmaerne bestemmer antallet af producerede enheder, og markedet efterfølgende ”fortæller” prisen. Eksempler på Cournot er blandt andet olie – en større mængde olie på markedet betyder en lavere pris for forbrugerne, dermed en lavere indtægt for alle producenter på markedet. Et andet eksempel er fisk, hvor forskellige skibe fra forskellige lande er producenterne, og markedet bestemmer prisen ud fra antallet af enheder 18 FORELÆSNING 2 Examples, Nash equilibria: Traffic, simple game: There are two players: 𝑆1 = 𝑆2 = {"𝑙𝑒𝑓𝑡 𝑠𝑖𝑑𝑒", "𝑟𝑖𝑔ℎ𝑡 𝑠𝑖𝑑𝑒"} The preferences of both players: - Collide with another car (payoff −1) - Stay out of the accidents (payoff 1) Crossing on red, simple game: There are two players: a car driver and a pedestrian The preferences of the car driver: - Drive fast and stay safe (payoff 1) - Drive slowly and stay safe (payoff 0) - Run someone over (payoff −1) The preferences of the pedestrian: - Cross on red and stay safe (payoff 1) - Wait for green and stay safe (payoff 0) 19 - Get hit by a car (payoff −1) Posters for election, simple game: There are two candidates: 𝑆1 = 𝑆2 = {"𝑝𝑜𝑠𝑡𝑒𝑟", "𝑛𝑜 𝑝𝑜𝑠𝑡𝑒𝑟"} - If both candidates choose not to use posters, there is an equal chance of winning and the payoff is 2 to each player - If both candidates choose to use posters, there is still an equal chance of winning, but with extra costs, and the payoff is 1 to each player - If one candidate chooses to use posters, while the other candidate doesn’t, the candidate with posters wins for sure (the candidate’s payoff is 3), while the candidate without posters loses for sure (the candidate’s payoff is 0) The preferences of both candidates: - Win for sure (payoff 3) - Have a 50% chance of winning when not spending money on posters (payoff 2) - Have a 50% chance of winning when spending money on posters (payoff 1) - Lose for sure (payoff 0) Mixed strategies Mixed strategies are a probability distribution over the pure strategies Definition: in the normal-form game 𝐺 = {𝑆1 , … , 𝑆𝑛 ; 𝑢1 , … , 𝑢𝑛 }, suppose 𝑆𝑖 = {𝑆𝑖1 , … , 𝑆𝑖𝐾 }. Then a mixed strategy for player 𝑖 is a probability distribution 𝑝𝑖 = (𝑝𝑖1 , … , 𝑝𝑖𝐾 ), where 0 ≤ 𝑝𝑖𝑘 ≤ 1 for 𝑘 = 1, … , 𝐾 and 𝑝𝑖1 + ⋯ + 𝑝𝑖𝐾 = 1 20 Example, rock, paper, scissors: There are three players: 𝑆1 = 𝑆2 = {𝑟𝑜𝑐𝑘, 𝑠𝑐𝑖𝑠𝑠𝑜𝑟𝑠, 𝑝𝑎𝑝𝑒𝑟} For example: - (0.5; 0.5; 0): rock and scissors with equal probabilities, never paper - (1; 0; 0): rock (that is, a pure strategy can also be stated as a mixed strategy) What if the other players play (1/3; 1/3; 1/3)? - When player 2 plays (1/3; 1/3; 1/3), player 1 will have an expected payoff 0 regardless of the chosen strategy (pure or mixed) - ((1/3; 1/3; 1/3), (1/3; 1/3; 1/3)) is a Nash equilibrium in mixed strategies Example, doping: There are two players: 𝑆1 = 𝑆2 = {𝑑𝑜𝑝𝑖𝑛𝑔, 𝑛𝑎𝑡𝑢𝑟𝑎𝑙} and the goal is to win 21 - “Doping” is a strictly dominant strategy (when only taking the outcome of the competition into consideration) - (𝑑𝑜𝑝𝑖𝑛𝑔, 𝑑𝑜𝑝𝑖𝑛𝑔) is the unique Nash equilibrium There is introduced a player 3, the International Olympic Committee: 𝑆3 = {"𝑐ℎ𝑒𝑐𝑘 𝑝𝑙𝑎𝑦𝑒𝑟 1"; "𝑐ℎ𝑒𝑐𝑘 𝑝𝑙𝑎𝑦𝑒𝑟 2"} and the goal is to find a cheater Suppose that player 3’s strategy is (0.5; 0.5): If player 3’s strategy is (0.5; 0.5), then “natural” has a higher expected payoff both for player 1 and for player 2 22 VIDEO, BONUS: Grafisk trick til at bytte rundt på akser Man har funktionen 𝑦 = 𝑥 2 . Denne funktion skitseres: Man kan bytte rund på akserne ved at isolere x i funktionen, dermed 𝑥 = √𝑦. Denne funktion skitseres: Hvis den oprindelige funktion er besværlig, og man ikke nemt kan isolere x i funktionen, kan man bruge et trick. Tricket virker imidlertid kun, hvis én værdi af x svarer til én værdi af y (positive tal). Dette trick kan eksempelvis bruges i Cournot modellen og Bertrand modellen, hvor man har to reaktionsfunktioner. Reaktionsfunktionen for spiller 1 kan tegnes, og reaktionsfunktionen for spiller 2 svarer til, at man bytter rund på akserne. Tricket udføres ved at forestille, at grafen for en funktion tegnes på et glas. Man forestiller sig, at man går bagom glasset, kigger på funktionen og lægger hovedet ned til venstre – dermed bytter man om på akserne, og man kan se x som funktion af y, hvor det tidligere var y som funktion af x VIDEO 1: Bertrand duopol Modsat Cournot duopol vælger virksomhederne i Bertrand duopol ikke mængden af producerede enheder, men priserne 𝑝1 og 𝑝2 for henholdsvis spiller 1’s produkt og spiller 2’s produkt. Produkterne behøver ikke at være identiske, men man antager, at produkterne ligner hinanden - I nogle udgaver af Bertrand modellen er virksomhedernes produkter identiske 23 Efterspørgslen for virksomhed/spiller i er defineret ved: 𝑞𝑖 (𝑝𝑖 , 𝑝𝑗 ) = 𝑎 − 𝑝𝑖 + 𝑏𝑝𝑗 0<𝑏<2 Værdien b angiver i hvor høj grad, virksomhed/spiller i’s produkt er substitut for virksomhed/spiller j’s produkt. Hvis virksomhed 𝑖 sætter en højere pris 𝑝𝑖 , vil denne virksomhed sælge en mindre mængde 𝑞𝑖 på markedet. Hvis den anden virksomhed sætter en højere pris 𝑝𝑗 , vil virksomhed i sælge en større mængde 𝑞𝑖 på markedet – værdien b bestemmer, hvor meget større mængden 𝑞𝑖 bliver - Hvis værdien b er tæt på 0, er produkterne meget forskellige. Dermed vil en forøget pris på virksomhed j’s produkt ikke påvirke mængden af produkter, virksomhed i sælger, meget - Hvis værdien b er tæt på 2, er virksomhed i’s produkt i meget høj grad substitut for virksomhed j’s produkt (og omvendt). Dermed vil en forøget pris på virksomhed j’s produkt påvirke mængden af produkter, virksomhed i sælger, meget Spil, Bertrand model Agenterne i dette spil er to virksomheder, som sælger produkter, der ligner hinanden. Virksomhederne skal vælge priserne på produkterne – spiller 1 vælger dermed 𝑝1, og spiller 2 vælger 𝑞2 . Omkostningen ved at producere en enhed af produktet er c for begge spillere. Spillernes strategirum er defineret ved 𝑆1 = 𝑆2 = [0, ∞) Dermed er dette spil ikke et endeligt statisk spil, da spillernes strategirum ikke har et endeligt antal elementer/strategier. Payoff/profit for spiller 1 er defineret ved 𝜋1 = 𝑞1 · (𝑝1 − 𝑐) = (𝑎 − 𝑝1 + 𝑏𝑝2 )(𝑝1 − 𝑐) Man maksimerer profitten (finder den optimale pris) ved at differentiere payoff funktionen: 𝑑𝜋1 = −(𝑝1 − 𝑐) + 𝑎 − 𝑝1 + 𝑏𝑝2 ) = −2𝑝1 + 𝑐 + 𝑎 + 𝑏𝑝2 𝑑𝑝1 Man løser ligningen: −2𝑝1 + 𝑐 + 𝑎 + 𝑏𝑝2 = 0 2𝑝1 = 𝑎 + 𝑐 + 𝑏𝑝2 𝑝1 = 𝑎+𝑐 1 + 𝑏𝑝2 2 2 Grundet symmetri i spillet kan man på tilsvarende måde maksimere profitten for spiller 2: 𝑝2 = 𝑎+𝑐 1 + 𝑏𝑝1 2 2 24 Ovenstående udtryk er reaktionsfunktionerne for virksomhederne – dermed 𝑅1 (𝑝2 ) for spiller 1 og 𝑅2 (𝑝1 ) for spiller 2. Reaktionsfunktionerne viser, hvordan spillere skal reagere for at maksimere deres payoff/profit, når den anden spillers pris afsløres. Reaktionsfunktionerne skitseres og Nash-ligevægten markeres: Det eneste punkt, hvor ingen af spillerne ønsker at afvige, er skæringspunktet mellem reaktionsfunktionerne 𝑅1 (𝑝2 ) og 𝑅2 (𝑝1 ). Ved alle andre punkter på funktionen for 𝑅1 (𝑝2 ) ønsker spiller 2 at afvige, mens spiller 1 ikke ønsker at afvige. Tilsvarende ønsker spiller 1 at afvige, mens spiller 2 ikke ønsker at afvige ved alle andre punkter på funktionen for 𝑅2 (𝑝1 ) - Bemærk: i Nash-ligevægten er priserne på virksomhedernes produkter 𝑝1 og 𝑝2 ens grundet symmetri i spillet Skæringspunktet kan findes ved at løse ligningen: 𝑅1 (𝑝2 ) = 𝑅2 (𝑝1 ) 𝑎+𝑐 1 𝑎+𝑐 1 + 𝑏𝑝2 = + 𝑏𝑝1 2 2 2 2 Idet spillet er symmetrisk, ved man, at priserne på virksomhedernes produkter er ens i Nashligevægten. Dermed 𝑝1 = 𝑝2 𝑝1 = 𝑎+𝑐 1 𝑎+𝑐 1 + 𝑏𝑝2 = + 𝑏𝑝1 2 2 2 2 1 𝑎+𝑐 (1 − 𝑏) 𝑝1 = 2 2 2−𝑏 𝑎+𝑐 ( ) 𝑝1 = 2 2 (2 − 𝑏)𝑝1 = 𝑎 + 𝑐 25 𝑝1 = 𝑎+𝑐 2−𝑏 𝑝2 = 𝑎+𝑐 2−𝑏 Tilsvarende for 𝑝2 grundet symmetri: Ovenstående er dermed prisen på produkterne for henholdsvis spiller 1 og spiller 2 i Nashligevægten. Dette indskrives på skitsen: Den unikke Nash-ligevægt skrives som (𝑝1∗ , 𝑝2∗ ) = ( 𝑎+𝑐 𝑎+𝑐 , ) 2−𝑏 2−𝑏 Mængden, som virksomhederne sælger i Nash-ligevægten, er: 𝑄 = 𝑎 − 𝑝1∗ + 𝑏𝑝2∗ = 𝑎 − 𝑎+𝑐 𝑎+𝑐 +𝑏 2−𝑏 2−𝑏 VIDEO 2: Nash-ligevægte, flere eksempler Spil, trafik – hvilken side? Agenterne, spiller 1 og spiller 2, har strategirummene 𝑆1 = 𝑆2 = {"𝑣𝑒𝑛𝑠𝑡𝑟𝑒 𝑠𝑖𝑑𝑒", "ℎø𝑗𝑟𝑒 𝑠𝑖𝑑𝑒"}. Spillernes præferencer er følgende: - Køre ind i en anden bil: payoff -1 - Ikke køre ind i andre biler: payoff 1 Payoffs i dette spil er ordinale. Spiller 2 Venstre side Højre side 26 Spiller 1 Venstre side 1,1 -1,-1 Højre side -1,-1 1,1 Nash-ligevægtene i dette spil er Spil, Crossing on red, simple game: There are two players: a car driver and a pedestrian The preferences of the car driver: - Drive fast and stay safe (payoff 1) - Drive slowly and stay safe (payoff 0) - Run someone over (payoff −1) The preferences of the pedestrian: - Cross on red and stay safe (payoff 1) - Wait for green and stay safe (payoff 0) - Get hit by a car (payoff −1) Posters for election, simple game: There are two candidates: 𝑆1 = 𝑆2 = {"𝑝𝑜𝑠𝑡𝑒𝑟", "𝑛𝑜 𝑝𝑜𝑠𝑡𝑒𝑟"} - If both candidates choose not to use posters, there is an equal chance of winning and the payoff is 2 to each player 27 - If both candidates choose to use posters, there is still an equal chance of winning, but with extra costs, and the payoff is 1 to each player - If one candidate chooses to use posters, while the other candidate doesn’t, the candidate with posters wins for sure (the candidate’s payoff is 3), while the candidate without posters loses for sure (the candidate’s payoff is 0) The preferences of both candidates: - Win for sure (payoff 3) - Have a 50% chance of winning when not spending money on posters (payoff 2) - Have a 50% chance of winning when spending money on posters (payoff 1) - Lose for sure (payoff 0) 28 FORELÆSNING 3 The three models: Cournot Quantities Stackelberg 𝑞1 = 𝑞2 = 𝑄=2 𝑎−𝑐 3 𝑎−𝑐 3 𝑎+2𝑐 3 Price 𝑃= Profits Π1 = Π2 = Total: 𝑃= (𝑎−𝑐)2 2(𝑎−𝑐)2 9 9 Collusion in Cournot 𝑎−𝑐 𝑞𝑙𝑒𝑎𝑑𝑒𝑟 = 2 𝑎−𝑐 𝑞𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 = 4 𝑎−𝑐 𝑄=3 4 𝑞1 = 𝑞2 = 𝑎+3𝑐 4 Π𝑙𝑒𝑎𝑑𝑒𝑟 = (𝑎−𝑐)2 Total: 𝑎−𝑐 2 𝑃= 𝑎+𝑐 2 Π1 = Π2 = 8 Π𝑓𝑜𝑙𝑙𝑜𝑤𝑒𝑟 = 𝑄= 𝑎−𝑐 4 (𝑎−𝑐)2 16 Total: (𝑎−𝑐)2 8 (𝑎−𝑐)2 4 3(𝑎−𝑐)2 16 Infinite time horizon, formula: Let 𝑥 = 1 + 𝛿 + 𝛿 2 + 𝛿 3 + ⋯ = 1 + 𝛿 (1 ⏟ + 𝛿 + 𝛿2 + 𝛿3 + ⋯ ) =𝑥 Thus, one has to solve 𝑥 = 1 + 𝛿𝑥 ↔ 𝑥 = 1 1−𝛿 Similarly, let 𝑦 = 𝛿 + 𝛿 2 + 𝛿 3 + ⋯ = 𝛿 (1 ⏟ + 𝛿 + 𝛿2 + 𝛿3 + ⋯ ) =1+𝑦 Thus, one has to solve 𝑦 = (1 + 𝑦)𝛿 ↔ 𝑦 = 𝛿 1−𝛿 Sequential bargaining Consider the classical example pf sequential bargaining. There are two players (for example children) who want to share an ice cake. The game starts in period 1, and after each period the cake becomes smaller (discount factor 0 < 𝛿 < 1). Player 1 suggest a way to shake the cake in period 1. Once the suggestion is made, player 2 can either accept (the game ends) or decline (the game continues to the next period in which the cake becomes smaller). 29 In period 2 player 2 makes a new suggestion to player 1, who can either accept or decline. Thus, player 1 makes the suggestion in odd periods, while player 2 makes the suggestion in even periods. If the game reached the last period (predefined), the game stops, and the cake (of a smaller size than in the beginning) is divided such that player 1 gets a share of 0 < 𝑠 < 1, while player 2 gets a share of 1 − 𝑠 (the mom comes and tells how the cake should be divided) Consider the specific case with 𝑠 = 0.5 (that is, the cake is shared equally in the end if the two players cannot agree), 𝛿 = 0.9 and period 3 as the last period - Another example is strikes: workers and management make suggestions, and the longer the conflict takes place, the less is the value of the firm General case: Strategy A strategy is always a complete plan of action: it should specify a feasible action in every contingency in which the player might be called on to act Static games with complete information: the strategy should simply state which action the player is choosing Dynamic games with complete information: the strategy should state an action for every state in which the player is choosing (even if the state set may never be reached) 30 Static games with incomplete information: the strategy should state which action the player is choosing for every type he/she can be Definitions Definition for information set: an information set for a player is a collection of decision nodes satisfying: - The player has the move at every node in the information set - When the play of the game reaches a node in the information set, the player with the move doesn’t know which node in the information set has (or hasn’t) been reached Perfect information: every information set has exactly one decision node Imperfect information: there is at least one information set with more than one decision node – implying that there is a player that might now observe the whole “history” of the game Definition for subgame: a subgame in an extensive-form game (a) begins at a decision node 𝑛 that is a singleton information set (but isn’t the game’s first decision node) (b) includes all the decision and terminal nodes following 𝑛 in the game tree (but no nodes that don’t follow 𝑛) (c) does not cut any information sets (that is, if a decision node 𝑛′ follows 𝑛 in the game tree, then all other nodes in the information set containing 𝑛′ must also follow 𝑛, and so must be included in the subgame) Definition for SPNE: a Nash equilibrium is subgame-perfect (SPNE) if the players’ strategies are Nash equilibria in all subgames In dynamic games with complete and perfect information, an SPNE never has a strategy with a noncredible threat or irrational behavior The strategies in an SPNE are never in conflict with backwards induction Example 1, game with SPNE: 31 Subgame 1: Subgame 2: Example 2, game with SPNE: USSR, preferences: - Missiles are placed in Cuba (5) - No changes (4) - US blocks Cuba with the missiles (3) 32 - US destroys the missiles (2) - War when US doesn’t have the missiles (1) - War when US has the missiles (0) US, preferences: - Get the missiles “for free” (5) - Destroy the missiles (4) - No changes (3) - Let USSR place the missiles in Cuba (2) - War when having USSR’s missiles (1) - War when not having the USSR’s missiles (0) 33 Example, game with multiple SPNE An alternative version of the “battle of the sexes”: player 1 chooses first between “opera”, “fight” or “staying home”, while player 2 observes and then chooses between “opera” and “fight” - Both players prefer to be together - Player 1 is indifferent between going to the opera or to the fight with player 2 (payoff of 2 in both cases) - Player 2 strictly prefers going to the opera instead of the fight with player 1 34 SPNE (player 2 has to choose opera when player 1 chooses opera, player 2 has to choose fight when player 1 chooses fight): - (𝑜𝑝𝑒𝑟𝑎, (𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡, 𝑜𝑝𝑒𝑟𝑎)) with payoffs (2,2) - (𝑜𝑝𝑒𝑟𝑎, (𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡, 𝑓𝑖𝑔ℎ𝑡)) with payoffs (2,2) - (𝑓𝑖𝑔ℎ𝑡, (𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡, 𝑜𝑝𝑒𝑟𝑎)) with payoffs (2,1) - (𝑓𝑖𝑔ℎ𝑡, (𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡, 𝑓𝑖𝑔ℎ𝑡)) with payoffs (2,1) Note the following: - A SPNE may not be Pareto efficient - Player 1 could also have chosen a mixed strategy in which he/she chooses randomly between opera and fight (same payoff) – these Nash equilibria aren’t included here NE, but not SPNE (irrational behavior is marked with blue): - (𝑜𝑝𝑒𝑟𝑎, (𝑜𝑝𝑒𝑟𝑎, 𝑜𝑝𝑒𝑟𝑎, 𝑜𝑝𝑒𝑟𝑎)) with payoffs (2,2) - (𝑜𝑝𝑒𝑟𝑎, (𝑜𝑝𝑒𝑟𝑎, 𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡)) with payoffs (2,2) - (𝑓𝑖𝑔ℎ𝑡, (𝑓𝑖𝑔ℎ𝑡, 𝑓𝑖𝑔ℎ𝑡, 𝑜𝑝𝑒𝑟𝑎)) with payoffs (2,1) - (𝑓𝑖𝑔ℎ𝑡, (𝑓𝑖𝑔ℎ𝑡, 𝑓𝑖𝑔ℎ𝑡, 𝑓𝑖𝑔ℎ𝑡)) with payoffs (2,1) - (𝑠𝑡𝑎𝑦 ℎ𝑜𝑚𝑒, (𝑓𝑖𝑔ℎ𝑡, 𝑜𝑝𝑒𝑟𝑎, 𝑜𝑝𝑒𝑟𝑎)) with payoffs (0,0) - (𝑠𝑡𝑎𝑦 ℎ𝑜𝑚𝑒, (𝑓𝑖𝑔ℎ𝑡, 𝑜𝑝𝑒𝑟𝑎, 𝑓𝑖𝑔ℎ𝑡)) with payoffs (0,0) In the first four Nash equilibria player 2 has irrational behavior at some information sets, but these never get reached so both players get positive playoffs In the last two Nash equilibria once the other player fixes a strategy that avoid one, it’s also optimal for one to choose a strategy that avoids the other player 35 36

Spilteori, forelæsninger

Related documents

Products

Support

Spilteori, forelæsninger

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib