Uploaded by annitash00

Spilteori, forelæsninger

advertisement
FORELÆSNING 1
Game Theory
Game theory is a study of strategic decision making
Game: any situation in which two or more agents choose actions, and the outcome depends on the
actions of all agents
-
Agents/players: people, countries, firms
Static games of complete information: players make decisions simultaneously, payoff functions are
known to all players (common knowledge)
Statis games of incomplete information: players make decisions simultaneously, some players are
uncertain about some other players’ payoff functions
Dynamic games of complete information: players make decisions sequentially, payoff functions of
all players are common knowledge
Dynamic games of incomplete information: players make decisions sequentially, some players are
uncertain about some other players’ payoff functions
Properties: efficiency vs stability (vs fairness)
Efficiency: a state is Pareto efficient if it’s impossible to make someone happier (by moving to a
new state) without harming someone else
Stability: a state is a Nash equilibrium if every player is choosing an optimal strategy given the
strategies of all the other players – that is, no player wants to change the strategy (deviate) given the
strategies of all the players
A Nash equilibrium isn’t necessarily efficient – additionally, a Pareto efficient state or a Nash
equilibrium may not even be fair
-
In general, fairness may have several definitions depending on the context
Pareto optimal/Pareto efficient state:
Is it possible to make a change (move to a new state) such that some players are better-off, and no
player is harmed?
-
Yes: the original state isn’t Pareto efficient (players can move to a new state in which they
all are either happier or have the same payoff as in the current state)
1
-
No: the original state is Pareto efficient (if players move to any new state, at least one player
is worse-off)
Payoffs/utilities
Ordinal: numbers have no interpretation – one can use them to compare the numbers in two
different outcomes. If outcome 1 has a payoff of 8, while outcome 2 has a payoff of 4, then one can
say that outcome 1 is preferred – but one cannot say how much better outcome 1 is relative to
outcome 2. Thus, positive monotone transformations of the utility functions are allowed
Cardinal: numbers have an interpretation. If outcome 1 has a payoff of 8, while outcome 2 has a
payoff of 4, then one can say that outcome 1 is preferred. One can furthermore say that outcome 1 is
twice as good as outcome 2
Definitions
Definition: the normal-form representation of an n-player game specifies the players’ strategy
spaces ๐‘†1 , … , ๐‘†๐‘› and their payoff functions ๐‘ข1 , … , ๐‘ข๐‘› . This game is denoted by
๐บ = {๐‘†1 , … , ๐‘†๐‘› ; ๐‘ข1 , … , ๐‘ข๐‘› }
Definition: in the normal-form game ๐บ = {๐‘†1 , … , ๐‘†๐‘› ; ๐‘ข1 , … , ๐‘ข๐‘› }, let ๐‘ ๐‘–′ and ๐‘ ๐‘–′′ be feasible strategies
for player ๐‘– (that is, ๐‘ ๐‘–′ and ๐‘ ๐‘–′′ are members of ๐‘†๐‘– ). Strategy ๐‘ ๐‘–′ is strictly dominated by strategy ๐‘ ๐‘–′′ if
for each feasible combination of the other players’ strategies, ๐‘–’s payoff from playing ๐‘ ๐‘–′ is strictly
less than ๐‘–’s payoff from playing ๐‘ ๐‘–′′ :
๐‘ข๐‘– (๐‘ 1 , … , ๐‘ ๐‘–−1 , ๐‘ ๐‘–′ , ๐‘ ๐‘–+1 , … , ๐‘ ๐‘› ) < ๐‘ข๐‘– (๐‘ 1 , … , ๐‘ ๐‘–−1 , ๐‘ ๐‘–′′ , ๐‘ ๐‘–+1 , … , ๐‘ ๐‘› )
(๐ท๐‘†)
for each (๐‘ 1 , … , ๐‘ ๐‘–−1 , ๐‘ ๐‘–+1 , … , ๐‘ ๐‘› ) that can be constructed from the other players’ strategy spaces
๐‘†1 , … , ๐‘†๐‘–−1 , ๐‘†๐‘–+1 , … , ๐‘†๐‘›
2
Definition: in the n-player normal-form game ๐บ = {๐‘†1 , … , ๐‘†๐‘› ; ๐‘ข1 , … , ๐‘ข๐‘› }, the strategies (๐‘ 1∗ , … , ๐‘ ๐‘›∗ )
are a Nash equilibrium if, for each player ๐‘–, ๐‘ ๐‘–∗ is (at least tied for) player ๐‘–’s best response to the
∗
∗
strategies specified for the ๐‘› − 1 other players (๐‘ 1∗ , … , ๐‘ ๐‘–−1
, ๐‘ ๐‘–+1
, … , ๐‘ ๐‘›∗ )
∗
∗
∗
∗
๐‘ข๐‘– (๐‘ 1∗ , … , ๐‘ ๐‘–−1
, ๐‘ ๐‘–∗ , ๐‘ ๐‘–+1
, … , ๐‘ ๐‘›∗ ) ≥ ๐‘ข๐‘– (๐‘ 1∗ , … , ๐‘ ๐‘–−1
, ๐‘ ๐‘– , ๐‘ ๐‘–+1
, … , ๐‘ ๐‘›∗ )
(๐‘๐ธ)
for every feasible strategi ๐‘ ๐‘– in ๐‘†๐‘– – that is, ๐‘ ๐‘–∗ solves
∗
∗
max ๐‘ข๐‘– (๐‘ 1∗ , … , ๐‘ ๐‘–−1
, ๐‘ ๐‘– , ๐‘ ๐‘–+1
, … , ๐‘ ๐‘›∗ )
๐‘ ๐‘– ∈๐‘†๐‘–
Key points:
-
A rational player never plays a strictly dominated strategy
-
A Nash equilibrium (NE) may not be Pareto efficient
-
Nash equilibria always “survive” IESDS (iterated elimination of strictly dominated
strategies) – however, if one removes a weakly dominated strategy, one may remove a NE
-
If IESDS eliminates all outcomes except of one, it’s the unique Nash equilibrium
-
In any finite static game (finite number of players and strategy sets with a finite number of
elements) with complete information there is at least one Nash equilibrium, possibly in
mixed strategies
FRA FORELÆSNINGEN
Eksempler på situationer (strategiske samspil), hvor ens payoff ikke blot afhænger af ens
handlinger/beslutninger, men også af andres handlinger/beslutninger (derved et spil):
-
Poker
-
Fodbold: angriberen kan vælge at skyde bolden til højre eller venstre, målmanden kan vælge
at hoppe til højre eller venstre. Payoff kan være forskelligt (vinde/tabe), selvom man
foretager samme beslutning, da payoff afhænger af begge agenter i spillet
-
Taxi: hvis man spørger en taxichauffør om prisen ved at gøre til en bestemt destination, kan
dette resultere i profit eller ingenting, alt afhængigt om man beslutter at gå distancen eller
betale for taxituren – man kan endvidere spørge en anden taxichauffør om prisen til
destinationen, idet denne kan være lavere
Eksempler på konkurrence:
3
-
Apple/Android: hvis Apple producerer en bestemt mobil, afhænger profittens størrelse af,
hvorvidt konkurrenten Android producerer en bedre (måske endda billigere) mobil – og
omvendt
Eksempler på ikke-strategiske samspil:
-
Restaurant: man har præferencer for mad, der varierer fra person til person. Ens beslutning
og dermed nytte påvirker blot en selv – ikke andre. Andres beslutninger påvirker endvidere
ikke en, da deres beslutninger træffes ud fra deres præferencer
Statiske spil: statiske spil er spil, hvor spillerne blot skal vælge én gang
-
Eksempelvis sten, saks, papir, hvor man vælger én gang (man vælger simultant), og man får
ét payoff (vinder, taber, uafgjort) – derefter slutter spillet
Dynamiske spil: dynamiske spil er spil, der har flere forskellige steps/perioder (spiller 1 starter,
derefter spiller 2, efterfulgt af spiller 3, hvorefter det atter er spiller 1’s tur osv.)
-
I nogle spil kan spillerne observere de tidligere steps, mens de i andre spil ikke kan
observere tidligere steps
-
Eksempelvis skak, hvor spiller 1 starter, efterfulgt af spiller 2, hvorefter det atter er spiller
1’s tur osv.
Komplet information: man kender andre spilleres payoff i forskellige udfald – ved spillets
afslutning har man derved en ide om, hvilke payoff spillets andre spillere har fået
Inkomplet information: spillerne kan have private information – ved spillets afslutning har man
derved ingen anelse om, hvilke payoff andre spillere har fået
-
Eksempel: en mobil sælges på auktion, hvor spillerne byder ved at skrive deres bud på et
stykke papir, der efterfølgende indsamles. Spillerne ved ikke, hvad de andre spillere byder,
og vinderen af auktionen findes ved at vælge det højeste bud. De andre spillere ved
imidlertid ikke, om vinderen af auktion er glad eller ej (vinder/taber) – vedkommende kan
have budt mindre, end han var villig til, cirka det, han var villig til, eller mere, end han var
villig til
Det første spil (fangernes dilemma/prisoner’s dilemma)
Spillet foregår ved, at spillerne beslutter simultant. Payoff fremgår af nedenstående:
4
Spiller 2
Spiller 1
A
B
A
(10,10)
(0,20)
B
(20,0)
(7,7)
Fordeling af spillets resultat til forelæsningen er
-
Bemærk: antallet af personer, der har fået et payoff på 0, burde svare til antallet af personer,
der har gået et payoff på 20
Hvis spilleren vælger B, er vedkommende sikret et positivt payoff – enten et payoff på 7 eller et
payoff på 20 afhængigt af, hvad den anden spiller vælger. Ydermere kan spilleren få det største
payoff (dermed 20) ved at vælge B, samt det største ”mindste” payoff (dermed 7)
Payoff over tid, dermed hvis spillet udføres gentagne gange, højere, hvis spillerne er kooperative og
begge vælger A. Det er imidlertid tiltrækkende for den anden spiller at snyde, ved at personen
vælger B, idet dette giver et payoff på 20
Hvis spillet imidlertid ikke foregår ved, at spillerne beslutter simultant, vil fordelingen af resultatet
være anderledes. Efter spiller 1 har truffet en beslutning, kan spiller 2 vurdere, hvilken beslutning
der giver det højeste payoff
-
Spiller 1 vælger A: spiller 2 kan vælge A, der giver et payoff på 10 for begge spillere, eller
B, der giver et payoff på 20 for spiller 2 og et payoff på 0 for spiller 1 (spiller 2 vælger B)
-
Spiller 1 vælger B: spiller 2 kan vælge A, der giver et payoff på 0 for spiller 2 og et payoff
på 20 for spiller 1, eller B, der giver et payoff på 7 for begge spillere (spiller 2 vælger B)
Uanset hvad spiller 1 vælger, får spiller 2 et højere payoff ved at vælge B – dermed er B den strengt
dominerende strategi
Spiller 2
Spiller 1
A
B
A
(10,10)
(0,20)
B
(20,0)
(7,7)
5
-
B strengt dominerer A for begge spillere
-
A er strengt domineret af B for begge spillere
Hvis spiller 2 vælger først, kan spiller 1 vurdere, hvilken beslutning der giver det højeste payoff,
efter spiller 2 har truffet en beslutning (på tilsvarende måde som tidligere)
-
Spiller 2 vælger A: spiller 1 kan vælge A, der giver et payoff på 10 for begge spillere, eller
B, der giver et payoff på 20 for spiller 1 og et payoff på 0 for spiller 2 (spiller 1 vælger B)
-
Spiller 2 vælger B: spiller 1 kan vælge A, der giver et payoff på 0 for spiller 1 og et payoff
på 20 for spiller 2, eller B, der giver et payoff på 7 for begge spillere (spiller 1 vælger B)
Antagelse i spilteori: spillerne er rationelle
-
Spilleren kan udregne alt, dermed overskue alle problemer og overskue, hvilken strategi der
giver det højeste payoff (den optimale strategi)
-
Spilleren er egoistisk – derved ønsker spilleren at maksimere sit eget payoff uden at tænke
over, hvordan dette påvirker andre spillere
En rationel spiller vil aldrig vælge en strengt domineret strategi – i ovenstående spil vil spillerne
dermed ende med payoff (7,7). Spillerne vil imidlertid være stillet bedre ved begge at vælge A, idet
payoff er (10,10) – dermed er payoff (7,7) ikke Pareto efficient/Pareto-optimalt
-
Pareto efficient: nogle spillere kan stilles bedre, uden at andre spillere kan stilles dårligere
Udfaldet (B,B) er ikke Pareto efficient, da dette udfald er Pareto domineret af udfaldet (A,A)
– dermed er udfaldet (A,A) Pareto efficient, da det er umuligt at stille den ene spiller bedre uden at
stille den anden dårligere. Udfaldet (A,B) og udfaldet (B,A) er yderligere Pareto efficiente
-
Fairness: payoff i disse punkter er ikke fair, men imidlertid efficiente, da man ikke kan flytte
til andre udfald uden at skade andre
Det er svært at gå fra udfaldet (B,B) til udfaldet (A,A). Hvis spillerne mødes før spillet og aftaler at
vælge A, da dette giver et payoff på (10,10), er det tiltrækkende for begge spillere at snyde ved at
vælge B, da dette kan give et payoff på 20
-
Punktet (A,A) er dermed ikke stabilt, da spiller 1 ønsker at afvige til punktet (B,A), og
spiller 2 ønsker at afvige til punktet (A,B)
-
Punktet (B,B) er stabilt, da spillerne ikke ønsker at afvige til andre punkter
Nash-ligevægt: en Nash-ligevægt er et stabilt punkt i spillet
6
Man tager atter udgangspunkt i det første spil:
Spiller 2
Spiller 1
A
B
A
(10,10)
(0,20)
B
(20,0)
(7,7)
Nash-ligevægte kan findes ved at understrege – en understregning betyder, at spilleren ikke vil
afvige, dermed vil spilleren gerne forblive i det payoff
I punktet (10,10) ønsker spiller 1 at afvige til punktet (20,0), og spiller 2 ønsker at afvige til punktet
(0,20), da dette øger payoff fra 10 til 20
-
I punktet (20,0) ønsker spiller 2 imidlertid at afvige
-
I punktet (0,20) ønsker spiller 1 imidlertid at afvige
I punktet (7,7) ønsker hverken spiller 1 eller spiller 2 at afvige, da payoff falder fra 7 til 0, hvis
spiller 1 eksempelvis ændrer strategi ved at vælge A – spiller 1 vil gerne vælge B, givet at spiller 2
vælger B (og omvendt)
-
Punktet (7,7) er en Nash-ligevægt, da dette er et stabilt punkt i spillet
Spil, lejlighedsbygning
Man forsimpler spillet ved at antage, at der blot bor to personer i bygningen med lejligheder. Man
forsimpler endvidere spillet ved at antage, at spilleren kan vælge mellem to muligheder (strategier)
Strategi 1: man passer på fællesarealerne i bygningen
Strategi 2: man er ligeglad med fællesarealerne i bygningen
Spiller 2
Spiller 1
Passe på
Være ligeglad
4,4
0,0
Være ligeglad 0,0
0,0
Passe på
Hvis spiller 2 vælger at passe på fællesarealerne, er det optimalt for spiller 1 også at passe på
fællesarealerne, da dette giver et payoff på 4. Hvis spiller 2 vælger at være ligeglad med
fællesarealerne, kan spiller 1 vælge begge strategier, da payoff er 0 – man understreger dermed
payoff 4, payoff 0 og payoff 0 for spiller 1
Hvis spiller 1 vælger at passe på fællesarealerne, er det optimalt for spiller 2 også at passe på
fællesarealerne, da dette giver et payoff på 4. Hvis spiller 1 vælger at vælge ligeglad med
7
fællesarealerne, kan spiller 2 vælge begge strategier, da payoff er 0 – man understreger dermed
payoff 4, payoff 0 og payoff 0 for spiller 2
Nash-ligevægtene i dette spil er punktet (4,4) og punktet (0,0). Givet at den ene spiller passer på
fællesarealerne i bygningen, vil den anden spiller passe på fællesarealerne. Omvendt vil den anden
spiller være ligeglad med fællesarealerne i bygningen, giver at den ene spiller er ligeglad med
fællesarealerne
Punktet (4,4) er både Pareto efficient/Pareto-optimalt og stabilt (derved en Nash-ligevægt), da man
ikke kan stille nogen bedre uden at stille andre dårligere
-
Et udfald kan være Pareto efficient uden at være en Nash-ligevægt
-
Et udfald kan være en Nash-ligevægt uden at være Pareto efficient
Stabilitet: et udfald er en Nash-ligevægt, hvis hver spiller vælger den optimale strategi givet
strategierne, de andre spillere har valgt. Dermed vil ingen spiller skifte sin strategi givet strategierne
af de andre spillere
Efficiens: et udfald er Pareto efficient, hvis det er umuligt at stille nogen bedre (ved at ændre
strategi, dermed flytte til et nyt udfald) uden at stille andre dårligere
Spil, et lands værdi
Man har et bestemt land, hvor alle bygninger, alt velfærd og yderligere svarer til $100. Landet har
100 indbyggere, der skal fordele de $100. De $100 kan fordeles (unfair) ved, at spiller 1 får $100,
mens alle andre spillere (indbyggere) får $0:
Spiller 1
$100
Spiller 2
0
โ‹ฎ
โ‹ฎ
Spiller 100
0
-
Dette udfald er Pareto efficient, da det umuligt at stille nogen indbyggere bedre uden at stille
andre indbyggere dårligere – spiller 1 bliver stillet dårligere, hvis udfaldet ændres
-
Dette udfald er ikke fair, da landets værdi blot tilhører én indbygger ud af 100
Spil, fangernes dilemma (prisoner’s dilemma)
Agenterne, spiller 1 og spiller 2, i dette spil er kriminelle, som har begået en stor forbrydelse og en
mindre forbrydelse. Politiet har kun beviser nok til at sætte de kriminelle i fængsel for den mindre
8
forbrydelse. Politiet placerer de to fanger i separate celler for at afhøre dem, da de ønsker at presse
dem til at sladre om den anden. Fangerne kan vælge mellem to strategier:
Strategi 1: tie
Strategi 2: sladre
Spiller 2
Spiller 1
tie
sladre
tie
-1,-1
-9,0
sladre
0,-9
-5,-5
Hvis spiller 2 vælger at tie, er det optimalt for spiller 1 at sladre, da dette giver et payoff på 0. Hvis
spiller 2 vælger at sladre, er det optimalt for spiller 1 også at sladre, da dette giver et payoff på -5
Hvis spiller 1 vælger at tie, er det tilsvarende optimalt for spiller 2 at sladre, da dette giver et payoff
på 0. Hvis spiller 1 vælger at sladre, er det tilsvarende optimalt for spiller 2 også at sladre, da dette
giver et payoff på -5
-
Derved er ”at sladre” den strengt dominerende strategi for begge spillere i dette spil
Nash-ligevægten i dette spil er punktet (-5,-5). Givet at den ene spiller sladrer, vil den anden spiller
også sladre (stabilt punkt)
Punktet (-1,-1), punktet (-9,0) og punktet (0,-9) er Pareto efficiente, da en spiller ikke kan stilles
bedre uden at stille den anden spiller dårligere
VIDEO 1: Kardinale og ordinale nytteværdier
Payoff/nytteværdier kan være af to forskellige typer: ordinale og kardinale
Ordinale: payoff/nytten har ingen fortolkning, dermed ingen betydning – man kan sammenligne
nytten i to forskellige udfald. Hvis det ene udfald eksempelvis har et payoff på 8, og det andet
udfald har et payoff på 4, kan man sige, at det første udfald er foretrukket fremfor det andet udfald,
da 8 er bedre end 4. Man kan imidlertid ikke sige, hvor meget det ene udfald er foretrukket fremfor
det andet – dermed kan man ikke sige, at det første udfald er dobbelt så godt som det andet udfald.
Ordinale payoffs kan transformeres på flere forskellige måder, da payoff/nytten ikke har nogen
fortolkning
Kardinale: payoff/nytten har en bestemt fortolkning. Hvis nytten eksempelvis er et bestemt
kronebeløb, kan nytteværdien på 5 (derved 5 kroner) sammenlignes med en nytteværdi på 8 eller en
nytteværdi på 10 – det tredje udfald med en nytteværdi på 10 er foretrukket. Man kan sige, at det
tredje udfald er dobbelt så godt som det første udfald, hvor nytteværdien er 5
9
VIDEO 2: Battle of the sexes, matching pennies
Spil, battle of the sexes
I dette spil skal agenterne, spiller 1 og spiller 2, på date med hinanden. Spillerne kan vælge mellem
to strategier:
Strategi 1: se opera
Strategi 2: se boksekamp (fight)
Spiller 2
Spiller 1
-
opera
fight
opera
2,1
0,0
fight
0,0
1,2
Spiller 1 foretrækker at se opera, mens spiller 2 foretrækker at se boksekamp
Hvis spiller 2 vælger at se opera, er det optimalt for spiller 1 også at se opera, da dette giver et
payoff på 2. Hvis spiller 2 vælger at se boksekamp, vil det tilsvarende være optimalt for spiller 1
også at se boksekamp, da dette giver et payoff på 1 – man understreger dermed payoff 2 og payoff 1
for spiller 1.
Hvis spiller 1 vælger at se opera, er det optimalt for spiller 2 også at se opera, da dette giver et
payoff på 1. Hvis spiller 1 vælger at se boksekamp, vil det tilsvarende være optimalt for spiller 2
også at se boksekamp, da dette giver et payoff på 2 – man understreger dermed payoff 1 og payoff 2
for spiller 3.
Nash-ligevægtene i dette spil er punktet (2,1) og punktet (1,2). Givet at den ene spiller vælger at se
opera, vil den anden spiller se opera. Omvendt vil den anden spiller se boksekamp, givet at den ene
spiller vælger at se boksekamp.
Punktet (2,1) og punktet (1,2) er både Pareto efficiente/Pareto-optimale og stabile (derved Nashligevægte), da man ikke kan stille nogen bedre uden at stille andre dårligere
Spil, matching pennies (zero sum game)
Agenterne, spiller 1 og spiller 2, i dette spil har hver især en mønt. Spillerne kan vælge mellem to
strategier (bemærk: spillerne kaster ikke mønterne, men vælger en side):
Strategi 1: vælg krone
Strategi 2: vælg plat
10
Spiller 2
Spiller 1
-
krone
plat
krone
-1,1
1,-1
plat
1,-1
-1,1
Spiller 1 foretrækker forskellige sider (krone/plat, plat/krone), mens spiller 2 foretrækker
ens sider (krone/krone, plat/plat). Spilleren henholdsvis vinder eller taber 1 krone
Hvis spiller 2 vælger krone, er det optimalt for spiller 1 at vælge plat, da dette giver et payoff på 1.
Hvis spiller 2 vælger plat, er det optimalt for spiller 1 at vælge krone, da dette tilsvarende giver et
payoff på 1 – man understreger dermed payoff 1 og payoff 1 for spiller 1.
Hvis spiller 1 vælger krone, er det optimalt for spiller 2 også at vælge krone, da dette giver et payoff
på 1. Hvis spiller 1 vælger plat, er det tilsvarende optimalt for spiller 2 at vælge plat, da dette giver
et payoff på 1 – man understreger dermed payoff 1 og payoff 1 for spiller 2.
Dette spil har ingen stabile punkter, dermed Nash-ligevægte, i rene strategier (man lærer senere om
blandede strategier), da én spiller ønsker at afvige i alle udfald (taberen vil afvige)
-
Ren strategi: man vælger enten krone eller plat – dermed vælger man en bestemt
strategi/action ud fra de mulige strategier
-
Blandet strategi: man kunne eksempelvis vælge strategi tilfældigt, selvom man foretrækker
en strategi – en computer kunne vælge tilfældigt
Alle udfald er Pareto efficiente, da man ikke kan stille nogen bedre uden at stille andre dårligere
Zero sum games er en klasse af spil, hvor den ene spiller vinder, og den anden spiller taber –
dermed er det samlede payoff (summen) for spillerne 0
VIDEO 3: IESDS
Spil, iterativ elimination af strengt dominerede strategier (iterative elimination of strictly
dominated strategies)
Man antager i spilteori, at spillerne er rationelle – dermed vil spillerne ikke vælge en strengt
domineret strategi. Ideen bag IESDS er at fjerne strengt dominerede strategier grundet rationelle
spillere.
Spiller 2
Spiller 1
left
middle
right
up
1,0
1,2
0,1
down
0,3
0,1
2,0
11
Hvis spiller 2 vælger left, er det optimalt for spiller 1 at vælge up, da dette giver et payoff på 1. Hvis
spiller 2 vælger middle, er det optimalt for spiller 1 at vælge up, da dette giver et payoff på 1. Hvis
spiller 2 vælger right, er det optimalt for spiller 1 at vælge down, da dette giver et payoff på 2 – man
understreger dermed payoff 1, payoff 1 og payoff 2 for spiller 1.
For spiller 1 har man ingen strengt dominerede strategier – i nogle tilfælde er det bedst at vælge up,
i andre tilfælde er det bedst at vælge down (spiller 1 foretrækker ikke nogen strategi)
Hvis spiller 1 vælger up, er det optimalt for spiller 2 at vælge middle, da dette giver et payoff på 2.
Hvis spiller 1 vælger down, er det optimalt for spiller 2 at vælge left, da dette giver et payoff på 3 –
man understreger dermed payoff 2 og payoff 3 for spiller 2.
For spiller 2 er right strengt domineret af middle – spiller 2 vil aldrig vælge right, hvis
vedkommende kan vælge middle, da middle giver et strengt højere payoff (hvis middle er mulig, vil
man aldrig vælge right). Med IESDS kan man dermed fjerne strategien right, hvis man antager, at
spillet er komplet information:
Spiller 2
Spiller 1
left
middle
up
1,0
1,2
down
0,3
0,1
For spiller 1 er down strengt domineret af up – spiller 1 vil aldrig vælge down, hvis vedkommende
kan vælge up, da up giver et strengt højere payoff. Med IESDS fjernes strategien:
Spiller 2
Spiller 1
up
left
middle
1,0
1,2
For spiller 2 er left strengt domineret af middle – spiller 2 vil aldrig vælge left, hvis vedkommende
kan vælge middle, da middle giver et strengt højere payoff. Med IESDS fjernes strategien:
Spiller 2
middle
Spiller 1
up
1,2
I dette spil ender man i et enkelt udfald (1,2), som er Nash-ligevægten
Sætning: i processen med IESDS vil man aldrig fjerne Nash-ligevægte i spillet – dermed vil Nashligevægte overleve processen
12
Sætning: hvis processen med IESDS fjerner alle udfald bortset fra ét, vil det sidste udfald være den
unikke Nash-ligevægt i spillet – dermed er udfaldet (1,2) i ovenstående spil den unikke Nashligevægt
Spil, lejlighedsbygning (igen, svagt domineret strategi)
Der bor to personer i bygningen med lejligheder, og spillerne kan vælge mellem to strategier:
Strategi A: man passer på fællesarealerne i bygningen
Strategi B: man er ligeglad med fællesarealerne i bygningen
Spiller 2
Spiller 1
A
B
A
1,1
0,0
B
0,0
0,0
Nash-ligevægtene i spillet er udfaldet (1,1) og udfaldet (0,0).
Strategi A strengt dominerer ikke strategi B for spillerne, da spiller 1 eksempelvis er indifferent
mellem at vælge strategi A eller strategi B, hvis spiller 2 vælger strategi B, da payoff er det samme.
På tilsvarende måde er spiller 2 indifferent mellem at vælge strategi A eller strategi B, hvis spiller 1
vælger strategi B – dette betyder, at strategi B er svagt domineret af strategi A (man får enten større
payoff eller det samme payoff)
-
En svagt domineret strategi må ikke fjernes med IESDS
VIDEO 4: Det formelle og key points
Spillere: generelt kan spillere betegnes alt – virksomheder kan betegnes virksomhedsnavne,
personer kan betegnes navne osv. Imidlertid er det almindeligt at betegne spillere med numrene
1,2,3,4, … , ๐‘›
Sættet, som indeholder alle spillere, er følgende:
๐‘ = {1,2,3,4, … , ๐‘›}
Antallet af elementer, dermed spillere, i N er |๐‘| = ๐‘›
Strategier og actions: i det ovenstående (kapitel 1) er strategi og action det samme – en strategi er at
vælge en action. Eksempelvis i spillet matching pennies kan man vælge mellem plat eller krone –
disse er to forskellige actions. En strategi i dette spil er at vælge enten plat eller krone, derved vælge
13
en action. I kommende kapitaler er strategi og action ikke det samme, da en strategi skal beskrive,
hvad spilleren skal gøre i alle steps (dynamiske spil) – disse steps har forskellige actions
Hver enkelt spiller har et strategirum (strategy space), der eksempelvis kan skrives på følgende
måde for spiller 1 i spillet opera/fight (battle of the sexes):
๐‘†1 = {๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก}
Spillerens strategirum er dermed sættet af alle mulige rene strategier. Idet spiller 2 har samme
strategier som spiller 1 i spillet opera/fight, kan man skrive
๐‘†1 = {๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก} = ๐‘†2
Strategien, som eksempelvis spiller 1 har udvalgt fra strategirummet, betegnes ๐‘ 1 (dermed ๐‘ 1 ∈ ๐‘†1).
På tilsvarende måde betegner ๐‘ 2 den strategi, som spiller 2 har udvalgt, ๐‘ 3 den strategi, som spiller 3
har udvalgt, ๐‘ 4 den strategi, som spiller 4 har udvalgt osv.
(๐‘ 1 , ๐‘ 2 , ๐‘ 3 , ๐‘ 4 , … , ๐‘ ๐‘› )
Payoff: strategier, som udvælges af spillerne, kan benyttes til se payoffs. Hvis ovenstående bliver
spillets udfald, er payoff til spiller 1 eksempelvis:
๐‘ข1 (๐‘ 1 , ๐‘ 2 , ๐‘ 3 , ๐‘ 4 , … , ๐‘ ๐‘› )
Tilsvarende er payoff til spiller 2:
๐‘ข2 (๐‘ 1 , ๐‘ 2 , ๐‘ 3 , ๐‘ 4 , … , ๐‘ ๐‘› )
I spillet opera/fight er payoff for spiller 2, hvis spiller 1 vælger opera, og spiller 2 vælger fight:
๐‘ข2 (๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก) = 0
Payoff for spiller 1, hvis spiller 1 vælger fight, og spiller 2 også vælger fight, er:
๐‘ข1 (๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘“๐‘–๐‘”โ„Ž๐‘ก) = 1
Definition: et spil på normalform med n spillere specificerer spillernes strategirum ๐‘†1 , … , ๐‘†๐‘› og
spillernes payoff funktioner ๐‘ข1 , … , ๐‘ข๐‘› . Dette spil betegnes
๐บ = {๐‘†1 , … , ๐‘†๐‘› ; ๐‘ข1 , … , ๐‘ข๐‘› }
Definition, domineret strategi: i et spil på normalform ๐บ = {๐‘†1 , … , ๐‘†๐‘› ; ๐‘ข1 , … , ๐‘ข๐‘› } betegner ๐‘ ๐‘–′ og ๐‘ ๐‘–′′
mulige strategier for spiller i (dermed ๐‘ ๐‘–′ , ๐‘ ๐‘–′′ ∈ ๐‘†๐‘– ). Strategien ๐‘ ๐‘–′ er strengt domineret af strategien
๐‘ ๐‘–′′ , hvis spiller i’s payoff fra ๐‘ ๐‘–′ er strengt mindre end spiller i’s payoff fra ๐‘ ๐‘–′′ for alle mulige
kombinationer af andre spilleres strategier. Dermed
๐‘ข๐‘– (๐‘ 1 , … , ๐‘ ๐‘–−1 , ๐‘ ๐‘–′ , ๐‘ ๐‘–+1 , … , ๐‘ ๐‘› ) < ๐‘ข๐‘– (๐‘ 1 , … , ๐‘ ๐‘–−1 , ๐‘ ๐‘–′′ , ๐‘ ๐‘–+1 , … , ๐‘ ๐‘› )
14
for alle (๐‘ 1 , … , ๐‘ ๐‘–−1 , ๐‘ ๐‘–+1 , … , ๐‘ ๐‘› ), der kan konstrueres fra andre spilleres strategirum
๐‘†1 , … , ๐‘†๐‘–−1 , ๐‘†๐‘–+1 , … , ๐‘†๐‘›
Definition, Nash-ligevægt: i et spil på normalform med n spillere ๐บ = {๐‘†1 , … , ๐‘†๐‘› ; ๐‘ข1 , … , ๐‘ข๐‘› } er
strategierne (๐‘ 1∗ , … , ๐‘ ๐‘›∗ ) en Nash-ligevægt, hvis strategien ๐‘ ๐‘–∗ for enhver spiller ๐‘– er spillerens bedste
strategi at vælge (enten højere payoff eller samme payoff) til strategier specificeret for de ๐‘› − 1
∗
∗
andre spillere (๐‘ 1∗ , … , ๐‘ ๐‘–−1
, ๐‘ ๐‘–+1
, … , ๐‘ ๐‘›∗ ). Dermed
∗
∗
∗
∗
๐‘ข๐‘– (๐‘ 1∗ , … , ๐‘ ๐‘–−1
, ๐‘ ๐‘–∗ , ๐‘ ๐‘–+1
, … , ๐‘ ๐‘›∗ ) ≥ ๐‘ข๐‘– (๐‘ 1∗ , … , ๐‘ ๐‘–−1
, ๐‘ ๐‘– , ๐‘ ๐‘–+1
, … , ๐‘ ๐‘›∗ )
for enhver mulig strategi ๐‘ ๐‘– i strategirummet ๐‘†๐‘– . Strategien ๐‘ ๐‘–∗ løser dermed
∗
∗
max ๐‘ข๐‘– (๐‘ 1∗ , … , ๐‘ ๐‘–−1
, ๐‘ ๐‘– , ๐‘ ๐‘–+1
, … , ๐‘ ๐‘›∗ )
๐‘ ๐‘– ∈๐‘†๐‘–
Centrale pointer
-
En rationel spiller vil aldrig vælge en strengt domineret strategi – man antager i spilteori, at
alle spillere er rationelle
-
En Nash-ligevægt (NE) er et stabilt punkt i spillet, der ikke nødvendigvis er Pareto
efficient/Pareto-optimalt
-
Nash-ligevægte vil altid overleve IESDS
-
Hvis IESDS eliminerer alle udfald undtagen ét, er dette udfald den unikke Nash-ligevægt
-
I ethvert endeligt statisk spil (finite static game) – med et endeligt antal spillere, strategirum
med et endeligt antal elementer/strategier og komplet information, hvor spillerne vælger én
gang og simultant – findes der mindst en Nash-ligevægt, muligvis i blandede strategier
VIDEO 5: Cournot duopol
Spil, Cournot model
Agenterne i dette spil er to firmaer, som sælger identiske produkter – dermed er forbrugerne
indifferente mellem firmaerne. Firmaerne skal vælge antallet af produkter, de vil producere – spiller
1 vælger dermed ๐‘ž1 , og spiller 2 vælger ๐‘ž2 (spillerne vælger simultant, derved uden at observere
den andens strategi). Det samlede antal produkter, der produceres af firmaerne, er ๐‘„ = ๐‘ž1 + ๐‘ž2 .
Efterspørgselsfunktionen er givet ved ๐‘ƒ = ๐‘Ž − ๐‘„. Den strategiske interaktion kommer i spil, idet en
ekstra produceret enhed – enten fra spiller 1 eller spiller 2 – reducerer prisen på produktet for begge
spillere – dermed afhænger prisen på produktet af det samlede antal af produkter på markedet.
Efterspørgselsfunktionen skitseres:
15
Det fremgår af skitsen, at prisen på produktet falder med 1, når der produceres 1 ekstra enhed.
Omkostningen ved at producere en enhed af produktet er c. Spillernes strategirum er defineret ved
๐‘†1 = ๐‘†2 = [0, ∞)
Dermed er dette spil ikke et endeligt statisk spil, da spillernes strategirum ikke har et endeligt antal
elementer/strategier. Payoffs er defineret ved
๐œ‹๐‘– (๐‘ž๐‘– , ๐‘ž๐‘— ) = (๐‘Ž − ๐‘„) · ๐‘ž๐‘– − ๐‘ · ๐‘ž๐‘–
Dermed er payoff for spiller i givet ved spiller i’s totale indtægter (๐‘Ž − ๐‘„) · ๐‘ž๐‘– (total revenue, TR)
minus spiller i’s totale omkostninger ๐‘ · ๐‘ž1 (total cost, TC)
For at finde den unikke Nash-ligevægt, skal hver spiller maksimere deres payoff givet den anden
spillers strategi. Spiller 1’s payoff maksimeres:
๐œ‹1 = (๐‘Ž − ๐‘„) · ๐‘ž1 − ๐‘ · ๐‘ž1
= (๐‘Ž − ๐‘ž1 − ๐‘ž2 )๐‘ž1 − ๐‘๐‘ž1
= ๐‘Ž๐‘ž1 − ๐‘ž12 − ๐‘ž1 ๐‘ž2 − ๐‘๐‘ž1
Man differentierer profitfunktionen:
๐‘‘๐œ‹1
= ๐‘Ž − 2๐‘ž1 − ๐‘ž2 − ๐‘ = 0
๐‘‘๐‘ž1
Man isolerer ๐‘ž1 :
2๐‘ž1 = ๐‘Ž − ๐‘ž2 − ๐‘
๐‘Ž−๐‘ 1
− ๐‘ž2
2
2
Dette udtryk er spiller 1’s reaktionsfunktion ๐‘…1 (๐‘ž2 ) – dermed spiller 1’s reaktionsfunktion som
๐‘ž1 =
funktion af ๐‘ž2 . Funktionen viser, hvordan spiller 1 skal reagere for at maksimere sit payoff. Antager
man eksempelvis, at spiller 2 producerer 10 enheder af produktet, dermed ๐‘ž2 = 10, skal spiller 1
producere
16
๐‘Ž−๐‘ 1
๐‘Ž−๐‘
− · 10 =
−5
2
2
2
enheder for at maksimere sit payoff. Reaktionsfunktionen viser dermed, hvordan spiller 1 skal
๐‘ž1 =
reagere, når spiller 2’s antal producerede enheder ๐‘ž2 afsløres
Grundet symmetri i spillet opskrives spiller 2’s reaktionsfunktion ๐‘…2 (๐‘ž1 ) på tilsvarende måde:
๐‘Ž−๐‘ 1
− ๐‘ž1
2
2
Reaktionsfunktionerne skitseres og Nash-ligevægten markeres:
๐‘ž2 =
Det eneste punkt, hvor ingen af spillerne ønsker at afvige, er skæringspunktet mellem
reaktionsfunktionerne ๐‘…1 (๐‘ž2 ) og ๐‘…2 (๐‘ž1 ). Ved alle andre punkter på funktionen for ๐‘…1 (๐‘ž2 ) ønsker
spiller 2 at afvige, mens spiller 1 ikke ønsker at afvige. Tilsvarende ønsker spiller 1 at afvige, mens
spiller 2 ikke ønsker at afvige ved alle andre punkter på funktionen for ๐‘…2 (๐‘ž1 )
-
Bemærk: i Nash-ligevægten producerer firmaerne lige mange enheder grundet symmetri i
spillet – dette fremgår imidlertid ikke at skitsen, da denne ikke er skitseres symmetrisk
Skæringspunktet kan findes ved at løse ligningen:
๐‘…1 (๐‘ž2 ) = ๐‘…2 (๐‘ž1 )
๐‘Ž−๐‘ 1
๐‘Ž−๐‘ 1
− ๐‘ž2 =
− ๐‘ž1
2
2
2
2
Idet spillet er symmetrisk, ved man, at spillerne producerer lige mange enheder af produkter i Nashligevægten. Dermed
๐‘ž1 = ๐‘ž2
๐‘ž1 =
๐‘Ž−๐‘ 1
๐‘Ž−๐‘ 1
− ๐‘ž2 =
− ๐‘ž1
2
2
2
2
๐‘Ž−๐‘
1,5๐‘ž1 =
2
๐‘Ž
3๐‘ž1 =
๐‘
17
๐‘ž1∗ =
๐‘Ž−๐‘
3
๐‘ž2∗ =
๐‘Ž−๐‘
3
Tilsvarende for ๐‘ž2 grundet symmetri:
Ovenstående er dermed antallet af producerede enheder for henholdsvis spiller 1 og spiller 2 i Nashligevægten. Dette indskrives på skitsen:
Den unikke Nash-ligevægt skrives som
(๐‘ž1∗ , ๐‘ž2∗ ) = (
๐‘Ž−๐‘ ๐‘Ž−๐‘
,
)
3
3
Prisen, som forbrugerne betaler i Nash-ligevægten, er
๐‘ƒ = ๐‘Ž − ๐‘„ = ๐‘Ž − ๐‘ž1∗ − ๐‘ž2∗ = ๐‘Ž −
๐‘Ž − ๐‘ ๐‘Ž − ๐‘ ๐‘Ž + 2๐‘
−
=
3
3
3
Setuppet i dette spil er interessant, da firmaerne bestemmer antallet af producerede enheder,
hvorefter markedet vurderer, om prisen skal hæves eller sænkes. I et normalt setup foregår det
således, at firmaerne sætter priserne, mens markedet bestemmer efterspørgslen – dermed antallet af
enheder, firmaerne skal producere til den fastsatte pris.
I Cournot modellen (derved dette spil) er setuppet således, at firmaerne bestemmer antallet af
producerede enheder, og markedet efterfølgende ”fortæller” prisen. Eksempler på Cournot er blandt
andet olie – en større mængde olie på markedet betyder en lavere pris for forbrugerne, dermed en
lavere indtægt for alle producenter på markedet. Et andet eksempel er fisk, hvor forskellige skibe
fra forskellige lande er producenterne, og markedet bestemmer prisen ud fra antallet af enheder
18
FORELÆSNING 2
Examples, Nash equilibria:
Traffic, simple game:
There are two players: ๐‘†1 = ๐‘†2 = {"๐‘™๐‘’๐‘“๐‘ก ๐‘ ๐‘–๐‘‘๐‘’", "๐‘Ÿ๐‘–๐‘”โ„Ž๐‘ก ๐‘ ๐‘–๐‘‘๐‘’"}
The preferences of both players:
-
Collide with another car (payoff −1)
-
Stay out of the accidents (payoff 1)
Crossing on red, simple game:
There are two players: a car driver and a pedestrian
The preferences of the car driver:
-
Drive fast and stay safe (payoff 1)
-
Drive slowly and stay safe (payoff 0)
-
Run someone over (payoff −1)
The preferences of the pedestrian:
-
Cross on red and stay safe (payoff 1)
-
Wait for green and stay safe (payoff 0)
19
-
Get hit by a car (payoff −1)
Posters for election, simple game:
There are two candidates: ๐‘†1 = ๐‘†2 = {"๐‘๐‘œ๐‘ ๐‘ก๐‘’๐‘Ÿ", "๐‘›๐‘œ ๐‘๐‘œ๐‘ ๐‘ก๐‘’๐‘Ÿ"}
-
If both candidates choose not to use posters, there is an equal chance of winning and the
payoff is 2 to each player
-
If both candidates choose to use posters, there is still an equal chance of winning, but with
extra costs, and the payoff is 1 to each player
-
If one candidate chooses to use posters, while the other candidate doesn’t, the candidate with
posters wins for sure (the candidate’s payoff is 3), while the candidate without posters loses
for sure (the candidate’s payoff is 0)
The preferences of both candidates:
-
Win for sure (payoff 3)
-
Have a 50% chance of winning when not spending money on posters (payoff 2)
-
Have a 50% chance of winning when spending money on posters (payoff 1)
-
Lose for sure (payoff 0)
Mixed strategies
Mixed strategies are a probability distribution over the pure strategies
Definition: in the normal-form game ๐บ = {๐‘†1 , … , ๐‘†๐‘› ; ๐‘ข1 , … , ๐‘ข๐‘› }, suppose ๐‘†๐‘– = {๐‘†๐‘–1 , … , ๐‘†๐‘–๐พ }. Then a
mixed strategy for player ๐‘– is a probability distribution ๐‘๐‘– = (๐‘๐‘–1 , … , ๐‘๐‘–๐พ ), where 0 ≤ ๐‘๐‘–๐‘˜ ≤ 1 for
๐‘˜ = 1, … , ๐พ and ๐‘๐‘–1 + โ‹ฏ + ๐‘๐‘–๐พ = 1
20
Example, rock, paper, scissors:
There are three players: ๐‘†1 = ๐‘†2 = {๐‘Ÿ๐‘œ๐‘๐‘˜, ๐‘ ๐‘๐‘–๐‘ ๐‘ ๐‘œ๐‘Ÿ๐‘ , ๐‘๐‘Ž๐‘๐‘’๐‘Ÿ}
For example:
-
(0.5; 0.5; 0): rock and scissors with equal probabilities, never paper
-
(1; 0; 0): rock (that is, a pure strategy can also be stated as a mixed strategy)
What if the other players play (1/3; 1/3; 1/3)?
-
When player 2 plays (1/3; 1/3; 1/3), player 1 will have an expected payoff 0 regardless of
the chosen strategy (pure or mixed)
-
((1/3; 1/3; 1/3), (1/3; 1/3; 1/3)) is a Nash equilibrium in mixed strategies
Example, doping:
There are two players: ๐‘†1 = ๐‘†2 = {๐‘‘๐‘œ๐‘๐‘–๐‘›๐‘”, ๐‘›๐‘Ž๐‘ก๐‘ข๐‘Ÿ๐‘Ž๐‘™} and the goal is to win
21
-
“Doping” is a strictly dominant strategy (when only taking the outcome of the competition
into consideration)
-
(๐‘‘๐‘œ๐‘๐‘–๐‘›๐‘”, ๐‘‘๐‘œ๐‘๐‘–๐‘›๐‘”) is the unique Nash equilibrium
There is introduced a player 3, the International Olympic Committee: ๐‘†3 =
{"๐‘โ„Ž๐‘’๐‘๐‘˜ ๐‘๐‘™๐‘Ž๐‘ฆ๐‘’๐‘Ÿ 1"; "๐‘โ„Ž๐‘’๐‘๐‘˜ ๐‘๐‘™๐‘Ž๐‘ฆ๐‘’๐‘Ÿ 2"} and the goal is to find a cheater
Suppose that player 3’s strategy is (0.5; 0.5):
If player 3’s strategy is (0.5; 0.5), then “natural” has a higher expected payoff both for player 1 and
for player 2
22
VIDEO, BONUS: Grafisk trick til at bytte rundt på akser
Man har funktionen ๐‘ฆ = ๐‘ฅ 2 . Denne funktion skitseres:
Man kan bytte rund på akserne ved at isolere x i funktionen, dermed ๐‘ฅ = √๐‘ฆ. Denne funktion
skitseres:
Hvis den oprindelige funktion er besværlig, og man ikke nemt kan isolere x i funktionen, kan man
bruge et trick. Tricket virker imidlertid kun, hvis én værdi af x svarer til én værdi af y (positive tal).
Dette trick kan eksempelvis bruges i Cournot modellen og Bertrand modellen, hvor man har to
reaktionsfunktioner. Reaktionsfunktionen for spiller 1 kan tegnes, og reaktionsfunktionen for spiller
2 svarer til, at man bytter rund på akserne.
Tricket udføres ved at forestille, at grafen for en funktion tegnes på et glas. Man forestiller sig, at
man går bagom glasset, kigger på funktionen og lægger hovedet ned til venstre – dermed bytter man
om på akserne, og man kan se x som funktion af y, hvor det tidligere var y som funktion af x
VIDEO 1: Bertrand duopol
Modsat Cournot duopol vælger virksomhederne i Bertrand duopol ikke mængden af producerede
enheder, men priserne ๐‘1 og ๐‘2 for henholdsvis spiller 1’s produkt og spiller 2’s produkt.
Produkterne behøver ikke at være identiske, men man antager, at produkterne ligner hinanden
-
I nogle udgaver af Bertrand modellen er virksomhedernes produkter identiske
23
Efterspørgslen for virksomhed/spiller i er defineret ved:
๐‘ž๐‘– (๐‘๐‘– , ๐‘๐‘— ) = ๐‘Ž − ๐‘๐‘– + ๐‘๐‘๐‘—
0<๐‘<2
Værdien b angiver i hvor høj grad, virksomhed/spiller i’s produkt er substitut for virksomhed/spiller
j’s produkt. Hvis virksomhed ๐‘– sætter en højere pris ๐‘๐‘– , vil denne virksomhed sælge en mindre
mængde ๐‘ž๐‘– på markedet. Hvis den anden virksomhed sætter en højere pris ๐‘๐‘— , vil virksomhed i
sælge en større mængde ๐‘ž๐‘– på markedet – værdien b bestemmer, hvor meget større mængden ๐‘ž๐‘–
bliver
-
Hvis værdien b er tæt på 0, er produkterne meget forskellige. Dermed vil en forøget pris på
virksomhed j’s produkt ikke påvirke mængden af produkter, virksomhed i sælger, meget
-
Hvis værdien b er tæt på 2, er virksomhed i’s produkt i meget høj grad substitut for
virksomhed j’s produkt (og omvendt). Dermed vil en forøget pris på virksomhed j’s produkt
påvirke mængden af produkter, virksomhed i sælger, meget
Spil, Bertrand model
Agenterne i dette spil er to virksomheder, som sælger produkter, der ligner hinanden.
Virksomhederne skal vælge priserne på produkterne – spiller 1 vælger dermed ๐‘1, og spiller 2
vælger ๐‘ž2 . Omkostningen ved at producere en enhed af produktet er c for begge spillere. Spillernes
strategirum er defineret ved
๐‘†1 = ๐‘†2 = [0, ∞)
Dermed er dette spil ikke et endeligt statisk spil, da spillernes strategirum ikke har et endeligt antal
elementer/strategier. Payoff/profit for spiller 1 er defineret ved
๐œ‹1 = ๐‘ž1 · (๐‘1 − ๐‘) = (๐‘Ž − ๐‘1 + ๐‘๐‘2 )(๐‘1 − ๐‘)
Man maksimerer profitten (finder den optimale pris) ved at differentiere payoff funktionen:
๐‘‘๐œ‹1
= −(๐‘1 − ๐‘) + ๐‘Ž − ๐‘1 + ๐‘๐‘2 ) = −2๐‘1 + ๐‘ + ๐‘Ž + ๐‘๐‘2
๐‘‘๐‘1
Man løser ligningen:
−2๐‘1 + ๐‘ + ๐‘Ž + ๐‘๐‘2 = 0
2๐‘1 = ๐‘Ž + ๐‘ + ๐‘๐‘2
๐‘1 =
๐‘Ž+๐‘ 1
+ ๐‘๐‘2
2
2
Grundet symmetri i spillet kan man på tilsvarende måde maksimere profitten for spiller 2:
๐‘2 =
๐‘Ž+๐‘ 1
+ ๐‘๐‘1
2
2
24
Ovenstående udtryk er reaktionsfunktionerne for virksomhederne – dermed ๐‘…1 (๐‘2 ) for spiller 1 og
๐‘…2 (๐‘1 ) for spiller 2. Reaktionsfunktionerne viser, hvordan spillere skal reagere for at maksimere
deres payoff/profit, når den anden spillers pris afsløres.
Reaktionsfunktionerne skitseres og Nash-ligevægten markeres:
Det eneste punkt, hvor ingen af spillerne ønsker at afvige, er skæringspunktet mellem
reaktionsfunktionerne ๐‘…1 (๐‘2 ) og ๐‘…2 (๐‘1 ). Ved alle andre punkter på funktionen for ๐‘…1 (๐‘2 ) ønsker
spiller 2 at afvige, mens spiller 1 ikke ønsker at afvige. Tilsvarende ønsker spiller 1 at afvige, mens
spiller 2 ikke ønsker at afvige ved alle andre punkter på funktionen for ๐‘…2 (๐‘1 )
-
Bemærk: i Nash-ligevægten er priserne på virksomhedernes produkter ๐‘1 og ๐‘2 ens grundet
symmetri i spillet
Skæringspunktet kan findes ved at løse ligningen:
๐‘…1 (๐‘2 ) = ๐‘…2 (๐‘1 )
๐‘Ž+๐‘ 1
๐‘Ž+๐‘ 1
+ ๐‘๐‘2 =
+ ๐‘๐‘1
2
2
2
2
Idet spillet er symmetrisk, ved man, at priserne på virksomhedernes produkter er ens i Nashligevægten. Dermed
๐‘1 = ๐‘2
๐‘1 =
๐‘Ž+๐‘ 1
๐‘Ž+๐‘ 1
+ ๐‘๐‘2 =
+ ๐‘๐‘1
2
2
2
2
1
๐‘Ž+๐‘
(1 − ๐‘) ๐‘1 =
2
2
2−๐‘
๐‘Ž+๐‘
(
) ๐‘1 =
2
2
(2 − ๐‘)๐‘1 = ๐‘Ž + ๐‘
25
๐‘1 =
๐‘Ž+๐‘
2−๐‘
๐‘2 =
๐‘Ž+๐‘
2−๐‘
Tilsvarende for ๐‘2 grundet symmetri:
Ovenstående er dermed prisen på produkterne for henholdsvis spiller 1 og spiller 2 i Nashligevægten. Dette indskrives på skitsen:
Den unikke Nash-ligevægt skrives som
(๐‘1∗ , ๐‘2∗ ) = (
๐‘Ž+๐‘ ๐‘Ž+๐‘
,
)
2−๐‘ 2−๐‘
Mængden, som virksomhederne sælger i Nash-ligevægten, er:
๐‘„ = ๐‘Ž − ๐‘1∗ + ๐‘๐‘2∗ = ๐‘Ž −
๐‘Ž+๐‘
๐‘Ž+๐‘
+๐‘
2−๐‘
2−๐‘
VIDEO 2: Nash-ligevægte, flere eksempler
Spil, trafik – hvilken side?
Agenterne, spiller 1 og spiller 2, har strategirummene ๐‘†1 = ๐‘†2 = {"๐‘ฃ๐‘’๐‘›๐‘ ๐‘ก๐‘Ÿ๐‘’ ๐‘ ๐‘–๐‘‘๐‘’", "โ„Žø๐‘—๐‘Ÿ๐‘’ ๐‘ ๐‘–๐‘‘๐‘’"}.
Spillernes præferencer er følgende:
-
Køre ind i en anden bil: payoff -1
-
Ikke køre ind i andre biler: payoff 1
Payoffs i dette spil er ordinale.
Spiller 2
Venstre side
Højre side
26
Spiller 1
Venstre side
1,1
-1,-1
Højre side
-1,-1
1,1
Nash-ligevægtene i dette spil er
Spil,
Crossing on red, simple game:
There are two players: a car driver and a pedestrian
The preferences of the car driver:
-
Drive fast and stay safe (payoff 1)
-
Drive slowly and stay safe (payoff 0)
-
Run someone over (payoff −1)
The preferences of the pedestrian:
-
Cross on red and stay safe (payoff 1)
-
Wait for green and stay safe (payoff 0)
-
Get hit by a car (payoff −1)
Posters for election, simple game:
There are two candidates: ๐‘†1 = ๐‘†2 = {"๐‘๐‘œ๐‘ ๐‘ก๐‘’๐‘Ÿ", "๐‘›๐‘œ ๐‘๐‘œ๐‘ ๐‘ก๐‘’๐‘Ÿ"}
-
If both candidates choose not to use posters, there is an equal chance of winning and the
payoff is 2 to each player
27
-
If both candidates choose to use posters, there is still an equal chance of winning, but with
extra costs, and the payoff is 1 to each player
-
If one candidate chooses to use posters, while the other candidate doesn’t, the candidate with
posters wins for sure (the candidate’s payoff is 3), while the candidate without posters loses
for sure (the candidate’s payoff is 0)
The preferences of both candidates:
-
Win for sure (payoff 3)
-
Have a 50% chance of winning when not spending money on posters (payoff 2)
-
Have a 50% chance of winning when spending money on posters (payoff 1)
-
Lose for sure (payoff 0)
28
FORELÆSNING 3
The three models:
Cournot
Quantities
Stackelberg
๐‘ž1 = ๐‘ž2 =
๐‘„=2
๐‘Ž−๐‘
3
๐‘Ž−๐‘
3
๐‘Ž+2๐‘
3
Price
๐‘ƒ=
Profits
Π1 = Π2 =
Total:
๐‘ƒ=
(๐‘Ž−๐‘)2
2(๐‘Ž−๐‘)2
9
9
Collusion in Cournot
๐‘Ž−๐‘
๐‘ž๐‘™๐‘’๐‘Ž๐‘‘๐‘’๐‘Ÿ = 2
๐‘Ž−๐‘
๐‘ž๐‘“๐‘œ๐‘™๐‘™๐‘œ๐‘ค๐‘’๐‘Ÿ = 4
๐‘Ž−๐‘
๐‘„=3 4
๐‘ž1 = ๐‘ž2 =
๐‘Ž+3๐‘
4
Π๐‘™๐‘’๐‘Ž๐‘‘๐‘’๐‘Ÿ =
(๐‘Ž−๐‘)2
Total:
๐‘Ž−๐‘
2
๐‘ƒ=
๐‘Ž+๐‘
2
Π1 = Π2 =
8
Π๐‘“๐‘œ๐‘™๐‘™๐‘œ๐‘ค๐‘’๐‘Ÿ =
๐‘„=
๐‘Ž−๐‘
4
(๐‘Ž−๐‘)2
16
Total:
(๐‘Ž−๐‘)2
8
(๐‘Ž−๐‘)2
4
3(๐‘Ž−๐‘)2
16
Infinite time horizon, formula:
Let
๐‘ฅ = 1 + ๐›ฟ + ๐›ฟ 2 + ๐›ฟ 3 + โ‹ฏ = 1 + ๐›ฟ (1
โŸ + ๐›ฟ + ๐›ฟ2 + ๐›ฟ3 + โ‹ฏ )
=๐‘ฅ
Thus, one has to solve
๐‘ฅ = 1 + ๐›ฟ๐‘ฅ ↔ ๐‘ฅ =
1
1−๐›ฟ
Similarly, let
๐‘ฆ = ๐›ฟ + ๐›ฟ 2 + ๐›ฟ 3 + โ‹ฏ = ๐›ฟ (1
โŸ + ๐›ฟ + ๐›ฟ2 + ๐›ฟ3 + โ‹ฏ )
=1+๐‘ฆ
Thus, one has to solve
๐‘ฆ = (1 + ๐‘ฆ)๐›ฟ ↔ ๐‘ฆ =
๐›ฟ
1−๐›ฟ
Sequential bargaining
Consider the classical example pf sequential bargaining. There are two players (for example
children) who want to share an ice cake. The game starts in period 1, and after each period the cake
becomes smaller (discount factor 0 < ๐›ฟ < 1). Player 1 suggest a way to shake the cake in period 1.
Once the suggestion is made, player 2 can either accept (the game ends) or decline (the game
continues to the next period in which the cake becomes smaller).
29
In period 2 player 2 makes a new suggestion to player 1, who can either accept or decline. Thus,
player 1 makes the suggestion in odd periods, while player 2 makes the suggestion in even periods.
If the game reached the last period (predefined), the game stops, and the cake (of a smaller size than
in the beginning) is divided such that player 1 gets a share of 0 < ๐‘  < 1, while player 2 gets a share
of 1 − ๐‘  (the mom comes and tells how the cake should be divided)
Consider the specific case with ๐‘  = 0.5 (that is, the cake is shared equally in the end if the two
players cannot agree), ๐›ฟ = 0.9 and period 3 as the last period
-
Another example is strikes: workers and management make suggestions, and the longer the
conflict takes place, the less is the value of the firm
General case:
Strategy
A strategy is always a complete plan of action: it should specify a feasible action in every
contingency in which the player might be called on to act
Static games with complete information: the strategy should simply state which action the player is
choosing
Dynamic games with complete information: the strategy should state an action for every state in
which the player is choosing (even if the state set may never be reached)
30
Static games with incomplete information: the strategy should state which action the player is
choosing for every type he/she can be
Definitions
Definition for information set: an information set for a player is a collection of decision nodes
satisfying:
-
The player has the move at every node in the information set
-
When the play of the game reaches a node in the information set, the player with the move
doesn’t know which node in the information set has (or hasn’t) been reached
Perfect information: every information set has exactly one decision node
Imperfect information: there is at least one information set with more than one decision node –
implying that there is a player that might now observe the whole “history” of the game
Definition for subgame: a subgame in an extensive-form game
(a) begins at a decision node ๐‘› that is a singleton information set (but isn’t the game’s first
decision node)
(b) includes all the decision and terminal nodes following ๐‘› in the game tree (but no nodes that
don’t follow ๐‘›)
(c) does not cut any information sets (that is, if a decision node ๐‘›′ follows ๐‘› in the game tree,
then all other nodes in the information set containing ๐‘›′ must also follow ๐‘›, and so must be
included in the subgame)
Definition for SPNE: a Nash equilibrium is subgame-perfect (SPNE) if the players’ strategies are
Nash equilibria in all subgames
In dynamic games with complete and perfect information, an SPNE never has a strategy with a noncredible threat or irrational behavior
The strategies in an SPNE are never in conflict with backwards induction
Example 1, game with SPNE:
31
Subgame 1:
Subgame 2:
Example 2, game with SPNE:
USSR, preferences:
-
Missiles are placed in Cuba (5)
-
No changes (4)
-
US blocks Cuba with the missiles (3)
32
-
US destroys the missiles (2)
-
War when US doesn’t have the missiles (1)
-
War when US has the missiles (0)
US, preferences:
-
Get the missiles “for free” (5)
-
Destroy the missiles (4)
-
No changes (3)
-
Let USSR place the missiles in Cuba (2)
-
War when having USSR’s missiles (1)
-
War when not having the USSR’s missiles (0)
33
Example, game with multiple SPNE
An alternative version of the “battle of the sexes”: player 1 chooses first between “opera”, “fight” or
“staying home”, while player 2 observes and then chooses between “opera” and “fight”
-
Both players prefer to be together
-
Player 1 is indifferent between going to the opera or to the fight with player 2 (payoff of 2 in
both cases)
-
Player 2 strictly prefers going to the opera instead of the fight with player 1
34
SPNE (player 2 has to choose opera when player 1 chooses opera, player 2 has to choose fight
when player 1 chooses fight):
-
(๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, (๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž)) with payoffs (2,2)
-
(๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, (๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘“๐‘–๐‘”โ„Ž๐‘ก)) with payoffs (2,2)
-
(๐‘“๐‘–๐‘”โ„Ž๐‘ก, (๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž)) with payoffs (2,1)
-
(๐‘“๐‘–๐‘”โ„Ž๐‘ก, (๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘“๐‘–๐‘”โ„Ž๐‘ก)) with payoffs (2,1)
Note the following:
-
A SPNE may not be Pareto efficient
-
Player 1 could also have chosen a mixed strategy in which he/she chooses randomly
between opera and fight (same payoff) – these Nash equilibria aren’t included here
NE, but not SPNE (irrational behavior is marked with blue):
-
(๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, (๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž)) with payoffs (2,2)
-
(๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, (๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก)) with payoffs (2,2)
-
(๐‘“๐‘–๐‘”โ„Ž๐‘ก, (๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž)) with payoffs (2,1)
-
(๐‘“๐‘–๐‘”โ„Ž๐‘ก, (๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘“๐‘–๐‘”โ„Ž๐‘ก)) with payoffs (2,1)
-
(๐‘ ๐‘ก๐‘Ž๐‘ฆ โ„Ž๐‘œ๐‘š๐‘’, (๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž)) with payoffs (0,0)
-
(๐‘ ๐‘ก๐‘Ž๐‘ฆ โ„Ž๐‘œ๐‘š๐‘’, (๐‘“๐‘–๐‘”โ„Ž๐‘ก, ๐‘œ๐‘๐‘’๐‘Ÿ๐‘Ž, ๐‘“๐‘–๐‘”โ„Ž๐‘ก)) with payoffs (0,0)
In the first four Nash equilibria player 2 has irrational behavior at some information sets, but these
never get reached so both players get positive playoffs
In the last two Nash equilibria once the other player fixes a strategy that avoid one, it’s also optimal
for one to choose a strategy that avoids the other player
35
36
Download