Uploaded by Wolfgang Reséndiz

clases cide micro 2

advertisement
Microeconomı́a II ME CIDE, Primavera 2021
Teorı́a de Juegos
1
Tema 1. Juegos en forma normal
1.1
Interpretación del equilibrio de Nash.
Leer: The Nash equilibrium: a perspective
1.2
Supuestos generales y metodologı́a Capı́tulo 5, Strategy, second edition, Watson, J.
Antes de continuar con el análisis y comparar el equilibrio de Nash con otros conceptos de equilibrio, es importante hablar de los supuestos generales del modelaje
en teorı́a de juegos. Los supuestos son:
1. Racionalidad. asumimos que los jugadores actúan de acuerdo a sus preferencias. Brevemente, si las acciones de un jugador determinan, en parte, sus
resultados, este jugador elige la acción que maximiza su pago. Racionalidad no
implica que el jugador siempre quiere maximizar sus ganancias, pues puede ser
que se preocupe por los demás también -other regarding preferences, altruism-.
2. Conocimiento común. Con este concepto queremos expresar la idea de que
los jugadores entienden el juego que ser va a jugar. Un hecho H es conocimiento
común si cada jugador conoce H, cada jugador sabe que los demás saben H,
cada jugador sabe que cada otro jugador sabe que cada jugador sabe H, y ası́
ad infinitum. Una forma de ilustrat esto es pensar que los jugadores están
alrededor de una mesa donde el juego se presenta. Ası́, cada jugador conoce
el juego, puede verificar que los otros lo conocen y pueder verificar lo mismo
sobre cada uno de los jugadores. Este concepto se aplica igualmente a juegos
en forma extensiva.
1.3
Creencias, estrategias mixtas y pagos esperados. Capı́tulo 4, Strategy, second edition, Watson, J.
La idea de que los jugadores piensan en las estrategias que siguen los demás es
extremadamente importante.
Considera el dilema del prisionero. Imagina que el jugador 1 piensa que el jugador
2 elige C con probabilidad p y D con probabilidad 1−p. Entonces, p y 1−p constituye
una distribución de probabilidad sobre {C, D}.
Vamos a definir formalmente el concepto de creencia (belief), para juegos en
forma normal.
Definición 1. Formalmente, una creencia para el jugador i es una distribución
de probabilidad sobre las estrategias de los demás jugadores que no son i. Se denota
θ−i ∈ ∆S−i , donde ∆S−i es el conjunto de distribuciones de probabilidad sobre las
1
estrategias de todos los jugadores que no son i. Un concepto relacionado es el de
estrategia mixta.
Definición 2. Una estrategia mixta para i, σi ∈ Si , es el acto de seleccionar una
strategia, de acuerdo a una distribución de probabilidad.
Si una jugador elige una estrategia mixta o asigna probabilidades positivas a
varias estrategias de otros jugadores, este jugador no espera un pago particular por
seguro, sino un pago esperado (expected payoff).
Por ejemplo, si el juega si y considera que los demás juegan de acuerdo a θ−i :
ui (si , θ−i ) =
X
θ−i (s−i )ui (si , s−i )
(1)
s−i ∈S−i
Nota: date cuenta de que en este caso el jugador i tiene preferencias sobre distribuciones de probabilidad sobre resultados (no preferencias sobre resultados).
1.4
Dominancia y mejor respuesta. Capı́tulo 6, Strategy, second edition,
Watson, J.
Para relacionar posteriormente el equilibrio de Nash con otros conceptos de equilibrio, considera el siguiente ejemplo:
Jugador 2
L
R
U 2, 3 5, 0
Jugador 1
D 1, 0 4, 3
Para el jugador 1, U da mejor pago que D, independientemente de lo que haga
2. Técnicamente decimos que D está dominada por U , para 1. Para el jugador 2, L
es mejor que R, si el jugador 1 juega U , y lo contrario ocurre, si el jugador 1, juega
D. Para 2, ninguna estrategia está dominada.
Definición 3. Una estrategia (pura) si esta dominada, si hay otra estrategia
(pura o mixta) que da estrictamente mayor pago, para todas las estrategias de los
demás. Esto es, si existe σi ∈ ∆Si tal que ui (σi , s−i ) > ui (si , s−i ), para todas las
s−i ∈ S−i
Primera aproximación para resolver juegos: un jugador racional nunca juegas
estrategias (estrictamente) dominadas.
Esta aproximación implica que:
1. En el dilema del prisionero ningún jugador juega C!! aunque que ambos jueguen
C nos lleva a un resultado, pero para cada uno con respecto a que ambos jueguen
D (tensión social-individual).
2. En Matching pennies ningún jugador tiene estrategias dominadas. La predicción
de qué harán se vuelve confusa de aucerdo a este criterio.
2
Dado el ”problema” que observamos a partir del ejemplo de Matching pennies,
debemos explorar cómo los jugadores seleccionan sus estrategias, al menos de entre
aquellas que no son dominadas, a este conjunto lo llamamos U Di , para cada i. Para
ello, voy a introducir un concepto que nos va a ayudar.
Definición 4. Mejor respuesta (best reply or best response): Para i con
creencia θ−i ∈ ∆S−i , la estrategia si ∈ Si es una mejor respuesta dada θ−i si:
ui (si , θ−i ) ≥ ui (s0i , θ−i )
∀s0i ∈ S−i
(2)
El conjunto de mejores respuestas de i, dada la creenica θ−i sobre lo que hacen
los demás jugadores, se escribe BRi (θ−i ) (Ejemplo: páginas 56 y 57 libro.)
Además, llamamos Bi al conjunto de estrategias de i que son mejor respuesta a
alguna creencia. Esto es:
Bi = {si | existe θ−i
t.q
si ∈ BRi (θ−i )}
(3)
La relación entre mejor respuesta y estrategias no dominadas, se visualiza a través
del ejemplo en las páginas 59 y 60 libro. El resultado formal es como sigue.
Resultado: En un juego con dos jugadores y número finito de estrategias, Bi =
U Di , i = 1, 2.
Veremos un algoritmo para encontrar el conjunto Bi = U Di , para cada i.
Ejercicios:
Strategy, Watson, J, second edition:
1. Capı́tulo 4: ejercicio guiado página 41. Ejercicios 1,2,3,4 páginas 42 y 43.
2. Capı́tulo 6: ejercicio guiado página 62. Ejercicios 1,2,3,4 páginas 64 y 65.
1.5
Racionalizabiidad y dominancia iterada. Capı́tulo 7, Strategy, second edition, Watson, J.
Continuemos llevando el análisis a otro nivel. Considera el ejemplo de la figura 7.1
(página 67).
Para el jugador 1, ninguna estrategia está dominada. Esto es, el jugador 1 puede
jugar A o B, dependiendo de lo piense que va a hacer el jugador 2. Pero no hemos
terminado el análisis!.
Supón que es conocimiento común que ambos 1 y 2, son racionales (1 y 2 conocen
la matriz, 1 sabe que 2 conoce la matriz y vice versa, 1 sabe que 2 sabe que 1 conoce
la matriz, 2 sabe que 1 sabe que 2 conoce la matriz y ası́ ad infinitum, recuerda la
definición de common knowledge).
Si 1 se pone en la situación de 2, 1 sabe que 2 no juega X (está dominada por
Y ). Por tanto el jugador 1, debe asignar probabilidad cero a la estrategia Y por
parte del jugador 2.
3
Esto lleva a un nuevo juego donde la columna X ha sido eliminada. En este
nuevo juego, 1 nunca juega A (está dominada por B). Es más, 2 nunca juega X y
sabiendo que 1 lo sabe y que 1 es racional, 2 deduce que 1 nunca juega A. Esto lleva
a un nuevo juego donde la fila A ha sido eliminada. Si 2 asigna probabilidad uno al
hecho de que 1 juega B, el jugador 2 juega Z (Y está dominada). La predicción de
esta lógica es que con jugadores racionales y conocimiento común de la racionalidad
el único resultado posibles es (B, Z), que da un vector de pagos (1, 2).
A este procedimiento ( que se basa en el hecho de que la racionalidad es conocimiento
común) se le llama eliminación iterada de strategias estrictamente dominadas, o,
DOMINANCIA ITERADA.
El conjunto de estrategias que sobreviven a este proceso reciben el nombre de
ESTRATEGIAS RACIONALIZABLES.
Nota: lo que estamos haciendo es eliminar estrategias que nunca son mejores
respuestas.
Tarea:
1. ¿Puedes probar con el ejemplo de la figura 7.3 (página 70)?
2. ¿Puedes hacer el ejercicio guiado de la página 72?
3. Otros ejercicios: 1,2 página 74.
2
Tema 2. Estrategias mixtas.
Leer Capı́tulo 11, Strategy, second edition, Watson, J.
Ejercicios:
1. Capı́tulo 11 Waston, ejercicios 2,4 y 5, página 129.
2. Estudia el ejercicio guiado de la página 128 del capı́tulo 11 de Watson. Entiende
cómo se obtiene el equilibrio en estrategias mixtas. Estudia si para este juego
hay algún perfil de estrategias puras que sea un equilibrio.
3. Estudia si el juego que ilustra el dilema del prisionero tiene algún equilibrio
en estrategias mixtas. Calcúlalo si existe. Si no existe, ¿puedes argumentar el
porqué?
3
Tema 3. Juegos estáticos de information incompleta
Leer Watson [W], capı́tulo 26 y Osborne. M [O], capı́tulo 9.
3.1
Motivación:
Hasta ahora hemos discutido escenarios donde el juego es conocimiento común. En
particular, los individuos conocen los pagos (funciones de utilidad). Sin embargo,
puede haber situaciones donde los individuos no tienen información completa sobre
4
sobre sus oponentes. Dicho de otro modo, los oponentes tienen información privada.
Por ejemplo:
1. Cuando dos empresas compiten, cada una ellas puede no saber si la otra es una
empresa que opera con costes bajos o con coste altos. Es decir cada una de las
empresas no conoce tipo de la otra. (Ej: duopolio de Cournot, con empresas
que no conocen los costes de los rivales).
2. Subastas donde los jugadores no conocen cómo otros jugadores valoran el bien
subastado
3. Contribuciones privadas a un bien público cuando los individuos no conocen
cómo otros valoran el bien.
4. Los paı́ses pueden discutir acuerdos sobre el cambio climático, evaluando de
forma diferente los costes y los beneficios (sin que los demás sepan cómo
evalúan).
En general, esta información privada debe ser tenida en cuenta por los jugadores,
si quieren formarse expectativas sobre cómo los demás se comportan.
Ejemplo: El siguiente es un juego en forma normal donde uno de los jugadores
tiene información privada. Hay dos jugadores. El jugador 1 no sabe si el jugador 2
prefiere coordinarse con la acción de 1 (matriz izquierda), o anti-coordinarse (matriz
derecha).
Jugador 1
O
B
Jugador 2
O
B
2, 1 0, 0
0, 0 1, 2
Jugador 1
O
B
Jugador 2
O
B
2, 0 0, 2
0, 1 1, 0
En la matriz de la izquierda el jugador 2, está mejor si se coordina con el jugador
1, es decir está mejor jugando la misma acción que el jugador 1, que jugando una
acción diferente. Lo contrario ocurre en la matriz de la derecha. Este es un ejemplo
donde un jugador, 1, no conoce los pagos del otro, 2.
Dos definiciones, antes de continuar:
Información imperfecta: los jugadores no están informados de los movimientos
que hacen otros jugadores.
Información incompleta: Los jugadores no están informados de ciertas caracterı́sticas del juego en el que están (por ejemplo, pagos de otros jugadores)
Ejemplo:
La representación en forma extensiva del juego anterior (ejemplo 1) es como
sigue (entendemos un juego bayesino de información incompleta - algún individuo
no conoce los pagos de otro- como un juego en forma extensiva con información
5
imperfecta (alguien no conoce las acciones de un jugador, naturaleza, que decide en
el momento cero, Harsanyi (1968)):
Los pagos del jugador 1 cuando elige B u O, dependen de si el jugador 2 prefiere
coordinarse (C) con él o no (N). Para computar estos pagos, el jugador 1 tiene que
tener alguna idea de con qué probabilidad el jugador 2 es de cada tipo, es decir hay
incertidumbre. Supón que el jugador 1 asigna probabilidad 1/2 a cada uno de los
tipos del jugador 2. De manera formal tenemos:
1. Individuos. I = {1, 2}.
2. Acciones Ai = {O, B}, i = 1, 2
3. Tipos: Θ1 = {x} y Θ2 = {C, N }, donde θi ∈ Θi , i = 1, 2. Θ = ×Θi , θ ∈ Θ.
4. Probabilidades (a priori): p(x, C) = 1/2, p(x, N ) = 1/2, p(x) = 1, p(C) = 1/2,
p(N ) = 1/2.
5. Pagos: descritos en las matrices anteriores.
Queremos representar la idea de que cada jugador conoce sus pagos, pero tiene
incertidumbre sobre los pagos de los demás. Para ello describimos los tipos de cada
individuo. Además, para cada individuo, cada tipo tiene una función de pagos
diferente (los pagos pueden tb depender de los tipos del otro individuo).
El conjunto de estrategias de cada individuo, Si , ahora es una colección de funciones si : Θi → Ai . Es decir cada estrategia para un individuo debe indicar lo
que harı́a si fuese de cada uno de los tipos. ¿Por qué es esto ası́? ¿Si al final el
individuo 2 sabe quién es, por qué tendrı́a que especificar qué harı́a si fuera de un
tipo que nunca va a ocurrir? Razón: la acción óptima del jugador 1 depende de lo
que él piense sobre lo que el jugador 2 va a hacer si es de cada tipo, puesto que no
conoce el tipo. Intuitivamente: lo que reflejan las estrategias de 2 son precisamente
las expectativas que 1 tiene sobre lo que va a hacer 2.
Resolviendo por equilibrio de Nash (Bayesiano):
6
Dada la probabilidad a priori, cada individuo forma creencias (probabilidades
a posteriori) sobre la realización de los tipos de los demás: para cada individuo
i, j = 1, 2, pi (θj |θi ). Condicional en que el jugador i es de un determinado tipo (en
el ejemplo el tipo de 1 es único), cuál es la probabilidad de encontrarme con cada tipo
de j. Lo mismo para el jugador 2. Más especı́ficamente, p1 (C|x) = p1 (N |x) = 1/2
y p2 (x|C) = p2 (x|N ) = 1.
En el juego anterior, el perfil (O, OB) es un equilibrio de Nash (Bayesiano) en
estrategias puras. En otras palabras, para el individuo i, cada uno de sus tipos, hace
su mejor respuesta:
• Para 1 tiene que ocurrir que:
u1 (O, O)p(C|x) + u1 (O, B)p(N |x) = 2(1/2) + 0(1/2) = 1 > u1 (B, O)p(C|x) +
u1 (B, B)p(N |x) = 0(1/2) + 1(1/2) = 1/2. Esto es, O es la mejor respuesta de 1 a
que 2 juegue OB.
• Para 2, tiene que ocurrir que, si 2 es de tipo C:
u2 (O, O)p(x|C) = 1(1) > u2 (O, B)p(x|C) = 0(1).
Si 2 es de tipo N :
u2 (O, B)p(x|N ) = 2(1) > u2 (O, O)p(x|N ) = 0(1).
Para cada tipo del jugador 2, la acción propuesta es la mejor respuesta a que 1
juegue O.
Esta es una visión ex-post. En ella, los tipos se realizan y el jugador 1 no
conoce el tipo de 2, mientras que 2 conoce su tipo y el de 1, ya que es único. En
esta representación cada tipo de un jugador es tratado como un jugador diferente
(supuesto ficticio de que hay universos paralelos en los que cada jugador se ”encarna”
en sus tipos).
Representación ex-ante. Con ella, hacemos el supuesto ficiticio de que al jugador
no se le ha asignado el tipo. Esto permite representar el juego en la forma estrategia
bayesiana:
Jugador 1
O
B
Jugador 2
O
B
2, 1 0, 0
0, 0 1, 2
Jugador 1
O
B
Jugador 1
Jugador
OO OB
1
3
2,
1,
2
2
1 1
0,
,0
2 2
2
BO
1, 0
1 3
,
2 2
O
B
Jugador 2
O
B
2, 0 0, 2
0, 1 1, 0
BB
0, 1
1, 1
Ası́ los individuos, antes de conocer sus tipos, computan los pagos esperados:
• la utilidad de 2 en el perfil (O, OB) es: p(x, C)u2 (O, O) + p(x, N )u2 (O, B) =
(1/2)1 + (1/2)2 = 3/2
• la utilidad de 2 en el perfil (O, BB) es: p(x, C)u2 (O, B) + p(x, N )u2 (O, B) =
(1/2)0 + (1/2)2 = 1
7
• la utilidad de 1 en el perfil (O, OB) es:
p(x, C)u1 (O, O) + p(x, N )u1 (O, B) = (1/2)2 + (1/2)0 = 1
• la utilidad de 1 en el perfil (B, OB) es:
p(x, C)u1 (B, O) + p(x, N )u1 (B, B) = (1/2)0 + (1/2)1 = 1/2
La visión ex-ante y ex-post son equivalentes.
Si s
La forma estratégica bayesiana (ex-ante) es especialmente útil cuando podemos
usar matrices de pagos, pues podemos usar todas las técnicas que hemos aprendido
hasta ahora. En la matriz anterior, observa que para el jugador 2, OO está dominada
por BB, entonces 2 nunca juega OO. Para el juego que queda al eliminar la primera
columna, aplicamos el concepto de equilibrio de Nash, como siempre. TAREA: os
dejo que hagáis los equilibrios en estrategias mixtas. Para ello:
1. Demuestra que si hay equilibrio en estrategias mixtas, en él, la probabilidad
que el jugador 2 asigna a BB es positiva. Puedes suponer que esta probabilidad
es cero, y concluir que entonces no hay equilibrio en mixtas.
2. Considera los tres casos posibles, esto es, que para el jugador 2:
(1) OB tiene probabilidad cero y BO tiene probabilidad positiva. Determina si
hay equilibrio en mixtas y descrı́belo si es el caso. Pista: hay un equilibrio.
(2) OB tiene probabilidad positiva y BO tiene probabilidad cero. Determina si
hay equilibrio en mixtas y desrı́belo si es el caso. Pista: hay un equilibrio.
(3) OB y BO tienen probabilidad positiva. Determina si hay equilibrio en
mixtas y desrı́belo si es el caso. Pista: no hay equilibrio.
3.2
Aspectos formales:
Un juego bayesiano estático G es una 5-tupla G = (N, (Θi )i∈N , (Si )i∈N , P, (ui )i∈N )
donde:
1. Conjunto de jugadores: N = {1, 2, ..., n}, y para cada i ∈ N :
2. Conjunto de tipos: Θi donde Θ = ×Θi ; θi ∈ Θi , θ ∈ Θ. Define θ ≡ (θ−i , θi ).
3. Conjunto de acciones Ai , A = ×Ai . El conjunto de estrategias de i, Si , contiene
funciones si : Θi → Ai . Es decir, una estrategia es una especificación de la
acción de cada tipo. Además, S = ×Si .
4. Distribución de probabilidad conjunta: p(θ1 , ..., θn ), p(θi ) > 0, ∀θi ∈ Θi . Cada
jugador i forma creencias sobre los tipos de los otros, −i, fijado su tipo: pi :
Θi → ∆(Θ−i ). En particular, dado un tipo de i, sus creencias sobre los tipos
de los demás se construyen usando Bayes:
p(θ−i , θi )
p(θ−i , θi )
=P
.
pi (θ−i |θi ) =
p(θi )
θ−i ∈Θ−i p(θ−i , θi )
8
5. Pagos ui : Θ × A → R para cada i.
Supuestos: Los pagos no son conocimiento común (información incompleta). La
distribución de probabilidad de acuerdo a la cual la naturaleza seleciona los tipos,
es conocimiento común.
Definición. Equilibrio de Nash Bayesiano. Un perfil s∗ = (s∗1 , ..., s∗n ) (recuerda que para cada individuo s∗i indica lo hace para cada uno de sus tipos.) es un
equilibrio de Nash Bayesiano si para cada i y cada θi ∈ Θi , s∗i (θi ) resuelve:
X
maxsi
ui (si (θi ), s∗−i (θ−i ))pi (θ−i |θi ).
(4)
θ−i ∈Θ−i
La expresión anterior significa que si estamos en un equilibrio es porque cada tipo
de cada individuo, está usando la mejor respuesta dado lo que hacen los demás. Esta
es la visión ex-post (donde cada individo conoce su tipo, pero no el de los demás).
La visión ex-ante me indica que un perfil s∗ es un equilibrio si para cada i, s∗i
resuelve:
maxsi
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i , θi )
(5)
θ∈Θ
Como adopto la visión ex-ante (que da lugar a la forma estratégica bayesiana) los
individuos calculan la utilidad esperada para todos los posibles eventos θ ≡ (θ−i , θi )
******************************************************
La visión ex-ante y ex-post son equivalentes: Considera que s∗ es la
solución de (5) para i. Entonces s∗ maximiza
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i , θi ) =
θ∈Θ
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )p(θi ) =
θ∈Θ
X
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )p(θi ) =
θi ∈Θi θ−i ∈Θ−i
X
θi ∈Θi
X
p(θi )
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )
θ−i ∈Θ−i
donde
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )
θ−i ∈Θ−i
es la expresión en (4).
Ejemplo: El perfil (O, OB) es un equilibrio de Nash. Según (5). La utilidad de 1
en el perfil (O, OB) es p(x, C)u1 (O, O) + p(x, N )u1 (O, B) = (1/2)2 + (1/2)0 = 1 (∗).
Esta expresión se puede escribir como p(x)[p(C|x)u1 (O, O) + p(N |x)u1 (O, B)] = 1
(∗∗), Si dado OB, 1 maximiza con O en (∗) es porque cada una de las utilidades en
9
(∗∗) es máxima, por tanto, su maximizo 5, maximizo 4 para cada tipo del individuo
en cuestión. El camino inverso también se cumple.
La utilidad de 2 en el perfil (O, OB) es: p(x, C)u2 (O, O) + p(x, N )u2 (O, B) =
(1/2)1+(1/2)2 = 3/2 (∗∗). Esta expresión se puede escribir como p(C)p(x|C)u1 (O, O)+
p(N )p(x|N )u1 (O, B) = 3/2 (∗∗∗), Si dado O, 2 maximiza con OB en (∗∗) es porque
cada una de las utilidades en (∗∗∗) es máxima, por tanto, si maximizo (5) maximizo
(4) para cada tipo del individuo en cuestión. El camino inverso también se cumple.
******************************************************
Nota: Todo juego (bayesiano) finito (número finito de jugadores y número finito
de estrategias) tiene un equilibrio de Nash (Bayesiano), puro o mixto.
Ejercicios
Ejercicio 1. Duopolio de Cournot con información incompleta. Supón
que dos empresas, 1 y 2, compiten en una industria, donde la demanda viene dada
por P = 1 − Q, donde Q es la cantidad total producida en la industria. Ası́,
Q = q1 + q2 , donde qi es la cantidad producida por la empresa i = 1, 2. El coste
con el que opera la empresa 2 es información privada. Con probabilidad 1/2 opera
a coste cero y con probabilidad 1/2 opera a coste marginal 1/4. Llama al tipo de
la empresa 2 que opera a coste cero, L, y al tipo que opera a coste marginal 1/4,
H. La empresa 1 opera a coste cero, es decir tiene un único tipo, conocido por la
empresa 2. Calcula el equilibrio de Nash Bayesiano.
Solución:
Ejercicio 16 PS2. Considera los pagos dados por la siguiente tabla:
Jugador 1
X
Y
Jugador 2
L
R
θ, γ 1, 2
−1, γ θ, 0
Además θ ∈ {0, 2} para el jugador 1 y γ ∈ {1, 3} para el 2. Todos los pares
(θ, γ) tienen probabilidad 1/4. Define los elementos del juego bayesiano, incluidas
las estrategias. Describe el único equilibrio de Nash bayesiano en estrategias puras
de este juego.
Ejercicio extra. Considera dos empresas, 1 y 2. La empresa 1 decide si construir
(C) o no (NC) una planta. Simultáneamente la empresa 2 decide si entrar (E) o no
(NE) a la industria. La empresa 1 es de coste alto (H) o bajo (L) con probabilidad
p y 1 − p, p > 0, respectivamente. La empresa 2 tiene incertidumbre sobre el tipo
de la 1. Los pagos son. Si 1 es de coste alto (H):
Jugador 1
C
NC
Jugador 2
E
NE
0, −1 2, 0
2, 1
3, 0
10
Si 1 es de coste bajo (L):
Jugador 1
C
NC
Jugador 2
E
NE
1.5, −1 3.5, 0
2, 1
3, 0
Nota: Los pagos de la empresa 2 dependen de si 1 construye o no, pero no del
tipo de 1. Para 1, si es de coste alto (H), C está dominada por NC.
Se pide:
1) Describir los ingredientes del juego estático bayesiano.
2) Usar la forma estratética bayesiana para calcular los equilibrios (pista: dependen de p y hay un equilibrio el que el tipo bajo de la empresa 1 usa una estrategia
mixta).
11
Microeconomı́a II ME CIDE, Primavera 2021
Teorı́a de Juegos
1
Tema 1. Juegos en forma normal
1.1
Interpretación del equilibrio de Nash.
Leer: The Nash equilibrium: a perspective
1.2
Supuestos generales y metodologı́a Capı́tulo 5, Strategy, second edition, Watson, J.
Antes de continuar con el análisis y comparar el equilibrio de Nash con otros conceptos de equilibrio, es importante hablar de los supuestos generales del modelaje
en teorı́a de juegos. Los supuestos son:
1. Racionalidad. asumimos que los jugadores actúan de acuerdo a sus preferencias. Brevemente, si las acciones de un jugador determinan, en parte, sus
resultados, este jugador elige la acción que maximiza su pago. Racionalidad no
implica que el jugador siempre quiere maximizar sus ganancias, pues puede ser
que se preocupe por los demás también -other regarding preferences, altruism-.
2. Conocimiento común. Con este concepto queremos expresar la idea de que
los jugadores entienden el juego que ser va a jugar. Un hecho H es conocimiento
común si cada jugador conoce H, cada jugador sabe que los demás saben H,
cada jugador sabe que cada otro jugador sabe que cada jugador sabe H, y ası́
ad infinitum. Una forma de ilustrat esto es pensar que los jugadores están
alrededor de una mesa donde el juego se presenta. Ası́, cada jugador conoce
el juego, puede verificar que los otros lo conocen y pueder verificar lo mismo
sobre cada uno de los jugadores. Este concepto se aplica igualmente a juegos
en forma extensiva.
1.3
Creencias, estrategias mixtas y pagos esperados. Capı́tulo 4, Strategy, second edition, Watson, J.
La idea de que los jugadores piensan en las estrategias que siguen los demás es
extremadamente importante.
Considera el dilema del prisionero. Imagina que el jugador 1 piensa que el jugador
2 elige C con probabilidad p y D con probabilidad 1−p. Entonces, p y 1−p constituye
una distribución de probabilidad sobre {C, D}.
Vamos a definir formalmente el concepto de creencia (belief), para juegos en
forma normal.
Definición 1. Formalmente, una creencia para el jugador i es una distribución
de probabilidad sobre las estrategias de los demás jugadores que no son i. Se denota
θ−i ∈ ∆S−i , donde ∆S−i es el conjunto de distribuciones de probabilidad sobre las
1
estrategias de todos los jugadores que no son i. Un concepto relacionado es el de
estrategia mixta.
Definición 2. Una estrategia mixta para i, σi ∈ Si , es el acto de seleccionar una
strategia, de acuerdo a una distribución de probabilidad.
Si una jugador elige una estrategia mixta o asigna probabilidades positivas a
varias estrategias de otros jugadores, este jugador no espera un pago particular por
seguro, sino un pago esperado (expected payoff).
Por ejemplo, si el juega si y considera que los demás juegan de acuerdo a θ−i :
ui (si , θ−i ) =
X
θ−i (s−i )ui (si , s−i )
(1)
s−i ∈S−i
Nota: date cuenta de que en este caso el jugador i tiene preferencias sobre distribuciones de probabilidad sobre resultados (no preferencias sobre resultados).
1.4
Dominancia y mejor respuesta. Capı́tulo 6, Strategy, second edition,
Watson, J.
Para relacionar posteriormente el equilibrio de Nash con otros conceptos de equilibrio, considera el siguiente ejemplo:
Jugador 2
L
R
U 2, 3 5, 0
Jugador 1
D 1, 0 4, 3
Para el jugador 1, U da mejor pago que D, independientemente de lo que haga
2. Técnicamente decimos que D está dominada por U , para 1. Para el jugador 2, L
es mejor que R, si el jugador 1 juega U , y lo contrario ocurre, si el jugador 1, juega
D. Para 2, ninguna estrategia está dominada.
Definición 3. Una estrategia (pura) si esta dominada, si hay otra estrategia
(pura o mixta) que da estrictamente mayor pago, para todas las estrategias de los
demás. Esto es, si existe σi ∈ ∆Si tal que ui (σi , s−i ) > ui (si , s−i ), para todas las
s−i ∈ S−i
Primera aproximación para resolver juegos: un jugador racional nunca juegas
estrategias (estrictamente) dominadas.
Esta aproximación implica que:
1. En el dilema del prisionero ningún jugador juega C!! aunque que ambos jueguen
C nos lleva a un resultado, pero para cada uno con respecto a que ambos jueguen
D (tensión social-individual).
2. En Matching pennies ningún jugador tiene estrategias dominadas. La predicción
de qué harán se vuelve confusa de aucerdo a este criterio.
2
Dado el ”problema” que observamos a partir del ejemplo de Matching pennies,
debemos explorar cómo los jugadores seleccionan sus estrategias, al menos de entre
aquellas que no son dominadas, a este conjunto lo llamamos U Di , para cada i. Para
ello, voy a introducir un concepto que nos va a ayudar.
Definición 4. Mejor respuesta (best reply or best response): Para i con
creencia θ−i ∈ ∆S−i , la estrategia si ∈ Si es una mejor respuesta dada θ−i si:
ui (si , θ−i ) ≥ ui (s0i , θ−i )
∀s0i ∈ S−i
(2)
El conjunto de mejores respuestas de i, dada la creenica θ−i sobre lo que hacen
los demás jugadores, se escribe BRi (θ−i ) (Ejemplo: páginas 56 y 57 libro.)
Además, llamamos Bi al conjunto de estrategias de i que son mejor respuesta a
alguna creencia. Esto es:
Bi = {si | existe θ−i
t.q
si ∈ BRi (θ−i )}
(3)
La relación entre mejor respuesta y estrategias no dominadas, se visualiza a través
del ejemplo en las páginas 59 y 60 libro. El resultado formal es como sigue.
Resultado: En un juego con dos jugadores y número finito de estrategias, Bi =
U Di , i = 1, 2.
Veremos un algoritmo para encontrar el conjunto Bi = U Di , para cada i.
Ejercicios:
Strategy, Watson, J, second edition:
1. Capı́tulo 4: ejercicio guiado página 41. Ejercicios 1,2,3,4 páginas 42 y 43.
2. Capı́tulo 6: ejercicio guiado página 62. Ejercicios 1,2,3,4 páginas 64 y 65.
1.5
Racionalizabiidad y dominancia iterada. Capı́tulo 7, Strategy, second edition, Watson, J.
Continuemos llevando el análisis a otro nivel. Considera el ejemplo de la figura 7.1
(página 67).
Para el jugador 1, ninguna estrategia está dominada. Esto es, el jugador 1 puede
jugar A o B, dependiendo de lo piense que va a hacer el jugador 2. Pero no hemos
terminado el análisis!.
Supón que es conocimiento común que ambos 1 y 2, son racionales (1 y 2 conocen
la matriz, 1 sabe que 2 conoce la matriz y vice versa, 1 sabe que 2 sabe que 1 conoce
la matriz, 2 sabe que 1 sabe que 2 conoce la matriz y ası́ ad infinitum, recuerda la
definición de common knowledge).
Si 1 se pone en la situación de 2, 1 sabe que 2 no juega X (está dominada por
Y ). Por tanto el jugador 1, debe asignar probabilidad cero a la estrategia Y por
parte del jugador 2.
3
Esto lleva a un nuevo juego donde la columna X ha sido eliminada. En este
nuevo juego, 1 nunca juega A (está dominada por B). Es más, 2 nunca juega X y
sabiendo que 1 lo sabe y que 1 es racional, 2 deduce que 1 nunca juega A. Esto lleva
a un nuevo juego donde la fila A ha sido eliminada. Si 2 asigna probabilidad uno al
hecho de que 1 juega B, el jugador 2 juega Z (Y está dominada). La predicción de
esta lógica es que con jugadores racionales y conocimiento común de la racionalidad
el único resultado posibles es (B, Z), que da un vector de pagos (1, 2).
A este procedimiento ( que se basa en el hecho de que la racionalidad es conocimiento
común) se le llama eliminación iterada de strategias estrictamente dominadas, o,
DOMINANCIA ITERADA.
El conjunto de estrategias que sobreviven a este proceso reciben el nombre de
ESTRATEGIAS RACIONALIZABLES.
Nota: lo que estamos haciendo es eliminar estrategias que nunca son mejores
respuestas.
Tarea:
1. ¿Puedes probar con el ejemplo de la figura 7.3 (página 70)?
2. ¿Puedes hacer el ejercicio guiado de la página 72?
3. Otros ejercicios: 1,2 página 74.
2
Tema 2. Estrategias mixtas.
Leer Capı́tulo 11, Strategy, second edition, Watson, J.
Ejercicios:
1. Capı́tulo 11 Waston, ejercicios 2,4 y 5, página 129.
2. Estudia el ejercicio guiado de la página 128 del capı́tulo 11 de Watson. Entiende
cómo se obtiene el equilibrio en estrategias mixtas. Estudia si para este juego
hay algún perfil de estrategias puras que sea un equilibrio.
3. Estudia si el juego que ilustra el dilema del prisionero tiene algún equilibrio
en estrategias mixtas. Calcúlalo si existe. Si no existe, ¿puedes argumentar el
porqué?
3
Tema 3. Juegos estáticos de information incompleta
Leer Watson [W], capı́tulo 26 y Osborne. M [O], capı́tulo 9.
3.1
Motivación:
Hasta ahora hemos discutido escenarios donde el juego es conocimiento común. En
particular, los individuos conocen los pagos (funciones de utilidad). Sin embargo,
puede haber situaciones donde los individuos no tienen información completa sobre
4
sobre sus oponentes. Dicho de otro modo, los oponentes tienen información privada.
Por ejemplo:
1. Cuando dos empresas compiten, cada una ellas puede no saber si la otra es una
empresa que opera con costes bajos o con coste altos. Es decir cada una de las
empresas no conoce tipo de la otra. (Ej: duopolio de Cournot, con empresas
que no conocen los costes de los rivales).
2. Subastas donde los jugadores no conocen cómo otros jugadores valoran el bien
subastado
3. Contribuciones privadas a un bien público cuando los individuos no conocen
cómo otros valoran el bien.
4. Los paı́ses pueden discutir acuerdos sobre el cambio climático, evaluando de
forma diferente los costes y los beneficios (sin que los demás sepan cómo
evalúan).
En general, esta información privada debe ser tenida en cuenta por los jugadores,
si quieren formarse expectativas sobre cómo los demás se comportan.
Ejemplo: El siguiente es un juego en forma normal donde uno de los jugadores
tiene información privada. Hay dos jugadores. El jugador 1 no sabe si el jugador 2
prefiere coordinarse con la acción de 1 (matriz izquierda), o anti-coordinarse (matriz
derecha).
Jugador 1
O
B
Jugador 2
O
B
2, 1 0, 0
0, 0 1, 2
Jugador 1
O
B
Jugador 2
O
B
2, 0 0, 2
0, 1 1, 0
En la matriz de la izquierda el jugador 2, está mejor si se coordina con el jugador
1, es decir está mejor jugando la misma acción que el jugador 1, que jugando una
acción diferente. Lo contrario ocurre en la matriz de la derecha. Este es un ejemplo
donde un jugador, 1, no conoce los pagos del otro, 2.
Dos definiciones, antes de continuar:
Información imperfecta: los jugadores no están informados de los movimientos
que hacen otros jugadores.
Información incompleta: Los jugadores no están informados de ciertas caracterı́sticas del juego en el que están (por ejemplo, pagos de otros jugadores)
Ejemplo:
La representación en forma extensiva del juego anterior (ejemplo 1) es como
sigue (entendemos un juego bayesino de información incompleta - algún individuo
no conoce los pagos de otro- como un juego en forma extensiva con información
5
imperfecta (alguien no conoce las acciones de un jugador, naturaleza, que decide en
el momento cero, Harsanyi (1968)):
Los pagos del jugador 1 cuando elige B u O, dependen de si el jugador 2 prefiere
coordinarse (C) con él o no (N). Para computar estos pagos, el jugador 1 tiene que
tener alguna idea de con qué probabilidad el jugador 2 es de cada tipo, es decir hay
incertidumbre. Supón que el jugador 1 asigna probabilidad 1/2 a cada uno de los
tipos del jugador 2. De manera formal tenemos:
1. Individuos. I = {1, 2}.
2. Acciones Ai = {O, B}, i = 1, 2
3. Tipos: Θ1 = {x} y Θ2 = {C, N }, donde θi ∈ Θi , i = 1, 2. Θ = ×Θi , θ ∈ Θ.
4. Probabilidades (a priori): p(x, C) = 1/2, p(x, N ) = 1/2, p(x) = 1, p(C) = 1/2,
p(N ) = 1/2.
5. Pagos: descritos en las matrices anteriores.
Queremos representar la idea de que cada jugador conoce sus pagos, pero tiene
incertidumbre sobre los pagos de los demás. Para ello describimos los tipos de cada
individuo. Además, para cada individuo, cada tipo tiene una función de pagos
diferente (los pagos pueden tb depender de los tipos del otro individuo).
El conjunto de estrategias de cada individuo, Si , ahora es una colección de funciones si : Θi → Ai . Es decir cada estrategia para un individuo debe indicar lo
que harı́a si fuese de cada uno de los tipos. ¿Por qué es esto ası́? ¿Si al final el
individuo 2 sabe quién es, por qué tendrı́a que especificar qué harı́a si fuera de un
tipo que nunca va a ocurrir? Razón: la acción óptima del jugador 1 depende de lo
que él piense sobre lo que el jugador 2 va a hacer si es de cada tipo, puesto que no
conoce el tipo. Intuitivamente: lo que reflejan las estrategias de 2 son precisamente
las expectativas que 1 tiene sobre lo que va a hacer 2.
Resolviendo por equilibrio de Nash (Bayesiano):
6
Dada la probabilidad a priori, cada individuo forma creencias (probabilidades
a posteriori) sobre la realización de los tipos de los demás: para cada individuo
i, j = 1, 2, pi (θj |θi ). Condicional en que el jugador i es de un determinado tipo (en
el ejemplo el tipo de 1 es único), cuál es la probabilidad de encontrarme con cada tipo
de j. Lo mismo para el jugador 2. Más especı́ficamente, p1 (C|x) = p1 (N |x) = 1/2
y p2 (x|C) = p2 (x|N ) = 1.
En el juego anterior, el perfil (O, OB) es un equilibrio de Nash (Bayesiano) en
estrategias puras. En otras palabras, para el individuo i, cada uno de sus tipos, hace
su mejor respuesta:
• Para 1 tiene que ocurrir que:
u1 (O, O)p(C|x) + u1 (O, B)p(N |x) = 2(1/2) + 0(1/2) = 1 > u1 (B, O)p(C|x) +
u1 (B, B)p(N |x) = 0(1/2) + 1(1/2) = 1/2. Esto es, O es la mejor respuesta de 1 a
que 2 juegue OB.
• Para 2, tiene que ocurrir que, si 2 es de tipo C:
u2 (O, O)p(x|C) = 1(1) > u2 (O, B)p(x|C) = 0(1).
Si 2 es de tipo N :
u2 (O, B)p(x|N ) = 2(1) > u2 (O, O)p(x|N ) = 0(1).
Para cada tipo del jugador 2, la acción propuesta es la mejor respuesta a que 1
juegue O.
Esta es una visión ex-post. En ella, los tipos se realizan y el jugador 1 no
conoce el tipo de 2, mientras que 2 conoce su tipo y el de 1, ya que es único. En
esta representación cada tipo de un jugador es tratado como un jugador diferente
(supuesto ficticio de que hay universos paralelos en los que cada jugador se ”encarna”
en sus tipos).
Representación ex-ante. Con ella, hacemos el supuesto ficiticio de que al jugador
no se le ha asignado el tipo. Esto permite representar el juego en la forma estrategia
bayesiana:
Jugador 1
O
B
Jugador 2
O
B
2, 1 0, 0
0, 0 1, 2
Jugador 1
O
B
Jugador 1
Jugador
OO OB
1
3
2,
1,
2
2
1 1
0,
,0
2 2
2
BO
1, 0
1 3
,
2 2
O
B
Jugador 2
O
B
2, 0 0, 2
0, 1 1, 0
BB
0, 1
1, 1
Ası́ los individuos, antes de conocer sus tipos, computan los pagos esperados:
• la utilidad de 2 en el perfil (O, OB) es: p(x, C)u2 (O, O) + p(x, N )u2 (O, B) =
(1/2)1 + (1/2)2 = 3/2
• la utilidad de 2 en el perfil (O, BB) es: p(x, C)u2 (O, B) + p(x, N )u2 (O, B) =
(1/2)0 + (1/2)2 = 1
7
• la utilidad de 1 en el perfil (O, OB) es:
p(x, C)u1 (O, O) + p(x, N )u1 (O, B) = (1/2)2 + (1/2)0 = 1
• la utilidad de 1 en el perfil (B, OB) es:
p(x, C)u1 (B, O) + p(x, N )u1 (B, B) = (1/2)0 + (1/2)1 = 1/2
La visión ex-ante y ex-post son equivalentes.
Si s
La forma estratégica bayesiana (ex-ante) es especialmente útil cuando podemos
usar matrices de pagos, pues podemos usar todas las técnicas que hemos aprendido
hasta ahora. En la matriz anterior, observa que para el jugador 2, OO está dominada
por BB, entonces 2 nunca juega OO. Para el juego que queda al eliminar la primera
columna, aplicamos el concepto de equilibrio de Nash, como siempre. TAREA: os
dejo que hagáis los equilibrios en estrategias mixtas. Para ello:
1. Demuestra que si hay equilibrio en estrategias mixtas, en él, la probabilidad
que el jugador 2 asigna a BB es positiva. Puedes suponer que esta probabilidad
es cero, y concluir que entonces no hay equilibrio en mixtas.
2. Considera los tres casos posibles, esto es, que para el jugador 2:
(1) OB tiene probabilidad cero y BO tiene probabilidad positiva. Determina si
hay equilibrio en mixtas y descrı́belo si es el caso. Pista: hay un equilibrio.
(2) OB tiene probabilidad positiva y BO tiene probabilidad cero. Determina si
hay equilibrio en mixtas y desrı́belo si es el caso. Pista: hay un equilibrio.
(3) OB y BO tienen probabilidad positiva. Determina si hay equilibrio en
mixtas y desrı́belo si es el caso. Pista: no hay equilibrio.
3.2
Aspectos formales:
Un juego bayesiano estático G es una 5-tupla G = (N, (Θi )i∈N , (Si )i∈N , P, (ui )i∈N )
donde:
1. Conjunto de jugadores: N = {1, 2, ..., n}, y para cada i ∈ N :
2. Conjunto de tipos: Θi donde Θ = ×Θi ; θi ∈ Θi , θ ∈ Θ. Define θ ≡ (θ−i , θi ).
3. Conjunto de acciones Ai , A = ×Ai . El conjunto de estrategias de i, Si , contiene
funciones si : Θi → Ai . Es decir, una estrategia es una especificación de la
acción de cada tipo. Además, S = ×Si .
4. Distribución de probabilidad conjunta: p(θ1 , ..., θn ), p(θi ) > 0, ∀θi ∈ Θi . Cada
jugador i forma creencias sobre los tipos de los otros, −i, fijado su tipo: pi :
Θi → ∆(Θ−i ). En particular, dado un tipo de i, sus creencias sobre los tipos
de los demás se construyen usando Bayes:
p(θ−i , θi )
p(θ−i , θi )
=P
.
pi (θ−i |θi ) =
p(θi )
θ−i ∈Θ−i p(θ−i , θi )
8
5. Pagos ui : Θ × A → R para cada i.
Supuestos: Los pagos no son conocimiento común (información incompleta). La
distribución de probabilidad de acuerdo a la cual la naturaleza seleciona los tipos,
es conocimiento común.
Definición. Equilibrio de Nash Bayesiano. Un perfil s∗ = (s∗1 , ..., s∗n ) (recuerda que para cada individuo s∗i indica lo hace para cada uno de sus tipos.) es un
equilibrio de Nash Bayesiano si para cada i y cada θi ∈ Θi , s∗i (θi ) resuelve:
X
maxsi
ui (si (θi ), s∗−i (θ−i ))pi (θ−i |θi ).
(4)
θ−i ∈Θ−i
La expresión anterior significa que si estamos en un equilibrio es porque cada tipo
de cada individuo, está usando la mejor respuesta dado lo que hacen los demás. Esta
es la visión ex-post (donde cada individo conoce su tipo, pero no el de los demás).
La visión ex-ante me indica que un perfil s∗ es un equilibrio si para cada i, s∗i
resuelve:
maxsi
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i , θi )
(5)
θ∈Θ
Como adopto la visión ex-ante (que da lugar a la forma estratégica bayesiana) los
individuos calculan la utilidad esperada para todos los posibles eventos θ ≡ (θ−i , θi )
******************************************************
La visión ex-ante y ex-post son equivalentes: Considera que s∗ es la
solución de (5) para i. Entonces s∗ maximiza
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i , θi ) =
θ∈Θ
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )p(θi ) =
θ∈Θ
X
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )p(θi ) =
θi ∈Θi θ−i ∈Θ−i
X
θi ∈Θi
X
p(θi )
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )
θ−i ∈Θ−i
donde
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )
θ−i ∈Θ−i
es la expresión en (4).
Ejemplo: El perfil (O, OB) es un equilibrio de Nash. Según (5). La utilidad de 1
en el perfil (O, OB) es p(x, C)u1 (O, O) + p(x, N )u1 (O, B) = (1/2)2 + (1/2)0 = 1 (∗).
Esta expresión se puede escribir como p(x)[p(C|x)u1 (O, O) + p(N |x)u1 (O, B)] = 1
(∗∗), Si dado OB, 1 maximiza con O en (∗) es porque cada una de las utilidades en
9
(∗∗) es máxima, por tanto, su maximizo 5, maximizo 4 para cada tipo del individuo
en cuestión. El camino inverso también se cumple.
La utilidad de 2 en el perfil (O, OB) es: p(x, C)u2 (O, O) + p(x, N )u2 (O, B) =
(1/2)1+(1/2)2 = 3/2 (∗∗). Esta expresión se puede escribir como p(C)p(x|C)u1 (O, O)+
p(N )p(x|N )u1 (O, B) = 3/2 (∗∗∗), Si dado O, 2 maximiza con OB en (∗∗) es porque
cada una de las utilidades en (∗∗∗) es máxima, por tanto, si maximizo (5) maximizo
(4) para cada tipo del individuo en cuestión. El camino inverso también se cumple.
******************************************************
Nota: Todo juego (bayesiano) finito (número finito de jugadores y número finito
de estrategias) tiene un equilibrio de Nash (Bayesiano), puro o mixto.
Ejercicios
Ejercicio 1. Duopolio de Cournot con información incompleta. Supón
que dos empresas, 1 y 2, compiten en una industria, donde la demanda viene dada
por P = 1 − Q, donde Q es la cantidad total producida en la industria. Ası́,
Q = q1 + q2 , donde qi es la cantidad producida por la empresa i = 1, 2. El coste
con el que opera la empresa 2 es información privada. Con probabilidad 1/2 opera
a coste cero y con probabilidad 1/2 opera a coste marginal 1/4. Llama al tipo de
la empresa 2 que opera a coste cero, L, y al tipo que opera a coste marginal 1/4,
H. La empresa 1 opera a coste cero, es decir tiene un único tipo, conocido por la
empresa 2. Calcula el equilibrio de Nash Bayesiano.
Solución:
Ejercicio 16 PS2. Considera los pagos dados por la siguiente tabla:
Jugador 1
X
Y
Jugador 2
L
R
θ, γ 1, 2
−1, γ θ, 0
Además θ ∈ {0, 2} para el jugador 1 y γ ∈ {1, 3} para el 2. Todos los pares
(θ, γ) tienen probabilidad 1/4. Define los elementos del juego bayesiano, incluidas
las estrategias. Describe el único equilibrio de Nash bayesiano en estrategias puras
de este juego.
Ejercicio extra. Considera dos empresas, 1 y 2. La empresa 1 decide si construir
(C) o no (NC) una planta. Simultáneamente la empresa 2 decide si entrar (E) o no
(NE) a la industria. La empresa 1 es de coste alto (H) o bajo (L) con probabilidad
p y 1 − p, p > 0, respectivamente. La empresa 2 tiene incertidumbre sobre el tipo
de la 1. Los pagos son. Si 1 es de coste alto (H):
Jugador 1
C
NC
Jugador 2
E
NE
0, −1 2, 0
2, 1
3, 0
10
Si 1 es de coste bajo (L):
Jugador 1
C
NC
Jugador 2
E
NE
1.5, −1 3.5, 0
2, 1
3, 0
Nota: Los pagos de la empresa 2 dependen de si 1 construye o no, pero no del
tipo de 1. Para 1, si es de coste alto (H), C está dominada por NC.
Se pide:
1) Describir los ingredientes del juego estático bayesiano.
2) Usar la forma estratética bayesiana para calcular los equilibrios (pista: dependen de p y hay un equilibrio el que el tipo bajo de la empresa 1 usa una estrategia
mixta).
4
Temas 4 y 5. Juegos Extensivos
5
Tema 6. Equilibrio de Nash Bayesiano Perfecto
En capı́tulos anteriores hemos visto juegos estáticos de información incompleta (la
naturaleza mueve y los agentes toman decisiones simultáneas). En este capı́tulo
veremos juegos de información incompleta o imperfecta donde los jugadores toman
decisiones secuenciales.
Modelos prominentes de información incompleta: Signaling: un agente (trabajador) toma un acción (nivel de educación) que señaliza su tipo a un socio (empresa).
Considera el siguiente juego:
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
[1 − q]
RE
Jugador 1
A
R
(1, 0)
(−1, −1)
Primero, el jugador 1 decide si dar o no un regalo. El jugador 2 no observa el
tipo de 1, sólo si se le ha ofrecido el regalo o no. El jugador 2, decide si aceptar o
rechazar.
FORMA ESTRATÉGICA BAYESIANA:
11
Jugador 1
N AN E
N A RE
RA N E
RA RE
Jugador 2
A
R
0, 0
0, 0
1 − p, 0 −(1 − p), −(1 − p)
p, p
−p, 0
1, p
−1, −(1 − p)
Equilibrios de Nash Bayesianos (y SPNE): (N A N E , R) y (RA RE , A).
¿Cuál es el problema con (N A N E , R)?:
El jugador 2 se comporta irracionalmente en su conjunto de información.
Los conceptos de equilibrio anteriores no identifican esto::
El equilibrio de Nash (Bayesiano) no requiere que los agentes se comporten
racionalmente en conjuntos de información a los que no llegamos. (Recuerda el
juego del entrante y el monopolista donde donde (ne, f) era Nash!!)
El SPNE no es capaz de resolver este problema aquı́. El SPNE no necesariamente
evalúa todos los conjuntos de información!
Intuitivamente, esto está pasando porque hay pocos subjuegos (propios)! En este
ejemplo no hay ninguno.
¿Cómo podrı́amos resolver esto?
Una solución: concepto de equilibrio que evalúe todos los conjuntos de información.
En el ejemplo anterior: lo que le pedirı́amos al jugador 2 es que bajo ninguna
creencia, sobre quién es el jugador 1, acepte el regalo.
El Equilibrio de Nash Bayesiano Perfecto, PBNE :
• Está compuesto por un perfil de estrategias y unas creencias que los jugadores
tienen en cada conjunto de información en el que les toca jugar.
• ¿Por qué necesitamos creencias? Es una forma de resolver la ”falta de subjuegos”.
• Requiere que cada conjunto de información sea evaluado. En cada conjunto de
información, cada jugador debe maximizar su utilidad, dadas sus creencias. Esto,
independientemente de si en equilibrio, llegamos a este conjunto de información o
está excluido - racionalidad secuencial-.
• Requiere que las creencias sean consistentes con las estrategias. Las creencias
son consistentes con las estrategias cuando son actualizaciones bayesianas de la
información a priori, dadas las estrategias, si esto es posible.
Definición: Un equilibrio de Nash Bayesiano Perfecto, esta compuesto por un
perfil de estrategias s, y unas creencias ci para cada jugador i, en cada conjunto de
información en el que le toca jugar, tal que:
1. Cada jugador especifica acciones óptimas, dadas sus creencias y las estrategias
de los demás.
12
2. Las creencias son consistentes con las estrategias, cuando sea posible.
En el juego anterior: (RA RE , A), q = p, es PBNE:
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
[1 − q]
RE
Jugador 1
A
R
(1, 0)
(−1, −1)
Dado RA RE , el jugador 2 actualiza la distribución a priori p, 1 − p, sobre el tipo
del jugador 1, usando Bayes. Esto es:
q = P (A|R) =
P (R|A)P (A)
p
= =p
P (R)
1
.
1 − q = P (E|R) =
P (R|E)P (E)
(1 − p)
=
= 1 − p.
P (R)
1
Dado (q, 1 − q), lo mejor que hace 2 dada la estrategia del jugador 1, es A. Dado
A, cualquier tipo del jugador 1 regala.
En el juego anterior: (N A N E , R) no es BPNE:
En este caso no es posible actualizar p usando Bayes, pues P (R) = 0, dada la
estrategia de 1.
En este caso q se interpreta como que ”en el evento sorpresa” en el que 2 observase
un regalo, decidiese rechazarlo. Pero no hay q que racionalize esto. R no es mejor
respuesta a (N A N E ) bajo ninguna creencia de 2 sobre el tipo de 1!!
¿Puede algún perfil donde 2 juegue R ser BPNE? No:
Si 1 juega, RA N E . Entonces 2:
q = P (A|R) =
P (R|A)P (A)
p
= =1
P (R)
p
.
1 − q = P (E|R) =
P (R|E)P (E)
0
= =0
P (R)
p
.
Entonces 2 prefiere desviarse y hacer A. Un razonaminento análogo se da para
y que 2 haga R.
N A RE
13
En juegos de información incompleta, donde algún jugador tiene varios tipos
llamamos:
Equilibrio Separador: Si para cada jugador, todo sus tipos se comportan de
manera differente (toman acciones diferentes).
Equilibrio Agrupador: Si para cada jugador, todos sus tipos se comportan
igual (toman la misma acción).
Equilibrio semi-separador/semi-agrupador: Si para algún jugador, algunos
tipos se comportan igual y otros se comportan de manera diferente a los anteriores.
En el ejemplo anterior, en el P BN E el jugador 1 regala bajo cualquier tipo.
Equilibrio agrupador.
Nota: PBNE y SPNE son conceptos equivalentes en juegos de información perfecta y completa (cada conjunto de informacion es un singleton). En otro caso PBNE
refina- es más estricto que- SPNE.
EJEMPLO 1: Considera el siguiente juego:
La empresa 1 decide si/cómo entrar. La empresa 2 decide L o R.
Empresa 1
Entry1
Entry2
Exit
Empresa 2
L
R
−1, −1 3, 0
−1, −1 2, 1
0, 2
0, 2
Es irracional que 2 haga L en su conjunto de información!. Resolviendo por
PBNE:
14
Supón que la empresa 1 mezcla (Entry1 , Entry2 , Exit) con probabilidad (pEntry1 , pEntry2 , pExit )
con pExit < 1. Dada la estrategia de la empresa 1 → creencias de 2:
q = P (entry1|2.1) =
P (2.1|entry1)pEntry1
pEntry1
=
,
P (2.1)
pEntry1 + pEntry2
1 − q = P (B|2.1) =
pEntry2
.
pEntry1 + pEntry2
Para cualquier creencia de 2, su utilidad se maximiza jugando R. Dado esto, 1
debe jugar Entry1 . P BN E: (Entry1 , R), ∀q.
EJEMPLO 2: PS2-TEMA7. EJERCICIO 19
Analiza si hay algún equilibrio de Nash Bayesiano Perfecto separador y/o agrupador (estrategias puras) del siguiente juego (recuerda que hay reportar estrategias
y creencias).
(4, 4)
I
Jugador 1
t = t1
a
(6, 4)
D
[q]
b
0.5
Jugador 2
Nat.
0.5
(4, 2)
I
(0, 0)
D
Jugador 1
t = t2
[1 − q]
a
b
(6, 0)
(0, 6)
Equilibrio agrupador:
• Considera que la estrategia del jugador 1 es DD. Dada DD, q = 0.5, entonces
2 hace b. Dado que 2 hace b, cada tipo del jugador 1 de cada tipo querrı́a desviarse
a I. Entonces DD no puede formar parte de un equilibrio.
• Considera que la estrategia del jugador 1 es II. Observa que si 2 eligisese a en
su conjunto de información, cada tipo del jugador 1 tendrı́a incentivos a desviarse
y elegir D. Para que II pueda formar parte de un equilibrio tiene que ser que:
4q + 0(1 − q) ≤ 0q + 6(1 − q).
Equilibrio agrupador: (II, b), q ≤ 3/5.
Equilibrio separador:
• Considera que la estrategia del jugador 1 es DI. Dada DI, q = 1, entonces 2
hace a. Dado que 2 hace a, el tipo 2 del jugador 1 quiere desviarse a D. DI no
puede formar parte de un equilibrio.
• Considera que la estrategia del jugador 1 es ID. Dada ID, q = 0, entonces 2
hace b. Dado que 2 hace b, el tipo 2 del jugador 1 quiere desviarse a I. ID no puede
formar parte de un equilibrio.
15
EJEMPLO 3: INVERSIÓN (Y REPUTACIÓN): Dos individuos deciden
si invertir conjuntamente en un proyecto.
El único SPNE (PBNE) de este juego es: s1 = N, S y s2 = N . Ninguno invierte!!
Considera una versión con información incompleta:
En este juego el PBNE es tal que, en presencia de tipos cooperadores, el tipo
ordinario ”invierte” con cierta probabilidad, para ”hacerse pasar” por cooperador.
Esto lo hace, no por querer ser cooperador, per se, sino porque 2 invertirá en ese
caso, y esto es bueno para él.
Procedamos:
16
Notas:
1. Jugador 1, tipo C: I’, B’.
2. Jugador 1, tipo O: S.
3. A determinar: Jugador 1, tipo O en su conjunto de información inicial (depende
de lo que 2 haga).
4. El jugador 2 selecciona I si 2q − 2(1 − q) ≥ 0, esto es, q ≥ 1/2.
ANÁLISIS:
Si Jugador 1, tipo O hace N , q ≡ P (C|I 0 ) = 1(1/4)/(1/4) = 1. Entonces 2
juega I. El Jugador 1, tipo O anticipa esto y entonces se quiere desviar a I. NO
EQUILIBRIO.
Si Jugador 1, tipo O hace I, q ≡ P (C|I 0 ) = 1(1/4)/1 = 1/4. Entonces 2 juega
N . El Jugador 1, tipo O anticipa esto y entonces se quiere desviar a N . NO
EQUILIBRIO.
Hay un equilibrio en estrategias mixtas: Jugador 1, tipo O mezcla entre N e I y
2 mezcla entre N e I.
Para que 1 mezcle debe estar indiferente entre N e I.
6s − 2(1 − s) = 0 → s = 1/4.
Para que 2 mezcle debe estar indiferente entre N e I → q = 1/2. Dada la
estrategia del jugador 1, tipo O: 1 − r juega N y r juega I y el tipo C juega I 0 ,
tenemos que:
q=
1
4
1 3r
+
4
4
17
.
Entonces r = 1/3.
PBNE: Jugador 2 invierte con s = 1/4, Jugador 1, tipo C: I’, B’ y Jugador 1,
tipo O, invierte con probabilidad r = 1/3, creencias: q = 1/2.
Nota: Este equilibrio es SPNE (en cada subjuego 1 hace lo mejor que puede
hacer. Puedes comprobar que es Nash del juego entero, es decir dada la estrategia
2 ningún tipo de 1 se desvı́a, y dada la estrategia de cada tipo de 1, 2 no se desvı́a.
Puedes calcular además equilibrios de Nash Bayesianos usando, por ejemplo, la
forma estratégica bayesiana (ex ante) o la versión ex-post.
18
Para practicar: Describe la matriz de pagos de la forma estratégica Bayesiana
de este juego. Encuentra los equilibrios de Nash Bayesianos en estrategias puras.
Encuentra los equilibrios de Nash perfectos Bayesianos. Recuerda que un equilibrio perfecto Bayesiano debe especificar creencias y estrategias. Señala cuáles son
separadores y cuáles agrupadores.
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
RE
Jugador 1
[1 − q]
A
R
(1, −1)
(−1, 0)
Pista: solo hay equilibrios agrupadores.
Otros ejercicios: exámenes de años anteriores, PS2, libros de referencia
(Strategy, Watson).
19
Microeconomı́a II ME CIDE, Primavera 2021
Teorı́a de Juegos
1
Tema 1. Juegos en forma normal
1.1
Interpretación del equilibrio de Nash.
Leer: The Nash equilibrium: a perspective
1.2
Supuestos generales y metodologı́a Capı́tulo 5, Strategy, second edition, Watson, J.
Antes de continuar con el análisis y comparar el equilibrio de Nash con otros conceptos de equilibrio, es importante hablar de los supuestos generales del modelaje
en teorı́a de juegos. Los supuestos son:
1. Racionalidad. asumimos que los jugadores actúan de acuerdo a sus preferencias. Brevemente, si las acciones de un jugador determinan, en parte, sus
resultados, este jugador elige la acción que maximiza su pago. Racionalidad no
implica que el jugador siempre quiere maximizar sus ganancias, pues puede ser
que se preocupe por los demás también -other regarding preferences, altruism-.
2. Conocimiento común. Con este concepto queremos expresar la idea de que
los jugadores entienden el juego que ser va a jugar. Un hecho H es conocimiento
común si cada jugador conoce H, cada jugador sabe que los demás saben H,
cada jugador sabe que cada otro jugador sabe que cada jugador sabe H, y ası́
ad infinitum. Una forma de ilustrat esto es pensar que los jugadores están
alrededor de una mesa donde el juego se presenta. Ası́, cada jugador conoce
el juego, puede verificar que los otros lo conocen y pueder verificar lo mismo
sobre cada uno de los jugadores. Este concepto se aplica igualmente a juegos
en forma extensiva.
1.3
Creencias, estrategias mixtas y pagos esperados. Capı́tulo 4, Strategy, second edition, Watson, J.
La idea de que los jugadores piensan en las estrategias que siguen los demás es
extremadamente importante.
Considera el dilema del prisionero. Imagina que el jugador 1 piensa que el jugador
2 elige C con probabilidad p y D con probabilidad 1−p. Entonces, p y 1−p constituye
una distribución de probabilidad sobre {C, D}.
Vamos a definir formalmente el concepto de creencia (belief), para juegos en
forma normal.
Definición 1. Formalmente, una creencia para el jugador i es una distribución
de probabilidad sobre las estrategias de los demás jugadores que no son i. Se denota
θ−i ∈ ∆S−i , donde ∆S−i es el conjunto de distribuciones de probabilidad sobre las
1
estrategias de todos los jugadores que no son i. Un concepto relacionado es el de
estrategia mixta.
Definición 2. Una estrategia mixta para i, σi ∈ Si , es el acto de seleccionar una
strategia, de acuerdo a una distribución de probabilidad.
Si una jugador elige una estrategia mixta o asigna probabilidades positivas a
varias estrategias de otros jugadores, este jugador no espera un pago particular por
seguro, sino un pago esperado (expected payoff).
Por ejemplo, si el juega si y considera que los demás juegan de acuerdo a θ−i :
ui (si , θ−i ) =
X
θ−i (s−i )ui (si , s−i )
(1)
s−i ∈S−i
Nota: date cuenta de que en este caso el jugador i tiene preferencias sobre distribuciones de probabilidad sobre resultados (no preferencias sobre resultados).
1.4
Dominancia y mejor respuesta. Capı́tulo 6, Strategy, second edition,
Watson, J.
Para relacionar posteriormente el equilibrio de Nash con otros conceptos de equilibrio, considera el siguiente ejemplo:
Jugador 2
L
R
U 2, 3 5, 0
Jugador 1
D 1, 0 4, 3
Para el jugador 1, U da mejor pago que D, independientemente de lo que haga
2. Técnicamente decimos que D está dominada por U , para 1. Para el jugador 2, L
es mejor que R, si el jugador 1 juega U , y lo contrario ocurre, si el jugador 1, juega
D. Para 2, ninguna estrategia está dominada.
Definición 3. Una estrategia (pura) si esta dominada, si hay otra estrategia
(pura o mixta) que da estrictamente mayor pago, para todas las estrategias de los
demás. Esto es, si existe σi ∈ ∆Si tal que ui (σi , s−i ) > ui (si , s−i ), para todas las
s−i ∈ S−i
Primera aproximación para resolver juegos: un jugador racional nunca juegas
estrategias (estrictamente) dominadas.
Esta aproximación implica que:
1. En el dilema del prisionero ningún jugador juega C!! aunque que ambos jueguen
C nos lleva a un resultado, pero para cada uno con respecto a que ambos jueguen
D (tensión social-individual).
2. En Matching pennies ningún jugador tiene estrategias dominadas. La predicción
de qué harán se vuelve confusa de aucerdo a este criterio.
2
Dado el ”problema” que observamos a partir del ejemplo de Matching pennies,
debemos explorar cómo los jugadores seleccionan sus estrategias, al menos de entre
aquellas que no son dominadas, a este conjunto lo llamamos U Di , para cada i. Para
ello, voy a introducir un concepto que nos va a ayudar.
Definición 4. Mejor respuesta (best reply or best response): Para i con
creencia θ−i ∈ ∆S−i , la estrategia si ∈ Si es una mejor respuesta dada θ−i si:
ui (si , θ−i ) ≥ ui (s0i , θ−i )
∀s0i ∈ S−i
(2)
El conjunto de mejores respuestas de i, dada la creenica θ−i sobre lo que hacen
los demás jugadores, se escribe BRi (θ−i ) (Ejemplo: páginas 56 y 57 libro.)
Además, llamamos Bi al conjunto de estrategias de i que son mejor respuesta a
alguna creencia. Esto es:
Bi = {si | existe θ−i
t.q
si ∈ BRi (θ−i )}
(3)
La relación entre mejor respuesta y estrategias no dominadas, se visualiza a través
del ejemplo en las páginas 59 y 60 libro. El resultado formal es como sigue.
Resultado: En un juego con dos jugadores y número finito de estrategias, Bi =
U Di , i = 1, 2.
Veremos un algoritmo para encontrar el conjunto Bi = U Di , para cada i.
Ejercicios:
Strategy, Watson, J, second edition:
1. Capı́tulo 4: ejercicio guiado página 41. Ejercicios 1,2,3,4 páginas 42 y 43.
2. Capı́tulo 6: ejercicio guiado página 62. Ejercicios 1,2,3,4 páginas 64 y 65.
1.5
Racionalizabiidad y dominancia iterada. Capı́tulo 7, Strategy, second edition, Watson, J.
Continuemos llevando el análisis a otro nivel. Considera el ejemplo de la figura 7.1
(página 67).
Para el jugador 1, ninguna estrategia está dominada. Esto es, el jugador 1 puede
jugar A o B, dependiendo de lo piense que va a hacer el jugador 2. Pero no hemos
terminado el análisis!.
Supón que es conocimiento común que ambos 1 y 2, son racionales (1 y 2 conocen
la matriz, 1 sabe que 2 conoce la matriz y vice versa, 1 sabe que 2 sabe que 1 conoce
la matriz, 2 sabe que 1 sabe que 2 conoce la matriz y ası́ ad infinitum, recuerda la
definición de common knowledge).
Si 1 se pone en la situación de 2, 1 sabe que 2 no juega X (está dominada por
Y ). Por tanto el jugador 1, debe asignar probabilidad cero a la estrategia Y por
parte del jugador 2.
3
Esto lleva a un nuevo juego donde la columna X ha sido eliminada. En este
nuevo juego, 1 nunca juega A (está dominada por B). Es más, 2 nunca juega X y
sabiendo que 1 lo sabe y que 1 es racional, 2 deduce que 1 nunca juega A. Esto lleva
a un nuevo juego donde la fila A ha sido eliminada. Si 2 asigna probabilidad uno al
hecho de que 1 juega B, el jugador 2 juega Z (Y está dominada). La predicción de
esta lógica es que con jugadores racionales y conocimiento común de la racionalidad
el único resultado posibles es (B, Z), que da un vector de pagos (1, 2).
A este procedimiento ( que se basa en el hecho de que la racionalidad es conocimiento
común) se le llama eliminación iterada de strategias estrictamente dominadas, o,
DOMINANCIA ITERADA.
El conjunto de estrategias que sobreviven a este proceso reciben el nombre de
ESTRATEGIAS RACIONALIZABLES.
Nota: lo que estamos haciendo es eliminar estrategias que nunca son mejores
respuestas.
Tarea:
1. ¿Puedes probar con el ejemplo de la figura 7.3 (página 70)?
2. ¿Puedes hacer el ejercicio guiado de la página 72?
3. Otros ejercicios: 1,2 página 74.
2
Tema 2. Estrategias mixtas.
Leer Capı́tulo 11, Strategy, second edition, Watson, J.
Ejercicios:
1. Capı́tulo 11 Waston, ejercicios 2,4 y 5, página 129.
2. Estudia el ejercicio guiado de la página 128 del capı́tulo 11 de Watson. Entiende
cómo se obtiene el equilibrio en estrategias mixtas. Estudia si para este juego
hay algún perfil de estrategias puras que sea un equilibrio.
3. Estudia si el juego que ilustra el dilema del prisionero tiene algún equilibrio
en estrategias mixtas. Calcúlalo si existe. Si no existe, ¿puedes argumentar el
porqué?
3
Tema 3. Juegos estáticos de information incompleta
Leer Watson [W], capı́tulo 26 y Osborne. M [O], capı́tulo 9.
3.1
Motivación:
Hasta ahora hemos discutido escenarios donde el juego es conocimiento común. En
particular, los individuos conocen los pagos (funciones de utilidad). Sin embargo,
puede haber situaciones donde los individuos no tienen información completa sobre
4
sobre sus oponentes. Dicho de otro modo, los oponentes tienen información privada.
Por ejemplo:
1. Cuando dos empresas compiten, cada una ellas puede no saber si la otra es una
empresa que opera con costes bajos o con coste altos. Es decir cada una de las
empresas no conoce tipo de la otra. (Ej: duopolio de Cournot, con empresas
que no conocen los costes de los rivales).
2. Subastas donde los jugadores no conocen cómo otros jugadores valoran el bien
subastado
3. Contribuciones privadas a un bien público cuando los individuos no conocen
cómo otros valoran el bien.
4. Los paı́ses pueden discutir acuerdos sobre el cambio climático, evaluando de
forma diferente los costes y los beneficios (sin que los demás sepan cómo
evalúan).
En general, esta información privada debe ser tenida en cuenta por los jugadores,
si quieren formarse expectativas sobre cómo los demás se comportan.
Ejemplo: El siguiente es un juego en forma normal donde uno de los jugadores
tiene información privada. Hay dos jugadores. El jugador 1 no sabe si el jugador 2
prefiere coordinarse con la acción de 1 (matriz izquierda), o anti-coordinarse (matriz
derecha).
Jugador 1
O
B
Jugador 2
O
B
2, 1 0, 0
0, 0 1, 2
Jugador 1
O
B
Jugador 2
O
B
2, 0 0, 2
0, 1 1, 0
En la matriz de la izquierda el jugador 2, está mejor si se coordina con el jugador
1, es decir está mejor jugando la misma acción que el jugador 1, que jugando una
acción diferente. Lo contrario ocurre en la matriz de la derecha. Este es un ejemplo
donde un jugador, 1, no conoce los pagos del otro, 2.
Dos definiciones, antes de continuar:
Información imperfecta: los jugadores no están informados de los movimientos
que hacen otros jugadores.
Información incompleta: Los jugadores no están informados de ciertas caracterı́sticas del juego en el que están (por ejemplo, pagos de otros jugadores)
Ejemplo:
La representación en forma extensiva del juego anterior (ejemplo 1) es como
sigue (entendemos un juego bayesino de información incompleta - algún individuo
no conoce los pagos de otro- como un juego en forma extensiva con información
5
imperfecta (alguien no conoce las acciones de un jugador, naturaleza, que decide en
el momento cero, Harsanyi (1968)):
Los pagos del jugador 1 cuando elige B u O, dependen de si el jugador 2 prefiere
coordinarse (C) con él o no (N). Para computar estos pagos, el jugador 1 tiene que
tener alguna idea de con qué probabilidad el jugador 2 es de cada tipo, es decir hay
incertidumbre. Supón que el jugador 1 asigna probabilidad 1/2 a cada uno de los
tipos del jugador 2. De manera formal tenemos:
1. Individuos. I = {1, 2}.
2. Acciones Ai = {O, B}, i = 1, 2
3. Tipos: Θ1 = {x} y Θ2 = {C, N }, donde θi ∈ Θi , i = 1, 2. Θ = ×Θi , θ ∈ Θ.
4. Probabilidades (a priori): p(x, C) = 1/2, p(x, N ) = 1/2, p(x) = 1, p(C) = 1/2,
p(N ) = 1/2.
5. Pagos: descritos en las matrices anteriores.
Queremos representar la idea de que cada jugador conoce sus pagos, pero tiene
incertidumbre sobre los pagos de los demás. Para ello describimos los tipos de cada
individuo. Además, para cada individuo, cada tipo tiene una función de pagos
diferente (los pagos pueden tb depender de los tipos del otro individuo).
El conjunto de estrategias de cada individuo, Si , ahora es una colección de funciones si : Θi → Ai . Es decir cada estrategia para un individuo debe indicar lo
que harı́a si fuese de cada uno de los tipos. ¿Por qué es esto ası́? ¿Si al final el
individuo 2 sabe quién es, por qué tendrı́a que especificar qué harı́a si fuera de un
tipo que nunca va a ocurrir? Razón: la acción óptima del jugador 1 depende de lo
que él piense sobre lo que el jugador 2 va a hacer si es de cada tipo, puesto que no
conoce el tipo. Intuitivamente: lo que reflejan las estrategias de 2 son precisamente
las expectativas que 1 tiene sobre lo que va a hacer 2.
Resolviendo por equilibrio de Nash (Bayesiano):
6
Dada la probabilidad a priori, cada individuo forma creencias (probabilidades
a posteriori) sobre la realización de los tipos de los demás: para cada individuo
i, j = 1, 2, pi (θj |θi ). Condicional en que el jugador i es de un determinado tipo (en
el ejemplo el tipo de 1 es único), cuál es la probabilidad de encontrarme con cada tipo
de j. Lo mismo para el jugador 2. Más especı́ficamente, p1 (C|x) = p1 (N |x) = 1/2
y p2 (x|C) = p2 (x|N ) = 1.
En el juego anterior, el perfil (O, OB) es un equilibrio de Nash (Bayesiano) en
estrategias puras. En otras palabras, para el individuo i, cada uno de sus tipos, hace
su mejor respuesta:
• Para 1 tiene que ocurrir que:
u1 (O, O)p(C|x) + u1 (O, B)p(N |x) = 2(1/2) + 0(1/2) = 1 > u1 (B, O)p(C|x) +
u1 (B, B)p(N |x) = 0(1/2) + 1(1/2) = 1/2. Esto es, O es la mejor respuesta de 1 a
que 2 juegue OB.
• Para 2, tiene que ocurrir que, si 2 es de tipo C:
u2 (O, O)p(x|C) = 1(1) > u2 (O, B)p(x|C) = 0(1).
Si 2 es de tipo N :
u2 (O, B)p(x|N ) = 2(1) > u2 (O, O)p(x|N ) = 0(1).
Para cada tipo del jugador 2, la acción propuesta es la mejor respuesta a que 1
juegue O.
Esta es una visión ex-post. En ella, los tipos se realizan y el jugador 1 no
conoce el tipo de 2, mientras que 2 conoce su tipo y el de 1, ya que es único. En
esta representación cada tipo de un jugador es tratado como un jugador diferente
(supuesto ficticio de que hay universos paralelos en los que cada jugador se ”encarna”
en sus tipos).
Representación ex-ante. Con ella, hacemos el supuesto ficiticio de que al jugador
no se le ha asignado el tipo. Esto permite representar el juego en la forma estrategia
bayesiana:
Jugador 1
O
B
Jugador 2
O
B
2, 1 0, 0
0, 0 1, 2
Jugador 1
O
B
Jugador 1
Jugador
OO OB
1
3
2,
1,
2
2
1 1
0,
,0
2 2
2
BO
1, 0
1 3
,
2 2
O
B
Jugador 2
O
B
2, 0 0, 2
0, 1 1, 0
BB
0, 1
1, 1
Ası́ los individuos, antes de conocer sus tipos, computan los pagos esperados:
• la utilidad de 2 en el perfil (O, OB) es: p(x, C)u2 (O, O) + p(x, N )u2 (O, B) =
(1/2)1 + (1/2)2 = 3/2
• la utilidad de 2 en el perfil (O, BB) es: p(x, C)u2 (O, B) + p(x, N )u2 (O, B) =
(1/2)0 + (1/2)2 = 1
7
• la utilidad de 1 en el perfil (O, OB) es:
p(x, C)u1 (O, O) + p(x, N )u1 (O, B) = (1/2)2 + (1/2)0 = 1
• la utilidad de 1 en el perfil (B, OB) es:
p(x, C)u1 (B, O) + p(x, N )u1 (B, B) = (1/2)0 + (1/2)1 = 1/2
La visión ex-ante y ex-post son equivalentes.
Si s
La forma estratégica bayesiana (ex-ante) es especialmente útil cuando podemos
usar matrices de pagos, pues podemos usar todas las técnicas que hemos aprendido
hasta ahora. En la matriz anterior, observa que para el jugador 2, OO está dominada
por BB, entonces 2 nunca juega OO. Para el juego que queda al eliminar la primera
columna, aplicamos el concepto de equilibrio de Nash, como siempre. TAREA: os
dejo que hagáis los equilibrios en estrategias mixtas. Para ello:
1. Demuestra que si hay equilibrio en estrategias mixtas, en él, la probabilidad
que el jugador 2 asigna a BB es positiva. Puedes suponer que esta probabilidad
es cero, y concluir que entonces no hay equilibrio en mixtas.
2. Considera los tres casos posibles, esto es, que para el jugador 2:
(1) OB tiene probabilidad cero y BO tiene probabilidad positiva. Determina si
hay equilibrio en mixtas y descrı́belo si es el caso. Pista: hay un equilibrio.
(2) OB tiene probabilidad positiva y BO tiene probabilidad cero. Determina si
hay equilibrio en mixtas y desrı́belo si es el caso. Pista: hay un equilibrio.
(3) OB y BO tienen probabilidad positiva. Determina si hay equilibrio en
mixtas y desrı́belo si es el caso. Pista: no hay equilibrio.
3.2
Aspectos formales:
Un juego bayesiano estático G es una 5-tupla G = (N, (Θi )i∈N , (Si )i∈N , P, (ui )i∈N )
donde:
1. Conjunto de jugadores: N = {1, 2, ..., n}, y para cada i ∈ N :
2. Conjunto de tipos: Θi donde Θ = ×Θi ; θi ∈ Θi , θ ∈ Θ. Define θ ≡ (θ−i , θi ).
3. Conjunto de acciones Ai , A = ×Ai . El conjunto de estrategias de i, Si , contiene
funciones si : Θi → Ai . Es decir, una estrategia es una especificación de la
acción de cada tipo. Además, S = ×Si .
4. Distribución de probabilidad conjunta: p(θ1 , ..., θn ), p(θi ) > 0, ∀θi ∈ Θi . Cada
jugador i forma creencias sobre los tipos de los otros, −i, fijado su tipo: pi :
Θi → ∆(Θ−i ). En particular, dado un tipo de i, sus creencias sobre los tipos
de los demás se construyen usando Bayes:
p(θ−i , θi )
p(θ−i , θi )
=P
.
pi (θ−i |θi ) =
p(θi )
θ−i ∈Θ−i p(θ−i , θi )
8
5. Pagos ui : Θ × A → R para cada i.
Supuestos: Los pagos no son conocimiento común (información incompleta). La
distribución de probabilidad de acuerdo a la cual la naturaleza seleciona los tipos,
es conocimiento común.
Definición. Equilibrio de Nash Bayesiano. Un perfil s∗ = (s∗1 , ..., s∗n ) (recuerda que para cada individuo s∗i indica lo hace para cada uno de sus tipos.) es un
equilibrio de Nash Bayesiano si para cada i y cada θi ∈ Θi , s∗i (θi ) resuelve:
X
maxsi
ui (si (θi ), s∗−i (θ−i ))pi (θ−i |θi ).
(4)
θ−i ∈Θ−i
La expresión anterior significa que si estamos en un equilibrio es porque cada tipo
de cada individuo, está usando la mejor respuesta dado lo que hacen los demás. Esta
es la visión ex-post (donde cada individo conoce su tipo, pero no el de los demás).
La visión ex-ante me indica que un perfil s∗ es un equilibrio si para cada i, s∗i
resuelve:
maxsi
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i , θi )
(5)
θ∈Θ
Como adopto la visión ex-ante (que da lugar a la forma estratégica bayesiana) los
individuos calculan la utilidad esperada para todos los posibles eventos θ ≡ (θ−i , θi )
******************************************************
La visión ex-ante y ex-post son equivalentes: Considera que s∗ es la
solución de (5) para i. Entonces s∗ maximiza
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i , θi ) =
θ∈Θ
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )p(θi ) =
θ∈Θ
X
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )p(θi ) =
θi ∈Θi θ−i ∈Θ−i
X
θi ∈Θi
X
p(θi )
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )
θ−i ∈Θ−i
donde
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )
θ−i ∈Θ−i
es la expresión en (4).
Ejemplo: El perfil (O, OB) es un equilibrio de Nash. Según (5). La utilidad de 1
en el perfil (O, OB) es p(x, C)u1 (O, O) + p(x, N )u1 (O, B) = (1/2)2 + (1/2)0 = 1 (∗).
Esta expresión se puede escribir como p(x)[p(C|x)u1 (O, O) + p(N |x)u1 (O, B)] = 1
(∗∗), Si dado OB, 1 maximiza con O en (∗) es porque cada una de las utilidades en
9
(∗∗) es máxima, por tanto, su maximizo 5, maximizo 4 para cada tipo del individuo
en cuestión. El camino inverso también se cumple.
La utilidad de 2 en el perfil (O, OB) es: p(x, C)u2 (O, O) + p(x, N )u2 (O, B) =
(1/2)1+(1/2)2 = 3/2 (∗∗). Esta expresión se puede escribir como p(C)p(x|C)u1 (O, O)+
p(N )p(x|N )u1 (O, B) = 3/2 (∗∗∗), Si dado O, 2 maximiza con OB en (∗∗) es porque
cada una de las utilidades en (∗∗∗) es máxima, por tanto, si maximizo (5) maximizo
(4) para cada tipo del individuo en cuestión. El camino inverso también se cumple.
******************************************************
Nota: Todo juego (bayesiano) finito (número finito de jugadores y número finito
de estrategias) tiene un equilibrio de Nash (Bayesiano), puro o mixto.
Ejercicios
Ejercicio 1. Duopolio de Cournot con información incompleta. Supón
que dos empresas, 1 y 2, compiten en una industria, donde la demanda viene dada
por P = 1 − Q, donde Q es la cantidad total producida en la industria. Ası́,
Q = q1 + q2 , donde qi es la cantidad producida por la empresa i = 1, 2. El coste
con el que opera la empresa 2 es información privada. Con probabilidad 1/2 opera
a coste cero y con probabilidad 1/2 opera a coste marginal 1/4. Llama al tipo de
la empresa 2 que opera a coste cero, L, y al tipo que opera a coste marginal 1/4,
H. La empresa 1 opera a coste cero, es decir tiene un único tipo, conocido por la
empresa 2. Calcula el equilibrio de Nash Bayesiano.
Solución:
Ejercicio 16 PS2. Considera los pagos dados por la siguiente tabla:
Jugador 1
X
Y
Jugador 2
L
R
θ, γ 1, 2
−1, γ θ, 0
Además θ ∈ {0, 2} para el jugador 1 y γ ∈ {1, 3} para el 2. Todos los pares
(θ, γ) tienen probabilidad 1/4. Define los elementos del juego bayesiano, incluidas
las estrategias. Describe el único equilibrio de Nash bayesiano en estrategias puras
de este juego.
Ejercicio extra. Considera dos empresas, 1 y 2. La empresa 1 decide si construir
(C) o no (NC) una planta. Simultáneamente la empresa 2 decide si entrar (E) o no
(NE) a la industria. La empresa 1 es de coste alto (H) o bajo (L) con probabilidad
p y 1 − p, p > 0, respectivamente. La empresa 2 tiene incertidumbre sobre el tipo
de la 1. Los pagos son. Si 1 es de coste alto (H):
Jugador 1
C
NC
Jugador 2
E
NE
0, −1 2, 0
2, 1
3, 0
10
Si 1 es de coste bajo (L):
Jugador 1
C
NC
Jugador 2
E
NE
1.5, −1 3.5, 0
2, 1
3, 0
Nota: Los pagos de la empresa 2 dependen de si 1 construye o no, pero no del
tipo de 1. Para 1, si es de coste alto (H), C está dominada por NC.
Se pide:
1) Describir los ingredientes del juego estático bayesiano.
2) Usar la forma estratética bayesiana para calcular los equilibrios (pista: dependen de p y hay un equilibrio el que el tipo bajo de la empresa 1 usa una estrategia
mixta).
4
Temas 4 y 5. Juegos Extensivos
5
Tema 6. Equilibrio de Nash Bayesiano Perfecto
En capı́tulos anteriores hemos visto juegos estáticos de información incompleta (la
naturaleza mueve y los agentes toman decisiones simultáneas). En este capı́tulo
veremos juegos de información incompleta o imperfecta donde los jugadores toman
decisiones secuenciales.
Modelos prominentes de información incompleta: Signaling: un agente (trabajador) toma un acción (nivel de educación) que señaliza su tipo a un socio (empresa).
Considera el siguiente juego:
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
[1 − q]
RE
Jugador 1
A
R
(1, 0)
(−1, −1)
Primero, el jugador 1 decide si dar o no un regalo. El jugador 2 no observa el
tipo de 1, sólo si se le ha ofrecido el regalo o no. El jugador 2, decide si aceptar o
rechazar.
FORMA ESTRATÉGICA BAYESIANA:
11
Jugador 1
N AN E
N A RE
RA N E
RA RE
Jugador 2
A
R
0, 0
0, 0
1 − p, 0 −(1 − p), −(1 − p)
p, p
−p, 0
1, p
−1, −(1 − p)
Equilibrios de Nash Bayesianos (y SPNE): (N A N E , R) y (RA RE , A).
¿Cuál es el problema con (N A N E , R)?:
El jugador 2 se comporta irracionalmente en su conjunto de información.
Los conceptos de equilibrio anteriores no identifican esto::
El equilibrio de Nash (Bayesiano) no requiere que los agentes se comporten
racionalmente en conjuntos de información a los que no llegamos. (Recuerda el
juego del entrante y el monopolista donde donde (ne, f) era Nash!!)
El SPNE no es capaz de resolver este problema aquı́. El SPNE no necesariamente
evalúa todos los conjuntos de información!
Intuitivamente, esto está pasando porque hay pocos subjuegos (propios)! En este
ejemplo no hay ninguno.
¿Cómo podrı́amos resolver esto?
Una solución: concepto de equilibrio que evalúe todos los conjuntos de información.
En el ejemplo anterior: lo que le pedirı́amos al jugador 2 es que bajo ninguna
creencia, sobre quién es el jugador 1, acepte el regalo.
El Equilibrio de Nash Bayesiano Perfecto, PBNE :
• Está compuesto por un perfil de estrategias y unas creencias que los jugadores
tienen en cada conjunto de información en el que les toca jugar.
• ¿Por qué necesitamos creencias? Es una forma de resolver la ”falta de subjuegos”.
• Requiere que cada conjunto de información sea evaluado. En cada conjunto de
información, cada jugador debe maximizar su utilidad, dadas sus creencias. Esto,
independientemente de si en equilibrio, llegamos a este conjunto de información o
está excluido - racionalidad secuencial-.
• Requiere que las creencias sean consistentes con las estrategias. Las creencias
son consistentes con las estrategias cuando son actualizaciones bayesianas de la
información a priori, dadas las estrategias, si esto es posible.
Definición: Un equilibrio de Nash Bayesiano Perfecto, esta compuesto por un
perfil de estrategias s, y unas creencias ci para cada jugador i, en cada conjunto de
información en el que le toca jugar, tal que:
1. Cada jugador especifica acciones óptimas, dadas sus creencias y las estrategias
de los demás.
12
2. Las creencias son consistentes con las estrategias, cuando sea posible.
En el juego anterior: (RA RE , A), q = p, es PBNE:
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
[1 − q]
RE
Jugador 1
A
R
(1, 0)
(−1, −1)
Dado RA RE , el jugador 2 actualiza la distribución a priori p, 1 − p, sobre el tipo
del jugador 1, usando Bayes. Esto es:
q = P (A|R) =
P (R|A)P (A)
p
= =p
P (R)
1
.
1 − q = P (E|R) =
P (R|E)P (E)
(1 − p)
=
= 1 − p.
P (R)
1
Dado (q, 1 − q), lo mejor que hace 2 dada la estrategia del jugador 1, es A. Dado
A, cualquier tipo del jugador 1 regala.
En el juego anterior: (N A N E , R) no es BPNE:
En este caso no es posible actualizar p usando Bayes, pues P (R) = 0, dada la
estrategia de 1.
En este caso q se interpreta como que ”en el evento sorpresa” en el que 2 observase
un regalo, decidiese rechazarlo. Pero no hay q que racionalize esto. R no es mejor
respuesta a (N A N E ) bajo ninguna creencia de 2 sobre el tipo de 1!!
¿Puede algún perfil donde 2 juegue R ser BPNE? No:
Si 1 juega, RA N E . Entonces 2:
q = P (A|R) =
P (R|A)P (A)
p
= =1
P (R)
p
.
1 − q = P (E|R) =
P (R|E)P (E)
0
= =0
P (R)
p
.
Entonces 2 prefiere desviarse y hacer A. Un razonaminento análogo se da para
y que 2 haga R.
N A RE
13
En juegos de información incompleta, donde algún jugador tiene varios tipos
llamamos:
Equilibrio Separador: Si para cada jugador, todo sus tipos se comportan de
manera differente (toman acciones diferentes).
Equilibrio Agrupador: Si para cada jugador, todos sus tipos se comportan
igual (toman la misma acción).
Equilibrio semi-separador/semi-agrupador: Si para algún jugador, algunos
tipos se comportan igual y otros se comportan de manera diferente a los anteriores.
En el ejemplo anterior, en el P BN E el jugador 1 regala bajo cualquier tipo.
Equilibrio agrupador.
Nota: PBNE y SPNE son conceptos equivalentes en juegos de información perfecta y completa (cada conjunto de informacion es un singleton). En otro caso PBNE
refina- es más estricto que- SPNE.
EJEMPLO 1: Considera el siguiente juego:
La empresa 1 decide si/cómo entrar. La empresa 2 decide L o R.
Empresa 1
Entry1
Entry2
Exit
Empresa 2
L
R
−1, −1 3, 0
−1, −1 2, 1
0, 2
0, 2
Es irracional que 2 haga L en su conjunto de información!. Resolviendo por
PBNE:
14
Supón que la empresa 1 mezcla (Entry1 , Entry2 , Exit) con probabilidad (pEntry1 , pEntry2 , pExit )
con pExit < 1. Dada la estrategia de la empresa 1 → creencias de 2:
q = P (entry1|2.1) =
P (2.1|entry1)pEntry1
pEntry1
=
,
P (2.1)
pEntry1 + pEntry2
1 − q = P (B|2.1) =
pEntry2
.
pEntry1 + pEntry2
Para cualquier creencia de 2, su utilidad se maximiza jugando R. Dado esto, 1
debe jugar Entry1 . P BN E: (Entry1 , R), ∀q.
EJEMPLO 2: PS2-TEMA7. EJERCICIO 19
Analiza si hay algún equilibrio de Nash Bayesiano Perfecto separador y/o agrupador (estrategias puras) del siguiente juego (recuerda que hay reportar estrategias
y creencias).
(4, 4)
I
Jugador 1
t = t1
a
(6, 4)
D
[q]
b
0.5
Jugador 2
Nat.
0.5
(4, 2)
I
(0, 0)
D
Jugador 1
t = t2
[1 − q]
a
b
(6, 0)
(0, 6)
Equilibrio agrupador:
• Considera que la estrategia del jugador 1 es DD. Dada DD, q = 0.5, entonces
2 hace b. Dado que 2 hace b, cada tipo del jugador 1 de cada tipo querrı́a desviarse
a I. Entonces DD no puede formar parte de un equilibrio.
• Considera que la estrategia del jugador 1 es II. Observa que si 2 eligisese a en
su conjunto de información, cada tipo del jugador 1 tendrı́a incentivos a desviarse
y elegir D. Para que II pueda formar parte de un equilibrio tiene que ser que:
4q + 0(1 − q) ≤ 0q + 6(1 − q).
Equilibrio agrupador: (II, b), q ≤ 3/5.
Equilibrio separador:
• Considera que la estrategia del jugador 1 es DI. Dada DI, q = 1, entonces 2
hace a. Dado que 2 hace a, el tipo 2 del jugador 1 quiere desviarse a D. DI no
puede formar parte de un equilibrio.
• Considera que la estrategia del jugador 1 es ID. Dada ID, q = 0, entonces 2
hace b. Dado que 2 hace b, el tipo 2 del jugador 1 quiere desviarse a I. ID no puede
formar parte de un equilibrio.
15
EJEMPLO 3: INVERSIÓN (Y REPUTACIÓN): Dos individuos deciden
si invertir conjuntamente en un proyecto.
El único SPNE (PBNE) de este juego es: s1 = N, S y s2 = N . Ninguno invierte!!
Considera una versión con información incompleta:
En este juego el PBNE es tal que, en presencia de tipos cooperadores, el tipo
ordinario ”invierte” con cierta probabilidad, para ”hacerse pasar” por cooperador.
Esto lo hace, no por querer ser cooperador, per se, sino porque 2 invertirá en ese
caso, y esto es bueno para él.
Procedamos:
16
Notas:
1. Jugador 1, tipo C: I’, B’.
2. Jugador 1, tipo O: S.
3. A determinar: Jugador 1, tipo O en su conjunto de información inicial (depende
de lo que 2 haga).
4. El jugador 2 selecciona I si 2q − 2(1 − q) ≥ 0, esto es, q ≥ 1/2.
ANÁLISIS:
Si Jugador 1, tipo O hace N , q ≡ P (C|I 0 ) = 1(1/4)/(1/4) = 1. Entonces 2
juega I. El Jugador 1, tipo O anticipa esto y entonces se quiere desviar a I. NO
EQUILIBRIO.
Si Jugador 1, tipo O hace I, q ≡ P (C|I 0 ) = 1(1/4)/1 = 1/4. Entonces 2 juega
N . El Jugador 1, tipo O anticipa esto y entonces se quiere desviar a N . NO
EQUILIBRIO.
Hay un equilibrio en estrategias mixtas: Jugador 1, tipo O mezcla entre N e I y
2 mezcla entre N e I.
Para que 1 mezcle debe estar indiferente entre N e I.
6s − 2(1 − s) = 0 → s = 1/4.
Para que 2 mezcle debe estar indiferente entre N e I → q = 1/2. Dada la
estrategia del jugador 1, tipo O: 1 − r juega N y r juega I y el tipo C juega I 0 ,
tenemos que:
q=
1
4
1 3r
+
4
4
17
.
Entonces r = 1/3.
PBNE: Jugador 2 invierte con s = 1/4, Jugador 1, tipo C: I’, B’ y Jugador 1,
tipo O, invierte con probabilidad r = 1/3, creencias: q = 1/2.
Nota: Este equilibrio es SPNE (en cada subjuego 1 hace lo mejor que puede
hacer. Puedes comprobar que es Nash del juego entero, es decir dada la estrategia
2 ningún tipo de 1 se desvı́a, y dada la estrategia de cada tipo de 1, 2 no se desvı́a.
Puedes calcular además equilibrios de Nash Bayesianos usando, por ejemplo, la
forma estratégica bayesiana (ex ante) o la versión ex-post.
18
Para practicar: Describe la matriz de pagos de la forma estratégica Bayesiana
de este juego. Encuentra los equilibrios de Nash Bayesianos en estrategias puras.
Encuentra los equilibrios de Nash perfectos Bayesianos. Recuerda que un equilibrio perfecto Bayesiano debe especificar creencias y estrategias. Señala cuáles son
separadores y cuáles agrupadores.
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
RE
Jugador 1
[1 − q]
A
R
(1, −1)
(−1, 0)
Pista: solo hay equilibrios agrupadores.
Otros ejercicios: exámenes de años anteriores, PS2, libros de referencia
(Strategy, Watson).
6
Tema 7. Juegos repetidos
En este tema veremos situaciones donde los agentes (individuos, empresas) se ven
envueltos en interacciones de largo plazo (coautorı́as, competencia en industrias,
relaciones laborales).
En general, las relaciones pasadas pueden afectar a las relaciones futuras por
medio de mecanismos reputacionales.
6.1
Juegos repetidos finitos
Considera t = 1, 2, ..., T , T < ∞. En cada periodo t los jugadores juegan un juego
en forma estratégica -stage game- G = (I, (Ai )i∈I , (ui )i∈I ) (juego en forma normal),
sabiendo lo que cada jugador ha hecho en el pasado (monitoreo perfecto).
Un juego repetido - repeated game-, GT , consiste en repeticiones de G. El pago
de cada individuo es la suma (descontada) de los pagos en cada periodo.
Llamamos a las estrategias del juego estático G, acciones. El término estrategia
se reserva para el comportamiento en el juego GT .
Para cada jugador i ∈ I, una estrategia en GT prescribe: una acción en cada
stage game, esto es, en cada t, para cada historia ht ≡ (a0 , ..., at−1 ), donde, para un
t arbitrario, at = (a1t , a2t , ..., aIt ). Recuerda que A = ×Ai . Ası́, at ∈ A y ht ∈ At−1 ,
donde At−1 es el cartesiano de A, t − 1 veces.
Formalmente: sit : At−1 → Ai , t = 1, ..., T y si = (si1 , si2 , ..., siT ).
19
Pagos:
U
i,T
=
T
X
β t−1 uit (at ),
t=1
donde β ∈ (0, 1] es factor de descuento (común).
Ejemplo 1: El dilema del prisionero, t = 1, 2. Tenemos G:
Jugador 2
C
D
C 5, 5 0, 6
Jugador 1
D 6, 0 1, 1
Una estrategia de 1: s11 (∅) = D, s12 (CC) = D, s12 (CD) = D, s12 (DC) = D,
s12 (DD) = D.
Una estrategia de 2: s21 (∅) = D, s22 (CC) = D, s22 (CD) = D, s22 (DC) = D,
s22 (DD) = D.
¿Cuántas estrategias tiene cada jugador?: En t = 2 hay cuatro posibles historias,
CC, CD, DC, DD, para cada una de ellas el jugador 1 elige, entre C o D (2 posibles elecciones): tenemos 16 posibles combinaciones. En t = 1 tenemos 2 posibles
acciones, C o D. Hay 32 estrategias para cada jugador, con dos periodos!. Algunas
de ellas:
1. Cooperar siempre: si1 = C, sit (ht ) = C para cada historia ht , para cada t, para
cada i
si1 (∅) = D, si2 (CC) = C, si2 (CD) = C, si2 (DC) = C, si2 (DD) = C.
2. Traicionar siempre: si1 = D, sit (ht ) = D para cada historia ht , para cada t,
para cada i.
3. Grim trigger: si1 = C, sit = C, para cada t, si y sólo si h(t) es tal que cada
oponente, juega C, para cada i.
20
s11 (∅) = C, s12 (CC) = C, s12 (CD) = D, s12 (DC) = C, s12 (DD) = D.
s21 (∅) = C, s22 (CC) = C, s22 (CD) = C, s22 (DC) = D, s22 (DD) = D.
4. Grim trigger modificada: s1i = C, sit = C, para cada t, si y sólo si h(t) es tal
que cada jugador, incluido i, juega C, para cada i
si1 (∅) = C, si2 (CC) = C, si2 (CD) = D, si2 (DC) = D, si2 (DD) = D.
5. Tit for tat: s1i = C, sit , para cada t, para cada i es igual a la acción inmediatamente anterior del oponente j 6= i,
s11 (∅) = C, s12 (CC) = C, s12 (CD) = D, s12 (DC) = C, s12 (DD) = D.
s21 (∅) = C, s22 (CC) = C, s22 (CD) = C, s22 (DC) = D, s22 (DD) = D.
SPNE del ejemplo 1. En este juego hay 4 subjuegos propios. Estos corresponden
a la última etapa del juego, t = 2, después de cada posible historia en t = 1. En
cada uno de ellos (D, D) es N E. Despúes de cada historia estamos añadiendo una
constante a los pagos de cada jugador, y añadir una constante no altera el equilibrio.
Ası́ las acciones en el futuro (t = 2) son independientes de lo que se juega en el
presente (t = 1). Como en el futuro siempre se juega (D, D). Los pagos en (t = 1),
fijado el futuro (t = 2) son:
Jugador 2
C
D
C 6, 6 1, 7
Jugador 1
D 7, 1 2, 2
El único equilibrio es (D, D). Ası́, el SPNE (único): cada jugador traiciona
siempre: si1 (∅) = D y si2 (ht ) = D, i = 1, 2, para cada ht .
s11 (∅) = D, s12 (CC) = D, s12 (CD) = D, s12 (DC) = D, s12 (DD) = D.
s21 (∅) = D, s22 (CC) = D, si2 (CD) = D, s22 (DC) = D, s22 (DD) = D.
Otra forma de ver que el perfil es SP N E, es: (i) es N E del juego entero: dada
la estrategia de 1, a 2 no le interesa desviarse de su estrategia ni en t = 1, ya que
(D, D) es N E, ni en t = 2, ya que (D, D) es N E. (ii) además en t = 2 jugar (D, D)
es N E de cada subjugego
¿Qué ocurrirı́a si t = 0, 1, ..., T ? Lo mismo. En t = T se juega (D, D), después
de cada historia. Por tanto lo se haga en t = T − 1 no tiene efecto en el futuro. Los
pagos en t = T − 1, fijado el futuro, son:
Jugador 2
C
D
C 6 + Π1 , 6 + Π2 1 + Π1 , 7 + Π2
Jugador 1
D 7 + Π1 , 1 + Π2 2 + Π1 , 2 + Π2
SPNE (único): cada jugador traiciona siempre: si1 (∅) = D y si2 (ht ) = D, i = 1, 2,
para cada ht .
Resultado 1: Considera GT , T < ∞. Si G tiene un único N E, a∗ . Entonces
GT tiene un único SPNE. El único SPNE de GT consiste en que a∗ se juega en cada
periodo, independientemente de la historia previa.
21
Nota: Puede haber N E de GT , que no es SPNE de GT :
si1 (∅) = D y si2 (DD) = D, si2 (DC) = D, si2 (CD) = D, si2 (CC) = C, i = 1, 2 es
N E.
Dado la estrategia de 2, a 1 le interesa jugar D en el primer periodo (seguir
su estrategia), y también seguir su estrategia en t = 2, esto es jugar D habiendo
observado (D,D) y vice versa.
Este perifl no es SP N E de GT . Razón: hay un subjuego en el que no se juega
N E. El subjuego que inicia después de la historia (C, C).
Ejemplo 2: Considera el stage game, G:
Jugador 2
X
Y
Z
A 4, 3 0, 0 1, 4
Jugador 1
B 0, 0 2, 1 0, 0
Considera GT , t = 1, 2. Cualquier SPNE de GT debe ser tal que en t = 2 se
juega (B, Y ) o (A, Z), que son los NE de G. Por ejemplo, si en t = 1 se jugó (A, Z).
En t = 2, los pagos son:
Jugador 2
X
Y
Z
A 5, 7 1, 4 2, 8
Jugador 1
B 1, 4 3, 5 1, 4
Los NE son de nuevo (B, Y ) y (A, Z). De hecho cada subjuego tiene los mismos
N E que G. ¿Qué se juega en t=1?:
Jugar (A, Z) en t = 1 y (A, Z) en t = 2, independientemente de lo que pase en
t = 1, es SPNE. Pago (2, 8).
s11 (∅) = A, y s12 (AX) = s12 (AY ) = s12 (AZ) = s12 (BX) = s12 (BY ) = s12 (BZ) = A.
s21 (∅) = Z, y s22 (AX) = s22 (AY ) = s22 (AZ) = s22 (BX) = s12 (BY ) = s22 (BZ) = Z.
Por ejemplo, jugar (A, Z) en t = 1 y (B, Y ) en t = 2, independientemente de lo
que pase en t = 1 es SPNE. P ago : (3, 5)
s11 (∅) = A, y s12 (AX) = s12 (AY ) = s12 (AZ) = s12 (BX) = s12 (BY ) = s12 (BZ) = B.
s21 (∅) = Z, y s22 (AX) = s22 (AY ) = s22 (AZ) = s22 (BX) = s12 (BY ) = s22 (BZ) = Y .
Mensaje: cualquier combinación de N E de G, es SPNE de GT .
Resultado 2: Considera GT , T < ∞. Si G tiene varios equilibrios, {a∗1 , a∗2 , ..., a∗n },
jugar cualquiera de estos equilibrios en cada t = 1, ..., T , es SPNE de GT .
Más interesante aún: Si G tiene varios equilibrios, puede haber SPNE de GT
donde hay periodos t, en los que no se juega ningún equilibrio de G.
Jugador 2
X
Y
Z
A 4, 3 0, 0 1, 4
Jugador 1
B 0, 0 2, 1 0, 0
Perfil de estrategias: Comenzamos con (A, X). Si 2 no se desvı́a en t = 1, en
t = 2, se juega (A, Z), si 2 se desvı́a en t = 1, en t = 2 se juega (B, Y ).
22
s11 (∅) = A, s12 (AX) = s12 (BX) = A, s12 (AY ) = s12 (BY ) = s12 (AZ) = s12 (BZ) = B.
s21 (∅) = X, s22 (AX) = s22 (BX) = Z, s22 (AY ) = s22 (BY ) = s22 (AZ) = s22 (BZ) =
Y.
SPNE:
• En cada subjuego de t = 2 se juega N E. El perfil es N E de GT :
• Dada la estrategia de 1, si 2 se comporta de acuerdo a su estrategia obtiene 7,
3 en t = 1 y 4 en t = 2. Si se desvı́a, lo mejor que puede hacer es desviarse en t = 1
a Z y obtener 4 en lugar de 3. En este caso el jugador 1 lo penaliza jugando B en
t = 2, y el jugador 2 gana solo 1 en t = 2 (en lugar de 4), jugando Y , que es lo
mejor que puede hacer. En total obtiene 5. Entonces prefiere no desviarse.
• Dada la estrategia de 2, si 1 se comporta de acuerdo a su estrategia obtiene 5,
4 en t = 1 y 1 en t = 2. Dado que en t = 1, 2 juega X, no le interesa desviarse de
A, tampoco le interesa desviarse en t = 2, se juega N E
Básicamente hay una amenaza: Si 2 se desvı́a en t = 1 (y hace que 1 pierda con
respecto a lo prescrito), en t = 2, el jugador 1 lo fuerza a jugar el N E que es peor
para 2. El jugador 2 se preocupa por su reputación, si se muestra cooperador en
t = 1 a costa de perder ganacias, luego le va mejor.
Un caso en el que este tipo de equilibrios aparecen es cuando las acciones de la
segunda etapa se hacen contingentes (dependen) de lo que ocurre en la primera.
6.2
Juegos repetidos infinitos
Pagos:
U
i,T
= (1 − β)
∞
X
β t−1 uit (at ),
t=1
donde (1 − β) es una normalización. Si ui1 (at ) = ... = uit (at ), el pago medio es
Considera β ∈ (0, 1)
Los juegos repetidos finitos tienen, normalmente, más SP N E, que los finitos.
Esto ocurre si, incluso G, tiene un único N E.
En el dilema del prisionero, (D, D) en cada etapa, no importa la historia, sigue
siendo SPNE, pero hay otros.
Resultado 3: Un perfil de estrategias es un SP N E de G∞ si y solo si satisface
el principio de desviación única.
Principio de desviación única: Ningún jugador puede incrementar su pago,
cambiando su acción al inicio de cualquier subjuego en el que él es el primero que
mueve, dadas las estrategias de los otros jugadores, y el resto de su estrategia.
Explicación: cualquier cambio en una estrategia se puede puede dividir en secuencias de cambios en cada periodo. Si no hay cambios en un solo periodo que
incrementan los pagos, entonces no hay cambio en la estrategia que incremente los
pagos.
Intuición de la prueba: Considera un árbol finito. Escoge un nodo arbitrario x
y supón que a partir de ahı́ la estrategia de un jugador A no es mejor respuesta.
Entonces A tiene una estrategia que es mejor. Partiendo de x reemplaza la estrategia
ui1 (.).
23
antigua por la nueva. Escoge el último nodo, y, el que el jugador jugó diferente con
la nueva estrategia que con la antigua. Supón que reemplamos ese nodo por la acción
original. ¿cambia esto la ganancia entera de toda la cadena de desviaciones? DOS
POSIBLES RESPUESTAS:
1)Sı́. En este caso y es responsable de toda la ganancia. One shot-deviation.
2) No. En este caso reemplaza el nodo y por la acción original y encuentra el
siguiente nodo en el que la acción nueva es diferente de la original y hazte la misma
pregunta. Si es afirmativa, tienes el one-shot deviation, si es negativa sigue.
3) Entonces: obtienes un sı́ en algún momento.
Para ver la prueba completa, para juegos infinitos, ir a:
TEAMS / MATERIALES DE CLASE / Tema 7. Juegos repetidos
Ejemplo 3: El dilema del prisionero. Tenemos G:
Jugador 2
C
D
C 5, 5 0, 6
Jugador 1
D 6, 0 1, 1
Considera la estrategia Grim trigger modificada:
s1i = C, sit = C, para cada t, si y sólo si h(t) es tal que cada jugador, incluido i,
juega C, para cada i
Estamos en un t̃ arbitrario, cuáles son las posibles historias, es decir, lo observado
hasta t̃ − 1?
1.- D nunca se ha jugado (esto ocurre si la historia es vacı́a, o si sólo hemos
observado (C, C)).
Para cada jugador, el pago de seguir la estrategia, esto es: (C, C), (C, C), (C, C),
P∞
(C, C).... es (1 − β) t=1 β t−1 5 = 5.
Si alguien (digamos 1) se desvı́a una vez al inicio manteniendo el resto de la
estratgia constante, pasamos a: (D, C).(D, D), (D, D)....(D, D). Los pagos son:
(1 − β)[6 + 1... + 1] = (1 − β)[6 +
P
∞
β t=0 β t ] = (1 − β)6 + β.
P∞
t=2 β
t−1 ]
= (1 − β)[6 +
P∞
t=1 β
t]
= (1 − β)[6 +
Si 6 − 3β ≤ 5, no hay incentivos a desviarse. Esto es β ≥ 1/3. El análisis es el
mismo para el jugador 2.
2.- D se ha jugado alguna vez: [(D,D), (C,D), (D,C)]
P∞
Para cada individuo, el pago de seguir la estrategia es (1 − β) t=1 β t−1 1 = 1. Si
alguien (digamos 1) se desvı́a, entonces pasamos a: (C, D), (D, D), (D, D)....(D, D).
Los pagos son:
P∞
(1 − β)[0 + 1... + 1] = (1 − β) t=2 β t−1 = β < 1. El jugador no se desvı́a. El
análisis para el jugador 2 es análogo.
Conclusión: Para β ≥ 1/3 Grim trigger modificada es SPNE. Se observa (C, C)
en cada periodo. La cooperación se puede sostener! a diferencia del modelo finito!.
24
Nota: La cooperación también se puede inducir cuando se penaliza un número finito
de periodos.
Considera la estrategia Tit for tat: La estrategia comienza en (C,C). Luego
cada jugador hace lo que su oponente hizo en el periodo anterior. Entonces la
estrategia tiene en cuenta 4 posibles historias relevantes hasta un t̃ arbitario:
1.- (C,C). Seguir la estrategia propuesta significa hacer (C, C), (C, C). El pago
de cada jugador es 5. Si el jugador 1 se desvı́a tenemos: (D, C), (C, D), (D, C)...
Los pagos son: (6, 0), (0, 6), (6, 0).... Es decir los pagos de 1 con este desvı́o son:
P∞
(1 − β)
6
. Nota:
=
(1 − β)(6 + 6β 2 + 6β 4 + ...) = 6(1 − β) t=1 β 2(t−1) = 6
2
1−β
1+β
β 2(t−1) = [β 2 ]t−1 .
6
El análisis para 2 es igual. No hay desvı́o si 5 ≥
. Es decir β ≥ 1/5.
1+β
2.- (C,D). Seguir la estrategia significa hacer: (D, C), (C, D)(D, C)... Los pagos
son: (6, 0), (0, 6), (6, 0)....
P∞
(1 − β)
Para 1 tenemos (1−β)(6+6β 2 +6β 4 +...+) = 6(1−β) t=1 β 2(t−1) = 6
=
1 − β2
6
. Nota: β 2(t−1) = [β 2 ]t−1 . Para 2 tenemos: (1 − β)(6β + 6β 3 + 6β 5 + ...). Su
1+β
6β
pago es:
.
1+β
Si 1 se desvı́a, observamos (C, C), (C, C)(C, C).... Entonces 1 obtiene 5. Este
jugador no se desvı́a si β ≥ 1/5.
Si 2 se desvı́a, observamos (D, D), (D, D)(D, D).... Entonces 2 obtiene 1. Este
6β
jugador no se desvı́a si 1 ≥
. Esto es β ≤ 1/5.
1+β
En global para que no haya desvı́o β = 1/5.
3.- (D,C). El análisis es igual al anterior. No desvı́o para β = 1/5.
4.- (D,D). Seguir la estrategia significa hacer: (D, D), (D, D)(D, D)... El pago
para cada jugador es 1.
Si 1 se desvı́a tenemos: Si el jugador 1 se desvı́a tenemos: (C, D), (D, C), (C, D)....
Los pagos son: (0, 6), (6, 0), (0, 6).... Es decir los pagos de 1 con este desvı́o son:
6β
. No se desvı́a si β ≤ 1/5.
1+β
Si 2 se desvı́a tenemos: Si el jugador 1 se desvı́a tenemos: (D, C), (C, D), (D, C)....
Los pagos son: (0, 6), (6, 0), (0, 6).... Es decir los pagos de 2 con este desvı́o son:
6β
. No se desvı́a si β ≤ 1/5.
1+β
Conclusión: Para β = 1/5 Tit for Tat es SPNE. Se observa (C, C) en cada
periodo. La cooperación se puede sostener a diferencia del modelo finito!.
Ejercicio 1. El juego de Bertrand repetido. Dos empresas desean satisfacer una demanda D (D consumidores cada uno consumiendo como máximo una
unidad). La empresa que establece el precio más bajo se lleva D, la empresa que
establece el precio más alto se lleva cero. Si establecen el mismo precio se reparten
el mercado, cada una se lleva D/2. Considera que V es la disposición a pagar de los
25
consumidores. El coste marginal de producir es c > 0. Asume que V > c.
Probar que para algún β: el perfil de estrategias que prescribe que las empresas
comiencen con pi = pj = V y sı́ alguna de desvı́a (establece V −) , entonces siempre
pi = pj = c es SPNE (Grim trigger modificada).
Para ello estudiamos si existen desviaciones únicas beneficiosas:
Tenemos que, si alguna vez se observó pi = c, por parte de alguna empresa i.
La estrategia prescribe (c, c) para siempre. Cada empresa se lleva cero, y no hay
desviación que dé más pagos. Si nunca se observo precio igual a coste marginal.
Estamos en el subjuego que inicia tras (V, V ):
Bajo la estrategia establecida se juega (V, V ) siempre en el futuro. Los pagos de
1
1 P∞
D(V − c) = D(V − c).
cada empresa son: (1 − β)
t=1
2
2
Si la empresa i = 1, 2 se desvı́a, tenemos: (V − , V ), (c, c), (c, c)..... Los pagos de
i son (1 − β)D(V − − c)..
La empresa no se desvı́a si:
1
D(V − c) > (1 − β)D(V − − c)
(6)
2
La desigualdad expresada en (6) debe ser cierta para cualquier > 0, incluso
arbitrariamente cercana a cero. Entonces β ≥ 1/2.
Colusión tácita (acuerdo no explı́cito para no recortar precios). Ocurre cuando
se valora suficientemente el futuro y el futuro ”existe”. Si, por el contrario se sabe
que se va terminar de competir en un periodo arbitrario, en el último periodo hay
incentivos a recortar precios, pues ya no hay ”futuro”.
26
Microeconomı́a II ME CIDE, Primavera 2021
Teorı́a de Juegos
1
Tema 1. Juegos en forma normal
1.1
Interpretación del equilibrio de Nash.
Leer: The Nash equilibrium: a perspective
1.2
Supuestos generales y metodologı́a Capı́tulo 5, Strategy, second edition, Watson, J.
Antes de continuar con el análisis y comparar el equilibrio de Nash con otros conceptos de equilibrio, es importante hablar de los supuestos generales del modelaje
en teorı́a de juegos. Los supuestos son:
1. Racionalidad. asumimos que los jugadores actúan de acuerdo a sus preferencias. Brevemente, si las acciones de un jugador determinan, en parte, sus
resultados, este jugador elige la acción que maximiza su pago. Racionalidad no
implica que el jugador siempre quiere maximizar sus ganancias, pues puede ser
que se preocupe por los demás también -other regarding preferences, altruism-.
2. Conocimiento común. Con este concepto queremos expresar la idea de que
los jugadores entienden el juego que ser va a jugar. Un hecho H es conocimiento
común si cada jugador conoce H, cada jugador sabe que los demás saben H,
cada jugador sabe que cada otro jugador sabe que cada jugador sabe H, y ası́
ad infinitum. Una forma de ilustrat esto es pensar que los jugadores están
alrededor de una mesa donde el juego se presenta. Ası́, cada jugador conoce
el juego, puede verificar que los otros lo conocen y pueder verificar lo mismo
sobre cada uno de los jugadores. Este concepto se aplica igualmente a juegos
en forma extensiva.
1.3
Creencias, estrategias mixtas y pagos esperados. Capı́tulo 4, Strategy, second edition, Watson, J.
La idea de que los jugadores piensan en las estrategias que siguen los demás es
extremadamente importante.
Considera el dilema del prisionero. Imagina que el jugador 1 piensa que el jugador
2 elige C con probabilidad p y D con probabilidad 1−p. Entonces, p y 1−p constituye
una distribución de probabilidad sobre {C, D}.
Vamos a definir formalmente el concepto de creencia (belief), para juegos en
forma normal.
Definición 1. Formalmente, una creencia para el jugador i es una distribución
de probabilidad sobre las estrategias de los demás jugadores que no son i. Se denota
θ−i ∈ ∆S−i , donde ∆S−i es el conjunto de distribuciones de probabilidad sobre las
1
estrategias de todos los jugadores que no son i. Un concepto relacionado es el de
estrategia mixta.
Definición 2. Una estrategia mixta para i, σi ∈ Si , es el acto de seleccionar una
strategia, de acuerdo a una distribución de probabilidad.
Si una jugador elige una estrategia mixta o asigna probabilidades positivas a
varias estrategias de otros jugadores, este jugador no espera un pago particular por
seguro, sino un pago esperado (expected payoff).
Por ejemplo, si el juega si y considera que los demás juegan de acuerdo a θ−i :
ui (si , θ−i ) =
X
θ−i (s−i )ui (si , s−i )
(1)
s−i ∈S−i
Nota: date cuenta de que en este caso el jugador i tiene preferencias sobre distribuciones de probabilidad sobre resultados (no preferencias sobre resultados).
1.4
Dominancia y mejor respuesta. Capı́tulo 6, Strategy, second edition,
Watson, J.
Para relacionar posteriormente el equilibrio de Nash con otros conceptos de equilibrio, considera el siguiente ejemplo:
Jugador 2
L
R
U 2, 3 5, 0
Jugador 1
D 1, 0 4, 3
Para el jugador 1, U da mejor pago que D, independientemente de lo que haga
2. Técnicamente decimos que D está dominada por U , para 1. Para el jugador 2, L
es mejor que R, si el jugador 1 juega U , y lo contrario ocurre, si el jugador 1, juega
D. Para 2, ninguna estrategia está dominada.
Definición 3. Una estrategia (pura) si esta dominada, si hay otra estrategia
(pura o mixta) que da estrictamente mayor pago, para todas las estrategias de los
demás. Esto es, si existe σi ∈ ∆Si tal que ui (σi , s−i ) > ui (si , s−i ), para todas las
s−i ∈ S−i
Primera aproximación para resolver juegos: un jugador racional nunca juegas
estrategias (estrictamente) dominadas.
Esta aproximación implica que:
1. En el dilema del prisionero ningún jugador juega C!! aunque que ambos jueguen
C nos lleva a un resultado, pero para cada uno con respecto a que ambos jueguen
D (tensión social-individual).
2. En Matching pennies ningún jugador tiene estrategias dominadas. La predicción
de qué harán se vuelve confusa de aucerdo a este criterio.
2
Dado el ”problema” que observamos a partir del ejemplo de Matching pennies,
debemos explorar cómo los jugadores seleccionan sus estrategias, al menos de entre
aquellas que no son dominadas, a este conjunto lo llamamos U Di , para cada i. Para
ello, voy a introducir un concepto que nos va a ayudar.
Definición 4. Mejor respuesta (best reply or best response): Para i con
creencia θ−i ∈ ∆S−i , la estrategia si ∈ Si es una mejor respuesta dada θ−i si:
ui (si , θ−i ) ≥ ui (s0i , θ−i )
∀s0i ∈ S−i
(2)
El conjunto de mejores respuestas de i, dada la creenica θ−i sobre lo que hacen
los demás jugadores, se escribe BRi (θ−i ) (Ejemplo: páginas 56 y 57 libro.)
Además, llamamos Bi al conjunto de estrategias de i que son mejor respuesta a
alguna creencia. Esto es:
Bi = {si | existe θ−i
t.q
si ∈ BRi (θ−i )}
(3)
La relación entre mejor respuesta y estrategias no dominadas, se visualiza a través
del ejemplo en las páginas 59 y 60 libro. El resultado formal es como sigue.
Resultado: En un juego con dos jugadores y número finito de estrategias, Bi =
U Di , i = 1, 2.
Veremos un algoritmo para encontrar el conjunto Bi = U Di , para cada i.
Ejercicios:
Strategy, Watson, J, second edition:
1. Capı́tulo 4: ejercicio guiado página 41. Ejercicios 1,2,3,4 páginas 42 y 43.
2. Capı́tulo 6: ejercicio guiado página 62. Ejercicios 1,2,3,4 páginas 64 y 65.
1.5
Racionalizabiidad y dominancia iterada. Capı́tulo 7, Strategy, second edition, Watson, J.
Continuemos llevando el análisis a otro nivel. Considera el ejemplo de la figura 7.1
(página 67).
Para el jugador 1, ninguna estrategia está dominada. Esto es, el jugador 1 puede
jugar A o B, dependiendo de lo piense que va a hacer el jugador 2. Pero no hemos
terminado el análisis!.
Supón que es conocimiento común que ambos 1 y 2, son racionales (1 y 2 conocen
la matriz, 1 sabe que 2 conoce la matriz y vice versa, 1 sabe que 2 sabe que 1 conoce
la matriz, 2 sabe que 1 sabe que 2 conoce la matriz y ası́ ad infinitum, recuerda la
definición de common knowledge).
Si 1 se pone en la situación de 2, 1 sabe que 2 no juega X (está dominada por
Y ). Por tanto el jugador 1, debe asignar probabilidad cero a la estrategia Y por
parte del jugador 2.
3
Esto lleva a un nuevo juego donde la columna X ha sido eliminada. En este
nuevo juego, 1 nunca juega A (está dominada por B). Es más, 2 nunca juega X y
sabiendo que 1 lo sabe y que 1 es racional, 2 deduce que 1 nunca juega A. Esto lleva
a un nuevo juego donde la fila A ha sido eliminada. Si 2 asigna probabilidad uno al
hecho de que 1 juega B, el jugador 2 juega Z (Y está dominada). La predicción de
esta lógica es que con jugadores racionales y conocimiento común de la racionalidad
el único resultado posibles es (B, Z), que da un vector de pagos (1, 2).
A este procedimiento ( que se basa en el hecho de que la racionalidad es conocimiento
común) se le llama eliminación iterada de strategias estrictamente dominadas, o,
DOMINANCIA ITERADA.
El conjunto de estrategias que sobreviven a este proceso reciben el nombre de
ESTRATEGIAS RACIONALIZABLES.
Nota: lo que estamos haciendo es eliminar estrategias que nunca son mejores
respuestas.
Tarea:
1. ¿Puedes probar con el ejemplo de la figura 7.3 (página 70)?
2. ¿Puedes hacer el ejercicio guiado de la página 72?
3. Otros ejercicios: 1,2 página 74.
2
Tema 2. Estrategias mixtas.
Leer Capı́tulo 11, Strategy, second edition, Watson, J.
Ejercicios:
1. Capı́tulo 11 Waston, ejercicios 2,4 y 5, página 129.
2. Estudia el ejercicio guiado de la página 128 del capı́tulo 11 de Watson. Entiende
cómo se obtiene el equilibrio en estrategias mixtas. Estudia si para este juego
hay algún perfil de estrategias puras que sea un equilibrio.
3. Estudia si el juego que ilustra el dilema del prisionero tiene algún equilibrio
en estrategias mixtas. Calcúlalo si existe. Si no existe, ¿puedes argumentar el
porqué?
3
Tema 3. Juegos estáticos de information incompleta
Leer Watson [W], capı́tulo 26 y Osborne. M [O], capı́tulo 9.
3.1
Motivación:
Hasta ahora hemos discutido escenarios donde el juego es conocimiento común. En
particular, los individuos conocen los pagos (funciones de utilidad). Sin embargo,
puede haber situaciones donde los individuos no tienen información completa sobre
4
sobre sus oponentes. Dicho de otro modo, los oponentes tienen información privada.
Por ejemplo:
1. Cuando dos empresas compiten, cada una ellas puede no saber si la otra es una
empresa que opera con costes bajos o con coste altos. Es decir cada una de las
empresas no conoce tipo de la otra. (Ej: duopolio de Cournot, con empresas
que no conocen los costes de los rivales).
2. Subastas donde los jugadores no conocen cómo otros jugadores valoran el bien
subastado
3. Contribuciones privadas a un bien público cuando los individuos no conocen
cómo otros valoran el bien.
4. Los paı́ses pueden discutir acuerdos sobre el cambio climático, evaluando de
forma diferente los costes y los beneficios (sin que los demás sepan cómo
evalúan).
En general, esta información privada debe ser tenida en cuenta por los jugadores,
si quieren formarse expectativas sobre cómo los demás se comportan.
Ejemplo: El siguiente es un juego en forma normal donde uno de los jugadores
tiene información privada. Hay dos jugadores. El jugador 1 no sabe si el jugador 2
prefiere coordinarse con la acción de 1 (matriz izquierda), o anti-coordinarse (matriz
derecha).
Jugador 1
O
B
Jugador 2
O
B
2, 1 0, 0
0, 0 1, 2
Jugador 1
O
B
Jugador 2
O
B
2, 0 0, 2
0, 1 1, 0
En la matriz de la izquierda el jugador 2, está mejor si se coordina con el jugador
1, es decir está mejor jugando la misma acción que el jugador 1, que jugando una
acción diferente. Lo contrario ocurre en la matriz de la derecha. Este es un ejemplo
donde un jugador, 1, no conoce los pagos del otro, 2.
Dos definiciones, antes de continuar:
Información imperfecta: los jugadores no están informados de los movimientos
que hacen otros jugadores.
Información incompleta: Los jugadores no están informados de ciertas caracterı́sticas del juego en el que están (por ejemplo, pagos de otros jugadores)
Ejemplo:
La representación en forma extensiva del juego anterior (ejemplo 1) es como
sigue (entendemos un juego bayesino de información incompleta - algún individuo
no conoce los pagos de otro- como un juego en forma extensiva con información
5
imperfecta (alguien no conoce las acciones de un jugador, naturaleza, que decide en
el momento cero, Harsanyi (1968)):
Los pagos del jugador 1 cuando elige B u O, dependen de si el jugador 2 prefiere
coordinarse (C) con él o no (N). Para computar estos pagos, el jugador 1 tiene que
tener alguna idea de con qué probabilidad el jugador 2 es de cada tipo, es decir hay
incertidumbre. Supón que el jugador 1 asigna probabilidad 1/2 a cada uno de los
tipos del jugador 2. De manera formal tenemos:
1. Individuos. I = {1, 2}.
2. Acciones Ai = {O, B}, i = 1, 2
3. Tipos: Θ1 = {x} y Θ2 = {C, N }, donde θi ∈ Θi , i = 1, 2. Θ = ×Θi , θ ∈ Θ.
4. Probabilidades (a priori): p(x, C) = 1/2, p(x, N ) = 1/2, p(x) = 1, p(C) = 1/2,
p(N ) = 1/2.
5. Pagos: descritos en las matrices anteriores.
Queremos representar la idea de que cada jugador conoce sus pagos, pero tiene
incertidumbre sobre los pagos de los demás. Para ello describimos los tipos de cada
individuo. Además, para cada individuo, cada tipo tiene una función de pagos
diferente (los pagos pueden tb depender de los tipos del otro individuo).
El conjunto de estrategias de cada individuo, Si , ahora es una colección de funciones si : Θi → Ai . Es decir cada estrategia para un individuo debe indicar lo
que harı́a si fuese de cada uno de los tipos. ¿Por qué es esto ası́? ¿Si al final el
individuo 2 sabe quién es, por qué tendrı́a que especificar qué harı́a si fuera de un
tipo que nunca va a ocurrir? Razón: la acción óptima del jugador 1 depende de lo
que él piense sobre lo que el jugador 2 va a hacer si es de cada tipo, puesto que no
conoce el tipo. Intuitivamente: lo que reflejan las estrategias de 2 son precisamente
las expectativas que 1 tiene sobre lo que va a hacer 2.
Resolviendo por equilibrio de Nash (Bayesiano):
6
Dada la probabilidad a priori, cada individuo forma creencias (probabilidades
a posteriori) sobre la realización de los tipos de los demás: para cada individuo
i, j = 1, 2, pi (θj |θi ). Condicional en que el jugador i es de un determinado tipo (en
el ejemplo el tipo de 1 es único), cuál es la probabilidad de encontrarme con cada tipo
de j. Lo mismo para el jugador 2. Más especı́ficamente, p1 (C|x) = p1 (N |x) = 1/2
y p2 (x|C) = p2 (x|N ) = 1.
En el juego anterior, el perfil (O, OB) es un equilibrio de Nash (Bayesiano) en
estrategias puras. En otras palabras, para el individuo i, cada uno de sus tipos, hace
su mejor respuesta:
• Para 1 tiene que ocurrir que:
u1 (O, O)p(C|x) + u1 (O, B)p(N |x) = 2(1/2) + 0(1/2) = 1 > u1 (B, O)p(C|x) +
u1 (B, B)p(N |x) = 0(1/2) + 1(1/2) = 1/2. Esto es, O es la mejor respuesta de 1 a
que 2 juegue OB.
• Para 2, tiene que ocurrir que, si 2 es de tipo C:
u2 (O, O)p(x|C) = 1(1) > u2 (O, B)p(x|C) = 0(1).
Si 2 es de tipo N :
u2 (O, B)p(x|N ) = 2(1) > u2 (O, O)p(x|N ) = 0(1).
Para cada tipo del jugador 2, la acción propuesta es la mejor respuesta a que 1
juegue O.
Esta es una visión ex-post. En ella, los tipos se realizan y el jugador 1 no
conoce el tipo de 2, mientras que 2 conoce su tipo y el de 1, ya que es único. En
esta representación cada tipo de un jugador es tratado como un jugador diferente
(supuesto ficticio de que hay universos paralelos en los que cada jugador se ”encarna”
en sus tipos).
Representación ex-ante. Con ella, hacemos el supuesto ficiticio de que al jugador
no se le ha asignado el tipo. Esto permite representar el juego en la forma estrategia
bayesiana:
Jugador 1
O
B
Jugador 2
O
B
2, 1 0, 0
0, 0 1, 2
Jugador 1
O
B
Jugador 1
Jugador
OO OB
1
3
2,
1,
2
2
1 1
0,
,0
2 2
2
BO
1, 0
1 3
,
2 2
O
B
Jugador 2
O
B
2, 0 0, 2
0, 1 1, 0
BB
0, 1
1, 1
Ası́ los individuos, antes de conocer sus tipos, computan los pagos esperados:
• la utilidad de 2 en el perfil (O, OB) es: p(x, C)u2 (O, O) + p(x, N )u2 (O, B) =
(1/2)1 + (1/2)2 = 3/2
• la utilidad de 2 en el perfil (O, BB) es: p(x, C)u2 (O, B) + p(x, N )u2 (O, B) =
(1/2)0 + (1/2)2 = 1
7
• la utilidad de 1 en el perfil (O, OB) es:
p(x, C)u1 (O, O) + p(x, N )u1 (O, B) = (1/2)2 + (1/2)0 = 1
• la utilidad de 1 en el perfil (B, OB) es:
p(x, C)u1 (B, O) + p(x, N )u1 (B, B) = (1/2)0 + (1/2)1 = 1/2
La visión ex-ante y ex-post son equivalentes.
Si s
La forma estratégica bayesiana (ex-ante) es especialmente útil cuando podemos
usar matrices de pagos, pues podemos usar todas las técnicas que hemos aprendido
hasta ahora. En la matriz anterior, observa que para el jugador 2, OO está dominada
por BB, entonces 2 nunca juega OO. Para el juego que queda al eliminar la primera
columna, aplicamos el concepto de equilibrio de Nash, como siempre. TAREA: os
dejo que hagáis los equilibrios en estrategias mixtas. Para ello:
1. Demuestra que si hay equilibrio en estrategias mixtas, en él, la probabilidad
que el jugador 2 asigna a BB es positiva. Puedes suponer que esta probabilidad
es cero, y concluir que entonces no hay equilibrio en mixtas.
2. Considera los tres casos posibles, esto es, que para el jugador 2:
(1) OB tiene probabilidad cero y BO tiene probabilidad positiva. Determina si
hay equilibrio en mixtas y descrı́belo si es el caso. Pista: hay un equilibrio.
(2) OB tiene probabilidad positiva y BO tiene probabilidad cero. Determina si
hay equilibrio en mixtas y desrı́belo si es el caso. Pista: hay un equilibrio.
(3) OB y BO tienen probabilidad positiva. Determina si hay equilibrio en
mixtas y desrı́belo si es el caso. Pista: no hay equilibrio.
3.2
Aspectos formales:
Un juego bayesiano estático G es una 5-tupla G = (N, (Θi )i∈N , (Si )i∈N , P, (ui )i∈N )
donde:
1. Conjunto de jugadores: N = {1, 2, ..., n}, y para cada i ∈ N :
2. Conjunto de tipos: Θi donde Θ = ×Θi ; θi ∈ Θi , θ ∈ Θ. Define θ ≡ (θ−i , θi ).
3. Conjunto de acciones Ai , A = ×Ai . El conjunto de estrategias de i, Si , contiene
funciones si : Θi → Ai . Es decir, una estrategia es una especificación de la
acción de cada tipo. Además, S = ×Si .
4. Distribución de probabilidad conjunta: p(θ1 , ..., θn ), p(θi ) > 0, ∀θi ∈ Θi . Cada
jugador i forma creencias sobre los tipos de los otros, −i, fijado su tipo: pi :
Θi → ∆(Θ−i ). En particular, dado un tipo de i, sus creencias sobre los tipos
de los demás se construyen usando Bayes:
p(θ−i , θi )
p(θ−i , θi )
=P
.
pi (θ−i |θi ) =
p(θi )
θ−i ∈Θ−i p(θ−i , θi )
8
5. Pagos ui : Θ × A → R para cada i.
Supuestos: Los pagos no son conocimiento común (información incompleta). La
distribución de probabilidad de acuerdo a la cual la naturaleza seleciona los tipos,
es conocimiento común.
Definición. Equilibrio de Nash Bayesiano. Un perfil s∗ = (s∗1 , ..., s∗n ) (recuerda que para cada individuo s∗i indica lo hace para cada uno de sus tipos.) es un
equilibrio de Nash Bayesiano si para cada i y cada θi ∈ Θi , s∗i (θi ) resuelve:
X
maxsi
ui (si (θi ), s∗−i (θ−i ))pi (θ−i |θi ).
(4)
θ−i ∈Θ−i
La expresión anterior significa que si estamos en un equilibrio es porque cada tipo
de cada individuo, está usando la mejor respuesta dado lo que hacen los demás. Esta
es la visión ex-post (donde cada individo conoce su tipo, pero no el de los demás).
La visión ex-ante me indica que un perfil s∗ es un equilibrio si para cada i, s∗i
resuelve:
maxsi
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i , θi )
(5)
θ∈Θ
Como adopto la visión ex-ante (que da lugar a la forma estratégica bayesiana) los
individuos calculan la utilidad esperada para todos los posibles eventos θ ≡ (θ−i , θi )
******************************************************
La visión ex-ante y ex-post son equivalentes: Considera que s∗ es la
solución de (5) para i. Entonces s∗ maximiza
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i , θi ) =
θ∈Θ
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )p(θi ) =
θ∈Θ
X
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )p(θi ) =
θi ∈Θi θ−i ∈Θ−i
X
θi ∈Θi
X
p(θi )
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )
θ−i ∈Θ−i
donde
X
ui (si (θi ), s∗−i (θ−i ))p(θ−i |θi )
θ−i ∈Θ−i
es la expresión en (4).
Ejemplo: El perfil (O, OB) es un equilibrio de Nash. Según (5). La utilidad de 1
en el perfil (O, OB) es p(x, C)u1 (O, O) + p(x, N )u1 (O, B) = (1/2)2 + (1/2)0 = 1 (∗).
Esta expresión se puede escribir como p(x)[p(C|x)u1 (O, O) + p(N |x)u1 (O, B)] = 1
(∗∗), Si dado OB, 1 maximiza con O en (∗) es porque cada una de las utilidades en
9
(∗∗) es máxima, por tanto, su maximizo 5, maximizo 4 para cada tipo del individuo
en cuestión. El camino inverso también se cumple.
La utilidad de 2 en el perfil (O, OB) es: p(x, C)u2 (O, O) + p(x, N )u2 (O, B) =
(1/2)1+(1/2)2 = 3/2 (∗∗). Esta expresión se puede escribir como p(C)p(x|C)u1 (O, O)+
p(N )p(x|N )u1 (O, B) = 3/2 (∗∗∗), Si dado O, 2 maximiza con OB en (∗∗) es porque
cada una de las utilidades en (∗∗∗) es máxima, por tanto, si maximizo (5) maximizo
(4) para cada tipo del individuo en cuestión. El camino inverso también se cumple.
******************************************************
Nota: Todo juego (bayesiano) finito (número finito de jugadores y número finito
de estrategias) tiene un equilibrio de Nash (Bayesiano), puro o mixto.
Ejercicios
Ejercicio 1. Duopolio de Cournot con información incompleta. Supón
que dos empresas, 1 y 2, compiten en una industria, donde la demanda viene dada
por P = 1 − Q, donde Q es la cantidad total producida en la industria. Ası́,
Q = q1 + q2 , donde qi es la cantidad producida por la empresa i = 1, 2. El coste
con el que opera la empresa 2 es información privada. Con probabilidad 1/2 opera
a coste cero y con probabilidad 1/2 opera a coste marginal 1/4. Llama al tipo de
la empresa 2 que opera a coste cero, L, y al tipo que opera a coste marginal 1/4,
H. La empresa 1 opera a coste cero, es decir tiene un único tipo, conocido por la
empresa 2. Calcula el equilibrio de Nash Bayesiano.
Solución:
Ejercicio 16 PS2. Considera los pagos dados por la siguiente tabla:
Jugador 1
X
Y
Jugador 2
L
R
θ, γ 1, 2
−1, γ θ, 0
Además θ ∈ {0, 2} para el jugador 1 y γ ∈ {1, 3} para el 2. Todos los pares
(θ, γ) tienen probabilidad 1/4. Define los elementos del juego bayesiano, incluidas
las estrategias. Describe el único equilibrio de Nash bayesiano en estrategias puras
de este juego.
Ejercicio extra. Considera dos empresas, 1 y 2. La empresa 1 decide si construir
(C) o no (NC) una planta. Simultáneamente la empresa 2 decide si entrar (E) o no
(NE) a la industria. La empresa 1 es de coste alto (H) o bajo (L) con probabilidad
p y 1 − p, p > 0, respectivamente. La empresa 2 tiene incertidumbre sobre el tipo
de la 1. Los pagos son. Si 1 es de coste alto (H):
Jugador 1
C
NC
Jugador 2
E
NE
0, −1 2, 0
2, 1
3, 0
10
Si 1 es de coste bajo (L):
Jugador 1
C
NC
Jugador 2
E
NE
1.5, −1 3.5, 0
2, 1
3, 0
Nota: Los pagos de la empresa 2 dependen de si 1 construye o no, pero no del
tipo de 1. Para 1, si es de coste alto (H), C está dominada por NC.
Se pide:
1) Describir los ingredientes del juego estático bayesiano.
2) Usar la forma estratética bayesiana para calcular los equilibrios (pista: dependen de p y hay un equilibrio el que el tipo bajo de la empresa 1 usa una estrategia
mixta).
4
Temas 4 y 5. Juegos Extensivos
5
Tema 6. Equilibrio de Nash Bayesiano Perfecto
En capı́tulos anteriores hemos visto juegos estáticos de información incompleta (la
naturaleza mueve y los agentes toman decisiones simultáneas). En este capı́tulo
veremos juegos de información incompleta o imperfecta donde los jugadores toman
decisiones secuenciales.
Modelos prominentes de información incompleta: Signaling: un agente (trabajador) toma un acción (nivel de educación) que señaliza su tipo a un socio (empresa).
Considera el siguiente juego:
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
[1 − q]
RE
Jugador 1
A
R
(1, 0)
(−1, −1)
Primero, el jugador 1 decide si dar o no un regalo. El jugador 2 no observa el
tipo de 1, sólo si se le ha ofrecido el regalo o no. El jugador 2, decide si aceptar o
rechazar.
FORMA ESTRATÉGICA BAYESIANA:
11
Jugador 1
N AN E
N A RE
RA N E
RA RE
Jugador 2
A
R
0, 0
0, 0
1 − p, 0 −(1 − p), −(1 − p)
p, p
−p, 0
1, p
−1, −(1 − p)
Equilibrios de Nash Bayesianos (y SPNE): (N A N E , R) y (RA RE , A).
¿Cuál es el problema con (N A N E , R)?:
El jugador 2 se comporta irracionalmente en su conjunto de información.
Los conceptos de equilibrio anteriores no identifican esto::
El equilibrio de Nash (Bayesiano) no requiere que los agentes se comporten
racionalmente en conjuntos de información a los que no llegamos. (Recuerda el
juego del entrante y el monopolista donde donde (ne, f) era Nash!!)
El SPNE no es capaz de resolver este problema aquı́. El SPNE no necesariamente
evalúa todos los conjuntos de información!
Intuitivamente, esto está pasando porque hay pocos subjuegos (propios)! En este
ejemplo no hay ninguno.
¿Cómo podrı́amos resolver esto?
Una solución: concepto de equilibrio que evalúe todos los conjuntos de información.
En el ejemplo anterior: lo que le pedirı́amos al jugador 2 es que bajo ninguna
creencia, sobre quién es el jugador 1, acepte el regalo.
El Equilibrio de Nash Bayesiano Perfecto, PBNE :
• Está compuesto por un perfil de estrategias y unas creencias que los jugadores
tienen en cada conjunto de información en el que les toca jugar.
• ¿Por qué necesitamos creencias? Es una forma de resolver la ”falta de subjuegos”.
• Requiere que cada conjunto de información sea evaluado. En cada conjunto de
información, cada jugador debe maximizar su utilidad, dadas sus creencias. Esto,
independientemente de si en equilibrio, llegamos a este conjunto de información o
está excluido - racionalidad secuencial-.
• Requiere que las creencias sean consistentes con las estrategias. Las creencias
son consistentes con las estrategias cuando son actualizaciones bayesianas de la
información a priori, dadas las estrategias, si esto es posible.
Definición: Un equilibrio de Nash Bayesiano Perfecto, esta compuesto por un
perfil de estrategias s, y unas creencias ci para cada jugador i, en cada conjunto de
información en el que le toca jugar, tal que:
1. Cada jugador especifica acciones óptimas, dadas sus creencias y las estrategias
de los demás.
12
2. Las creencias son consistentes con las estrategias, cuando sea posible.
En el juego anterior: (RA RE , A), q = p, es PBNE:
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
[1 − q]
RE
Jugador 1
A
R
(1, 0)
(−1, −1)
Dado RA RE , el jugador 2 actualiza la distribución a priori p, 1 − p, sobre el tipo
del jugador 1, usando Bayes. Esto es:
q = P (A|R) =
P (R|A)P (A)
p
= =p
P (R)
1
.
1 − q = P (E|R) =
P (R|E)P (E)
(1 − p)
=
= 1 − p.
P (R)
1
Dado (q, 1 − q), lo mejor que hace 2 dada la estrategia del jugador 1, es A. Dado
A, cualquier tipo del jugador 1 regala.
En el juego anterior: (N A N E , R) no es BPNE:
En este caso no es posible actualizar p usando Bayes, pues P (R) = 0, dada la
estrategia de 1.
En este caso q se interpreta como que ”en el evento sorpresa” en el que 2 observase
un regalo, decidiese rechazarlo. Pero no hay q que racionalize esto. R no es mejor
respuesta a (N A N E ) bajo ninguna creencia de 2 sobre el tipo de 1!!
¿Puede algún perfil donde 2 juegue R ser BPNE? No:
Si 1 juega, RA N E . Entonces 2:
q = P (A|R) =
P (R|A)P (A)
p
= =1
P (R)
p
.
1 − q = P (E|R) =
P (R|E)P (E)
0
= =0
P (R)
p
.
Entonces 2 prefiere desviarse y hacer A. Un razonaminento análogo se da para
y que 2 haga R.
N A RE
13
En juegos de información incompleta, donde algún jugador tiene varios tipos
llamamos:
Equilibrio Separador: Si para cada jugador, todo sus tipos se comportan de
manera differente (toman acciones diferentes).
Equilibrio Agrupador: Si para cada jugador, todos sus tipos se comportan
igual (toman la misma acción).
Equilibrio semi-separador/semi-agrupador: Si para algún jugador, algunos
tipos se comportan igual y otros se comportan de manera diferente a los anteriores.
En el ejemplo anterior, en el P BN E el jugador 1 regala bajo cualquier tipo.
Equilibrio agrupador.
Nota: PBNE y SPNE son conceptos equivalentes en juegos de información perfecta y completa (cada conjunto de informacion es un singleton). En otro caso PBNE
refina- es más estricto que- SPNE.
EJEMPLO 1: Considera el siguiente juego:
La empresa 1 decide si/cómo entrar. La empresa 2 decide L o R.
Empresa 1
Entry1
Entry2
Exit
Empresa 2
L
R
−1, −1 3, 0
−1, −1 2, 1
0, 2
0, 2
Es irracional que 2 haga L en su conjunto de información!. Resolviendo por
PBNE:
14
Supón que la empresa 1 mezcla (Entry1 , Entry2 , Exit) con probabilidad (pEntry1 , pEntry2 , pExit )
con pExit < 1. Dada la estrategia de la empresa 1 → creencias de 2:
q = P (entry1|2.1) =
P (2.1|entry1)pEntry1
pEntry1
=
,
P (2.1)
pEntry1 + pEntry2
1 − q = P (B|2.1) =
pEntry2
.
pEntry1 + pEntry2
Para cualquier creencia de 2, su utilidad se maximiza jugando R. Dado esto, 1
debe jugar Entry1 . P BN E: (Entry1 , R), ∀q.
EJEMPLO 2: PS2-TEMA7. EJERCICIO 19
Analiza si hay algún equilibrio de Nash Bayesiano Perfecto separador y/o agrupador (estrategias puras) del siguiente juego (recuerda que hay reportar estrategias
y creencias).
(4, 4)
I
Jugador 1
t = t1
a
(6, 4)
D
[q]
b
0.5
Jugador 2
Nat.
0.5
(4, 2)
I
(0, 0)
D
Jugador 1
t = t2
[1 − q]
a
b
(6, 0)
(0, 6)
Equilibrio agrupador:
• Considera que la estrategia del jugador 1 es DD. Dada DD, q = 0.5, entonces
2 hace b. Dado que 2 hace b, cada tipo del jugador 1 de cada tipo querrı́a desviarse
a I. Entonces DD no puede formar parte de un equilibrio.
• Considera que la estrategia del jugador 1 es II. Observa que si 2 eligisese a en
su conjunto de información, cada tipo del jugador 1 tendrı́a incentivos a desviarse
y elegir D. Para que II pueda formar parte de un equilibrio tiene que ser que:
4q + 0(1 − q) ≤ 0q + 6(1 − q).
Equilibrio agrupador: (II, b), q ≤ 3/5.
Equilibrio separador:
• Considera que la estrategia del jugador 1 es DI. Dada DI, q = 1, entonces 2
hace a. Dado que 2 hace a, el tipo 2 del jugador 1 quiere desviarse a D. DI no
puede formar parte de un equilibrio.
• Considera que la estrategia del jugador 1 es ID. Dada ID, q = 0, entonces 2
hace b. Dado que 2 hace b, el tipo 2 del jugador 1 quiere desviarse a I. ID no puede
formar parte de un equilibrio.
15
EJEMPLO 3: INVERSIÓN (Y REPUTACIÓN): Dos individuos deciden
si invertir conjuntamente en un proyecto.
El único SPNE (PBNE) de este juego es: s1 = N, S y s2 = N . Ninguno invierte!!
Considera una versión con información incompleta:
En este juego el PBNE es tal que, en presencia de tipos cooperadores, el tipo
ordinario ”invierte” con cierta probabilidad, para ”hacerse pasar” por cooperador.
Esto lo hace, no por querer ser cooperador, per se, sino porque 2 invertirá en ese
caso, y esto es bueno para él.
Procedamos:
16
Notas:
1. Jugador 1, tipo C: I’, B’.
2. Jugador 1, tipo O: S.
3. A determinar: Jugador 1, tipo O en su conjunto de información inicial (depende
de lo que 2 haga).
4. El jugador 2 selecciona I si 2q − 2(1 − q) ≥ 0, esto es, q ≥ 1/2.
ANÁLISIS:
Si Jugador 1, tipo O hace N , q ≡ P (C|I 0 ) = 1(1/4)/(1/4) = 1. Entonces 2
juega I. El Jugador 1, tipo O anticipa esto y entonces se quiere desviar a I. NO
EQUILIBRIO.
Si Jugador 1, tipo O hace I, q ≡ P (C|I 0 ) = 1(1/4)/1 = 1/4. Entonces 2 juega
N . El Jugador 1, tipo O anticipa esto y entonces se quiere desviar a N . NO
EQUILIBRIO.
Hay un equilibrio en estrategias mixtas: Jugador 1, tipo O mezcla entre N e I y
2 mezcla entre N e I.
Para que 1 mezcle debe estar indiferente entre N e I.
6s − 2(1 − s) = 0 → s = 1/4.
Para que 2 mezcle debe estar indiferente entre N e I → q = 1/2. Dada la
estrategia del jugador 1, tipo O: 1 − r juega N y r juega I y el tipo C juega I 0 ,
tenemos que:
q=
1
4
1 3r
+
4
4
17
.
Entonces r = 1/3.
PBNE: Jugador 2 invierte con s = 1/4, Jugador 1, tipo C: I’, B’ y Jugador 1,
tipo O, invierte con probabilidad r = 1/3, creencias: q = 1/2.
Nota: Este equilibrio es SPNE (en cada subjuego 1 hace lo mejor que puede
hacer. Puedes comprobar que es Nash del juego entero, es decir dada la estrategia
2 ningún tipo de 1 se desvı́a, y dada la estrategia de cada tipo de 1, 2 no se desvı́a.
Puedes calcular además equilibrios de Nash Bayesianos usando, por ejemplo, la
forma estratégica bayesiana (ex ante) o la versión ex-post.
18
Para practicar: Describe la matriz de pagos de la forma estratégica Bayesiana
de este juego. Encuentra los equilibrios de Nash Bayesianos en estrategias puras.
Encuentra los equilibrios de Nash perfectos Bayesianos. Recuerda que un equilibrio perfecto Bayesiano debe especificar creencias y estrategias. Señala cuáles son
separadores y cuáles agrupadores.
(0, 0)
NA
Jugador 1
A
[q]
Amigo p
R
Enemigo 1 − p
(0, 0)
(−1, 0)
Jugador 2
Nat.
NE
(1, 1)
RA
RE
Jugador 1
[1 − q]
A
R
(1, −1)
(−1, 0)
Pista: solo hay equilibrios agrupadores.
Otros ejercicios: exámenes de años anteriores, PS2, libros de referencia
(Strategy, Watson).
6
Tema 7. Juegos repetidos
En este tema veremos situaciones donde los agentes (individuos, empresas) se ven
envueltos en interacciones de largo plazo (coautorı́as, competencia en industrias,
relaciones laborales).
En general, las relaciones pasadas pueden afectar a las relaciones futuras por
medio de mecanismos reputacionales.
6.1
Juegos repetidos finitos
Considera t = 1, 2, ..., T , T < ∞. En cada periodo t los jugadores juegan un juego
en forma estratégica -stage game- G = (I, (Ai )i∈I , (ui )i∈I ) (juego en forma normal),
sabiendo lo que cada jugador ha hecho en el pasado (monitoreo perfecto).
Un juego repetido - repeated game-, GT , consiste en repeticiones de G. El pago
de cada individuo es la suma (descontada) de los pagos en cada periodo.
Llamamos a las estrategias del juego estático G, acciones. El término estrategia
se reserva para el comportamiento en el juego GT .
Para cada jugador i ∈ I, una estrategia en GT prescribe: una acción en cada
stage game, esto es, en cada t, para cada historia ht ≡ (a0 , ..., at−1 ), donde, para un
t arbitrario, at = (a1t , a2t , ..., aIt ). Recuerda que A = ×Ai . Ası́, at ∈ A y ht ∈ At−1 ,
donde At−1 es el cartesiano de A, t − 1 veces.
Formalmente: sit : At−1 → Ai , t = 1, ..., T y si = (si1 , si2 , ..., siT ).
19
Pagos:
U
i,T
=
T
X
β t−1 uit (at ),
t=1
donde β ∈ (0, 1] es factor de descuento (común).
Ejemplo 1: El dilema del prisionero, t = 1, 2. Tenemos G:
Jugador 2
C
D
C 5, 5 0, 6
Jugador 1
D 6, 0 1, 1
Una estrategia de 1: s11 (∅) = D, s12 (CC) = D, s12 (CD) = D, s12 (DC) = D,
s12 (DD) = D.
Una estrategia de 2: s21 (∅) = D, s22 (CC) = D, s22 (CD) = D, s22 (DC) = D,
s22 (DD) = D.
¿Cuántas estrategias tiene cada jugador?: En t = 2 hay cuatro posibles historias,
CC, CD, DC, DD, para cada una de ellas el jugador 1 elige, entre C o D (2 posibles elecciones): tenemos 16 posibles combinaciones. En t = 1 tenemos 2 posibles
acciones, C o D. Hay 32 estrategias para cada jugador, con dos periodos!. Algunas
de ellas:
1. Cooperar siempre: si1 = C, sit (ht ) = C para cada historia ht , para cada t, para
cada i
si1 (∅) = D, si2 (CC) = C, si2 (CD) = C, si2 (DC) = C, si2 (DD) = C.
2. Traicionar siempre: si1 = D, sit (ht ) = D para cada historia ht , para cada t,
para cada i.
3. Grim trigger: si1 = C, sit = C, para cada t, si y sólo si h(t) es tal que cada
oponente, juega C, para cada i.
20
s11 (∅) = C, s12 (CC) = C, s12 (CD) = D, s12 (DC) = C, s12 (DD) = D.
s21 (∅) = C, s22 (CC) = C, s22 (CD) = C, s22 (DC) = D, s22 (DD) = D.
4. Grim trigger modificada: s1i = C, sit = C, para cada t, si y sólo si h(t) es tal
que cada jugador, incluido i, juega C, para cada i
si1 (∅) = C, si2 (CC) = C, si2 (CD) = D, si2 (DC) = D, si2 (DD) = D.
5. Tit for tat: s1i = C, sit , para cada t, para cada i es igual a la acción inmediatamente anterior del oponente j 6= i,
s11 (∅) = C, s12 (CC) = C, s12 (CD) = D, s12 (DC) = C, s12 (DD) = D.
s21 (∅) = C, s22 (CC) = C, s22 (CD) = C, s22 (DC) = D, s22 (DD) = D.
SPNE del ejemplo 1. En este juego hay 4 subjuegos propios. Estos corresponden
a la última etapa del juego, t = 2, después de cada posible historia en t = 1. En
cada uno de ellos (D, D) es N E. Despúes de cada historia estamos añadiendo una
constante a los pagos de cada jugador, y añadir una constante no altera el equilibrio.
Ası́ las acciones en el futuro (t = 2) son independientes de lo que se juega en el
presente (t = 1). Como en el futuro siempre se juega (D, D). Los pagos en (t = 1),
fijado el futuro (t = 2) son:
Jugador 2
C
D
C 6, 6 1, 7
Jugador 1
D 7, 1 2, 2
El único equilibrio es (D, D). Ası́, el SPNE (único): cada jugador traiciona
siempre: si1 (∅) = D y si2 (ht ) = D, i = 1, 2, para cada ht .
s11 (∅) = D, s12 (CC) = D, s12 (CD) = D, s12 (DC) = D, s12 (DD) = D.
s21 (∅) = D, s22 (CC) = D, si2 (CD) = D, s22 (DC) = D, s22 (DD) = D.
Otra forma de ver que el perfil es SP N E, es: (i) es N E del juego entero: dada
la estrategia de 1, a 2 no le interesa desviarse de su estrategia ni en t = 1, ya que
(D, D) es N E, ni en t = 2, ya que (D, D) es N E. (ii) además en t = 2 jugar (D, D)
es N E de cada subjugego
¿Qué ocurrirı́a si t = 0, 1, ..., T ? Lo mismo. En t = T se juega (D, D), después
de cada historia. Por tanto lo se haga en t = T − 1 no tiene efecto en el futuro. Los
pagos en t = T − 1, fijado el futuro, son:
Jugador 2
C
D
C 6 + Π1 , 6 + Π2 1 + Π1 , 7 + Π2
Jugador 1
D 7 + Π1 , 1 + Π2 2 + Π1 , 2 + Π2
SPNE (único): cada jugador traiciona siempre: si1 (∅) = D y si2 (ht ) = D, i = 1, 2,
para cada ht .
Resultado 1: Considera GT , T < ∞. Si G tiene un único N E, a∗ . Entonces
GT tiene un único SPNE. El único SPNE de GT consiste en que a∗ se juega en cada
periodo, independientemente de la historia previa.
21
Nota: Puede haber N E de GT , que no es SPNE de GT :
si1 (∅) = D y si2 (DD) = D, si2 (DC) = D, si2 (CD) = D, si2 (CC) = C, i = 1, 2 es
N E.
Dado la estrategia de 2, a 1 le interesa jugar D en el primer periodo (seguir
su estrategia), y también seguir su estrategia en t = 2, esto es jugar D habiendo
observado (D,D) y vice versa.
Este perifl no es SP N E de GT . Razón: hay un subjuego en el que no se juega
N E. El subjuego que inicia después de la historia (C, C).
Ejemplo 2: Considera el stage game, G:
Jugador 2
X
Y
Z
A 4, 3 0, 0 1, 4
Jugador 1
B 0, 0 2, 1 0, 0
Considera GT , t = 1, 2. Cualquier SPNE de GT debe ser tal que en t = 2 se
juega (B, Y ) o (A, Z), que son los NE de G. Por ejemplo, si en t = 1 se jugó (A, Z).
En t = 2, los pagos son:
Jugador 2
X
Y
Z
A 5, 7 1, 4 2, 8
Jugador 1
B 1, 4 3, 5 1, 4
Los NE son de nuevo (B, Y ) y (A, Z). De hecho cada subjuego tiene los mismos
N E que G. ¿Qué se juega en t=1?:
Jugar (A, Z) en t = 1 y (A, Z) en t = 2, independientemente de lo que pase en
t = 1, es SPNE. Pago (2, 8).
s11 (∅) = A, y s12 (AX) = s12 (AY ) = s12 (AZ) = s12 (BX) = s12 (BY ) = s12 (BZ) = A.
s21 (∅) = Z, y s22 (AX) = s22 (AY ) = s22 (AZ) = s22 (BX) = s12 (BY ) = s22 (BZ) = Z.
Por ejemplo, jugar (A, Z) en t = 1 y (B, Y ) en t = 2, independientemente de lo
que pase en t = 1 es SPNE. P ago : (3, 5)
s11 (∅) = A, y s12 (AX) = s12 (AY ) = s12 (AZ) = s12 (BX) = s12 (BY ) = s12 (BZ) = B.
s21 (∅) = Z, y s22 (AX) = s22 (AY ) = s22 (AZ) = s22 (BX) = s12 (BY ) = s22 (BZ) = Y .
Mensaje: cualquier combinación de N E de G, es SPNE de GT .
Resultado 2: Considera GT , T < ∞. Si G tiene varios equilibrios, {a∗1 , a∗2 , ..., a∗n },
jugar cualquiera de estos equilibrios en cada t = 1, ..., T , es SPNE de GT .
Más interesante aún: Si G tiene varios equilibrios, puede haber SPNE de GT
donde hay periodos t, en los que no se juega ningún equilibrio de G.
Jugador 2
X
Y
Z
A 4, 3 0, 0 1, 4
Jugador 1
B 0, 0 2, 1 0, 0
Perfil de estrategias: Comenzamos con (A, X). Si 2 no se desvı́a en t = 1, en
t = 2, se juega (A, Z), si 2 se desvı́a en t = 1, en t = 2 se juega (B, Y ).
22
s11 (∅) = A, s12 (AX) = s12 (BX) = A, s12 (AY ) = s12 (BY ) = s12 (AZ) = s12 (BZ) = B.
s21 (∅) = X, s22 (AX) = s22 (BX) = Z, s22 (AY ) = s22 (BY ) = s22 (AZ) = s22 (BZ) =
Y.
SPNE:
• En cada subjuego de t = 2 se juega N E. El perfil es N E de GT :
• Dada la estrategia de 1, si 2 se comporta de acuerdo a su estrategia obtiene 7,
3 en t = 1 y 4 en t = 2. Si se desvı́a, lo mejor que puede hacer es desviarse en t = 1
a Z y obtener 4 en lugar de 3. En este caso el jugador 1 lo penaliza jugando B en
t = 2, y el jugador 2 gana solo 1 en t = 2 (en lugar de 4), jugando Y , que es lo
mejor que puede hacer. En total obtiene 5. Entonces prefiere no desviarse.
• Dada la estrategia de 2, si 1 se comporta de acuerdo a su estrategia obtiene 5,
4 en t = 1 y 1 en t = 2. Dado que en t = 1, 2 juega X, no le interesa desviarse de
A, tampoco le interesa desviarse en t = 2, se juega N E
Básicamente hay una amenaza: Si 2 se desvı́a en t = 1 (y hace que 1 pierda con
respecto a lo prescrito), en t = 2, el jugador 1 lo fuerza a jugar el N E que es peor
para 2. El jugador 2 se preocupa por su reputación, si se muestra cooperador en
t = 1 a costa de perder ganacias, luego le va mejor.
Un caso en el que este tipo de equilibrios aparecen es cuando las acciones de la
segunda etapa se hacen contingentes (dependen) de lo que ocurre en la primera.
6.2
Juegos repetidos infinitos
Pagos:
U
i,T
= (1 − β)
∞
X
β t−1 uit (at ),
t=1
donde (1 − β) es una normalización. Si ui1 (at ) = ... = uit (at ), el pago es ui1 (.).
Considera β ∈ (0, 1)
Los juegos repetidos finitos tienen, normalmente, más SP N E que los finitos.
Esto ocurre incluso si G tiene un único N E.
En el dilema del prisionero, (D, D) en cada etapa, no importa la historia, sigue
siendo SPNE, pero hay otros.
Resultado 3: Un perfil de estrategias es un SP N E de G∞ si y solo si satisface
el principio de desviación única.
Principio de desviación única: Ningún jugador puede incrementar su pago,
cambiando su acción al inicio de cualquier subjuego en el que él es el primero que
mueve, dadas las estrategias de los otros jugadores, y el resto de su estrategia.
Explicación: cualquier cambio en una estrategia se puede puede dividir en secuencias de cambios en cada periodo. Si no hay cambios en un solo periodo que
incrementan los pagos, entonces no hay cambio en la estrategia que incremente los
pagos.
Intuición de la prueba: Considera un árbol finito. Escoge un nodo arbitrario x
y supón que a partir de ahı́ la estrategia de un jugador A no es mejor respuesta.
23
Entonces A tiene una estrategia que es mejor que la anterior. Partiendo de x reemplaza la estrategia antigua por la nueva. Escoge el último nodo, y, en el que jugador
jugó diferente con la nueva estrategia que con la antigua. Supón que reemplamos
ese nodo por la acción original. ¿cambia esto la ganancia entera de toda la cadena
de desviaciones? DOS POSIBLES RESPUESTAS:
1)Sı́. En este caso y es responsable de toda la ganancia. One shot-deviation.
2) No. En este caso reemplaza el nodo y por la acción original y encuentra el
siguiente nodo en el que la acción nueva es diferente de la original y hazte la misma
pregunta. Si es afirmativa, tienes el one-shot deviation, si es negativa sigue.
3) Entonces: obtienes un sı́ en algún momento.
Para ver la prueba completa (y más información), para juegos infinitos, ir a:
TEAMS / MATERIALES DE CLASE / Tema 7. Juegos repetidos / one shot
deviation.
Ejemplo 3: El dilema del prisionero. Tenemos G:
Jugador 2
C
D
C 5, 5 0, 6
Jugador 1
D 6, 0 1, 1
Considera la estrategia Grim trigger modificada:
si1 = C, sit = C, para cada t, si y sólo si h(t) es tal que cada jugador, incluido i,
juega C.
Estamos en un t̃ arbitrario, cuáles son las posibles historias, es decir, lo observado
hasta t̃ − 1?
1.- D nunca se ha jugado (esto ocurre si la historia es vacı́a, o si sólo hemos
observado (C, C)).
Para cada jugador, el pago de seguir la estrategia, esto es: (C, C), (C, C), (C, C),
P∞
(C, C).... es (1 − β) t=1 β t−1 5 = 5.
Si alguien (digamos 1) se desvı́a una vez al inicio manteniendo el resto de la
estratgia constante, pasamos a: (D, C), (D, D), (D, D)....(D, D). Los pagos son:
(1 − β)[6 + 1... + 1] = (1 − β)[6 +
P
∞
β t=0 β t ] = (1 − β)6 + β.
P∞
t−1 ] = (1 − β)[6 +
t=2 β
P∞
t=1 β
t]
= (1 − β)[6 +
Si 6 − 3β ≤ 5, no hay incentivos a desviarse. Esto es β ≥ 1/3. El análisis es el
mismo para el jugador 2.
2.- D se ha jugado alguna vez: [(D,D), (C,D), (D,C)]
P∞
Para cada individuo, el pago de seguir la estrategia es (1 − β) t=1 β t−1 1 = 1. Si
alguien (digamos 1) se desvı́a, entonces pasamos a: (C, D), (D, D), (D, D)....(D, D).
Los pagos son:
P∞
(1 − β)[0 + 1... + 1] = (1 − β) t=2 β t−1 = β < 1. El jugador no se desvı́a. El
análisis para el jugador 2 es análogo.
24
Conclusión: Para β ≥ 1/3 Grim trigger modificada es SPNE. Se observa (C, C)
en cada periodo. La cooperación se puede sostener! a diferencia del modelo finito!.
Nota: La cooperación también se puede inducir cuando se penaliza un número finito
de periodos.
Considera la estrategia Tit for tat: La estrategia comienza en (C,C). Luego
cada jugador hace lo que su oponente hizo en el periodo anterior. Entonces la
estrategia tiene en cuenta 4 posibles historias relevantes hasta un t̃ arbitario:
1.- (C,C). Seguir la estrategia propuesta significa hacer (C, C), (C, C). El pago de
cada jugador es 5. Si el jugador 1 se desvı́a una vez, revirtiendo luego a su estrategia
(tit for tat) y fijada la estrategia de 2 (tit for tat) tenemos: (D, C), (C, D), (D, C)...
Los pagos son: (6, 0), (0, 6), (6, 0).... Es decir los pagos de 1 con este desvı́o son:
P∞
(1 − β)
6
. Nota:
=
(1 − β)(6 + 6β 2 + 6β 4 + ...) = 6(1 − β) t=1 β 2(t−1) = 6
2
1−β
1+β
β 2(t−1) = [β 2 ]t−1 .
6
El análisis para 2 es igual. No hay desvı́o si 5 ≥
. Es decir β ≥ 1/5.
1+β
2.- (C,D). Seguir la estrategia significa hacer: (D, C), (C, D)(D, C)... Los pagos
son: (6, 0), (0, 6), (6, 0)....
P∞
(1 − β)
Para 1 tenemos (1−β)(6+6β 2 +6β 4 +...+) = 6(1−β) t=1 β 2(t−1) = 6
=
1 − β2
6
6β
. Para 2 tenemos: (1 − β)(6β + 6β 3 + 6β 5 + ...). Su pago es:
.
1+β
1+β
Si 1 se desvı́a, observamos (C, C), (C, C)(C, C).... Entonces 1 obtiene 5. Este
jugador no se desvı́a si β ≥ 1/5.
Si 2 se desvı́a, observamos (D, D), (D, D), (D, D).... Entonces 2 obtiene 1. Este
6β
. Esto es β ≤ 1/5.
jugador no se desvı́a si 1 ≥
1+β
En global para que no haya desvı́o β = 1/5.
3.- (D,C). El análisis es igual al anterior. No desvı́o para β = 1/5.
4.- (D,D). Seguir la estrategia significa hacer: (D, D), (D, D)(D, D)... El pago
para cada jugador es 1.
Si el jugador 1 se desvı́a tenemos: (C, D), (D, C), (C, D).... Los pagos son:
6β
(0, 6), (6, 0), (0, 6).... Pagos de 1:
. No se desvı́a si β ≤ 1/5.
1+β
Si 2 se desvı́a tenemos: (D, C), (C, D), (D, C).... Los pagos son: (0, 6), (6, 0), (0, 6)....
6β
Pagos de 2:
. No se desvı́a si β ≤ 1/5.
1+β
Conclusión: Para β = 1/5, Tit-for-Tat es SPNE. Se observa (C, C) en cada
periodo. La cooperación se puede sostener, a diferencia del modelo finito!.
Ejercicio 1. El juego de Bertrand repetido. Dos empresas, i y j, desean
satisfacer una demanda D (interpretación: D consumidores cada uno consumiendo
como máximo una unidad). La empresa que establece el precio más bajo se lleva D,
la empresa que establece el precio más alto se lleva cero. Si establecen el mismo precio se reparten el mercado, cada una se lleva D/2. Considera que V es la disposición
25
a pagar de los consumidores. El coste marginal de producir es c > 0. Asume que
V > c.
Probar que para algún β: el perfil de estrategias que prescribe que las empresas
comiencen con pi = pj = V y si alguna de desvı́a (establece V 0 6= V , la desviación
que tiene sentido es de la forma V − > 0) , entonces siempre establecen pi = pj = c,
es SPNE (Grim trigger modificada).
Para ello estudiamos si existen desviaciones únicas beneficiosas:
Si alguna vez se observaron acciones diferentes de (V, V ), por parte de alguna
empresa. La estrategia prescribe (c, c) para siempre. Cada empresa se lleva cero, y
no hay desviación que dé más pagos.
Si nunca se obsevaron acciones diferentes de (V, V ). Estamos bajo la estrategia
establecida se juega (V, V ) siempre en el futuro. Los pagos de cada empresa son:
1
1 P∞ t−1
β D(V − c) = D(V − c).
(1 − β)
t=1
2
2
Si la empresa i = 1, 2 se desvı́a, tenemos: (V − , V ), (c, c), (c, c)..... Los pagos de
i son (1 − β)D(V − − c). La empresa no se desvı́a si:
1
D(V − c) > (1 − β)D(V − − c).
(6)
2
La desigualdad expresada en (6) debe ser cierta para cualquier > 0, arbitrariamente cercano a cero. Entonces β ≥ 1/2.
Colusión tácita (acuerdo no explı́cito para no recortar precios). Ocurre cuando
se valora suficientemente el futuro y el futuro ”existe”. Si, por el contrario se sabe
que se va terminar de competir en un periodo arbitrario, en el último periodo hay
incentivos a recortar precios, pues ya no hay ”futuro”.
7
TEMA 8. EQUILIBRIO GENERAL BAJO INCERTIDUMBRE
Material básico: Mas-Colell et al. Microeconomic Theory, capı́tulo 19.
Considera una economı́a con L bienes, I consumidores y J empresas, que interactúan a través de un sistema de mercado que tiene las siguientes caracterı́sticas:
1. Los mercados se vacı́an simultáneamente (exploramos las implicacoines de las
interacciones de los mercados de los L bienes. Esto contrasta con el equilibrio
parcial, donde el funcionamiento de algunos mercados se toma como dado, es
exógeno al modelo. Por ejemplo, en el modelo de oferta y demanda de un
determinado bien, el precio del resto de bienes está dado (ver también capı́tulo
6 de Mas-Colell et al. - teorı́a de la decisión-).
2. Los agentes toman los precios como dados (price takers). Esto difiere de situaciones de interacción estratégica (teorı́a de juegos).
26
7.1
Modelo básico
Podemos pensar en una economı́a sin intertidumbre (Walrasiana) o con ella (ArrowDebreu). Tenemos:
I = {1, ..., I} consumidores (I < ∞),
L = {1, ..., L} bienes y (L < ∞),
J = {1, ..., J} empresas (J < ∞).
La incertidumbre se describe por los estados de la naturaleza: S = {1, ..., S},
(S < ∞). Un estado de la naturaleza s ∈ S describe el resultado posible de la
incertidumbre, i.e., si en s1 llueve y en s2 no, si se realiza s1 , llueve.
Cada consumidor i está definido por:
1. Un conjunto de consumo Xi ⊆ RLS
+ . Indica lo que puede consumir de cada
bien, en cada estado de la naturaleza. Un canasta arbitraria xi ∈ Xi es:
xi = (x11i , ..., x1Li , ..., xs1i , ..., xsLi , ..., xS1i , ..., xSLi ).
2. Una dotación inicial ωi = (w11i , ..., w1Li , ..., ws1i , ..., wsLi , .., wS1i , ..., wSLi ) ∈
RLS
+ . Indica qué dotaciones tiene de cada bien, en cada estado de la naturaleza.
3. Una relación de preferencias <i sobre Xi , completa y transitiva. Esta relación
de preferencias admite una representación por medio de la utilidad esperada.1
Cada empresa j está definida por sus posibilidades tecnológicas en cada estado
de la naturaleza. Tenemos, Yj ∈ RLS . Donde yj ∈ Yj es un vector input-output.
yj = (y11j , ..., y1Lj , ..., ys1j , ..., ysLj , ..., yS1j , ..., ySLj ).
Ejemplo: Considera que hay dos estados del mundo. s1 y s2 , que representan
buen y mal tiempo, respectivamente. Dos bienes: l1 , semillas y l2 , grano. Tenemos:
yj = (y11j , y12j , y21j , y22j ). Las semillas se plantan antes de la resolución de la
incertidumbre. Tenemos: yj = (−1, 1, −1, 0). Con buen tiempo se obtiene grano,
con mal tiempo no.
Definición 1. Una asignación (x, y) ∈ RLS(I+J) es una especificación de:
1. Un vector de consumo x = (x1 , ..., xi , ...xI ), donde xi ∈ Xi .
2. Un vector de producción y = (y1 , ..., yi , ...yJ ), donde yj ∈ Yj .
Definición 2. Una asignación (x, y) es factible si:
X
i∈I
xsli ≤
X
wsli +
i∈I
X
yslj .
j∈J
para cada bien l ∈ L y cada estado del mundo s ∈ S.
1 De hecho asumimos que la relación de preferencias es continua y satisface el axioma de indepedencia. Esto
garantiza que las preferencias admiten una representación en forma de utilidad esperada.
27
Definición 3: Para cada bien l ∈ L y cada estado del mundo s ∈ S, una unidad
del bien l, contingente al estado s, es el derecho a recibir una unidad de l si y sólo
si, el estado s ocurre. Dado, xi = (x11i , ..., x1Li , ..., xs1i , ..., xsLi , ..., xS1i , ..., xSLi ), si
el estado s se realiza, el consumidor recibe xsi ≡ (xs1i , ..., xsLi ), especificando lo que
recibe de cada bien en el estado s. Igual ocurre con las dotaciones y la producción.
Cada consumidor evalúa vectores contingentes xi , asignándole a cada estado una
probabilidad (objetiva o subjetiva). Para cada estado s, cada individuo i tiene una
función de utilidad: usi : RL
+ → R y calcula la utilidad esperada. Para dos vectores
0
0
xi , xi , xi <i xi si y solo si:
X
πsi usi (xsi ) ≥
s∈S
X
πsi usi (x0si ),
s∈S
donde πi ≡ (π1i , ...., πsi , ..., πSi ) es la distribución de probabilidad de los estados.
Finalmente, asumimos que estamos en una economı́a de propiedad privada: la
riqueza de los consumidores viene derivada de las dotaciones iniciales y de sus porcentajes de participación en las empresas. Por simplicidad, suponemos que los
porcentajes de participación en las empresas no dependen del estado de la naturaleza. Denotamos la participación del individuo i en la empresa j por θij . Ası́,
P
i∈I θij = 1.
P
OJO: typo en Mas- Colell, página 689:
j∈J θij = 1.
Definición 4: Una asignación factible (x, y) es óptima en el sentido de Pareto
si no existe (x0 , y 0 ) 6= (x, y) que la domina en el sentido de Pareto. Esto es, si no
existe (x0 , y 0 ) 6= (x, y) tal que xi <i x0i para cada individuo i ∈ I y xm i x0m para
algún m ∈ I.
Gráfico 1: Asignaciones Pareto eficientes
28
Asignaciones pareto eficientes (nota técnica):
M axx11 ,x21 π11 u1 (x11 ) + π21 u1 (x21 )
s.a
π12 u2 (x12 ) + π22 u2 (x22 ) ≥ u
x11 + x12 = w11 + w12 ≡ w1
x21 + x22 = w21 + w22 ≡ w2
L(x11 , x21 ; λ) = π11 u1 (x11 )+π21 ui (x21 )+λ(−u+π12 u2 (w1 −x11 )+π22 u2 (w2 −x21 ).
C.P.O implican que:
π21 u01 (x21 )
π11 u01 (x11 )
=
π12 u02 (w1 − x11 )
π22 u02 (w2 − x21 )
.
π11 u01 (x11 )
π12 u02 (w1 − x11 )
=
π21 u01 (x21 )
π22 u02 (w2 − x21 )
.
Esto es, en las asignaciones pareto eficientes interiores, las relaciones marginales
de sustitución de los individuos han de ser iguales.
7.2
Equilibrio de Arrow-Debreu
En esta economı́a los bienes contigentes se comercian antes de que se resuelva la
incertidumbre, a precios conocidos, que no son afectados por las decisiones de los
consumidores y empresas. Estos precios son contingentes al estado. El objetivo
de los consumidores es maximizar su bienestar, y el de las empresas, maximizar
sus beneficios. Para que los mercados estén bien definidos, es necesario que los
consumidores puedan reconozcan qué estado se ha realizado.
Definición 5: Una asignacion (x∗ , y ∗ ) ∈ RLS(I+J) y un sistema de precios p∗ ≡
(p11 , ..., p1L , ..., ps1 , ..., psL , ..., pS1 , ..., pSL ) ∈ RLS constituye un equilibrio de ArrowDebreu (o Walrasiano (competitivo) si S = 1) si:
1. Cada empresa j ∈ J maximiza sus beneficios. Es decir, p∗ yj∗ ≥ p∗ yj para cada
y j ∈ Yj .
2. Cada consumidor i ∈ I maximiza su utilidad esperada. Es decir, s∈S πsi usi (x∗si ) ≥
P
s∈S πsi usi (xsi ), para cada xi ∈ Xi , dado su conjunto presupuestario:
P
p∗ xi ≤ p∗ wi +
X
j∈J
29
θij p∗ yj∗
3. Los mercados se vacı́an:
X
i∈I
x∗sli ≤
X
i∈I
wsli +
X
∗
,
yslj
j∈J
para cada l y cada s.2
En casos simples una economı́a de Arrow-Debreu se puede representar usando
una caja de Edgeworth.
Ejemplo 1: Considera I = {1, 2}, L = 1 y S = {1, 2}. Con ω1 = (ω11 , ω21 ) =
(1, 0) y ω2 = (ω12 , ω22 ) = (0, 1). Nota que ω1 + ω2 = (1, 1). Asume que no hay producción. Asume que las preferencias no dependen del estado, esto es, usi = ui para
cada i. Vamos a considerar que ui es creciente y estrictamente cóncava (preferencias
convexas). Considera las probabilidades: π1 ≡ (π11 , π21 ) y π2 ≡ (π12 , π22 ).
Gráfico 2: Caja de Edgeworth:
Equilibrio de Arrow-Debreu: Cada individuo i maximiza su utilidad dada su
restricción de presupuesto:
M axx1i ,x2i π1i u1 (x1i ) + π2i u1 (x2i )
s.a
p1 x1i + p2 x2i = p1 w1i + p2 w2i .
2 Si las preferencias son localmente no saciables, propiedad que definimos más abajo, esta restricción se cumple
con igualdad.
30
L(x1i , x2i ; λ) = π1i ui (x1i ) + π2i ui (x2i ) + λ(p1 w1i + p2 w2i − p1 x1i − p2 x2i ).
C.P.O :
π1i u0i (x1i ) − λp1 = 0
π2i u0i (x2i ) − λp2 = 0
Tenemos:
π11 u01 (x11 )
π12 u02 (x12 )
π11 u01 (x11 )
p1 π12 u02 (x12 )
p1
=
y
=
→
=
. Si las probaπ21 u01 (x21 )
p2 π22 u02 (x22 )
p2
π21 u01 (x21 )
π22 u02 (x22 )
bilidades para cada individuo son las mismas (π11 = π12 y π21 = π22 ):
u01 (x11 )
u02 (x12 )
=
.
u01 (x21 )
u02 (x22 )
Además, los mercados se vacı́an:
x11 + x12 = 1
x21 + x22 = 1
En equilibrio, cada consumidor consume lo mismo en cada estado. Supón lo
contrario: x11 > x21 → x12 < x22 → Por concavidad, llegamos a la contradicción:
u02 (x12 )
u01 (x11 )
<
.
u01 (x21 )
u02 (x22 )
p1
π11
=
. RP de 1:
p2
π21
p1
π1
p1
π1
(p1 + p2 )x1 = p1 . Ası́ x1 =
. Fija p1 = 1 →
=
→ x1 =
.
p1 + p2
p2
π2
π1 + π2
π2
(market clearing).
El individuo 2 consume en cada estado, x2 =
π1 + π 2
Iguales probabilidades y ausencia de incertidumbre agregada, cada consumidor
consume lo mismo en cada s
Si cada consumidor consume los mismo en cada estado:
Gráfico 3: Equilibrio sin incertidumbre agregada, e iguales prob
31
π11
π12
<
. Esto es, el consumidor 2 piensa
π21
π22
que el estado 1 es relativamente más probable que el estado 2, que el consumidor 1.
Sobre la lı́nea de 45 grados (donde ambos consumen igual de cada bien):
Si la probabilidades son diferentes:
π11 u01 (x11 )
π12 u02 (x12 )
<
π21 u01 (x21 )
π22 u02 (x22 )
Esto es, la RMS de 1 es más pequeña que la RMS de 2.
Gráfico 4: Equilibrio sin incertidumbre agregada, diferentes prob
Cada consumidor consume más en el estado que para él, es relativamente más
probable.
Definición 6: La relación de preferencias <i sobre el conjunto Xi , es localmente
no saciable si: para cada xi ∈ Xi y > 0, existe x0i ∈ Xi that que ||xi − x0i || < y
x0i i xi .
Gráfico 5: No saciabilidad local. Mas Colell, páginas 549-550
32
Primer Teorema del Bienestar: Si las preferencias de los consumidores son
localmente no saciables el equilibrio de Arrow-Debreu es Pareto óptimo.
Prueba: Considera que (x∗ , y ∗ , p∗ ) es un equilibrio de Arrow-Debreu. Entonces,
si para algún i ∈ I, xi i x∗i entonces:
p∗ xi > p∗ wi +
X
θij p∗ yj∗ .
j∈J
Supón que las preferencias de los individuos son localmente no saciables. Considera para algún i ∈ I, xi ∈ Xi es tal que xi <i x∗i y que:
p∗ xi < p∗ wi +
X
θij p∗ yj∗ .
j∈J
x0i
Entonces, existe > 0 tal que para
∈ Xi , ||xi − x0i || < y x0i i xi , donde
> 0 es suficientemente pequeño tal que:
p∗ x0i ≤ p∗ wi +
X
θij p∗ yj∗ .
j∈J
Pero entonces, x0i i xi <i x∗i (transitividad). Esto contradice el hecho de que
x∗ es un equilibrio. Concluimos que: si una cesta es al menos tan preferida, en ella
el individuo debe, como mı́nimo, gastar toda su riqueza, es decir:
p∗ xi ≥ p∗ wi +
X
θij p∗ yj∗ .
j∈J
Considera entonces una cesta x tal que xi <i x∗i para cada individuo i ∈ I, y
xm m x∗m para algún individuo m. Esto es una asignación que domina en el sentido
de pareto, al equilibrio. Entonces:
p∗
X
xi > p∗
X
i∈I
i∈I
X
xi > p∗
X
p∗
i∈I
p∗
wi +
XX
wi +
X
i∈I j∈J
i∈I
X
xi > p∗
i∈I
p∗ yj∗
X
j∈J
X
wi +
i∈I
θij .
i∈I
X
p∗ yj∗ .
j∈J

p∗ 
θij p∗ yj∗ .

X
i∈I
xi −
X
wi −
i∈I
X
yj∗  > 0.
j∈J
Lo cual es una contradicción: lo que consumen los individuos no pueden ser mayor
a lo que hay disponible (ver definición 2). Concluimos que el equilibrio es Pareto
eficiente o Pareto óptimo.
33
Implicaciones del Primer Teorema del bienestar: un mercado competitivo resulta
en una asignación eficiente. Nota: asumimos que no fallos de mercado: externalidades, bienes públicos, monopolio.
Aunque quizá no realista, el mercado competitivo es un benchmark para los
policy-markers.
El segundo teorema del bienestar es el complementario del primero, en el sentido
de que se pregunta cuándo una asignación pareto eficiente es un equilibrio.
Segundo Teorema del Bienestar. Considera una economı́a de Arrow- Debreu.
Asume, que para cada i ∈ I, las preferencias son convexas y localmente no saciables.
Entonces, para cada asignación Pareto óptima (x∗ , y ∗ ), existe un vector de precios
p∗ 6= 0, tal que (x∗ , y ∗ , p∗ ) es un equilibrio de Arrow Debreu.
Bajo convexidad, el planificador social puede redistribuir la riqueza (dotaciones)
y luego dejar que el mercado actúe.
Gráficos 6 y 7: Segundo Teorema del Bienesar
34
7.3
Comercio secuencial
El marco de Arrow-Debreu puede ser restrictivo porque asume que todo el comercio
tiene lugar de manera simultánea (one shot, antes de la resolución de la incertidumbre). Normalmente, los intercambios tienen lugar secuencialmente (quizá a medida
que se va revelando información se comienza a realizar intercambios). Vamos a
considerar, por simplicidad, una economı́a sin producción.
Pensemos en dos periodos t = 0 y t = 1. En t = 0 no se consume. La incertidumbre se resuelve en t = 1.
Supón que (x∗ , p∗ ) es un equilibrio de Arrow-Debreu. Recuerda que lo que se
compra y se vende en este mercado son derechos a recibir bienes u obligaciones de
entregar bienes en t = 1, cuando el estado del mundo se revela y los contratos se
ejecutan. (FORWARD MARKETS)
Imagina que t = 1 ha llegado, pero que antes del consumo (antes de que se
ejecuten los contratos) los mercados para x∗si ) = (x∗s1i , ..., x∗sLi ) se abren (SPOT
MARKETS). Habrı́a algún incentivo a comerciar? La respuesta es NO.
Si las hubiera, estamos diciendo que habrı́a otra opción de consumo factible para
cada consumidor, xsi = (xs1i , ..., xsLi ) tal que este consumidor está al menos tan
bien como con x∗ . Esto es, para cada i ∈ I:
P
P
(x∗1i , ..., xsi ..., x∗Si ) <i (x∗1i , ..., x∗si ..., x∗Si ) con i xsli ≤ i wsli para cada bien l.
Estamos diciente que el equilibrio de Arrow-Debreu no es Pareto eficiente! LO
CUAL CONTRADICE EL PRIMER TEOREMA DEL BIENESTAR.
Pareto optimalidad ex-ante implica Pareto optimalidad ex-post.
El resultado es diferente si no todos los bienes contigentes ls, se pueden negociar
en t = 0. En t = 1 se pueden reabrir mercados, para alcanzar la optimalidad.
Supongamos que al menos un bien se puede negociar de manera contigente en
t = 0 y que hay spot markets en t = 1 para el resto de bienes, y los precios de t = 1
se anticipan correctamente en t = 0.
Más especı́ficamente. Considera que en t = 0, los consumidores tiene expectativas sobre los precios en t = 1 para cada estado, esto es ps ∈ RL con p =
(p1 , ..., ps , ...pS ) ∈ RLS .
En t = 0 hay comercio sobre el bien 1, contigente al estado s ∈ S. El vector de
precios para este bien contingente 1 es: q = (q1 , ..., qS ) ∈ RS .
Cuando el consumidor se encuentra con precios q en t = 0 y precios esperados p,
formula un plan de comercio para el bien contigente: (z1i , ..., zsi , ...zSi ) ∈ RS y un
plan de consumo en t = 1, (x1i , ..., xsi , ...xSi ) ∈ RLS , con el objetivo de maximizar
su utilidad esperada:
M ax
S
X
πsi ui (xsi ).
s=1
s.a
En t = 0 :
35
S
X
qs zsi ≤ 0
s=1
Para cada estado s hay un spot market en t = 1:
ps xsi ≤ ps wsi + ps1 zsi .
Aquı́: ps wsi es el valor de mercado de las dotaciones. y ps1 zsi es el valor de
mercado de las cantidades compradas o vendidas en t = 0.
No hay restricción en el signo de zsi . Si zsi < −ws1i significa que el consumidor
es vendiendo más de lo que tiene del bien 1 en el estado s. Si el estado s se da,
entonces tendrá que comprar en el spot market una cantidad extra del bien 1 para
hacer frente a sus obligaciones. Si zsi > 0 el consumidor está comprando bien 1 en
el estado s.
¿qué está haciendo el consumidor? En t = 0 está redistribuyendo su riqueza a
través de los estados. Va a vender en unos estados para comprar en otros.
La segunda restricción se satisface con igualdad. Dada tu riqueza, consumir
más es mejor. La primera restricción se satisface con igualdad. El consumidor no
va vender en todos los estados. Porque entonces tiene menos riqueza (es mejor
incrementar riqueza en algunos estados que no hacerlo).
Como dijimos antes, para tener una noción correcta de comercio secuencial, una
condición clave es que las expectativas de precios en t = 1 que se cumplan (selfullfilled or rational expectations), es decir, que lo que los consumidores esperan que
pase en t = 1 es lo que realmente ocurre, cuando el estado s se realiza.
Definición 6: Un vector de precios q ∗ = (q1∗ , ..., qS∗ ) ∈ RS en t = 0 para el bien
contingente 1 en el forward market, un vector de precios p = (p1 , ..., ps , ...pS ) ∈ RLS
para el spot market en t = 1 y un plan de consumo:
(z1i , ..., zsi , ...zSi ) ∈ RS
(x1i , ..., xsi , ...xSi ) ∈ RLS
constituye un equilibrio de Radner si:
Cada consumidor maximiza su utilidad esperada y la asignación es factible: en
P
P
P
∗ ≤ 0 y en t = 1:
∗ ≤
t = 0:
z
x
si
si
i∈I
i∈I
i∈I wsi , para cada estado s.
A diferencia de Arrow-Debreu, el comercio es secuencial en Radner. A diferencia de Arrow-Debreu, en Radner, cada consumidor enfrenta una secuencia de
restricciónes presupuestarias, una por cada estado en t = 1.
Por un lado hemos reducido el número de mercados contingentes. Por otro,
imponemos expectativas racionales.
Equivalencia equilibrio Radner y Arrow-Debreu:
De Arrow-Debreu a Radner:
36
Si x∗ ∈ RSLI y p∗ ∈ RSL
++ es un equilibrio de Arrow-Debreu, entonces existen
S
precios q ∈ R++ del bien contingente 1 y planes z ∗ = (z1 , ..., zI ) ∈ RSI tal que,
(x∗ , z ∗ , p∗ , q) es un equilibrio de Radner.
Prueba: Elige qs = ps1 . La restricción de Arrow-Debreu es: p[xi − wi ] ≤ 0. La
restricción de Radner es: ps [xsi − wsi ] ≤ p1s zsi para cada s. Tenemos:
P
P
P
s∈S ps [xsi − wsi ] ≤
s∈S p1s zsi → p[xi − wi ] ≤
s∈S ps1 zsi = 0. Tenemos
la misma RP en ambos casos. De hecho, los precios en t = 0 que soportan el
equilibrio de Arrow-Debreu (x∗ , z ∗ , p∗ ) como equilibrio de Radner, (x∗ , z ∗ , p∗ , q) son
q = (p11 , ..., ps1 , ..., pS1 ).
De Radner a Arrow-Debreu:
∗
S
Si x∗ ∈ RSLI , z ∗ = (z1 , ..., zI ) ∈ RSI , p∗ ∈ RSL
++ , q ∈ R++ constituye un
equilibrio de Radner, entonces existen multiplicadores (µ1 , ..., µs , .., µS ) ∈ RS++ , tal
que x∗ y (µ1 p∗1 , ..., µs p∗s , ..., µS p∗S ) ∈ RLS constituye un equilibrio de Arrow-Debreu.
Prueba: Elige qs = µs ps1 . La restricción de Radner es: ps [xsi − wsi ] ≤ ps1 zsi
para cada s. Queda como:
µs ps [xsi − wsi ] ≤ qs zsi = 0.
La restricción de Arrow-Debreu es:
X
µs ps [xsi − wsi ] ≤ 0
s∈S
µs es el valor de una unidad monetaria (dolar) en t = 1 desde el punto de vista
de t = 0.
7.4
Mercados de activos
El bien contingente que se comercia en t = 0, tiene la capacidad de transferir riqueza
entre los estados del mundo, que serán revelados en el futuro.
En la vida real, hay activos que juegan este papel. Vamos a ver una teorı́a de
asset markets.
Definición 7: Una unidad de activo k, es el derecho a recibir dinero (bonos del
estado) o bienes fı́sicos (contratos para recibir cobre) en t = 1. En particular una
unidad de k, da el derecho a recibir rsk unidades del bien 1 si el estado s se realiza.
Al vector rk = (r1k , ...., rSk ∈ RS+ se le llama vector de retorno del activo k.
Ejemplos: rk = (1, 1, ..., 1). En cada estado se recibe una unidad. rk = (0, 0, ..., 1..., 0).
Se recibe una unidad si y solo si el estado s se realiza.
Considera que hay K activos. K = {1, 2, ..., K}.
∗ ) ∈ RK para los activos
Definición 8: Un vector de precios q ∗ = (q1∗ , ..., qK
comerciados en t = 0, un vector de precios p = (p1 , ..., ps , ...pS ) ∈ RLS para el spot
market en t = 1 y, un portfolio y plan de consumo:
(z1i , ..., zki , ...zKi ) ∈ RK
37
(x1i , ..., xsi , ...xSi ) ∈ RLS
constituye un equilibrio de Radner con activos si, cada consumidor maximiza su
utilidad esperada:
M ax
S
X
πsi ui (xsi ).
s=1
s.a
En t = 0 :
K
X
qk zki ≤ 0
k=1
Para cada estado s hay un spot market en t = 1:
ps xsi ≤ ps wsi +
X
ps1 zki rsk
k∈K
∗
∗
i∈I zki ≤ 0 y en t = 1:
i∈I xsi ≤
P y la asignación es factible: en t = 0:
i∈I wsi , para cada estado s.
Nota: La información sobre los retornos de los activos, se puede colapsar en una
matriz de retorno R de dimensiones S × K. Especificamente, R = (rsk ). La fila s
indica el retorno de los activos en el estado s. La columna k indica el retorno del
activo k en todos los estados.
Antes, vimos la equivalencia entre el equilibrio de Arrow-Debreu y el equilibrio
de Radner. Podemos establecer la equivalencia entre el equilibrio de Arrow-Debreu
y el equilibrio de Radner con activos.
Definición 9: Una estructura de activos, representada por la matriz de retorno
R, de dimensiones S × K es completa si el rango de R es S. Es decir si hay un
subconjunto de S activos que son linealmente independientes.
Con una estructura completa, podemos transferir riqueza entre estados sin restricciones (más allá de las impuestas por la restricción presupuestaria). Entonces,
en equilibrio, la elección de su portfolio induce el mismo consumo en t = 1 que en
Arrow-Debreu ( y por tanto alcanzamos pareto optimalidad).
Nota: Para que la estructura sea completa, necesitamos que K ≥ S.
¿Qué ocurre si el rango de R es menor que S? El equilibrio de Radner puede no
ser Pareto óptimo.
Considera el caso extremo en el que no hay activos en la economı́a (rango cero).
Entonces en el equilibrio de Radner cada consumidor debe consumir el valor de sus
activos, es decir resuelve:
P
M ax
S
X
πsi ui (xsi ).
s=1
Para cada estado s en t = 1:
38
P
ps xsi ≤ ps wsi .
Mientras que la RP en Arrow-Debreu es:
pxi ≤ pwi
(distribuimos riqueza de manera eficiente.)
El siguiente resultado impone restricciones sobre los precios q = (q1 , ...., qK ) que
pueden emerger en el equilibrio de Radner con activos.
Resultado: Asume que rk ≥ 0 para cada activo k y rk 6= 0. Entonces para cada
vector q ∗ = (q1 , ...., qK ) que forma parte de un equilibrio de Radner con activos,
PS
existen multiplicadores µ = (µ1 , ..., µs , ..., µS ) tales que qK = s=1 µs rks
Es decir, el precio del activo k en t = 0 es una combinación lineal de su retorno
a través de los estados. En términos matriciales q T = µR.
Equivalencia entre Radner con activos y Arrow-Debreu.
Considera que la estructura de activos es completa. Entonces:
De Arrow-Debreu a Radner con activos:
Si x∗ ∈ RSLI y p∗ ∈ RSL
++ es un equilibrio de Arrow-Debreu, entonces existen preS
cios q ∈ R++ de los activos y portfolios z ∗ = (z1 , ..., zI ) ∈ RSI tal que, (x∗ , z ∗ , p∗ , q)
es un equilibrio de Radner.
P
[Define qk = s ps1 rsk . Es decir el precio del activo k es el valor de su retorno. La
prueba es enteramente similar a la de equivalencia entre Radner y Arrow-Debreu.]
De Radner con activos a Arrow-Debreu:
∗
K
Si x∗ ∈ RSLI , z ∗ = (z1 , ..., zI ) ∈ RKI , p∗ ∈ RSL
++ , q ∈ R++ constituye un
equilibrio de Radner, entonces existen multiplicadores (µ1 , ..., µs , .., µS ) ∈ RS++ , tal
que x∗ y (µ1 p∗1 , ..., µs p∗s , ..., µS p∗S ) ∈ RLS constituye un equilibrio de Arrow-Debreu.
Prueba: Considera un equilibrio de Radner con activos. (q ∗ , p∗ , x∗ , z ∗ ). Define
el vector de precios de Arrow-Debreu como (µ1 p∗1 , ...µs p∗s , ..., µS p∗S ).
Como x∗ , z ∗ es parte del equilibrio de Rander, en t = 1 se satisface:
ps xsi ≤ ps wsi +
X
ps1 zki rsk
k∈K
para cada s. En términos matriciales y normalizando ps1 = 1 tenemos:
Rzi∗ = (p∗1 (x∗1i − w1i ), ...., pS ∗ (x∗Si − wSi ))T
.
y
q ∗ zi∗ = 0
Dado el resultado q T = µR, podemos reescribir:
µRzi∗ = 0.
39
Esta expresión es equivalente a:
µ(p∗1 (x∗1i − w1i ), ...., p∗S (x∗Si − wSi ))T = 0
.
Y puede ser reescrita como:
S
X
µs p∗s (x∗si − wsi ) = 0.
s=1
Esta expresión es la restricción presupuestaria de Arrow-Debreu, para los precios
(µ1 p∗1 , ...µs p∗s , ..., µS p∗S ) especificados al inicio. Esto significa que x∗ es factible (está
en el presupuesto) del problema de Arrow-Debreu.
Queda por demostrar que, efectivamente, con x∗ cada individuo maximiza su
utilidad en el problema de Arrow-Debreu. Una forma de proceder es demostrar que
para cada asignación x que es factible en Arrow- Debreu, existe z tal que asignación
x, z que es factible en Radner.
Considera una asignación factible x en Arrow-Debreu. Tenemos.
S
X
µs p∗s (xsi − wsi ) = 0.
s=1
La estructura de activos completa garantiza que existen zi tal que la asignación
x satisface las restricciones del periodo 1 de Radner, esto es:
Rzi = (p∗1 (x1i − w1i ), ...., p∗S (xSi − wSi ))T .
Ademas, en t = 0:
q ∗ zi = µRzi ≤ 0
.
Esto es, cada asignación factible x en Arrow-Debreu también lo es en Radner.
Además, x∗ es factible en Radner y también en Arrow-Debreu. Por tanto, x∗ también
maximiza la utilidad de cada individuo en Arrow-Debreu.
40
Download