Uploaded by andresrgalleguillos

Apunte IO v2 (1)

advertisement
INGENIERIA INDUSTRIAL
UNIVERSIDAD DE CHILE
Apunte de Cátedra
IN3272
Decisiones Bajo Incertidumbre
Denis Sauré & Pablo Galaz
1
Marzo, 2022
1
Esta es una versión preliminar de los apuntes de cátedra del curso Decisiones Bajo Incertidumbre del Departamento de Ingeniería Industrial de la Universidad de Chile. Por favor, reportar errores, dudas y sugerencias a
dsaure@dii.uchile.cl o pablo.galaz.c@ug.uchile.cl.
Índice de Contenidos
i
Índice de Contenidos
1.
Decisiones Bajo Incertidumbre
1.1. Optimización Bajo Incertidumbre .
1.1.1. Decisiones Estáticas . . . .
1.1.2. Decisiones Dinámicas . . .
1.2. Árboles de Decisión . . . . . . . . .
1.2.1. Preeliminares . . . . . . . .
1.2.2. Modelamiento y Resolución
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
4
5
7
7
8
2.
Programación Dinámica
20
2.1. Programación Dinámica Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Caso determinista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3. Caso Horizonte Infinito Descontado . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.
Cadenas de Markov en Tiempo Discreto
3.1. Clasificación de Estados . . . . . . . . . . . . . . . . . . . .
3.2. Período de un estado. . . . . . . . . . . . . . . . . . . . . .
3.3. Probabilidades Estacionarias . . . . . . . . . . . . . . . . . .
3.3.1. Condición I: Única clase recurrente. . . . . . . . . .
3.3.2. Condición II: Aperiodicidad. . . . . . . . . . . . . .
3.3.3. Existencia y cálculo de probabilidades estacionarias
3.4. Reversibilidad y Semi-Markov . . . . . . . . . . . . . . . . .
3.4.1. Reversibilidad . . . . . . . . . . . . . . . . . . . . .
3.4.2. Procesos Semi-Markovianos . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
41
44
45
46
46
47
55
55
60
Procesos de Poisson
4.1. Tiempo entre llegadas u ocurrencias . .
4.2. Distribución Condicional . . . . . . . . .
4.3. División y suma de procesos de Poisson.
4.4. Procesos de Poisson no homogéneos. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
62
65
67
74
80
5.
Teoría de Renovación
5.1. Ecuación de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Renovación con Recompensas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Proceso de Renovación Alternante. . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
87
92
95
6.
Cadenas de Markov en Tiempo
6.1. Caracterización . . . . . . . .
6.2. Interpretación alternativa. . .
6.3. Probabilidades estacionarias .
6.4. Reversibilidad . . . . . . . . .
4.
7.
.
.
.
.
Continuo
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
102
103
104
106
116
Fenómenos de Espera
127
7.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2. Ley de Little . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3. Colas en Tandem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Índice de Contenidos
7.4.
ii
Redes de Colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
1.
1.1.
1
Decisiones Bajo Incertidumbre
Optimización Bajo Incertidumbre
Consideremos una versión general de un problema de optimización:
z ∗ = máx{g(a) : a ∈ A}.
(1)
En este problema, buscamos maximizar una función objetivo g(·) sobre un conjunto de acciones posibles A. Normalmente imponemos condiciones sobre la función g(·) y el conjunto A de
forma que el problema (1) esté bien definido. Una vez estas condiciones se cumplen, el campo de
programación matemática, por ejemplo, se enfoca principalmente en desarrollar algoritmos eficientes para la resolución de estos problemas.
Ejemplo 1.1 (Camino maś corto)
El conjunto de acciones A puede representar todos los caminos entre los nodos s y t en un
grafo dirigido G, y la función g(a) puede representar menos el largo del camino a ∈ A, de
forma que la solución al problema es el camino más corto entre los nodos s y t. Técnicas de
modelamiento permiten representar el conjunto A como un poliedro, y la función g como una
función lineal. Con esta representación de programacion lineal, algoritmos especializados, como
Simplex, pueden utilizarse para resolver el problema.
En otros cursos de Modelamiento y Optimización se estudian problemas donde existía una forma
natural de definir variables de decisiones y, por lo tanto, de definir el conjunto A (e.g. caminos en
un grafo). Más importante aún, la función g también podía ser construida a partir de principios
básicos del problema (e.g. el costo de cada camino), dada la ausencia de incertidumbre en el mapa
desde decisiones a la utilidad que estas generaban.
A continuación consideraremos situaciones donde, dada una decisión a un problema de operaciones,
existe incertidumbre respecto a la utilidad eventualmente generada por dicha decisión. (Desde ahora en adelante siempre consideraremos un espacio de probabilidades (Ω, F, P)). Consideremos,
por ejemplo, el problema del camino más corto.
Ejemplo 1.2 (Camino más corto estocástico)
En el problema del camino más corto, supongamos que primero uno decide el camino a a
recorrer, y que luego de recorrerlo uno incurre en el costo c(a, ω) asociado al camino a ∈ A,
donde ω ∈ Ω es el evento en el espacio muestral Ω realizado. El tomador de decisiones desconoce
el valor de ω al momento de tomar la decisión. Además consideremos escenarios tales que para
cada par de caminos (a, a0 ) existe un par de eventos (ω, ω 0 ) tales que
c(a, ω) > c(a0 , ω)
Apunte de Cátedra
∧
c(a, ω 0 ) < c(a0 , ω 0 ).
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
2
En el ejemplo anterior tenemos que cada camino es potencialmente subóptimo ex-post (i.e. después
de observar la realización de la incertidumbre). Nuestro objetivo como tomadores de decisiones es
escoger la “mejor decisión”, sin embargo, uno solamente puede juzgar objetivamente que decisión
fue mejor a posteriori, después de observar la incertidumbre.
Para optimizar sobre nuestras posibles decisiones, tenemos que formular un problema de la forma
de (1). Sea g(a, ω) la utilidad obtenida por la acción a ∈ A bajo el escenario ω ∈ Ω. Lo que
necesitamos entonces es definir un mapa M (o criterio de decisión) desde el conjunto de todas
posibles utilidades a los reales, que represente nuestra función de utilidad. Esto es,
g(a) = M ({g(a, ω), ω ∈ Ω}).
Estos son algunos criterios posibles.
Optimista (MAXIMAX): el tomador de decisión anticipa la mejor realización posible contingente en la acción tomada. Esto es,
g(a) = máx({g(a, ω), ω ∈ Ω}).
Pesimista (MAXIMIN): el tomador de decisión anticipa la peor realización posible contingente en la acción tomada. Esto es,
g(a) = mı́n({g(a, ω), ω ∈ Ω}).
Value at Risk (VaR): Adaptado a un problema de maximización, para un α ∈ (0, 1) el
VaR representa el menor valor de x tal que la probabilidad que los beneficios obtenidos sean
menores a x es mayor a α. Esto es,
g(a) = ı́nf{x ∈ R : Fg(a,·) (x) > α},
donde FX representa la función de distribución de una variable aleatoria X.
Salvo el último criterio, el resto no depende de la medida de probabilidad subyacente, i.e. no dependen de que tan frecuentemente uno espera que un evento ocurra. VaR incorpora esta información
y trata de maximizar la ganancia que se obtiene (en el “peor” caso) con probabilidad (1 − α). Los
distintos criterios de decisión modelan distintas preferencias por el riesgo. A priori ninguno de los
criterios es superior o inferior a otro (esto depende de las preferencias del tomador de decisión).
Durante el resto del curso normalmente nos enfocaremos en el más popular de estos criterios:
Valor esperado: el tomador de decisión evalúa las alternativas en función del valor esperado
de la ganancia monetaria que generan. Esto es,
g(a) = E{g(a, ·)}.
Pregunta: ¿Es el criterio de valor esperado un buen criterio?
Respuesta: Depende, si se trata de una decisión que se tendrá que tomar persistentemente en el
tiempo, y no existe descuento a las utilidades (esto esta asegurado por la Ley Fuerte de los Grandes
Números), etc. La literatura ha demostrado que el criterio del valor esperado puede no representar
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
3
fidedignamente la toma de decisiones de personas. Consideren el siguiente ejemplo.
Ejemplo 1.3 (La Paradoja de St. Petersburgo)
Considere la siguiente apuesta: por el precio de x usted lanzará una moneda hasta obtener el
primer “sello”, y recibirá un pago de 2n , donde n es el número de “caras” observadas antes
de obtener el primer sello. ¿Cuánto está dispuesto a pagar por participar en dicha apuesta?
Calculamos el valor esperado de la ganancia G obtenida.
E{G} =
∞
X
n=0
2n · P(# caras = n) − x =
∞
X
2n ·
n=0
1
− x = ∞.
2n+1
La teoría de utilidad esperada surge como una posible solución a la paradoja. La teoría plantea
que las personas no perciben el dinero directamente como utilidad, sino que cuentan con una
función de utilidad U y, por lo tanto, maximizan la utilidad esperada obtenida en un problema
bajo incertidumbre.
Utilidad Esperada: el tomador de decisión evalúa las alternativas en función del valor
esperado de la utilidad generada. Esto es,
g(a) := E{U (g(a, ·))}.
Dependiendo de la forma de la función de utilidad se obtienen distintas preferencias frente al
riesgo. En general, se espera que las funciones de utilidad sean no-decrecientes.
• Comportamiento neutral al riesgo. Función de utilidad lineal en el pago. Decisiones
equivalentes a utilizar el criterio de valor esperado.
• Comportamiento averso al riesgo. Función de utilidad cóncava. Los tomadores de
decisiones prefieren recibir el valor esperado del pago de la apuesta a participar en la
apuesta.
• Comportamiento amante del riesgo. Función de utilidad convexa. Los tomadores
de decisiones prefieren participar en la apuesta a recibir el valor esperado del pago de la
apuesta.
Existe consenso que la teoría de Utilidad Esperada no representa una solución descriptiva de cómo
las personas toman decisiones. Tomemos por ejemplo el resultado del siguiente experimento de
campo.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
4
Ejemplo 1.4 (Prospect Theory)
Considere los siguientes problemas de decisión.
P1:
P2:
Recibir 4K con probabilidad 0.8 (A)
vs
Recibir 3K con seguridad (B).
Recibir 4K con probabilidad 0.2 (C)
vs
Recibir 3K con probabilidad 0.25 (D).
Un experimento de campo documenta que un 80 % de los participantes escogen B en el problema P1, y un 65 % prefieren C en el problema P2. Sin embargo, seteando (sin pérdida de
generalidad) U (0) = 0, preferir B por sobre A implica que U (3K)/U (4K) > 4/5, mientras que
preferir C sobre D implica que U (3K)/U (4K) < 4/5.
La teoría de utilidad prospecta surge como una posible solución.
Utilidad (prospecta) esperada: el tomador de decisión evalúa las alternativas en función
del valor esperado de la utilidad generada. Esto es,
e (g(a, ·) − R)}.
f (a) = E{U
Existen restricciones sobre la posible forma de la utilidad Ũ , y la forma de presentar el
problema de decisión influencia el punto de referencia R.
Entonces, se formulará el problema de toma de decisión bajo incertidumbre como un problema de
optimización
z ∗ = máx{g(a) : a ∈ A}.
(2)
donde g(a) = M (g(a, ω)) representa el uso de algún criterio de desempeño que permite resumir el
conjunto de posibles utilidades {g(a, ω) : ω ∈ Ω} que resultan de aplicar una decisión a ∈ A cuando
la incertidumbre se realiza en el evento ω ∈ Ω.
Respecto al conjunto de acciones posibles A, haremos la distinción entre decisiones estáticas y
decisiones dinámicas.
1.1.1.
Decisiones Estáticas
Son aquellas que se adoptan antes de observar cualquier información respecto a la incertidumbre
ω y no se adaptan a cualquier información que se pueda observar. En términos prácticos, a ∈ A es
no-aleatorio. Normalmente este tipo de decisiones se consideran cuando los problemas de decisión
carecen de naturaleza intertemporal. En situaciones con múltiples períodos, estas decisiones reciben
el nombre de “open loop”.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
5
Ejemplo 1.5 (Newsvendor Problem)
Suponga usted debe comprar periódicos para vender mañana en su kiosco. Supondremos que
puede comprar un número continuo de ejemplares a ≥ 0, que el costo de cada ejemplar es c y
la demanda por periódicos es una variable aleatoria D ≥ 0 a.s. (con función de densidad f (·)),
cuya realización es desconocida al momento de decidir el valor de a. Supondremos que el precio
al que usted vende de cada ejemplar es p. Podemos ver que en esta situación
g(a, ω) = p · mı́n{a, D(ω)} − c · a.
Utilizando el criterio de valor esperado resolvemos el problema
z = máx{p · E{mı́n{D, a}} − c · a : a ≥ 0}
Para resolver el problema, escribimos la esperanza como una integral y derivamos las condiciones de primer orden. Esto es, a∗ la cantidad óptima, que corresponde a la solución de:
Z a
d
p
da
0
yf (y)dy + p(1 − F (a))a − c · a = 0,
es decir
1.1.2.
a∗ = F −1 (1 − c/p).
Decisiones Dinámicas
Muchas veces modelaremos la toma de decisión en múltiples períodos. En este tipo de situaciones,
las decisiones en un período se adaptan a la información recopilada en períodos anteriores. Dicha
información normalmente es aleatoria, por lo que las decisiones mismas resultan ser variables aleatorias.
Consideremos un problema de decisión intertemporal, donde n indexa los períodos, de forma que
n = 1 denota el primer período y n = N el último (para problemas de horizonte finito). A medida
que avanzan los períodos, información es revelada: pensemos en que dicha información toma la
forma de un conjunto In , tal que sabemos que ω ∈ In .
Ejemplo 1.6 (Inventario multi-período)
Supongamos que ahora el vendedor del Newsvendor problem vende revistas. Las revistas son
relevantes por N días: el vendedor decide cada día cuantas revistas comprar, considerando que
las revistas que no vende en un día pueden almacenarse en el kiosko, incurriendo en un costo
de almacenaje h por ejemplar. La demanda diaria forma una secuencia de variables aleatorias
{D1 , . . . , DN } distribuidas (en conjunto) de acuerdo a F . Los ejemplares que no se venden al
final del horizonte se pierden. En esta situación, cuando al final del día n observamos que la
demanda Dn realizada es dn , tenemos que
In = {ω ∈ Ω : Dn (ω) = dn }.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
6
En estas situaciones, para definir el conjunto A tenemos que considerar qué acción se tomará en
cada período y ante cualquier posible escenario de información que se pueda enfrentar. En este
sentido, tenemos que una acción es un vector aleatorio
a(ω) = (a1 (ω), . . . , aN (ω)),
donde an denota la acción a tomarse en el período n. La naturaleza intertemporal del problema
de decisión junto a esta definición implican que debemos imponer un mínimo de restricciones de
consistencia a las acciones que se pueden considerar. En particular, queremos evitar escoger una
solución a que toma decisiones distintas en el período n bajo eventos ω1 y ω2 que comparten
historias idénticas hasta el período n − 1 (es decir, decisiones que hacen trampa y puden ver hacia
el futuro).
La definición de un espacio de probabilidades (Ω, F, P) considera una σ-álgebra F que representa esencialmente la familia de todos los subconjuntos de eventos a los cuales nos podrá
interesar asignar probabilidades. En este contexto,
Fn = σ(Is , s < n) ⊆ F,
representa un σ-álgebra tal que cada conjunto de eventos contenido en ella también es un
elemento de F y tal que dos eventos (ω1 , ω2 ) que comparten historias similares hasta el período
n − 1 siempre están juntos en cualquier subconjunto perteneciente a Fn .
Aquí, σ(A) denota el σ-álgebra generado por la clase de subconjuntos A; esto es, la mínima σálgebra contenida en F que contiene a todos los subconjuntos en A. El conjunto F = {Fn , n ≤ 1}
se conoce como una filtración, y el espacio (Ω, F, F, P) se conoce como el espacio de probabilidad
filtrado.
Podemos pensar en Fn como la historia del proceso de toma de decisión hasta el comienzo del
período n. En este contexto, consideraremos A como el espacio de todos vectores de decisiones
factibles a (de acuerdo a la lógica subyacente al problema de decisión) tal que an es una variable
aleatoria en el espacio de probabilidad (Ω, Fn , P). En términos más prácticos, an no puede tomar
valores distintos para eventos que comparten historias hasta el período n.
Una variable aleatoria a que cumple con la condición de arriba se dice que es adaptada a la filtración en cuestión. Entonces, consideraremos solamente como parte del conjunto A aquellos vectores
aleatorios adaptados a la filtración. Dado que estos vectores entregan un valor para la decisión para
cualquier posibles información disponible en cada periódo, nos referiremos a A como el conjunto
de políticas de decisión factibles.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
7
Ejemplo 1.7 (Inventario multi-período - continuación)
En el caso del Newsvendor multiperíodo, an representa el número de ejemplares a comprar
al comienzo del período n. En este caso, las políticas de decisión deben decidir el valor de
an solamente en función de la historia del proceso. Normalmente tratremos de resumir dicha
historia en un número reducido de indicadores.
Por ejemplo, suponiendo que D1 , . . . , Dn forma una secuencia de variables aleatorias independientes, la informacion histórica relevante para la toma de decisiones al comienzo de un
período es simplemente el inventario de revistas disponibles al comienzo del período. En este
caso, podremos escribir una política como un conjunto de funciones
µ(·) = (µ1 (·), . . . µN (·)),
donde µn (x) representa cuántos ejemplares ordenar cuando el inventario disponible al comienzo
del período n es x. Parte del curso se enfoca en utilizar indicadores eficientes en nuestro
modelamiento.
Para madurar estas ideas, en particular el concepto de política de decisión, a continuación revisaremos el caso quizás más sencillo de modelo de toma de decisiones secuenciales.
1.2.
1.2.1.
Árboles de Decisión
Preeliminares
Normalmente, en la resolución de problemas de decisión intertemporales, necesitaremos calcular la
distribución de probabilidad de alguna variable aleatoria X (por ejemplo, en el caso del Newsvendor
problem, la demanda en el período n), condicional en la realización y de los valores de un vector
aleatorio Y (por ejemplo, la realización de las demandas en los períodos 1 al n − 1).
Normalmente esta distribución no es entregada explicitamente y debe ser inferida del contexto del
problema a través del Teorema de Bayes. En su forma más simple, el teorema de Bayes toma la
siguiente forma.
Teorema de Bayes. Sean A y B subconjuntos del espacio muestral Ω (en F), tales que
P(B) > 0. Definimos la probabilidad de A condicional en B como
P(A|B) :=
P(A ∩ B)
.
P(B)
Entonces, suponiendo que P(A) > 0, tenemos que
P(A|B) =
Apunte de Cátedra
P(B|A)P(A)
.
P(B)
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
8
Normalmente utilizaremos la distribución condicional en una variable aleatoria para calcular la
distribución de dicha variable aleatoria condicional en el valor de la otra. Esto es,
P(X = x|Y = y) =
P(Y = y|X = x)P(X = x)
.
P(Y = y)
De la misma forma, normalmente utilizamos el resultado anterior, en conjunto con la ley de probabilidades totales, para calcular la distribución de la variable aleatoria X en función de su distribución
condicional en Y .
Probabilidades Totales. Sea {Ai : i ∈ N} una partición del espacio muestral (i.e., tal que
S
Ai ∈ F y P(Ai ) > 0 para todo i, Ai ∩ Aj = ∅ para todo i 6= j, y n Ai = Ω). Entonces, para
B ⊆ Ω en F, tenemos que
X
P(B) =
P(B|Ai )P(Ai ).
i
Aplicado a la situación descrita arriba, tenemos que
P(X = x) =
X
P(X = x|Y = yi )P(Y = yi ),
i
donde {yi : i ∈ N} denota el dominio de Y .
1.2.2.
Modelamiento y Resolución
A continuación consideraremos una clase de problemas donde existe una clara secuencialidad de
las decisiones y arribo de la información. En particular, consideraremos situaciones donde
Existe en nuḿero finito (normalmente muy bajo) de instantes de toma de decisiones.
En cada instante, el número de opciones de acción es limitado (bajo),
Existe un número limitado de fuentes de incertidumbre y la incertidumbre misma tiene un
rango finito y limitado (las variables aleatorias involucradas pueden tomar un número bajo
de valores).
Los instantes de toma de decisión y revelación de la realización de las distintas fuentes de
incertidubmre pueden ser ordenadas temporalmente de forma clara.
Ejemplo 1.8 (Inversión bajo incertidumbre)
Usted maneja una empresa que puede invertir en un nuevo proyecto, o no hacerlo. Si no
invierte, las ganancias obtenidas en otras inversiones serán de $500; si invierte, hay un 70 %
de probabilidad de ganar $800, y un 30 % de ganar $300; tras ello, si ganó $800 tendrá la
posibilidad de retirarse, o bien de invertir nuevamente, en cuyo caso hay una probabilidad de
50 % de concluir con $1100 o con $100.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
9
El secuenciamiento de eventos en este ejemplo es claro. Primero debemos decidir si invertir o no;
en caso de hacerlo, observaremos si el proyecto fue un éxito o no; en caso de tener éxito, debemos
decidir si invertimos nuevamente o nos retiramos; finalmente, en caso de decidir invertir, observamos
el resultado de la inversión. Para representar gráficamente esta situación, y eventualmente para
encontrar la política de acción óptima, construiremos un árbol de decisión. Dicha construcción se
basa en dos estructuras básicas.
Problema básico de decisión. Consideramos un problema de decisión con un número
finito de decisiones posibles a1 , . . . , aN , donde
la decisión an entrega una utilidad gn . Representaremos este problema de forma gráfica con
el árbol de la derecha(e.g. N = 3).
Para resolver este problema de decisión simplemente elegimos la decisión an∗ que entrega
el mayor valor para gn∗ .1 Asociaremos el valor
gn∗ a este problema (cada vez que enfrentamos
este problema, sabemos que su resolución óptima genera dicha utilidad).
Resolución básica de incertidumbre. Consideremos un escenario donde existe un número finito de realizaciones posibles (x1 , . . . , xK )
para una variable aleatoria X, donde la realización xk se traduce en un beneficio gk . Sea
pk = P(X = xk ); representaremos la situación
de forma gráfica con el árbol de la derecha (e.g.
K = 3).
P
Asociaremos el valor E = k gk · pk a esta situación (cuando enfrentemos esta situación obtenemos en valor esperado, E).
g1
a1
máxn {gn }
a2
g2
a3
g3
g1
p1
E=
P
k
gk · pk
p2
g2
p3
g3
Construcción de un árbol de decisión. Para representar un problema de decisión secuencial
como un árbol, primero debemos identificar la secuencia en la cual se toman las decisiones y se
obtiene información acerca de la realización de las distintas fuentes de incertidumbre. En particular,
utilizaremos las siguientes convenciones:
Representaremos cada instante de toma de decisión y cada revelación de información como
nodos. Utilizaremos arcos dirigidos para indicar la secuencia en la cual se toman decisiones/se
observa información acerca de la realización de incertidumbre.
Un nodo cuadrado denota un punto de decisión. Los arcos que salen de este tipo de nodo
representan las decisiones posibles a tomar en esa situación.
1
Esto es, en el caso de un problema de maximización. En el caso de un problema de minización, escogemos la accion
que entrega el menor valor.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
10
Uno nodo circular denota un evento aleatorio. Los arcos que salen de este tipo de nodo
representan las distintas posibles realizaciones de la incertidumbre asociada al nodo. Etiquetamos cada uno de estos arcos con la probabilidad de ocurrencia asociada.
La estructura del árbol resultante debe representar la secuencia en la que decisiones/información son/es tomadas/reveladas.
Para finalizar la construcción, asociamos a cada hoja del árbol la utilidad asociada g(a, ω).
Esto es posible dado que el camino desde el nodo raíz del árbol hacia el nodo hoja contiene
todas las decisiones tomadas (a), y todas las realizaciones de incertidumbre (ω) relevantes
para determinar esta utilidad.
A modo de ejemplo, consideremos el árbol asociado al Ejemplo 1.8, el cual toma la siguiente
forma.
NO
INV
500
NO
INV
800
1100
0.7
0.5
INV
INV
0.3
0.5
300
100
Resolución de un árbol de decisión. Como mencionamos anteriormente, utilizaremos el criterio
de valor esperado. La resolución consiste en inspecionar el árbol de decisión buscando las estructuras básicas mencionadas arriba (Problema básico de decisión y resolución básica de incertidumbre).
Cada vez que resolvemos una decisión base en un nodo de decisión o asociamos un valor esperado
a un nodo aleatorio, remplazamos la estructura básica por el valor asociada a dicha resolución
(gráficamente, escribimos el valor asociado a la decisión óptima en el nodo de decisión, o escribimos
el valor esperado en el nodo aleatorio).
Este procedimiento se repite hasta que no existen más nodos por resolver. Normalmente esto implica comenzar resolviendo los nodos hojas, avanzando hacia el nodo raíz, calculando la esperanza
en los nodos tipo evento y escogiendo el camino de máxima esperanza en los nodos de decisión.
A modo de ejemplo, resolvamos el árbol asociado al Ejemplo 1.8. En dicho árbol podemos comenzar resolviendo el nodo evento asociado al resultado de la segunda inversión. La ganancia esperada
está dada por
0.5 × 1100 + 0.5 × 100 = 600
Con este valor, podemos resolver el nodo de decisión asociado a la segunda decisión de inversión:
notamos que la mejor decisión es no invertir.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
INV
NO
11
500
INV
NO
800
800
1100
0.7
0.5
INV
INV
600
0.3
0.5
300
100
Ahora podemos analizar el nodo evento asociado al resultado de la primera inversión. La ganancia
esperada es
0.7 × 800 + 0.3 × 300 = 650
Finalmente, analizamos el nodo decisión asociado al primera decisión de inversión. Notamos que es
óptimo invertir en primera instancia. Con esto hemos resuelto este problema de inversión.
NO
INV
500
NO
650
INV
800
800
1100
0.7
0.5
INV
INV
650
600
0.5
0.3
300
100
Es posible utilizar otros criterios de decisión, en lugar del valor esperado. Sin embargo, el
método de resolución debe ajustarse al criterio, y en el peor de los casos, se deben enumerar
todas las posibles políticas de decisión, En este sentido, note que una política corresponde a
una selección para cada nodo de decision. A modo de ejemplo, supongamos que el criterio de
decisión en el Ejemplo 1.8 es maximizar el Var a nivel α = 0.5. Es fácil ver que el VaR
asociado a la política NO INV es $500, el asociado a INV-NO INV es $ 800, y el asociado a
INV-INV es $300. De acuerdo a este criterio, la política óptima es INV-NO INV. Notamos que
el mecanismo de resolución fue la enumeración completa.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
12
Ejemplo 1.9 (Copa América)
Un estudiante de un curso de Investigación de Operaciones ganó un concurso para asistir a
la Copa América 2019. Sin embargo, sus intenciones de asistir se vieron truncadas ya que el
último control del curso está fijado para la semana en la que inicia el torneo. Es sabido que
el examen del curso es impasable, por lo que la única opción de aprobar el curso es eximirse
del examen. Mediante ciertos métodos logró estimar ciertas probabilidades que le ayudarán a
tomar una decisión óptima. Si el estudiante decide ir, sabe que, dada la contingencia nacional,
la facultad se podría ir a paro, cuya fecha y duración coincidirán convenientemente con la fecha
y duración del torneo. Esto ocurre con probabilidad p. Si hay paro, el estudiante estimó que
con probabilidad q = 13 puede eximirse del examen. Por otro lado, si no sale paro, el estudiante
está obligado a dar el examen, con lo que reprobaría. Por otro lado, si el estudiante decide no
ir a la Copa, se eximirá con total seguridad del examen.
Usando el mismo tipo de métodos, logró estimar que su utilidad en caso de asistir al certamen
deportivo es de R [u.m.], su utilidad en caso de eximirse es de 23 R [u.m.], y en caso reprobar,
incurre en un costo 23 R [u.m.].
1. Plantee el árbol de decisión asociado al problema que enfrenta el estudiante. Encuentre
la política de decisión óptima en función de p.
2. Aún con dudas sobre la decisión a tomar, el estudiante decide preguntar a un experimentado consultor astral. Se sabe que el astrólogo acierta en un 90 % sus predicciones. Es
decir, el 90 % de las veces que hubo paro (resp. no hubo paro), el astrólogo predijo paro
(resp. no paro). La consulta tiene un costo de C [u.m.]. Si p = 0.8, ¿conviene hacer la
consulta?. En caso de que convenga, ¿cuál es la política de decisión?
Solución parte 1. El árbol de decisión se presenta a continuación:
Ir
máx
4
1 2
Rp + R, R
9
3 3
4
1
Rp + R
9
3
1
R
3
aro
No p
p)
(1 −
p
Paro
No ir
7
R
9
2
R
3
irse
Exim
1/3
2/3
No e
ximir
se
5
R
3
1
R
3
Utilizando el caso en el que el estudiante es indiferente entre ir i no ir:
4
1
2
3
Rp + R = R =⇒ p =
9
3
3
4
Luego, la política de decisión es:
Si p > 34 , el estudiante decide ir al torneo.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
13
Si p = 43 , el estudiante está indiferente entre ir y no ir.
Si p < 34 , el estudiante decide no ir.
Solución parte 2. Reemplazando p = 0.8 en el resultado de la parte anterior, se tiene que el
estudiante decide ir a la Copa, pues su utilidad es de ≈ 23 R [u.m.]. Se definen los eventos:
P : sale paro
N P : no sale paro
AP : astrólogo predice paro
AN P : astrólogo predice no paro
Del enunciado, sabemos que P(P ) =
probabilidades totales, se tiene que:
4
5,
P(N P ) =
P(AP ) = P(AP |P )P(P ) + P(AP |N P )P(N P ) =
1
5,
P(AP |P ) = P(AN P |N P ) =
9
10 .
Usando
9 4
1 1
37
· +
· =
= 0.74 = 1 − P(AN P )
10 5 10 5
50
Ahora, nos interesa conocer las probabilidades de que salga paro o no, condicionado en lo que diga
el astrólogo. Para eso, usamos el Teorema de Bayes:
P(P |AP ) =
P(AP |AP ) · P(P )
=
P(AP )
P(P |AN P ) =
P(AN P |P ) · P(P )
=
P(AN P )
9
4
10 · 5
37
50
=
4
1
10 · 5
13
50
=
36
≈ 0.97 = 1 − P(N P |AP )
37
4
≈ 0.3 = 1 − P(N P |AN P )
13
El nuevo árbol es muy parecido al anterior, por lo que sólo se detallarán las nuevas componentes.
aro
No p
0, 03
≈ 0.76R
Ir
ta≈ 0.74R − C
nsul
Co
máx
2
R; 0.74R − C
3
Apunte de Cátedra
cons
ulta
2
R
3
0, 76R
No i
r
P
Pred
Sin
0.74
ro
e pa
redic
0 . 26
ice n
o pa
r
No i
ro
2
R
3
0,97
Paro
1
R
3
7
R
9
2
400
R
3
Ir
≈
1
R
2
aro
No p
0 .7
0.3
Paro
IN3272 - Decisiones Bajo Incertidumbre
1
R
3
7
R
9
Decisiones Bajo Incertidumbre
14
Si C < 0.08R [u.m.], le conviene hacer el estudio. Si el astrólogo predice paro, el estudiante decide
ir. En cambio, si el astrólogo predice que no habrá paro, el estudiante decide no ir.
Ejemplo 1.10 (CTP 1, Otoño 2018)
El profesor del curso se encuentra buscando un ayudante de investigación y ha decidido entrevistar a 3 estudiantes del curso para llenar esta posición. El profesor entrevista a los 3 estudiantes
uno tras otro y sabe que a priori cada estudiante es excelente/regular/malo con igual probabilidad. La verdadera calidad del estudiante solo es determinada durante la entrevista: al final
de cada entrevista, el profesor debe decidir si contratar al estudiante o no. Si lo contrata, las
entrevistas restantes se suspenden (hay solo una posición de ayudante de investigación); si no
lo contrata, el estudiante inmediatamente toma otro trabajo incompatible con la posición de
ayudante de investigación (todo esto antes del comienzo de la entrevista al siguiente estudiante).
El profesor sabe que un estudiante excelente cumple su labor de investigación con certeza;
un estudiante regular la cumple con probabilidad 2/3; y un estudiante malo la cumple con
probabilidad 1/3.
1. Encuentre una política de contratación para el profesor que maximice la probabilidad
que las labores de investigación se cumplan.
2. Otro profesor amablemente le comenta que él conoce la calidad de cada estudiante, puesto
que los ha tenido de ayudantes de investigación en un proyecto, y que esta dispuesto a
revelar dicha calidad por 3 unidades de prestigio. El profesor valora un aumento de 1 % en
la probabilidad de cumplir las labores de investigación en 1 punto de prestigio. ¿Cuánto
estaría dispuesto el profesor a pagarle al otro profesor?
Solución parte 1. El árbol de decisión de la primera pregunta se presenta más abajo. Respecto a
los pagos asociados al arbol, consideremos primero el caso de un alumno al azar.
P(alumno al azar cumple ) =
X
i
= 1·
P(alumno cumple | calidad = i)P( calidad = i)
1
2 1
1 1
1
2
1
2
+ · + · = + + =
3
3 3
3 3
3
9
9
3
Esta probabilidad representa el pago si tras entrevistar al segundo alumno, se decide no contratar
(puesto que no se tiene información acerca del tercer alumno, y este se contratará de todas formas,
independiente de su calidad). Sea q la probabilidad de eventualmente cumplir la tarea cuando no
se contrata al primer alumno entrevistado. Tenemos que
q = 1·
1
2 1
2 1
1
2
2
7
+ · + · = + + =
3
3 3
3 3
3
9
9
9
Finalmente, tenemos que la probabilidad p de eventualmente cumplor con el trabajo, está dada por
p=1·
Apunte de Cátedra
1
7 1
7 1
1
7
7
23
+ · + · = +
+
=
.
3
9 3
9 3
3
27
27
27
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
15
Si
1
o 3
1
No
n
ue
B
7
9
Regular
Ma
1
3
lo 1
3
No
1
2
3
2
3
Si
Si
No
Si
No
1
Bu
eno 1
3
Si
1
o
en 3
No
Bu
7
9
23
27
1
1
Regular
3
7
9
Regular
1
3
Ma
lo 1
3
No
2
3
2
3
Si
2
3
Si
No
Si
No
1
2
3
2
3
2
3
1
3
2
3
1
2
3
2
3
2
3
1
3
2
3
1
lo 3
Ma
1
3
7
9
Si
Si
1
o 3
n
e
1
No
Bu
No
7
9
Regular
Ma
1
3
lo 1
3
2
3
2
3
Si
No
Si
No
1
2
3
2
3
2
3
1
3
2
3
Solución parte 2. El árbol de decisión de la segunda pregunta se presenta a continuación:
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
16
1
eno
bu
1
nos
me 19
l
A
27
2
3
Al menos 1 regular y 0 buenos
72
81
7
27
To
dos
ma
los
1
27
Si
23
27
1
3
N
o
Árbol Anterior =
23
69
=
27
81
La decisión final que se debe tomar es si tomamos la oferta del otro profesor, para esto consideramos
el caso en que no la tomamos y que corresponde al caso del árbol anterior versus el caso en que si
deseamos tomar la información del otro profesor que se calcula de la siguiente forma.
Como se nos revelará la calidad de los ayudantes debemos considerar los casos en que:
Existe al menos 1 ayudante bueno, por lo tanto el trabajo se realizará con certeza (valor 1)
Existen 0 buenos y al menos 1 regular, por lo tanto el trabajo se realizará con probabilidad
2/3
Son todos malos, por lo tanto el trabajo se realizará con probabilidad 1/3
Los valores mencionados anteriormente corresponden a los pagos, ahora veremos con qué probabilidad ocurre cada caso. Para esto, podemos modelarlo como la probabilidad de obtener k elementos
con probabilidad p, es decir, como una Binomial. Entonces, las probabilidades para cada caso son:
Al menos 1 ayudante bueno:
P(Al menos 1 ayudante bueno) = P(1 Bueno) + P(2 Buenos) + P(3 Buenos)
3 1
·
1 3
!
=
2
2
3
=3 ·
Apunte de Cátedra
1
·
3
+
2
3
3
2
2
! 1 2 2
3
+ 3 ·
·
3
3
3
+
2
1
2
3
·
3
! 1 3
2 0
+
3
·
3
3
1
3
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
17
=
2
1
19
4
+ +
=
9
9
27
27
Todos los ayudantes malos
P(T odos los ayudantes malos) = P(3 malos) =
= P(T odos los ayudantes malos) = P(3 malos) =
3
3
! 1 3 2 0
3
3
! 1 3 2 0
3
3
3
3
0 ayudantes buenos y al menos 1 regular
P(0 Buenos y al menos 1 Regular) = 1 − P(Al menos 1 Bueno) − P(T odos M alos)
=1 −
19
1
7
−
=
27
27
27
Ahora ya tenemos los pagos en base a qué tan bueno será el trabajo de cada tipo de ayudante y
tenemos la probabilidad de que contratemos cada tipo de ayudante dado que el otro profesor nos
entregó la información, por lo tanto queda calcular la esperanza de la calidad del trabajo y queda
así:
P(Calidad del trabajo) = 1 ·
19
2 7
1 1
72
+ ·
+ ·
=
27
3 27
3 27
81
69
Claramente, 72
81 > 81 del árbol anterior por lo que calcularemos si le conviene al profesor del curso
pagar por la información del otro profesor. Recordar que el valor de la información era de 3 puntos
de prestigio y que el profesor del curso gana 0.1 puntos de prestigio por cada punto porcentual que
aumenta la calidad del trabajo, entonces:
72
69
3
3
−
=
⇒ ¿Qué porcentaje aumentó? ⇒
· 100 = 3.7 %
81
81
81
81
Calculando los puntos de prestigio obtenidos por el aumento porcentual
3.7 % · 0.1 = 0.37 puntos de prestigio
El profesor gana 0.37 pts de prestigio versus los 3 puntos de prestigio que le cobra el otro profesor.
Por lo tanto, no le conviene consultar.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
18
Ejemplo 1.11 (Problema 1, Control 1, Primavera 2019
Boris quiere ser elegido Primer Ministro de una nación europea, y para esto debe convencer
a por lo menos k otros miembros del parlamento de votar por él en la próxima sesión parlamentaria. Actualmente quedan H horas hasta dicha sesión, tiempo durante el cuál Boris
puede sostener reuniones individuales con los parlamentarios de su elección. Cada reunión dura exactamente una hora, y al cabo de la cual el parlamentario en cuestión compromete o no
irrevocablemente su voto a Boris. En particular, Boris sabe que el parlamentario i ∈ N compromete su voto (a favor) con probabilidad pi , pero solo acepta reunirse si previo a la reunión
todos los parlamentarios en un conjunto Si ⊆ N ya han comprometido su voto a Boris, donde
N representa el conjunto de todos los parlamentarios. Suponga que inicialmente Boris no se
ha reunido con ningún parlamentario, que ningún parlamentario aceptará reunirse en más de
una ocasión, y que ningún parlamentario que no se reuna con Boris votará por él.
Boris desea decidir tras cada reunión, con que parlamentario reunirse a continuación, de forma
de maximizar la probabilidad de ser elegido Primer Ministro.
Considere el caso N = {1, 2, 3, 4, 5}, S1 = ∅, S2 = ∅, S3 = {1}, S4 = {2},S5 = {1}, Pi = i/10,
k = 2, H = 3, y resuelva el problema utilizando árboles de decisión.
Solución. Ver el árbol a continuación.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Decisiones Bajo Incertidumbre
Apunte de Cátedra
19
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
2.
2.1.
20
Programación Dinámica
Programación Dinámica Estocástica
A continuación retomamos el tema de toma secuencial de decisiones, utilizando políticas dinámicas.
De la sección anterior, sabemos que dicho tipo de problema puede ser escrito de la siguiente forma.
máx{E{g(a, ω) : a ∈ A}}.
(1)
En esta sección nos concentraremos en problemas de decisión dinámicos, por lo que restringiremos
nuestra atención a funciones objetivos que pueden ser escritas como la suma de contribuciones por
etapa, para un conjunto finito de etapas. Esto es, consideraremos el caso:
g(a, ω) =
N
X
gn (an , ω).
n=1
En la función de arriba interpretamos el índice n como la etapa del problema, presuponiendo que las
decisiones se hacen en un orden temporal, lo que afecta la forma en que se recopila la información.
En este sentido, la componente gn (·) representa la ganancia que se recibe durante el período n y
an representa la decisión que se toma en el período n.
En teoría, para resolver (1) necesitamos buscar una política entre los vectores aleatorios adaptados
a la historia del proceso. Para simplicar la representación del conjunto A, definiremos una variable
de estado Sn que representa la información relevante para tomar la decisión en el período n. Con
esto, relegamos la incertidumbre al estado del sistema Sn y representamos una política factible
como un vector de funciones
µ = (µ1 (·), . . . , µN (·)),
donde µn (Sn ) representa la acción a tomar cuando uno se encuentra en el estado Sn al comienzo del
período n. Considerando esta nueva representación, haremos explícita la dependencia de la función
de ganancia en el estado del sistema. Esto es consideramos
g(an (ω), ω) ≡ gn (µn (Sn (ω)), Sn (ω), ω).
Normalmente omitiremos las dependencias en ω, donde se entiende que la variable de estado es
aleatoria. Con esto, para un estado inicial S1 dado, podemos reescribir (1) de la siguiente forma.
∗
( ( N
X
J (S1 ) = máx E
)
gn (µ(Sn ), Sn , ω)
)
:µ∈U
,
(2)
n=1
donde U representa el conjunto de políticas factibles. Observamos que ahora la optimización es
sobre un conjunto de funciones. Normalmente consideraremos sistemas donde tanto el número de
estados como el de acciones son finitos.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
21
Ejemplo 2.1 (Inventario multi-período)
Retomemos el problema del Newsvendor multiperíodo. Dado el supuesto de demandas aleatorias independientes, tenemos que el número de ejemplares disponibles al comienzo del período
n es suficiente para tomar la decisión acerca de cuánto ordenar en el período n. Con esto,
definimos
Sn = # de ejemplares en inventario al comienzo del período n.
Con esto tenemos que el problema de optimización toma la siguiente forma.
( ( N
X
máx E
)
p mı́n{µn (Sn ) + Sn , Dn } − c µn (Sn ) − h máx{0, µn (Sn ) + Sn − Dn }
)
:µ≥0 ,
n=1
donde µk (·) representa cuanto ordenar al comienzo del período n en función del inventario al
comienzo de dicho período.
Es importante notar que existen muchas formas de definir las variables de estado que son suficientes
para tomar la decisión en el período n: siempre trataremos de escoger aquella con mínimos requerimientos de memoria. También es importante notar que la condición de suficiencia es importante.
Por ejemplo, si las demandas no fuesen independientes en el ejemplo de arriba, entonces sería necesario agregar información acerca de las ventas en todos los períodos anteriores a n a la variable
Sn , dado que esta información ayudaría a estimar de mejor forma la demanda futura.
Supongamos que µ∗ denota la solución óptima a la formulación base (2). La técnica de resolución
que estudiaremos a continuación se basa en el siguiente principio.
Principio de Optimalidad. Sea µ∗ la política óptima del problema base, y supongamos que
un estado Sn ocurre con probabilidad positiva cuando usamos la política µ∗ . Consideremos
el sub-problema donde acumulamos ganancias solo a partir del período n, partiendo desde el
estado Sn , i.e.
( ( N
X
Jn (Sn ) = máx E
)
qk (µk (Sk ), Sk , ω)
)
: (µn , . . . , µN ) ∈ Un ,
k=n
donde Un denota la proyección de U en las componentes n en adelante. La política óptima para
el sub-problema es µ̃∗ = (µ∗n , µ∗n+1 , . . . , µ∗N ) para todo estado inicial Sn .
Para modelar la dinámica temporal del estado del sistema, consideraremos la relación entre la
variable de estado en un período y aquella en el siguiente período, como función de la decisión
tomada en un período y la incertidumbre en el sistema. Esto es, planteamos que existe un mapa
fn (·) tal que
Sn+1 (ω) = fn (µn (Sn ), Sn , ω), ∀ n,
donde hacemos explícito el hecho que Sn+1 es aleatoria.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
22
Ejemplo 2.2 (Inventario multi-período - recursión de estados)
En el caso del Newsvendor multiperíodo, tenemos que dicho mapa esta dado por
Sn+1 (ω) = máx{0, µn (Sn ) + Sn − Dn (ω)).
El algoritmo de Programación Dínamica que presentamos a continuación se basa en el siguiente
argumento: cuando enfrentamos la decisión del período n, no nos importa la historia del proceso
más allá de aquella información contenida en Sn , por lo tanto podemos recuperar la política óptima resolviendo una secuencia de sub-problemas. Esto implica que, suponiendo que conocemos las
soluciones a los sub-problemas, podemos formular el problema de decisión del período n, para un
estado fijo Sn , como un problema de decisión tradicional (donde la decisión no es ni una variable
aleatoria, ni una función).
El Algoritmo de Programación Dínamica. Para cada condición inicial S1 , la ganancia
óptima J ∗ (S1 ) asociada al problema base (2) es igual a J1 (S1 ), donde la funcioń J1 (·) esta
dada por el siguiente algoritmo recursivo, que parte en el período (ficticio) N + 1, y se mueve
hacia atrás en períodos hasta llegar al período 1:
JN +1 (SN +1 ) = 0,
Jn (Sn ) =
(3)
máx {E {gn (un , Sn , ω) + Jn+1 (fn (un , Sn , ω))}} ,
un ∈Un
n≤N
(4)
donde el valor esperado se toma respecto a ω.
Adicionalmente, sea µ∗ la política tal que µ∗n (Sn ) = u∗n , donde u∗n denota la solución a (4), para
todo valor de Sn , con n ≤ N , entonces µ∗ una solución óptima a (2).
La ecuación (4) se conoce como la ecuación de Bellman. Es importante notar que en la ecuación
de Bellman, la optimización es directamente sobre una acción, no sobre una función.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
23
Ejemplo 2.3 (Tarea 1, Otoño 2018)
El profesor de un curso se encuentra buscando un ayudante de investigación, y ha decidido
entrevistar (secuencialmente) a todos los estudiantes del curso para llenar esta posición. La
calidad de un estudiante cualquiera es una variable aleatoria que toma valores entre 1 y 7
(solo con valores enteros), cada nota tiene igual probabilidad. La calidad de un estudiante se
revela durante la entrevista. Al final de cada entrevista, el profesor debe decidir si contratar al
estudiante o no. Si lo contrata, las entrevistas restantes se suspenden (hay solo una posición de
ayudante de investigación); si no lo contrata, el estudiante inmediatamente toma otro trabajo
incompatible con la posición de ayudante de investigación (todo esto antes del comienzo de la
entrevista al siguiente estudiante). El profesor sabe que un estudiante de calidad i cumple su
labor de investigación con probabilidad i/7, i = 1, . . . , 7. Modele el problema de maximizar la
calidad esperada del estudiante contratado mediante un modelo de programación dinámica.
Solución: Claramente las etapas están dadas por los alumnos, por lo que
período n = entrevista con el n-ésimo estudiante.
Sea Qn la variable aleatoria que representa la calidad del estudiante n. Sabemos que
P(Qn = k) = 1/7,
k ∈ {1, . . . , 7}.
Nuestra decisión es si contratamos o no al estudiante n una vez que conocemos su calidad.
1
0
(
un =
contratamos al estudiante n,
∼.
Dado que estado debe representar la información necesaria para tomar dicha decisión, tenemos que
Sn = Qn
(calidad observada del estudiante n.)
Con esta definición de estado, la dinámica de la variable de estado está dada por2
Sn+1 = Qn+1 (ω)
(calidad aleatoria del próximo estudiante.)
La recursión de Bellman esta dada por:
JN +1 (·) = 0
(
Jn (Sn ) = máx Sn ,
7
1X
Jn+1 (k) .
7 k=1
)
Notamos que el primer término en el máximo arriba representa la decisión de contratar al estudiante
n, mientras que el segundo representa la decisión de pasar a la entrevista del estudiante n + 1.
2
Notemos que fn (un , Sn , ω) = Qn+1 (ω) calza con la estructura para la recursión, dado que Qn+1 es una variable
aleatoria, por lo que es precisamente una función de ω.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
24
Ejemplo 2.4 (Pregunta 1, Control 1 Primavera 2018)
Suponga que usted se encuentra asesorando a un grupo de N senadores del congreso estadounidense durante la votación para confirmar al próximo juez de la corte suprema. Durante la
votación, los senadores son llamados a votar en el piso del senado en orden aleatorio. Al ser
llamado, cada senador pronuncia si está a favor o en contra de la confirmación.
Sus empleadores (los N senadores en cuestión) están interesandos en votar a favor de la
opción ganadora, por lo que le han encargado a usted decirles por qué opción deben votar
al momento de ser llamados.
Usted sabe que cada senador (excluyendo a sus empleadores) votará por confirmar al juez,
independientemente del resto y del resultado parcial de la votación, con probabilidad p. Suponga
que el número total de senadores es impar, y que gana la opción más votada.
De esta forma, los senadores comienzan a ser llamados en orden aleatorio; si no es el turno
de uno sus empleadores, el senador vota por confirmar al juez con probabilidad p; si es el
turno de uno de los N senadores, usted decide por que opción votará el senador en función del
conteo parcial de votos, como han votado sus empleadores hasta el momento, y cuantos de sus
empleadores quedan por votar.
Considerando que el senado esta compuesto por M senadores (incluyendo a sus empleadores,
con M > N ), defina un problema de programación dínamica que maximize la esperanza del
número de sus empleadores que vota por la opción ganadora.
(Hint: defina como etapas cada una de las ocasiones de voto, M en total, independiente de si
el voto es dado por uno de sus empleadores.)
Solución #1.
Etapas: las ocasiones de voto: en la etapa n le toca votar al n-esimo senador llamado a votar.
Estado: Sn = (Sn1 , Sn2 , Sn3 )
• Sn1 = votos registrados a favor de la confirmación justo antes que vote el n-esimo senador
• Sn2 = cuantos de sus empleadores quedan por votar
• Sn3 = cuantos votos han dado sus empleadores a la opción de confirmación.
Decisión:
1
0
(
Xn =
si voto va para opción de confirmar
∼.
Notar que la variable de decisión solo es relevante en el caso que el siguiente en votar es uno
de los empleadores.
Incertidumbre:
(
Wn =
(
Zn =
Apunte de Cátedra
1 si le toca votar a un senador de los empleadores
0 ∼.
1
0
si el voto n-esimo va para la opción de confirmar
∼.
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
25
2
Sn
Notar que Wn se distribuye Bernoulli con parámetro M −n+1
, y que Zn se distribuye Bernoulli
con parámetro p, pero solo es relevante en el caso que el voto no es dado por un empleador.
Recurrencia:
1
Sn+1
= Sn1 + Wn Xn + (1 − Wn )Zn
2
Sn+1
= Sn1 − Wn
3
Sn+1
= Sn3 + Wn xn .
Bellman:
Jn (Sn ) =
máx E {Jn+1 (Sn+1 )}
Xn ∈{0,1}
Condición de borde:
3
1
3
1
JN +1 (SN +1 ) = SN
+1 1{SN +1 > M/2} + N − SN +1 1{SN +1 < M/2}
S1 = (0, N, 0)
Solución #2. La siguiente es una forma alternativa de modelar el problema. Su ventaja es que no
require definir aleatoriedad ni decision, ni tampoco recurrencia de estados, dado que todas estas
componentes se explicitan en la ecuación de Bellman:
Etapas: las ocasiones de voto: en la etapa n le toca votar al n-esimo senador llamado a votar.
Estado: Sn = (Sn1 , Sn2 , Sn3 )
• Sn1 = votos registrados a favor de la confirmación justo antes que vote el n-esimo senador
• Sn2 = cuantos de sus empleadores quedan por votar
• Sn3 = cuantos votos han dado sus empleadores a la opción de confirmación.
Bellman:
!
Jn (Sn ) =
Sn2
1−
p Jn+1 (Sn1 + 1, Sn2 , Sn3 ) + (1 − p) Jn+1 (Sn1 , Sn2 , Sn3 )
M −n+1
!
n
o
Sn2
+
máx Jn+1 (Sn1 + 1, Sn2 − 1, Sn3 + 1), Jn+1 (Sn1 , Sn2 − 1, Sn3 )
M −n+1
Condición de borde:
3
1
3
1
JN +1 (SN +1 ) = SN
+1 1{SN +1 > M/2} + N − SN +1 1{SN +1 < M/2}
S1 = (0, N, 0)
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
26
Ejemplo 2.5 (Pregunta 1, Examen Otoño 2019)
Usted se dispone a disputar la final mundial de Cachipún competitivo. La final consiste una
serie de juegos, donde usted y su rival, simultáneamente eligen y muestran un símbolo de piedra
(r), papel (p) o tijera (s). Las reglas de cada juego son: p vence a r, r vence a s, y s vence a
p. Si ambos jugadores despliegan el mismo símbolo, el juego termina en empate. La serie de
juegos termina cuando usted o su rival alcanzan un total de N juegos ganados.
Su rival en la final es Boris, quien adopta una estrategia de juego Markoviana: la secuencia de
símbolos que muestra forma una cadena de Markov en tiempo discreto, caracterizada por una
matriz de transición P y una distribución inicial π0 .
1. Muestre que la política (“greedy”) que maximiza la probabilidad de ganar cada juego (ej.
partir jugando p en el primer juego), sin considerar el futuro, no es óptima para el caso
N = 2, π0 = (0.7, 0.2, 0.1) y


1
0
0


1
0 .
P = 0
1/3 1/3 1/3
(Hint: muestre que la probabilidad de ganar la final es estrictamente menor que uno en
ese caso, y que existe otra política que gana la final con probabilidad 1.)
1. Plantee un modelo de programación dinámica estocástica que permita maximizar la probabilidad de ganar la final.
Solución parte 1. Jugando primero papel, existe la posibilidad que Boris juegue tijera, lo que
lo dejaria con ventaja de un juego, y despues, la probabilidad de que Boris gane la final es un
tercio, independiente de lo que decidamos mostrar. Por lo tanto, la probabilidad de ganar la fina
les estrictamente menor a 1.
Si jugamos primero piedra, pueden pasar 3 cosas. Primero, si Boris juega piedra o papel, nosotros
podremos anticipar con seguridad sus jugadas en el futuro, por lo tanto le ganamos con probabilidad
1. Si Boris juega tijeras, le ganamos, quedamos con ventaja, y en la proxima ronda nuevamente
jugamos piedra, y el ciclo se repite (si ganamos, la final terminar, si perdemos, podemos anticipar
todas las jugadas futuras de Boris, y le ganamos con probabilidad 1).
Plantee un modelo de programación dinámica estocástica que permita maximizar la probabilidad
de ganar la final.
Solución parte 2.
Etapas. Cada uno de los juegos, indexados por n
Decisión. xn ∈ {r, p, s}: símbolo a mostrar en el juego n.
Estado. yn : símbolo mostrado por Boris en el juego n − 1; (y1,n , y2,n ) : par ordenado con el
número acumulado de victorias propias y de Boris, respectivamente.
Aleatoriedad. wn : símbolo mostrado por Boris en el juego n.
P(wn+1 = i|wn = j) = Pi,j , n ≥ 1
Apunte de Cátedra
P(w1 = i) = π0 (i).
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
27
Recurrencia. yn+1 = wn ;
(
z1,n+1 =
z1,n + 1
z1,n
si gano juego n
∼
z2,n + 1
z2,n
(
z2,n+1 =
si Boris gana juego n
∼
Bellman.
J(yn , (z1,n , z2,n )) = máx{Ewn {J(yn+1 , zn+1 )}},
xn
J(yn , (N, z2,n ))) = 1,
z2,n < N
J(yn , ((z1,n , N ))) = 0,
z1,n < N
z1,n , z2,n < N
Ejemplo Propuesto: Políticas dínamicas de precios en Revenue Management
Usted cuenta con I unidades de un producto, el que debe vender durante las próximas T
unidades de tiempo (períodos). Usted puede cambiar el precio del producto al comienzo de
cada período, de forma de maximizar sus ganancias.
Suponga que a lo más un único cliente llega durante cualquier período, con probabilidad p,
independiente de todo lo demas. Las disposiciones a pagar de los clientes forman una secuencia
iid de variables aleatorias (distribuidas de acuerdo a F ). Un cliente compra el producto si su
disposición a pagar es mayor o igual al precio del producto durante el período. El inventario
en mano al final del período T es desechado.
Plantee un modelo de programación dinámica para encontrar la política óptima de precios.
2.2.
Caso determinista
En esta sección se considera el caso particular cuando no existe incertidumbre en una formulación.
Siendo un caso especial, el principio de optimalidad sigue aplicando, por lo que también lo hace el
algoritmo de programación dinámica.
Programación Dínamica Determinista. Para cada condición inicial S1 , la ganancia óptima
J ∗ (S1 ) asociada al problema base es igual a J1 (S1 ), donde la función J1 (·) está dada por el
siguiente algoritmo recursivo, que parte en el período (ficticio) N + 1, y se mueve hacia atrás
en períodos hasta llegar al período 1:
JN +1 (SN +1 ) = 0,
Jn (Sn ) =
máx {gn (un , Sn ) + Jn+1 (fn (un , Sn ))} ,
un ∈Un
n ≤ N.
A diferencia del caso estocástico, la solución al problema es un vector de decisiones, no un conjunto
de funciones. Si bien el algoritmo de programación dinámica nos hace calcular el beneficio acumulado desde el período n hacia adelante para múltiples posibles estados Sn , dado que la dinámica de
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
28
estado es determinista, una vez conocemos las acciones en los períodos 1 al n − 1, no hay incertidumbre respecto a cual será el valor de Sn .
El ejemplo más famoso de aplicación del algoritmo de programación dinámica a problemas deterministas es sin lugar a dudas el problema del camino más corto.
Ejemplo 2.6 (Camino más corto)
Considere el problema de encontrar el camino más corto entre dos nodos s y t en un grafo
dirigido G = (N, A), cuando el costo asociado a utilizar un arco a está dado por ca . (Con N el
conjunto de nodos y A el conjunto de arcos del grafo G.)
En esta aplicación, el algoritmo de programación dinámica toma la siguiente forma:
J(i) =
mı́n
a=(i,i0 )∈A
{ca + J(i0 )},
∀i ∈ N \ {t}
J(t) = 0.
(Noten que pudimos desechar la indexación de la función de valor J.) En este contexto, la
función J(i) representa el largo del camino más corto entre los nodos i y t.
La razón detrás de la popularidad de esta formulación radica en que todo problema determinístico
de horizonte finito con un número finito de estados/acciones puede ser representado como un problema de camino más corto.
Ejercicio Propuesto: Problema de las 4 reinas Suponga que usted desea posicionar 4 reinas
en un tablero de Ajedrez de 4×4 de forma que las reinas no se ataquen entre ellas.
Ejemplo 2.7 (Problema de la mochila)
Considere el clásico problema de la mochila. Una formulación del problema de la mochila es




máx




s.a





N
P
cn xn
n=1
N
P
vn xn ≤ K
n=1
xn ∈ N
Donde xn es la cantidad de unidades incluidas del ítem n, cn es el beneficio obtenido por cada
unidad de n en la mochila y vn es el volumen de n.
Modele el problema utilizando programación dinámica determinista.
Solución. El modelo es el siguiente.
períodos: ítems n ∈ {1, . . . , N }
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
29
Variable de estado: Sn , el volumen disponible al momento de evaluar el ítem n
Variable de decisión: xn , la cantidad del item n que incluímos en la mochila. xn ∈ N
Evolución del estado:
Sn+1 = Sn − xn vn ≥ 0
Condiciones de borde:
JN +1 (SN +1 ) = 0, ∀SN +1 ,
Beneficio en la etapa n:
S1 = K
gn (Sn , xn ) = xn · cn
Ecuación de Bellman:
Jn (Sn ) = máx{gn (Sn , xn ) + Jn+1 (Sn+1 ) : xn · vn ≤ Sn , xn ∈ N}
La ecuación de Bellman nos indica la función que queremos maximizar período a período, empezando desde
JN (SN ) = máx{gN (SN , xN ) + 0 : xN · vN ≤ SN }
(que podemos resolver por inspección) hasta
J1 (S1 ) = máx{g1 (S1 , x1 ) + V2 (S1 − x1 · v1 ) : x1 · v1 ≤ S1 }
Recorriendo todos los períodos desde el último hasta el primero, en cada uno de ellos debemos
encontrar la mejor solución para cada estado posible del sistema.
Supongamos valores K = 6, c1 = 4, c2 = 3, c3 = 7, y v1 = 3, v2 = 2, v3 = 4. Una aplicación manual
del algoritmo de PDD se vería como sigue: comenzando con la última etapa,
Etapa n = 3
x3
S3
0
1
2
3
4
6
0
1
x∗3
J3 (S3 )
0
0
0
0
0
0
7
7
0
0
0
0
1
1
0
0
0
0
7
7
Notamos que el estado S3 = 5 no es factible, ya que ningún objeto tiene volumen 1.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
30
Etapa n = 2
x2
S2
0
3
6
0
1
2
3
x∗2
J2 (S2 )
(1)
0
(2)
3
(3)
6
9
0
1
1
0
3
10
Podemos calcular, consultando la tabla anterior, los valores (1), (2) y (3):
(1) : 0 + J3 (S3 = 0) = 0
(2) : 0 + J3 (6) = 7
(3) : 3 + J3 (4) = 10
Procedemos de la misma forma para la etapa que falta:
Etapa n = 1
x1
S1
6
0
1
2
x∗1
J1 (S1 )
(4)
(5)
8
0
10
(4) : 0 + J2 (6) = 10
(5) : 4 + J2 (3) = 7
Por lo tanto, la solución a esta instancia del problema de la mochila es
J1 (S1 ) = 10; x∗1 = 0, x∗2 = 1, x∗3 = 1
Ejemplo 2.8 (Pregunta 1, Examen Primavera 2019)
Boris recibió como regalo una versión generalizada del juego del gato: se juega sobre un tablero
de N × N celdas (N filas y N columnas), las cuales son marcadas una a una y de manera
alternada por ambos jugadores, cada uno con un símbolo diferente al de su rival, hasta que
uno de ellos haya marcado k celdas contiguas dentro de una misma fila, una misma columna,
o incluso en diagonal. El primero en lograr esto, gana. Una celda que ya ha sido marcada no
puede volver a ser marcada por ninguno de los dos jugadores.
Boris desea desafiar a su mejor amigo, a quien conoce tan bien que considera saber exactamente qué casillero marcaría éste ante cualquier escenario posible. Proponga un modelo de
programación dinámica mediante el cual Boris pueda decidir si comenzar o ceder el primer
turno, suponiendo que solamente valora ganar.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
31
Solución. En la jugada n de Boris, el estado es un par ordenado (Sbn , San ) donde Sbn es el conjunto
de casillas marcadas por boris y San son las casillas marcadas por su amigo, antes de la jugada n.
La decisión de Boris es que casilla jugar.
Respecto al conocimiento de Boris acerca su amigo, supondremos que conocemos una función
f (Sb , Sa ) que entrega la casilla que marca el amigo cuando se enfrenta al estado (Sb , Sa ). Supondremos que esta función entrega el conjunto vacío si el juego ya ha terminado en el estado (Sb , Sa ).
Finalmente definimos el conjunto de estados B como aquellos en los cuales Boris gana el juego, y
C el conjunto de estados donde el juego aun no termina. Con esto, el modelo es
Período: n, la jugada de Boris.
Estado: (Sbn , San ), las casillas marcadas antes de n por Boris y su amigo.
Decision: xn , la casilla que Boris marca en la jugada n.
Recursión: (Sbn+1 , San+1 ) = (Sbn ∪ xn , San ∪ f (Sbn ∪ xn , San )).
Ecuación de Bellman:
Jn (Sbn , San ) = 1{(Sbn , San ) ∈ B} + {1{(Sbn , San ) ∈ C}
máx
xn ∈(Sbn ∪San )c
Jn+1 (Sbn+1 , San+1 ).
Para ver si le conviene partir a Boris simplemente comparamos J1 (∅, ∅) con J1 (∅, f (∅, ∅)). Si ambos
son 0, entonces concluimos que el juego siempre concluye en empate (piense en el caso de N = 3).
Si J1 (∅, ∅) = 1 entonces escogemos partir; si J1 (∅, f (∅, ∅)) = 1 escogemos que parta el amigo; si
ambas son positivas, el amigo no cacha mucho como jugar, le ganamos siempre.
Obs: Notar que no necesitamos indexar las funciones usando n, dado que esto esta implícito en las
cardinalidades de los conjuntos Sb y Sa .
2.3.
Caso Horizonte Infinito Descontado
En esta sección estudiaremos problemas de horizonte infinito. Por lo mismo, estamos interesados
en situaciones donde los beneficios y las fuentes de incertidumbre son estacionarios (no dependen
del período). Con esto en mente, consideraremos el siguiente problema básico
VN (S) =
máx E
(µ1 ,...,µn )
( N
X
)
α g(Sn , µn (Sn ), ω) ,
n
∀S
n=1
donde α ∈ (0, 1] denota un factor de descuento (i.e. representa el hecho que una unidad monetaria
hoy vale más que la misma unidad mañana).
!
Importante: En la formulación de arriba N se refiere al número de períodos restantes hasta
el final del horizonte. En sentido, noten que la función de valor Vn está indexada por el número
de períodos restantes (a diferencia de la función Jn , que está indexada por el período).
Dado que estamos interesados en los problemas de horizonte infinito, a diferencia de los problemas
de las secciones anteriores, asumiremos que tanto la función de beneficios g(·) como la dinámica de
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
32
estados f (·) son homogéneas en el tiempo, por lo que podemos omitir su dependencia en n.
Aplicando el algoritmo de programación dinámica, tenemos que
Vn (S) = máx E {g(S, u, ω) + α Vn−1 (f (S, u, ω))} ,
u∈U
n ≥ 1, ∀ S
(5)
con condición de borde J0 (S) = 0 para todo estado S. Con esta notación el problema de horizonte
infinito se define como
V (S) = lı́m VN (S).
N →∞
Notamos que esta definición no especifica la política de acción que resuelve el problema de horizonte
infinito. Normalmente, impondremos condiciones sobre los párametros del problema para que el límite de arriba exista. Por ejemplo, cuando α < 1, es suficiente tener que |g(·)| < K.3 Para el caso de
α = 1, es suficiente imponer que existe al menos un estado absorbente, que genera ganancia nula, al
cual se puede acceder con probabilidad positiva desde cualquier otro estado, bajo cualquier política.
Notamos que de existir el límite, este debe ser tal que (5) se mantiene válida, pero ahora como una
ecuación de punto fijo. Esta ecuación es la versión de horizonte infinito de la ecuación de Bellman.
El siguiente resultado nos dice que la política óptima es una política estacionaria.
Ecuación de Bellman. Cuando existe, el límite V (·) es la única solución al sistema
V (S) = máx E {g(S, u, ω) + α V (f (S, u, ω))} ,
u∈U
n ≥ 1, ∀ S
Adicionalmente, la política óptima es cualquier política estacionaria µ∗ (·) que satisfaga la
condición
µ∗ (S) ∈ arg máx E {g(S, u, ω) + α V (f (S, u, ω))} ,
∀S
u∈U
En lo que resta de esta sección describiremos tres métodos numéricos para resolver los problemas
de horizonte infinito descontado.
Value Iteration. Para una función W (·) del espacio de estados S a los reales, definimos el mapping
(T W )(S) = máx E {g(S, u, ω) + α W (f (S, u, ω))} ,
u∈U
n ≥ 1, ∀ S
utilizando el algoritmo de programación dinámica. Es posible probar que el mapa (T ·) es una
contracción; es decir, para dos funciones W y W 0 , se tiene que
máx |(T W )(S) − (T W 0 )(S)| ≤ α máx |W (S) − W 0 (S)|,
S∈S
S∈S
Lo anterior implica que la distancia entre (T k W ) y (T k+1 W ) converge a 0 independiente del valor
de W (aquí, (T k ·) denota la composición de (T ·) consiguo misma, k veces). Entonces, por cons3
Notamos que bajo estas condiciones el valor absoluto de la ganancia óptima acumulada como función de n no
1
, para todo n.
puede diverger, dado que se encuentra acotada superiomente por K 1−α
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
33
trucción, el límite de la secuencia {(T k W ) : k = 1, 2, . . .} converge a V , la solución a la ecuación
de Bellman. Esto nos entrega el siguiente algoritmo.
Algorithm 1: Value Iteration
Fije V 0 arbitrariamente
Calcule V 1 = (T V 0 ), y fije k = 0.
while máxS∈S |V k+1 (S) − V k (S)| < do
k =k+1
V k+1 = (T V k ).
end
Notamos que el algoritmo funciona partiende desde cualquier condición inicial. En particular, si
se parte con V 0 = 0, entonces se tiene que V k = Vk . La cantidad > 0 en la condición de término
representa un margen de tolerancia a la convergencia.
Policy Iteration. Para una política estacionaria µ(·), definimos la función Vµ (·) como el beneficio
acumulado asociado a implementar dicha política, como función del estado inicial. Dicha función
se puede calcular mediante la recursión
Vµ (S) = E {g(S, µ(S), ω) + α Vµ (f (S, µ(S), ω))} ,
∀S
(Este es un sistema de ecuaciones lineales, el que debiese ser fácil de resolver). El siguiente algoritmo
opera en el espacio de las políticas estacionarias.
Algorithm 2: Policy Iteration
Fije µ0 arbitrariamente.
Fije k = 0, y calcule µ1 (·) mediante
µ1 (S) ∈ arg máx E {g(S, u, ω) + α Vµ0 (f (S, u, ω))} ,
u∈U
∀S
while µk+1 6= µk do
fije k = k + 1 y calcule µk+1 (·) mediante
µk+1 (S) ∈ arg máx E {g(S, u, ω) + α Vµk (f (S, u, ω))} ,
u∈U
∀S
end
La convergencia de {µk (·) : k = 1, . . .} a µ∗ está asegurada por la segunda propiedad de la ecuación
de Bellman (revisar arriba), más el hecho que {Vµk (·) : k = 1, . . .} converge a V (·), por los mismos
argumentos que aseguran la convergencia del algoritmo de Value Iteration.
Programación Lineal. El siguiente algoritmo se basa en una representación alternativa de la
función de valor, la cual se basa a su vez el siguiente resultado de monotonicidad.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Programación Dinámica
34
Lema 2.1 (Monotonicidad) Para dos funciones cualquiera W y W 0 , se tiene que
W (S) ≥ W 0 (S)
∀S
(T W )(S) ≥ (T W 0 )(S)
⇒
∀ S.
Supongamos que se tiene una función W tal que W (·) ≥ (T W )(·) de forma puntual, entonces
aplicación reiterada del mapa T más la convergencia del algoritmo del algoritmo de Value Iteration
garantizan que W ≥ V . Esto, en conjunto con la ecuación de Bellman nos dice que V es el vector W
más “pequeño” que satisface la condición W ≥ (T W ). Con esto, podemos escribir V como la única
solución a un programa de programación lineal, lo que nos da un tercer algoritmo de resolución.
Algorithm 3: Programación Lineal
Formular y resolver
mı́n
X
s.t.
xS ≥ E{g(S, u)} +
xS
S
X
pu (S, S 0 ) xS 0
∀ u ∈ U, S ∈ S,
S0
donde pu (S, S 0 ) ≡ P(f (S, u, ω) = S 0 ).
Notamos que el número de restricciones en este LP es igual al número de estados multiplicado por
el número de acciones posibles y que el número de variables es igual al número de estados. En la
solución óptima a este problema, el valor de la variable xS representa el valor de V (S).
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
3.
35
Cadenas de Markov en Tiempo Discreto
Un proceso estocástico es una colección de variables aleatorias {Xn : n ∈ T } indexadas por un
conjunto T . En este capítulo consideraremos el caso especial de T = N, los enteros positivos (más
el cero) y utilizaremos procesos estocásticos para representar la evolución temporal de un sistema
al cual queremos estudiar. Por esto, tomaremos la interpretación
Xn = Estado del sistema en el período n.
Hablaremos de un proceso en tiempo discreto y pensaremos en la evolución del sistema período a
período. Para simplificar el análisis asumiremos que el estado del sistema puede tomar un número
contable de valores, por lo que, sin pérdida de generalidad, podemos enumerar los estados de forma
que
Xn ∈ {1, 2, . . . , }.
En general, para caracterizar el comportamiento probabilístico de un proceso estocástico es necesario poder calcular la ley de probabilidades
P(Xni = ei : i = 1, . . . , k)
(1)
para cualquier entero k, cualquier conjunto de períodos {n1 , . . . , nk } y estados {e1 , . . . , ek }. Lo
anterior es complejo en general. Por esto, restringiremos nuestra atención a una clase especial de
procesos que cumplen con la llamada condición de Markov.
Condición de Markov. Un proceso estocástico en tiempo discreto {Xn : n ∈ N} cumple con
la condición de Markov si
P(Xn = en | X0 = e0 , X1 = e1 , . . . , Xn−1 = en−1 ) = P(Xn = en | Xn−1 = en−1 ),
para cualquier n y cualquier conjunto de estados {e1 , . . . , en }.
Una interepretación de la condición de Markov es que, condicional en el presente, el pasado y el
futuro son independientes. Más directamente, la condición dice que la distribución de probabilidad
del siguiente estado solo depende del estado inmediatamente anterior y no de toda la historia del
proceso. Una cadena de Markov en tiempo discreto es un proceso estocástico {Xn : n ≥ o}
que cumple con la condición de Markov.
Para un período n y un par de estados (i, j) definimos
Pijn = P(Xn+1 = j|Xn = i).
es decir, la probabilidad de transicionar desde el estado i en el período n al j en el período n + 1,
y supongamos que el estado inicial del sistema (en el período 0) está dada por π0 , es decir
π0 (i) ≡ P(X0 = i),
Apunte de Cátedra
i ≥ 0.
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
36
La serie de matrices (P 1 , P 2 , . . .) y la distribución π0 son suficientes para caracterizar el proceso
estocástico {Xn : n ≥ 0}. Para ver esto, considere la ecuación (1) pero, para simplificar la exposición,
consideremos el caso especial cuando ni = i. Tenemos que, utilizando la condición de Markov,
P(Xn = en : n = 1, . . . , k)
(a)
k
Y
(b)
n=1
k
Y
=
=
=
n=1
k
Y
P(Xn = en |Xi = ei : i = 1, . . . , n − 1)π0 (e0 )
P(Xn = en |Xn−1 = en−1 )π0 (e0 )
Pen−1
π (e0 ),
n−1 ,en 0
n=1
donde (a) viene de utilizar las propiedades de la probabilidad condicional y (b) viene de utilizar la
condición de Markov.
Desde ahora en adelante concentraremos nuestra atención en procesos homogéneos en el tiempo,
es decir, aquellos que no cambian su estructura probabilística durante el tiempo. En términos
concretos, impondremos que
P n = P ∀n,
para alguna matriz P , a la que llamaremos la matriz de probabilidades de transición. Notamos que con esta simplificación, una cadena de Markov está definida por una matriz de transición
P y una distribución inicial π0 .
Representación gráfica. Cuando sea posible, representaremos una cadena de Markov mediante un grafo. En dicho grafo, los nodos corresponden a los estados posibles, y los arcos
corresponden a los pares (ordenamos) de estados (i, j) tales que Pi,j > 0.
Ejemplo 3.1 (Representación Gráfica)
Consideremos una acción financiera con 3 posibles valores: alto, medio, o bajo, y supongamos que el estado de la acción es una cadena de Markov en tiempo discreto con matriz de
probabilidades de trancisión dada por
0.2 0.4 0.4


P = 0.5 0.1 0.4
0 0.3 0.7


La prepresentación gráfica de esta cadena está dada por el siguiente grafo.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
37
0.2
A
0.5
0
0.4
0.1
M
0.4
0.4
0.7
B
0.3
En el ejemplo vemos que la matriz de transición P se define como Pij = P(X1 = j | X0 = i), es
decir, la entrada en la posición ij de la matriz es justamente la probabilidad de ir desde i a j en
un paso.
Proposición 3.1 Para cualquier proceso de Markov discreto de matriz P , y para todo n ∈ N,
tenemos que
P(Xn = j | X0 = i) = (P n )ij
es decir, (P n )ij es la probabilidad de llegar de i a j en exactamente n pasos, donde P n denota
la matriz que resulta de elevar P a la n.
Dem: Por inducción. Supongamos que P es una matriz de m × m. El caso n = 0 es cierto, ya que
P 0 = I y la probabilidad de pasar de i a j en cero pasos es 1 si i = j, y 0 en otro caso. El caso
n = 1 también es cierto por definición de P . Supongamos que se cumple para n ∈ N. Tenemos que,
para i, j ∈ {1, ..., m},
(P n+1 )ij = (P n P )ij
=
=
=
=
m
X
(def. potencia de una matriz)
(P n )ik Pkj
k=1
m
X
k=1
m
X
k=1
m
X
(def. de multiplicación matricial)
P(Xn = k|X0 = i)P(X1 = j|X0 = k)
(por hipótesis inductiva y caso n = 1)
P(Xn = k|X0 = i)P(Xn+1 = j|Xn = k)
(por Homogeneidad)
P(Xn+1 = j|Xn = k, X0 = i)P(Xn = k|X0 = i)
(por propiedad de Markov)
k=1
= P(Xn+1 = j|X0 = i)
Apunte de Cátedra
(probabilidades totales, aplicado al revés)
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
38
Ejemplo 3.2 (La Ruina del Jugador)
Considere un jugador que tiene k fichas, y apuesta una ficha a la vez en un juego el cual gana
con probabilidad p ∈ (0, 1) (y pierde con probabilidad q = (1 − p)). Ganar el juego le entrega
una ficha extra, mientras que perder resulta en perder la ficha apostada. La política del jugador
es apostar una ficha a la vez en este juego hasta que haya perdido toda su fortuna o hasta que
obtenga un total de N fichas, lo que sea que pase primero. Considerando el caso 0 < k < N ,
calcule la probabilidad que el jugador se retire del juego con N fichas.
Solución. Suponiendo que cada apuesta en el juego es independiente del resto, podemos representar
el estado del sistema Xn ∈ {0, . . . , n} como el número de fichas que tiene el jugador después de n
apuestas. Notemos que incluimos los estados 0 y N , en los cuales el jugador se retira: incoporaremos
este hecho al momento de definir las probabilidades de transición. Con esta definición, tenemos que
la condición de Markov se cumple. En particular,
P(Xn+1 = i + 1|Xn = i) = p,
P(Xn+1 = i − 1|Xn = i) = q
0 < i < N.
Con esto definimos la matriz de probabilidades de transición P = (Pi,j ) como sigue.
Pi,j =


p




q

1





0
j = i + 1, 0 < i < N
j = i − 1, 0 < i < N
i = j ∈ {0, N }
∼.
Notamos que los estados 0 y N son absorbentes. Esto es, una vez que se llega a ellos, nunca más se
sale de ellos.
Calculemos la probabilidad de terminar con N fichas. Para esto, definamos pi como la probabilidad
de terminar con N fichas cuando el jugador tiene inicialmente i fichas (nuestra respuesta será
entonces pk ). Condicionando sobre el resultado de la primera apuesta, formamos una recursión que
entrelaza estas probabilidades.
pi = p · pi+1 + q · pi−1 ,
0 < i < N,
p0 = 0
pN
= 1
Definamos ρ = q/p. Una forma alternativa de escribir lo de arriba es
pi+1 − pi = ρ (pi − pi−1 ),
0 < i < N.
Utilizando el hecho que p0 = 0 tenemos que aplicación recursiva de la ecuación de arriba nos entrega
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
39
lo siguiente
p2 − p1 = ρ p1
p3 − p2 = ρ (p2 − p1 ) = ρ2 p1
p4 − p3 = ρ (p3 − p2 ) = ρ3 p1
..
.
pN − pN −1 = ρ (pN −1 − pN −2 ) = ρN −1 p1 .
Sumando las primeras i − 1 ecuaciones de arriba, tenemos que
pi = p1
N
−1
X
ρi .
i=0
Caso I: p 6= 1/2. En este caso, tenemos que
pi = p1
1 − ρi
.
1−ρ
utilizando el hecho que pN = 1, tenemos que p1 =
pi =
1−ρ
.
1−ρN
Reemplazando arriba, vemos que
1 − ρi
.
1 − ρN
Caso II: p = 1/2. En este caso, tenemos que
pi = p1 · i.
utilizando el hecho que pN = 1, tenemos que p1 = 1/N . Reemplazando arriba, vemos que
pi =
Apunte de Cátedra
i
.
N
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
40
Ejemplo 3.3 (Pregunta 1, Control 2, Primavera 2018)
Boris se encuentra practicando para la entrevista para unirse al equipo de fútbol de sus amigos.
Para esto, él domina el balón con el objetivo de realizar 25 toques consecutivos (con lo que se
asegura un puesto en el equipo). Cada intento por llegar a 25 toques resulta en un éxito o un
fracaso.
Considere sin embargo que Boris se entusiasma o desanima con facilidad. En particular, si los
últimos 3 intentos fueron un éxito, la probabilidad que el siguiente intento también sea un éxito
es igual a p. Si, en cambio, exactamente uno de los 3 intentos anteriores fracasó, la probabilidad
que el siguiente intento sea un éxito es q. Además, si solamente uno de los 3 últimos intentos
fue un éxito, entonces la probabilidad de éxito es r.
Finalmente, si los 3 experimentos anteriores fallaron, la probabilidad de éxito es igual a s
(1 > p > q > r > s > 0). Denotando al resultado del n-ésimo intento por Xn , modele la
situación anterior como una cadena de Markov en tiempo discreto. ¿Basta para ello considerar
el proceso {Xn , n ≥ 1}? Justifique su respuesta.
Solución. Aclaramos primero que por sí solo el proceso {Xn , n ≥ 1} no es una cadena de Markov,
pues para conocer las probabilidades de transición es necesario tener en cuenta no sólo el estado
actual, sino que dos estados anteriores. Modelamos entonces la cadena con conjunto de estados igual
a las tripletas posibles con éxitos y fracasos. En concreto, si 0 representa una falla y 1 representa
un éxito, entonces el conjunto de estados E es
E = {0, 1}3 = {(i, j, k) : i, j, k ∈ {0, 1}},
en donde un estado (i, j, k) se leerá desde acá en adelante como «en el presente el experimento tuvo
resultado i, en la etapa anterior resultó j y en la anterior a la anterior resultó k».
Notamos que |E| = 8. Si ordenamos los estados, arbitrariamente, como
E = {(1, 1, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 0, 0), (0, 1, 0), (0, 0, 1), (0, 0, 0)}
entonces la matriz de transiciones queda como sigue:

p
q


0

0
P =
0


0

0
0
0
0
q
0
r
0
0
0
0 1−p
0 1−q
0
0
q
0
0
0
r
0
0
0
0
0
0
0
0
0
0
0
0
0 


0 1−q
0
0 

0
0
1−q
0 
.
0 1−r
0
0 

0
0
1−r
0 


r
0
0
1 − r
s
0
0
1−s

Dado que la cadena queda especificada con la matriz P , esto concluye el modelamiento.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
3.1.
41
Clasificación de Estados
Nuestro objetivo desde ahora será el estudio del comportamiento de largo plazo de una cadena
de Markov. Esto pues, si la cadena representa el comportamiento de algún sistema de interés, el
comportamiento de largo plazo nos permitirá calcular métricas de desempeño esperadas a observar,
cuando el sistema ha funcionado por un tiempo suficientemente largo.
Partimos nuestro estudio clasificando los estados en término de si esperamos o no observar el sistema en ciertos estados, en el largo plazo. Decimos que un estado j es accesible desde i si solo
si P(Xn = j | X0 = i) > 0, para algún n ≥ 0 (denotamos dicha relación mediante i → j). De
forma similar, decimos que un par de estados i, j están comunicados si y sólo si i → j ∧ j → i
(denotamos esta relación mediante i ↔ j).
Clases de Equivalencia. La relación de comunicación es una relación de equivalencia. Es
decir, cumple con las siguiente propiedades
Reflexividad: i ↔ i
Simetría: i ↔ j ⇒ j ↔ i
Transitividad: i ↔ j ∧ j ↔ k ⇒ i ↔ k
Esto significa que la relación de comunicación particiona el espacio de estados E en clases de
equivalencia {Ci : i ≥ 1} tales que
i ↔ j para todo par de estados i, j ∈ Ck , para todo k,
Ci ∩ Cj = ∅ para todo i 6= j,
S
i Ci
= E.
Clasificaremos estas clases de equivalencia de acuerdo al comportamiento del proceso en el largo
plazo. Comenzaremos con unas definiciones informales. Supongamos momentáneamente que el número de estados es finito: una clase C es transiente si y sólo si existe al menos una clase C 0 ,
distinta de C, accesible desde ella. Intuitivamente, si el proceso parte en algún estado de una clase
transiente, eventualmente abandonará dicha clase y nunca retornará a ella.
Una clase C es recurrente si y sólo si no es transiente. Intuitivamente, si el proceso parte en algún
estado de una clase recurrente, el proceso nunca abandonará dicha clase, por lo que en el largo
plazo encontraremos al proceso en algún estado de dicha clase.
Ejemplo 3.4 (Clasificación de estados)
Considere la siguiente Cadena de Markov, especificada a través de su representación gráfica
(los valores de P son irrelevantes para el análisis). Clasifique los estados de acuerdo a clases de
equivalencia.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
2
42
3
7
8
1
4
5
6
Vemos que la relación de comunicación nos entrega cuatro clases de equivalencia. Las clases {1, 2}
y {8} son recurrentes. Las clases {3, 4, 5} y {6, 7} son transientes.
Informalmente, podemos considerar un estado como recurrente o transiente dependiendo de la naturaleza de la clase en la que esté (un estado se dirá recurrente ssi está en una clase recurrente; lo
mismo para un estado transiente).
Para definir formalmente la clasificación de estados, definamos fijn como la probabilidad de llegar
por primera vez a j en n períodos, partiendo desde i. Con esta definición, tenemos que
fij =
X
fijn
n>0
corresponde a la probabilidad de eventualmente llegar a j a partir de i. De la misma forma, tenemos
que
µij =
X
nfijn
n>0
corresponde al número esperado de períodos para llegar de i a j.
Así, diremos que i es recurrente si fii = 1. Diremos que i es transiente si fii < 1. En particular,
en el caso recurrente, si µii < ∞ diremos que i es recurrente positivo; por el contrario, si µii = ∞,
diremos que i es recurrente nulo.
Proposición 3.2 (Caracterización de un estado recurrente). Sea una cadena de Markov
con matriz de transición P y j un estado de ella. Tenemos que j es recurrente si y sólo si
lı́m
k→∞
k
X
(P n )jj = ∞.
n=1
Dem: Primero, notamos que el lado izquierdo de la ecuación arriba representa el número esperado
de visitas al estado j, partiendo desde j. Para ver esto, notemos que
E{# visitas a j en k períodos|X0 = j} =
k
X
n=1
Apunte de Cátedra
E{1{Xn = j|x0 = j}} =
k
X
(P n )jj ,
n=1
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
43
donde la primera igualdad sigue de la linealidad de la esperanza, y 1{·} denota la función indicatriz.
El estado j es recurrente si fjj = 1, es decir, comenzando de j, el proceso eventualmente volverá.
Sin embargo, continuar el proceso en adelante es lo mismo (probabilísticamente) que reiniciar la
cadena en j (por la propiedad de Markov). Luego, la probabilidad de llegar a j de nuevo continúa
siendo 1. Repitiendo este argumento, vemos que con probabilidad 1 volveremos a j infinitas veces,
y por lo tanto, la esperanza del número de visitas será infinita.
Por otro lado, supongamos que j es transiente: entonces cada vez que retornamos a j hay una
probabilidad 1 − fjj > 0 de que nunca regrese, por lo que el número de regresos distribuye como
1
.
una geométrica de media finita
1 − fjj
Por el argumento anterior, sabemos que j es recurrente si, y sólo si,
E{número de visitas a j | X0 = j} = ∞
Pero, como vimos al comienzo de la prueba, el número esperado de visitas es igual a lı́mk→∞
k
P
(P n )jj .
n=1
Mediante esta propiedad podemos formalizar lo que habíamos dicho antes: que la recurrencia y la
transiencia son propiedades de clase.
Corolario 3.1 La recurrencia o transitividad es una propiedad de clase. Esto es, si i es
recurrente y i ↔ j, entonces j es recurrente.
Dem: Sean m y n tales que (P n )ij , (P m )ji > 0. Entonces, para cualquier s ≥ 0,
(P m+n+s )jj ≥ (P m )ji (P s )ii (P n )ij
y entonces,
∞
X
(P k )jj ≥
k=1
X
(P m+n+s )jj ≥ (P m )ji (P n )ij
s
(P s )ii = ∞
X
s
Y concluimos usando la propiedad anterior.
La siguiente proposición nos dice, que partiendo de un estado de una clase recurrente tenemos la
certeza de eventualmente visitar a todos los otros estados en la misma clase.
Proposición 3.3 Si i ↔ j y j es recurrente, entonces fij = 1.
Dem: Supongamos X0 = i, y sea n tal que (P n )ij > 0. Digamos que “perdemos la oportunidad
1” si Xn 6= j. Si perdemos la oportunidad 1, sea T1 la siguiente vez que lleguemos a i (por el
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
44
corolario, T1 es finito con probabilidad 1). Digamos que perdemos la oportunidad 2 si XT1 +n 6= j.
Si esto sucede, sea T2 la siguiente vez que llegamos a i, digamos que perdimos la oportunidad 3 si
XT2 +n 6= j, etc. Es fácil ver que la primera oportunidad aprovechada es una variable geométrica
con media (P n1 )ij y, por lo tanto, es finita con probabilidad 1. Concluimos el resultado, ya que el
que i sea recurrente implica que el número de oportunidades es infinito.
3.2.
Período de un estado.
Con el objetivo de estudiar el comportamiento de largo plazo de una cadena, primero debemos
definir el período de un estado. Para estados recurrentes, el período de un estado i es el máximo
común divisor di de los valores de n tales que
P(Xn = i | X0 = i) > 0.
(No definimos el período de estados transientes). Si di = 1, decimos que i es aperiódico.
Proposición 3.4 Todos los estados de la misma clase tienen el mismo período.
Dem: Sean i, j tales que i ↔ j. Sean m y n tales que Pijm , Pjin > 0, y supongamos que Piis > 0.
Entonces,
n+m
Pjj
≥ Pjim Pijn > 0
ya que el lado izquierdo representa la probabilidad de que empezando en j la cadena llegue de nuevo
a j en n + m pasos, mientras que el lado derecho es el mismo evento con la restricción adicional
que al cabo de n pasos debe estar en i. De manera análoga,
n+s+m
Pjj
≥ Pjim Piis Pijn > 0
Luego, dj divide a n + m y a n + s + m, por lo tanto también a (n + s + m) − (n + m) = s, cuando
Piis > 0. Entonces, dj divide a di . Un argumento similar (intercambiando los roles de i y j) concluye
que di divide a dj , por lo tanto di = dj .
También es posible probar que la recurrencia positiva y la nula son propiedades de clase. Omitiremos la prueba, dado que esta requiere herramientas más allá de los contenidos de este curso.
Para entender la dependencia del comportamiento de largo plazo en el período de una clase, consideremos el siguiente ejemplo.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
45
Ejemplo 3.5 (Período de una clase)
En la cadena (A), para llegar de un estado a sí mismo se necesitan 3, 6, 9... pasos. Todas las
maneras son múltiplos de 3, por lo que los estados de la clase tienen período 3. Por el contrario,
la cadena (B) es aperiódica, porque partiendo del estado de la izquierda puedo llegar en 2 pasos
o en 3 de vuelta y el MCD de 2 y 3 es 1.
(A)
(B)
De la cadena (A) arriba, vemos que si inicialmente se parte en un estado, sabemos con certeza que
el estado será el mismo en períodos múltiplos de 3. Esto significa que la probabilidad de estar en
un estado en algún período en particular depende de las condiciones iniciales. En nuestro estudio
de largo plazo, a continuación, trataremos de evitar dicha dependencia.
3.3.
Probabilidades Estacionarias
Queremos ahora estudiar qué sucede tras un largo tiempo de correr la cadena. Para esto, dada
una condición inicial, denotemos la distribución del estado del sistema en el período n por π(n) =
(πi (n) : i ∈ E), donde E representa el conjunto de estados de la cadena, y
πi (n) := P(Xn = i).
!
Importante: Intencionalmente omitimos la dependencia en el estado inicial: nuestro objetivo
es buscar condiciones bajo las cuales lı́mn→∞ π(n) no depende de la condición inicial.
Nos referiremos a π(n) como el vector de probabidades del período n, pensando en casos donde
E es un conjunto finito. Podemos calcular la distribución del estado del sistema en el período n a
partir de aquella en el período n − 1. Esto es, tenemos que
πi (n) =
X
P(Xn = i|Xn−1 = j)P(Xn−1 = j) =
j∈E
X
Pji πj (n − 1),
i ∈ E, n ≥ 1.
j∈E
Escribiendo el sistema anterior en forma matricial, tenemos que
π(n) = π(n − 1)P,
n ≥ 1.
(2)
(Aquí, pensamos en π(n) como un vector fila). Nos interesa estudiar el comportamiento de largo
plazo del estado del sistema. Para esto nos interesa identificar condiciones bajo las cuales la serie
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
46
de vectores {π(n) : n ≥ 1} converge. Es decir, condiciones bajo las cuales
π := lı́m π(n)
n→∞
se encuentra bien definida (el límite existe). En aquellos casos, nos referiremos a π como el vector
de probabilidades estacionarias.
Iterando la ecuación (2) tenemos que
π(n) = π(0) (P n ).
Entonces, si el límite ha de existir, este debe ser independiente de las condiciones iniciales, las que
(desde arriba) claramente podrían afectar la distribución en tiempo finito. En particular, cuando
el límite existe, tenemos que
lı́m (P n )ij = πj , ∀ (i, j) ∈ E.
n→∞
A continuación identificamos condiciones que garantizan la existencia del límite.
3.3.1.
Condición I: Única clase recurrente.
Consideremos la cadena asociada al siguiente grafo (el valor de las probabilidades es irrelevente
para este análisis).
1
3
2
4
6
5
Esta cadena posee dos clases recurrentes, (3, 4) y (2, 5, 6). Supongamos que la distribución inicial
es tal que π3 (0) = 1: para cada n tendremos que
π3 (n) + π4 (n) = 1
para todo n. Sin embargo, si la distribución inicial es tal que π2 (0) = 1, entonces sabemos que
π3 (n) + π4 (n) = 0
para todo n. Concluimos que el límite π no existe, dado que cambiaría dependiendo de la condición
inicial.
3.3.2.
Condición II: Aperiodicidad.
Consideremos la cadena asociada al siguiente grafo.
1
Apunte de Cátedra
2
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
47
Esta cadena esta formada por una única clase recurrente. Supongamos que la distribución inicial
es tal que π1 (0) = 1, entonces
(
1 n es impar
π1 (n) =
0 ∼.
Vemos que el valor de π1 (n) alterna entre el valor 0 y 1, por lo que el límite lı́mn→∞ π1 (n) no existe.
3.3.3.
Existencia y cálculo de probabilidades estacionarias
El siguiente resultado asegura que las condiciones I y II son suficientes para garantizar la existencia
del vector de probabilidades estacionarias, π.
Teorema 3.1 (Existencia de probabilidades estacionarias) Una cadena de Markov irreducible (formada por una única clase recurrente), aperiódica pertenece a una de las siguientes
dos clases:
(i) Todos los estados son transientes o recurrentes nulos. En este caso, Pijn → 0 cuando
n → ∞ para cualesquiera i, j y no hay distribución estacionaria.
(ii) Todos los estados son recurrentes positivos, esto es
πj = lı́m Pijn > 0
n→∞
En este caso, π = (πj )j∈E es el vector de probabilidades estacionarias.
Las probabilidades estacionarias de una cadena de Markov que cumple con las condiciones I y II
corresponde a la única ley estable asociada a la cadena. Para una cadena con matriz de transición
P , diremos que π es una ley estable si todas sus componentes son no negativas, suman cero, y
además:
π = π P,
donde π se interpreta como un vector fila. Una ley con esta propiedad es tal que si el estado inicial de
la cadena se distribuye de acuerdo a π, entonces la distribución del estado en el futuro es invariante.
Esto es,
π(n) = π(0)(P )n = π (P )n−1 = · · · = π.
Observación: En general, una cadena de Markov puede tener infinitas leyes estables asociadas ella.
Sin embargo, una cadena con una única clase recurrente aperiódica posee una única ley estable, la
que es la ley de probabilidades estacionarias.
Una cadena de Markov puede admitir una única ley estable, incluso en casos donde no existen
probabilidades estacionarias. Por ejemplo, consideremos la cadena
A
B
"
0 1
con matriz de transición P =
1 0
Apunte de Cátedra
#
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
48
vemos que π = ( 12 , 21 ) es una ley estable según la definición: sin embargo, lı́m π(n) NO es independiente de π(0) (notar que si π(0) = (1, 0) en los períodos pares estaremos con certeza en un estado,
y en los períodos impares en el otro), por lo cual π NO es probabilidad estacionaria.
Concluimos que, una vez justificada la existencia de probabilidades estacionarias, estas se pueden
calcular encontrando la única ley estable, resolviendo el sistema lineal
π = πP,
X
πi = 1.
i∈E
En general, podemos interpretar el valor de πi de dos formas: 1) si fuesemos a parar la cadena
después de muchos períodos (infinitos), la probabilidad de para la cadena en el estado i es πi ;
y 2) la fracción de tiempo que la cadena pasa en el estado. i está dada por πi . Notamos que
esta segunda noción corresponde a la interpretación frecuentista de una probabilidad.
En el caso de una cadena irreducible aperíodica, es posible encontrar una única solución π al
sistema lineal de arriba. Sin embargo, en este caso solo la interpretación 2) de arriba es valida
(como vimos, πi (n) puede no converger).
Para visualizar el cálculo de las probabilidades estacionarias consideremos, por ejemplo, la siguiente
cadena
C
A
con
B
0 1 0


P =  21 0 21  .
1 0 0


Vemos que existe una única clase recurrente aperiódica, por lo que existen probabilidades estacionarias. Entonces, el sistema de ecuaciones para encontrar π es
π = πP ⇔

1

πA = 0 · πA + 2 · πB + 1 · πC
π =1·π +0·π +0·π
B
A
B
C

π = 0 · π + 1 · π + 0 · π
C
A
B
C
2
πA + πB + πC = 1,
pi ≥ 0
Observación: Notemos que el sistema de ecuaciones π = πP,
πi = 1 posee una ecuación más
que el número de incógnitas. Al resolverlo, se puede omitir cualquiera de estas ecuaciones, excepto
P
πi = 1.
P
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
49
Debido a que las probabilidades estacionarias son por definición independientes de las condiciones
iniciales, tenemos que obligatoriamente debe pasar que
[π]
 
[π]


.
lı́m (P n ) = 
.


n→∞
 .. 


[π]
Esta es una matriz donde cada fila es la distribución estacionaria.
El siguiente ejercicio utiliza dicha propiedad.
Ejemplo 3.6 (Matriz de transición de largo plazo)
A un estudiante en práctica de la facultad le fue encargado que estudiase el comportamiento
de largo plazo de un determinado sistema (el cual no se describe por tratarse de información
confidencial de la empresa). Después de un arduo trabajo neuronal nuestro estudiante logró
determinar que el fenómeno se podía modelar como una cadena de Markov en tiempo discreto
con 6 estados y una matriz de transición P . Con ayuda de la planilla de cálculo multiplicó
muchas veces P por si misma, notando que su resultado se hacía cada vez maás parecida a
un matriz Q Faltaban sólo 15 minutos para la reunión en la que tenía que dar cuenta de sus
resultados, cuando apareció en su pantalla un mensaje de error, el cual resultó ser irreparable
y tuvo que reiniciar su computador. Con espanto se dio cuenta que no tenía ningún registro de
sus cálculos, pero sin desanimarse tomó un papel y anotó todos los datos que recordaba de la
matriz Q, obteniendo lo siguiente:





Q=



a
−
c
−
−
−
b
−
−
−
−
−
0
−
0
−
−
−
0 0 0
− − − 

d − − 


− e 0 

− − − 
− e −

donde el signo − indica que no recuerda lo que iba en esa posición, y las cantidades a, b, c, d
y e son positivas. Conteste las siguientes preguntas.
1. Cuáles de los grafos mostrados mas abajo son candidatos a representar la cadena de
Markov en cuestión?
2. Complete la matrix Q, explique claramente su respuesta.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
50
Solución parte 1. Identificamos la componente (Q)ij con la probabilidad de largo plazo de encontrarnos en el estado j partiendo desde el estado i. De la primera fila matriz Q deducimos que
los estados 1 y 2 pertenecen a una misma clase recurrente. Además, dado que huo convergencia,
deducimos que dicha clase es aperíodica. Con estas observaciones, podemos descartas los grafos II
y III. Vemos que no hay diferencia entre los grafos I y IV en terminos de las clases de equivalencia
que generan. Concluimos que la matriz es compatible con los grafos I y IV.
Solución parte 2. Tenemos que





Q=



a
b
a
b
c c b/a
0
0
0
0
0
0
0
0
0
0
0
0
0
d
d e/(1 − e)
0 (1 − e)
e
0 (1 − e)
e
0 (1 − e)
e
0
0
0
0
0
0









La justificación es la siguiente. Existen dos clases recurrentes, (1,2) y (4,5). Por esto, las filas 1 y 2
deben ser iguales, al igual que las filas 4 y 5. Dado que 6 solo accede a la clase (4,5), la sexta fila
tambien debe ser igual a las filas 4 y 5. Dado que los estados 3 y 6 son transcientes, las columnas 3
y 6 son nulas. De la misma forma, dado que dos clases recurrentes no se comunican, las columnas
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
51
4 y 5 de las filas 1 y 2, asi como las columnas 1 y 2 de las filas 4 y 5 son nulas. Notamos tambien
que cada fila debe sumar 1, lo que justiica los valores en la columna 4. Nos queda solo por analizar
la tercera fila. Claramente la relación entre los valores en la primera y segunda columna deben ser
iguales a a/b, por lo que concluimos que la segunda fila es igual a c · a/b. De la misma forma, la
quinta columna debe ser igual a d · e/(1 − e)
Ejemplo 3.7 (Pregunta 1, Control 2, Otoño 2018)
En la primera evaluación tras el término del paro usted debe responder un control con n
preguntas. Usted decide aplicar la siguiente política para responder a dicha evaluación: cuando
se encuentra trabajando en la pregunta i usted dedica un número aleatorio de minutos (de
distribución geométrica con parámetro pi ) a responder a esta pregunta, tras lo cual avanza a
la pregunta i + 1. Suponga que estos tiempos de trabajo son independientes de si usted ha
trabajado en la pregunta anteriormente.
1. Modele la pregunta en la cual usted trabaja en cada minuto como una cadena de Markov
en tiempo discreto.
2. ¿Bajo que condiciones la cadena anterior admite un vector de probabilidades estacionarias? Calcule el vector de probabilidades estacionarias (en el caso más general posible).
3. Responda las partes anteriores suponiendo que ahora una vez que usted termina de
trabajar en la pregunta i, usted avanza a la pregunta i + 1, o retrocede a la pregunta i − 1
con igual probabilidad.
Solución.
1. Los estados son E = {1, . . . , n}, y el estado de la cadena es Xi ∈ E, la pregunta donde se
encuentra trabajando el alumno durante el minuto i. Los elementos de la matriz de transición
P son:



1 − pi j = i
pi,j = pi
j =i+1


0
j∈
/ {i, i + 1}
donde se entiende que i + 1 = 1 cuando i = n. Supondremos la condición inicial π1 (0) = 1.
2. La cadena cuenta con una única clase recurrente que incluye a todos los estados si pi > 0
para todo i. En este caso, la cadena es aperíodica si al menos un estado es tal que pi < 1.
Bajo estas condiciones, el vector de probabilidades estacionarias es la única solución al siguiente sistema:
πi = πi−1 pi−1 + πi (1 − pi )
X
i∈E
πi = 1.
i∈E
Es fácil verificar que pi πi es constante (independiente de i), por lo que concluimos que
πi = P
Apunte de Cátedra
p−1
i
−1 ,
j∈E pj
i∈E
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
52
Adicionalmente, existe una única clase recurrente aperíodica cuando pi = 0 para solo un
estado i. En ese caso, la distribución estacionaria es tal que πi = 1.
3. En este caso los estados son los mismos, pero la matriz de transición P cambia y es tal que
pi,j =



1 − p i
p /2
i


0
j=i
j ∈ i − 1, i + 1
j∈
/ {i − 1, i, i + 1}
donde se entiende que i + 1 = 1 cuando i = n y que i − 1 = n cuando i = 1.
Las mismas condiciones se mantienen para tener un estado estacionario. El vector de probabilidades estacionarias resuelve el siguiente sistema.
πi = πi (1 − pi ) +
X
pi−1
pi+1
πi−1 +
πi+1 ,
2
2
i∈E
πi = 1.
i∈E
Es fácil chequear que el vector de probabilidades estacionarias de las partes anteriores también
resuelve este sistema.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
53
Ejemplo 3.8 (Pregunta 1, Control 1, Otoño 2019)
Daenerys tiene por objetivo erradicar la esclavitud en el continente de Essoss, y para lograrlo
debe conquistar las n ciudades de la Bahía de los Esclavos. Luego de conquistar una primera
ciudad, Daenerys toma la siguiente política: al comienzo de cada año, si alguna de las n ciudades
no está bajo su dominio, toma su ejército y va a conquistar una de esas ciudades. Gracias a
sus poderosos dragones, sus conquistas siempre son exitosas, pero le toman un año, durante
el cual deja solas las otras ciudades bajo su dominio. Si al inicio del año, todas las ciudades
se encuentran bajo su dominio, Daenerys permanecerá reinando en una de ellas por ese año.
Cada ciudad conquistada tiene probabilidad p de rebelarse durante un año en la ausencia de
Daenerys, independiente de lo que pase con sus vecinos.
Por ejemplo, supongamos que m ciudades están bajo control al comienzo del año t, con m < n,
y que Daenerys y su ejército se encuentran en la ciudad i (una de las m ciudades); entonces,
Daenerys toma su ejército y se dirige a alguna de las n − m en rebelión, pasa todo el
año conquistando dicha ciudad, la cual queda bajo su control (con probabilidad 1) al
comienzo del siguiente año.
Cada una de las m ciudades en control al comienzo del año t (incluyendo la ciudad i),
independiente del resto, puede decidir rebelarse durante el año t, caso en el cual dejarán
de estar bajo control al comienzo del próximo año.
Cuando todas las n ciudades se encuentran bajo control al comienzo de un año, Daenerys se
queda en la ciudad donde paso el año recién pasado. Cada una de las n − 1 ciudades donde no
se encuentran Daenerys y su ejército, independiente del resto, puede decidir rebelarse durante
el año con probabilidad p, caso en el cual dejarán de estar bajo control al comienzo del próximo
año.
1. Modele con una cadena de Markov el número de ciudades controladas por Daenerys al
inicio de cada año.
2. Justifique la existencia de un vector de probabilidades estacionarias, y calcúlelo.
3. Suponga que cada conquista tiene un costo C, calcule cuál es el mínimo tributo anual T
que Daenerys debería cobrar a las ciudades de su dominio para sustentar su política a
largo plazo.
4. Repita su formulación de la parte 1 para el caso general de n ciudades.
Solución parte 1. Las ciudades son indistinguibles, por lo que modelamos el estado como el
número de ciudades bajo control al comienzo de un año. Esto es
Xk = # de ciudades bajo control al comienzo de año k ∈ {1, 2, 3}.
(La ciudad donde está Daenerys no se rebela, así que siempre tiene al menos una.)
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
54
La distribución inicial es π(0) = (1, 0, 0), y la matriz de transición es
p
1−p
0


P = p2 2p(1 − p) (1 − p)2 
2
2
p 2p(1 − p) (1 − p)


Solución parte 2. Es fácil chequear que existe una única clase de comunicación (los únicos estados
no comunicados por un camino de largo uno son el estado 1 al 3, pero existe un camino de largo 2
que pasa por el estado 2). La clase es recurrente porque la cadena es finita, y es aperiodica porque
P1,1 > 0. Las ecuaciones para determinar el estado estacionario son:
π1 = pπ1 + p2 (π2 + π3 )
π2 = (1 − p)π1 + 2p(1 − p)(π2 + π3 )
π3 = (1 − p)2 (π2 + π3 )
1 = π1 + π2 + π3
πi ≥ 0,
i = 0, 1, 2.
Para resolver, notamos que π2 + π3 = 1 − π1 . Remplazando en la primera ecuación tenemos que
pπ1 + p2 (1 − π1 ) = π1 ⇒ π1 =
p2
.
1 − p + p2
De la segunda ecuación, usando el mismo reemplazo y el valor de π1 obtenemos que
p(1 − p)(2 − p)
.
1 − p + p2
π2 =
Utilizando la tercera o la cuarta ecuación, se concluye que
π3 =
(1 − p)3
.
1 − p + p2
Solución parte 3. El costo promedio de conquista por año en el largo plazo es
(π1 + π2 ) C.
Por otro lado, el tributo anual esperado en el largo plazo es
(π1 + 2π2 + 3π3 ) T.
El tributo mínimo es entonces
T∗ = C
(π1 + π2 )
.
(π1 + 2π2 + 3π3 )
Solución parte 4. Los estados representan lo mismo, pero ahora toman valores en {1, . . . , n}. Si
domina i ciudades en un periodo, entonces al siguiente podrá tener hasta i + 1 ciudades. Además
si en el siguiente periodo domina j ciudades, eso significa que j = i + 1 − k, con k el número de
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
55
ciudades que se rebelan. Luego la matriz de transición es
Pi,j =



3.4.
3.4.1.
i i+1−j
(1 − p)j−1
i+1−j p
n−1 n−j
(1 − p)j−1
n−j p
if i < n, j ≤ i + 1
if i = n
Reversibilidad y Semi-Markov
Reversibilidad
Consideremos una Cadena de Markov irreducible, recurrente positiva, con probabilidades estacionarias π y elijamos como distribución inicial dichas probabilidades estacionarias. El proceso resultante
es estacionario, debido a que con esta elección tenemos que π(n) = π(0) = π para todo n.
Consideremos un número de períodos muy grande (infinito), y consideremos el proceso reverso en el
tiempo, es decir, definamos el proceso {Yj : j ∈ N}, donde Yj = Xn−j , con n muy grande. Podemos
ver que este proceso es una cadena de Markov con matriz de transición P ∗ = {Pij∗ }, donde
Pij∗
= P(Y1 = j|Y0 = i)
= P(Xn−1 = j|Xn = i)
P(Xn = i|Xn−1 = j)P(Xn−1 = j)
=
P(Xn = i)
πj Pji
=
,
πi
donde el último paso se debe a que la cadena {Xn : n ∈ N} es estacionaria.
Recordemos que una cadena de Markov está caracterizada por la distribución inicial π(0) y la
matriz de transición P . Entonces, escogiendo la misma condición inicial (el vector de probabilidades
estacionarias), ambas cadenas son indistinguibles cuando Pij∗ = Pij para todo par (i, j) ∈ E, es decir
cuando
πi Pij = πj Pji , ∀ (i, j) ∈ E.
(3)
Llamaremos al sistema (3) la condición de reversibilidad.
Podemos interpretar la condición de reversibilidad como una condición de balance: la fracción de
transiciones desde el estado i al estado j, en el largo plazo, es igual a aquella desde el estado j al
estado i, para todo par de estados (i, j). Cuando sospechamos que una cadena es reversible (cumple
con la condición de reversibilidad), podemos simplificar el cálculo de probabilidades estacionarias.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
56
Resultado 3.1 (Condición de Resersibilidad) Consideremos una cadena de Markov irreducible con matriz de transición P . Si existen números no negativos πi , i ≥ 0 que sumen 1,
tales que
πi Pij = πj Pji ,
entonces: i) π corresponde al vector de probabilidades estacionarias; y ii) la cadena es reversible.
Normalmente utilizamos el resultado anterior de la siguiente forma: adivinamos la forma funcional
del vector de probabilidades estacionarias a partir de la condición de reversibilidad: si encontramos
una solución satisfactoria, concluimos ese es el vector de probabilidades estacionarias (como resultado colateral, corroboramos que la cadena es reversible).
Podemos utilizar reversibilidad incluso en casos donde la cadena no es reversible. En dichos casos,
debemos adicionalmente conjeturar el comportamiento de la cadena reversa, como muestra el siguiente resultado.
Resultado 3.2 (Cadena Reversa) Consideremos una cadena de Markov irreducible con
matriz de transición P . Si existen números no negativos πi , i ≥ 0 que sumen 1, y una matriz
de transición P ∗ tal que
πi Pij = πj Pji∗
entonces π es el vector de probabilidades estacionarias y Pij∗ es la matriz de transición de la
cadena reversa.
Dem: Sumando la igualdad dada, obtenemos
X
i
πi Pij =
X
πj Pji∗ = πj ,
∀j
i
Concluimos que π es el vector de probabilidades estacionarias de la cadena original. Sumando sobre
j, concluimos que π también es el vector de probabilidades estacionarias de la cadena reversa.
Notando que
πi Pij
Pji∗ =
πj
se concluye que las Pij∗ son las probabilidades de transición de la cadena reversa.
Observamos que, considerando la interpretación de las probabilidades estacionarias como la fracción de los períodos que el sistema para en un estado, en el largo plazo, es fácil ver que el vector π
corresponde a las probabilidades estacionarias tanto de la cadena original como de la cadena reversa.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
57
Ejemplo 3.9 (Reversibilidad)
M bolas son inicialmente distribuidas entre m urnas. En cada estapa, una bola es seleccionada
al azar, es removida de la urna en la que se encuentra y es puesta en alguna de las otras m − 1
urnas al azar. Considere la cadena de Markov con estado (n1 , . . . , nm ), donde ni representa
el número de bolas en la urna i. Justifique la existencia de probabilidades estacionarias y
encuéntrelas.
Solución. Primero algo de intuición: en el largo plazo una bola debiese estar en una urna en
particular con probabilidad 1/m, por lo que el vector de probabilidades estacionarias debiese ser
tal que, para un estado n = (n1 . . . , nm ),
N
1
.
n1 , . . . , n m m N
!
πn =
Corroboraremos nuestra intuición chequeando la condición de reversibilidad. Notamos que la matriz
de transición es no nula solamente para estados (n, n0 ) tales que
n0 = (n1 , . . . , ni − 1, . . . , nj + 1, . . . , nm ),
para algún par de urnas (i, j) tal que i 6= j, y ni > 0.
N
1
·
n1 , . . . , nm mN
1
N!
n1 ! · n2 ! · · · nm ! m N
1
N!
0
0
0
n1 ! · n2 ! · · · nm ! m N
πn0 Pn0 ,n .
!
πn Pn,n0
=
=
=
=
ni
1
·
N m−1
ni
1
·
·
N m−1
nj + 1
1
·
·
N
m−1
Concluimos no solo que π es el vector de probabilidades estacionarias, sino también que la cadena
es reversible.
Ejemplo 3.10 (Reversibilidad)
Considere la evolución de una población de individuos a través del tiempo. En cada período,
cada uno de los individuos de la población muere con probabilidad p, independiente del resto. Adicionalmente, un número aleatorio (distribuido Poisson de tasa α) de individuos llega
(exógenamente) a la población. Sea Xn el número de individuos al comienzo del período n.
Muestre que Xn es una cadena de Markov que admite una distribución estacionaria y que
dicha distribución es Poisson de tasa α/p.
Solución. Claramente existe una única clase, que es aperiódica. Dado que tenemos un candidato
a ley estacionaria, chequearemos que es una ley estable. Para esto, apostaremos que la cadena es
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
58
reversible (porque el chequeo es más sencillo). Primero, calculamos los elementos de la matriz de
transición: condicionando en el número de personas que mueren, tenemos que
Pij
=
i
X
k=(i−j)+
+
!
i k
α(j−i+k) e−α
,
p (1 − p)i−k
(j − i + k)+ !
k
donde, para un número a ∈ R, (a)+ ≡ máx{a, 0}. El enunciado propone
πi =
(α/p)i e−α/p
i!
i ≥ 0.
A continuación, chequeamos la condición de reversibilidad. Supongamos que i > j, entonces
πi Pij
=
i
X
k=i−j
=
=
i!
α(k−i+j) e−α (α/p)i −α/p
pk (1 − p)i−k
·
e
(i − k)!k!
(k − i + j)!
i!
j
X
αk e−α (α/p)i −α/p
i!
pk+i−j (1 − p)j−k
·
e
(j − k)!(k + i − j)!
k!
i!
k=0
j
X
j!
α(k−j+i) e−α (α/p)j −α/p
pk (1 − p)j−k
·
e
(j − k)k!
(k + i − j)!
j!
k=0
= πj Pji .
Esto nos muestra que la distribución estacionaria es Poisson con tasa α/p, y que la cadena es
reversible.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
59
Ejemplo 3.11 (Pregunta 1, Control 1 Recuperativo, Primavera 2019)
Considere el comportamiento de un turista que desea conocer el metro de Santiago. Partiendo
en la estación Los Heroes, en cada estación que visita, el turista: escoge una dirección al azar
desde las disponibles en la estación (considerando posibles conexiones a otras lineas); se sube
al próximo tren que viaja en esa dirección; y se baja en la siguiente estación, donde repite el
proceso. (Supondremos que los tiempos de viaje entre cada par de estaciones adyacentes es
constante, y que el tiempo de espera en cada estación - hasta tomar el siguiente tren- también
lo es)
1. Escriba este modelo como como una cadena de Markov a tiempo discreto, explique por
qué es homogénea y dibuje el grafo asociado (como mejor pueda).
2. Justifique la existencia de un vector estacionario de probabilidades π = (πi )i∈S , donde
para cada i, πi representa la probabilidad de que el turista se encuentre en la estación i
en el largo plazo, y S representa el conjunto de estaciones del metro de Santiago.
3. Suponiendo que el turista solo se mueve por las lineas 1,2 y 5 del metro (de forma que
la red en la que se mueve tiene forma de árbol), justifique que para cada par (i, j) de
estaciones adyacentes en la linea de metro, se debe tener que
πi
πj
= ,
ni
nj
donde ni es el número de estaciones adyacentes a i.
4. Bajo el supuesto de la parte anterior, muestre que π esta dado por
πi = P
ni
j∈S
nj
,
i ∈ S.
Solución parte 1. Los estados de la cadena son las estaciones i ∈ N , y las probabilidades de
transición son
(
n−1
si las estaciones i y j son adyacentes
i
Pi,j =
0
∼.
La cadena es homogénea por que las probabilidades de transición no cambian con el tiempo.
Solución parte 2. Todas las estaciones están comunicadas entre si (supuesto), por lo que existe
una única clase recurrente. No es claro que la cadena es aperíodica. Si podemos encontrar una
forma de ir y volver a una estación (cualquiera) en un numero impar de movidas, entonces la clase
es aperíodica, y existen probabilidades estacionarias.
Solución parte 3. Sea nt (i, j) el número de transiciones desde i a j en los primeros t períodos.
Entonces, dado que la red de metro tiene forma de árbol, tenemos que
|nt (i, j) − nt (j, i)| ≤ 1.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
60
Dividiendo por t, tomando el limite cuando t ↑ ∞, concluimos que
nt (i, j)
nt (j, i)
= lı́m
.
t→∞
t→∞
t
t
lı́m
Suponiendo que existen probabilidades estacionarias, tenemos que
1
nt (i, j)
= πi · pi,j = πi · ,
t→∞
t
ni
lı́m
esto por que el limite de la izquierda es la fracción de transiciones que van desde i a j en el largo
plazo, y también lo es el termino de la derecha (usando la interpretación de las probabilidades
estacionarias como fracción del tiempo que los procesos pasan en ciertos estados). Esto prueba el
resultado.
Solución parte 4. Sea A el conjunto de pares (no ordenados) de estaciones adyacentes. Entonces,
las ecuaciones de balance están dadas por
πi =
X
πj ·
j∈N :(i,j)∈A
X
πi = 1,
1
nj
πi ≥ 0 ∀i ∈ N
i∈N
Definamos C = (
P
j∈S
nj )−1 . Reemplazando con πi = C · ni arriba, tenemos que
X
j∈N :(i,j)∈A
πj ·
1
nj
=
X
j∈N :(i,j)∈A
C · nj ·
1
nj
= ni · C
= πi .
El resultado sigue del hecho que C es tal que
lidades estacionarias.
3.4.2.
P
i∈N
πi = 1, y de la unicidad del vector de probabi-
Procesos Semi-Markovianos
Un proceso semi-Markoviano es aquel donde el estado de el sistema evoluciona período a período
de acuerdo a una cadena de Markov en tiempo discreto, pero la duración de cada período es una
variable aleatoria. En particular, es un proceso tal que, dado que el estado actual es el estado i:
1. La probabilidad que el siguiente estado de la cadena sea j es Pij ;
2. Dado que el próximo estado es j, el tiempo que pasa el sistema en el estado i antes de
transicionar a j es una variable aleatoria de distribución Fij .
Notamos que, de acuerdo a esta definición, una cadena de Markov en tiempo discreto es un proceso
semi-Markoviano tal que el tiempo de estadía en un estado es igual a 1 con probabilidad 1.
Supongamos que la cadena de Markov definida por P (y alguna distribución inicial) es irreducible,
aperiódica y recurrente positiva. Para un par de estados (i, j) definimos µij como la esperanza de
una variable aleatoria de distribución Fi,j . Con esto, tenemos que el tiempo esperado de estadía en
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Discreto
el estado i está dado por
µi =
61
X
µij Pij ,
i ∈ E.
j∈E
El siguiente resultado relaciona las probabilidades estacionarias de la cadena de Markov subyacente
(las que existen dado nuestros supuestos), con aquellas del proceso semimarkoviano. Para esto supongamos que Ti , el tiempo entre transiciones sucesivas al estado i en el proceso semi-Markoviano,
tiene media finita y no es del tipo lattice (∼ discreta).
Resultado 3.3 (Conexión a procesos semi-Markov) Consideremos un proceso de semiMarkov irreducible tal que Ti tiene una distribución no de tipo lattice, con esperanza finita.
Supongamos además que la cadena de Markov subyacente {Xn , n ≥ 0} es recurrente positiva.
Entonces,
πi µi
Pi = P
, i ∈ E,
j πj µj
donde π corresponde al vector de probabilidades estacionarias de la cadena de Markov subyacente.
Observación: Necesitaremos el resultado de arriba para entender el concepto de reversibilidad en
el caso de cadenas de Markov en tiempo continuo, el cual se conecta con aquel para las cadenas en
tiempo discreto a través de este resultado.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
4.
62
Procesos de Poisson
Un proceso estocástico {N (t) : t ≥ 0} es llamado un proceso de conteo si representa el número
de veces que ha ocurrido un determinado evento hasta el instante t. Debe satisfacer las siguientes
propiedades:
i) N (t) ∈ N ∀ t ∈ R.
ii) s < t ⇒ N (s) ≤ N (t) (es decir, N (·) no decrece).
iii) Si s < t, entonces N (t) − N (s) representa el número de eventos ocurridos en el intervalo de
tiempo (s, t].
Caracterizar un proceso de conteo es, en general, complejo: debemos caracterizar la distribución
del número de eventos para cualquier conjunto finito de intervalos de tiempo. Tal como en el caso
de las cadenas de Markov, centraremos nuestra atención en procesos que cuentan con propiedades
que hacen más sencillo su analisis: estas propiedades son los incrementos independientes e
incrementos estacionarios.
Definición 4.1 Un proceso de conteo posee incrementos estacionarios si y solo si la
distribución de probabilidad del número de llegadas en un intervalo solo depende del largo del
intervalo (y no de su “posición”). Esto es,
P (N (t) − N (s) = k) = P (N (t + h) − N (s + h) = k) ,
∀ t, s, h ≥ 0, t > s, k ∈ N.
Un ejemplo de proceso que no cumple esto es la llegada de alumnos a la sala: una vez ha comenzado
la clase y conforme avanza la hora debiese ser menos probable que lleguen nuevos alumnos.
Definición 4.2 Un proceso de conteo posee incrementos independientes si y solo si el
número de eventos durante intervalos disjuntos son independientes. Esto es, para todo t1 <
t2 < t3 < t4 y i, j ∈ N,
P (N (t2 ) − N (t1 ) = i ∧ N (t4 ) − N (t3 ) = j) = P (N (t2 ) − N (t1 ) = i) · P (N (t4 ) − N (t3 ) = j) .
Un ejemplo de proceso que no cumple esto es la llegada de alumnos a la sala: la cantidad de alumnos
que llegan 5 min despues del inicio de clases depende de la cantidad de alumnos que llegaron antes
(considere que el número de alumnos en el curso es fija, por lo que si llegan todos los alumnos antes
de los 5 min, sabemos que nadie más llegará).
Aproximación Binomial. A continuación construiremos (de forma heurística) un proceso que
cuenta con las propiedades definidas arriba. Para esto consideremos el intervalo de tiempo [0, t],
el cual particionaremos en n subintervalos del mismo largo h(n) = t/n. El proceso en cuestión es
tal que en cada subintervalo, independiente de todo lo demás, ocurre a los más un evento, lo que
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
63
ocurre con probabilidad proporcional al largo del intervalo. Esto es, sea Xi el número de eventos
que ocurren en el subintervalo i ∈ {1, . . . , n}, entonces, las variables {Xi : i = 1, . . . , n} son i.i.d., y
tales que
(
Xi =
1 c.p. λ h(n)
0 ∼.
Claramente, por construcción, el número de eventos ocurridos en intervalos del mismo largo corresponde al número de eventos ocurridos en conjuntos de subintervalos con igual cardinalidad, por lo
tanto su distribución es la misma (es decir, se cumple la propiedad de incrementos estacionarios).
De la misma forma, dos intervalos disjuntos corresponden a conjuntos de subintervalos disjuntos,
por lo tanto la propiedad de incrementos independientes se hereda de la independencia de las variables Xi ’s.
Para un n fijo tenemos que el Nn (t) número de eventos totales contabilizados en el intervalo [0, t]
se distribuye binomial con parámetros n y λ h(n). Esto es,
!
P (Nn (t) = k) =
n
(λ h(n))k (1 − λ h(n))n−k .
k
A partir de esta expresión, consideramos el proceso límite N (t) ≡ lı́mn→∞ Nn (t): heurísticamente,
tenemos que la distribución de dicho proceso límite esta dada por
P (N (t) = k) =
=
=
lı́m P (Nn (t) = k)
n→∞
(λt)k
n · (n − 1) · · · (n − k + 1) (1 −
n→∞
k!
n · n···n
(1 −
lı́m
λt n
n)
λt k
n)
(λt)k −λt
e .
k!
Concluimos que este proceso límite es tal que el número de eventos que ocurren en el intervalo [0, t]
se distribuye como una variable aleatoria con distribución Poisson de parámetro λ t.
A continuación presentamos la caracterización de un proceso estocástico en tiempo continuo, que
coincide con la intuición desarrrollada en la construcción de arriba. Esta es una primera definición
de un Proceso de Poisson.
Definición 4.3 (Proceso de Poisson (I)) Definimos un proceso de Poisson con tasa
λ > 0 como un proceso de conteo N (t) tal que:
i) N (0) = 0
ii) El proceso posee incrementos independientes y estacionarios
iii) P(N (h) = 1) = λh + o(h), P(N (h) = 2) = o(h)
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
64
En la definición anterior, la notación o(h) se refiere a funciones que decrecen a 0 más rápido que
h, en el siguiente sentido: decimos que f (h) es orden o(h) (o-pequeña de h) si
lı́m
h→0
f (h)
= 0.
h
Lo importante de esto es que, en primer lugar, la probabilidad de que ocurra un evento en un
intervalo es proporcional al tamaño del intervalo, y en segundo lugar, en un intervalo cada vez más
pequeño, la probabilidad de que ocurra más de un evento tiende a 0: no pueden ocurrir dos eventos
al mismo tiempo.
Si bien la Definición I no hace mención explícita a que la distribución del número de eventos en un
intervalo de largo t sea Poisson, este hecho puede derivarse usando los argumentos utilizados en la
aproximación binomial. Esto nos da una caractezación alternativa de un proceso de Poisson.
Definición 4.4 (Proceso de Poisson (II)) Definimos un proceso de Poisson con tasa
λ > 0 como un proceso de conteo N (t) tal que:
i) N(0) = 0.
ii) El proceso posee incrementos independientes.
iii) P (N (s + t) − N (s) = k) =
(λt)k e−λt
, ∀s, t ≥ 0, k ∈ N
k!
Notamos que iii) en la Definición II arriba implica que el proceso N (t) posee incrementos estacionarios (ya que no aparece s, la posición del intervalo, en la fórmula: solo t, el tamaño del intervalo).
Como es de esperarse, las Definiciones I y II del proceso de Poisson son equivalentes.
Teorema 4.1 (Equivalencia de las definiciones) Las Definiciones I y II de proceso de
Poisson son equivalentes.
Dem: La prueba consiste en demostrar que la Definición I (DI) implica la Definición II (DII), y
vice-versa. La demostración que DI implica DII puede encontrarse en el Capítulo 2 de “Stochastic Processes” de S. Ross, por lo que la omitiremos acá. A continuación se prueba que DII implica DI.
Es fácil ver que i), ii) y iii) en DII implican i) y ii) en DI, por lo que nos limitamos a demonstrar
que iii) en la DI se cumple también.
Partiendo de iii) en DII, tenemos que
P (N (h) = 1) = e−λh (λh)
= λh + λh(e−λh − 1)
= λh + o(h).
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
65
El último paso arriba viene de notar que
λh(e−λh − 1) (a)
= lı́m λ(e−λh − 1) + λhe−λh = 0,
h→0
h→0
h
lı́m
donde (a) viene de aplicar L’Hôpital. Te la misma forma, tenemos que
P (N (h) = 0) = e−λh
= 1 − λh + (e−λh + λh − 1)
= λh + o(h).
Nuevamente, el último paso viene de notar que
(e−λh + λh − 1) (a)
= lı́m −λe−λh + λ = 0,
h→0
h→0
h
lı́m
donde (a) viene de aplicar L’Hôpital. La prueba concluye al notar que
P (N (h) ≥ 2) = 1 − P (N (h) = 1) − P (N (h) = 0) = o(h).
4.1.
Tiempo entre llegadas u ocurrencias
La caracterización de un proceso de Poisson se basa en una construcción que impone las propiedades
de incrementos independientes y estacionarios. Alternativamente, un proceso de Poisson puede
definirse en término de la distribución de los tiempos entre llegadas sucesivas.
Intuición: Si un proceso ha de tener la propiedad de incrementos estacionarios, es necesario
que la distribución del número de llegadas en cualquier intervalo sea independiente del punto
de inicio del intervalo. Sin embargo, partiendo desde t = 0, esto implica que la probabilidad
que una llegada ocurra entre t = s y t = s + h, para h muy pequeño, se mantenga constante,
independiente de cuando en realidad ocurren las llegadas. Esto impone una condición de “pérdida de memoria” a la distribución del tiempo entre llegadas. La única distribución continua
con esta propiedad es la exponencial.
Sea Xi el tiempo entre la (i − 1)-ésima llegada y la i-ésima (decimos que la llegada “0” ocurre en
t = 0), i ≥ 1. Calculemos la distribución del instante de la primera llegada, X1 . Para esto notamos
la equivalencia
X1 > t ⇐⇒ N (t) = 0.
Con esto, utilizando DII, tenemos que
P (X1 ≤ t) = 1 − P (X1 > t) = 1 − P (N (t) = 0) = 1 − e−λt .
Concluimos que X1 se distribuye exp(λ) (exponencial de tasa λ). El siguiente resultado muestra
que los tiempos entre llegadas, en general, se distribuyen exp(λ).
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
66
Teorema 4.2 Xn ∼ exp(λ) para todo n ≥ 1, y {Xn : n ≥ 1} forma una sequencia i.i.d.
Dem: Probamos el resultado via inducción. El caso base de X1 ya se ha probado. Supongamos
entonces que Xi ∼ exp(λ) para i ≤ n, y calculemos la distribución de Xn+1 . Para esto condicionamos
en los valores de Xi con i ≤ n. Tenemos que
P (Xn+1 ≤ t) = 1 − P (Xn+1 > t)
= 1−
Z
Rn
+
P (Xn+1 > t|Xi = si , i ≤ n) λn e−λ
|
{z
P
si
dsn . . . ds1 .
}
(?)
La expresión (?) es igual a P (N (( si ) + t) − N ( si ) = 0) (note que podemos botar el evento
condicionante por la propiedad de incrementos independientes). Con esto, utilizando la propiedad
de incrementos estacionarios, tenemos que
P
P (Xn+1 ≤ t) = 1 −
Z
P (Xn+1 ≤ t) = 1 −
Z
P
Rn
+
Rn
+
P (Xn+1 ≤ t) = 1 − e−λt
P N (t +
X
si ) − N (
P (N (t) = 0) λn e−λ
Z
Rn
+
λn e−λ
P
si
P
X
si
si ) = 0 λn e−λ
P
si
dsn . . . ds1
dsn . . . ds1
dsn . . . ds1 = 1 − e−λt .
Concluimos que Xn+1 ∼ exp(λ). Queda por demostrar que Xn+1 es independiente de {Xi : i ≤ n},
pero esto es consecuencia directa de la propiedad de incrementos independientes (y puede ser demostrada siguiendo el mismo argumento que prueba que Xn+1 ∼ exp(λ)).
El resultado de arriba nos da una tercera definición de Procesos de Poisson.
Definición 4.5 (Proceso de Poisson (III)) Definimos un proceso de Poisson con tasa
λ como un proceso de conteo N (t) tal que la secuencia de tiempos entre llegadas {Xi : i ≥ 1}
forma una secuencia i.i.d., con X1 ∼ exp(λ).
Es posible mostrar que esta definición es equivalente a DI y DII.Para n ≥ 1, definimos Sn como el
P
instante de llegada del n-ésimo evento. Esto es, Sn := ni=1 Xi .
Normalmente podemos estudiar los tiempos de llegada a través de la siguiente equivalencia.
Sn ≤ t
⇔
N (t) ≥ n.
Por ejemplo, podemos derivar la distribución de Sn de la siguiente forma.
P(Sn ≤ t)
= 1 − P(N (t) < n)
=1−
Apunte de Cátedra
Pn−1 (λt)i e−λt
i=0
i!
.
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
67
Obtenemos la densidad fSn (·) de Sn derivando respecto a t. Esto es,
fSn (t) =
n−1
X
i=0
X λi ti−1 e−λt
λi+1 ti e−λt n−1
λe−λt (λt)n−1
−
=
.
i!
(i − 1)!
(n − 1)!
i=1
Notamos que Sn distribuye Gamma(n, λ), n ∈ N, λ ∈ R+ . Esto es esperable, dado que una forma
de definir una Gamma de parámetros n y λ es como la suma de n variables i.i.d. exp(λ) (lo que se
puede demostrar fácilmente con la función generadora de momentos). De esta ultima observación,
obtenemos directamente que
E {Sn } = n/λ.
4.2.
Distribución Condicional
A continuación, consideramos la distribución de los tiempos de llegada, pero condicionales en el
número de eventos ocurridos en el intervalo [0, t]. Primero revisemos la intuición, para entender qué
deberíamos recuperar como distribución.
Intuición: Consideremos la aproximación binomial del proceso de Poisson: tenemos n intervalos de igual largo (h(n) = t/n) y eventos ocurren en cada intervalo de forma independiente
con igual probabilidad (p = λ h(n)). Consideremos la distribución de X1n (el instante de la primera llegada en la aproximación), condicional en que Nn (t) = 1: dado que todos los intervalos
son esencialmente indistinguibles, X1n se distribuye uniforme (discreto) en los intervalos. Más
formalmente, la probabilidad que X1n ≤ s, para s ≤ t está dada por
P (X1n
1
t
≤ s) = sup k : k ≤ s .
n
n
(Estamos asumiendo que una llegada ocurre en medio de un intervalo). Para n >> 0, el supremo
en el lado derecho arriba es aproximadamente stn , por lo que esperamos que, en el límite
1
t
s
P (X1 ≤ s) = lı́m sup k : k ≤ s = ,
n→∞ n
n
t
es decir, condicional en que N (t) = 1, la llegada del primer evento se distribuye U nif [0, t]
(uniforme en el intervalo [0, t]).
Corroboramos la instución desarrollada arriba, utilizando el hecho que X1 se distribuye exponencial:
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
68
para s < t tenemos que, utilizando Bayes,
P(X1 ≤ s|N (t) = 1) =
=
=
=
=
P(X1 ≤ s ∧ N (t) = 1)
P(N (t) = 1)
P(N (s) = 1 ∧ N (t − s) = 0)
P(N (t) = 1)
P(N (s) = 1)P(N (t − s) = 0)
P(N (t) = 1)
P(N (s) = 1)P(N (t) − N (s) = 0)
P(N (t) = 1)
λse−λs e−λ(t−s)
s
= .
−λt
λte
t
Notamos que hemos utilizado las propiedas de incrementos estacionarios e independientes en el
desarrollo arriba. Concluimos entonces que (X1 | N (t) = 1) ∼ U nif [0, t].
Extendiendo el desarrollo anterior, consideremos ahora la distribución conjunta de los instantes de
llegada S1 , S2 , . . . , Sn , condicional en que N (t) = k. Revisamos primero la intuición.
Intuición: Volviendo a la aproximación binomial del proceso, considerando que los intervalos
son indistinguibles, condicional en que Nn (t) = k, cada intervalo tiene igual probabilidad
de contener un evento, por lo que cada evento sin considerar el orden en que llegó se
distribuye uniforme (discreto) en los intervalos. En el límite esta distribución converge a la
U nif [0, t]. Por lo tanto, para pasar de las llegadas de los eventos desordenados, a la llegada
ordenada, lo que debemos hacer es simplemente ordenar k variables U nif [0, 1] de menor a
mayor. Esta distribución se conoce como los estadísticos de orden de un conjunto de variables
aleatorias.
Utilizando la intuición desarrollada, probaremos que los tiempos de llegada condicionales distribuyen como los estadísticos de orden de n variables aleatorias uniformes i.i.d. en [0, t].
Sean U1 , . . . , Uk i.i.d. tales que Ui ∼ U nif [0, t]. Sus estadísticos de orden son las v.a.s U(1) , . . . , U(k) ,
donde U(1) es el menor valor entre las k uniformes, U(2) es el segundo menor, etc. La densidad fEO
de los estadísticos de orden de estas variables está dada por
fEO (t1 , . . . , tk ) =
k!
,
tk
0 ≤ t1 < t2 < . . . < tk ≤ t.
(El k! factorial aparece por el número de órdenes posibles).
Formalizamos el resultado. Consideremos una secuencia de valores (ti : i ≤ k) tales que 0 < t1 . . . <
tk < t. Utilizaremos un argumento heurístico para obtener la densidad de los tiempos ordenados
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
69
de llegada. Considere h pequeño, definiendo t0 = 0 y tk+1 = t,
P(Si ∈ [ti , ti + h] : i ≤ n|N (t) = k) =
=
=
=
P (N (ti + h) − N (ti ) = 1, i ≤ k, N (ti ) − N (ti−1 ) = 0, i ≤ k + 1)
P (N (t) = k)
P (N (h) = 1)k · P (N (t − k h) = 0)
P (N (t) = k)
k
−λhk
(λ h) e
· ek h−t
(λt)k e−λt /k!
k! hk
,
tk
donde en la segunda igualdad hemos usado las propiedades de incrementos independientes y estacionarios. Para obtener la densidad f{Si :i≤k}|N (t)=k tenemos que
f{Si :i≤k}|N (t)=k (t1 , . . . , tk ) = lı́m
h→0
P(Si ∈ [ti , ti + h] : i ≤ n|N (t) = k)
k!
= k.
k
h
t
Concluimos que las llegadas condicionales distribuyen como los estadísticos de orden de uniformes iid.
Ejemplo 4.1 (Tiempos de llegada condicionales)
Tiempo total esperado de espera de un bus. Suponga que pasajeros llegan a una parada de
buses de acuerdo a un proceso de Poisson de tasa λ > 0. Suponga que el primer bus pasa
en t = T . Calcule cuánto esperaron en total los pasajeros que suben a ese bus (suma de los
tiempos de espera de cada pasajero).
Solución. Condicionando sobre el valor de N (T ), tenemos que
E

(T )
NX

i=1
(T − Si )


=

=

(T )
NX


k≥0

i=1
(

)
X
E kT −
X
E
(T − Si )|N (T ) = k
k≥0
=
X
[kT − E
k≥0
=
X
[kT − E
k≥0
k
X
P(N (T ) = k)
Si | N (T ) = k P(N (T ) = k)
i=1
( k
X
i=1
( n
X
)
U(i) ]P(N (T ) = k)
)
Ui ]P(N (T ) = k)
i=1
T
=
[kT − k ]P(N (T ) = k)
2
k≥0
X
=
Apunte de Cátedra
T X
T2
k P(N (T ) = k) =
λ.
2 k≥0
2
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
70
Ejemplo 4.2 (Control 3, Primavera 2018)
Autos llegan a la entrada de un parque de acuerdo a un Proceso de Poisson de tasa λ [autos/hora]. El número de pasajeros en los autos forma una secuencia de variables aleatorias i.i.d..
En particular, la probabilidad que un auto cualquiera traiga n pasajeros es pn > 0, n ≤ N .
Debido a un aumento en las medidas de seguridad, cada persona debe registrarse en un kiosco
antes de ingresar al parque. Suponga que el número de kioscos es muy grande, que los pasajeros
demoran un tiempo exponencial de tasa µ [1/hora] en registrarse, y que cada pasajero ingresa
al parque inmediatamente tras registrarse (espera a sus potenciales acompañantes dentro del
parque).
1. ¿El número de personas dentro del parque en el instante t distribuye Poisson? En caso
afirmativo, encuentre la tasa.
2. Suponga que llega un auto con n pasajeros en el instante s. Calcule la esperanza del
número de pasajeros de ese auto que se encuentran dentro del parque en el instante t
(t > s).
3. Calcule la esperanza del número de personas en el parque en el instante t.
4. ¿El número de autos que para el instante t tienen al menos un pasajero dentro del parque
distribuye Poisson? En caso afirmativo, encuentre la tasa.
5. Suponga que el primer auto en llegar trae solo un pasajero. Encuentre una recursión que
permita calcular la probabilidad que ese pasajero sea el primero en entrar al parque.
Solución parte 1. No, el instante de la primera entrada al parque es la suma de una exponencial
y una mistura de exponenciales.
Solución parte 2. Cada uno de esos pasajeros tiene una probabilidad p(s) = 1−exp(−µ(t − s)) de
estar dentro del parque en el instante t, por lo tanto el número de pasajeros en ese auto dentro del
parque en el instante t se distributye Binomial(n, p(s)). Con esto, la esperanza E(n, s) del número
de pasajeros de ese auto dentro del parque en el instante t es
E(n, s) = n p(s) = n (1 − exp(−µ(t − s))).
Solución parte 3. Primero calculamos la esperanza del número de pasajeros dentro del parque en
el instante t que llegaron en un auto antes del instante t. Para esto utilizamos la distribucion del
número de personas en un auto, y la distribucion condicional de los tiempos de llegada. Entonces,
tenemos que
!
N
N Z t
X
X
1
1 − exp(µ t)
E=
E(n, s) ds pn =
n pn
1−
.
t
µt
0
n=1
n=1
Con esto, tenemos que la esperanza que buscamos es simplemente E λ t.
Solución parte 4. Operamos como en la parte anterior. Es decir calculamos la probabilidad que
un auto que llega antes que t tenga a uno de sus pasajeros dentro del parque en el instante t.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
71
Condicional en el instante de llegada y el número de pasajeros en el auto, esta probabilidad es
P (n, s) = 1 − exp(−µ n(t − s)).
Por lo tanto, descondicionando, la probabilidad se transforma en
P =
N Z t
X
n=1
0
N
X
1 − exp(nµ t)
1
pn .
1−
P (n, s) ds pn =
t
nµ t
n=1
Condicionando en el número total de autos que llegan hasta t, la probabilidad que k de ellos cumplan
el criterio buscado es
Pk =
∞
X
j=k
=
!
j k
p (1 − p)j−k (λ t)j exp(−λ t)/j!
k
(−λ p t)k exp(−λ p t)/k!
∞
X
(λ t(1 − p))j−k exp(−(1 − p)λ t)/(j − k)!
j=k
= (−λ p t) exp(−λ p t)/k!
k
Concluimos que la distribucion es poisson de tasa λ t p.
Solución parte 5. Sea Pn la probabilidad de que el primer individuo en llegar (el pasajero del
primer auto) sea el primero en entrar al parque, cuando hay n personas siendo registradas en los
kioscos.
La intuición es que si el registro de este individuo le gana la carrera de exponenciales a la llegada
del siguiente auto, entonces entra primero con probabilidad 1. En cambio, si llega otro auto, la
probabilidad dependerá de cuántos pasajeros traiga este auto:
µ
λ
P1 =
+
µ+λ µ+λ
N
X
!
P1+m · pm .
m=1
Generalizando esta expresión para cuando hay n individuos siendo registrados (por lo cual el individuo en cuestión les “tiene que ganar” a n − 1 personas y al siguiente auto), se obtiene
µ
λ
Pn =
+
nµ + λ nµ + λ
Apunte de Cátedra
N
X
!
Pn+m · pm
m=1
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
72
Ejemplo 4.3 (Pregunta 1, Control 2, Primavera 2019)
El área de Fiscalización del Ministerio de Transportes quiere comprobar en terreno que los
operadores de buses estén cumpliendo con las tasas acordadas de frecuencias de sus flotas.
Para ello se enviará a un inspector a un paradero, en que, desde un tiempo inicial t0 = 0 pasan
buses siguiendo un proceso de Poisson {N (t) : t ≥ 0} de tasa λ > 0.
El inspector llega al paradero y pregunta al vendedor de la tienda de sopaipillas del frente
cuánto ha sido el tiempo desde la última vez que pasó un bus, lo que anota como T1 . Luego
toma el tiempo T2 hasta el primer bus que pasa, y reporta como intervalo entre buses la suma
T := T1 + T2 .
1. Justifique que la estimación del intervalo dada por el inspector, en promedio, es mayor
que el tiempo promedio de espera real entre buses. ¿A qué se debe este error?
2. Muestre que si el inspector llega en un instante t y han pasado n buses desde el comienzo
del proceso (t0 = 0), entonces el intervalo que reporta el inspector está dado (en promedio)
por
1
t
E{T |N (t) = n} = +
.
λ n+1
3. Concluya que si el tiempo de llegada del inspector es una variable aleatoria de distribución exponencial de tasa µ (independiente de todo), entonces el intervalo de tiempo que
reportará el inspector tiene esperanza
E{T } =
1
1
+
.
λ λ+µ
4. Analice y justifique los casos límite µ → 0, µ → +∞.
Solución parte 1. Notamos que, por la perdida de memoria de la exponencial, tenemos que
E{T2 } = 1/λ. Dado que E{T1 } > 0, tenemos que E{T } > 1/λ, pero el tiempo promedio de espera
es 1/λ, que es lo que queríamos probar.
El error viene del hecho que el inspector no considera que es suficiente considerar el tiempo que
demora en llegar el siguiente bus solamente, por la perdida de memoria de la exponencial.
Solución parte 2. Condicional en que N (t) = n, los tiempos de llegadas desordenados se distribuyen como n variables iid U (0, t). Entonces, considerando Ui ∼ U (0, t) para i ≤ n, independientes,
tenemos que
E{T1 |N (t) = n} = E{T − máx{Ui : i ≤ n}}
Consideremos que
P(máx{Ui : i ≤ n} ≤ x) = P(∩ni=1 {Ui ≤ x}) =
n
Y
P(Ui < x) =
i=1
n
x
t
.
Por lo tanto, la densidad del máximo fmax (·) está dada por
fmax (x) =
Apunte de Cátedra
∂P(máx{Ui : i ≤ n} ≤ x)
n
=
∂x
t
n−1
x
t
.
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
73
Entonces, tenemos que
E{máx{Ui : i ≤ n}} =
Z t
x
0
n
t
n−1
x
t
dx =
n
n xn+1 t
|0 =
t.
n
t n+1
n+1
Por otro lado, ya sabemos que E{T2 |N (t) = n} = 1/λ. Con esto concluimos que
E{T |N (t) = n} = E{T1 |N (t) = n} + E{T2 |N (t) = n} = t −
n
1
t
1
t+ =
+ .
n+1
λ
n+1 λ
Solución parte 3. Supongamos que el tiempo de llegada X del inspector es X = t. De la parte
anterior, tenemos que
E{T |X = t} =
=
=
∞
X
E{T |X = t, N (t) = n}P(N (t) = n)
n=0
∞ X
n=0
∞ X
n=0
1
t
+
P(N (t) = n)
λ n+1
1
t
+
λ n+1
(λt)n −λ t
e
n!
=
∞
1
1X
(λt)n+1 −λ t
+
e
λ λ n=0 (n + 1)!
=
∞
(λt)n −λ t
1
1X
+
e
λ λ n=1 n!
=
∞
(λt)n −λ t 1 −λ t
1
1X
2
1
+
e
− e
= − e−λ t .
λ λ n=0 n!
λ
λ λ
Finalmente, tenemos que
E{T } =
=
=
=
=
Z ∞
0
E{T |X = t}µ e−µ t dt
Z ∞
2
1
− e−λ t µ e−µ t dt
λ λ
0
Z ∞
2
µ
−
e−λ t e−µ t dt
λ
λ
0
Z ∞
2 µ 1
−
(µ + λ) e−(µ+λ) t dt
λ λµ+λ 0
2 µ 1
1
1
1
−
=
(µ + 2λ)) = +
.
λ λµ+λ
λ(µ + λ)
λ λ+µ
Solución parte 4. Cuando µ → ∞ tenemos que P(X > ) = e−µ → 1, es decir, en el limite
X = 0. En este caso el inspector llega en t = 0, por lo que su estimación
lı́m E{T } =
µ→∞
Apunte de Cátedra
1
1
1
+ lı́m
=
µ→∞
λ
λ+µ
λ
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
74
es correcta.
Por otro lado, cuando µ → 0 tenemos que P(X ≤ M ) = 1 − e−µM → 0, es decir, en el limite
X → ∞. En este caso la estimación del inspector es
lı́m E{T } =
µ→0
1
1
2
+ lı́m
= .
λ µ→0 λ + µ
λ
En este caso, la estimación se puede explicar por que en el largo plazo, el tiempo hasta que pasa
el próximo bus debiese distribuirse igual que el tiempo desde que pasó el bus pasado. Por lo tanto,
en el largo plazo, la distribución T1 es exponencial con tasa λ (sabemos que este es siempre el caso
para T2 ).
4.3.
División y suma de procesos de Poisson.
Sea N (t) un proceso de Poisson de tasa λ. Supongamos que los eventos pueden ser clasificados en
2 categorías, A y B (con probabilidad p un evento sería de tipo A y con prob. (1 − p) sería B,
independiente del resto).
Definamos NA (t) y NB (t) como los procesos de conteo asociados a los eventos clasificados como A
y B, respectivamente. Mostraremos que NA (t) es un proceso de Poisson (y por lo tanto, invirtiendo
los roles, NB (T ) tambien lo es). Primero veamos la intuición detrás del resultado.
Intuición: Consideremos la aproximación binomial al proceso de Poisson. En nuestra aproximación, en cada intervalo existe un evento con probabilidad λ h(n): dicha evento cuenta para
el proceso NA (t) con probabilidad p, por lo tanto el proceso de conteo NA (t) acepta la misma aproximación binomial, pero con probabilidad modificada de ocurrencia de un evento en
un intervalo igual a λ p h(n). Claramente, en el límite el proceso resultante es un proceso de
Poisson de tasa λ p.
En nuestra aproximación, los procesos están claramente correlacionados: si sabemos que han ocurrido n llegadas de eventos tipo A, sabemos que no han ocurrido llegadas de tipo B. Sorprendentemente, en el límite, los procesos NA (t) y NB (t) son independientes.
Proposición 4.1 (División procesos de Poisson) Los procesos NA (t) y NB (t) son procesos
de Poisson independientes, con tasas λA = pλ y λB = (1 − p)λ, respectivamente.
Dem: Chequeamos DII para ambos procesos. Claramente las propiedad de incrementos independientes y estacionarios se heredan del proceso N (t), por lo tanto solo es necesario chequear que
NA (T ) y NB (t) se distribuyen Poisson con las tasas apropiadas. A continuación chequeamos esto,
y en forma simultánea, la independencia de los procesos.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
75
Para n, m ∈ N, condicionando en las llegadas del proceso original N (t), tenemos que
P(NA (t) = n, NB (t) = m) =
X
P(NA (t) = n, NB (t) = m|N (t) = k)P(N (t) = k)
k≥0
= P(NA (t) = n, NB (t) = m|N (t) = n + m)P(N (t) = n + m).
Notamos que (NA (t) = n, NB (t) = m|N (t) = n + m) corresponde a clasificar n eventos tipo A
de un total de n + m eventos. Claramente, el número de eventos clasificados tipo A se distribuye
binomial con parámetros m + n y p, por lo tanto
n+m n
p (1 − p)m .
n
!
P (NA (t) = n, NB (t) = m|N (t) = n + m) =
Con esto, tenemos que
n+m n
e−λt (λt)n+m
p (1 − p)m
n
(n + m)!
!
P(NA (t) = n, NB (t) = m) =
=
=
=
e−λt(1−p+p)
(n + m)!
(pλt)n ((1 − p)λt)m
n!m!
(n + m)!
(pλt)n e−pλt ((1 − p)λt)m e−(1−p)λt
·
n!
m!
m
−λ
n
−λ
t
A
(λB t) e B t
(λA t) e
·
n!
m!
El resultado sigue de notar que este es el producto de las probabilidades que dos variables Poisson
con tasas p t y (1 − p)t tomen los valores n y m, respectivamente.
Sean NA (t) y NB (t) dos procesos de Poisson independientes, con tasas λA y λB , respectivamente. Consideremos el proceso N (t) = NA (t) + NB (t) que cuenta los eventos de ambos procesos.
Probaremos que N (t) también es un proceso de Poisson. Primero revisamos la intuición.
Intuición: Consideremos la aproximación binomial de ambos procesos (hacemos coincidir los
intervalos escogiendo el mismo n en ambas aproximaciones): la probabilidad p(h) de observar
k eventos en un intervalo de largo h está dada por
p(h) =



1 − (λA + λB )h + o(h)
(λ + λB )h + o(h)
A


o(h)
k=0
k=1
∼.
Notamos que la probabilidad de observar un evento es, esencialmente, (λA + λB )h: entonces,
en el límite, debiésemos recuperar un proceso de Poisson de tasa λ = λA + λB .
Notamos que, en la aproximación binomial, observamos un evento si viene de alguno de los procesos
A o B, pero la probabilidad de que se cuenten dos eventos va a 0 cuando disminuimos el largo h
de los intervalos. El siguiente resultado corrobora nuestra intuición.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
76
Proposición 4.2 (Suma de procesos de Poisson) El proceso N (t) = NA (t) + NB (t) es un
proceso de Poisson de tasa λ = λA + λB .
Dem: Chequeamos DII para el proceso N (t). Tanto la propiedad de incrementos independientes
como aquella de incrementos estacionarios se heredan de los procesos NA (t) y NB (t), por lo que
nos limitamos a probar que N (t) se distribuye Poisson con tasa λ t. Condicionando sobre el número
de llegadas del proceso NB (t), tenemos que:
P (N (t) = n) = P (NA (t) + NB (t) = n)
=
X
P (NA (t) + NB (t) = n| NB (t) = i) P (NB (t) = i)
(condicionando)
i≤0
=
X
P (NA (t) = n − i | NB (t) = i) P (NB (t) = i)
i > n (tiene P = 0)
i≥0
=
X
P (NA (t) = n − i) P (NB (t) = i)
(son independientes)
i≥0
=
X (λA t)n−1 e−λA t
(
i≥0
(n − i)!
)(
(λB t)i e−λB t
)
i!
=
n
e−(λA +λB )t X
n!
(λA t)n−i (λB t)i
n!
(n
−
i)!i!
i=1
=
e−(λA +λB )t
(λt)n e−λt
((λA + λB )t)n =
n!
n!
Apunte de Cátedra
(·
n!
)
n!
(binomio de Newton)
(λ = λA + λB )
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
77
Ejemplo 4.4 (Pregunta 1, Control 2, Otoño 2019)
Considere personas que llegan a un evento de juegos de mesa según un proceso de Poisson
de tasa λ personas por minuto. Suponga además que todos los juegos son para 4 personas,
de modo que las personas que llegan deben esperar hasta poder formar un grupo de 4. En
el momento en que se juntan 4 personas ociosas, instantáneamente arman una mesa de juego
(que se mantendrá jugando hasta el fin del evento).
1. Calcule la probabilidad de que hayan exactamente 2 mesas de juego armadas a los 30
minutos de iniciado el evento.
2. Calcule la esperanza del tiempo de espera de una persona hasta empezar a jugar.
3. Si la primera mesa se armó 20 minutos después de iniciado el evento, calcule la esperanza
de la suma de los tiempos esperados de las primeras 4 personas en llegar.
4. Suponga ahora que cada persona que llega al evento es un jugador que conoce los juegos del evento con probabilidad p o alguien que va a aprender a jugar con probabilidad
1 − p (independiente de todo lo demás). En este nuevo escenario, solo se pueden armar
mesas con 4 personas que saben jugar o con 4 personas que van a aprender. ¿Cuál es la
probabilidad de que no haya ninguna mesa armada luego de una hora de iniciar el evento?
Solución parte 1. Sea X el evento en cuestión, y T = 30 minutos. Tenemos que
P(X) = P(N (T ) ∈ {8, 9, 10, 11}) =
11
X
(λT )i −λT
e
.
i=8
i!
Solución parte 2. Sea T el tiempo de espera de una persona cualquier hasta empezar a jugar.
Es claro (sino, ver la parte 2 de la siguiente pregunta) que una persona cualquiera tiene igual
probabilidad de encontrar i = 0, 1, 2, 3 personas esperando formar una mesa al momento de llegar.
Condicionando sobre N , el número de personas esperando al momento de llegar, tenemos que
3
X
3
1 X
1
3
E{T |N = i} =
(3 − i)λ−1 = λ−1 .
E{T } =
4
4
2
i=0
i=0
Solución parte 3. Notamos que la cuarta persona en llegar llego exactamente en t = 20 minutos, y
esa persona no espero. Por lo tanto, debemos sumar los tiempos de espera de las otras tres personas.
Sin embargo, notamos que los tiempos de llegada condicionales se distribuyen como los estadísticos
de orden de 3 variables aleatorias independientes uniformes[0, T ], con T = 20 minutos. Entonces,
tenemos que la esperanza del tiempo de espera W es
E{W |N (T −) = 3} =
3
X
i=1
E{T − Si |N (T −) = 3} =
3
X
i=1
E[{T − U(i) } =
3
X
3
E{T − Ui } = T.
2
i=1
Solución parte 4. los procesos N1 (t) y N2 (t) de llegada de jugadores que saben/no saben jugar
son procesos de Poisson independientes con tasas λ p y λ(1 − p), respectivamente. Definiendo Z
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
78
como el evento en cuestión, y T = 1 hora, tenemos que
P(Z) = P(N1 (T ) ≤ 3 ∧ N2 (T ) ≤ 3)
= P(N1 (T ) ≤ 3] · P [N2 (T ) ≤ 3)
=
3
X
(λ p)i −λ p
e
i=0
i!
!
·
3
X
(λ (1 − p))i −λ (1−p)
e
i=0
!
i!
.
Ejemplo 4.5 (Pregunta 3, Examen, Primavera 2018)
Boris recibe regalos por parte de sus seres queridos de acuerdo a un proceso de Poisson de
tasa λ. Además, es visitado por cobradores de deudas, quienes llegan de acuerdo a un proceso
de Poisson de tasa µ. Ambos procesos son independientes. Suponga que la casa de Boris tiene
espacio para guardar prácticamente infinitos regalos.
1. Si Boris aún no ha recibido ningún regalo, ni ha sido visitado por ningún cobrador,
¿cuánto es el tiempo esperado hasta que haya ocurrido al menos una de cada tipo de
llegadas?
2. Si en [0, T ] Boris recibió 2 regalos y llegaron 3 cobradores, ¿cuál fue el instante esperado
de llegada del primer regalo?
Suponga a continuación que, al llegar, los cobradores eligen al azar alguno de los regalos a
modo de pago, y se marchan inmediatamente tras elegirlo. En caso de llegar un cobrador y
no encontrar regalos, esperará hasta la llegada del siguiente. Sin embargo, si un cobrador al
llegar se encuentra con que un colega suyo ya se encuentra esperando, abandonará el lugar
inmediatamente, sin esperar su regalo.
3. Si en un momento cualquiera Boris no tiene ningún regalo, y no hay ningún cobrador
esperando, ¿cuánto será el tiempo de espera del siguiente cobrador hasta tomar un regalo
e irse, en esperanza?
4. Si en un momento cualquiera Boris solo cuenta con un regalo, ¿cuál es la probabilidad
de que éste sea el escogido por el siguiente cobrador en llegar?
Solución parte 1. Sean Tr y Tc los tiempos hasta la llegada del primer regalo y el primer cobrador,
respectivamente. Buscamos la esperanza del máximo de estas variables aleatorias:
E{máx{Tr , Tc }} = E{Tr + Tc − mı́n{Tr , Tc }}
= E{Tr } + E{Tc } − E{mı́n{Tr , Tc }}
1
1
1
+ −
=
λ µ λ+µ
Obs: Alternativamente se puede estudiar la distribución de probabilidad de máx{Tr , Tc } para
calcular su esperanza por definición.
Solución parte 2. Cada una de las llegadas mencionadas sigue una distribución uniforme en el
intervalo [0, T ]. En particular, nos interesa conocer la esperanza del menor de ambos instantes de
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
79
llegada correspondientes a regalos. Para dicho análisis, los instantes de llegada de los cobradores
son irrelevantes.
En general, calcular la esperanza de los estadísticos de orden de n variables aleatorias uniformes en
un intervalo equivale a dividir dicho intervalo en n + 1 partes iguales, siendo los límites entre subintervalos consecutivos los valores buscados. En este caso particular, dividimos el intervalo [0, T ]
2T
en 2 + 1 = 3 partes iguales: [0, T3 ), [ T3 , 2T
3 ) y [ 3 , T ]. Concluimos que la esperanza del instante de
llegada del primer regalo es T3
Obs: Alternativamente, calculamos la esperanza E del mínimo de dos uniformes (0, T ). Esto es
E =
=
=
=
T
T
1
mı́n{t1 , t2 }dt1 dt2
T2 0 0
Z t2
Z T
1
t1 dt1 )dt2
(t
(T
−
t
)
+
2
2
T2 0
0
Z T
1
(t2 · T − t22 /2)dt2
T2 0
T /2 − T /6 = T /3.
Z
Z
Solución parte 3. Si llega al menos un regalo antes que el siguiente un cobrador, éste no deberá
esperar nada. En cambio, si llega un cobrador antes que el siguiente regalo, deberá esperar λ1 , en
esperanza. La probabilidad de que ocurra cada uno de estos escenarios corresponde a una carrera
de exponenciales, por lo que el resultado buscado finalmente será
λ
µ
1
µ
·0+
· =
λ+µ
λ+µ λ
λ(λ + µ)
Solución parte 4. Llamemos R al evento cuya probabilidad queremos calcular. Suponiendo que
llegan exactamente n regalos más antes de la llegada del siguiente cobrador, la probabilidad de que
1
se elija particularmente el regalo que nos interesa es n+1
. A este evento lo llamaremos Rn . Además,
sea N la variable aleatoria que indica el número de regalos adicionales que recibe Boris antes de la
llegada del siguiente cobrador. Entonces,
P(R) =
=
=
∞
X
n=0
∞
X
P(R | N = n) · P(N = n)
P(Rn ) · P(N = n)
n=0
∞
X
P(N = n)
n+1
n=0
µ
Podemos interpretar N como una variable aleatoria geométrica de parámetro µ+λ
, ya que se trata
del número de llegadas diferentes a un cobrador, anteriores a la llegada del primer cobrador. Por
lo tanto,
n
λ
µ
P(N = n) =
µ+λ
µ+λ
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
80
Retomando entonces el cálculo anterior,
P(R) =
∞
X
P(N = n)
n+1
n=0
=
∞
X
λ
µ+λ
n=0
=
∞
µX
λ n=1
n
µ
µ+λ
n+1
λ
µ+λ
n
n
Obs: Esta serie tiene forma cerrada, obteniéndose P(R) = − µλ ln
4.4.
µ
µ+λ
Procesos de Poisson no homogéneos.
Tal como en división de procesos de Poisson, considere un proceso de Poisson de tasa λ, cuyos
eventos pueden ser clasificados en tipo A o B. Sin embargo, en esta ocasión supondremos que la
probabilidad que un evento sea clasificado como tipo A depende del instante de la llegada. En
particular, supondremos que la probabilidad que un evento ocurrido en el instante s sea clasificado
como tipo A es p(s) (la probabilidad que sea de tipo B es 1 − p(s)).
Definimos NA (t) y NB (t) como los eventos tipo A yB ocurridos hasta el instante t, respectivamente.
¿Qué tipo de procesos son estos? Desarrollemos algo de intuición.
Intuición: Consideremos la aproximación binomial del proceso N (t). Para un n dado, la
probabilidad pi que el i-ésimo intervalo contenga un evento esta dada por
pi = λ h · p((i − 1) · h).
Claramente, en esta situación los intervalos no son intercambiables, dado que las probabilidades
asociadas difieren. Esto implica que el proceso resultante no posee la propiedad de incrementos
estacionarios. Sin embargo, la propiedad de incrementos independientes se mantendrá, dado
que lo que sucede en un intervalo es independiente de lo que sucede en los otros intervalos.
Si bien el proceso resultante no es un proceso de Poisson, aún es posible estudiar la distribución de
probabilidad de NA (t). Condicionando en el número total de llegadas, tenemos que
P(NA (t) = n, NB (t) = m) =
X
P(NA (t) = n, NB (t) = m|N (t) = k)P(N (t) = k)
k≥0
= P(NA (t) = n, NB (t) = m|N (t) = n + m)P(N (t) = n + m).
Consideremos ahora una de las m + n llegadas en el evento {N (t) = n + m}. Sin importar el
orden de su llegada, independiente de todo, el tiempo de llegada es U nif [0, t]. Esto implica que,
independiente de los otros eventos, la probabilidad que un evento cualquiera sea clasificado como
tipo A es
Z t
1
p̄(t) =
p(s) ds.
t
0
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
81
Concluimos que
n+m
e−λt (λt)n+m
p̄(t)n (1 − p̄(t))m
(n + m)!
n
!
P(NA (t) = n, NB (t) = m) =
=
(λp̄(t)t)n e−λp̄(t)t (λ(1 − p̄(t))t)m e−λ(1−p̄(t))t
·
,
n!
m!
donde la segunda igualdad sigue de seguir los mismos pasos que en el caso de división de procesos
de Poisson. Concluimos que NA (t) y NB (t) se distribuyen Poisson con tasas λp̄(t) y λ(1 − p̄(t)),
respectivamente. Adicionalmente NA (t) y NB (t) son independientes.
De forma más general, para s, t ∈ R, con s < t, podemos definir la función
m(s, t) =
Z t
p(u)du,
s
y concluir lo siguiente.
Proposición 4.3 Para s < t, NA (t) − NA (s) y NB (t) − NB (s) son independientes y se
distribuyen Poisson con tasas m(s, t) y (t − s) − m(s, t), respectivamente.
Notamos que el proceso anterior mantiene la mayoría de las propiedades de un proceso de Poisson
(de acuerdo a DII), salvo aquella de incrementos estacionarios. Esto, debido a que la “tasa” de
llegada del proceso NA (t) no es homogénea en el tiempo. Esto motiva la definición de procesos de
Poisson no-homogéneos. (Utilizaremos las definiciones DI y DII.)
Definición 4.6 (Proceso de Poisson no homogéneo (I)). Decimos que un proceso de
conteo {N (t) : t ≥ 0} es un proceso de Poisson no homogéneo con función de tasa λ(t) ssi
i) N (t = 0) = 0.
ii) El proceso posee incrementos independientes.
iii) P (N (t + h) − N (t) = 1) = λ(t)h + o(h); P (N (t + h) − N (t) ≥ 2) = o(h).
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
82
Definición 4.7 (Proceso de Poisson no homogéneo (II)). Decimos que un proceso de
conteo {N (t) : t ≥ 0} es un proceso de Poisson no homogéneo con función de tasa λ(t) ssi
i) N (t) = 0.
ii) El proceso posee incrementos independientes.
iii) Para t > s, N (t) − N (s) se distribuye Poisson con tasa m(s, t), donde
m(s, t) =
Z t
λ(u)du.
s
Ejemplo 4.6 (Pregunta 3, Examen, Primavera 2018)
Pasajeros llegan a un paradero de buses de acuerdo a un proceso de Poisson de tasa λ, mientras
que los buses llegan de acuerdo a un proceso de Poisson de tasa µ. Cada bus tiene capacidad
para llevar C personas, y partirá inmediatamente una vez que esté lleno. La subida de pasajeros
a los buses es instantánea.
1. Suponga que el paradero se encuentra completamente vacío: no hay pasajeros ni buses.
¿Cuál es la probabilidad de que no queden más de n pasajeros en el paradero tras la
salida del siguiente vehículo?
2. Si en el paradero hay C − 1 pasajeros esperando partir, pero no ha llegado ningún bus,
¿cuánto es el tiempo esperado hasta que salga el siguiente bus?
3. Suponga que en t = 0 había C−1 pasajeros esperando partir, pero no había llegado ningún
bus. Posteriormente, llegaron exactamente un pasajero y un bus antes del instante T . En
esperanza, ¿en qué momento el bus abandonó la parada?
4. Considere ahora que la tasa de llegada de pasajeros no es conocida, pero que a priori
se estima que λ ∼ exp(α). Si hay C − 1 pasajeros y un bus en la parada, ¿cuál es la
probabilidad que, a partir de este momento, el bus demore menos de t en salir?
Solución parte 1. Podemos interpretar la cantidad de pasajeros que llegan antes que el siguiente
µ
. De esta manera, la probabilidad
bus como una variable aleatoria geométrica de parámetro p = µ+λ
de que queden más de n pasajeros cuando salga el siguiente bus es (1 − p)C+n+1 =
ya que los primeros C se subirán. Finalmente, la probabilidad buscada es
1−
λ
µ+λ
λ
µ+λ
C+n+1
,
C+n+1
Obs: Alternativamente, podemos definir Pj como la probabilidad de que queden j personas en el
paradero tras la salida del siguiente bus. Si j ≥ 1, Pj es igual a la probabilidad de que lleguen
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
83
exactamente C + j pasajeros antes de la llegada del siguiente bus, es decir
Pj =
λ
µ+λ
C+j
µ
µ+λ
∀j ≥ 1
Por otro lado, P0 corresponde a la probabilidad de que a lo más lleguen C pasajeros antes que el
siguiente bus:
i
C X
λ
µ
P0 =
µ
+
λ
µ
+
λ
i=0
Finalmente, la probabilidad pedida viene dada por
n
X
Pj =
j=0
C X
i=0
=
λ
µ+λ
i
n
X
µ
λ
+
µ + λ j=1 µ + λ
X
λ
µ C+n
µ + λ j=0 µ + λ
=1−
λ
µ+λ
C+j
µ
µ+λ
j
C+n+1
Solución parte 2. En cualquier caso, primero se debe considerar el tiempo que demora en llegar
el siguiente bus, cuya esperanza es µ1 . Una vez que llega el bus, se debe considerar dos escenarios
posibles: si ya había llegado al menos un pasajero, el bus sale inmediatamente. De lo contrario, se
debe esperar un tiempo adicional de media λ1 . Por lo tanto, el tiempo esperado hasta que salga el
siguiente bus es
1
λ
µ
1
1
µ
+
·0+
· = +
µ λ+µ
λ+µ λ
µ λ(λ + µ)
Solución parte 3. Sean tp ∼ U [0, T ] y tb ∼ U [0, T ] los instantes de llegada del pasajero y el bus,
respectivamente. El bus salió en el momento en que ambos se encontraban en el paradero, es decir
máx{tp , tb }. Por lo tanto, el valor buscado es
E{máx{tp , tb }} =
2T
3
Solución parte 4. Sea T el tiempo hasta la llegada del siguiente pasajero, que es cuando saldrá
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Procesos de Poisson
84
el bus.
P(T < t) =
=
=
=
Z ∞
Z0∞
0
Z ∞
Apunte de Cátedra
(1 − e−xt )αe−αx dx
αe−αx dx −
−αx
αe
0
Z ∞
αe−x(t+α) dx
0
Z0∞
=1−
=
P(T < t|λ = x)fλ (x)dx
α
t+α
dx −
α
t+α
Z ∞
0
(t + α)e−x(t+α) dx
t
t+α
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
5.
85
Teoría de Renovación
Un proceso de renovación es un proceso de conteo donde los tiempos entre llegadas {Xi , i ∈ N}
son variables aleatorias no-negativas iid. Tal como en el capítulo anterior, Xi representa el tiempo
transcurrido entre las llegadas i − 1 e i, y Sn representa el instante de la llegada n-esima. Por lo
tanto, tenemos que
S0 = 0,
Sn =
n
X
Xi ,
n ≥ 1.
i=1
Definición 5.1 (Proceso de Renovación). Definimos el proceso de renovación {N (t) : t ≥ 0}
mediante la relación
N (t) := sup {n : Sn ≤ t} .
Los instantes de llegada Sn tambien son conocidos como renovaciones, puedo que el proceso se
resetea (probabilisticamente) en cada uno de estos instantes.
Supondremos que la distribución común de los tiempos entre llegadas es F , y definimos
µ := E {Xn } =
Z ∞
0
x dF (x) ≤ ∞.
Suponiendo que F (0) ≤ 1, se tiene que µ > 0, y por la ley fuerte de los grandes números Sn /n → µ
cuando n → ∞ (en particular, Sn → ∞ cuando n → ∞, y por lo tanto N (t) → ∞ cuando t → ∞).
Proposicion 5.1 (Ley de grandes números para renovación). Con probabilidad 1 se
tiene que
N (t)
1
lı́m
= .
t→∞
t
µ
Dem: Es fácil ver que SN (t) ≤ t < SN (t)+1 , por lo tanto
SN (t)+1
SN (t)+1 N (t) + 1
SN (t)
t
≤
<
=
.
N (t)
N (t)
N (t)
N (t) + 1 N (t)
Dado que N (t) → ∞ cuando t → ∞, tenemos que, por la ley fuerte de los grandes números,
SN (t)
→ µ,
N (t)
y
SN (t)+1
→µ
N (t) + 1
N (t)
1
→ ,
SN (t)
µ
y
N (t) + 1
1
→ ,
SN (t)+1
µ
con probabilidad 1, por lo que
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
86
tambien con probabilidad 1. El resultado se desprende del hecho que (N (t) + 1)/N (t) → 1 cuando
t → ∞.
Ejemplo (Lanzamiento de monedas)
Suponga que usted tiene una caja con una colección infinite de monedas. La probabilidad que
una moneda escogida al azar caiga cara, es independiente de las otras monedas, y distribuye
U [0, 1]. Suponga que usted escoge una moneda al azar y la lanza hasta obtener un sello, tras lo
cual descarta la moneda, escoge otra al azar, y repite el procedimiento. Cual es la proporción
de caras que obtiene en total en el lago plazo?
Solución. Sea Xi el número de lanzamientos que hacemos con la i-esima moneda. Con esto N (n)
es el número de sellos obtenidos durante los n primeros lanzamientos. De acuerdo a la Proposición
5.1, tenemos que la proporción de sellos obtenidos en total en el largo plazo es
N (n)
1
= ,
n→∞
n
µ
lı́m
donde µ = E {Xi }. Ahora, condicional en que la probabilidad que un lanzamiento sea cara es p,
tenemos que Xi |p ∼ Geometrica(p), y por lo tanto
E[Xi |p] =
1
.
1−p
Por otro lado, sabemos que p ∼ U [0, 1], por lo que tenemos que
E[Xi ] =
Z 1
0
E[Xi |p]dp =
Z 1
0
1
dp = − log(1 − p)|10 = ∞.
1−p
Concluimos que
N (n)
= 0,
n→∞
n
es decir, en el largo plazo, la proporción de caras que observamos es 1.
lı́m
Definición 5.2 (función de renovación). Para t ≥ 0 definimos la funcion de renovación
m(t) := E {N (t)} .
Se puede mostrar que m(t) < ∞, para todo t ≥ 0. En particular,se tiene que
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
87
m(t) = E {N (t)}
=
X
P {N (t) ≥ n}
n=1
=
X
P {Sn ≤ t}
n=1
=
X
Fn (t).
n=1
donde Fn () denota la convolución de F sobre si misma n-veces. En lo anterior utilizamos la equivalencia
N (t) ≥ n ⇔ Sn ≤ t.
5.1.
Ecuación de Wald
Definición 5.2 (tiempo de parada). Una variable aleatoria N se dice que es un tiempo de
parada respecto a la secuencia de variables aleatorias {Xn } si el evento {N = n} es independiente de {Xi : i > n}, para todo n.
El siguiente resultado nos dice que el valor esperado de la suma de variables aleatorias iid hasta
un tiempo de parada es igual al valor esperado de las variables aleatorias por el valor esperado del
tiempo de parada.
Proposición 5.2 (Ecuación de Wald). Sea {Xn } una secuencia de variables aleatorias iid.
tales que E {Xn } < ∞, y sea N un tiempo de parada respecto a {Xn } tal que E {N } < ∞,
entonces
(
)
E
N
X
= E {N } E {Xn } .
Xn
n=1
Dem: Para n ∈ N definamos
1
0
(
In :=
si N ≥ n
∼.
Con esto, tenemos que
E
( N
X
)
Xn
= E
(∞
X
n=1
)
Xn In
n=1
=
∞
X
E {Xn In }
n=1
= E {Xn }
∞
X
P {N ≥ n}
n=1
= E {Xn } E {N } .
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
88
Ejemplo (Ross 3.11)
Considere un minero atrapado en cuarto que contiene tres puertas. La primra puerta lo lleva a
la salida despues de 2 horas de viaje; la segunda puerta lo retorna al cuarto despues de 4 horas
de viaje, y la tercera puerta los retorna al cuarto despues de 8 horas de viaje. Suponga que
cada vez que el minero escoge una puerta, lo hace al azar (con igual probabilidad, sin recordar
elecciones pasadas). Sea T el tiempo que demora el minero en llegar a la salida.
a) Defina una secuencia de variables iid {Xn } y un tiempo de parada N tal que
T =
N
X
Xn .
n=1
b) Utilice la ecuacion de Wald para encontrar E {T }.
c) Calcule E
nP
N
n=1 Xn |N
o
= k y comparelo con E
nP
k
n=1 Xn
o
.
d) Utilice c) para encontrar E {T } de una forma alternativa.
Solución.
a) Definimos {Xn } iid tal que
Xi =



2
c.p. 1/3
c.p. 1/3
c.p. 1/3.
4


8
y N = ı́nf {n : Xn = 2}. Notamos que el evento {N = n} = {Xi 6= 2, i < n, xn = 2}, por lo
P
que N es un tiempo de parada. Con esto tenemos que T = N
n=1 Xn .
b) Chequeamos los postulados de la ecuación de Wald. Tenemos que E {Xi } = 14/3 < ∞, y
N ∼ Geometrica(1/3), por lo que E {N } = 11 = 3 < ∞. Esto implica que Wald se cumple,
3
por lo que
E {T } = E {Xi } E {N } =
14
· 3 = 14.
3
c) Tenemos que, condicional en N = k,
4
8
(
Xi =
c.p. 1/2
c.p. 1/2.
i < n.
y Xn = 2. Con esto, tenemos que
E
( N
X
)
Xn |N = k
= (k − 1) · 6 + 2 = 6 · k − 4.
n=1
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
89
Notamos que
E
( k
X
14
· k.
3
)
=
Xn
n=1
d) Calculamos la esperanza de T condicionando en el valor de N . Tenemos que
E {T } = E
(N
X
)
Xi
k=1
∞
X
=
E
(N
X
Xi |N = k
k=1
k=1
∞
X
=
)
(6 · k − 4)
k=1
2 k−1 1
3
3
∞
X
2 k−1 1
= 6
k
k=1
3
2 k−1 1
3
3
3
!
−4
= 6 · 3 − 4 = 18 − 4 = 14.
Proposición 5.3 (Teorema elemental de renovación). Se tiene que
m(t)
1
= .
t→∞
t
µ
lı́m
Dem: Supongamos primero que µ < ∞ y notemos que N (t) + 1 es un tiempo de parada respecto
a la secuencia de tiempos entre llegadas. Para ver esto, notamos que
{N (t) + 1 = n} = {N (t) ≥ n − 1,
N (t) < n} = {Sn > t,
Sn−1 ≤ t} ,
por lo que el evento depende solo de X1 , . . . , Xn . Entonces, aplicando Wald (recuerde que m(t) <
∞), tenemos que
N (t)+1
E[SN (t)+1 ] =
X
Xi = µ (m(t) + 1) .
n=1
Dado que SN (t)+1 > t, vemos que
E[SN (t)+1 ] = µ (m(t) + 1) > t.
Rearreglando los términos y tomando límite, vemos que
lı́m
t→∞
Ahora probaremos que lı́mt→∞
Apunte de Cátedra
m(t)
t
m(t)
1
≥ .
t
µ
≤ µ1 . Para esto, consideremos la siguiente secuencia de tiempos
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
90
entre llegadas modificada {Xn0 }: para un M < ∞ constante, definimos
(
Xn0
=
Xn
M
si Xn ≤ M
∼.
Sea N 0 (t) el proceso de renovación asociado a los tiempos entre llegada {Xn0 }. Tenemos que Xn0 ≤
Xn , para todo n, por lo que N 0 (t) ≥ N (t) para todo t. Por otro lado, tenemos que, definiendo
P
Sn0 = ni=1 Xi0 ,
0
SN
0 (t)+1 ≤ t + M,
por lo que
(m0 (t) + 1)µ0 ≤ t + M,
donde µ0 = E {Xn0 } y m0 (t) = E {N 0 (t)}.
Notando que m0 (t) ≥ m(t), rearreglando los términos de arriba y tomando límites, conclumos que
m(t)
m0 (t)
1
≤ lı́m sup
≤ 0.
t→∞
t
t
µ
t→∞
lı́m
Dado que el lado izquierdo no depende de M , tomamos limite cuando M → ∞, y concluimos que
lı́m
t→∞
1
m(t)
≤ .
t
µ
Una variable aleatoria no-negativa X es lattice si existe un d > 0 tal que ∞
n=0 P {X = nd} = 1. El
período de la variable aleatoria es el máximo d que cumple esta propiedad.
P
Proposición 5.4 (Teorema de Blackwell).
Si Xn no es lattice, entonces cuando a → 0 se tiene que
m(t + a) − m(t) →
a
µ
Si Xn es lattice de período d, se tiene que cuando n → ∞
E[número de renovaciones en nd] →
!
d
.
µ
Importante: Los resultados asintóticos expuestos hasta ahora (Proposiciones 5.1, 5.3 y 5.4)
siguen siendo validos cuando la distribución de X1 es distinta a la del resto de los {Xn : n ≥ 2},
caso en el cual el proceso de renovación toma el nombre de un proceso de renovación retrasado.
El único requisito para esto es que P {X1 = ∞} = 0.
El teorema de Blackwell es equivalente al siguiente resultado que enunciamos sin prueba.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
91
Proposición 5.4b (Teorema Clave de Renovación). Si F no es lattice, y h() es una función
Directamente Riemann Integrable (DRI), entonces
lı́m
Z t
t→∞ 0
h(t − x)dm(x) =
1
E {Xn }
Z t
h(t)dt.
0
Ejemplo
Suponga que usted lanza consecutivamente una moneda que tiene probabilidad p ∈ (0, 1) de
caer cara. Calcule el número esperado de lanzamientos hasta que el patrón ccsccscc aparece
por primera vez, donde c = cara, y s = sello.
n
o
Solución. Sea T P el tiempo esperado hasta que el patrón P aparece por primera vez, y sea XnP
el tiempo entre renovaciones de un proceso de renovación que cuenta renovaciones cada vez que
un lanzamiento completa el patron P (suponga que el proceso comienza con una renovación en el
instante t = 0).
Con esto, tenemos que
E {T ccsccscc } = E {T ccscc } + E {Xnccsccscc } .
Esto se explica puesto que para conseguir el patrón ccsccscc primero se debe conseguir el patrón
ccscc, y condicional en comenzar con el patrón ccscc, el tiempo restante hasta T ccsccscc distribuye
como el tiempo entre renovaciones Xnccsccscc (dado que a partir de una renovación, en el mejor de los
casos, tan solo los últimos 5 lanzamientos pueden utilizarse para construir la siguiente renovación)
Utilizando la misma lógica, concluimos que
E {T ccsccscc } = E {Xnc } + E {Xncc } + E {Xnccscc } + E {Xnccsccscc } .
Por otro lado, siendo la distribución de los XnP lattice con peródo d = 1, sabemos (desde Blackwell)
que
1
lı́m P [renovación en t ] =
t→∞
E {XnP }
Sin embargo, por la independencia de los lanzamientos, tenemos que la probabilidad de largo plazo
de obtener una renovación para, por ejemplo, el patrón P = ccsccscc esta dado por
lı́m P {renovación en t } = P {Zt = c, Zt−1 = c, . . . , Zt−7 = c}
t→∞
= p6 q 2 ,
donde Zt representa el resultado del t-esimo lanzamiento de la moneda, y q := 1 − p. Utilizando
esto, tenemos que
E {T ccsccscc } =
Apunte de Cátedra
1
1
1
1
+
+
+
.
p p2 p4 q p6 q 2
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
5.2.
92
Renovación con Recompensas
Consideremos ahora situaciones donde durante el tiempo Xn entre las renovaciones n − 1 y n se
genera una recompensa aleatoria Rn . Supondremos que la secuencia de pares tiempos-recompensas
{Xn , Rn } son iid. Note que esto considera la posibilidad que Rn y Xn esten correlacionadas (por
ejemplo uno podria tener un proceso tal que Rn = Xn ).
Considerando esto, definimos la recompensa acumulada hasta el instante t,
N (t)
R(t) :=
X
Rn ,
t≥0
n=1
El siguiente resultado extiende las Proposiciones 5.1 y 5.3 al proceso de recompensa R(t).
Proposición 5.5 Si E {Rn } < ∞ y E {Xn } < ∞, entonces
R(t)
E {Rn }
=
,
t→∞ t
E {Xn }
E {R(t)}
E {Rn }
=
.
t→∞
t
E {Xn }
lı́m
lı́m
Dem: Tal como en la prueba de la Proposición 5.1, notamos que N (t) ↑ ∞ cuando t ↑ ∞, por lo
tanto tenemos que
R(t)
lı́m
t→∞ t
=
lı́m
PN (t)
Rn
N (t)
E {Rn }
lı́m
=
,
N (t) t→∞ t
E {Xn }
n=1
t→∞
donde la primera convergencia viene de la Ley Fuerte de los Grandes Numeros, y la segunda del
resultado fuerte para renovación (Proposición 5.1).
Respecto al segundo resultado, notamos que N (t) + 1 es un tiempo de parada respecto a los {Xn },
por lo que podemos aplicar la ecuación de Wald (revisar la prueba de la Proposición 5.3 para una
justificación). Con esto, tenemos que
E

(t)
N
X

n=1
Rn


= E


(t)+1
N X

n=1
Rn


n
− E RN (t)+1
o

n
o
= (m(t) + 1)E {Rn } − E RN (t)+1 ,
por lo tanto tenemos que
lı́m
t→∞
E
nP
N (t)
n=1
t
Rn
o
n
=
E {Rn }
− lı́m
E {Xn } t→∞
E RN (t)+1
t
o
.
Debemos probar entonces que el último término es 0. para esto, condicionaremos en el instante de
llegada de la renovación N (t). Para eso, primero derivamos la densidad del tiempo de llegada de
N (t)
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
93
n
P SN (t) ≤ s
o
=
∞
X
P {Sn ≤ s, Sn+1 > t}
n=0
= F̄ (t) +
= F̄ (t) +
= F̄ (t) +
= F̄ (t) +
= F̄ (t) +
∞
X
P {Sn ≤ s, Sn+1 > t}
n=1
∞ Z s
X
n=1 0
∞ Z s
X
n=1 0
Z s
P {Sn ≤ s, Sn+1 > t|Sn = y} dFn (y)
F̄ (t − y)dFn (y)
F̄ (t − y)
0
∞
X
dFn (y)
n=1
Z s
0
F̄ (t − y) d m(y).
Identificamos la densidad de SN (t) y procedemos a calcular
n
E RN (t)+1
o
n
o
= E RN (t)+1 |SN (t) = 0 F̄ (t) +
= E {R1 |X1 > t} F̄ (t) +
Z t
0
Z t
0
n
o
E RN (t)+1 |SN (t) = s F̄ (t − s) d m(s)
E {Rn |Xn > t − s} F̄ (t − s) d m(s)
Notamos que
|E {R1 |X1 > t} F̄ (t)| = |
Z ∞
t
E {R1 |X1 = s} dF (s)| ≤ |
Z ∞
0
E {R1 |X1 = s} dF (s)| = E {|R1 |} < ∞.
Concluimos que E {R1 |X1 > t} F̄ (t) → 0 a medida que t ↑ ∞. Consideremos ahora > 0, arbitrario,
y tomamos un T lo suficientemente grande para que E {R1 |X1 > t} F̄ (t) < para todo t ≥ T . Con
esto, tenemos que, para t ≥ T ,
n
E RN (t)+1
t
o
E {R1 |X1 > t} F̄ (t) 1 t−T
=
+
E {Rn |Xn > t − s} F̄ (t − s) d m(s)
t
t 0
Z ∞
1
+
E {Rn |Xn > t − s} F̄ (t − s) d m(s)
t t−T
1
m(t − T )
m(t) − m(t − T ) t→∞
≤
E {Rn } + + E {|Rn |}
→
.
t
t
t
E {Xn }
Z
El resultado sigue de notar que es aribitrariamemente pequeño.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
94
Ejemplo
Considere una estacion de buses, donde pasajeros llegan de acuerdo a un proceso de renovación
cuyos tiempos entre renovaciones distribuyen de acuerdo a F . Cada vez que se acumulan N
pasajeros en la estación un bus se acerca y recoge a todos los pasajeros, para llevarlos a sus
destinos. La administración de la estación paga un costo de $c por cada unidad de tiempo que
cada pasajero espera por un bus, e incurre en un costo fijo $K por cada bus que parte de la
estación. Calcule el costo promedio por unidad de tiempo que incurre la estación de buses en
el largo plazo.
Solución. Definimos un proceso de renovación con recompensas, donde una renovación se produce
cada vez que un bus deja la estacion con N pasajeros.
Sea Xn el tiempo entre la llegada de los pasajeros n − 1 y n, y Yn el tiempo entre la salida de los
buses n − 1 y n: tenemos que
d
Yn ∼ X1 + . . . + XN .
La recompensa Rn es tal que
d
Rn ∼ c(X2 + 2 X3 + 3 X4 + . . . + (N − 1)XN ) + K.
Utilizando la Proposicion 5.5, tenemos que
E {R(t)}
t→∞
t
lı́m
=
=
=
=
E {Rn }
E {Yn }
c
E {X2 + 2 X3 + 3 X4 + . . . + (N − 1)XN } + K
E {Yn }
c N (N − 1)
K
+
2N E {Xn }
E {Xn } N
K
c(N − 1)
+
.
2
E {Xn } N
Ejemplo
Para proceso de renovación, encuentre
1
t→∞ t
lı́m
Z t
0
XN (s)+1 ds,
es decir, el promedio temporal de largo plazo de la renovación que contiene al instante t.
n
Solución. Notamos que para todo t ∈ [Sn−1 , Sn ] para algún n tenemos que SSn−1
XN (s)+1 ds = Xn2 .
R
Con esto, definimos un proceso de renovación con recompensa de forma que R(t) = 0t XN (s)+1 ds.
Con esto, tenemos que Rn = Xn2 , y por lo tanto
R
1
lı́m
t→∞ t
Apunte de Cátedra
Z t
0
E Xn2
XN (s)+1 ds =
.
E {Xn }
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
95
Notamos que el resultado es valido cuando E Xn2 < ∞.
5.3.
Proceso de Renovación Alternante.
Consideremos ahora un proceso de renovación tal que, entre las llegadas de las renovaciones n − 1
y n el proceso se encuentra primero en estado prendido, durante un tiempo aleatorio Yn , para
luego pasar a un estado apagado durante un tiempo aleatorio Zn , tal que Xn = Yn + Zn . La unica
condición que impondremos sobre estos tiempos es que la secuencia {(Yn , Zn )} es iid. El siguiente
resultado nos entrega la probabilidad de largo plazo de encontrar el sistema en el estado prendido.
Proposición 5.6 Si E {Zn + Yn } < ∞, entonces
lı́m P {el sistema esta prendido en t} =
t→∞
E {Yn }
.
E {Yn + Zn }
Dem: Condicionamos en el instante de la llegada de la renovacion N (t) (ver prueba de Proposición
5.5). Definimos
P (t) = P {prendido en t} .
Tenemos que
n
o
P (t) = P prendido en t|SN (t)=0 F̄ (t) +
Z t
0
n
o
P prendido en t|SN (t)=s F̄ (t − s)dm(s).
Sea G la distribución de Yn . Tenemos que
Ḡ(t)
F̄ (t)
n
o
= P {Y1 > t|X1 > t} =
n
o
= P {Y1 > t − y|X1 > t − y} =
P prendido en t|SN (t)=0
P prendido en t|SN (t)=y
Ḡ(t − y)
.
F̄ (t − y)
Con esto, tenemos que
P (t) = Ḡ(t) +
Z t
Ḡ(t − s)dm(s).
0
Es facil chequar que Ḡ al ser el complemento de una funciónde distribución, es DRI, por lo que el
teorema clave de renovación implica que
lı́m P (t) =
t→∞
Apunte de Cátedra
1
E {Xn }
Z ∞
0
Ḡ(x)dx =
E {Yn }
.
E {Xn }
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
96
Ejemplo
Para que un sistema funcione se requiere que al menos una de sus k partes se encuentre
funcionando. La parte i del sistema funciona durante un tiempo distribuido exponencial de
parámetro λi , momento en el que presenta una falla y deja de funcionar. El tiempo que demora
en ser reparada la parte i se distribuye exponencial con parámetro µi , tras lo cual comienza a
funcionar, y el ciclo se repite.
Usted nota que el sistema acaba de volver a funcionar. Calcule la esperanza del tiempo que el
sistema continuará funcionando antes de fallar.
Solución. Definimos un proceso de renovación alternante, donde una renovación occure cada vez
que el sistema falla (note que en ese instante, el proceso se resetea probabilisticamente, debido a la
perdida de memoria de la exponencial).
Decimos que el sistema está on mientras no se encuentra funcionando, y asignamos la variable
Yn al tiempo entre las renovaciones n − 1 y n durante el cual el sistema está on. Notamos que
Yn ∼ mı́n {ti : i = 1, . . . , k}
donde ti ∼ exp(µi ). Esto se debe a que el sistema vuelve a funcionar cuando se completa
el menor entre los tiempos de reparación. Sabemos que el mínimo entre variables aleatorias
independientes distribuidas exponenciales distribuye exponencial con parámetro igual a la
suma de las tasas de las exponenciales individuales, por lo tanto, tenemos que
E {Yn } =
k
X
!−1
µi
.
i=1
Defimos que el sistema está off mientras se encuentra funcionando, y asignamos la variable
Zn al tiempo entre las renovaciones n − 1 y n durante el cual el sistema está off. Notamos
que el enunciado nos pide calcular E {Zn }.
Sea p(t) la probabilidad que el sistema se encuentre on (no funcionando) en el instante t. Utilizando
la Proposición 5.6, tenemos que
−1
k
.
i=1 µi
.
P
−1
k
µ
+
E
{Z
}
n
i=1 i
P
lı́m p(t) =
t→∞
Esto implica que
E {Zn } =
k
X
i=1
Apunte de Cátedra
!−1 µi
1
lı́mt→∞ p(t)
−1 .
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
97
Por otro lado, tenemos que
lı́m p(t) =
t→∞
=
=
lı́m P {parte i no funcionando en t, i = 1, . . . , k}
t→∞
k
Y
lı́m P {parte i no funcionando en t}
i=1
k
Y
t→∞
µ−1
i
−1
−1 ,
i=1 µi + λi
donde en la primera igualdad arriba utilizamos la independencia de los procesos asociados a cada
parte, y en la segunda desigualdad usamos la Proposición 5.6, pero esta vez aplicada al proceso
alternante asociado a cada parte del sistema de forma individual.
Concluimos que
E {Zn } =
k
X
i=1
Apunte de Cátedra
!−1
µi


Q

1
µ−1
k
i
i=1 µ−1 +λ−1
i
i
− 1 .

IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
98
Ejemplo Control 2, Primavera 2021
Pasajeros llegan a un paradero de acuerdo a un Proceso de Poisson de tasa λ [pasajeros/hora].
En paralelo, de forma independiente, buses llegan al paradero de acuerdo a un proceso de
renovación con distribución de tiempo entre llegadas F . Una vez en el paradero, un bus recoge
a todos los pasajeros esperando y parte de inmediato. Sea R(t) el número de pasajeros esperando
en el paradero en el instante t.
a) Encuentre el número esperado de clientes que se suben al primer bus.
Indicación: Calcule primero cuando el bus llega en tiempo X = x, y concluya recordando
que
Z
E[g(X)] =
∞
0
g(x)dF (x).
b) Calcule cuanto espera en promedio (valor esperado) un pasajero en subir al bus.
c) Suponga que exactamente N (t) = n pasajeros llegaron al paradero antes de la llegada
del primer bus, la que se produjo en X = x. Calcule la esperanza del promedio temporal
de pasajeros esperando el bus entre t = 0 y la llegada del primer bus, esto es
Z X
E[
0
R(t) dt | N (X) = n ∧ X = x].
Indicación: Denotando Sk el tiempo de llegada del k-ésimo pasajero, justifique que
Z X
0
N (X)
R(t)dt =
X
X − Sk
k=1
d) Calcule la esperanza del promedio temporal de pasajeros esperando el bus entre t = 0 y
la llegada del primer bus. Más formalmente, calcule
Z X
R(t) dt].
E[
0
e) Calcule lı́mt→∞
1 Rt
t 0 R(s) ds.
f) Definimos Pj (t) = P (j o menos pasajeros esperando un bus en el instante t), para j ≥ 0.
Calcule
lı́m Pj (t)
t→∞
k
(Hint: puede utilizar el hecho que E(U(k) ) = n+1
, donde {U(k);k=1,...,n } son los estadísticos
de orden de n variables aleatorias independientes U [0, t])
Solución.
a) Sea N el número de pasajeros que se suben al primer bus, y X el tiempo de llegada del primer
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
99
bus. Tenemos que
E[N ] =
Z ∞
0
E[N |X = x]F (dx) =
Z ∞
0
λx F (dx) = λE[X].
b) Condicional en que los buses demoran X = x en pasar, cada uno de los pasajeros que sube al
bus, independiente de su orden de llegada, espera en valor esperado x/2 por el bus. Descondicionando, los pasajeros en promedio esperan E[X]/2.
c) Notemos que
Z X
E[
0
R(t) dt | N (X1 ) = n ∧ X = x] = E[
= E[
= E[
= E[
n
X
(t − Sk )| N (X) = n ∧ X = x]
k=1
n
X
(x − U(k) )]
k=1
n
X
(x − Uk )]
k=1
n
X
Uk ]
k=1
= n
x
2
d) Tomamos la expresión de la parte b) y descondicionamos. Esto es
Z X
E[
0
R(t) dt] =
=
=
Z ∞X
∞
0
0
E
0
n=1
Z ∞X
∞
Z ∞
"Z
X
n
n=1
x2
λ
2
2
E[X ]
= λ
2
0
#
R(t) dt | N (X) = n ∧ X = x
(λx)n −λ x
e
F (dx)
n!
x (λx)n −λ x
e
F (dx)
2 n!
F (dx)
e) Vemos esto como un proceso de renovación con recompensas donde E[Rn ] = λE[X 2 ]/2. Por
lo tanto, concluimos que
Z
1 t
E[X 2 ]
lı́m
R(s) ds = λ
.
t→∞ t 0
2E[X]
f) Definimos un proceso de renovación alternante, donde el período on consiste en todos los
momentos donde hay j o menos pasajeros esperando en el paradero. Sea Y el largo del
periodo on. Tenemos que
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
100
E[Y ] =
=
=
=
=
Z x
0
E[Y |X = x]F (dx)
Z xX
∞
0 k=0
E[Y |X = x, N (x) = k]
Z xX
∞
mı́n{j + 1, k + 1}
k+1
0 k=0
Z x X
1 ∞
0
λ k=1
Z x
1
0
λ
mı́n{j + 1, k}
x
(λx)k −λx
e
F (dx)
k!
(λx)k −λx
e
F (dx)
k!
(λx)k −λx
e
F (dx)
k!
E[mı́n{j + 1, N (x)}]F (dx)
Utilizando el resultado conocido para procesos de renovación alternantes, concluimos que
lı́m Pj (t) =
t→∞
1
E[X]
Z x
1
0
λ
E[mı́n{j + 1, N (x)}]F (dx)
Ejemplo Examen Primavera 2021
Pasajeros con dirección al poniente llegan a una estación de metro acuerdo a un Proceso de
Poisson de tasa λ [pasajeros/hora]. En paralelo, de forma independiente, trenes con dirección
al poniente llegan a la estación de acuerdo al siguiente proceso: una vez en la estación, las
puertas de los carros permanecen abiertas durante un tiempo aleatorio distribuido de acuerdo
a F ; una vez se cierran las puertas, el tiempo hasta la llegada del siguiente tren es aleatorio y
distribuido de acuerdo a G. Los pasajeros que llegan y encuentran un tren en el andén, abordan
instantáneamente; los pasajeros que no encuentran un tren en el andén, esperan la llegada del
siguiente tren, tras lo cual suben de forma instantánea.
a) (3.0 pts.) Entregue una expresión para la fracción del tiempo que en el largo plazo que
hay 0 pasajeros en el andén esperando subir a un tren.
b) (3.0 pts.) Entregue una expresión para la fracción del tiempo que en el largo plazo que
hay k pasajeros en el andén esperando subir a un tren, k > 0.
a) Utilizamos un proceso de renovación alternante, donde los instantes de renovación están dados
por cada vez que llega un tren al anden (gracias a la pérdida de memoria de la exponencial),
y decimos que el proceso esta en on cuando no hay gente en el anden.
Consideremos X ∼ F y Y ∼ G, y sea Pk la fracción de largo plazo en la que hay k pasajeros
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Teoría de Renovación
101
en el anden. Tenemos que
P0 =
=
=
=
=
=
E[X] + E[mı́n{S1 , Y }]
E[X] + E[Y ]
Z ∞Z ∞
E[X]
1
mı́n{s, t}e−λt F (ds)
λ
+
E[X] + E[Y ] E[X] + E[Y ]
0
0
Z ∞ Z s
E[X]
1
−λt
−λs
te
+ se
F (ds)
λ
+
E[X] + E[Y ] E[X] + E[Y ] 0
0
Z ∞ Z s
E[X]
1
e−λt F (ds)
+
E[X] + E[Y ] E[X] + E[Y ] 0
0
Z ∞ Z s
E[X]
1
−λt
e F (ds)
+
E[X] + E[Y ] E[X] + E[Y ] 0
0
E[X]
λ−1
+
(1 − Lf (λ))
E[X] + E[Y ] E[X] + E[Y ]
donde supusimos que F admite una densidad f .
b) Utilizando la notación definida en la parte anterior, tenemos que para k > 0
Pk =
E[mı́n{Sk+1 , Y } − mı́n{Sk , Y }]
E[X] + E[Y ]
Sea N el numerador arriba. Tenemos que, condicionando primero sobre Y y luego sobre el
número de pasajeros que llegan mientras no hay un tren en el anden,
N
=
=
Z ∞
0
Z ∞
0
= λ−1
Apunte de Cátedra


∞
X
(λt)k −λt
(λt)n −λt 
(t − Sk )
e
+
E[Sk+1 − Sk |N (t) = n]
e
F (dt)
k!
n!
n=k+1


∞
X
t (λt)k −λt
t (λt)n −λt 

e
+
e
F (dt)
k + 1 k!
n + 1 n!
n=k+1
Z ∞
0
P(N (t) > k)F (dt).
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
6.
102
Cadenas de Markov en Tiempo Continuo
Decimos que un proceso estocástico {X(t) : t ∈ T } es un proceso en tiempo continuo si T = R+ ,
caso en el cual nos referimos a X(t) como el estado del proceso en el instante t. Al igual que en
el caso discreto, nos enfocaremos en cadenas con un conjunto contable de estados, por lo que sin
pérdida de generalidad nos referimos a los estados como números naturales. De esta forma, tenemos
que
X(t) ∈ N ∀ t > 0.
Diremos que un proceso estocástico es cadena de Markov en tiempo continuo si, y solo si
cumple con la condición de Markov, extendida a tiempo continuo.
Condición de Markov (extendida). Decimos que un proceso estocástico {X(t) : t ≥ 0}
cumple con la condición de Markov ssi
P {X(tn ) = in | X(tk ) = ik , k < n} = P(X(tn ) = in | X(tn−1 ) = in−1 ),
para cualquier n ∈ N y conjuntos {tk : k ≤ n} y {ik : k ≤ n} tales que tk ∈ R, ik ∈ N, k ≤ n, y
0 < t1 < . . . < tn .
Tal como en el caso discreto, nos concentraremos en procesos homogéneos en el tiempo: esto es,
asumiremos que
P (X(s + t) = j| X(s) = i) = P (X(t) = j| X(0) = i) .
Sea τi,n el tiempo de permanencia del proceso en el estado i en la n-ésima visita al estado. Dado que
el proceso es homogéneo en el tiempo, tenemos que {τi,n : n ∈ N} forma una secuencia de variables
aleatorias i.i.d. Para simplificar la notación, definimos τi como el tiempo de permanencia en el estado i en una visita cualquiera. Tenemos que la condición de Markov determina la distribución de τi .
Proposición 5.1 Para todo i ∈ N , τi se distribuye exp(·), y por lo tanto posee pérdida de
memoria, es decir, para s, t ∈ R, con s < t, se tiene que
P (τi > t|τi > s) = P (τi > t − s) .
Dem: Mostraremos que τi posee pérdida de memoria, y concluimos que se distribuye exp(·) debido
a que esta distribución es la única con soporte R+ con dicha propiedad. Para t, s > 0 con s < t
tenemos que
P(τi > t| τi > s) = P(X(u) = i, u ∈ [0, t]| X(u) = i, u ∈ [0, s])
= P(X(u) = i, u ∈ [s, t]| X(s) = i)
= P(X(u) = i, u ∈ [0, t − s]| X(0) = i)
(propiedad de Markov)
(homogeneidad)
= P(τi > t − s).
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
6.1.
103
Caracterización
Para caracterizar una cadena de Markov en tiempo continuo necesitamos tres elementos
Distribución de los tiempos de estadía: para i ∈ N, denotamos νi la tasa a la cual la cadena
deja el estado i una vez que se encuentra en el, i.e. τi ∼ exp(νi ).
Distribución de transición entre estados: denotamos por Pij a la probabilidad de llegar al
estado j una vez que se abandona el estado i. Denotamos P = [Pi,j ] como la matriz de
transición.
Distribución inicial: tal como en el caso discreto, denotamos por π0 como la distribución del
estado inicial del sistema en t = 0.
Representación gráfica. Cuando sea posible, representaremos una cadena de Markov mediante un grafo. En dicho grafo, los nodos corresponden a los estados posibles y los arcos
corresponden a los pares (ordenados) de estados (i, j) tales que Pi,j > 0. A diferencia del caso
discreto, en la cadena escribiremos sobre el arco (i, j) la tasa qi,j asociada a la transición, donde
qi,j = νi Pi,j .
!
Importante: La matriz de transición P y π0 definen una cadena de Markov en tiempo discreto
subyacente. Esta cadena es tal que Pi,i = 0 para todo i (en el caso contrario, una transición
desde un estado a sí mismo causa que los tiempos de estadía no se distribuyan exponencial).
Ejemplo 5.1 (caracterización vía {νi : i ∈ N} y P )
Una máquina funciona durante un tiempo exponencial de tasa λ hasta agotar su combustible.
Al agotarse, con probabilidad p simplemente se apaga y debe ser rellenada, lo que toma un
tiempo exponencial de tasa µ; con probabilidad (1 − p), el agotamiento del combustible genera
un desperfecto que requiere reparación, lo cual demora un tiempo exponencial de tasa γ, tras
lo cual debe ser reabastecida de combustible para funcionar.
La representación gráfica de la cadena es la siguiente (denotamos por F , C y R los estados, que
representan que la máquina está funcionando, en recarga de combustible y en reparación, respectivamente).
pλ
F
C
µ
γ
(1 − p)λ
R
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
104
Las tasas de transición estan dadas por la multiplicación de las tasas de estadía por la probabilidad
de transición. Nuestra caracterización está dada entonces por νF = λ, νC = µ, νR = γ y pF C =
p, pF R = (1 − p), pCF = 1, pRC = 1 (el resto de las transiciones tienen probabilidad nula).
6.2.
Interpretación alternativa.
Una interpretación alternativa al modelo de cadena de Markov es la siguiente: supongamos que
cuando el sistema está en el estado i, existen varios eventos que gatillan la salida hacia otro estado;
estos eventos están indexados por j ∈ N, con j 6= i; el tiempo τi,j hasta que se produce una salida
hacia el estado j se distribuye exp(qi,j ) y es independiente de todos los otros tiempos. Con esto,
tenemos que una salida desde el estado i se produce cuando ocurre el primero de estos eventos, es
decir
τi = mı́n {τi,j : j 6= i, qi,j > 0} .
Recordamos un par de propiedades de la distribución exponencial.
Lema 5.1 (Carrera de Exponenciales) Sean X1 ∼ exp(λ1 ) y X2 ∼ exp(λ2 ) tales que
1
X1 ⊥ X2 . Entonces, se tiene que mı́n {X1 , X2 } ∼ exp(λ1 + λ2 ), y P (X1 ≤ X2 ) = λ1λ+λ
.
2
Dem: Notamos que mı́n x, y > z ⇐⇒ x > z , y > z. Entonces, tenemos que
P (mı́n {X1 , X2 } ≤ x) = 1 − P (X1 > x, X2 > x)
= 1 − P (X1 > x) P (X2 > x)
= 1 − e−λ1 x e−λ2 x = 1 − e−(λ1 +λ2 )x .
Concluimos que el mínimo de dos exponenciales independientes se distribuye exponencial con la
suma de las tasas. Por otro lado, tenemos que
P (X1 ≤ X2 ) =
=
=
Z ∞
Z0∞
P (X1 ≤ X2 |X1 = x) λ1 e−λ1 x dx
e−λ1 x λ1 e−λ2 x dx
0
λ1
λ1 + λ2
Z ∞
0
e−λ1 x (λ1 + λ2 )e−λ2 x dx =
λ1
.
λ1 + λ2
Usando inducción matemática, vemos que los resultados arriba se extienden a cualquier número
finito de exponenciales independientes. Con esto entonces, tenemos que el tiempo de estadía bajo
esta interpretación alternativa es tal que


X
τi = mı́n {τi,j : j =
6 i, qi,j > 0} ∼ exp qi,j .
j6=i
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
105
Notamos que j6=i qi,j = νi j6=i Pi,j = νi , recuperando la tasa de estadía en el estado i de la
0 de transicionar desde
caracterización original. De la misma forma, tenemos que la probabilidad Pi,j
i a j en esta nueva interpretación está dada por
P
P
qi,j
νi Pi,j
νi Pi,j
= Pi,j .
=P
=
q
ν
P
νi
k6=i i,k
k6=i i i,k
0
Pi,j
=P
Con esto, recuperamos la caracterización original del proceso a partir de la interpretación alternativa, que se caracteriza via las tasas {qi,j }.
Ejemplo 5.2 (Caracterización vía {qi,j : i, j ∈ N})
Una máquina funciona durante un tiempo exponencial de tasa λp hasta agotar su combustible.
Al agotarse, el combustible debe ser rellenado, lo que toma un tiempo exponencial de tasa µ.
Adicionalmente, mientras funciona, la máquina puede sufrir un desperfecto, el que requiere reparación. El tiempo que puede funcionar una máquina hasta una falla se distribuye exponencial
de tasa λ(1 − p), y el tiempo de reparación se distribuye exponencial de tasa γ. Finalmente,
considere que durante la reparación la máquina pierde todo el combustible, por lo que debe ser
rellenado para funcionar.
Notamos que la cadena es exactamente la misma, solamente que ahora las transiciones están explícitamente gatilladas por eventos asociados a una transición en particular. Sabemos que la representación gráfica es la misma, dado que las tasas de transición son las mismas. Lo único que ha
cambiado en los dos ejemplos de arriba, es la interpretación del origen de las transiciones (exponenciales compitiendo vs. lanzamiento de monedas).
!
Importante: En general, nos enfrentaremos a problemas en contextos que mezclan las dos
caracterizaciones; algunas transiciones se gatillan por carreras de exponenciales y otras por
algún tiempo exponencial, sumado al lanzamiento de una moneda.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
106
Ejemplo 5.3 (Control 4, Primavera 2018)
Considere el proceso de desarrollo de una tarea en el curso. En cada instante, cada estudiante
desarrolla la tarea de acuerdo a una idea, la cual puede ser buena o mala. Los estudiantes desarrollan la tarea siguiendo la última idea que se les ha ocurrido o a la que han sido expuestos.
En este sentido, las ideas llegan a la mente de cada estudiante de acuerdo a un proceso de
Poisson de tasa λ y con probabilidad p una idea es buena.
Adicionalmente, cada estudiante comparte la idea con la que está trabajando (independientemente de si es buena o mala) con un estudiante en su red de colaboración a intervalos de
tiempo aleatorios, según una distribución exponencial de tasa µ. Para esto, considere un grafo
no dirigido G(N, A) donde el conjunto de nodos N representa a los estudiantes del curso y el
conjunto de arcos A a las relaciones de colaboración en la evaluación: el estudiante i expone
su idea al compañero j, cuando {i, j} ∈ A, a intervalos de tiempo aleatorios con distribución
exponencial, independientes de su colaboración con otros compañeros y de las ideas que le
comparta el compañero j.
Suponga que, inicialmente, todos los estudiantes parten con una idea en su mente (ya sea buena
o mala).
1. Modele como cadena de Markov para el caso general de un grafo G(N, A).
2. Suponga ahora que el grafo G(N, A) es completo (es decir {i, j} ∈ A para todo par {i, j}
con i 6= j). Modele la situación como un proceso de nacimiento y muerte.
Solución parte 1. Consideramos como estados el subconjunto de alumnos trabajando en una idea
buena. Por lo tanto existen 2n estados, donde n = |N |. Considere un estado S ⊆ N . Las posibles
transiciones son a cualquier estado S 0 tal que ||S|−|S 0 || = 1. Supongamos que S 0 = S ∪{i}, entonces
qS,S 0 = λ p + µ |(j, i) ∈ A : j ∈ S|.
Supongamos ahora que S 0 = S \ {i}, entonces
qS,S 0 = λ (1 − p) + µ |(j, i) ∈ A : j ∈ N \ S|.
Solución parte 2. Ahora solo nos interesa saber el número total de alumnos trabajando con ideas
buenas. Efectivamente ahora tenemos que el proceso es de nacimiento y muerte, con tasas
λi = (n − i) p λ + i (n − i)µ,
µi = i(1 − p)λ + (n − i) i µ,
donde n = |N |.
6.3.
Probabilidades estacionarias
Ahora estudiaremos el comportamiento de largo plazo de una cadena de Markov. Para un par de
estados i, j ∈ N, y t ≥ 0, definimos
Pij (t) := P(X(t + s) = j| X(s) = i).
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
107
(Notamos que esta definición es independiente de s por la homogeneidad del proceso).
Nos gustaría analizar πj := lı́m Pij (t), esperamos que el límite sea independiente de i, como el caso
t→∞
de tiempo discreto. Para ello, necesitamos el siguiente resultado.
Lema 5.2 (Resultados limites - (S. Ross) Lemas 5.4.1 y. 5.4.2)
(1) lı́m
t→0
1 − Pii (t)
Pij
= νi ; lı́m
= qij , i 6= j
t→0 t
t
(2) Pij (t + s) =
P
Pik (t)Pkj (s)
k∈E
Dem: Condicionando en si el proceso sale del estado i entre s y s + t, tenemos que
Pii (t) = P (X(u) = i, u ∈ [0, t]) + P (X(t) = i, x(u) 6= i para algún u ∈ (0, s))
= 1 − νi t + o(t) + o(t),
donde la última igualdad viene de notar que
e−νi t = 1 − νi t + o(h),
(recuerda DI de P. de Poisson) y que si el proceso sale del estado i, luego tiene que volver, por lo
que tenemos que (condicionando el estado visitado al salir de i)
0 ≤ P (X(t) = i, x(u) 6= i para algún u ∈ (0, s)) ≤
X
νi t · νk t + o(t) = o(t).
k6=i
La primera parte de 1) resulta de dividir la expresión de arriba por t y tomar límite. Para probar
la segunda parte de 1), procedemos de forma similar, obteniendo que
Pij (t) = P (X(u) = i, u ∈ [0, h], X(u) = j, u ∈ [h, t]) + o(t)
= qi,j t + o(t),
donde la primera igualdad viene de notar que cualquier camino de i a j que no involucre una y solo
una trancisión directa entre i y j implica la realización de dos variables exponenciales (o más) en
un intervalo de tiempo t, lo que es o(t), y la segunda igualdad sigue de notar que
P (τi ≤ t) = 1 − e−qi,j t = qi,j t + o(t).
La demostración de 2) sigue de aplicar probabilidades totales (condicionando en el estado del
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
108
proceso en el instante s) y la propiedad de Markov. Esto es,
Pij (t + s) =
X
P(X(t + s) = j|X(t) = k , X(0) = i)P(X(t) = k|X(0) = i)
k∈N
=
X
P(X(s) = j|X(0) = k)P(X(t) = k|X(0) = i)
k∈N
=
X
Pi,k (t)Pk,j (s).
k∈N
Primera derivación. Aplicaremos los resultados anteriores para obtener una ecuación diferencial
para {Pi,j (t) : i, j ∈ E}. En particular, formaremos la diferencia entre Pi,j (t + h) y Pi,j (t), dividiremos por h, y tomaremos el límite cuando h → 0. Esto es,
Pij (t + h) − Pij (t) =
X
Pik (t)Pkj (h) − Pij (t)(1 − Pjj (h)).
k6=j
Con esto, dividiendo por h y tomando límite, tenemos que
Pij (t + h) − Pij (t)
h→0
h
Pij0 (t) = lı́m
=
X
Pik (t) lı́m
h→0
k6=j
=
X
Pkj (h)
1 − Pjj (h)
− Pij (t) lı́m
h→0
h
h
Pik (t)qkj − Pij νj .
k6=j
!
Importante: En la derivación de arriba intercambiamos la sumatoria y el limite sin justificación. Para una justificación formal, recomendamos ver la prueba del Teorema 5.4.3 en S.
Ross.
Supongamos que πj = lı́m Pij (t) existe y es independiente de i: entonces, lı́m Pij0 (t) = 0 (si la
t→∞
t→∞
función Pij (·) tiende a una constante, su derivada tiende a 0). Suponiendo que podemos intercambiar
la sumatoria y el límite en el lado derecho de (1), tenemos que la ecuación se convierte en
0=
X
πk qkj − πj νj ,
i ∈ N.
k6=j
Podemos escribir el sistema lineal de arriba en una forma más concisa definiendo Q = [qij ], con
qi,j = νi Pi,j ,
i, j ∈ N, i 6= j;
qi,i = −νi ,
i ∈ N.
Con esto, tenemos el siguiente resultado.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
109
Probabilidades estacionarias. El vector de probabilidades estacionarias π es la única solución al sistema lineal
X
0 = π Q,
πi = 1, π ≥ 0.
i∈N
Ejemplo 5.4 (Calculo probabilidades estacionarias)
Retomando el ejemplo 5.2, el sistema 0 = πQ,
P
i πi
= 1,π ≥ 0 toma la forma
πF λ = πC µ + πR · 0
πC µ = πF λp + πR γ
πR γ = πF λ(1 − p) + πC · 0
1 = πF + πR + πC .
Interpretación. El sistema 0 = π Q se puede interpretar como una ecuación de balance de
flujos en el largo plazo. Para esto, consideremos la tasa en el largo plazo de transiciones desde
el estado i; esta es
tasa de salida a i (largo plazo) = πi νi .
Esto dado que, si estuviésemos todo el tiempo en el estado i, la tasa de salida el estado sería νi ,
por definición. En la práctica, solo se está una fracción πi del tiempo en aquel estado. Ahora,
consideremos la tasas en el largo plazo de transiciones hacia el estado i; esta es
tasa de entrada a i (largo plazo) =
X
πk qk,i .
k6=i
Esto dado que, si estuviésemos todo el tiempo en el estado k 6= i, la tasa de entrada al estado i
sería qk,i . En la práctica, solo se está una fracción πk en el estado k. Concluimos viendo que la
tasa de entrada al estado i viene de sumar las contribuciones desde todo los estados distintos
a i. Entonces, el sistema 0 = π Q se puede intepretar como
tasa de salida a i (largo plazo) = tasa de entrada a i (largo plazo).
Segunda derivación: Miremos el proceso {X(t) : t ≥ 0} como un proceso semi-Markov con tiempos de estadía distribuidos exponenciales. Sea π D el vector de probabilidades estacionarias asociados
a la cadena en tiempo discreto subyacente a {X(t) : t ≥ 0}, i.e. aquella definida por la matriz de
transición P = [Pi,j ] (supondremos que la cadena subyacente admite probabilidades estacionarias).
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
110
Ejemplo 5.5 (Cadena de tiempo discreto subyacente)
Consideremos el ejemplo 5.2. La cadena de Markov en tiempo continuo se muestra a la izquierda
más abajo, mientras que la cadena de Markov en tiempo discreto subyacente se muestra a la
derecha.
λp
p
C
F
C
F
µ
→
γ
λ(1 − p)
1−p
R
1
1
R
Se vió en la sección de procesos semi-Markov la relación entre π y π D , aplicada a estadías exponenciales, está dada por
πD
πi ∝ i .
(1)
νi
(La notación ∝ denota proporcionalidad). Adicionalmente, tenemos que π D es la única solución al
sistema
X
X
πiD = 1, π D ≥ 0,
πjD Pji , i ∈ N,
πiD =
i
j
donde π D denota un vector fila. Reemplazando (1) en el sistema de arriba, tenemos que π es tal
que
νi πi =
X
πj νj Pji ,
i ∈ N,
X
πi = 1,
π ≥ 0.
i
j
Reconociendo el término νj Pj,i = qj,i tenemos que el sistema es equivalente a
0 = π Q,
X
πi = 1,
π ≥ 0.
i∈N
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
111
Ejemplo 5.6 (Pregunta 2, Examen, Otoño 2018)
Considere una enfermedad que afecta el funcionamiento de cada uno de K organos del cuerpo.
Para alguien que sufre esta enfermedad, el tiempo que el organo k funciona correctamente se
puede modelar como una variable aleatoria de distribución exponencial de tasa µk : una vez
que el organo falla, bajo el tratamiento i, el organo demora un tiempo aleatorio de distribución
exponencial de tasa λk,i en volver a funcionar correctamente. Se dice que un tratamiento
es exitoso si mantiene, en el largo plazo, por lo menos la mitad de los organos funcionando
simultaneamente por lo menos la mitad del tiempo.
Suponiendo que µk = µ, k = 1, · · · , K y λk,i = λi , i = 1, 2, responda:
1. Modele el número de organos funcionando cuando se utiliza el tratamiento i como una
cadena de Markov en tiempo continuo, i = 1, 2.
2. ¿Bajo que condiciones el tratamiento i es exitoso, i = 1, 2?
(Hint: calcule la proporción del tiempo que hay al menos la mitad de los organos funcionando)
3. Suponiendo adicionalmente que en un inicio todos los organos de un paciente se encuentran funcionando, calcule el valor esperado del tiempo hasta que todos los organos han
fallado por lo menos una vez.
(Hint: dado que n organos ya han fallado alguna vez, ¿cómo se distribuye el tiempo hasta
que un nuevo organo falla por primera vez?)
4. Para K = 3, bajo que condiciones el tratamiento i es exitoso en el caso general µk 6= µl ,
l 6= k.
(Hint: primero, modele el conjunto de organos funcionando como una cadena de markov)
Solución parte 1. Estados S = 0, . . . , K el número de organos funcionando. Este es un proceso
de nacimiento y muerte tal que
qk,k+1 = (K − k)λi
qk,k−1 = kµ.
Solución parte 2. De la parte anterior tenemos que las probabilidades estacionarias siempre
existen y son:
!
πi =
K i
ρ π0
i
donde ρ = λ/µ y
π0 =
K
X
k=0
El tratamiento es exitoso cuando
i = 0, . . . , K
! !−1
K i
ρ
i
K
X
= (1 + ρ)−K .
πi ≥ 1/2.
i=dK/2e
Solución parte 3. El tiempo hasta la primera falla se distribuye como el mínimo de K variables
aleatorias exponenciales de tasa µ. Desde la primera falla, el tiempo hasta que un segundo organo
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
112
falla por primera vez es el mínimo de K − 1 exponenciales. Cuento corto, cuando ya han fallado n
órganos alguna vez, el tiempo hasta que algún otro órgano falla pro pimera vez se distribuye como
el mínimo de K − n exponenciales. Concluimos que la esperanza buscada es
E=
K
X
1
k=1
µk
.
Solución parte 4. Ahora el estado es Sk , el conjunto de organos que funcionan.
qSk ,Sk ∪i = λi ,
qSk ,Sk \{i} = µi ,
Sk ⊂ {1, . . . , K}, i ∈ Skc ,
Sk ⊆ {1, . . . , K}, Sk 6= ∅, i ∈ Sk .
Una vez definida la cadena, podemos plantear el sistema para calculo de probs estacionarias:
(
X
µk +
i∈Sk
X
λi )πSk
i∈Skc
X
=
X
λi πSk \{i} +
µi πSk ∪{i} ,
Sk ⊆ {1, . . . , K}
i∈Skc
i∈Sk
πSk
X
= 1.
Sk ⊆{1,...,K}
La condicion de éxito sigue siendo la misma:
X
πSk ≥ 1/2.
Sk ⊆{1,...,K}:|Sk |≥K/2
Ejemplo 5.7 (Pregunta 4, Examen Recuperativo, Primavera 2018).
Boris trabaja envolviendo regalos en una tienda en una estación de buses, donde observa que
pasajeros llegan de acuedo a un proceso de Poisson de tasa λ. Cada vez que llega un pasajero,
el chofer del siguiente bus por salir (siempre hay un bus listo para salir) decide partir con los
pasajeros actualmente en el bus (incluyendo al que acaba de llegar) con probabilidad p.
1. Suponiendo que los buses tienen capacidad infinita, modele el número de pasajeros esperando salir como una cadena de Markov en tiempo continuo.
Boris ahora decide concentrarse en su trabajo. Cuando está desocupado, conjuntos de paquetes
llegan para ser envueltos de acuerdo a un proceso de Poisson de tasa λ0 = λ(1 − p). El número
de paquetes incluidos en cada conjunto es una variable aleatoria X cuya distribución es tal que
P [X = i] = (1 − p)i−1 p,
i ≥ 1.
Boris demora un tiempo exponencial de media λ en envolver un paquete. Una vez envuelto un
paquete, este es retirado inmediatamente de la tienda por un cliente.
2. Modele el número de paquetes esperando ser envueltos como una cadena de Markov en
tiempo continuo.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
113
Solución parte 1. Los estados son los enteros positivos, incluyendo el cero, que representan el
número de personas esperando partir. La matriz Q que define el proceso es
qi,j =


λ (1 − p)

λp


0
j =i+1
j = 0, i > 0
∼.
Solución parte 2. Los estados son los enteros positivos, incluyendo el cero, que representan el
número de paquestes esperando ser envueltos. La matriz Q∗ que define el proceso es
∗
qi,j
=



λ
λ (1 −


0
Apunte de Cátedra
p)j p
j = i − 1, i > 0
i = 0, j > 0
∼.
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
114
Ejemplo 5.8 (Pregunta 2, Control 2, Primavera 2019)
Considere un comerciante que vende almuerzos en la entrada de Beauchef 850. El comerciante
ofrece I opciones de almuerzo. Los clientes llegan al puesto del comerciante de acuerdo a un
proceso de Poisson de tasa λ [clientes/min.]. El comerciante atiende a los clientes de acuerdo
al orden de llegada. Un cliente, independiente de todo lo demás, pide la opción de almuerzo i
P
con probabilidad pi ≥ 0, donde p = (p1 , . . . , pI ) es tal que i≤I pi = 1 (asuma que el cliente
toma su decisión antes de unirse a la cola). El comerciante por su parte demora en atender a
dicho cliente un tiempo aleatorio de distribución exponencial de tasa µi [1/min.]. En lo que
viene, suponga que siempre existe estado estacionario.
1. Modele el sistema de atención descrito como una cadena de Markov en tiempo continuo,
y plantee las ecuaciones que permiten calcular las probabilidades estacionarias.
Suponga ahora que el comerciante atiende primero al último cliente en llegar (interrumpiendo
las atenciones a otros clientes de ser necesario).
2. Modele el sistema de atención descrito como una cadena de Markov en tiempo continuo,
y muestre que las probabilidades estacionarias están dadas por
π(n) = C ·
I Y
λ pi ni
i=1
µi
,
donde ni denota el número de clientes en fila que ordenan la opción i. (Hint: si lo desea,
puede chequear la condición de reversibilidad.)
Suponga ahora que el comerciante atiende primero los pedidos de las opciones menores o iguales
a i antes de atender los pedidos de opciones mayores a i (incluso si eso implica interrumpir
atenciones).
3. Modele el sistema de atención descrito como una cadena de Markov en tiempo continuo.
Para el caso particular µj = µ para todo j ≤ I, encuentre la distribución estacionaria
(asuma que existe) de pedidos en cola por opciones menores o iguales a i. (Hint: note
que las atenciones y esperas de pedidos menores o iguales a i no son afectadas por los
pedidos mayores a i.)
Solución parte 1. El estado es o = (o1 , o2 , . . . , ok ) donde oi representa la opción a comprar por
el i-esimo cliente en la fila, y k es el número de personas en la fila.
Con esto, tenemos que las transiciones posibles son
(
qo,o0 =
Apunte de Cátedra
λ · pj
µo 1
si oi = o0i , i ≤ k, o0k+1 = j, k 0 = k + 1, j ≤ I
si o0i = oi+1 , i < k, k 0 = k − 1, k ≥ 1.
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
115
Las ecuaciones de balance son
π(o)(λ + µo1 ) = π((o1 , . . . , ok−1 ))pok λ +
X
π(((j, o1 , . . . , ok ))µj ,
n 6= ∅
j≤I
π(∅) λ =
X
π((j))µj .
j≤I
Adicionalmente las probabilidades deben ser no-negativas y sumar 1.
Solución parte 2. Los estados son los mismos. Las tasas de transición ahora son
(
qo,o0 =
si o0i = oi , i ≤ k, o0k+1 = j, k 0 = k + 1, j ≤ I
si o0i = oi , i < k, k 0 = k − 1, k ≥ 1.
λ · pj
µo k
Mostramos que la cadena es reversible chequeando que π cumple la condición de reversibilidad.
Las transiciones en la cadena son entre los estados o y o0 cuando oi = o0i para i ≤ k, o0k+1 = j y
k 0 = k + 1. Tenemos que
π(o)λ pj
= C
I Y
λ pi ni
µi
i=1
k
Y
p oh
= C λk
h=1
µo h
λ pj
λ ph
0
= µj C λ
= C
k+1
k p 0
Y
o
h
µ0
h=1 oh
0
I Y
pi ni
i=1
µi
= µj π((o1 , . . . , ok , j)) = µj π(o0 ),
donde ni = j≤k 1{oj = i}, n0i = j≤k0 1{o0j = i}. Concluimos que la cadena es reversible, y que π
es el vector de probabilidades estacionarias.
P
P
Solución parte 3. En esta situación el estado es m = (m1 , . . . , mI ) donde mi representa el número
de clientes en la fila que piden la opción i. Tenemos que
(
qm,m0 =
λpj
µj
si m0i = mi , i 6= j, m0j = mj + 1
.
si m0i = mi , i =
6 j, m0j = mj − 1, mi = 0, i < j, mj > 0.
Consideremos ahora el caso µj = µ. Fijemos i ≤ I y consideremos una Cadena de Markov donde
el estado m representa el número de clientes con pedidos iguales o menores a i. Tenemos que la
cadena tiene tasas de transición
qm,m0 =
( P
λ
µ
j≤i pj
si m0 = m + 1,
.
si m0 = m − 1, m > 0.
Vemos que la cadena es una M/M/1, por lo tanto la distribución estacionaria {πi (m) : m ≥ 0} del
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
116
número de clientes con pedidos menores o iguales a i es
πi (m) = (1 − ρi )ρm
i ,
donde ρi =
6.4.
λ
P
j≤i
µ
pj
.
Reversibilidad
Tal como en el caso de tiempo discreto, consideremos una cadena de Markov en tiempo continuo
que admita un vector de probabilidades estacionarias π y elijamos como distribución inicial dichas
probabilidades estacionarias. El proceso resultante es estacionario (debido a que π(t)0 = π Q = 0),
es decir π(t) = π para todo t ≥ 0.
Consideremos un tiempo muy grande (infinito) y consideremos el proceso reverso en el tiempo
{Y (t) : t ≥ 0} donde Y (t) = X(t∗ − t), con t∗ muy grande. Resulta que este proceso reverso es
tambiénnuna cadena
o de Markov en tiempo continuo. Para ver esto, notemos que los tiempo de
Y
estadía τi : i ∈ N son idénticos a los tiempos de la cadena original, por lo tanto forman una
serie de variables aleatorias independientes de distribución exponencial. En particular, tenemos que
τiY ∼ exp(νi )
i ∈ N.
Denotemos por π D el vector de probabilidades estacionarias de la cadena de Markov discreta
subyacente (asumiremos que esta cadena acepta un vector de probabilidades estacionarias). Desde
la sección 3.4 sabemos que la matriz de transición de la cadena de Markov discreta reversa en el
tiempo, P ∗ es tal que
πjD
Pij∗ = D Pji , i, j ∈ N, i 6= j.
πi
Concluimos que el proceso reverso {Y (t) : t ≥ 0} es una cadena de Markov en tiempo continuo
caracterizado por las tasas de estadía {νi : i ∈ N}, la matriz de transición P ∗ , y la distribución
inicial π.
!
Importante: La cadena de Markov reversa también admite a π como vector de probabilidades
estacionarias. Para esto, interpretamos πi como la fracción del tiempo que la cadena original
pasa en el estado i y notamos que dicha fracción es la misma para el proceso reverso.
Tal como en el caso discreto, diremos que la cadena es reversible si su comportamiento hacia
adelante en el tiempo es indistinguible de aquel hacia atrás en el tiempo (en el largo plazo). En términos concretos, estos significa que la cadena reversa y la original poseen la misma caracterización,
es decir la condición de reversibilidad
πiD Pij = πjD Pji
se cumple. Esta condición está en términos de las probabilidades estacionarias de la cadena discreta
subyacente, que comúnmente no calcularemos. Para remediar esto, podemos ver una cadena de
Markov en tiempo continuo como un caso especial de un proceso semi-Markov, tal que los
tiempos de estadía se distribuyen exponencial. Desde las secciónes pasadas, tenemos que
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
πi ∝
117
πD
,
νi
i ∈ N,
por lo tanto, podemos reescribir la condición de reversibilidad en términos de las probabilidades
estacionarias de la cadena en tiempo continuo:
πi qi,j = πj qj,i ,
i, j ∈ N.
Tal como en el caso discreto, si encontramos un vector de probabilidad que cumpla la condición de
reversibilidad, este debe corresponder al vector de probabilidades estacionarias.
Proposición 5.2 (Condición de reversibilidad) Consideremos una cadena de Markov en
tiempo continuo caracterizada por Q. Si existe un vector de probabilidad π tal que
πi qi,j = πj qj,i ,
i, j ∈ N,
entonces i) π corresponde al vector de probabilidades estacionarias; y ii) la cadena es reversible.
Normalmente utilizamos el resultado anterior de la siguiente forma: adivinamos la forma funcional
del vector de probabilidades estacionarias a partir de la condición de reversibilidad: si encontramos
una solución satisfactoria, concluimos que ese es el vector de probabilidades estacionarias (como
resultado colateral, corroboramos que la cadena es reversible).
Podemos utilizar reversibilidad incluso en casos donde la cadena no es reversible. En dichos casos,
debemos adicionalmente conjeturar el comportamiento de la cadena reversa, como muestra el siguiente resultado.
Proposición 5.3 (Cadena reversa) Consideremos una cadena de Markov caracterizada por
Q. Si existe un vector de probabilidad π y una matriz Q∗ tal que
∗
πi qi,j
= πj qj,i ,
y
X
j6=i
qij =
X
∗
qij
,
i, j ∈ N,
i ∈ N,
j6=i
entonces π es el vector de probabilidades estacionarias y Q∗ caracteriza a la cadena reversa.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
!
118
Importante: Tal como el sistema 0 = π Q se puede interpretar como una ecuación de balance
de tasas, la condición de reversibilidad puede interpretarse como una ecuación de balance
de tasas, más detallada, entre cada par de estados (i, j). En este sentido, la condición de
reversibilidad puede interpretarse como
tasa de salida a i hacia j (largo plazo) = tasa de salida desde j hacia i (largo plazo).
El siguiente ejemplo describe una clase muy grande de modelos, los cuales estudiaremos con más
detalle en la siguiente sección.
Ejemplo 5.9 (Procesos de Nacimiento y Muerte)
Considere un proceso estocástico que representa el tamaño de una población de individuos:
cuando la población tiene tamaño k ≥ 0 individuos nacen de acuerdo a un proceso de Poisson
de tasa λk y el tiempo hasta la primera muerte de alguno de estos k individuos se distribuye
exp(µk ), k ≥ 1.
Un proceso de nacimiento y muerte admite la siguiente representación gráfica.
λ1
λ0
0
1
µ1
λ2
2
···
µ3
µ2
Alternativamente, la cadena de Markov asociada queda caracterizada por {νi : i ∈ N}, con ν0 = λ0 ,
νi = λi + µi para i ≥ 1 y la matriz de transición P , caracterizada por sus términos no nulos:
P01 = 1, Pi,i+1 =
λi
µi
, Pi,i−1 =
.
λi + µi
λ i + µi
Notemos que, bajo cualquier escenario, el número de transiciones desde el estado i al i + 1 difiere en
a lo más una unidad del número de transiciones desde el estado i + 1 al i, por lo tanto (mirando la
interpretación de la condición de reversibilidad como una ecuación de balance de tasas) sospechamos
que un proceso de nacimiento y muerte es reversible. Bajo esa hipótesis, tenemos que la condición
de reversibilidad, aplicada al proceso de nacimiento y muerte, se transforma en el sistema
πi+1 =
λi
πi ,
µi+1
i ≥ 0.
Utilizando esta ecuación de forma recursiva, partiendo desde i = 0, podemos escribir πi en función
de π0 como sigue.
Qi−1
λk
λi−1
λi−1 λi−2
πi =
πi−1 =
πi−2 = · · · = Qik=0 π0 .
(2)
µi
µi µi−1
k=1 µk
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
119
Entonces, dado π0 , el vector π dado por (2) cumple (por construcción) con la condición de reversibilidad. Lo único restante es corroborar que π0 puede ser especificado de forma que π sea un vector
de probabilidad. Dada la no-negatividad de los parámetros, lo único que debemos corroborar es
P
que i πi = 1. Esto es equivalente a
π0 =
!
∞
X
Qi−1
λk
Qik=0
k=1 µk
i=0
!−1
.
Importante: La existencia de π0 > 0 depende de la convergencia de la serie en el lado derecho
de la ecuación de arriba. Si la serie no converge, el único vector π que satisface la condición de
reversibilidad es π = 0, que no es un vector de probabilidad y, por lo tanto, concluimos que el
sistema no acepta un vector de probabilidades estacionarias.
En general, la existencia de π0 > 0 se examina caso a caso en función de los parámetros del modelo.
A modo de ejemplo, a continuación revisamos dos ejemplos.
Caso especial I: Cola simple (M/M/1). Considere el modelo de una cola donde individuos
llegan de acuerdo a un proceso de Poisson de tasa λ y las atenciones son hechas por un único
servidor que atiende a los individuos de acuerdo al orden de llegada; consideremos que el tiempo
que demora en atender a un cliente cualquiera es una variable aleatoria de distribución exponencial
de tasa µ, independiente de todo los demás. Claramente, el número de personas en el sistema es
una cadena de Markov en tiempo continuo; su representación gráfica es la siguiente:
λ
λ
0
1
µ
λ
2
µ
···
µ
Vemos que la cadena corresponde a un proceso de nacimiento y muerte con tasas λk = λ para
todo k ≥ 0, y µk = µ para todo k ≥ 1. Definiendo ρ = λ/µ, concluimos que las probabilidades
estacionarias existen cuando la serie
∞
X
i=0
∞
∞
X
λk
λi X
=
=
ρi
i
µ
µ
k
k=1
i=0
i=0
Qi−1
Qik=0
converge. La serie converge si y sólo si ρ < 1, caso en el cual tenemos que π0 = (1 − ρ) y, por lo
tanto,
πi = ρi (1 − ρ), i ≥ 0.
Caso especial II: autoservicio. Consideremos el sistema del caso especial I, pero ahora el número
de servidores es infinito (en la práctica esto puede modelar un sistema de autoservicio). Dado que
toda persona en el sistema se está atentiendo y demora un tiempo exponencial de tasa µ, tenemos
que la representación gráfica de la cadena es
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
120
λ
λ
0
λ
1
2
µ
···
3µ
2µ
Vemos que la cadena corresponde a un proceso de nacimiento y muerte con tasas λk = λ para
todo k ≥ 0, y µk = k µ para todo k ≥ 1. Definiendo nuevamente ρ = λ/µ, concluimos que las
probabilidades estacionarias existen, ya que
∞
X
Qi−1
λk
Qik=0
k=1 µk
i=0
=
∞
X
1 λi
i=0
i! µi
= eρ .
Notamos que la serie siempre converge, por lo que concluimos que el vector de probabilidades
estacionarias está dado por
ρi
πi = !e−ρ , i ≥ 0.
i
(Note que esta es una distribución Poisson con tasa ρ.)
A continuación, consideremos una cadena de Markov con estados E. Podemos truncar esta cadena
a un subconjunto A ⊂ E, conservando las tasas qij tales que i ∈ A, j ∈ A y anulando las demás
(esto resulta práctico, por ejemplo, para poner una cantidad máxima de gente esperando a ser
atendida en un modelo de cola). Nos referimos a la cadena resultante como la cadena truncada.
Ejemplo 5.10 (Cadena truncada)
Considere la cadena con tres estados cuya representación gráfica es:
λ
0
λ
1
µ
2
µ
Para el caso A = {0, 1}, la cadena truncada corresponde a
λ
1
0
µ
Consideremos el siguiente resultado que liga una cadena reversible con su versión truncada.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
121
Proposición 5.4. Consideremos una cadena reversible, con probabilidad estacionaria π y
conjunto de estados E. Si truncamos esta cadena a A ⊂ E y el proceso resultante consiste en
una sola clase, entonces la cadena truncada es reversible y posee probabilidades estacionarias
π A , donde
πj
πjA = P
, i ∈ A.
i∈A πi
Dem: Probaremos que el vector π A satisface la condición de reversibilidad, lo que permite concluir
que la cadena truncada es reversible y que el vector π A es su vector de probabilidades estacionarias.
Para i, j ∈ A, de la definición de π A tenemos que
πi
πj
πiA qi,j = P
qi,j = P
qj,i = πjA qj,i ,
A πk
A πk
donde la segunda igualdad viene del hecho que la cadena original es reversible. Esta es la condición
de reversibilidad aplicada a la cadena reversa. Dado que π A es un vector de probabilidad, concluimos el resultado.
Ejemplo 5.11 (Cola simple con capacidad (M/M/1/N))
A modo de ejemplo consideremos el modelo de cola simple del Caso especial I arriba, pero bajo
el supuesto que existe una capacidad máxima de N individuos que pueden estar simultáneamente en el sistema (cualquier llegada del proceso de Poisson que encuentra el sistema con N
individuos es perdida). Gráficamente, la cadena es la siguiente.
λ
λ
0
1
λ
N −1
···
µ
µ
λ
µ
N
µ
Para calcular las probabilidades estacionarias de esta cadena notamos que esta es la versión truncada
de la cola simple (M/M/1) considerando el conjunto A = {0, . . . , N }. Esto implica que el vector
de probabilidades estacionarias π es tal que

πiA
= ρ (1 − ρ) 
i
N
X
j=0
Apunte de Cátedra
−1
ρ (1 − ρ)
j
=ρ
i
1−ρ
,
1 − ρN +1
i ≤ N.
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
122
Ejemplo 5.12 (Pregunta 2, Control 3, Otoño 2018)
Considere un sistema M/M/2 con servidores heterogéneos: el servidor i atiende a un tasa µi
(µ1 6= µ2 ). Una llegada se atiende con el primer servidor disponible.
1. Modele el sistema como una cadena de Markov en tiempo continuo y encuentre el vector
de probabilidades estacionarias asumiendo que una llegada que encuentra el sistema vacío
se dirige al primer servidor con probabilidad p = 1/2.
2. Encuentre el vector de probabilidades estacionarias de su cadena asumiendo que una
llegada que encuentra el sistema vacío se dirige al servidor que lleva más tiempo desocupado.
3. Suponga ahora que una llegada es de tipo i con probabilidad pi (p1 + p2 = 1) y que el
servidor i atiende exclusivamente a llegadas tipo i. Modele como una cadena de Markov en
tiempo continuo y encuentre el vector de probabilidades estacionarias cuando el sistema
tiene una capacidad conjunta (para llegadas tipo 1 y 2) de N (llegadas que encuentran
el sistema lleno simplemente se pierden).
Solución parte 1. El conjunto de estados está dado por E = (0, 1a, 1b, 2, 3, 4, . . .), donde i denota
el número de personas en el sistema, con la excepción de 1a y 1b que denotan que hay una persona
en el sistema siendo atendidos por el servidor 1 y 2, respectivamente. Dado esto, tenemos que
qi,i+1 = λ,
q2,1a = µ2 ,
qi+1,i = µ1 + µ2 ,
q2,1b = µ1 ,
q0,1a = q0,1b = λ/2,
i > 1,
q1a,2 = q1b,2 = λ,
q1a,0 = µ1 ,
q1b,0 = µ2 .
Escribimos las probabilidades estacionarias en función de π2 . Para i ≥ 2 es fácil ver que
πi = π2 ρi−2 ,
donde ρ = λ/(µ1 + µ2 ). De las ecuaciones de balance agregadas obtenemos que
π0 λ = π1a µ1 + π1b µ2
π1a (λ + µ1 ) = π0 λ/2 + π2 µ2
π1b (λ + µ2 ) = π0 λ/2 + π2 µ1
Sumando estas ecuaciones vemos que π1a + π1b = ρ−1 π2 . Con esto obtenemos que
π1a =
π1b =
π0 =
Apunte de Cátedra
π2 µ2 (ρ−1 + 2)
2λ + µ1 + µ2
π2 µ1 (ρ−1 + 2)
2λ + µ1 + µ2
2π2 µ1 µ2 (ρ−1 + 2)
(2λ + µ1 + µ2 )λ
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
123
Con esto podemos despejar el valor de π2 como sigue:
1
π2 (µ2 + µ1 + 2µ1 µ2 )(ρ−1 + 2)
+
π2 = ρ 1 +
2λ + µ1 + µ2
1−ρ
!−1
.
Solución parte 2. El conjunto de estados está dado por E = (0a, 0b, 1a, 1b, 2, 3, 4, . . .), donde i
denota el número de personas en el sistema, con la excepción de 0a y 0b que denotan que el sistema
está vacío y el servidor que lleva menos tiempo desocupado es el 1 y 2, respectivamente, y los
estados 1a y 1b, que denotan que hay una persona en el sistema siendo atendidos por el servidor 1
y 2, respectivamente. Dado esto, tenemos que
qi,i+1 = λ,
q2,1a = µ2 ,
qi+1,i = µ1 + µ2 ,
q2,1b = µ1 ,
q0a,1b = q0b,1a = λ,
i > 1,
q1a,2 = q1b,2 = λ,
q1a,0a = µ1 ,
q1b,0b = µ2 .
Nuevamente es posible escribir las probabilidades estacionarias en función de π2 . Esto es, para
i > 1,
πi = ρi−2 π2 .
Para el resto de los estados las ecuaciones de balance son
π0a λ = π1a µ1
π0b λ = π1b µ2
π1a (λ + µ1 ) = π0b λ + π2 µ2 ,
π1b (λ + µ2 ) = π0a λ + π2 µ1 ,
Sumando todo, nuevamente tenemos que π1a + π1b = ρ−1 π2 Desde la tercera ecuación obtenemos
µ2 (ρ−1 + 1)
λ + µ1 + µ2
µ1 (ρ−1 + 1)
= π2
λ + µ1 + µ2
µ2 µ1 (ρ−1 + 1)
= π0b = π2
.
λ + µ1 + µ2
π1a = π2
π1b
π0a
El valor de π2 se obtiene imponiendo que π es vector de probabilidad. Esto es,
π2 =
(µ2 + µ1 + 2µ1 µ2 )(ρ−1 + 1) 1
1+
λ + µ1 + µ2
1−ρ
!−1
Solución parte 3. Modelamos el estado como un par ordenado (n1 , n2 ), donde ni denota el número
de personas de tipo i.
Primero consideremos el sistema sin capacidad: notamos que el sistema corresponde a dos M/M/1
independientes, por lo que el vector de probabilidades estacionarias está dado por:
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
124
π(n1 , n2 ) = (1 − ρ1 )ρn1 1 (1 − ρ2 )ρn2 2 ,
donde ρi = λpi /µi . Adicionalmente, notamos que cada M/M/1 es reversible, y al ser independientes
es fácil ver que el sistema en conjunto es reversible.
De vuelta al sistema original, vemos que este es simplemente un truncamiento de la cadena sin
capacidad, por lo tanto sus probabilidades estacionarias son un escalamiento de las probabilidades
estacionarias del sistema sin capacidad. Concluimos que
1
π(n1 , n2 ) = ρn1 1 ρn2 2 ,
c
donde
c=
−n1
N NX
X
ρn1 1 ρn2 2 .
n1 =0 n2 =0
Ejemplo 5.13 (Pregunta 4, Examen, Primavera 2018)
Los k profesores auxiliares del curso buscan contratar al nuevo profesor auxiliar para el próximo
semestre. Para esto consideran el siguiente proceso: Los candidatos llegan al lugar de las entrevistas de acuerdo a un proceso de Poisson de tasa λ [candidatos/hora] y se colocan en la fila
de un profesor auxiliar escogido al azar. El profesor auxiliar i demora un tiempo aleatorio de
distribución exponencial de tasa µi = µ [1/horas] en entrevistar a alguien; una vez terminada
la entrevista, los candidatos se unen a la espera de una entrevista con el profesor auxiliar i + 1,
con i < k. Una vez finalizada la entrevista con el profesor auxiliar k, los candidatos se retiran.
1. Modele el sistema de entrevistas como una cadena de Markov en tiempo continuo. Indique
las condiciones para que exista estado estacionario. ¿Es la cadena reversible?
2. Los auxiliares ahora piensen en utilizar un sistema alternativo de entrevistas: Los candidatos ahora se entrevistan primero con el auxiliar k. Si la entrevista con el auxiliar i es
exitosa (lo que ocurre con probabilidad pi = 1 − 1/i) el candidato pasa a esperar para
entrevistarse con el auxiliar i − 1, con i > 1. Si una entrevista fracasa (o se desarrollo
con el auxiliar 1), el candidato se retira del proceso. Modele el sistema de entrevistas
como una cadena de Markov en tiempo continuo. Indique las condiciones para que exista
estado estacionario. ¿Es la cadena reversible?
3. El profesor, quien se ha dedicado a observar ambos procesos de entrevistas, plantea que
los procesos son esencialmente equivalentes, en el largo plazo. Calcule las probabilidades
estacionarias de ambas cadenas, y compruebe que el proceso de la parte 1 es el reverso
del de la parte 2.
Solución parte 1. Dejamos que ni represente el número de personas entrevistándose o esperando
entrevistarse con el auxiliar i, i ≤ k y definimos n = (n1 , . . . , nk ). El conjunto de estados posibles
es Nk y la matriz Q que caracteriza la cadena está dada por
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
qn,n0 =


λ/k

µ


µ
125
n0i = ni + 1 ∧ n0j = nj ∀j 6= i, i ≤ k,
n0i+1 = ni+1 + 1 ∧ n0i = ni − 1 ∧ n0j = nj ∀j ∈
/ {i, i + 1}, i < k tal que ni > 1
0
0
nk = nk − 1 ∧ nj = nj ∀j < k, cuando nk > 0
La condición de estado estacionario es λ < µ, que viene de mirar la carga del auxiliar k (y ver el
sistema como una red de colas).
La cadena no es reversible. Para ver esto considere los estados n0 y n tales que ni = n0i para todo
i, salvo un j tal que n0j = n0j + 1. En la cadena hacia adelante en el tiempo esto corresponde a la
llegada de un candidato a la cola del auxiliar j. En tiempo reverso esto es la salida de un candidato
del sistema desde la cola del auxiliar j, lo que no es posible en la cadena hacia adelante.
Solución parte 2. Utilizamos la misma definición de estados. La matriz Q0 está dada por
0
qn,n
0


λ




µ/i
n0k = nk + 1 ∧ n0j = nj ∀j < k
n0i = ni − 1 ∧ n0j = nj ∀j 6= i, i > 1 tal que ni > 0
=

µ(1 − 1/i) n0i = ni − 1 ∧ n0i−1 = ni−1 + 1 ∧ n0j = nj ∀j ∈
/ {i, i − 1}, i > 1 tal que ni > 0




0
0
µ
n1 = n1 − 1 ∧ nj = nj ∀j 6= 1, n tal que n1 > 0
La condición de estado estacionario es λ < µ, que viene de mirar la carga del auxiliar k (y ver el
sistema como una red de colas). La cadena no es reversible. Para ver esto considere los estados n0
y n tales que ni = n0i para todo i, salvo un j tal que n0j = n0j − 1. En la cadena hacia adelante en
el tiempo esto corresponde a un candidato que termina su entrevista con el auxiliar j y fracasa en
esta. En tiempo reverso esto es la llegada externa de un candidato al sistema a la cola del auxiliar
j, lo que no es posible en la cadena hacia adelante.
Solución parte 3. Mirando el sistema de la parte a como una red de colas, tenemos que el vector
de probabilidades estacionarias π es tal que
πn =
n
Y
(1 − ρi )ρni i ,
i=1
donde ρi = ki ρ, con ρ = λ/µ. Si un proceso es el reverso del otro, π también es el vector de
probabilidades estacionarias del proceso de la parte b). Entonces, para chequear que el proceso de
la parte a) es el reverso del de la parte b) basta chequear que
qn,n0 πn = qn0 0 ,n πn0 ,
∀ (n, n0 ).
Veamos que esto se cumple considerando los casos en la parte a).
Caso 1: n0i = ni + 1 ∧ n0j = nj ∀j 6= i, i ≤ k
kµλ
µ
πn
qn,n0 =
= = qn0 0 ,n . X
0
πn
i λk
i
Caso 2: n0i+1 = ni+1 + 1 ∧ n0i = ni − 1 ∧ n0j = nj ∀j ∈
/ {i, i + 1}, i < k tal que ni > 1
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Cadenas de Markov en Tiempo Continuo
126
i
πn
1
qn,n0 =
µ = (1 −
)µ = qn0 0 ,n . X
πn0
i+1
i+1
Caso 3: n0k = nk − 1 ∧ n0j = nj ∀j < k, cuando nk > 0
kλ
πn
qn,n0 =
µ = λ = qn0 0 ,n . X
πn0
kµ
Concluimos entonces que un proceso es el reverso del otro y que el vector π representa las probabilidades estacionarias de ambos.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
7.
7.1.
127
Fenómenos de Espera
Preliminares
En este capítulo estudiaremos el comportamiento (estocástico) de sistemas de espera, entendidos
como aquellos que involucran un flujo de individuos/entidades que deben ser procesados por un
conjunto de servidores de acuerdo a algún protocolo de atención. Dada su aplicación en, por ejemplo, el modelamiento de sistemas de atención (e.g. espera en una sucursal de un banco o en un
call-center), nos interesa analizar medidas de desempeño tales como tiempos promedios de estadía
en el sistema, largo promedio de las colas, etc.
El elemento base de un sistema de espera es la cola simple, las que serán descritas utilizando la
notación de Kendall, que especifica seis elementos.
Notación de Kendall. Describiremos una cola como una tupla A|B|C|D|E|F , donde A
describe el proceso de llegada de entidades, B la distribución de tiempos de servicio, C el
número de servidores, D denota la capacidad máxima del sistema (por defecto ∞), E el tamaño
de la población (por defecto ∞), y F la disciplina de atención.
Para la especificación de A y B se hace referencia a la distribución del tiempo entre llegadas/tiempo
de antención, respectivamente. Por ejemplo, A=M denota que el tiempo entre llegadas tiene la
propiedad de Markov, es decir, las llegadas constituyen un proceso de Poisson. De la misma forma
A=D denota que los tiempos entre llegadas son Deterministas y B=G denota una distribución
General.
Los valores de C, D y E son enteros no negativos y F denota la disciplina utilizada por los servidores para priorizar la atención de las entidades. Por ejemplo F=FIFO denota la disciplina donde
las entidades son atendidas de acuerdo al orden de llegada y F=LIFO denota aquella donde la
última entidad en llegar es la primera en ser atendida.
Para propósitos del curso, estamos interesados en filas que pueden ser representadas mediante cadenas de Markov en tiempo continuo. La notación de Kendall es versátil, pero de ninguna forma
pretende cubrir todas las posibles configuraciones posibles para una fila simple.
Ejemplo 6.1 (La fila M/M/1)
Este sistema corresponde a una fila donde un solo servidor demora en atender entidades un
tiempo aleatorio de distribución exponencial, y las entidades llegan al sistema de acuerdo a un
proceso de Poisson. Denotando λ a la tasa del proceso de Poisson y µ al inverso del tiempo
esperado de atención, tenemos que el modelo de cadena de Markov correspondiente a la cola
M/M/1 admite la siguiente representación gráfica.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
128
λ
λ
0
1
λ
2
µ
···
µ
µ
Desde el capítulo anterior sabemos que el vector de probabilidades estacionarias π = (π(1), π(2), . . .)
es tal que
π(i) = ρi (1 − ρ), i ≥ 0,
donde ρ = λ/µ < 1. La condición para la existencia de probabilidades estacionarias (ρ < 1) puede
interpretarse como que la persona que atiende lo hace a un ritmo más rápido del que tiene la gente
que llega.
Ejemplo 6.2 (La fila M/M/∞)
La fila M/M/∞. Este sistema corresponde a un autoservicio donde las entidades demoran
un tiempo aleatorio de distribución exponencial en salir del sistema y las entidades llegan al
sistema de acuerdo a un proceso de Poisson. Denotando λ a la tasa del proceso de Poisson y
µ al inverso del tiempo esperado de atención, tenemos que el modelo de cadena de Markov
correspondiente a la cola M/M/∞ admite la siguiente representación gráfica.
λ
λ
0
1
µ
λ
2
···
3µ
2µ
Desde el capítulo anterior sabemos que el vector de probabilidades estacionarias π = (π(1), π(2), . . .)
es tal que
ρi
π(i) = e−ρ , i ≥ 0,
i!
donde ρ = λ/µ.
Ejemplo 6.3 (Fila con capacidad finita)
La fila M/M/2/3. Siguiendo la lógica de los ejemplos anteriores, la cadena asociada a esta fila
admite la siguiente representación gráfica.
λ
λ
0
1
µ
Apunte de Cátedra
λ
2
2µ
3
2µ
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
7.2.
129
Ley de Little
Estamos interesados en calcular ciertas medidas de desempeño (de largo plazo) asociadas a distintos modelos de colas. En particular, nos gustaría calcular el número promedio de entidades y/o
el tiempo promedio que pasa una entidad en el sistema, en el largo plazo. Normalmente, una de
estas cantidades es más sencilla de calcular que la otra. La ley de Little relaciona estas dos
cantidades, de forma que el cálculo de una cantidad es equivalente el cálculo de la otra. Sorprendentemente, la ley de Little aplica a cualquier sistema de espera, independiente de su especificación.
Ley de Little (1961). Considere un sistema de espera y defina los procesos (nt , t ≥ 0),
(wr , r ∈ Z) y (τr , r ∈ Z), donde nt representa el número de entidades en el sistema en el
instante t, wr el tiempo que pasa en el sistema la r-ésima entidad en llegar, y τr el tiempo entre
la llegada de la r-ésima y la r + 1-ésima entidad. Si los procesos anteriores son estacionarios y
tienen media finita, entonces, si definimos
1
L(ω) = lı́m
t→∞ t
Z t
0
ns (ω)ds
W (ω) =
m
1 X
wj (ω)
m→∞ m
j=1
T (w) =
m
1 X
τj (ω),
m→∞ m
j=1
lı́m
lı́m
entonces, con probabilidad 1, los límites de arriba existen, y satisfacen
W (ω) = T (ω) · L(ω).
Notamos que la cantidad L representa el número promedio (en el largo plazo) de entidades en
el sistema, W el tiempo promedio de estadía en el sistema y T el tiempo promedio entre
llegadas.
Si bien la prueba del resultado está fuera del alcance de este curso, su argumento principal es el
siguiente:
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
130
Para un t >> 0,el número promedio de entidades en el sistema corresponde al área bajo la curva
(entre 0 y t) en la Figura 1 (que muestra el número de entidades en el sistema en función del
tiempo), dividido por t; definimos A(t) como aquella área, y N (t) el número de entidades que
llegan entre 0 y t; con esto, se tiene que L(t) = A(t)/t es el número promedio de entidades en el
sistema entre 0 y t, λ(t) = N (t)/t es la tasa de llegada de entidades entre 0 y t, y W (t) = A(t)/N (t)
es el tiempo promedio de estadía (por arribo) en el sistema entre 0 y t. Con esto, tenemos que para
t muy grande,
A(t)
L(t) =
= W (t) · λ(t).
t
El resultado surge de tomar límite respecto a t (los límites existen debido a los supuestos sobre los
procesos), notar que T = (lı́mt→∞ λ(t))−1 y mostrar que los efectos de las condiciones de borde
(regiones A y B en la Figura 1, que corresponden a tiempos de espera de eventos que ya estaban en
el sistema antes de 0 y tiempos de espera de eventos que continúan en el sistema tras T ) se vuelven
despreciables cuando t tiende a infinito.
!
Importante: Notemos que la ley de Little se cumple para cada evento ω ∈ Ω y para cada
sistema de espera que cumple con las condiciones de arriba. Esto incluye subsistemas dentro
de sistemas más grandes (por ejemplo, el subsistema de gente esperando ser atendido en una
cola M/M/1).
Normalmente utilizaremos la ley de Little en sistemas donde la llegada está dada por un proceso
de Poisson homogéneo. Por lo mismo, es común ver la ley de Little enunciada como
L = W · λ,
donde λ denota la tasa de llegada de entidades y, L y W son referidas como los valores esperados
del número promedio y tiempo promedio de estadía en el sistema.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
131
Ejemplo 6.4 (Ley de Litle para una Fila M/M/1)
Para esta fila, tenemos que el número promedio de entidades en el sistema (en el largo plazo)
está dado por
L=
X
iπi =
i
X
iρi (1 − ρ) = (1 − ρ)
i
ρ
ρ
λ
=
=
.
2
(1 − ρ)
1−ρ
µ−λ
Por otro lado,el tiempo promedio de estadía en el sistema puede calcularse condicionando en el
número de entidades en el sistema al momento de llegada de una entidad en el largo plazo. Esto
es, asumiendo la política FIFO y denotando Te al tiempo de estadía en el sistema, tenemos que
W
=
X
E[Te | i entidades al llegar] πi
i
=
X
(i + 1)
i
=
1 i
· ρ (1 − ρ)
µ
1
1
λ
+ =
.
(µ − λ)µ µ
µ−λ
Alternativamente, podemos calcular W utilizando Little: tenemos que el tiempo esperado de
estadía en la fila es
1
L
.
W = =
λ
µ−λ
Métricas adicionales. Normalmente nos interesa calcular los tiempos promedios de estadía en
el subsistema de espera y en el de servicio, y lo mismo para el número promedio de entidades.
Utilizando los subíndices q y s para denotar dichos subsistemas, tenemos que
L = Ls + Lq ,
W = Ws + Wq ,
donde, por ejemplo, Ls denota el número promedio de entidades en servicio, en el largo plazo. Para
la fila M/M/1, tenemos que trivialmente Ws = µ−1 , por lo que rápidamente vemos que
Wq =
1
1
λ
− =
.
µ−λ µ
(µ − λ)µ
Respecto a los largos de fila, tenemos que
Ls =
X
1{i > 0}πi = 1 − π0 = ρ,
i
2
λ
λ
con lo que concluimos que Lq = µ−λ
− µλ = (µ−λ)µ
. Alternativamente, podemos aplicar Little a
cada subsistema (notando que la tasa de entrada a cada uno de ellos es λ), para obtener que
Ls = λ Ws =
Apunte de Cátedra
λ
= ρ,
µ
Lq = λ Wq =
λ2
.
(µ − λ)µ
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
132
Ejemplo 6.5 (Ley de Little para una Fila M/M/∞)
En esta fila, la distribución estacionaria es Poisson con tasa ρ, por lo tanto tenemos que
L=
X ρi
i e−ρ = ρ,
i
i!
por lo que (usando Little) concluimos que W = Lλ = µ1 , lo que tiene sentido, dado que este
sistema es un autoservicio. Por lo mismo, tenemos que Wq = 0, por lo que Ws = W . De la
misma forma, se tiene que Lq = 0, por lo que Ls = L.
7.3.
Colas en Tandem
Considere un sistema con dos estaciones de servicio, cada una con un solo servidor. Una atención
en la estación Si demora un tiempo aleatorio de distribución exponencial de tasa µi , i ∈ {1, 2}.
Entidades llegan al primer servidor de acuerdo a un proceso de Poisson de tasa λ. Al ser atendidos,
pasan de inmediato al siguiente servidor. Las entidades esperan en cada estación por su turno en
ser atendidos.
λ
S1
S2
Queremos analizar el sistema descrito arriba, idealmente caracterizando su comportamiento en estado estacionario y encontrando expresiones para métricas tales como el tiempo esperado de estadía
en el sistema, número promedio de entidades en el sistema, etc. El sistema en sí mismo, puede ser
modelado como una cadena de Markov en tiempo continuo, donde un estado es un par ordenado (n1 , n2 ) donde ni representa el número de entidades en la estación Si , i ∈ {1, 2}.
Denotemos a π = (π(n1 , n2 ) : ni ≥ 0, i = 1, 2) como el vector de probabilidades estacionarias, y
definimos πi a la distribución marginal del número de entidades en el sistema i en el largo plazo.
Claramente, tenemos que
π1 (n) = ρn1 (1 − ρ1 ), n ≥ 0,
donde ρ1 = µλ1 . Esto, debido a que si ignoramos la segunda estación, el primer servidor corresponde
a una fila M/M/1. A priori, el cálculo de la marginal π2 no es directo, debido a que no conocemos
las características del proceso de llegada de entidades al segundo servidor. El siguiente resultado,
sin embargo, nos dice que en estado estacionario dicho proceso de llegada es Poisson de tasa λ,
con lo que la marginal π2 está dada por
π2 (n) = ρn2 (1 − ρ2 ),
donde ρ2 =
n ≥ 0,
λ
µ2 .
Lema 6.1 (S. Ross - Lemma 5.6.2) Considere una fila M/M/C. Si λ < C µ (condición de
estado estacionario), entonces el proceso de salida de entidades, en estado estacionario, es un
proceso de Poisson de tasa λ.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
133
Dem: Argumentamos por reversibilidad. De la representación gráfica de la cadena asociada a la
fila M/M/C vemos que este corresponde a un proceso de nacimiento y muerte y, por lo tanto, dicha
cadena es reversible. En la cadena reversa, el proceso de llegada de entidades, en el largo plazo,
corresponde a un proceso de Poisson de tasa λ (por reversibilidad). Sin embargo, interpretado desde
el punto de vista del proceso original, este proceso correponde a las salidas de entidades desde la
fila. Concluimos que las salidas en estado estacionario forman un proceso de Poisson de tasa λ.
Con este resultado, tenemos que podemos calcular las distribuciones marginales del número de
entidades en cada servidor, en estado estacionario. Estas distribuciones, sin embargo, no nos permiten a priori calcular el vector π, debido a la posible correlación entre el número de entidades en
cada estación. El siguiente resultado nos muestra que, en estado estacionario, los números de
entidades en cada subsistema son variables aleatorias independientes. Con esto podremos recuperar
el vector π a partir de π1 y π2 , para obtener (sujeto a que ρi < 1, i ∈ {1, 2})
π(n, m) = ρn1 (1 − ρ1 ) ρm
2 (1 − ρ2 ),
m, n ≥ 0,
Lema 6.2 (S. Ross - Lemma 5.6.3) En una cola M/M/1 tal que ρ < 1, se tiene que en
estado estacionario
i) el número de entidades en el sistema en un instante es independiente de la secuencia de
tiempos de salida pasados;
ii) el tiempo que una entidad pasa en el sistema (espera más servicio) es independiente del
proceso de salida de entidades hasta antes del instante de su propia salida.
Dem: Argumentamos por reversibilidad. En el proceso hacia adelante en el tiempo, dado que las
llegadas son Poisson, el número de entidades en el sistema en cualquier instante de tiempo es independiente del proceso de llegadas en el futuro. Esto quiere decir que en el proceso reverso, el número
de entidades en el sistema es independiente del proceso de salidas pasadas. Sin embargo, dado que
el sistema es reversible, lo mismo se puede concluir del sistema hacia adelante en el tiempo, lo que
corresponde a i).
Respecto a ii), notamos que el tiempo que una entidad pasa en el sistema es independiente del
proceso de llegada de entidades después de la llegada de dicha entidad (aquí estamos asumiendo
la política FIFO de atención). Visto desde la perspectiva del proceso reverso, vemos que el tiempo
que una entidad pasa en el sistema es independiente de las salidas hasta antes del instante de su
propia salida. Sin embargo, dado que el sistema es reversible, concluimos que lo mismo se cumple
en estado estacionario para el sistema hacia adelante en el tiempo, lo que corresponde a ii).
Claramente este resultado se puede extender al caso de k colas M/M/1 en tandem. En dicho caso,
tendremos que denotando con π(n1 , . . . , nk ) la probabilidad estacionaria del estado (n1 , . . . , nk )
donde nj denota el número de entidades en la estación j, tenemos que, bajo la condición que ρj < 1
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
134
para todo j = 1, . . . , k (donde ρj = λ/µj ),
π(n1 , . . . , nk ) =
k
Y
nj
ρj (1 − ρj ).
j=1
Adicionalmente, vemos que los argumentos usados en las demostraciones arriba se mantienen para
el caso donde el servidor i cuenta con ci servidores, transformando dicha estación en una cola
M/M/ci . En dicho caso, tenemos que
π(n1 , . . . , nk ) =
k
Y
πj (nj ),
(1)
j=1
donde πj corresponde a las probabilidades estacionarias de una cola M/M/cj con llegada Poisson
de tasa λ y atenciones exponenciales de tasa µj .
!
Importante: El desarrollo anterior también se mantiene válido en el caso donde el ruteo de las
entidades a través de las estaciones es probabilista (piensen en la suma y división de procesos de
Poisson). En tal caso debemos tener en cuenta que la tasa de llegada puede variar de estación
a estación y no podemos permitir feedback.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
135
Ejemplo 6.6 (Problema 5, Examen, Primavera 2018)
Los k profesores auxiliares de un curso buscan contratar a alguien que se disfrace de Santa
durante las fiestas. Para esto consideran el siguiente proceso: Candidatos llegan al lugar de las
entrevistas de acuerdo a un proceso de Poisson de tasa λ [candidatos/hora] y se colocan en fila
para ser entrevistados por el profesor auxiliar 1. En general, el profesor auxiliar i demora un
tiempo aleatorio de distribución exponencial de tasa µi = µ/i [1/horas] en entrevistar a alguien,
y dicha entrevista es exitosa con probabilidad pi = i/(i + 1). Cuando un candidato fracasa tras
una entrevista, es despachado a su casa. Por otro lado, un candidato que concluye exitosamente
su entrevista con el profesor auxiliar i procede a esperar su turno para entrevistarse con el
profesor auxiliar i + 1, excepto en el caso que la entrevista haya sido con el último profesor
auxiliar (en cuyo caso los candidatos también se retiran, pero sabiendo que potencialmente
serán contratados). Boris quiere entrevistarse para el puesto, pero va muy atrasado, por lo cual
el proceso ya lleva un largo tiempo operando cuando llega.
1. Modele el sistema de entrevistas como una red de colas. Indique las condiciones sobre los
parámetros del problema para que exista estado estacionario.
2. Boris quiere saber cuánto tiempo debería presupuestar (en valor esperado) para las entrevistas, pensando en que está seguro de triunfar en todas ellas.
3. Suponga que se cumplen las condiciones de estado estacionario. Al llegar al sistema,
Boris nota que hay muchas personas esperando su turno para entrevistarse con el primer
profesor auxiliar. ¿Cuál es la probabilidad que todos los otros profesores auxiliares se
encuentren desocupados en ese momento?
4. Suponga ahora que, aprovechando que nadie lleva registro de la identidad de los candidatos, una vez fracasada una entrevista, los candidatos se mezclan con la gente esperando
su entrevista con el profesor auxiliar 1 (es decir, simulan ser nuevos candidatos). Modele
este nuevo sistema como una red de colas e indique las condiciones para alcanzar estado
estacionario. En valor esperado, ¿cuánto tiempo estará Boris en el sistema, pensando en
que él está seguro de triunfar en todas las entrevistas (al primer intento)?
Solución parte 1. El sistema esta formado por k colas M/M/1 en serie. La cola i corresponde a
las entrevistas realizadas por el auxiliar i, tiene una tasa de atención µi = µ/i efectiva de llegada
λi = λ
i−1
Y
pj = λ/i.
j=1
Definimos ρi := λi /µi = λ/µ = ρ. La condición de estacionario es entonces ρ < 1.
Solución parte 2. El tiempo que Boris debería presupuestar es la suma de los tiempos esperados
de estadia (de largo plazo) en k colas M/M/1, cada una con parámetros λ/i y µ/i. Esto es
WB =
k
X
i=1
Apunte de Cátedra
i
k(k + 1)
=
.
µ−λ
2(µ − λ)
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
136
Solución parte 3. Sabemos que, por reversibilidad, el número de personas en las colas son variables
aleatorias independientes. Por lo tanto el hecho que haya gente esperando en la primera cola no
perturba las probabilidades estacionarias en el resto de las colas. Con esto, la probabilidad P
buscada es
P = (1 − ρ)k−1 .
Solución parte 4. El sistema sigue siendo k colas, pero ahora hay una nueva matriz de ruteo. En
terminos prácticos, tenemos que recalcular las tasas efectivas de llegadas. Estas son la solución al
sistema
λ1 = λ +
X
λj
j≥1
λi+1 =
i
λi
i+1
1
j+1
i≥1
Resolviendo tenemos que
λ1 =
λi =
λ
1−
1
λ1
i
P
1
j≥1 j(j+1)
i>1
La condición de estado estacionario ahora es λ1 < µ, y el tiempo esperado para Boris ahora cambia
k
a WB = µ−λ
.
1
XXX
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
137
Ejemplo 6.7 (Pregunta 3, Examen, Otoño 2019)
De Lunes a Miércoles, pacientes llegan a un laboratorio de acuerdo a un proceso de Poisson
de tasa λ [pacientes/hora] para realizarse una secuencia de hasta n exámenes, indexados por
i = 1, . . . , n. Todos los pacientes comienzan realizándose el examen 1. Cada paciente demora
un tiempo aleatorio exponencial de tasa µ [1/hora] en realizarse el examen i, el que requiere
la supervisión del único técnico especialista que hay en el laboratorio para ese examen, por
lo que los pacientes esperan su turno en orden de llegada. Una vez concluido el examen i, los
pacientes se retiran con probabilidad p, y con probabilidad (1 − p) deben realizarse el examen
i + 1, para i < n. Todos los pacientes que se realizan el examen n se retiran del laboratorio.
1. Modele el sistema de atención del laboratorio como una red de colas. Encuentre las
condiciones para que exista un estado estacionario.
De Jueves a Sábado, pacientes vuelven al laboratorio de acuerdo a un proceso de Poisson
de tasa λ [pacientes/hora], a buscar los resultados de sus exámenes, los que son entregados
por los técnicos especialistas. Cada ténico demora un tiempo aleatorio exponencial de tasa µ
[1/hora] en entregar el resultado a un paciente, independiente de todo. Cada paciente comienza
recolectando el resultado del último examen que se tomo, y comienza a volver a través de la
secuencia de exámenes que se tomo, hasta terminar recolectando el resultado del examen 1,
tras lo cual se retira del laboratorio.
2. Cuál es la probabilidad de que un paciente cualquiera comience a recolectar los resultados
de sus exámenes partiendo por el examen i?
3. Modele el sistema de atención del laboratorio como una red de colas. Encuentre las
condiciones para que exista un estado estacionario.
4. Compare los tiempos promedio de estadía en el laboratorio durante los días de la semana.
Solución parte 1. La red de colas cuenta con n estaciones, una por cada examen. Solo existen
llegadas externas a la estación 1 (tasa λ). La estación i corresponde a una M/M/1, con tasa
de atención es µ, y su tasa efectiva de llegada es λ(1 − p)i−1 . La matriz de ruteo es tal que
Pi,i+1 = (1 − p), para i < n.
Con esto, la condición de estado estacionario es λ < µ.
Solución parte 2. Es la probabilidad que el ultimo examen que tuvieron fue el i. Eso es P =
(1 − p)i−1 p (distribuye geométrica).
Solución parte 3. La red de colas cuenta con n estaciones, una por cada examen. La tasa externa
de llegada a la estación i es λ(1 − p)i−1 p para i < n, y λ(1 − p)n−1 para i = n. La estación i
corresponde a una M/M/1, con tasa de atención es µ, y su tasa efectiva de llegada es λ(1 − p)i−1 .
La matriz de ruteo es tal que Pi+1,i = 1, para i < n.
Con esto, la condición de estado estacionario es λ < µ.
Solución parte 4. Las tasas efectivas de llegada a cada estación son las mismas en cada situación,
por lo que el número esperado de pacientes en el largo plazo en cada estación, y por lo tanto en el
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
138
sistema, es el mismo. Utilizando Little en ambas situaciones concluimos que el tiempo esperado de
estadia tambien es el mismo.
7.4.
Redes de Colas
Consideremos un sistema con k estaciones: las llegadas a la estación i desde el exterior forman
un proceso de Poisson con tasa λi ; esta estación cuenta con ci servidores, cada uno de los cuales
demora un tiempo aleatorio de distribución exponencial de tasa µi en atender a una entidad; una
vez atendida, una entidad se dirige a la estación j con probabilidad Pi,j , independiente de todo lo
demás.
Viendo el sistema de estaciones como un grafo dirigido G (donde los nodos son las estaciones y
existe un arco entre i y j si Pi,j > 0) tenemos que los argumentos presentados hasta ahora se
mantienen válidos mientras se cumpla que i) Pi,i = 0 para todo i; y ii) que G no contenga ciclos.
En este caso, tendremos que P es una matriz estrictamente triangular superior.
Para j ≤ k definimos λ¯j como la tasa efectiva de llegada a la estación j. Tenemos que el conjunto
de tasas efectivas (o throughput) son la única solución al sistema
λ̄j = λj +
X
Pi,j λ̄i ,
j ≤ k.
i
Ejemplo 6.8 (Calculo tasas efectivas)
Calculemos las tasas efectivas a la siguiente red (ver abajo), donde las entidades llegan a la red
a tasas γ, β, y α. Con esto, tenemos que
λ̄1 = γ
λ̄2 = γp + β
λ̄3 = (1 − p)γ
λ̄4 = (1 − p)qγ
λ̄5 = (1 − p)(1 − q)γ + α
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
139
β
2
p
γ
1
4
q
1−p
3
1−q
5
α
!
Importante: En general, tendremos que existe un vector de probabilidades estacionarias
cuando se cumple que λ¯j < cj µj para todo j ≤ k. En tal caso, los resultados anteriores se
mantienen, de forma que el vector de probabilidades estacionarias sigue estando dado por (1),
salvo que en este caso, πj corresponde al vector de probabilidades estacionarias de una cola
M/M/cj donde la tasa de atención es µj y las llegadas siguen un proceso de Poisson de tasa
λ̄j , para todo j ≤ k.
¿Qué ocurre si las entidades procesadas pueden volver a servidores? Por ejemplo, consideremos el
siguiente sistema con una sola estación, que cuenta con un único servidor.
γ −→
S1
p
1−p
Si bien el proceso de llegadas externas es un proceso de Poisson, el proceso total no será Poisson.
Para ver esto supongamos que la tasa γ es muy chica en relación a la tasa de atención µ (i.e.
γ/µ << 1), y que p = 0.01: cuando llega un cliente hay una posibilidad muy grande de que haya
otro arribo en un intervalo de tiempo corto (el mismo cliente que tiene que atenderse nuevamente),
siendo que en un intervalo cualquiera el tiempo entre llegadas debiese ser grande (debido a que γ
es pequeño), esto viola la propiedad de incrementos independientes.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
140
Supongamos ahora que la matriz de ruteo P no es estrictamente triangular superior. Aún podemos
representar el sistema como una cadena de Markov en tiempo continuo, donde el estado es un vector
n = (n1 , . . . , nk ) donde nj representa el número de entidades en la estación j, j ≤ k.
Como vimos anteriormente, los procesos de llegada a las estaciones no son necesariamente Poisson,
por lo que el sistema i no es necesariamente una fila M/M/ci , lo que dificulta el cálculo de las probabilidades marginales de ni . Más importante, es posible mostrar que la cadena de Markov asociada
al sistema no es reversible, lo que impide utilizar los argumentos que usamos para el caso de colas
en tandem. Sin embargo, del contenido de reversibilidad, sabemos que cuando una cadena no es
reversible, podemos tratar de adivinar un vector π junto a una matriz Q∗ , de forma que la cadena
reversa esté definida por Q∗ y las probabilidades estacionarias estén dadas por π. Recordamos aquel
resultado.
Proposición 6.1 (Caracterización probabilidades estacionarias) Consideremos una cadena de Markov caracterizada por Q. Si existe un vector de probabilidad π, y una matriz Q∗
tal que
∗
πi qi,j
= πj qj,i , i, j ∈ N,
y
X
j6=i
qij =
X
∗
qij
,
i ∈ N,
j6=i
entonces π es el vector de probabilidades estacionarias y Q∗ caracteriza a la cadena reversa.
Utilizaremos este resultado para calcular el vector de probabilidades estacionarias π. Para esto
debemos conjeturar π y el proceso reverso (definido por Q∗ ).
Conjetura para π. Nos pondremos en un caso muy optimista: supongamos que, si bien los procesos
de llegada a las estaciones no son Poisson, las probabilidades marginales de ni corresponde a aquella
de un sistema M/M/ci , para cada estación i ≤ k; adicionalmente, como en el caso de las colas
en tandem, supongamos que las componentes de n son independientes, con eso tenemos que un
candidato a vector π está dado por
π(n1 , . . . , nk ) =
k
Y
πj (nj ),
j=1
donde πj corresponde a las probabilidades estacionarias de una cola M/M/cj con llegada Poisson
de tasa λ̄j y atenciones exponenciales de tasa µj , donde {λ̄i , i ≤ k} corresponde a la solución del
sistema lineal.
X
λ̄j = λj +
Pi,j λ̄i , j ≤ k.
i
(Suponemos también que λ̄i < ci µi , para que exista estado estacionario.)
Conjetura para Q∗ . Conjeturamos que el proceso reverso es también un sistema de colas, de
forma que no caracterizamos Q∗ directamente, sino que a través de los elementos que definen una
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
141
red de colas. Entonces, para caracterizar dicho proceso necesitamos encontrar una matriz de ruteo
P ∗ y un conjunto de tasas de llegadas exteriores a cada estación {λ∗i : i ≤ k}.
Pensando en el proceso reverso, la tasa a la cual entidades pasan, en el largo plazo, desde la estación
i a la j debe coincidir con aquella con que las entidades pasan de la estación j a la i en el proceso
hacia adelante en el tiempo. Notando que tanto en el proceso hacia adelante en el tiempo como en
el reverso, la tasa de salida desde la estación i es λ̄i , i ≤ k, al igualar las tasas, concluimos que P ∗
debe ser tal que
λ̄j
∗
Pi,j
= Pj,i .
λ̄i
Por otro lado, salidas al exterior desde la estación i en el proceso adelante en el tiempo corresponden
a llegadas desde el exterior en el sistema reverso. Concluimos entonces que

λ∗i

= λ̄i 1 −
X
i ≤ k.
Pi,j  ,
j
Con estas dos conjeturas (respecto a π y Q∗ ) debemos corroborar que las condiciones en el resultado
de arriba se cumplen. Para esto, consideremos un par de estados n y n0 , y chequeamos que la
condición
π(n)qn,n0 = π(n0 )qn∗ 0 ,n
se cumple. Para simplificar el análisis, supondremos que ci = 1 para todo i, entendiendo que el
análisis se mantiene para el caso más general.
Caso I: n0 = (n1 , . . . , ni + 1, . . . , nk ). Notamos que la transición corresponde a una llegada desde el
exterior a la estación i para la cadena hacia adelante en el tiempo y una salida al exterior desde la
estación i para la cadena reversa. Por lo tanto, tenemos que
qn,n0 = λi ,
qn∗ 0 ,n = µi (1 −
X
∗
Pi,j
).
j
Notando que π(n0 ) = π(n)ρi , tenemos que
π(n) qn,n0
= π(n) λi
µi
= π(n0 ) λi
λ̄i
X
0 µi
= π(n ) (λ̄i −
Pj,i λ̄j )
λ̄i
j
= π(n0 ) µi (1 −
X
0
X
j
= π(n ) µi (1 −
Pj,i
λ̄j
)
λ̄i
∗
Pi,j
)
j
= π(n
0
) qn∗ 0 ,n .
Caso II: n0 = (n1 , . . . , ni + 1, . . . , nj − 1, . . . , nk ). Notamos que la transición corresponde a una
entidad que completa su atención en la estación j (i) y se mueve a la estación i (j), en la cadena
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
142
hacia adelante (reversa). Por lo tanto, tenemos que
qn,n0 = µj Pj,i ,
∗
qn∗ 0 ,n = µi Pi,j
.
Notando que π(n0 ) = π(n)ρi /ρj , tenemos que
π(n) qn,n0
= π(n) µj Pj,i
λ¯j µi
µj Pj,i
= π(n0 )
λ̄i µj
∗
= π(n0 ) µi Pi,j
= π(n0 ) qn∗ 0 ,n .
Caso III: n0 = (n1 , . . . , ni − 1, . . . , nk ). Notamos que la transición corresponde a una salida al
exterior a la estación i para la cadena hacia adelante en el tiempo y una llegada desde el exterior
a la estación i para la cadena reversa. Por lo tanto, tenemos que
qn,n0 = µi (1 −
X
Pi,j ),
qn∗ 0 ,n = λ̄i (1 −
X
j
Pi,j ).
j
Notando que π(n) = π(n0 )ρi , tenemos que
π(n) qn,n0
= π(n) µi (1 −
X
Pi,j )
j
= π(n0 )
X
λ̄i
Pi,j )
µi (1 −
µi
j
= π(n0 ) λ̄i (1 −
X
Pi,j )
j
= π(n0 ) qn∗ 0 ,n .
Hemos probado lo siguiente
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
143
Proposición 5.2 (Probabilidades estacionarias red de colas) En la red de colas con matriz de ruteo P arbitraria, si λ̄i < ci µi , para todo i ≤ k, tenemos que el vector de probabilidades
estacionarias está dado por
π(n1 , . . . , nk ) =
k
Y
πj (nj ),
j=1
donde πj corresponde a las probabilidades estacionarias de una cola M/M/cj con llegada
Poisson de tasa λ̄j y atenciones exponenciales de tasa µj , donde {λi , i ≤ k} corresponde a la
solución del sistema lineal.
X
λ̄j = λj +
Pi,j λ̄i , j ≤ k.
i
Adicionalmente, en estado estacionario: i) las salidas hacia el exterior desde la estación i forman
P
un proceso de Poisson de tasa λ̄i (1 − j Pi,j ); y ii) el número de entidades en las distintas
estaciones son variables aleatorias independientes.
Ejemplo 6.9 (Problema 5, Examen Recuperativo, Primavera 2018)
Considere las visitas al nuevo sitio web que ha lanzado Boris, en el cual da consejos para enfrentar entrevistas de trabajo. El mapa del sitio tiene una estructura de árbol, donde la raíz
representa la página de inicio del sitio (por lo tanto todas las páginas - salvo la raíz - tienen
una página madre y potencialmente múltiples páginas hijas - salvo las páginas hoja).
Visitantes al sitio web llegan a la raíz del sitio de acuerdo a un proceso de Poisson de tasa
λ. Cada vez que alguien llega a una página del sitio web, permanece en ella por un tiempo
exponencial de tasa µ (independiente de si la ha visitado en el pasado o no), tras lo cual puede
volver a la página madre, lo que ocurre con probabilidad p, o visitar una página hija (escogida
al azar), lo que ocurre con probabilidad 1 − p. En este contexto, visitar la madre del nodo raíz
representa abandonar el sitio, al igual que lo es visitar hijas de páginas hoja.
1. Modele el número de visitantes al sitio web (en todas sus páginas) como una red de
colas. ¿Qué condiciones son necesarias para que exista estado estacionario? Entrege una
expresión para las tasas efectivas de llegada a cada componente de dicha red.
2. Calcule las probabilidades estacionarias del sistema. ¿Cuánto tiempo pasa en promedio
un visitante navegando por el sitio web?
3. Verdadero o falso: si el sitio web de Boris tiene una capacidad para C visitantes simultáneos, podemos fácilmente calcular las probabilidades estacionarias de dicho sistema
simplemente escalando aquellas encontradas en la parte 2. Justifique su respuesta.
Solución parte 1. Cada página del árbol es una cola. Cada cola tiene capacidad infinita. Definamos
N como el conjunto de páginas y para i ∈ N definamos M (i) como la página madre de la página i,
H(i) el conjunto de hijas de la página i (esta página y conjunto son vacíos en el caso de la página
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
144
raíz y páginas hojas, respectivamente). La matriz de ruteo P es
p
j = M (i)
(1 − p)/|H(i)| j ∈ H(i).
(
Pi,j =
Dado que cada cola tiene capacidad infinita, no existen condiciones para alcanzar estado estacionario. Las tasas efectivas de llegada son la solución al siguiente sistema.
λi = λ 1{i es la pagina madre} + p
X
λj +
j∈H(i)
1−p
λ
,
|H(M (i))| M (i)
∀ i ∈ N.
Solución parte 2. Considerando la cadena de Markov subyacente, donde el estado n = (ni , i ∈ N ),
el vector de probabilidades estacionarias es
πn =
Y ρni
i
e−ρi ,
i∈N
ni !
donde ρi = λi /µ. Utilizando el hecho que la marginal del número de personas en la página i es
Poisson(ρi ), y que la esperanza de una Poisson es su parámetro, tenemos que
W =
L
1X
=
ρi .
λ
λ i∈N
Solución parte 3. Falso. La afirmación seria cierta si la cadena subyacente fuese reversible. En
este caso la cadena no lo es (por ejemplo, en el proceso reverso personas llegan desde fuera del
sistema a las paginas hoja, lo que no ocurre en el proceso original).
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
145
Ejemplo 6.10 (Problema 1, Control 5, Primavera 2018)
Un club de fútbol se apresta a escoger al Entrenador. para su equipo. Para esto, los k directores
entrevistan a los numerosos postulantes, quienes llegan a la sala donde se realizan las entrevistas
de acuerdo a un proceso de Poisson de tasa λ. Al llegar a dicha sala, los candidatos escogen al
azar a uno de los directores y proceden a esperar su turno para entrevistarse con el director. El
director i por su parte demora en entrevistar a un candidato un tiempo aleatorio distribuido
exponencial de tasa µi , para i ≤ k. Tras entrevistarse con un director, los candidatos se retiran.
1. Considerando que la sala de entrevistas solo tiene capacidad para C personas (excluyendo
a los directores), modele el estado de ocupación de los directores como una cadena de
Markov en tiempo continuo, entregue condiciones para la existencia de estado estacionario
y calcule (en forma cerrada) las probabilidades estacionarias asociadas.
2. Suponga ahora que las entrevistas se realizarán en el estadio del club (y por lo tanto
podemos considerar la capacidad infinita para cualquier fin práctico), pero que, sin embargo, al terminar la entrevista con uno de los directores, se le pide a un candidato que se
entreviste nuevamente con otro director con probabilidad p (independiente de con quién
y cuántas veces se ha entrevistado en el pasado, por lo que es posible que un candidado
se entreviste dos o más veces con un mismo director, pero nunca de forma consecutiva).
Modele el sistema de atención como una red de colas, determine las condiciones para la
existencia de probabilidades estacionarias y calcule el vector de probabilidades estacionarias.
3. ¿Cuánto tiempo espera en promedio un candidato hasta entrevistarse por primera vez?
¿Cuántas entrevistas tiene en promedio un candidato? ¿Cuánto tiempo en promedio pasa
en total un candidado en el sistema hasta abandonarlo?
4. ¿Cuánto tiempo pasa en promedio en el sistema un candidato, de quien se sabe que
solamente se entrevistó con dos o menos directores distintos?
Solución parte 1. Consideremos el sistema descrito en el enunciado, pero sin restricción de capacidad. Por lo tanto, se tiene k filas M/M/1, cada una con tasa de llegada λk y su respectiva tasa de
servicio µi . El vector s = (s1 , . . . , sk ) ∈ S = Nk0 con la cantidad de personas en cada una de las k
filas es una cadena reversible, ya que cada si lo es. Las probabilidades estacionarias de esta cadena
son
k Y
λ
λ si
πs =
1−
.
kµi
kµi
i=1
Podemos truncar esta cadena al conjunto A = {s ∈ S :
deseado, con probabilidades estacionarias
Qk
πsA = P
i=1
a∈A
Qk
λ
kµi
i=1
si λ
kµi
1−
ai Pk
i=1 si
λ
kµi
1−
≤ C}, resultando el sistema
λ
kµi
.
Finalmente, podemos ver que no existen condiciones de estado estacionario.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
146
p
Solución parte 2. Cada servidor i posee una tasa efectiva de llegadas λi = λk + j6=i k−1
λj . Estas
λ
tasas son todas iguales (λi = λj ∀ i, j), por lo cual se puede despejar y obtener λi = k(1−p)
para
P
todo i. Luego, como condición de estabilidad, se debe cumplir que
probabilidades estacionarias de este sistema entonces son
πs =
k Y
i=1
λ
k(1 − p)µi
si 1−
λ
k(1−p)
< µi para todo i. Las
λ
.
k(1 − p)µi
Solución parte 3. Sea WiQ el tiempo promedio de espera de un candidato si llega a hacer fila para
entrevistarse con el director i. Este valor es el mismo que se obtendría para una fila M/M/1:
WiQ =
λi
.
µi (µi − λi )
Desconociendo el director al que llega un candidato cualquiera, esta esperanza viene dada por
WQ =
k
X
WiQ ·
i=1
k
λi
1
1 X
=
· .
k
µ (µ − λi ) k
i=1 i i
El número de entrevistas por candidato puede ser visto como una variable aleatoria con distribución
1
geométrica de parámetro 1 − p. Por lo tanto, su esperanza simplemente es 1−p
.
Para calcular el tiempo esperado total en el sistema, podemos usar la ley de Little. Para esto,
definimos Li como el largo promedio en largo plazo de personas en la cola i y recordamos desde las
formulas de la cola M/M/1 que
λi
Li =
.
µi − λi
Dado que L =
i Li ,
P
tenemos que
W =
k
k
X
λi
1
1
1X
1
1
L=
=
· .
λ
λ i=1 µi − λi
(1 − p) i=1 µi − λi k
Solución parte 4. Consideremos momentaneamente un sub-sistema compuesto por 2 de los k
directores, digamos i y j. Usando el resultado de la parte anterior, tenemos que un candidato pasa
en promedio en este sub-sistema (en el largo plazo) un tiempo
Wi,j
1
=
2(1 − p)
1
1
+
µi − λi µj − λj
!
.
Ahora pensamos en Wi,j como el tiempo que pasa un candidato en el sistema, condicional en que
era posible visitar solo a los directores i y j. Obtenemos el resultado descondicionando sobre i y j,
notando que cualquier par de directores es equiprobable. Esto es,
W̃ =
{(i,j) :
Apunte de Cátedra
Wi,j
.
k(k − 1)
i6=j}
X
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
147
Ejemplo 6.11 (Problema 1, Control 3, Otoño 2018)
Considere la asistencia del publico a un partido de futbol profesional Chileno. Los hinchas
llegan a la entrada del estadio según un proceso de Poisson de tasa λ. En la entrada, un único
guardia se realiza el control de identidad a cada asistente. Esto demora un tiempo exponencialmente distribuido de media 1/µ1 (i.i.d.). Un asistente que pasa el control de identidad, con
probabilidad p se dirige directamente a su asiento, y con probabilidad (1 − p) primero pasa a
comprar un snack. El puesto de snacks es atendido por su dueño, quien atiende a un cliente
a la vez, demorando un tiempo aleatorio exponencial de tasa µ2 . Tras comprar su snack, los
asistentes se dirigen a sus asientos.
El partido dura lo que parece ser una eternidad. Cada asistente, independiente del resto, se
aburre y decide retirarse tras un tiempo aleatorio exponencial de tasa µ3 (contabilizado desde
el instante en que llegan a su asiento). Al retirarse del recinto, una fracción r de los asistentes
pasan por la tienda de souveniers ubicada al interior del estadio, la cual es atentida por un único
empleado, quien demora un tiempo aleatorio exponencial de tasa µ4 en atender a un cliente
(el resto de los asistentes se retira directamente sus casas). Una vez comprado un souvenier,
un asistente retorna con probabilidad q a su asiento (el resto se retira a sus casas).
1. Modele la situación descrita como una red de colas. Bajo que condiciones existe un estado
estacionario?
2. Que fracción del tiempo (en el largo plazo) pasa desocupado el dueño del puesto de
snacks?
3. Cuál es la probabilidad que hayan k personas viendo el partido (en el largo plazo)?
4. Cuanto pasa en promedio (en el largo plazo) un asistente en el estadio?
5. Cuanto pasa en promedio (en el largo plazo) un asistente en el estadio que no compra
souveniers?
6. En el entretiempo un carabinero llega supervisar la labor del guardia (en la entrada
al estadio). El carabinero se retira tras supervisar n controles de identidad. Calcule la
probabilidad que el carabinero este supervisando al guardia durante más de t unidades
de tiempo.
Solución parte 1. La representación gráfica del problema es:
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
148
Para analizar las condiciones en las que existe el estado estacionario, se plantean las siguiente
ecuaciones:
(1)
λ1 = λ
(2)
λ2 = λ1 · (1 − p)
(3)
λ3 = λ1 · p + λ2 + λ4 · q
(4)
λ4 = λ3 · r
Reemplazando (1) en (2), se obtiene:
(5)
λ2 = λ · (1 − p)
Ahora, reemplazando (1), (4) y (5) en (3), se obtiene:
λ3 = λ · p + λ · (1 − p) + λ3 · r · q
Obteniendo:
λ1 = λ
λ2 = λ · (1 − p)
λ
λ3 =
1−q·r
λ·r
λ4 =
1−q·r
Imponiendo condiciones de estabilidad, se tiene:
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
149
λ1 < µ1
⇒
λ2 < µ2
⇒
λ4 < µ4
⇒
λ < µ1
µ2
(1 − p)
µ4 · (1 − q · r)
λ<
r
λ<
Notemos que no se agrega la ecuación asociada al λ3 ya que al ser un sistema del tipo M/M/∞
tiene infinitos servidores (un servidor para cada entidad), por ende el proceso siempre alcanzara
estado estacionario.
Luego,
µ2
µ4 · (1 − q · r)
λ∗ = min{µ1 ,
,
}
(1 − p)
r
Solución parte 2. Notemos que el número de entidades del sistema M/M/1 se puede modelar como
una cadena de Markov de tiempo continuo, más específicamente como un proceso de nacimiento y
mierte. Así, como se vio en clases para un proceso de nacimiento y muerte de parámetros (λ, µ), se
tiene que:
λ
p0 = 1 − = 1 − ρ
µ
Y en general
pk = (1 − ρ) · ρk
es decir tiene una distribución geométrica. Como se pide la fracción de tiempo al largo plazo donde
el número de entidades en el sistema de la tienda de snack es cero, la solución es:
p0 = 1 − ρ = 1 −
λ2
λ · (1 − p)
=1−
µ2
µ2
Solución parte 3. Se debe identificar que estamos hablando de un proceso del tipo M/M/∞. Las
probabilidades estacionarias vienen dadas por
pk =
−λ
λk
·e µ ,
k
µ · k!
∀n = 0, 1, 2, ...
Entonces, la probabilidad que hayan k personas en el estadio (asiento) es:
pk =
λ
)k
( 1−q·r
(µ3 )k · k!
·e
λ
− 1−q·r
µ3
.
Solución parte 4. Notemos que un asistente se encuentra en el estadio desde el momento que entra al sistema, así, para encontrar e tiempo promedio que pasa un asistente en el estadio debemos
considerar los 4 sistemas.
Una de las relaciones de teoría de colas que se basa en Conservación en estado estacionario es la
fórmula de Little, donde sabemos
L=λ·W
(2)
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
150
donde λ es la tasa promedio de llegada de las entidades al sistema, L el número promedio de entidades en el sistema y W es el tiempo promedio de permanencia de una entidad en el sistema en
estado estacionario.
Así, como sabemos que la tasa promedio de llegada de los asistentes es λ, para poder calcular W
debemos despejarlo de (1)
L
W =
(3)
λ
Así, sólo nos falta calcular L, que se calcula como sigue
L = L1 + L2 + L3 + L4
Donde
ρ1
,
1 − ρ1
ρ2
,
=
1 − ρ2
λ1
λ
=
µ1
µ1
λ2
λ · (1 − p)
con ρ2 =
=
L2 = LM/M/1
µ2
µ2
λ3
λ
L3 = LM/M/∞ = ρ3 , con ρ3 =
=
µ3
(1 − q · r) · µ3
ρ4
λ4
λ·r
L4 = LM/M/1 =
, con ρ4 =
=
1 − ρ4
µ4
(1 − q · r) · µ4
L1 = LM/M/1 =
Por lo tanto,
W =λ·
con ρ1 =
λ
λ · (1 − p)
λ
λ·r
+
+
+
µ1
µ2
(1 − q · r) · µ3 (1 − q · r) · µ4
Solución parte 5. Del grafo asociado a la red de colas, vemos que alguien que no pasa por la
tienda de sourveniers pasa por la entrada, por el partido (asiento) y con probabilidad (1 − p) por
la tienda de snacks. Por lo tanto, tenemos que su tiempo de estadia en el sistema esta dado por
Wno souvenirs = W1 + (1 − p) · W2 + W3
= L1 /λ + (1 − p) · L2 /(λ · (1 − p)) + 1/µ3
1
1−p
1
=
+
+ .
µ1 − λ µ2 − (1 − p) · λ µ3
Solución parte 6. En estado estacionario, la salida de la estación “Entrada” es un proceso de
Poisson de tasa λ. Por lo tanto, denotando con X una variable aleatoria distribuida Poisson(λ · t),
tenemos que la probabilidad P que el carabinero este supervisando al guardia más de t unidades
de tiempo esta dada por
P
= P [X < n]
=
Apunte de Cátedra
n−1
X
(λ · t)k e−λ·t
.
k!
k=1
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
151
Ejemplo 6.12 (Pregunta 1, Control 3, Otoño 2019)
Los auxiliares del curso realizarán un horario de consulta para ayudar a resolver la tarea 3.
Los alumnos del curso (quienes para fines de esta pregunta son infinitos) llegan al horario de
consulta de acuerdo a un proceso de Poisson de tasa λ [alumnos/minuto]. Los alumnos son
recibidos por Sebastián, quien demora un tiempo aleatorio exponencial de tasa µ1 [1/minutos]
en determinar el tipo de asistencia requerida y derivar al alumno al auxiliar(es) encargado(s)
de entregar la asistencia pertinente.
De experiencias anteriores, se sabe que una fracción p de las consultas se refieren a aclaraciones
de enunciado, mientras que una fracción (1−p) se refiere a programación en Julia. Las consultas
relativas al enunciado son resueltas por Natalia y Simón: cada uno de ellos atiende un alumno
a la vez, y demoran un tiempo exponencial de tasa µ2 [1/minutos] en resolver una consulta. Por
su parte, las dudas relativas a Julia son resueltas por Pablo, quien demora un tiempo aleatorio
exponencial de tasa µ3 [1/minutos] en resolver una consulta.
Tras la resolución de una consulta de enunciado (Julia), pueden ocurrir 3 cosas: i) una duda
relativa Julia (enunciado) surge con probabilidad r (independiente de todo lo demás); ii) otra
duda surge con probabilidad q, pero no es claro su ámbito, por lo que el alumno vuelve a
consultar a Sebastián; o iii) no existen mas dudas, con lo que el alumno abandona el horario
de consulta. (q + r < 1)
De la misma forma, tras la resolución de una consulta de programación, pueden ocurrir 3
cosas: i) una duda relativa al enunciado surge con probabilidad r; ii) otra duda cuyo ámbito se
desconoce surge con probabilidad q ; o iii) el alumno abandona el horario de consulta.
1. Modele el horario de consulta como una red de colas, y determine las condiciones para
la existencia de estado estacionario.
2. Cuál es la probabilidad que, en el largo plazo, hayan i alumnos resolviendo (o esperando
resolver) consultas con Natalia y Simón? (Hint: escriba el resultado en función de ρ = 2λ̄µ22 ,
donde λ̄2 denota la tasa efectiva de llegada de consultas de enunciado).
3. Cuánto tiempo pasan en promedio (en el largo plazo) los alumnos que no tuvieron dudas
de enunciado en el horario de consulta? (Hint: muestre que el número de consultas de
programación de este tipo de alumno tiene distribución geométrica.)
4. Al cabo de mucho tiempo, Pablo, Natalia y Simón tienen una gran cantidad de alumnos
esperando. Cuál es la probabilidad de que Sebastián se encuentre desocupado en ese
instante?
Solución parte 1. Tenemos 3 estaciones, una M/M/1 (estación 1, Sebastian), una M/M/2 (estación 2, Natalia y Simon), y otra M/M/1 (estación 3, Pablo). Las tasas externas de llegada son
λ1 = λ, λ2 = λ3 = 0. La matriz de ruteo es tal que P1,2 = p, P1,3 = 1 − p, P2,3 = P3,2 = r y
P2,1 = P3,1 = q.
Las tasas efectivas de llegada son la solución al siguiente sistema.
λ̄1 = λ + q λ̄2 + q λ̄3
λ̄2 = pλ̄1 + r λ̄3
λ̄3 = (1 − p)λ̄1 + r λ̄2
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
152
Con un poco de álgebra, obtenemos que
1−r
1−r−q
p + (1 − p) r
= λ
(1 − r − q)(1 + r)
1 − p + pr
= λ
(1 − r − q)(1 + r)
λ¯1 = λ
λ¯2
λ¯3
Las condiciones de estado estacionario son λ̄1 < µ1 , λ̄2 < 2µ2 y λ̄3 < µ3 .
Solución parte 2. Modelando esta cola como un proceso de nacimiento y muerte, tenemos que
las probabilidades estacionarias estan dadas por
πi = π0 2ρi
i ≥ 1.
Despejando el valor de π0 , tenemos que
π0 =
1+
∞
X
!−1
2ρ
i
i=1
2
∞
X
!−1
ρ −1
i
i=0
2
−1
1−ρ
1−ρ
.
1+ρ
−1
Conclumos que πi = 2ρi 1−ρ
1+ρ , para i ≥ 0.
Solución parte 3. Notamos que el número de veces Xque un alumno en cuestión pasa por la
q
estaciónes 1 y 3 se distribuye geométrica con parámetro 1 − 1−r
, por lo tanto, la esperanza del
tiempo T que pasa este alumno en horario de consulta es
E{T } = (W1 + W3 ) · E{X} =
L1 L3
+
λ̄1
λ̄3
q
· 1−
1−r
−1
,
donde usamos Little para obtener los tiempos en las estaciones 1 y 3 (una pasada) y el hecho que
la esperanza de una variable geométrica (que parte en 1) es el inverso del parámetro.
Solución parte 4. Utilizamos el hecho que, en el largo plazo, el número de alumnos en cada
estación son variables aleatorias independientes. Por lo tanto, la probabilidad que Sebastián se
encuentre desocupado en el lago plazo es (desde las formulas de una M/M/1)
π0 = 1 −
Apunte de Cátedra
λ¯1
.
µ1
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
153
Ejemplo 6.13 (Pregunta 2, Control 3, Otoño 2019)
Una vez concluido el semestre, los (infinitos) alumnos del curso van de paseo a acampar a un
parque nacional que tiene N zonas ubicadas alrededor del lago conectadas por un único circuito
circular. Los alumnos llegan a la única boletería del parque según un proceso de Poisson de tasa
λ [alumnos/minuto], donde un único vendedor tarda un tiempo de distribución exponencial de
media 1/µ0 minutos en atender a cada alumno. Una vez dentro del parque, cada alumno tarda
un tiempo de distribución exponencial de media 1/µ en recorrer la zona en la que se encuentra,
tiempo tras el cual decide pasar a la siguiente zona del circuito con probabilidad p o abandonar
el parque con probabilidad 1 − p (cada zona cuenta con su propia salida). Todo visitante parte
su recorrido en la zona 1, y todo visitante que llega a la zona N abandona el parque después
de recorrer dicha zona.
1. Modele la situación como una red de colas, determine las condiciones para la existencia
de probabilidades estacionarias y calcúlelas.
2. En el largo plazo, cuánto tiempo pasa en promedio un alumno en el parque?
Los Domingos el acceso al parque es liberado, por lo que los visitantes pueden entrar directamente a cualquiera de zona del parque (sin pasar por boletería). En este escenario, los alumnos
continúan llegando al parque según un proceso de Poisson de tasa λ [alumnos/minuto], pero
eligen de forma equiprobable que zona recorrer primero. Una vez dentro del parque, tras recorrer una zona, un alumno decide avanzar a la siguiente zona, retroceder a la zona anterior
o abandonar el parque con igual probabilidad, independiente de las zonas que ha visitado con
anterioridad (para estos efectos, los visitantes en la zona N que deciden avanzar, lo hacen a la
zona 1, y los visitantes en la zona 1 que deciden retroceder, lo hacen a la zona N ).
3. Modele esta nueva situación como una red de colas, determine las condiciones para la
existencia de probabilidades estacionarias y calcúlelas.
4. En el largo plazo, cuánto tiempo pasa en promedio un alumno en el parque?
Solución parte 1. Tenemos N + 1 estaciones (la boletería, más cada zona). La boletería (estación
0) es una M/M/1, mientras que la zona i (estación i) es una M/M/∞. La tasas externas de llegada
son λ0 = λ, y λi = 0 para todo i > 0. La matriz de ruteo es tal que P0,1 = 1, y Pi,i+1 = p, para
todo i ∈ {1, . . . , N − 1}.
Las tasas efectivas de llegada a cada estación son
λ¯0 = λ,
λ̄i = pi−1 λ, i > 0.
La condición de estado estacionario es λ < µ0 .
El vector de probabilidades estacionarias es: para n = (n0 , n1 ·, nN )
π(n) = (1 − ρ0 )ρn0 0
N
Y
ρni
i
i=1
donde ρi =
λ̄i
µi ,
ni !
e−ρi ,
con µi = µ para i > 0.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Fenómenos de Espera
154
Solución parte 2. Utilizamos Little, y la formulas para el número promedio de gente en el sistema
para una M/M/1 y una M/M/∞. Tenemos que
L=
N
X
ρ0
+
ρi .
1 − ρ0 i=1
(Se puede desarrollar más usando la expresión para λ̄i , pero esta bien si lo dejan así). El resultado
viene de aplicar Little:
L
W = .
λ
Solución parte 3. Ahora tenemos N estaciones, todas M/M/∞. La tasa externa de llegada a la
zona i es λi = λ/N . La matriz de ruteo es tal que Pi,i+1 = Pi,i−1 = 1/3, donde se entiende que
i + 1 = 0 cuando i = N , y i − 1 = N cuando i = 1.
Las ecuaciones para calcular las tasas efectivas de llegadas son:
λ̄1 = λ/N + 1/3λ̄2 + 1/3λ̄N ,
λ̄i = λ/N + 1/3λ̄i+1 + 1/3λ̄i−1 ,
λ̄N
i ∈ {2, · · · , N − 1},
= λ/N + 1/3λ̄N −1 + 1/3λ̄1 .
Razonando por simetría, tenemos que la solucion al sistema es
λ̄i = 3λ/N,
∀i.
El vector de probabilidades estacionarias es: para n = (n0 , n1 ·, nN )
π(n) =
N
Y
ρni
i
i=1
donde ρi =
λ̄i
µi ,
ni !
e−ρi ,
con µi = µ para i > 0.
Solución parte 4. Razonando de la misma forma que en la parte 2, tenemos que
L=
N
X
i=1
ρi = N
3λ
Nµ
=
3λ
.
µ
Con lo que tenemos que W =
(Una forma alternativa de ver esto es pensar que cada alumno visita en promedio 3 zonas - esperanza
de una geométrica de parámetro 1/3; y que el tiempo promedio de visita a cada zona es 1/µ.)
3
µ.
Apunte de Cátedra
IN3272 - Decisiones Bajo Incertidumbre
Download