Decisiones Bajo Incertidumbre: Apunte de Cátedra IN3272

INGENIERIA INDUSTRIAL UNIVERSIDAD DE CHILE Apunte de Cátedra IN3272 Decisiones Bajo Incertidumbre Denis Sauré & Pablo Galaz 1 Marzo, 2022 1 Esta es una versión preliminar de los apuntes de cátedra del curso Decisiones Bajo Incertidumbre del Departamento de Ingeniería Industrial de la Universidad de Chile. Por favor, reportar errores, dudas y sugerencias a dsaure@dii.uchile.cl o pablo.galaz.c@ug.uchile.cl. Índice de Contenidos i Índice de Contenidos 1. Decisiones Bajo Incertidumbre 1.1. Optimización Bajo Incertidumbre . 1.1.1. Decisiones Estáticas . . . . 1.1.2. Decisiones Dinámicas . . . 1.2. Árboles de Decisión . . . . . . . . . 1.2.1. Preeliminares . . . . . . . . 1.2.2. Modelamiento y Resolución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 4 5 7 7 8 2. Programación Dinámica 20 2.1. Programación Dinámica Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2. Caso determinista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3. Caso Horizonte Infinito Descontado . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3. Cadenas de Markov en Tiempo Discreto 3.1. Clasificación de Estados . . . . . . . . . . . . . . . . . . . . 3.2. Período de un estado. . . . . . . . . . . . . . . . . . . . . . 3.3. Probabilidades Estacionarias . . . . . . . . . . . . . . . . . . 3.3.1. Condición I: Única clase recurrente. . . . . . . . . . 3.3.2. Condición II: Aperiodicidad. . . . . . . . . . . . . . 3.3.3. Existencia y cálculo de probabilidades estacionarias 3.4. Reversibilidad y Semi-Markov . . . . . . . . . . . . . . . . . 3.4.1. Reversibilidad . . . . . . . . . . . . . . . . . . . . . 3.4.2. Procesos Semi-Markovianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 41 44 45 46 46 47 55 55 60 Procesos de Poisson 4.1. Tiempo entre llegadas u ocurrencias . . 4.2. Distribución Condicional . . . . . . . . . 4.3. División y suma de procesos de Poisson. 4.4. Procesos de Poisson no homogéneos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 65 67 74 80 5. Teoría de Renovación 5.1. Ecuación de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Renovación con Recompensas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Proceso de Renovación Alternante. . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 87 92 95 6. Cadenas de Markov en Tiempo 6.1. Caracterización . . . . . . . . 6.2. Interpretación alternativa. . . 6.3. Probabilidades estacionarias . 6.4. Reversibilidad . . . . . . . . . 4. 7. . . . . Continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 103 104 106 116 Fenómenos de Espera 127 7.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 7.2. Ley de Little . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 7.3. Colas en Tandem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Índice de Contenidos 7.4. ii Redes de Colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 1. 1.1. 1 Decisiones Bajo Incertidumbre Optimización Bajo Incertidumbre Consideremos una versión general de un problema de optimización: z ∗ = máx{g(a) : a ∈ A}. (1) En este problema, buscamos maximizar una función objetivo g(·) sobre un conjunto de acciones posibles A. Normalmente imponemos condiciones sobre la función g(·) y el conjunto A de forma que el problema (1) esté bien definido. Una vez estas condiciones se cumplen, el campo de programación matemática, por ejemplo, se enfoca principalmente en desarrollar algoritmos eficientes para la resolución de estos problemas. Ejemplo 1.1 (Camino maś corto) El conjunto de acciones A puede representar todos los caminos entre los nodos s y t en un grafo dirigido G, y la función g(a) puede representar menos el largo del camino a ∈ A, de forma que la solución al problema es el camino más corto entre los nodos s y t. Técnicas de modelamiento permiten representar el conjunto A como un poliedro, y la función g como una función lineal. Con esta representación de programacion lineal, algoritmos especializados, como Simplex, pueden utilizarse para resolver el problema. En otros cursos de Modelamiento y Optimización se estudian problemas donde existía una forma natural de definir variables de decisiones y, por lo tanto, de definir el conjunto A (e.g. caminos en un grafo). Más importante aún, la función g también podía ser construida a partir de principios básicos del problema (e.g. el costo de cada camino), dada la ausencia de incertidumbre en el mapa desde decisiones a la utilidad que estas generaban. A continuación consideraremos situaciones donde, dada una decisión a un problema de operaciones, existe incertidumbre respecto a la utilidad eventualmente generada por dicha decisión. (Desde ahora en adelante siempre consideraremos un espacio de probabilidades (Ω, F, P)). Consideremos, por ejemplo, el problema del camino más corto. Ejemplo 1.2 (Camino más corto estocástico) En el problema del camino más corto, supongamos que primero uno decide el camino a a recorrer, y que luego de recorrerlo uno incurre en el costo c(a, ω) asociado al camino a ∈ A, donde ω ∈ Ω es el evento en el espacio muestral Ω realizado. El tomador de decisiones desconoce el valor de ω al momento de tomar la decisión. Además consideremos escenarios tales que para cada par de caminos (a, a0 ) existe un par de eventos (ω, ω 0 ) tales que c(a, ω) > c(a0 , ω) Apunte de Cátedra ∧ c(a, ω 0 ) < c(a0 , ω 0 ). IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 2 En el ejemplo anterior tenemos que cada camino es potencialmente subóptimo ex-post (i.e. después de observar la realización de la incertidumbre). Nuestro objetivo como tomadores de decisiones es escoger la “mejor decisión”, sin embargo, uno solamente puede juzgar objetivamente que decisión fue mejor a posteriori, después de observar la incertidumbre. Para optimizar sobre nuestras posibles decisiones, tenemos que formular un problema de la forma de (1). Sea g(a, ω) la utilidad obtenida por la acción a ∈ A bajo el escenario ω ∈ Ω. Lo que necesitamos entonces es definir un mapa M (o criterio de decisión) desde el conjunto de todas posibles utilidades a los reales, que represente nuestra función de utilidad. Esto es, g(a) = M ({g(a, ω), ω ∈ Ω}). Estos son algunos criterios posibles. Optimista (MAXIMAX): el tomador de decisión anticipa la mejor realización posible contingente en la acción tomada. Esto es, g(a) = máx({g(a, ω), ω ∈ Ω}). Pesimista (MAXIMIN): el tomador de decisión anticipa la peor realización posible contingente en la acción tomada. Esto es, g(a) = mı́n({g(a, ω), ω ∈ Ω}). Value at Risk (VaR): Adaptado a un problema de maximización, para un α ∈ (0, 1) el VaR representa el menor valor de x tal que la probabilidad que los beneficios obtenidos sean menores a x es mayor a α. Esto es, g(a) = ı́nf{x ∈ R : Fg(a,·) (x) > α}, donde FX representa la función de distribución de una variable aleatoria X. Salvo el último criterio, el resto no depende de la medida de probabilidad subyacente, i.e. no dependen de que tan frecuentemente uno espera que un evento ocurra. VaR incorpora esta información y trata de maximizar la ganancia que se obtiene (en el “peor” caso) con probabilidad (1 − α). Los distintos criterios de decisión modelan distintas preferencias por el riesgo. A priori ninguno de los criterios es superior o inferior a otro (esto depende de las preferencias del tomador de decisión). Durante el resto del curso normalmente nos enfocaremos en el más popular de estos criterios: Valor esperado: el tomador de decisión evalúa las alternativas en función del valor esperado de la ganancia monetaria que generan. Esto es, g(a) = E{g(a, ·)}. Pregunta: ¿Es el criterio de valor esperado un buen criterio? Respuesta: Depende, si se trata de una decisión que se tendrá que tomar persistentemente en el tiempo, y no existe descuento a las utilidades (esto esta asegurado por la Ley Fuerte de los Grandes Números), etc. La literatura ha demostrado que el criterio del valor esperado puede no representar Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 3 fidedignamente la toma de decisiones de personas. Consideren el siguiente ejemplo. Ejemplo 1.3 (La Paradoja de St. Petersburgo) Considere la siguiente apuesta: por el precio de x usted lanzará una moneda hasta obtener el primer “sello”, y recibirá un pago de 2n , donde n es el número de “caras” observadas antes de obtener el primer sello. ¿Cuánto está dispuesto a pagar por participar en dicha apuesta? Calculamos el valor esperado de la ganancia G obtenida. E{G} = ∞ X n=0 2n · P(# caras = n) − x = ∞ X 2n · n=0 1 − x = ∞. 2n+1 La teoría de utilidad esperada surge como una posible solución a la paradoja. La teoría plantea que las personas no perciben el dinero directamente como utilidad, sino que cuentan con una función de utilidad U y, por lo tanto, maximizan la utilidad esperada obtenida en un problema bajo incertidumbre. Utilidad Esperada: el tomador de decisión evalúa las alternativas en función del valor esperado de la utilidad generada. Esto es, g(a) := E{U (g(a, ·))}. Dependiendo de la forma de la función de utilidad se obtienen distintas preferencias frente al riesgo. En general, se espera que las funciones de utilidad sean no-decrecientes. • Comportamiento neutral al riesgo. Función de utilidad lineal en el pago. Decisiones equivalentes a utilizar el criterio de valor esperado. • Comportamiento averso al riesgo. Función de utilidad cóncava. Los tomadores de decisiones prefieren recibir el valor esperado del pago de la apuesta a participar en la apuesta. • Comportamiento amante del riesgo. Función de utilidad convexa. Los tomadores de decisiones prefieren participar en la apuesta a recibir el valor esperado del pago de la apuesta. Existe consenso que la teoría de Utilidad Esperada no representa una solución descriptiva de cómo las personas toman decisiones. Tomemos por ejemplo el resultado del siguiente experimento de campo. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 4 Ejemplo 1.4 (Prospect Theory) Considere los siguientes problemas de decisión. P1: P2: Recibir 4K con probabilidad 0.8 (A) vs Recibir 3K con seguridad (B). Recibir 4K con probabilidad 0.2 (C) vs Recibir 3K con probabilidad 0.25 (D). Un experimento de campo documenta que un 80 % de los participantes escogen B en el problema P1, y un 65 % prefieren C en el problema P2. Sin embargo, seteando (sin pérdida de generalidad) U (0) = 0, preferir B por sobre A implica que U (3K)/U (4K) > 4/5, mientras que preferir C sobre D implica que U (3K)/U (4K) < 4/5. La teoría de utilidad prospecta surge como una posible solución. Utilidad (prospecta) esperada: el tomador de decisión evalúa las alternativas en función del valor esperado de la utilidad generada. Esto es, e (g(a, ·) − R)}. f (a) = E{U Existen restricciones sobre la posible forma de la utilidad Ũ , y la forma de presentar el problema de decisión influencia el punto de referencia R. Entonces, se formulará el problema de toma de decisión bajo incertidumbre como un problema de optimización z ∗ = máx{g(a) : a ∈ A}. (2) donde g(a) = M (g(a, ω)) representa el uso de algún criterio de desempeño que permite resumir el conjunto de posibles utilidades {g(a, ω) : ω ∈ Ω} que resultan de aplicar una decisión a ∈ A cuando la incertidumbre se realiza en el evento ω ∈ Ω. Respecto al conjunto de acciones posibles A, haremos la distinción entre decisiones estáticas y decisiones dinámicas. 1.1.1. Decisiones Estáticas Son aquellas que se adoptan antes de observar cualquier información respecto a la incertidumbre ω y no se adaptan a cualquier información que se pueda observar. En términos prácticos, a ∈ A es no-aleatorio. Normalmente este tipo de decisiones se consideran cuando los problemas de decisión carecen de naturaleza intertemporal. En situaciones con múltiples períodos, estas decisiones reciben el nombre de “open loop”. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 5 Ejemplo 1.5 (Newsvendor Problem) Suponga usted debe comprar periódicos para vender mañana en su kiosco. Supondremos que puede comprar un número continuo de ejemplares a ≥ 0, que el costo de cada ejemplar es c y la demanda por periódicos es una variable aleatoria D ≥ 0 a.s. (con función de densidad f (·)), cuya realización es desconocida al momento de decidir el valor de a. Supondremos que el precio al que usted vende de cada ejemplar es p. Podemos ver que en esta situación g(a, ω) = p · mı́n{a, D(ω)} − c · a. Utilizando el criterio de valor esperado resolvemos el problema z = máx{p · E{mı́n{D, a}} − c · a : a ≥ 0} Para resolver el problema, escribimos la esperanza como una integral y derivamos las condiciones de primer orden. Esto es, a∗ la cantidad óptima, que corresponde a la solución de: Z a d p da 0 yf (y)dy + p(1 − F (a))a − c · a = 0, es decir 1.1.2. a∗ = F −1 (1 − c/p). Decisiones Dinámicas Muchas veces modelaremos la toma de decisión en múltiples períodos. En este tipo de situaciones, las decisiones en un período se adaptan a la información recopilada en períodos anteriores. Dicha información normalmente es aleatoria, por lo que las decisiones mismas resultan ser variables aleatorias. Consideremos un problema de decisión intertemporal, donde n indexa los períodos, de forma que n = 1 denota el primer período y n = N el último (para problemas de horizonte finito). A medida que avanzan los períodos, información es revelada: pensemos en que dicha información toma la forma de un conjunto In , tal que sabemos que ω ∈ In . Ejemplo 1.6 (Inventario multi-período) Supongamos que ahora el vendedor del Newsvendor problem vende revistas. Las revistas son relevantes por N días: el vendedor decide cada día cuantas revistas comprar, considerando que las revistas que no vende en un día pueden almacenarse en el kiosko, incurriendo en un costo de almacenaje h por ejemplar. La demanda diaria forma una secuencia de variables aleatorias {D1 , . . . , DN } distribuidas (en conjunto) de acuerdo a F . Los ejemplares que no se venden al final del horizonte se pierden. En esta situación, cuando al final del día n observamos que la demanda Dn realizada es dn , tenemos que In = {ω ∈ Ω : Dn (ω) = dn }. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 6 En estas situaciones, para definir el conjunto A tenemos que considerar qué acción se tomará en cada período y ante cualquier posible escenario de información que se pueda enfrentar. En este sentido, tenemos que una acción es un vector aleatorio a(ω) = (a1 (ω), . . . , aN (ω)), donde an denota la acción a tomarse en el período n. La naturaleza intertemporal del problema de decisión junto a esta definición implican que debemos imponer un mínimo de restricciones de consistencia a las acciones que se pueden considerar. En particular, queremos evitar escoger una solución a que toma decisiones distintas en el período n bajo eventos ω1 y ω2 que comparten historias idénticas hasta el período n − 1 (es decir, decisiones que hacen trampa y puden ver hacia el futuro). La definición de un espacio de probabilidades (Ω, F, P) considera una σ-álgebra F que representa esencialmente la familia de todos los subconjuntos de eventos a los cuales nos podrá interesar asignar probabilidades. En este contexto, Fn = σ(Is , s < n) ⊆ F, representa un σ-álgebra tal que cada conjunto de eventos contenido en ella también es un elemento de F y tal que dos eventos (ω1 , ω2 ) que comparten historias similares hasta el período n − 1 siempre están juntos en cualquier subconjunto perteneciente a Fn . Aquí, σ(A) denota el σ-álgebra generado por la clase de subconjuntos A; esto es, la mínima σálgebra contenida en F que contiene a todos los subconjuntos en A. El conjunto F = {Fn , n ≤ 1} se conoce como una filtración, y el espacio (Ω, F, F, P) se conoce como el espacio de probabilidad filtrado. Podemos pensar en Fn como la historia del proceso de toma de decisión hasta el comienzo del período n. En este contexto, consideraremos A como el espacio de todos vectores de decisiones factibles a (de acuerdo a la lógica subyacente al problema de decisión) tal que an es una variable aleatoria en el espacio de probabilidad (Ω, Fn , P). En términos más prácticos, an no puede tomar valores distintos para eventos que comparten historias hasta el período n. Una variable aleatoria a que cumple con la condición de arriba se dice que es adaptada a la filtración en cuestión. Entonces, consideraremos solamente como parte del conjunto A aquellos vectores aleatorios adaptados a la filtración. Dado que estos vectores entregan un valor para la decisión para cualquier posibles información disponible en cada periódo, nos referiremos a A como el conjunto de políticas de decisión factibles. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 7 Ejemplo 1.7 (Inventario multi-período - continuación) En el caso del Newsvendor multiperíodo, an representa el número de ejemplares a comprar al comienzo del período n. En este caso, las políticas de decisión deben decidir el valor de an solamente en función de la historia del proceso. Normalmente tratremos de resumir dicha historia en un número reducido de indicadores. Por ejemplo, suponiendo que D1 , . . . , Dn forma una secuencia de variables aleatorias independientes, la informacion histórica relevante para la toma de decisiones al comienzo de un período es simplemente el inventario de revistas disponibles al comienzo del período. En este caso, podremos escribir una política como un conjunto de funciones µ(·) = (µ1 (·), . . . µN (·)), donde µn (x) representa cuántos ejemplares ordenar cuando el inventario disponible al comienzo del período n es x. Parte del curso se enfoca en utilizar indicadores eficientes en nuestro modelamiento. Para madurar estas ideas, en particular el concepto de política de decisión, a continuación revisaremos el caso quizás más sencillo de modelo de toma de decisiones secuenciales. 1.2. 1.2.1. Árboles de Decisión Preeliminares Normalmente, en la resolución de problemas de decisión intertemporales, necesitaremos calcular la distribución de probabilidad de alguna variable aleatoria X (por ejemplo, en el caso del Newsvendor problem, la demanda en el período n), condicional en la realización y de los valores de un vector aleatorio Y (por ejemplo, la realización de las demandas en los períodos 1 al n − 1). Normalmente esta distribución no es entregada explicitamente y debe ser inferida del contexto del problema a través del Teorema de Bayes. En su forma más simple, el teorema de Bayes toma la siguiente forma. Teorema de Bayes. Sean A y B subconjuntos del espacio muestral Ω (en F), tales que P(B) > 0. Definimos la probabilidad de A condicional en B como P(A|B) := P(A ∩ B) . P(B) Entonces, suponiendo que P(A) > 0, tenemos que P(A|B) = Apunte de Cátedra P(B|A)P(A) . P(B) IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 8 Normalmente utilizaremos la distribución condicional en una variable aleatoria para calcular la distribución de dicha variable aleatoria condicional en el valor de la otra. Esto es, P(X = x|Y = y) = P(Y = y|X = x)P(X = x) . P(Y = y) De la misma forma, normalmente utilizamos el resultado anterior, en conjunto con la ley de probabilidades totales, para calcular la distribución de la variable aleatoria X en función de su distribución condicional en Y . Probabilidades Totales. Sea {Ai : i ∈ N} una partición del espacio muestral (i.e., tal que S Ai ∈ F y P(Ai ) > 0 para todo i, Ai ∩ Aj = ∅ para todo i 6= j, y n Ai = Ω). Entonces, para B ⊆ Ω en F, tenemos que X P(B) = P(B|Ai )P(Ai ). i Aplicado a la situación descrita arriba, tenemos que P(X = x) = X P(X = x|Y = yi )P(Y = yi ), i donde {yi : i ∈ N} denota el dominio de Y . 1.2.2. Modelamiento y Resolución A continuación consideraremos una clase de problemas donde existe una clara secuencialidad de las decisiones y arribo de la información. En particular, consideraremos situaciones donde Existe en nuḿero finito (normalmente muy bajo) de instantes de toma de decisiones. En cada instante, el número de opciones de acción es limitado (bajo), Existe un número limitado de fuentes de incertidumbre y la incertidumbre misma tiene un rango finito y limitado (las variables aleatorias involucradas pueden tomar un número bajo de valores). Los instantes de toma de decisión y revelación de la realización de las distintas fuentes de incertidubmre pueden ser ordenadas temporalmente de forma clara. Ejemplo 1.8 (Inversión bajo incertidumbre) Usted maneja una empresa que puede invertir en un nuevo proyecto, o no hacerlo. Si no invierte, las ganancias obtenidas en otras inversiones serán de $500; si invierte, hay un 70 % de probabilidad de ganar $800, y un 30 % de ganar $300; tras ello, si ganó $800 tendrá la posibilidad de retirarse, o bien de invertir nuevamente, en cuyo caso hay una probabilidad de 50 % de concluir con $1100 o con $100. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 9 El secuenciamiento de eventos en este ejemplo es claro. Primero debemos decidir si invertir o no; en caso de hacerlo, observaremos si el proyecto fue un éxito o no; en caso de tener éxito, debemos decidir si invertimos nuevamente o nos retiramos; finalmente, en caso de decidir invertir, observamos el resultado de la inversión. Para representar gráficamente esta situación, y eventualmente para encontrar la política de acción óptima, construiremos un árbol de decisión. Dicha construcción se basa en dos estructuras básicas. Problema básico de decisión. Consideramos un problema de decisión con un número finito de decisiones posibles a1 , . . . , aN , donde la decisión an entrega una utilidad gn . Representaremos este problema de forma gráfica con el árbol de la derecha(e.g. N = 3). Para resolver este problema de decisión simplemente elegimos la decisión an∗ que entrega el mayor valor para gn∗ .1 Asociaremos el valor gn∗ a este problema (cada vez que enfrentamos este problema, sabemos que su resolución óptima genera dicha utilidad). Resolución básica de incertidumbre. Consideremos un escenario donde existe un número finito de realizaciones posibles (x1 , . . . , xK ) para una variable aleatoria X, donde la realización xk se traduce en un beneficio gk . Sea pk = P(X = xk ); representaremos la situación de forma gráfica con el árbol de la derecha (e.g. K = 3). P Asociaremos el valor E = k gk · pk a esta situación (cuando enfrentemos esta situación obtenemos en valor esperado, E). g1 a1 máxn {gn } a2 g2 a3 g3 g1 p1 E= P k gk · pk p2 g2 p3 g3 Construcción de un árbol de decisión. Para representar un problema de decisión secuencial como un árbol, primero debemos identificar la secuencia en la cual se toman las decisiones y se obtiene información acerca de la realización de las distintas fuentes de incertidumbre. En particular, utilizaremos las siguientes convenciones: Representaremos cada instante de toma de decisión y cada revelación de información como nodos. Utilizaremos arcos dirigidos para indicar la secuencia en la cual se toman decisiones/se observa información acerca de la realización de incertidumbre. Un nodo cuadrado denota un punto de decisión. Los arcos que salen de este tipo de nodo representan las decisiones posibles a tomar en esa situación. 1 Esto es, en el caso de un problema de maximización. En el caso de un problema de minización, escogemos la accion que entrega el menor valor. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 10 Uno nodo circular denota un evento aleatorio. Los arcos que salen de este tipo de nodo representan las distintas posibles realizaciones de la incertidumbre asociada al nodo. Etiquetamos cada uno de estos arcos con la probabilidad de ocurrencia asociada. La estructura del árbol resultante debe representar la secuencia en la que decisiones/información son/es tomadas/reveladas. Para finalizar la construcción, asociamos a cada hoja del árbol la utilidad asociada g(a, ω). Esto es posible dado que el camino desde el nodo raíz del árbol hacia el nodo hoja contiene todas las decisiones tomadas (a), y todas las realizaciones de incertidumbre (ω) relevantes para determinar esta utilidad. A modo de ejemplo, consideremos el árbol asociado al Ejemplo 1.8, el cual toma la siguiente forma. NO INV 500 NO INV 800 1100 0.7 0.5 INV INV 0.3 0.5 300 100 Resolución de un árbol de decisión. Como mencionamos anteriormente, utilizaremos el criterio de valor esperado. La resolución consiste en inspecionar el árbol de decisión buscando las estructuras básicas mencionadas arriba (Problema básico de decisión y resolución básica de incertidumbre). Cada vez que resolvemos una decisión base en un nodo de decisión o asociamos un valor esperado a un nodo aleatorio, remplazamos la estructura básica por el valor asociada a dicha resolución (gráficamente, escribimos el valor asociado a la decisión óptima en el nodo de decisión, o escribimos el valor esperado en el nodo aleatorio). Este procedimiento se repite hasta que no existen más nodos por resolver. Normalmente esto implica comenzar resolviendo los nodos hojas, avanzando hacia el nodo raíz, calculando la esperanza en los nodos tipo evento y escogiendo el camino de máxima esperanza en los nodos de decisión. A modo de ejemplo, resolvamos el árbol asociado al Ejemplo 1.8. En dicho árbol podemos comenzar resolviendo el nodo evento asociado al resultado de la segunda inversión. La ganancia esperada está dada por 0.5 × 1100 + 0.5 × 100 = 600 Con este valor, podemos resolver el nodo de decisión asociado a la segunda decisión de inversión: notamos que la mejor decisión es no invertir. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre INV NO 11 500 INV NO 800 800 1100 0.7 0.5 INV INV 600 0.3 0.5 300 100 Ahora podemos analizar el nodo evento asociado al resultado de la primera inversión. La ganancia esperada es 0.7 × 800 + 0.3 × 300 = 650 Finalmente, analizamos el nodo decisión asociado al primera decisión de inversión. Notamos que es óptimo invertir en primera instancia. Con esto hemos resuelto este problema de inversión. NO INV 500 NO 650 INV 800 800 1100 0.7 0.5 INV INV 650 600 0.5 0.3 300 100 Es posible utilizar otros criterios de decisión, en lugar del valor esperado. Sin embargo, el método de resolución debe ajustarse al criterio, y en el peor de los casos, se deben enumerar todas las posibles políticas de decisión, En este sentido, note que una política corresponde a una selección para cada nodo de decision. A modo de ejemplo, supongamos que el criterio de decisión en el Ejemplo 1.8 es maximizar el Var a nivel α = 0.5. Es fácil ver que el VaR asociado a la política NO INV es $500, el asociado a INV-NO INV es $ 800, y el asociado a INV-INV es $300. De acuerdo a este criterio, la política óptima es INV-NO INV. Notamos que el mecanismo de resolución fue la enumeración completa. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 12 Ejemplo 1.9 (Copa América) Un estudiante de un curso de Investigación de Operaciones ganó un concurso para asistir a la Copa América 2019. Sin embargo, sus intenciones de asistir se vieron truncadas ya que el último control del curso está fijado para la semana en la que inicia el torneo. Es sabido que el examen del curso es impasable, por lo que la única opción de aprobar el curso es eximirse del examen. Mediante ciertos métodos logró estimar ciertas probabilidades que le ayudarán a tomar una decisión óptima. Si el estudiante decide ir, sabe que, dada la contingencia nacional, la facultad se podría ir a paro, cuya fecha y duración coincidirán convenientemente con la fecha y duración del torneo. Esto ocurre con probabilidad p. Si hay paro, el estudiante estimó que con probabilidad q = 13 puede eximirse del examen. Por otro lado, si no sale paro, el estudiante está obligado a dar el examen, con lo que reprobaría. Por otro lado, si el estudiante decide no ir a la Copa, se eximirá con total seguridad del examen. Usando el mismo tipo de métodos, logró estimar que su utilidad en caso de asistir al certamen deportivo es de R [u.m.], su utilidad en caso de eximirse es de 23 R [u.m.], y en caso reprobar, incurre en un costo 23 R [u.m.]. 1. Plantee el árbol de decisión asociado al problema que enfrenta el estudiante. Encuentre la política de decisión óptima en función de p. 2. Aún con dudas sobre la decisión a tomar, el estudiante decide preguntar a un experimentado consultor astral. Se sabe que el astrólogo acierta en un 90 % sus predicciones. Es decir, el 90 % de las veces que hubo paro (resp. no hubo paro), el astrólogo predijo paro (resp. no paro). La consulta tiene un costo de C [u.m.]. Si p = 0.8, ¿conviene hacer la consulta?. En caso de que convenga, ¿cuál es la política de decisión? Solución parte 1. El árbol de decisión se presenta a continuación: Ir máx 4 1 2 Rp + R, R 9 3 3 4 1 Rp + R 9 3 1 R 3 aro No p p) (1 − p Paro No ir 7 R 9 2 R 3 irse Exim 1/3 2/3 No e ximir se 5 R 3 1 R 3 Utilizando el caso en el que el estudiante es indiferente entre ir i no ir: 4 1 2 3 Rp + R = R =⇒ p = 9 3 3 4 Luego, la política de decisión es: Si p > 34 , el estudiante decide ir al torneo. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 13 Si p = 43 , el estudiante está indiferente entre ir y no ir. Si p < 34 , el estudiante decide no ir. Solución parte 2. Reemplazando p = 0.8 en el resultado de la parte anterior, se tiene que el estudiante decide ir a la Copa, pues su utilidad es de ≈ 23 R [u.m.]. Se definen los eventos: P : sale paro N P : no sale paro AP : astrólogo predice paro AN P : astrólogo predice no paro Del enunciado, sabemos que P(P ) = probabilidades totales, se tiene que: 4 5, P(N P ) = P(AP ) = P(AP |P )P(P ) + P(AP |N P )P(N P ) = 1 5, P(AP |P ) = P(AN P |N P ) = 9 10 . Usando 9 4 1 1 37 · + · = = 0.74 = 1 − P(AN P ) 10 5 10 5 50 Ahora, nos interesa conocer las probabilidades de que salga paro o no, condicionado en lo que diga el astrólogo. Para eso, usamos el Teorema de Bayes: P(P |AP ) = P(AP |AP ) · P(P ) = P(AP ) P(P |AN P ) = P(AN P |P ) · P(P ) = P(AN P ) 9 4 10 · 5 37 50 = 4 1 10 · 5 13 50 = 36 ≈ 0.97 = 1 − P(N P |AP ) 37 4 ≈ 0.3 = 1 − P(N P |AN P ) 13 El nuevo árbol es muy parecido al anterior, por lo que sólo se detallarán las nuevas componentes. aro No p 0, 03 ≈ 0.76R Ir ta≈ 0.74R − C nsul Co máx 2 R; 0.74R − C 3 Apunte de Cátedra cons ulta 2 R 3 0, 76R No i r P Pred Sin 0.74 ro e pa redic 0 . 26 ice n o pa r No i ro 2 R 3 0,97 Paro 1 R 3 7 R 9 2 400 R 3 Ir ≈ 1 R 2 aro No p 0 .7 0.3 Paro IN3272 - Decisiones Bajo Incertidumbre 1 R 3 7 R 9 Decisiones Bajo Incertidumbre 14 Si C < 0.08R [u.m.], le conviene hacer el estudio. Si el astrólogo predice paro, el estudiante decide ir. En cambio, si el astrólogo predice que no habrá paro, el estudiante decide no ir. Ejemplo 1.10 (CTP 1, Otoño 2018) El profesor del curso se encuentra buscando un ayudante de investigación y ha decidido entrevistar a 3 estudiantes del curso para llenar esta posición. El profesor entrevista a los 3 estudiantes uno tras otro y sabe que a priori cada estudiante es excelente/regular/malo con igual probabilidad. La verdadera calidad del estudiante solo es determinada durante la entrevista: al final de cada entrevista, el profesor debe decidir si contratar al estudiante o no. Si lo contrata, las entrevistas restantes se suspenden (hay solo una posición de ayudante de investigación); si no lo contrata, el estudiante inmediatamente toma otro trabajo incompatible con la posición de ayudante de investigación (todo esto antes del comienzo de la entrevista al siguiente estudiante). El profesor sabe que un estudiante excelente cumple su labor de investigación con certeza; un estudiante regular la cumple con probabilidad 2/3; y un estudiante malo la cumple con probabilidad 1/3. 1. Encuentre una política de contratación para el profesor que maximice la probabilidad que las labores de investigación se cumplan. 2. Otro profesor amablemente le comenta que él conoce la calidad de cada estudiante, puesto que los ha tenido de ayudantes de investigación en un proyecto, y que esta dispuesto a revelar dicha calidad por 3 unidades de prestigio. El profesor valora un aumento de 1 % en la probabilidad de cumplir las labores de investigación en 1 punto de prestigio. ¿Cuánto estaría dispuesto el profesor a pagarle al otro profesor? Solución parte 1. El árbol de decisión de la primera pregunta se presenta más abajo. Respecto a los pagos asociados al arbol, consideremos primero el caso de un alumno al azar. P(alumno al azar cumple ) = X i = 1· P(alumno cumple | calidad = i)P( calidad = i) 1 2 1 1 1 1 2 1 2 + · + · = + + = 3 3 3 3 3 3 9 9 3 Esta probabilidad representa el pago si tras entrevistar al segundo alumno, se decide no contratar (puesto que no se tiene información acerca del tercer alumno, y este se contratará de todas formas, independiente de su calidad). Sea q la probabilidad de eventualmente cumplir la tarea cuando no se contrata al primer alumno entrevistado. Tenemos que q = 1· 1 2 1 2 1 1 2 2 7 + · + · = + + = 3 3 3 3 3 3 9 9 9 Finalmente, tenemos que la probabilidad p de eventualmente cumplor con el trabajo, está dada por p=1· Apunte de Cátedra 1 7 1 7 1 1 7 7 23 + · + · = + + = . 3 9 3 9 3 3 27 27 27 IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 15 Si 1 o 3 1 No n ue B 7 9 Regular Ma 1 3 lo 1 3 No 1 2 3 2 3 Si Si No Si No 1 Bu eno 1 3 Si 1 o en 3 No Bu 7 9 23 27 1 1 Regular 3 7 9 Regular 1 3 Ma lo 1 3 No 2 3 2 3 Si 2 3 Si No Si No 1 2 3 2 3 2 3 1 3 2 3 1 2 3 2 3 2 3 1 3 2 3 1 lo 3 Ma 1 3 7 9 Si Si 1 o 3 n e 1 No Bu No 7 9 Regular Ma 1 3 lo 1 3 2 3 2 3 Si No Si No 1 2 3 2 3 2 3 1 3 2 3 Solución parte 2. El árbol de decisión de la segunda pregunta se presenta a continuación: Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 16 1 eno bu 1 nos me 19 l A 27 2 3 Al menos 1 regular y 0 buenos 72 81 7 27 To dos ma los 1 27 Si 23 27 1 3 N o Árbol Anterior = 23 69 = 27 81 La decisión final que se debe tomar es si tomamos la oferta del otro profesor, para esto consideramos el caso en que no la tomamos y que corresponde al caso del árbol anterior versus el caso en que si deseamos tomar la información del otro profesor que se calcula de la siguiente forma. Como se nos revelará la calidad de los ayudantes debemos considerar los casos en que: Existe al menos 1 ayudante bueno, por lo tanto el trabajo se realizará con certeza (valor 1) Existen 0 buenos y al menos 1 regular, por lo tanto el trabajo se realizará con probabilidad 2/3 Son todos malos, por lo tanto el trabajo se realizará con probabilidad 1/3 Los valores mencionados anteriormente corresponden a los pagos, ahora veremos con qué probabilidad ocurre cada caso. Para esto, podemos modelarlo como la probabilidad de obtener k elementos con probabilidad p, es decir, como una Binomial. Entonces, las probabilidades para cada caso son: Al menos 1 ayudante bueno: P(Al menos 1 ayudante bueno) = P(1 Bueno) + P(2 Buenos) + P(3 Buenos) 3 1 · 1 3 ! = 2 2 3 =3 · Apunte de Cátedra 1 · 3 + 2 3 3 2 2 ! 1 2 2 3 + 3 · · 3 3 3 + 2 1 2 3 · 3 ! 1 3 2 0 + 3 · 3 3 1 3 IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 17 = 2 1 19 4 + + = 9 9 27 27 Todos los ayudantes malos P(T odos los ayudantes malos) = P(3 malos) = = P(T odos los ayudantes malos) = P(3 malos) = 3 3 ! 1 3 2 0 3 3 ! 1 3 2 0 3 3 3 3 0 ayudantes buenos y al menos 1 regular P(0 Buenos y al menos 1 Regular) = 1 − P(Al menos 1 Bueno) − P(T odos M alos) =1 − 19 1 7 − = 27 27 27 Ahora ya tenemos los pagos en base a qué tan bueno será el trabajo de cada tipo de ayudante y tenemos la probabilidad de que contratemos cada tipo de ayudante dado que el otro profesor nos entregó la información, por lo tanto queda calcular la esperanza de la calidad del trabajo y queda así: P(Calidad del trabajo) = 1 · 19 2 7 1 1 72 + · + · = 27 3 27 3 27 81 69 Claramente, 72 81 > 81 del árbol anterior por lo que calcularemos si le conviene al profesor del curso pagar por la información del otro profesor. Recordar que el valor de la información era de 3 puntos de prestigio y que el profesor del curso gana 0.1 puntos de prestigio por cada punto porcentual que aumenta la calidad del trabajo, entonces: 72 69 3 3 − = ⇒ ¿Qué porcentaje aumentó? ⇒ · 100 = 3.7 % 81 81 81 81 Calculando los puntos de prestigio obtenidos por el aumento porcentual 3.7 % · 0.1 = 0.37 puntos de prestigio El profesor gana 0.37 pts de prestigio versus los 3 puntos de prestigio que le cobra el otro profesor. Por lo tanto, no le conviene consultar. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre 18 Ejemplo 1.11 (Problema 1, Control 1, Primavera 2019 Boris quiere ser elegido Primer Ministro de una nación europea, y para esto debe convencer a por lo menos k otros miembros del parlamento de votar por él en la próxima sesión parlamentaria. Actualmente quedan H horas hasta dicha sesión, tiempo durante el cuál Boris puede sostener reuniones individuales con los parlamentarios de su elección. Cada reunión dura exactamente una hora, y al cabo de la cual el parlamentario en cuestión compromete o no irrevocablemente su voto a Boris. En particular, Boris sabe que el parlamentario i ∈ N compromete su voto (a favor) con probabilidad pi , pero solo acepta reunirse si previo a la reunión todos los parlamentarios en un conjunto Si ⊆ N ya han comprometido su voto a Boris, donde N representa el conjunto de todos los parlamentarios. Suponga que inicialmente Boris no se ha reunido con ningún parlamentario, que ningún parlamentario aceptará reunirse en más de una ocasión, y que ningún parlamentario que no se reuna con Boris votará por él. Boris desea decidir tras cada reunión, con que parlamentario reunirse a continuación, de forma de maximizar la probabilidad de ser elegido Primer Ministro. Considere el caso N = {1, 2, 3, 4, 5}, S1 = ∅, S2 = ∅, S3 = {1}, S4 = {2},S5 = {1}, Pi = i/10, k = 2, H = 3, y resuelva el problema utilizando árboles de decisión. Solución. Ver el árbol a continuación. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Decisiones Bajo Incertidumbre Apunte de Cátedra 19 IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 2. 2.1. 20 Programación Dinámica Programación Dinámica Estocástica A continuación retomamos el tema de toma secuencial de decisiones, utilizando políticas dinámicas. De la sección anterior, sabemos que dicho tipo de problema puede ser escrito de la siguiente forma. máx{E{g(a, ω) : a ∈ A}}. (1) En esta sección nos concentraremos en problemas de decisión dinámicos, por lo que restringiremos nuestra atención a funciones objetivos que pueden ser escritas como la suma de contribuciones por etapa, para un conjunto finito de etapas. Esto es, consideraremos el caso: g(a, ω) = N X gn (an , ω). n=1 En la función de arriba interpretamos el índice n como la etapa del problema, presuponiendo que las decisiones se hacen en un orden temporal, lo que afecta la forma en que se recopila la información. En este sentido, la componente gn (·) representa la ganancia que se recibe durante el período n y an representa la decisión que se toma en el período n. En teoría, para resolver (1) necesitamos buscar una política entre los vectores aleatorios adaptados a la historia del proceso. Para simplicar la representación del conjunto A, definiremos una variable de estado Sn que representa la información relevante para tomar la decisión en el período n. Con esto, relegamos la incertidumbre al estado del sistema Sn y representamos una política factible como un vector de funciones µ = (µ1 (·), . . . , µN (·)), donde µn (Sn ) representa la acción a tomar cuando uno se encuentra en el estado Sn al comienzo del período n. Considerando esta nueva representación, haremos explícita la dependencia de la función de ganancia en el estado del sistema. Esto es consideramos g(an (ω), ω) ≡ gn (µn (Sn (ω)), Sn (ω), ω). Normalmente omitiremos las dependencias en ω, donde se entiende que la variable de estado es aleatoria. Con esto, para un estado inicial S1 dado, podemos reescribir (1) de la siguiente forma. ∗ ( ( N X J (S1 ) = máx E ) gn (µ(Sn ), Sn , ω) ) :µ∈U , (2) n=1 donde U representa el conjunto de políticas factibles. Observamos que ahora la optimización es sobre un conjunto de funciones. Normalmente consideraremos sistemas donde tanto el número de estados como el de acciones son finitos. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 21 Ejemplo 2.1 (Inventario multi-período) Retomemos el problema del Newsvendor multiperíodo. Dado el supuesto de demandas aleatorias independientes, tenemos que el número de ejemplares disponibles al comienzo del período n es suficiente para tomar la decisión acerca de cuánto ordenar en el período n. Con esto, definimos Sn = # de ejemplares en inventario al comienzo del período n. Con esto tenemos que el problema de optimización toma la siguiente forma. ( ( N X máx E ) p mı́n{µn (Sn ) + Sn , Dn } − c µn (Sn ) − h máx{0, µn (Sn ) + Sn − Dn } ) :µ≥0 , n=1 donde µk (·) representa cuanto ordenar al comienzo del período n en función del inventario al comienzo de dicho período. Es importante notar que existen muchas formas de definir las variables de estado que son suficientes para tomar la decisión en el período n: siempre trataremos de escoger aquella con mínimos requerimientos de memoria. También es importante notar que la condición de suficiencia es importante. Por ejemplo, si las demandas no fuesen independientes en el ejemplo de arriba, entonces sería necesario agregar información acerca de las ventas en todos los períodos anteriores a n a la variable Sn , dado que esta información ayudaría a estimar de mejor forma la demanda futura. Supongamos que µ∗ denota la solución óptima a la formulación base (2). La técnica de resolución que estudiaremos a continuación se basa en el siguiente principio. Principio de Optimalidad. Sea µ∗ la política óptima del problema base, y supongamos que un estado Sn ocurre con probabilidad positiva cuando usamos la política µ∗ . Consideremos el sub-problema donde acumulamos ganancias solo a partir del período n, partiendo desde el estado Sn , i.e. ( ( N X Jn (Sn ) = máx E ) qk (µk (Sk ), Sk , ω) ) : (µn , . . . , µN ) ∈ Un , k=n donde Un denota la proyección de U en las componentes n en adelante. La política óptima para el sub-problema es µ̃∗ = (µ∗n , µ∗n+1 , . . . , µ∗N ) para todo estado inicial Sn . Para modelar la dinámica temporal del estado del sistema, consideraremos la relación entre la variable de estado en un período y aquella en el siguiente período, como función de la decisión tomada en un período y la incertidumbre en el sistema. Esto es, planteamos que existe un mapa fn (·) tal que Sn+1 (ω) = fn (µn (Sn ), Sn , ω), ∀ n, donde hacemos explícito el hecho que Sn+1 es aleatoria. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 22 Ejemplo 2.2 (Inventario multi-período - recursión de estados) En el caso del Newsvendor multiperíodo, tenemos que dicho mapa esta dado por Sn+1 (ω) = máx{0, µn (Sn ) + Sn − Dn (ω)). El algoritmo de Programación Dínamica que presentamos a continuación se basa en el siguiente argumento: cuando enfrentamos la decisión del período n, no nos importa la historia del proceso más allá de aquella información contenida en Sn , por lo tanto podemos recuperar la política óptima resolviendo una secuencia de sub-problemas. Esto implica que, suponiendo que conocemos las soluciones a los sub-problemas, podemos formular el problema de decisión del período n, para un estado fijo Sn , como un problema de decisión tradicional (donde la decisión no es ni una variable aleatoria, ni una función). El Algoritmo de Programación Dínamica. Para cada condición inicial S1 , la ganancia óptima J ∗ (S1 ) asociada al problema base (2) es igual a J1 (S1 ), donde la funcioń J1 (·) esta dada por el siguiente algoritmo recursivo, que parte en el período (ficticio) N + 1, y se mueve hacia atrás en períodos hasta llegar al período 1: JN +1 (SN +1 ) = 0, Jn (Sn ) = (3) máx {E {gn (un , Sn , ω) + Jn+1 (fn (un , Sn , ω))}} , un ∈Un n≤N (4) donde el valor esperado se toma respecto a ω. Adicionalmente, sea µ∗ la política tal que µ∗n (Sn ) = u∗n , donde u∗n denota la solución a (4), para todo valor de Sn , con n ≤ N , entonces µ∗ una solución óptima a (2). La ecuación (4) se conoce como la ecuación de Bellman. Es importante notar que en la ecuación de Bellman, la optimización es directamente sobre una acción, no sobre una función. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 23 Ejemplo 2.3 (Tarea 1, Otoño 2018) El profesor de un curso se encuentra buscando un ayudante de investigación, y ha decidido entrevistar (secuencialmente) a todos los estudiantes del curso para llenar esta posición. La calidad de un estudiante cualquiera es una variable aleatoria que toma valores entre 1 y 7 (solo con valores enteros), cada nota tiene igual probabilidad. La calidad de un estudiante se revela durante la entrevista. Al final de cada entrevista, el profesor debe decidir si contratar al estudiante o no. Si lo contrata, las entrevistas restantes se suspenden (hay solo una posición de ayudante de investigación); si no lo contrata, el estudiante inmediatamente toma otro trabajo incompatible con la posición de ayudante de investigación (todo esto antes del comienzo de la entrevista al siguiente estudiante). El profesor sabe que un estudiante de calidad i cumple su labor de investigación con probabilidad i/7, i = 1, . . . , 7. Modele el problema de maximizar la calidad esperada del estudiante contratado mediante un modelo de programación dinámica. Solución: Claramente las etapas están dadas por los alumnos, por lo que período n = entrevista con el n-ésimo estudiante. Sea Qn la variable aleatoria que representa la calidad del estudiante n. Sabemos que P(Qn = k) = 1/7, k ∈ {1, . . . , 7}. Nuestra decisión es si contratamos o no al estudiante n una vez que conocemos su calidad. 1 0 ( un = contratamos al estudiante n, ∼. Dado que estado debe representar la información necesaria para tomar dicha decisión, tenemos que Sn = Qn (calidad observada del estudiante n.) Con esta definición de estado, la dinámica de la variable de estado está dada por2 Sn+1 = Qn+1 (ω) (calidad aleatoria del próximo estudiante.) La recursión de Bellman esta dada por: JN +1 (·) = 0 ( Jn (Sn ) = máx Sn , 7 1X Jn+1 (k) . 7 k=1 ) Notamos que el primer término en el máximo arriba representa la decisión de contratar al estudiante n, mientras que el segundo representa la decisión de pasar a la entrevista del estudiante n + 1. 2 Notemos que fn (un , Sn , ω) = Qn+1 (ω) calza con la estructura para la recursión, dado que Qn+1 es una variable aleatoria, por lo que es precisamente una función de ω. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 24 Ejemplo 2.4 (Pregunta 1, Control 1 Primavera 2018) Suponga que usted se encuentra asesorando a un grupo de N senadores del congreso estadounidense durante la votación para confirmar al próximo juez de la corte suprema. Durante la votación, los senadores son llamados a votar en el piso del senado en orden aleatorio. Al ser llamado, cada senador pronuncia si está a favor o en contra de la confirmación. Sus empleadores (los N senadores en cuestión) están interesandos en votar a favor de la opción ganadora, por lo que le han encargado a usted decirles por qué opción deben votar al momento de ser llamados. Usted sabe que cada senador (excluyendo a sus empleadores) votará por confirmar al juez, independientemente del resto y del resultado parcial de la votación, con probabilidad p. Suponga que el número total de senadores es impar, y que gana la opción más votada. De esta forma, los senadores comienzan a ser llamados en orden aleatorio; si no es el turno de uno sus empleadores, el senador vota por confirmar al juez con probabilidad p; si es el turno de uno de los N senadores, usted decide por que opción votará el senador en función del conteo parcial de votos, como han votado sus empleadores hasta el momento, y cuantos de sus empleadores quedan por votar. Considerando que el senado esta compuesto por M senadores (incluyendo a sus empleadores, con M > N ), defina un problema de programación dínamica que maximize la esperanza del número de sus empleadores que vota por la opción ganadora. (Hint: defina como etapas cada una de las ocasiones de voto, M en total, independiente de si el voto es dado por uno de sus empleadores.) Solución #1. Etapas: las ocasiones de voto: en la etapa n le toca votar al n-esimo senador llamado a votar. Estado: Sn = (Sn1 , Sn2 , Sn3 ) • Sn1 = votos registrados a favor de la confirmación justo antes que vote el n-esimo senador • Sn2 = cuantos de sus empleadores quedan por votar • Sn3 = cuantos votos han dado sus empleadores a la opción de confirmación. Decisión: 1 0 ( Xn = si voto va para opción de confirmar ∼. Notar que la variable de decisión solo es relevante en el caso que el siguiente en votar es uno de los empleadores. Incertidumbre: ( Wn = ( Zn = Apunte de Cátedra 1 si le toca votar a un senador de los empleadores 0 ∼. 1 0 si el voto n-esimo va para la opción de confirmar ∼. IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 25 2 Sn Notar que Wn se distribuye Bernoulli con parámetro M −n+1 , y que Zn se distribuye Bernoulli con parámetro p, pero solo es relevante en el caso que el voto no es dado por un empleador. Recurrencia: 1 Sn+1 = Sn1 + Wn Xn + (1 − Wn )Zn 2 Sn+1 = Sn1 − Wn 3 Sn+1 = Sn3 + Wn xn . Bellman: Jn (Sn ) = máx E {Jn+1 (Sn+1 )} Xn ∈{0,1} Condición de borde: 3 1 3 1 JN +1 (SN +1 ) = SN +1 1{SN +1 > M/2} + N − SN +1 1{SN +1 < M/2} S1 = (0, N, 0) Solución #2. La siguiente es una forma alternativa de modelar el problema. Su ventaja es que no require definir aleatoriedad ni decision, ni tampoco recurrencia de estados, dado que todas estas componentes se explicitan en la ecuación de Bellman: Etapas: las ocasiones de voto: en la etapa n le toca votar al n-esimo senador llamado a votar. Estado: Sn = (Sn1 , Sn2 , Sn3 ) • Sn1 = votos registrados a favor de la confirmación justo antes que vote el n-esimo senador • Sn2 = cuantos de sus empleadores quedan por votar • Sn3 = cuantos votos han dado sus empleadores a la opción de confirmación. Bellman: ! Jn (Sn ) = Sn2 1− p Jn+1 (Sn1 + 1, Sn2 , Sn3 ) + (1 − p) Jn+1 (Sn1 , Sn2 , Sn3 ) M −n+1 ! n o Sn2 + máx Jn+1 (Sn1 + 1, Sn2 − 1, Sn3 + 1), Jn+1 (Sn1 , Sn2 − 1, Sn3 ) M −n+1 Condición de borde: 3 1 3 1 JN +1 (SN +1 ) = SN +1 1{SN +1 > M/2} + N − SN +1 1{SN +1 < M/2} S1 = (0, N, 0) Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 26 Ejemplo 2.5 (Pregunta 1, Examen Otoño 2019) Usted se dispone a disputar la final mundial de Cachipún competitivo. La final consiste una serie de juegos, donde usted y su rival, simultáneamente eligen y muestran un símbolo de piedra (r), papel (p) o tijera (s). Las reglas de cada juego son: p vence a r, r vence a s, y s vence a p. Si ambos jugadores despliegan el mismo símbolo, el juego termina en empate. La serie de juegos termina cuando usted o su rival alcanzan un total de N juegos ganados. Su rival en la final es Boris, quien adopta una estrategia de juego Markoviana: la secuencia de símbolos que muestra forma una cadena de Markov en tiempo discreto, caracterizada por una matriz de transición P y una distribución inicial π0 . 1. Muestre que la política (“greedy”) que maximiza la probabilidad de ganar cada juego (ej. partir jugando p en el primer juego), sin considerar el futuro, no es óptima para el caso N = 2, π0 = (0.7, 0.2, 0.1) y   1 0 0   1 0 . P = 0 1/3 1/3 1/3 (Hint: muestre que la probabilidad de ganar la final es estrictamente menor que uno en ese caso, y que existe otra política que gana la final con probabilidad 1.) 1. Plantee un modelo de programación dinámica estocástica que permita maximizar la probabilidad de ganar la final. Solución parte 1. Jugando primero papel, existe la posibilidad que Boris juegue tijera, lo que lo dejaria con ventaja de un juego, y despues, la probabilidad de que Boris gane la final es un tercio, independiente de lo que decidamos mostrar. Por lo tanto, la probabilidad de ganar la fina les estrictamente menor a 1. Si jugamos primero piedra, pueden pasar 3 cosas. Primero, si Boris juega piedra o papel, nosotros podremos anticipar con seguridad sus jugadas en el futuro, por lo tanto le ganamos con probabilidad 1. Si Boris juega tijeras, le ganamos, quedamos con ventaja, y en la proxima ronda nuevamente jugamos piedra, y el ciclo se repite (si ganamos, la final terminar, si perdemos, podemos anticipar todas las jugadas futuras de Boris, y le ganamos con probabilidad 1). Plantee un modelo de programación dinámica estocástica que permita maximizar la probabilidad de ganar la final. Solución parte 2. Etapas. Cada uno de los juegos, indexados por n Decisión. xn ∈ {r, p, s}: símbolo a mostrar en el juego n. Estado. yn : símbolo mostrado por Boris en el juego n − 1; (y1,n , y2,n ) : par ordenado con el número acumulado de victorias propias y de Boris, respectivamente. Aleatoriedad. wn : símbolo mostrado por Boris en el juego n. P(wn+1 = i|wn = j) = Pi,j , n ≥ 1 Apunte de Cátedra P(w1 = i) = π0 (i). IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 27 Recurrencia. yn+1 = wn ; ( z1,n+1 = z1,n + 1 z1,n si gano juego n ∼ z2,n + 1 z2,n ( z2,n+1 = si Boris gana juego n ∼ Bellman. J(yn , (z1,n , z2,n )) = máx{Ewn {J(yn+1 , zn+1 )}}, xn J(yn , (N, z2,n ))) = 1, z2,n < N J(yn , ((z1,n , N ))) = 0, z1,n < N z1,n , z2,n < N Ejemplo Propuesto: Políticas dínamicas de precios en Revenue Management Usted cuenta con I unidades de un producto, el que debe vender durante las próximas T unidades de tiempo (períodos). Usted puede cambiar el precio del producto al comienzo de cada período, de forma de maximizar sus ganancias. Suponga que a lo más un único cliente llega durante cualquier período, con probabilidad p, independiente de todo lo demas. Las disposiciones a pagar de los clientes forman una secuencia iid de variables aleatorias (distribuidas de acuerdo a F ). Un cliente compra el producto si su disposición a pagar es mayor o igual al precio del producto durante el período. El inventario en mano al final del período T es desechado. Plantee un modelo de programación dinámica para encontrar la política óptima de precios. 2.2. Caso determinista En esta sección se considera el caso particular cuando no existe incertidumbre en una formulación. Siendo un caso especial, el principio de optimalidad sigue aplicando, por lo que también lo hace el algoritmo de programación dinámica. Programación Dínamica Determinista. Para cada condición inicial S1 , la ganancia óptima J ∗ (S1 ) asociada al problema base es igual a J1 (S1 ), donde la función J1 (·) está dada por el siguiente algoritmo recursivo, que parte en el período (ficticio) N + 1, y se mueve hacia atrás en períodos hasta llegar al período 1: JN +1 (SN +1 ) = 0, Jn (Sn ) = máx {gn (un , Sn ) + Jn+1 (fn (un , Sn ))} , un ∈Un n ≤ N. A diferencia del caso estocástico, la solución al problema es un vector de decisiones, no un conjunto de funciones. Si bien el algoritmo de programación dinámica nos hace calcular el beneficio acumulado desde el período n hacia adelante para múltiples posibles estados Sn , dado que la dinámica de Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 28 estado es determinista, una vez conocemos las acciones en los períodos 1 al n − 1, no hay incertidumbre respecto a cual será el valor de Sn . El ejemplo más famoso de aplicación del algoritmo de programación dinámica a problemas deterministas es sin lugar a dudas el problema del camino más corto. Ejemplo 2.6 (Camino más corto) Considere el problema de encontrar el camino más corto entre dos nodos s y t en un grafo dirigido G = (N, A), cuando el costo asociado a utilizar un arco a está dado por ca . (Con N el conjunto de nodos y A el conjunto de arcos del grafo G.) En esta aplicación, el algoritmo de programación dinámica toma la siguiente forma: J(i) = mı́n a=(i,i0 )∈A {ca + J(i0 )}, ∀i ∈ N \ {t} J(t) = 0. (Noten que pudimos desechar la indexación de la función de valor J.) En este contexto, la función J(i) representa el largo del camino más corto entre los nodos i y t. La razón detrás de la popularidad de esta formulación radica en que todo problema determinístico de horizonte finito con un número finito de estados/acciones puede ser representado como un problema de camino más corto. Ejercicio Propuesto: Problema de las 4 reinas Suponga que usted desea posicionar 4 reinas en un tablero de Ajedrez de 4×4 de forma que las reinas no se ataquen entre ellas. Ejemplo 2.7 (Problema de la mochila) Considere el clásico problema de la mochila. Una formulación del problema de la mochila es     máx     s.a      N P cn xn n=1 N P vn xn ≤ K n=1 xn ∈ N Donde xn es la cantidad de unidades incluidas del ítem n, cn es el beneficio obtenido por cada unidad de n en la mochila y vn es el volumen de n. Modele el problema utilizando programación dinámica determinista. Solución. El modelo es el siguiente. períodos: ítems n ∈ {1, . . . , N } Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 29 Variable de estado: Sn , el volumen disponible al momento de evaluar el ítem n Variable de decisión: xn , la cantidad del item n que incluímos en la mochila. xn ∈ N Evolución del estado: Sn+1 = Sn − xn vn ≥ 0 Condiciones de borde: JN +1 (SN +1 ) = 0, ∀SN +1 , Beneficio en la etapa n: S1 = K gn (Sn , xn ) = xn · cn Ecuación de Bellman: Jn (Sn ) = máx{gn (Sn , xn ) + Jn+1 (Sn+1 ) : xn · vn ≤ Sn , xn ∈ N} La ecuación de Bellman nos indica la función que queremos maximizar período a período, empezando desde JN (SN ) = máx{gN (SN , xN ) + 0 : xN · vN ≤ SN } (que podemos resolver por inspección) hasta J1 (S1 ) = máx{g1 (S1 , x1 ) + V2 (S1 − x1 · v1 ) : x1 · v1 ≤ S1 } Recorriendo todos los períodos desde el último hasta el primero, en cada uno de ellos debemos encontrar la mejor solución para cada estado posible del sistema. Supongamos valores K = 6, c1 = 4, c2 = 3, c3 = 7, y v1 = 3, v2 = 2, v3 = 4. Una aplicación manual del algoritmo de PDD se vería como sigue: comenzando con la última etapa, Etapa n = 3 x3 S3 0 1 2 3 4 6 0 1 x∗3 J3 (S3 ) 0 0 0 0 0 0 7 7 0 0 0 0 1 1 0 0 0 0 7 7 Notamos que el estado S3 = 5 no es factible, ya que ningún objeto tiene volumen 1. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 30 Etapa n = 2 x2 S2 0 3 6 0 1 2 3 x∗2 J2 (S2 ) (1) 0 (2) 3 (3) 6 9 0 1 1 0 3 10 Podemos calcular, consultando la tabla anterior, los valores (1), (2) y (3): (1) : 0 + J3 (S3 = 0) = 0 (2) : 0 + J3 (6) = 7 (3) : 3 + J3 (4) = 10 Procedemos de la misma forma para la etapa que falta: Etapa n = 1 x1 S1 6 0 1 2 x∗1 J1 (S1 ) (4) (5) 8 0 10 (4) : 0 + J2 (6) = 10 (5) : 4 + J2 (3) = 7 Por lo tanto, la solución a esta instancia del problema de la mochila es J1 (S1 ) = 10; x∗1 = 0, x∗2 = 1, x∗3 = 1 Ejemplo 2.8 (Pregunta 1, Examen Primavera 2019) Boris recibió como regalo una versión generalizada del juego del gato: se juega sobre un tablero de N × N celdas (N filas y N columnas), las cuales son marcadas una a una y de manera alternada por ambos jugadores, cada uno con un símbolo diferente al de su rival, hasta que uno de ellos haya marcado k celdas contiguas dentro de una misma fila, una misma columna, o incluso en diagonal. El primero en lograr esto, gana. Una celda que ya ha sido marcada no puede volver a ser marcada por ninguno de los dos jugadores. Boris desea desafiar a su mejor amigo, a quien conoce tan bien que considera saber exactamente qué casillero marcaría éste ante cualquier escenario posible. Proponga un modelo de programación dinámica mediante el cual Boris pueda decidir si comenzar o ceder el primer turno, suponiendo que solamente valora ganar. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 31 Solución. En la jugada n de Boris, el estado es un par ordenado (Sbn , San ) donde Sbn es el conjunto de casillas marcadas por boris y San son las casillas marcadas por su amigo, antes de la jugada n. La decisión de Boris es que casilla jugar. Respecto al conocimiento de Boris acerca su amigo, supondremos que conocemos una función f (Sb , Sa ) que entrega la casilla que marca el amigo cuando se enfrenta al estado (Sb , Sa ). Supondremos que esta función entrega el conjunto vacío si el juego ya ha terminado en el estado (Sb , Sa ). Finalmente definimos el conjunto de estados B como aquellos en los cuales Boris gana el juego, y C el conjunto de estados donde el juego aun no termina. Con esto, el modelo es Período: n, la jugada de Boris. Estado: (Sbn , San ), las casillas marcadas antes de n por Boris y su amigo. Decision: xn , la casilla que Boris marca en la jugada n. Recursión: (Sbn+1 , San+1 ) = (Sbn ∪ xn , San ∪ f (Sbn ∪ xn , San )). Ecuación de Bellman: Jn (Sbn , San ) = 1{(Sbn , San ) ∈ B} + {1{(Sbn , San ) ∈ C} máx xn ∈(Sbn ∪San )c Jn+1 (Sbn+1 , San+1 ). Para ver si le conviene partir a Boris simplemente comparamos J1 (∅, ∅) con J1 (∅, f (∅, ∅)). Si ambos son 0, entonces concluimos que el juego siempre concluye en empate (piense en el caso de N = 3). Si J1 (∅, ∅) = 1 entonces escogemos partir; si J1 (∅, f (∅, ∅)) = 1 escogemos que parta el amigo; si ambas son positivas, el amigo no cacha mucho como jugar, le ganamos siempre. Obs: Notar que no necesitamos indexar las funciones usando n, dado que esto esta implícito en las cardinalidades de los conjuntos Sb y Sa . 2.3. Caso Horizonte Infinito Descontado En esta sección estudiaremos problemas de horizonte infinito. Por lo mismo, estamos interesados en situaciones donde los beneficios y las fuentes de incertidumbre son estacionarios (no dependen del período). Con esto en mente, consideraremos el siguiente problema básico VN (S) = máx E (µ1 ,...,µn ) ( N X ) α g(Sn , µn (Sn ), ω) , n ∀S n=1 donde α ∈ (0, 1] denota un factor de descuento (i.e. representa el hecho que una unidad monetaria hoy vale más que la misma unidad mañana). ! Importante: En la formulación de arriba N se refiere al número de períodos restantes hasta el final del horizonte. En sentido, noten que la función de valor Vn está indexada por el número de períodos restantes (a diferencia de la función Jn , que está indexada por el período). Dado que estamos interesados en los problemas de horizonte infinito, a diferencia de los problemas de las secciones anteriores, asumiremos que tanto la función de beneficios g(·) como la dinámica de Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 32 estados f (·) son homogéneas en el tiempo, por lo que podemos omitir su dependencia en n. Aplicando el algoritmo de programación dinámica, tenemos que Vn (S) = máx E {g(S, u, ω) + α Vn−1 (f (S, u, ω))} , u∈U n ≥ 1, ∀ S (5) con condición de borde J0 (S) = 0 para todo estado S. Con esta notación el problema de horizonte infinito se define como V (S) = lı́m VN (S). N →∞ Notamos que esta definición no especifica la política de acción que resuelve el problema de horizonte infinito. Normalmente, impondremos condiciones sobre los párametros del problema para que el límite de arriba exista. Por ejemplo, cuando α < 1, es suficiente tener que |g(·)| < K.3 Para el caso de α = 1, es suficiente imponer que existe al menos un estado absorbente, que genera ganancia nula, al cual se puede acceder con probabilidad positiva desde cualquier otro estado, bajo cualquier política. Notamos que de existir el límite, este debe ser tal que (5) se mantiene válida, pero ahora como una ecuación de punto fijo. Esta ecuación es la versión de horizonte infinito de la ecuación de Bellman. El siguiente resultado nos dice que la política óptima es una política estacionaria. Ecuación de Bellman. Cuando existe, el límite V (·) es la única solución al sistema V (S) = máx E {g(S, u, ω) + α V (f (S, u, ω))} , u∈U n ≥ 1, ∀ S Adicionalmente, la política óptima es cualquier política estacionaria µ∗ (·) que satisfaga la condición µ∗ (S) ∈ arg máx E {g(S, u, ω) + α V (f (S, u, ω))} , ∀S u∈U En lo que resta de esta sección describiremos tres métodos numéricos para resolver los problemas de horizonte infinito descontado. Value Iteration. Para una función W (·) del espacio de estados S a los reales, definimos el mapping (T W )(S) = máx E {g(S, u, ω) + α W (f (S, u, ω))} , u∈U n ≥ 1, ∀ S utilizando el algoritmo de programación dinámica. Es posible probar que el mapa (T ·) es una contracción; es decir, para dos funciones W y W 0 , se tiene que máx |(T W )(S) − (T W 0 )(S)| ≤ α máx |W (S) − W 0 (S)|, S∈S S∈S Lo anterior implica que la distancia entre (T k W ) y (T k+1 W ) converge a 0 independiente del valor de W (aquí, (T k ·) denota la composición de (T ·) consiguo misma, k veces). Entonces, por cons3 Notamos que bajo estas condiciones el valor absoluto de la ganancia óptima acumulada como función de n no 1 , para todo n. puede diverger, dado que se encuentra acotada superiomente por K 1−α Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 33 trucción, el límite de la secuencia {(T k W ) : k = 1, 2, . . .} converge a V , la solución a la ecuación de Bellman. Esto nos entrega el siguiente algoritmo. Algorithm 1: Value Iteration Fije V 0 arbitrariamente Calcule V 1 = (T V 0 ), y fije k = 0. while máxS∈S |V k+1 (S) − V k (S)| < do k =k+1 V k+1 = (T V k ). end Notamos que el algoritmo funciona partiende desde cualquier condición inicial. En particular, si se parte con V 0 = 0, entonces se tiene que V k = Vk . La cantidad > 0 en la condición de término representa un margen de tolerancia a la convergencia. Policy Iteration. Para una política estacionaria µ(·), definimos la función Vµ (·) como el beneficio acumulado asociado a implementar dicha política, como función del estado inicial. Dicha función se puede calcular mediante la recursión Vµ (S) = E {g(S, µ(S), ω) + α Vµ (f (S, µ(S), ω))} , ∀S (Este es un sistema de ecuaciones lineales, el que debiese ser fácil de resolver). El siguiente algoritmo opera en el espacio de las políticas estacionarias. Algorithm 2: Policy Iteration Fije µ0 arbitrariamente. Fije k = 0, y calcule µ1 (·) mediante µ1 (S) ∈ arg máx E {g(S, u, ω) + α Vµ0 (f (S, u, ω))} , u∈U ∀S while µk+1 6= µk do fije k = k + 1 y calcule µk+1 (·) mediante µk+1 (S) ∈ arg máx E {g(S, u, ω) + α Vµk (f (S, u, ω))} , u∈U ∀S end La convergencia de {µk (·) : k = 1, . . .} a µ∗ está asegurada por la segunda propiedad de la ecuación de Bellman (revisar arriba), más el hecho que {Vµk (·) : k = 1, . . .} converge a V (·), por los mismos argumentos que aseguran la convergencia del algoritmo de Value Iteration. Programación Lineal. El siguiente algoritmo se basa en una representación alternativa de la función de valor, la cual se basa a su vez el siguiente resultado de monotonicidad. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Programación Dinámica 34 Lema 2.1 (Monotonicidad) Para dos funciones cualquiera W y W 0 , se tiene que W (S) ≥ W 0 (S) ∀S (T W )(S) ≥ (T W 0 )(S) ⇒ ∀ S. Supongamos que se tiene una función W tal que W (·) ≥ (T W )(·) de forma puntual, entonces aplicación reiterada del mapa T más la convergencia del algoritmo del algoritmo de Value Iteration garantizan que W ≥ V . Esto, en conjunto con la ecuación de Bellman nos dice que V es el vector W más “pequeño” que satisface la condición W ≥ (T W ). Con esto, podemos escribir V como la única solución a un programa de programación lineal, lo que nos da un tercer algoritmo de resolución. Algorithm 3: Programación Lineal Formular y resolver mı́n X s.t. xS ≥ E{g(S, u)} + xS S X pu (S, S 0 ) xS 0 ∀ u ∈ U, S ∈ S, S0 donde pu (S, S 0 ) ≡ P(f (S, u, ω) = S 0 ). Notamos que el número de restricciones en este LP es igual al número de estados multiplicado por el número de acciones posibles y que el número de variables es igual al número de estados. En la solución óptima a este problema, el valor de la variable xS representa el valor de V (S). Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 3. 35 Cadenas de Markov en Tiempo Discreto Un proceso estocástico es una colección de variables aleatorias {Xn : n ∈ T } indexadas por un conjunto T . En este capítulo consideraremos el caso especial de T = N, los enteros positivos (más el cero) y utilizaremos procesos estocásticos para representar la evolución temporal de un sistema al cual queremos estudiar. Por esto, tomaremos la interpretación Xn = Estado del sistema en el período n. Hablaremos de un proceso en tiempo discreto y pensaremos en la evolución del sistema período a período. Para simplificar el análisis asumiremos que el estado del sistema puede tomar un número contable de valores, por lo que, sin pérdida de generalidad, podemos enumerar los estados de forma que Xn ∈ {1, 2, . . . , }. En general, para caracterizar el comportamiento probabilístico de un proceso estocástico es necesario poder calcular la ley de probabilidades P(Xni = ei : i = 1, . . . , k) (1) para cualquier entero k, cualquier conjunto de períodos {n1 , . . . , nk } y estados {e1 , . . . , ek }. Lo anterior es complejo en general. Por esto, restringiremos nuestra atención a una clase especial de procesos que cumplen con la llamada condición de Markov. Condición de Markov. Un proceso estocástico en tiempo discreto {Xn : n ∈ N} cumple con la condición de Markov si P(Xn = en | X0 = e0 , X1 = e1 , . . . , Xn−1 = en−1 ) = P(Xn = en | Xn−1 = en−1 ), para cualquier n y cualquier conjunto de estados {e1 , . . . , en }. Una interepretación de la condición de Markov es que, condicional en el presente, el pasado y el futuro son independientes. Más directamente, la condición dice que la distribución de probabilidad del siguiente estado solo depende del estado inmediatamente anterior y no de toda la historia del proceso. Una cadena de Markov en tiempo discreto es un proceso estocástico {Xn : n ≥ o} que cumple con la condición de Markov. Para un período n y un par de estados (i, j) definimos Pijn = P(Xn+1 = j|Xn = i). es decir, la probabilidad de transicionar desde el estado i en el período n al j en el período n + 1, y supongamos que el estado inicial del sistema (en el período 0) está dada por π0 , es decir π0 (i) ≡ P(X0 = i), Apunte de Cátedra i ≥ 0. IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 36 La serie de matrices (P 1 , P 2 , . . .) y la distribución π0 son suficientes para caracterizar el proceso estocástico {Xn : n ≥ 0}. Para ver esto, considere la ecuación (1) pero, para simplificar la exposición, consideremos el caso especial cuando ni = i. Tenemos que, utilizando la condición de Markov, P(Xn = en : n = 1, . . . , k) (a) k Y (b) n=1 k Y = = = n=1 k Y P(Xn = en |Xi = ei : i = 1, . . . , n − 1)π0 (e0 ) P(Xn = en |Xn−1 = en−1 )π0 (e0 ) Pen−1 π (e0 ), n−1 ,en 0 n=1 donde (a) viene de utilizar las propiedades de la probabilidad condicional y (b) viene de utilizar la condición de Markov. Desde ahora en adelante concentraremos nuestra atención en procesos homogéneos en el tiempo, es decir, aquellos que no cambian su estructura probabilística durante el tiempo. En términos concretos, impondremos que P n = P ∀n, para alguna matriz P , a la que llamaremos la matriz de probabilidades de transición. Notamos que con esta simplificación, una cadena de Markov está definida por una matriz de transición P y una distribución inicial π0 . Representación gráfica. Cuando sea posible, representaremos una cadena de Markov mediante un grafo. En dicho grafo, los nodos corresponden a los estados posibles, y los arcos corresponden a los pares (ordenamos) de estados (i, j) tales que Pi,j > 0. Ejemplo 3.1 (Representación Gráfica) Consideremos una acción financiera con 3 posibles valores: alto, medio, o bajo, y supongamos que el estado de la acción es una cadena de Markov en tiempo discreto con matriz de probabilidades de trancisión dada por 0.2 0.4 0.4   P = 0.5 0.1 0.4 0 0.3 0.7   La prepresentación gráfica de esta cadena está dada por el siguiente grafo. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 37 0.2 A 0.5 0 0.4 0.1 M 0.4 0.4 0.7 B 0.3 En el ejemplo vemos que la matriz de transición P se define como Pij = P(X1 = j | X0 = i), es decir, la entrada en la posición ij de la matriz es justamente la probabilidad de ir desde i a j en un paso. Proposición 3.1 Para cualquier proceso de Markov discreto de matriz P , y para todo n ∈ N, tenemos que P(Xn = j | X0 = i) = (P n )ij es decir, (P n )ij es la probabilidad de llegar de i a j en exactamente n pasos, donde P n denota la matriz que resulta de elevar P a la n. Dem: Por inducción. Supongamos que P es una matriz de m × m. El caso n = 0 es cierto, ya que P 0 = I y la probabilidad de pasar de i a j en cero pasos es 1 si i = j, y 0 en otro caso. El caso n = 1 también es cierto por definición de P . Supongamos que se cumple para n ∈ N. Tenemos que, para i, j ∈ {1, ..., m}, (P n+1 )ij = (P n P )ij = = = = m X (def. potencia de una matriz) (P n )ik Pkj k=1 m X k=1 m X k=1 m X (def. de multiplicación matricial) P(Xn = k|X0 = i)P(X1 = j|X0 = k) (por hipótesis inductiva y caso n = 1) P(Xn = k|X0 = i)P(Xn+1 = j|Xn = k) (por Homogeneidad) P(Xn+1 = j|Xn = k, X0 = i)P(Xn = k|X0 = i) (por propiedad de Markov) k=1 = P(Xn+1 = j|X0 = i) Apunte de Cátedra (probabilidades totales, aplicado al revés) IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 38 Ejemplo 3.2 (La Ruina del Jugador) Considere un jugador que tiene k fichas, y apuesta una ficha a la vez en un juego el cual gana con probabilidad p ∈ (0, 1) (y pierde con probabilidad q = (1 − p)). Ganar el juego le entrega una ficha extra, mientras que perder resulta en perder la ficha apostada. La política del jugador es apostar una ficha a la vez en este juego hasta que haya perdido toda su fortuna o hasta que obtenga un total de N fichas, lo que sea que pase primero. Considerando el caso 0 < k < N , calcule la probabilidad que el jugador se retire del juego con N fichas. Solución. Suponiendo que cada apuesta en el juego es independiente del resto, podemos representar el estado del sistema Xn ∈ {0, . . . , n} como el número de fichas que tiene el jugador después de n apuestas. Notemos que incluimos los estados 0 y N , en los cuales el jugador se retira: incoporaremos este hecho al momento de definir las probabilidades de transición. Con esta definición, tenemos que la condición de Markov se cumple. En particular, P(Xn+1 = i + 1|Xn = i) = p, P(Xn+1 = i − 1|Xn = i) = q 0 < i < N. Con esto definimos la matriz de probabilidades de transición P = (Pi,j ) como sigue. Pi,j =   p     q  1      0 j = i + 1, 0 < i < N j = i − 1, 0 < i < N i = j ∈ {0, N } ∼. Notamos que los estados 0 y N son absorbentes. Esto es, una vez que se llega a ellos, nunca más se sale de ellos. Calculemos la probabilidad de terminar con N fichas. Para esto, definamos pi como la probabilidad de terminar con N fichas cuando el jugador tiene inicialmente i fichas (nuestra respuesta será entonces pk ). Condicionando sobre el resultado de la primera apuesta, formamos una recursión que entrelaza estas probabilidades. pi = p · pi+1 + q · pi−1 , 0 < i < N, p0 = 0 pN = 1 Definamos ρ = q/p. Una forma alternativa de escribir lo de arriba es pi+1 − pi = ρ (pi − pi−1 ), 0 < i < N. Utilizando el hecho que p0 = 0 tenemos que aplicación recursiva de la ecuación de arriba nos entrega Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 39 lo siguiente p2 − p1 = ρ p1 p3 − p2 = ρ (p2 − p1 ) = ρ2 p1 p4 − p3 = ρ (p3 − p2 ) = ρ3 p1 .. . pN − pN −1 = ρ (pN −1 − pN −2 ) = ρN −1 p1 . Sumando las primeras i − 1 ecuaciones de arriba, tenemos que pi = p1 N −1 X ρi . i=0 Caso I: p 6= 1/2. En este caso, tenemos que pi = p1 1 − ρi . 1−ρ utilizando el hecho que pN = 1, tenemos que p1 = pi = 1−ρ . 1−ρN Reemplazando arriba, vemos que 1 − ρi . 1 − ρN Caso II: p = 1/2. En este caso, tenemos que pi = p1 · i. utilizando el hecho que pN = 1, tenemos que p1 = 1/N . Reemplazando arriba, vemos que pi = Apunte de Cátedra i . N IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 40 Ejemplo 3.3 (Pregunta 1, Control 2, Primavera 2018) Boris se encuentra practicando para la entrevista para unirse al equipo de fútbol de sus amigos. Para esto, él domina el balón con el objetivo de realizar 25 toques consecutivos (con lo que se asegura un puesto en el equipo). Cada intento por llegar a 25 toques resulta en un éxito o un fracaso. Considere sin embargo que Boris se entusiasma o desanima con facilidad. En particular, si los últimos 3 intentos fueron un éxito, la probabilidad que el siguiente intento también sea un éxito es igual a p. Si, en cambio, exactamente uno de los 3 intentos anteriores fracasó, la probabilidad que el siguiente intento sea un éxito es q. Además, si solamente uno de los 3 últimos intentos fue un éxito, entonces la probabilidad de éxito es r. Finalmente, si los 3 experimentos anteriores fallaron, la probabilidad de éxito es igual a s (1 > p > q > r > s > 0). Denotando al resultado del n-ésimo intento por Xn , modele la situación anterior como una cadena de Markov en tiempo discreto. ¿Basta para ello considerar el proceso {Xn , n ≥ 1}? Justifique su respuesta. Solución. Aclaramos primero que por sí solo el proceso {Xn , n ≥ 1} no es una cadena de Markov, pues para conocer las probabilidades de transición es necesario tener en cuenta no sólo el estado actual, sino que dos estados anteriores. Modelamos entonces la cadena con conjunto de estados igual a las tripletas posibles con éxitos y fracasos. En concreto, si 0 representa una falla y 1 representa un éxito, entonces el conjunto de estados E es E = {0, 1}3 = {(i, j, k) : i, j, k ∈ {0, 1}}, en donde un estado (i, j, k) se leerá desde acá en adelante como «en el presente el experimento tuvo resultado i, en la etapa anterior resultó j y en la anterior a la anterior resultó k». Notamos que |E| = 8. Si ordenamos los estados, arbitrariamente, como E = {(1, 1, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 0, 0), (0, 1, 0), (0, 0, 1), (0, 0, 0)} entonces la matriz de transiciones queda como sigue:  p q   0  0 P = 0   0  0 0 0 0 q 0 r 0 0 0 0 1−p 0 1−q 0 0 q 0 0 0 r 0 0 0 0 0 0 0 0 0 0 0 0 0    0 1−q 0 0   0 0 1−q 0  . 0 1−r 0 0   0 0 1−r 0    r 0 0 1 − r s 0 0 1−s  Dado que la cadena queda especificada con la matriz P , esto concluye el modelamiento. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 3.1. 41 Clasificación de Estados Nuestro objetivo desde ahora será el estudio del comportamiento de largo plazo de una cadena de Markov. Esto pues, si la cadena representa el comportamiento de algún sistema de interés, el comportamiento de largo plazo nos permitirá calcular métricas de desempeño esperadas a observar, cuando el sistema ha funcionado por un tiempo suficientemente largo. Partimos nuestro estudio clasificando los estados en término de si esperamos o no observar el sistema en ciertos estados, en el largo plazo. Decimos que un estado j es accesible desde i si solo si P(Xn = j | X0 = i) > 0, para algún n ≥ 0 (denotamos dicha relación mediante i → j). De forma similar, decimos que un par de estados i, j están comunicados si y sólo si i → j ∧ j → i (denotamos esta relación mediante i ↔ j). Clases de Equivalencia. La relación de comunicación es una relación de equivalencia. Es decir, cumple con las siguiente propiedades Reflexividad: i ↔ i Simetría: i ↔ j ⇒ j ↔ i Transitividad: i ↔ j ∧ j ↔ k ⇒ i ↔ k Esto significa que la relación de comunicación particiona el espacio de estados E en clases de equivalencia {Ci : i ≥ 1} tales que i ↔ j para todo par de estados i, j ∈ Ck , para todo k, Ci ∩ Cj = ∅ para todo i 6= j, S i Ci = E. Clasificaremos estas clases de equivalencia de acuerdo al comportamiento del proceso en el largo plazo. Comenzaremos con unas definiciones informales. Supongamos momentáneamente que el número de estados es finito: una clase C es transiente si y sólo si existe al menos una clase C 0 , distinta de C, accesible desde ella. Intuitivamente, si el proceso parte en algún estado de una clase transiente, eventualmente abandonará dicha clase y nunca retornará a ella. Una clase C es recurrente si y sólo si no es transiente. Intuitivamente, si el proceso parte en algún estado de una clase recurrente, el proceso nunca abandonará dicha clase, por lo que en el largo plazo encontraremos al proceso en algún estado de dicha clase. Ejemplo 3.4 (Clasificación de estados) Considere la siguiente Cadena de Markov, especificada a través de su representación gráfica (los valores de P son irrelevantes para el análisis). Clasifique los estados de acuerdo a clases de equivalencia. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 2 42 3 7 8 1 4 5 6 Vemos que la relación de comunicación nos entrega cuatro clases de equivalencia. Las clases {1, 2} y {8} son recurrentes. Las clases {3, 4, 5} y {6, 7} son transientes. Informalmente, podemos considerar un estado como recurrente o transiente dependiendo de la naturaleza de la clase en la que esté (un estado se dirá recurrente ssi está en una clase recurrente; lo mismo para un estado transiente). Para definir formalmente la clasificación de estados, definamos fijn como la probabilidad de llegar por primera vez a j en n períodos, partiendo desde i. Con esta definición, tenemos que fij = X fijn n>0 corresponde a la probabilidad de eventualmente llegar a j a partir de i. De la misma forma, tenemos que µij = X nfijn n>0 corresponde al número esperado de períodos para llegar de i a j. Así, diremos que i es recurrente si fii = 1. Diremos que i es transiente si fii < 1. En particular, en el caso recurrente, si µii < ∞ diremos que i es recurrente positivo; por el contrario, si µii = ∞, diremos que i es recurrente nulo. Proposición 3.2 (Caracterización de un estado recurrente). Sea una cadena de Markov con matriz de transición P y j un estado de ella. Tenemos que j es recurrente si y sólo si lı́m k→∞ k X (P n )jj = ∞. n=1 Dem: Primero, notamos que el lado izquierdo de la ecuación arriba representa el número esperado de visitas al estado j, partiendo desde j. Para ver esto, notemos que E{# visitas a j en k períodos|X0 = j} = k X n=1 Apunte de Cátedra E{1{Xn = j|x0 = j}} = k X (P n )jj , n=1 IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 43 donde la primera igualdad sigue de la linealidad de la esperanza, y 1{·} denota la función indicatriz. El estado j es recurrente si fjj = 1, es decir, comenzando de j, el proceso eventualmente volverá. Sin embargo, continuar el proceso en adelante es lo mismo (probabilísticamente) que reiniciar la cadena en j (por la propiedad de Markov). Luego, la probabilidad de llegar a j de nuevo continúa siendo 1. Repitiendo este argumento, vemos que con probabilidad 1 volveremos a j infinitas veces, y por lo tanto, la esperanza del número de visitas será infinita. Por otro lado, supongamos que j es transiente: entonces cada vez que retornamos a j hay una probabilidad 1 − fjj > 0 de que nunca regrese, por lo que el número de regresos distribuye como 1 . una geométrica de media finita 1 − fjj Por el argumento anterior, sabemos que j es recurrente si, y sólo si, E{número de visitas a j | X0 = j} = ∞ Pero, como vimos al comienzo de la prueba, el número esperado de visitas es igual a lı́mk→∞ k P (P n )jj . n=1 Mediante esta propiedad podemos formalizar lo que habíamos dicho antes: que la recurrencia y la transiencia son propiedades de clase. Corolario 3.1 La recurrencia o transitividad es una propiedad de clase. Esto es, si i es recurrente y i ↔ j, entonces j es recurrente. Dem: Sean m y n tales que (P n )ij , (P m )ji > 0. Entonces, para cualquier s ≥ 0, (P m+n+s )jj ≥ (P m )ji (P s )ii (P n )ij y entonces, ∞ X (P k )jj ≥ k=1 X (P m+n+s )jj ≥ (P m )ji (P n )ij s (P s )ii = ∞ X s Y concluimos usando la propiedad anterior. La siguiente proposición nos dice, que partiendo de un estado de una clase recurrente tenemos la certeza de eventualmente visitar a todos los otros estados en la misma clase. Proposición 3.3 Si i ↔ j y j es recurrente, entonces fij = 1. Dem: Supongamos X0 = i, y sea n tal que (P n )ij > 0. Digamos que “perdemos la oportunidad 1” si Xn 6= j. Si perdemos la oportunidad 1, sea T1 la siguiente vez que lleguemos a i (por el Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 44 corolario, T1 es finito con probabilidad 1). Digamos que perdemos la oportunidad 2 si XT1 +n 6= j. Si esto sucede, sea T2 la siguiente vez que llegamos a i, digamos que perdimos la oportunidad 3 si XT2 +n 6= j, etc. Es fácil ver que la primera oportunidad aprovechada es una variable geométrica con media (P n1 )ij y, por lo tanto, es finita con probabilidad 1. Concluimos el resultado, ya que el que i sea recurrente implica que el número de oportunidades es infinito. 3.2. Período de un estado. Con el objetivo de estudiar el comportamiento de largo plazo de una cadena, primero debemos definir el período de un estado. Para estados recurrentes, el período de un estado i es el máximo común divisor di de los valores de n tales que P(Xn = i | X0 = i) > 0. (No definimos el período de estados transientes). Si di = 1, decimos que i es aperiódico. Proposición 3.4 Todos los estados de la misma clase tienen el mismo período. Dem: Sean i, j tales que i ↔ j. Sean m y n tales que Pijm , Pjin > 0, y supongamos que Piis > 0. Entonces, n+m Pjj ≥ Pjim Pijn > 0 ya que el lado izquierdo representa la probabilidad de que empezando en j la cadena llegue de nuevo a j en n + m pasos, mientras que el lado derecho es el mismo evento con la restricción adicional que al cabo de n pasos debe estar en i. De manera análoga, n+s+m Pjj ≥ Pjim Piis Pijn > 0 Luego, dj divide a n + m y a n + s + m, por lo tanto también a (n + s + m) − (n + m) = s, cuando Piis > 0. Entonces, dj divide a di . Un argumento similar (intercambiando los roles de i y j) concluye que di divide a dj , por lo tanto di = dj . También es posible probar que la recurrencia positiva y la nula son propiedades de clase. Omitiremos la prueba, dado que esta requiere herramientas más allá de los contenidos de este curso. Para entender la dependencia del comportamiento de largo plazo en el período de una clase, consideremos el siguiente ejemplo. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 45 Ejemplo 3.5 (Período de una clase) En la cadena (A), para llegar de un estado a sí mismo se necesitan 3, 6, 9... pasos. Todas las maneras son múltiplos de 3, por lo que los estados de la clase tienen período 3. Por el contrario, la cadena (B) es aperiódica, porque partiendo del estado de la izquierda puedo llegar en 2 pasos o en 3 de vuelta y el MCD de 2 y 3 es 1. (A) (B) De la cadena (A) arriba, vemos que si inicialmente se parte en un estado, sabemos con certeza que el estado será el mismo en períodos múltiplos de 3. Esto significa que la probabilidad de estar en un estado en algún período en particular depende de las condiciones iniciales. En nuestro estudio de largo plazo, a continuación, trataremos de evitar dicha dependencia. 3.3. Probabilidades Estacionarias Queremos ahora estudiar qué sucede tras un largo tiempo de correr la cadena. Para esto, dada una condición inicial, denotemos la distribución del estado del sistema en el período n por π(n) = (πi (n) : i ∈ E), donde E representa el conjunto de estados de la cadena, y πi (n) := P(Xn = i). ! Importante: Intencionalmente omitimos la dependencia en el estado inicial: nuestro objetivo es buscar condiciones bajo las cuales lı́mn→∞ π(n) no depende de la condición inicial. Nos referiremos a π(n) como el vector de probabidades del período n, pensando en casos donde E es un conjunto finito. Podemos calcular la distribución del estado del sistema en el período n a partir de aquella en el período n − 1. Esto es, tenemos que πi (n) = X P(Xn = i|Xn−1 = j)P(Xn−1 = j) = j∈E X Pji πj (n − 1), i ∈ E, n ≥ 1. j∈E Escribiendo el sistema anterior en forma matricial, tenemos que π(n) = π(n − 1)P, n ≥ 1. (2) (Aquí, pensamos en π(n) como un vector fila). Nos interesa estudiar el comportamiento de largo plazo del estado del sistema. Para esto nos interesa identificar condiciones bajo las cuales la serie Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 46 de vectores {π(n) : n ≥ 1} converge. Es decir, condiciones bajo las cuales π := lı́m π(n) n→∞ se encuentra bien definida (el límite existe). En aquellos casos, nos referiremos a π como el vector de probabilidades estacionarias. Iterando la ecuación (2) tenemos que π(n) = π(0) (P n ). Entonces, si el límite ha de existir, este debe ser independiente de las condiciones iniciales, las que (desde arriba) claramente podrían afectar la distribución en tiempo finito. En particular, cuando el límite existe, tenemos que lı́m (P n )ij = πj , ∀ (i, j) ∈ E. n→∞ A continuación identificamos condiciones que garantizan la existencia del límite. 3.3.1. Condición I: Única clase recurrente. Consideremos la cadena asociada al siguiente grafo (el valor de las probabilidades es irrelevente para este análisis). 1 3 2 4 6 5 Esta cadena posee dos clases recurrentes, (3, 4) y (2, 5, 6). Supongamos que la distribución inicial es tal que π3 (0) = 1: para cada n tendremos que π3 (n) + π4 (n) = 1 para todo n. Sin embargo, si la distribución inicial es tal que π2 (0) = 1, entonces sabemos que π3 (n) + π4 (n) = 0 para todo n. Concluimos que el límite π no existe, dado que cambiaría dependiendo de la condición inicial. 3.3.2. Condición II: Aperiodicidad. Consideremos la cadena asociada al siguiente grafo. 1 Apunte de Cátedra 2 IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 47 Esta cadena esta formada por una única clase recurrente. Supongamos que la distribución inicial es tal que π1 (0) = 1, entonces ( 1 n es impar π1 (n) = 0 ∼. Vemos que el valor de π1 (n) alterna entre el valor 0 y 1, por lo que el límite lı́mn→∞ π1 (n) no existe. 3.3.3. Existencia y cálculo de probabilidades estacionarias El siguiente resultado asegura que las condiciones I y II son suficientes para garantizar la existencia del vector de probabilidades estacionarias, π. Teorema 3.1 (Existencia de probabilidades estacionarias) Una cadena de Markov irreducible (formada por una única clase recurrente), aperiódica pertenece a una de las siguientes dos clases: (i) Todos los estados son transientes o recurrentes nulos. En este caso, Pijn → 0 cuando n → ∞ para cualesquiera i, j y no hay distribución estacionaria. (ii) Todos los estados son recurrentes positivos, esto es πj = lı́m Pijn > 0 n→∞ En este caso, π = (πj )j∈E es el vector de probabilidades estacionarias. Las probabilidades estacionarias de una cadena de Markov que cumple con las condiciones I y II corresponde a la única ley estable asociada a la cadena. Para una cadena con matriz de transición P , diremos que π es una ley estable si todas sus componentes son no negativas, suman cero, y además: π = π P, donde π se interpreta como un vector fila. Una ley con esta propiedad es tal que si el estado inicial de la cadena se distribuye de acuerdo a π, entonces la distribución del estado en el futuro es invariante. Esto es, π(n) = π(0)(P )n = π (P )n−1 = · · · = π. Observación: En general, una cadena de Markov puede tener infinitas leyes estables asociadas ella. Sin embargo, una cadena con una única clase recurrente aperiódica posee una única ley estable, la que es la ley de probabilidades estacionarias. Una cadena de Markov puede admitir una única ley estable, incluso en casos donde no existen probabilidades estacionarias. Por ejemplo, consideremos la cadena A B " 0 1 con matriz de transición P = 1 0 Apunte de Cátedra # IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 48 vemos que π = ( 12 , 21 ) es una ley estable según la definición: sin embargo, lı́m π(n) NO es independiente de π(0) (notar que si π(0) = (1, 0) en los períodos pares estaremos con certeza en un estado, y en los períodos impares en el otro), por lo cual π NO es probabilidad estacionaria. Concluimos que, una vez justificada la existencia de probabilidades estacionarias, estas se pueden calcular encontrando la única ley estable, resolviendo el sistema lineal π = πP, X πi = 1. i∈E En general, podemos interpretar el valor de πi de dos formas: 1) si fuesemos a parar la cadena después de muchos períodos (infinitos), la probabilidad de para la cadena en el estado i es πi ; y 2) la fracción de tiempo que la cadena pasa en el estado. i está dada por πi . Notamos que esta segunda noción corresponde a la interpretación frecuentista de una probabilidad. En el caso de una cadena irreducible aperíodica, es posible encontrar una única solución π al sistema lineal de arriba. Sin embargo, en este caso solo la interpretación 2) de arriba es valida (como vimos, πi (n) puede no converger). Para visualizar el cálculo de las probabilidades estacionarias consideremos, por ejemplo, la siguiente cadena C A con B 0 1 0   P =  21 0 21  . 1 0 0   Vemos que existe una única clase recurrente aperiódica, por lo que existen probabilidades estacionarias. Entonces, el sistema de ecuaciones para encontrar π es π = πP ⇔  1  πA = 0 · πA + 2 · πB + 1 · πC π =1·π +0·π +0·π B A B C  π = 0 · π + 1 · π + 0 · π C A B C 2 πA + πB + πC = 1, pi ≥ 0 Observación: Notemos que el sistema de ecuaciones π = πP, πi = 1 posee una ecuación más que el número de incógnitas. Al resolverlo, se puede omitir cualquiera de estas ecuaciones, excepto P πi = 1. P Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 49 Debido a que las probabilidades estacionarias son por definición independientes de las condiciones iniciales, tenemos que obligatoriamente debe pasar que [π]   [π]   . lı́m (P n ) =  .   n→∞  ..    [π] Esta es una matriz donde cada fila es la distribución estacionaria. El siguiente ejercicio utiliza dicha propiedad. Ejemplo 3.6 (Matriz de transición de largo plazo) A un estudiante en práctica de la facultad le fue encargado que estudiase el comportamiento de largo plazo de un determinado sistema (el cual no se describe por tratarse de información confidencial de la empresa). Después de un arduo trabajo neuronal nuestro estudiante logró determinar que el fenómeno se podía modelar como una cadena de Markov en tiempo discreto con 6 estados y una matriz de transición P . Con ayuda de la planilla de cálculo multiplicó muchas veces P por si misma, notando que su resultado se hacía cada vez maás parecida a un matriz Q Faltaban sólo 15 minutos para la reunión en la que tenía que dar cuenta de sus resultados, cuando apareció en su pantalla un mensaje de error, el cual resultó ser irreparable y tuvo que reiniciar su computador. Con espanto se dio cuenta que no tenía ningún registro de sus cálculos, pero sin desanimarse tomó un papel y anotó todos los datos que recordaba de la matriz Q, obteniendo lo siguiente:      Q=    a − c − − − b − − − − − 0 − 0 − − − 0 0 0 − − −   d − −    − e 0   − − −  − e −  donde el signo − indica que no recuerda lo que iba en esa posición, y las cantidades a, b, c, d y e son positivas. Conteste las siguientes preguntas. 1. Cuáles de los grafos mostrados mas abajo son candidatos a representar la cadena de Markov en cuestión? 2. Complete la matrix Q, explique claramente su respuesta. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 50 Solución parte 1. Identificamos la componente (Q)ij con la probabilidad de largo plazo de encontrarnos en el estado j partiendo desde el estado i. De la primera fila matriz Q deducimos que los estados 1 y 2 pertenecen a una misma clase recurrente. Además, dado que huo convergencia, deducimos que dicha clase es aperíodica. Con estas observaciones, podemos descartas los grafos II y III. Vemos que no hay diferencia entre los grafos I y IV en terminos de las clases de equivalencia que generan. Concluimos que la matriz es compatible con los grafos I y IV. Solución parte 2. Tenemos que      Q=    a b a b c c b/a 0 0 0 0 0 0 0 0 0 0 0 0 0 d d e/(1 − e) 0 (1 − e) e 0 (1 − e) e 0 (1 − e) e 0 0 0 0 0 0          La justificación es la siguiente. Existen dos clases recurrentes, (1,2) y (4,5). Por esto, las filas 1 y 2 deben ser iguales, al igual que las filas 4 y 5. Dado que 6 solo accede a la clase (4,5), la sexta fila tambien debe ser igual a las filas 4 y 5. Dado que los estados 3 y 6 son transcientes, las columnas 3 y 6 son nulas. De la misma forma, dado que dos clases recurrentes no se comunican, las columnas Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 51 4 y 5 de las filas 1 y 2, asi como las columnas 1 y 2 de las filas 4 y 5 son nulas. Notamos tambien que cada fila debe sumar 1, lo que justiica los valores en la columna 4. Nos queda solo por analizar la tercera fila. Claramente la relación entre los valores en la primera y segunda columna deben ser iguales a a/b, por lo que concluimos que la segunda fila es igual a c · a/b. De la misma forma, la quinta columna debe ser igual a d · e/(1 − e) Ejemplo 3.7 (Pregunta 1, Control 2, Otoño 2018) En la primera evaluación tras el término del paro usted debe responder un control con n preguntas. Usted decide aplicar la siguiente política para responder a dicha evaluación: cuando se encuentra trabajando en la pregunta i usted dedica un número aleatorio de minutos (de distribución geométrica con parámetro pi ) a responder a esta pregunta, tras lo cual avanza a la pregunta i + 1. Suponga que estos tiempos de trabajo son independientes de si usted ha trabajado en la pregunta anteriormente. 1. Modele la pregunta en la cual usted trabaja en cada minuto como una cadena de Markov en tiempo discreto. 2. ¿Bajo que condiciones la cadena anterior admite un vector de probabilidades estacionarias? Calcule el vector de probabilidades estacionarias (en el caso más general posible). 3. Responda las partes anteriores suponiendo que ahora una vez que usted termina de trabajar en la pregunta i, usted avanza a la pregunta i + 1, o retrocede a la pregunta i − 1 con igual probabilidad. Solución. 1. Los estados son E = {1, . . . , n}, y el estado de la cadena es Xi ∈ E, la pregunta donde se encuentra trabajando el alumno durante el minuto i. Los elementos de la matriz de transición P son:    1 − pi j = i pi,j = pi j =i+1   0 j∈ / {i, i + 1} donde se entiende que i + 1 = 1 cuando i = n. Supondremos la condición inicial π1 (0) = 1. 2. La cadena cuenta con una única clase recurrente que incluye a todos los estados si pi > 0 para todo i. En este caso, la cadena es aperíodica si al menos un estado es tal que pi < 1. Bajo estas condiciones, el vector de probabilidades estacionarias es la única solución al siguiente sistema: πi = πi−1 pi−1 + πi (1 − pi ) X i∈E πi = 1. i∈E Es fácil verificar que pi πi es constante (independiente de i), por lo que concluimos que πi = P Apunte de Cátedra p−1 i −1 , j∈E pj i∈E IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 52 Adicionalmente, existe una única clase recurrente aperíodica cuando pi = 0 para solo un estado i. En ese caso, la distribución estacionaria es tal que πi = 1. 3. En este caso los estados son los mismos, pero la matriz de transición P cambia y es tal que pi,j =    1 − p i p /2 i   0 j=i j ∈ i − 1, i + 1 j∈ / {i − 1, i, i + 1} donde se entiende que i + 1 = 1 cuando i = n y que i − 1 = n cuando i = 1. Las mismas condiciones se mantienen para tener un estado estacionario. El vector de probabilidades estacionarias resuelve el siguiente sistema. πi = πi (1 − pi ) + X pi−1 pi+1 πi−1 + πi+1 , 2 2 i∈E πi = 1. i∈E Es fácil chequear que el vector de probabilidades estacionarias de las partes anteriores también resuelve este sistema. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 53 Ejemplo 3.8 (Pregunta 1, Control 1, Otoño 2019) Daenerys tiene por objetivo erradicar la esclavitud en el continente de Essoss, y para lograrlo debe conquistar las n ciudades de la Bahía de los Esclavos. Luego de conquistar una primera ciudad, Daenerys toma la siguiente política: al comienzo de cada año, si alguna de las n ciudades no está bajo su dominio, toma su ejército y va a conquistar una de esas ciudades. Gracias a sus poderosos dragones, sus conquistas siempre son exitosas, pero le toman un año, durante el cual deja solas las otras ciudades bajo su dominio. Si al inicio del año, todas las ciudades se encuentran bajo su dominio, Daenerys permanecerá reinando en una de ellas por ese año. Cada ciudad conquistada tiene probabilidad p de rebelarse durante un año en la ausencia de Daenerys, independiente de lo que pase con sus vecinos. Por ejemplo, supongamos que m ciudades están bajo control al comienzo del año t, con m < n, y que Daenerys y su ejército se encuentran en la ciudad i (una de las m ciudades); entonces, Daenerys toma su ejército y se dirige a alguna de las n − m en rebelión, pasa todo el año conquistando dicha ciudad, la cual queda bajo su control (con probabilidad 1) al comienzo del siguiente año. Cada una de las m ciudades en control al comienzo del año t (incluyendo la ciudad i), independiente del resto, puede decidir rebelarse durante el año t, caso en el cual dejarán de estar bajo control al comienzo del próximo año. Cuando todas las n ciudades se encuentran bajo control al comienzo de un año, Daenerys se queda en la ciudad donde paso el año recién pasado. Cada una de las n − 1 ciudades donde no se encuentran Daenerys y su ejército, independiente del resto, puede decidir rebelarse durante el año con probabilidad p, caso en el cual dejarán de estar bajo control al comienzo del próximo año. 1. Modele con una cadena de Markov el número de ciudades controladas por Daenerys al inicio de cada año. 2. Justifique la existencia de un vector de probabilidades estacionarias, y calcúlelo. 3. Suponga que cada conquista tiene un costo C, calcule cuál es el mínimo tributo anual T que Daenerys debería cobrar a las ciudades de su dominio para sustentar su política a largo plazo. 4. Repita su formulación de la parte 1 para el caso general de n ciudades. Solución parte 1. Las ciudades son indistinguibles, por lo que modelamos el estado como el número de ciudades bajo control al comienzo de un año. Esto es Xk = # de ciudades bajo control al comienzo de año k ∈ {1, 2, 3}. (La ciudad donde está Daenerys no se rebela, así que siempre tiene al menos una.) Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 54 La distribución inicial es π(0) = (1, 0, 0), y la matriz de transición es p 1−p 0   P = p2 2p(1 − p) (1 − p)2  2 2 p 2p(1 − p) (1 − p)   Solución parte 2. Es fácil chequear que existe una única clase de comunicación (los únicos estados no comunicados por un camino de largo uno son el estado 1 al 3, pero existe un camino de largo 2 que pasa por el estado 2). La clase es recurrente porque la cadena es finita, y es aperiodica porque P1,1 > 0. Las ecuaciones para determinar el estado estacionario son: π1 = pπ1 + p2 (π2 + π3 ) π2 = (1 − p)π1 + 2p(1 − p)(π2 + π3 ) π3 = (1 − p)2 (π2 + π3 ) 1 = π1 + π2 + π3 πi ≥ 0, i = 0, 1, 2. Para resolver, notamos que π2 + π3 = 1 − π1 . Remplazando en la primera ecuación tenemos que pπ1 + p2 (1 − π1 ) = π1 ⇒ π1 = p2 . 1 − p + p2 De la segunda ecuación, usando el mismo reemplazo y el valor de π1 obtenemos que p(1 − p)(2 − p) . 1 − p + p2 π2 = Utilizando la tercera o la cuarta ecuación, se concluye que π3 = (1 − p)3 . 1 − p + p2 Solución parte 3. El costo promedio de conquista por año en el largo plazo es (π1 + π2 ) C. Por otro lado, el tributo anual esperado en el largo plazo es (π1 + 2π2 + 3π3 ) T. El tributo mínimo es entonces T∗ = C (π1 + π2 ) . (π1 + 2π2 + 3π3 ) Solución parte 4. Los estados representan lo mismo, pero ahora toman valores en {1, . . . , n}. Si domina i ciudades en un periodo, entonces al siguiente podrá tener hasta i + 1 ciudades. Además si en el siguiente periodo domina j ciudades, eso significa que j = i + 1 − k, con k el número de Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 55 ciudades que se rebelan. Luego la matriz de transición es Pi,j =    3.4. 3.4.1. i i+1−j (1 − p)j−1 i+1−j p n−1 n−j (1 − p)j−1 n−j p if i < n, j ≤ i + 1 if i = n Reversibilidad y Semi-Markov Reversibilidad Consideremos una Cadena de Markov irreducible, recurrente positiva, con probabilidades estacionarias π y elijamos como distribución inicial dichas probabilidades estacionarias. El proceso resultante es estacionario, debido a que con esta elección tenemos que π(n) = π(0) = π para todo n. Consideremos un número de períodos muy grande (infinito), y consideremos el proceso reverso en el tiempo, es decir, definamos el proceso {Yj : j ∈ N}, donde Yj = Xn−j , con n muy grande. Podemos ver que este proceso es una cadena de Markov con matriz de transición P ∗ = {Pij∗ }, donde Pij∗ = P(Y1 = j|Y0 = i) = P(Xn−1 = j|Xn = i) P(Xn = i|Xn−1 = j)P(Xn−1 = j) = P(Xn = i) πj Pji = , πi donde el último paso se debe a que la cadena {Xn : n ∈ N} es estacionaria. Recordemos que una cadena de Markov está caracterizada por la distribución inicial π(0) y la matriz de transición P . Entonces, escogiendo la misma condición inicial (el vector de probabilidades estacionarias), ambas cadenas son indistinguibles cuando Pij∗ = Pij para todo par (i, j) ∈ E, es decir cuando πi Pij = πj Pji , ∀ (i, j) ∈ E. (3) Llamaremos al sistema (3) la condición de reversibilidad. Podemos interpretar la condición de reversibilidad como una condición de balance: la fracción de transiciones desde el estado i al estado j, en el largo plazo, es igual a aquella desde el estado j al estado i, para todo par de estados (i, j). Cuando sospechamos que una cadena es reversible (cumple con la condición de reversibilidad), podemos simplificar el cálculo de probabilidades estacionarias. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 56 Resultado 3.1 (Condición de Resersibilidad) Consideremos una cadena de Markov irreducible con matriz de transición P . Si existen números no negativos πi , i ≥ 0 que sumen 1, tales que πi Pij = πj Pji , entonces: i) π corresponde al vector de probabilidades estacionarias; y ii) la cadena es reversible. Normalmente utilizamos el resultado anterior de la siguiente forma: adivinamos la forma funcional del vector de probabilidades estacionarias a partir de la condición de reversibilidad: si encontramos una solución satisfactoria, concluimos ese es el vector de probabilidades estacionarias (como resultado colateral, corroboramos que la cadena es reversible). Podemos utilizar reversibilidad incluso en casos donde la cadena no es reversible. En dichos casos, debemos adicionalmente conjeturar el comportamiento de la cadena reversa, como muestra el siguiente resultado. Resultado 3.2 (Cadena Reversa) Consideremos una cadena de Markov irreducible con matriz de transición P . Si existen números no negativos πi , i ≥ 0 que sumen 1, y una matriz de transición P ∗ tal que πi Pij = πj Pji∗ entonces π es el vector de probabilidades estacionarias y Pij∗ es la matriz de transición de la cadena reversa. Dem: Sumando la igualdad dada, obtenemos X i πi Pij = X πj Pji∗ = πj , ∀j i Concluimos que π es el vector de probabilidades estacionarias de la cadena original. Sumando sobre j, concluimos que π también es el vector de probabilidades estacionarias de la cadena reversa. Notando que πi Pij Pji∗ = πj se concluye que las Pij∗ son las probabilidades de transición de la cadena reversa. Observamos que, considerando la interpretación de las probabilidades estacionarias como la fracción de los períodos que el sistema para en un estado, en el largo plazo, es fácil ver que el vector π corresponde a las probabilidades estacionarias tanto de la cadena original como de la cadena reversa. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 57 Ejemplo 3.9 (Reversibilidad) M bolas son inicialmente distribuidas entre m urnas. En cada estapa, una bola es seleccionada al azar, es removida de la urna en la que se encuentra y es puesta en alguna de las otras m − 1 urnas al azar. Considere la cadena de Markov con estado (n1 , . . . , nm ), donde ni representa el número de bolas en la urna i. Justifique la existencia de probabilidades estacionarias y encuéntrelas. Solución. Primero algo de intuición: en el largo plazo una bola debiese estar en una urna en particular con probabilidad 1/m, por lo que el vector de probabilidades estacionarias debiese ser tal que, para un estado n = (n1 . . . , nm ), N 1 . n1 , . . . , n m m N ! πn = Corroboraremos nuestra intuición chequeando la condición de reversibilidad. Notamos que la matriz de transición es no nula solamente para estados (n, n0 ) tales que n0 = (n1 , . . . , ni − 1, . . . , nj + 1, . . . , nm ), para algún par de urnas (i, j) tal que i 6= j, y ni > 0. N 1 · n1 , . . . , nm mN 1 N! n1 ! · n2 ! · · · nm ! m N 1 N! 0 0 0 n1 ! · n2 ! · · · nm ! m N πn0 Pn0 ,n . ! πn Pn,n0 = = = = ni 1 · N m−1 ni 1 · · N m−1 nj + 1 1 · · N m−1 Concluimos no solo que π es el vector de probabilidades estacionarias, sino también que la cadena es reversible. Ejemplo 3.10 (Reversibilidad) Considere la evolución de una población de individuos a través del tiempo. En cada período, cada uno de los individuos de la población muere con probabilidad p, independiente del resto. Adicionalmente, un número aleatorio (distribuido Poisson de tasa α) de individuos llega (exógenamente) a la población. Sea Xn el número de individuos al comienzo del período n. Muestre que Xn es una cadena de Markov que admite una distribución estacionaria y que dicha distribución es Poisson de tasa α/p. Solución. Claramente existe una única clase, que es aperiódica. Dado que tenemos un candidato a ley estacionaria, chequearemos que es una ley estable. Para esto, apostaremos que la cadena es Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 58 reversible (porque el chequeo es más sencillo). Primero, calculamos los elementos de la matriz de transición: condicionando en el número de personas que mueren, tenemos que Pij = i X k=(i−j)+ + ! i k α(j−i+k) e−α , p (1 − p)i−k (j − i + k)+ ! k donde, para un número a ∈ R, (a)+ ≡ máx{a, 0}. El enunciado propone πi = (α/p)i e−α/p i! i ≥ 0. A continuación, chequeamos la condición de reversibilidad. Supongamos que i > j, entonces πi Pij = i X k=i−j = = i! α(k−i+j) e−α (α/p)i −α/p pk (1 − p)i−k · e (i − k)!k! (k − i + j)! i! j X αk e−α (α/p)i −α/p i! pk+i−j (1 − p)j−k · e (j − k)!(k + i − j)! k! i! k=0 j X j! α(k−j+i) e−α (α/p)j −α/p pk (1 − p)j−k · e (j − k)k! (k + i − j)! j! k=0 = πj Pji . Esto nos muestra que la distribución estacionaria es Poisson con tasa α/p, y que la cadena es reversible. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 59 Ejemplo 3.11 (Pregunta 1, Control 1 Recuperativo, Primavera 2019) Considere el comportamiento de un turista que desea conocer el metro de Santiago. Partiendo en la estación Los Heroes, en cada estación que visita, el turista: escoge una dirección al azar desde las disponibles en la estación (considerando posibles conexiones a otras lineas); se sube al próximo tren que viaja en esa dirección; y se baja en la siguiente estación, donde repite el proceso. (Supondremos que los tiempos de viaje entre cada par de estaciones adyacentes es constante, y que el tiempo de espera en cada estación - hasta tomar el siguiente tren- también lo es) 1. Escriba este modelo como como una cadena de Markov a tiempo discreto, explique por qué es homogénea y dibuje el grafo asociado (como mejor pueda). 2. Justifique la existencia de un vector estacionario de probabilidades π = (πi )i∈S , donde para cada i, πi representa la probabilidad de que el turista se encuentre en la estación i en el largo plazo, y S representa el conjunto de estaciones del metro de Santiago. 3. Suponiendo que el turista solo se mueve por las lineas 1,2 y 5 del metro (de forma que la red en la que se mueve tiene forma de árbol), justifique que para cada par (i, j) de estaciones adyacentes en la linea de metro, se debe tener que πi πj = , ni nj donde ni es el número de estaciones adyacentes a i. 4. Bajo el supuesto de la parte anterior, muestre que π esta dado por πi = P ni j∈S nj , i ∈ S. Solución parte 1. Los estados de la cadena son las estaciones i ∈ N , y las probabilidades de transición son ( n−1 si las estaciones i y j son adyacentes i Pi,j = 0 ∼. La cadena es homogénea por que las probabilidades de transición no cambian con el tiempo. Solución parte 2. Todas las estaciones están comunicadas entre si (supuesto), por lo que existe una única clase recurrente. No es claro que la cadena es aperíodica. Si podemos encontrar una forma de ir y volver a una estación (cualquiera) en un numero impar de movidas, entonces la clase es aperíodica, y existen probabilidades estacionarias. Solución parte 3. Sea nt (i, j) el número de transiciones desde i a j en los primeros t períodos. Entonces, dado que la red de metro tiene forma de árbol, tenemos que |nt (i, j) − nt (j, i)| ≤ 1. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto 60 Dividiendo por t, tomando el limite cuando t ↑ ∞, concluimos que nt (i, j) nt (j, i) = lı́m . t→∞ t→∞ t t lı́m Suponiendo que existen probabilidades estacionarias, tenemos que 1 nt (i, j) = πi · pi,j = πi · , t→∞ t ni lı́m esto por que el limite de la izquierda es la fracción de transiciones que van desde i a j en el largo plazo, y también lo es el termino de la derecha (usando la interpretación de las probabilidades estacionarias como fracción del tiempo que los procesos pasan en ciertos estados). Esto prueba el resultado. Solución parte 4. Sea A el conjunto de pares (no ordenados) de estaciones adyacentes. Entonces, las ecuaciones de balance están dadas por πi = X πj · j∈N :(i,j)∈A X πi = 1, 1 nj πi ≥ 0 ∀i ∈ N i∈N Definamos C = ( P j∈S nj )−1 . Reemplazando con πi = C · ni arriba, tenemos que X j∈N :(i,j)∈A πj · 1 nj = X j∈N :(i,j)∈A C · nj · 1 nj = ni · C = πi . El resultado sigue del hecho que C es tal que lidades estacionarias. 3.4.2. P i∈N πi = 1, y de la unicidad del vector de probabi- Procesos Semi-Markovianos Un proceso semi-Markoviano es aquel donde el estado de el sistema evoluciona período a período de acuerdo a una cadena de Markov en tiempo discreto, pero la duración de cada período es una variable aleatoria. En particular, es un proceso tal que, dado que el estado actual es el estado i: 1. La probabilidad que el siguiente estado de la cadena sea j es Pij ; 2. Dado que el próximo estado es j, el tiempo que pasa el sistema en el estado i antes de transicionar a j es una variable aleatoria de distribución Fij . Notamos que, de acuerdo a esta definición, una cadena de Markov en tiempo discreto es un proceso semi-Markoviano tal que el tiempo de estadía en un estado es igual a 1 con probabilidad 1. Supongamos que la cadena de Markov definida por P (y alguna distribución inicial) es irreducible, aperiódica y recurrente positiva. Para un par de estados (i, j) definimos µij como la esperanza de una variable aleatoria de distribución Fi,j . Con esto, tenemos que el tiempo esperado de estadía en Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Discreto el estado i está dado por µi = 61 X µij Pij , i ∈ E. j∈E El siguiente resultado relaciona las probabilidades estacionarias de la cadena de Markov subyacente (las que existen dado nuestros supuestos), con aquellas del proceso semimarkoviano. Para esto supongamos que Ti , el tiempo entre transiciones sucesivas al estado i en el proceso semi-Markoviano, tiene media finita y no es del tipo lattice (∼ discreta). Resultado 3.3 (Conexión a procesos semi-Markov) Consideremos un proceso de semiMarkov irreducible tal que Ti tiene una distribución no de tipo lattice, con esperanza finita. Supongamos además que la cadena de Markov subyacente {Xn , n ≥ 0} es recurrente positiva. Entonces, πi µi Pi = P , i ∈ E, j πj µj donde π corresponde al vector de probabilidades estacionarias de la cadena de Markov subyacente. Observación: Necesitaremos el resultado de arriba para entender el concepto de reversibilidad en el caso de cadenas de Markov en tiempo continuo, el cual se conecta con aquel para las cadenas en tiempo discreto a través de este resultado. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 4. 62 Procesos de Poisson Un proceso estocástico {N (t) : t ≥ 0} es llamado un proceso de conteo si representa el número de veces que ha ocurrido un determinado evento hasta el instante t. Debe satisfacer las siguientes propiedades: i) N (t) ∈ N ∀ t ∈ R. ii) s < t ⇒ N (s) ≤ N (t) (es decir, N (·) no decrece). iii) Si s < t, entonces N (t) − N (s) representa el número de eventos ocurridos en el intervalo de tiempo (s, t]. Caracterizar un proceso de conteo es, en general, complejo: debemos caracterizar la distribución del número de eventos para cualquier conjunto finito de intervalos de tiempo. Tal como en el caso de las cadenas de Markov, centraremos nuestra atención en procesos que cuentan con propiedades que hacen más sencillo su analisis: estas propiedades son los incrementos independientes e incrementos estacionarios. Definición 4.1 Un proceso de conteo posee incrementos estacionarios si y solo si la distribución de probabilidad del número de llegadas en un intervalo solo depende del largo del intervalo (y no de su “posición”). Esto es, P (N (t) − N (s) = k) = P (N (t + h) − N (s + h) = k) , ∀ t, s, h ≥ 0, t > s, k ∈ N. Un ejemplo de proceso que no cumple esto es la llegada de alumnos a la sala: una vez ha comenzado la clase y conforme avanza la hora debiese ser menos probable que lleguen nuevos alumnos. Definición 4.2 Un proceso de conteo posee incrementos independientes si y solo si el número de eventos durante intervalos disjuntos son independientes. Esto es, para todo t1 < t2 < t3 < t4 y i, j ∈ N, P (N (t2 ) − N (t1 ) = i ∧ N (t4 ) − N (t3 ) = j) = P (N (t2 ) − N (t1 ) = i) · P (N (t4 ) − N (t3 ) = j) . Un ejemplo de proceso que no cumple esto es la llegada de alumnos a la sala: la cantidad de alumnos que llegan 5 min despues del inicio de clases depende de la cantidad de alumnos que llegaron antes (considere que el número de alumnos en el curso es fija, por lo que si llegan todos los alumnos antes de los 5 min, sabemos que nadie más llegará). Aproximación Binomial. A continuación construiremos (de forma heurística) un proceso que cuenta con las propiedades definidas arriba. Para esto consideremos el intervalo de tiempo [0, t], el cual particionaremos en n subintervalos del mismo largo h(n) = t/n. El proceso en cuestión es tal que en cada subintervalo, independiente de todo lo demás, ocurre a los más un evento, lo que Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 63 ocurre con probabilidad proporcional al largo del intervalo. Esto es, sea Xi el número de eventos que ocurren en el subintervalo i ∈ {1, . . . , n}, entonces, las variables {Xi : i = 1, . . . , n} son i.i.d., y tales que ( Xi = 1 c.p. λ h(n) 0 ∼. Claramente, por construcción, el número de eventos ocurridos en intervalos del mismo largo corresponde al número de eventos ocurridos en conjuntos de subintervalos con igual cardinalidad, por lo tanto su distribución es la misma (es decir, se cumple la propiedad de incrementos estacionarios). De la misma forma, dos intervalos disjuntos corresponden a conjuntos de subintervalos disjuntos, por lo tanto la propiedad de incrementos independientes se hereda de la independencia de las variables Xi ’s. Para un n fijo tenemos que el Nn (t) número de eventos totales contabilizados en el intervalo [0, t] se distribuye binomial con parámetros n y λ h(n). Esto es, ! P (Nn (t) = k) = n (λ h(n))k (1 − λ h(n))n−k . k A partir de esta expresión, consideramos el proceso límite N (t) ≡ lı́mn→∞ Nn (t): heurísticamente, tenemos que la distribución de dicho proceso límite esta dada por P (N (t) = k) = = = lı́m P (Nn (t) = k) n→∞ (λt)k n · (n − 1) · · · (n − k + 1) (1 − n→∞ k! n · n···n (1 − lı́m λt n n) λt k n) (λt)k −λt e . k! Concluimos que este proceso límite es tal que el número de eventos que ocurren en el intervalo [0, t] se distribuye como una variable aleatoria con distribución Poisson de parámetro λ t. A continuación presentamos la caracterización de un proceso estocástico en tiempo continuo, que coincide con la intuición desarrrollada en la construcción de arriba. Esta es una primera definición de un Proceso de Poisson. Definición 4.3 (Proceso de Poisson (I)) Definimos un proceso de Poisson con tasa λ > 0 como un proceso de conteo N (t) tal que: i) N (0) = 0 ii) El proceso posee incrementos independientes y estacionarios iii) P(N (h) = 1) = λh + o(h), P(N (h) = 2) = o(h) Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 64 En la definición anterior, la notación o(h) se refiere a funciones que decrecen a 0 más rápido que h, en el siguiente sentido: decimos que f (h) es orden o(h) (o-pequeña de h) si lı́m h→0 f (h) = 0. h Lo importante de esto es que, en primer lugar, la probabilidad de que ocurra un evento en un intervalo es proporcional al tamaño del intervalo, y en segundo lugar, en un intervalo cada vez más pequeño, la probabilidad de que ocurra más de un evento tiende a 0: no pueden ocurrir dos eventos al mismo tiempo. Si bien la Definición I no hace mención explícita a que la distribución del número de eventos en un intervalo de largo t sea Poisson, este hecho puede derivarse usando los argumentos utilizados en la aproximación binomial. Esto nos da una caractezación alternativa de un proceso de Poisson. Definición 4.4 (Proceso de Poisson (II)) Definimos un proceso de Poisson con tasa λ > 0 como un proceso de conteo N (t) tal que: i) N(0) = 0. ii) El proceso posee incrementos independientes. iii) P (N (s + t) − N (s) = k) = (λt)k e−λt , ∀s, t ≥ 0, k ∈ N k! Notamos que iii) en la Definición II arriba implica que el proceso N (t) posee incrementos estacionarios (ya que no aparece s, la posición del intervalo, en la fórmula: solo t, el tamaño del intervalo). Como es de esperarse, las Definiciones I y II del proceso de Poisson son equivalentes. Teorema 4.1 (Equivalencia de las definiciones) Las Definiciones I y II de proceso de Poisson son equivalentes. Dem: La prueba consiste en demostrar que la Definición I (DI) implica la Definición II (DII), y vice-versa. La demostración que DI implica DII puede encontrarse en el Capítulo 2 de “Stochastic Processes” de S. Ross, por lo que la omitiremos acá. A continuación se prueba que DII implica DI. Es fácil ver que i), ii) y iii) en DII implican i) y ii) en DI, por lo que nos limitamos a demonstrar que iii) en la DI se cumple también. Partiendo de iii) en DII, tenemos que P (N (h) = 1) = e−λh (λh) = λh + λh(e−λh − 1) = λh + o(h). Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 65 El último paso arriba viene de notar que λh(e−λh − 1) (a) = lı́m λ(e−λh − 1) + λhe−λh = 0, h→0 h→0 h lı́m donde (a) viene de aplicar L’Hôpital. Te la misma forma, tenemos que P (N (h) = 0) = e−λh = 1 − λh + (e−λh + λh − 1) = λh + o(h). Nuevamente, el último paso viene de notar que (e−λh + λh − 1) (a) = lı́m −λe−λh + λ = 0, h→0 h→0 h lı́m donde (a) viene de aplicar L’Hôpital. La prueba concluye al notar que P (N (h) ≥ 2) = 1 − P (N (h) = 1) − P (N (h) = 0) = o(h). 4.1. Tiempo entre llegadas u ocurrencias La caracterización de un proceso de Poisson se basa en una construcción que impone las propiedades de incrementos independientes y estacionarios. Alternativamente, un proceso de Poisson puede definirse en término de la distribución de los tiempos entre llegadas sucesivas. Intuición: Si un proceso ha de tener la propiedad de incrementos estacionarios, es necesario que la distribución del número de llegadas en cualquier intervalo sea independiente del punto de inicio del intervalo. Sin embargo, partiendo desde t = 0, esto implica que la probabilidad que una llegada ocurra entre t = s y t = s + h, para h muy pequeño, se mantenga constante, independiente de cuando en realidad ocurren las llegadas. Esto impone una condición de “pérdida de memoria” a la distribución del tiempo entre llegadas. La única distribución continua con esta propiedad es la exponencial. Sea Xi el tiempo entre la (i − 1)-ésima llegada y la i-ésima (decimos que la llegada “0” ocurre en t = 0), i ≥ 1. Calculemos la distribución del instante de la primera llegada, X1 . Para esto notamos la equivalencia X1 > t ⇐⇒ N (t) = 0. Con esto, utilizando DII, tenemos que P (X1 ≤ t) = 1 − P (X1 > t) = 1 − P (N (t) = 0) = 1 − e−λt . Concluimos que X1 se distribuye exp(λ) (exponencial de tasa λ). El siguiente resultado muestra que los tiempos entre llegadas, en general, se distribuyen exp(λ). Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 66 Teorema 4.2 Xn ∼ exp(λ) para todo n ≥ 1, y {Xn : n ≥ 1} forma una sequencia i.i.d. Dem: Probamos el resultado via inducción. El caso base de X1 ya se ha probado. Supongamos entonces que Xi ∼ exp(λ) para i ≤ n, y calculemos la distribución de Xn+1 . Para esto condicionamos en los valores de Xi con i ≤ n. Tenemos que P (Xn+1 ≤ t) = 1 − P (Xn+1 > t) = 1− Z Rn + P (Xn+1 > t|Xi = si , i ≤ n) λn e−λ | {z P si dsn . . . ds1 . } (?) La expresión (?) es igual a P (N (( si ) + t) − N ( si ) = 0) (note que podemos botar el evento condicionante por la propiedad de incrementos independientes). Con esto, utilizando la propiedad de incrementos estacionarios, tenemos que P P (Xn+1 ≤ t) = 1 − Z P (Xn+1 ≤ t) = 1 − Z P Rn + Rn + P (Xn+1 ≤ t) = 1 − e−λt P N (t + X si ) − N ( P (N (t) = 0) λn e−λ Z Rn + λn e−λ P si P X si si ) = 0 λn e−λ P si dsn . . . ds1 dsn . . . ds1 dsn . . . ds1 = 1 − e−λt . Concluimos que Xn+1 ∼ exp(λ). Queda por demostrar que Xn+1 es independiente de {Xi : i ≤ n}, pero esto es consecuencia directa de la propiedad de incrementos independientes (y puede ser demostrada siguiendo el mismo argumento que prueba que Xn+1 ∼ exp(λ)). El resultado de arriba nos da una tercera definición de Procesos de Poisson. Definición 4.5 (Proceso de Poisson (III)) Definimos un proceso de Poisson con tasa λ como un proceso de conteo N (t) tal que la secuencia de tiempos entre llegadas {Xi : i ≥ 1} forma una secuencia i.i.d., con X1 ∼ exp(λ). Es posible mostrar que esta definición es equivalente a DI y DII.Para n ≥ 1, definimos Sn como el P instante de llegada del n-ésimo evento. Esto es, Sn := ni=1 Xi . Normalmente podemos estudiar los tiempos de llegada a través de la siguiente equivalencia. Sn ≤ t ⇔ N (t) ≥ n. Por ejemplo, podemos derivar la distribución de Sn de la siguiente forma. P(Sn ≤ t) = 1 − P(N (t) < n) =1− Apunte de Cátedra Pn−1 (λt)i e−λt i=0 i! . IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 67 Obtenemos la densidad fSn (·) de Sn derivando respecto a t. Esto es, fSn (t) = n−1 X i=0 X λi ti−1 e−λt λi+1 ti e−λt n−1 λe−λt (λt)n−1 − = . i! (i − 1)! (n − 1)! i=1 Notamos que Sn distribuye Gamma(n, λ), n ∈ N, λ ∈ R+ . Esto es esperable, dado que una forma de definir una Gamma de parámetros n y λ es como la suma de n variables i.i.d. exp(λ) (lo que se puede demostrar fácilmente con la función generadora de momentos). De esta ultima observación, obtenemos directamente que E {Sn } = n/λ. 4.2. Distribución Condicional A continuación, consideramos la distribución de los tiempos de llegada, pero condicionales en el número de eventos ocurridos en el intervalo [0, t]. Primero revisemos la intuición, para entender qué deberíamos recuperar como distribución. Intuición: Consideremos la aproximación binomial del proceso de Poisson: tenemos n intervalos de igual largo (h(n) = t/n) y eventos ocurren en cada intervalo de forma independiente con igual probabilidad (p = λ h(n)). Consideremos la distribución de X1n (el instante de la primera llegada en la aproximación), condicional en que Nn (t) = 1: dado que todos los intervalos son esencialmente indistinguibles, X1n se distribuye uniforme (discreto) en los intervalos. Más formalmente, la probabilidad que X1n ≤ s, para s ≤ t está dada por P (X1n 1 t ≤ s) = sup k : k ≤ s . n n (Estamos asumiendo que una llegada ocurre en medio de un intervalo). Para n >> 0, el supremo en el lado derecho arriba es aproximadamente stn , por lo que esperamos que, en el límite 1 t s P (X1 ≤ s) = lı́m sup k : k ≤ s = , n→∞ n n t es decir, condicional en que N (t) = 1, la llegada del primer evento se distribuye U nif [0, t] (uniforme en el intervalo [0, t]). Corroboramos la instución desarrollada arriba, utilizando el hecho que X1 se distribuye exponencial: Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 68 para s < t tenemos que, utilizando Bayes, P(X1 ≤ s|N (t) = 1) = = = = = P(X1 ≤ s ∧ N (t) = 1) P(N (t) = 1) P(N (s) = 1 ∧ N (t − s) = 0) P(N (t) = 1) P(N (s) = 1)P(N (t − s) = 0) P(N (t) = 1) P(N (s) = 1)P(N (t) − N (s) = 0) P(N (t) = 1) λse−λs e−λ(t−s) s = . −λt λte t Notamos que hemos utilizado las propiedas de incrementos estacionarios e independientes en el desarrollo arriba. Concluimos entonces que (X1 | N (t) = 1) ∼ U nif [0, t]. Extendiendo el desarrollo anterior, consideremos ahora la distribución conjunta de los instantes de llegada S1 , S2 , . . . , Sn , condicional en que N (t) = k. Revisamos primero la intuición. Intuición: Volviendo a la aproximación binomial del proceso, considerando que los intervalos son indistinguibles, condicional en que Nn (t) = k, cada intervalo tiene igual probabilidad de contener un evento, por lo que cada evento sin considerar el orden en que llegó se distribuye uniforme (discreto) en los intervalos. En el límite esta distribución converge a la U nif [0, t]. Por lo tanto, para pasar de las llegadas de los eventos desordenados, a la llegada ordenada, lo que debemos hacer es simplemente ordenar k variables U nif [0, 1] de menor a mayor. Esta distribución se conoce como los estadísticos de orden de un conjunto de variables aleatorias. Utilizando la intuición desarrollada, probaremos que los tiempos de llegada condicionales distribuyen como los estadísticos de orden de n variables aleatorias uniformes i.i.d. en [0, t]. Sean U1 , . . . , Uk i.i.d. tales que Ui ∼ U nif [0, t]. Sus estadísticos de orden son las v.a.s U(1) , . . . , U(k) , donde U(1) es el menor valor entre las k uniformes, U(2) es el segundo menor, etc. La densidad fEO de los estadísticos de orden de estas variables está dada por fEO (t1 , . . . , tk ) = k! , tk 0 ≤ t1 < t2 < . . . < tk ≤ t. (El k! factorial aparece por el número de órdenes posibles). Formalizamos el resultado. Consideremos una secuencia de valores (ti : i ≤ k) tales que 0 < t1 . . . < tk < t. Utilizaremos un argumento heurístico para obtener la densidad de los tiempos ordenados Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 69 de llegada. Considere h pequeño, definiendo t0 = 0 y tk+1 = t, P(Si ∈ [ti , ti + h] : i ≤ n|N (t) = k) = = = = P (N (ti + h) − N (ti ) = 1, i ≤ k, N (ti ) − N (ti−1 ) = 0, i ≤ k + 1) P (N (t) = k) P (N (h) = 1)k · P (N (t − k h) = 0) P (N (t) = k) k −λhk (λ h) e · ek h−t (λt)k e−λt /k! k! hk , tk donde en la segunda igualdad hemos usado las propiedades de incrementos independientes y estacionarios. Para obtener la densidad f{Si :i≤k}|N (t)=k tenemos que f{Si :i≤k}|N (t)=k (t1 , . . . , tk ) = lı́m h→0 P(Si ∈ [ti , ti + h] : i ≤ n|N (t) = k) k! = k. k h t Concluimos que las llegadas condicionales distribuyen como los estadísticos de orden de uniformes iid. Ejemplo 4.1 (Tiempos de llegada condicionales) Tiempo total esperado de espera de un bus. Suponga que pasajeros llegan a una parada de buses de acuerdo a un proceso de Poisson de tasa λ > 0. Suponga que el primer bus pasa en t = T . Calcule cuánto esperaron en total los pasajeros que suben a ese bus (suma de los tiempos de espera de cada pasajero). Solución. Condicionando sobre el valor de N (T ), tenemos que E  (T ) NX  i=1 (T − Si )   =  =  (T ) NX   k≥0  i=1 (  ) X E kT − X E (T − Si )|N (T ) = k k≥0 = X [kT − E k≥0 = X [kT − E k≥0 k X P(N (T ) = k) Si | N (T ) = k P(N (T ) = k) i=1 ( k X i=1 ( n X ) U(i) ]P(N (T ) = k) ) Ui ]P(N (T ) = k) i=1 T = [kT − k ]P(N (T ) = k) 2 k≥0 X = Apunte de Cátedra T X T2 k P(N (T ) = k) = λ. 2 k≥0 2 IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 70 Ejemplo 4.2 (Control 3, Primavera 2018) Autos llegan a la entrada de un parque de acuerdo a un Proceso de Poisson de tasa λ [autos/hora]. El número de pasajeros en los autos forma una secuencia de variables aleatorias i.i.d.. En particular, la probabilidad que un auto cualquiera traiga n pasajeros es pn > 0, n ≤ N . Debido a un aumento en las medidas de seguridad, cada persona debe registrarse en un kiosco antes de ingresar al parque. Suponga que el número de kioscos es muy grande, que los pasajeros demoran un tiempo exponencial de tasa µ [1/hora] en registrarse, y que cada pasajero ingresa al parque inmediatamente tras registrarse (espera a sus potenciales acompañantes dentro del parque). 1. ¿El número de personas dentro del parque en el instante t distribuye Poisson? En caso afirmativo, encuentre la tasa. 2. Suponga que llega un auto con n pasajeros en el instante s. Calcule la esperanza del número de pasajeros de ese auto que se encuentran dentro del parque en el instante t (t > s). 3. Calcule la esperanza del número de personas en el parque en el instante t. 4. ¿El número de autos que para el instante t tienen al menos un pasajero dentro del parque distribuye Poisson? En caso afirmativo, encuentre la tasa. 5. Suponga que el primer auto en llegar trae solo un pasajero. Encuentre una recursión que permita calcular la probabilidad que ese pasajero sea el primero en entrar al parque. Solución parte 1. No, el instante de la primera entrada al parque es la suma de una exponencial y una mistura de exponenciales. Solución parte 2. Cada uno de esos pasajeros tiene una probabilidad p(s) = 1−exp(−µ(t − s)) de estar dentro del parque en el instante t, por lo tanto el número de pasajeros en ese auto dentro del parque en el instante t se distributye Binomial(n, p(s)). Con esto, la esperanza E(n, s) del número de pasajeros de ese auto dentro del parque en el instante t es E(n, s) = n p(s) = n (1 − exp(−µ(t − s))). Solución parte 3. Primero calculamos la esperanza del número de pasajeros dentro del parque en el instante t que llegaron en un auto antes del instante t. Para esto utilizamos la distribucion del número de personas en un auto, y la distribucion condicional de los tiempos de llegada. Entonces, tenemos que ! N N Z t X X 1 1 − exp(µ t) E= E(n, s) ds pn = n pn 1− . t µt 0 n=1 n=1 Con esto, tenemos que la esperanza que buscamos es simplemente E λ t. Solución parte 4. Operamos como en la parte anterior. Es decir calculamos la probabilidad que un auto que llega antes que t tenga a uno de sus pasajeros dentro del parque en el instante t. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 71 Condicional en el instante de llegada y el número de pasajeros en el auto, esta probabilidad es P (n, s) = 1 − exp(−µ n(t − s)). Por lo tanto, descondicionando, la probabilidad se transforma en P = N Z t X n=1 0 N X 1 − exp(nµ t) 1 pn . 1− P (n, s) ds pn = t nµ t n=1 Condicionando en el número total de autos que llegan hasta t, la probabilidad que k de ellos cumplan el criterio buscado es Pk = ∞ X j=k = ! j k p (1 − p)j−k (λ t)j exp(−λ t)/j! k (−λ p t)k exp(−λ p t)/k! ∞ X (λ t(1 − p))j−k exp(−(1 − p)λ t)/(j − k)! j=k = (−λ p t) exp(−λ p t)/k! k Concluimos que la distribucion es poisson de tasa λ t p. Solución parte 5. Sea Pn la probabilidad de que el primer individuo en llegar (el pasajero del primer auto) sea el primero en entrar al parque, cuando hay n personas siendo registradas en los kioscos. La intuición es que si el registro de este individuo le gana la carrera de exponenciales a la llegada del siguiente auto, entonces entra primero con probabilidad 1. En cambio, si llega otro auto, la probabilidad dependerá de cuántos pasajeros traiga este auto: µ λ P1 = + µ+λ µ+λ N X ! P1+m · pm . m=1 Generalizando esta expresión para cuando hay n individuos siendo registrados (por lo cual el individuo en cuestión les “tiene que ganar” a n − 1 personas y al siguiente auto), se obtiene µ λ Pn = + nµ + λ nµ + λ Apunte de Cátedra N X ! Pn+m · pm m=1 IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 72 Ejemplo 4.3 (Pregunta 1, Control 2, Primavera 2019) El área de Fiscalización del Ministerio de Transportes quiere comprobar en terreno que los operadores de buses estén cumpliendo con las tasas acordadas de frecuencias de sus flotas. Para ello se enviará a un inspector a un paradero, en que, desde un tiempo inicial t0 = 0 pasan buses siguiendo un proceso de Poisson {N (t) : t ≥ 0} de tasa λ > 0. El inspector llega al paradero y pregunta al vendedor de la tienda de sopaipillas del frente cuánto ha sido el tiempo desde la última vez que pasó un bus, lo que anota como T1 . Luego toma el tiempo T2 hasta el primer bus que pasa, y reporta como intervalo entre buses la suma T := T1 + T2 . 1. Justifique que la estimación del intervalo dada por el inspector, en promedio, es mayor que el tiempo promedio de espera real entre buses. ¿A qué se debe este error? 2. Muestre que si el inspector llega en un instante t y han pasado n buses desde el comienzo del proceso (t0 = 0), entonces el intervalo que reporta el inspector está dado (en promedio) por 1 t E{T |N (t) = n} = + . λ n+1 3. Concluya que si el tiempo de llegada del inspector es una variable aleatoria de distribución exponencial de tasa µ (independiente de todo), entonces el intervalo de tiempo que reportará el inspector tiene esperanza E{T } = 1 1 + . λ λ+µ 4. Analice y justifique los casos límite µ → 0, µ → +∞. Solución parte 1. Notamos que, por la perdida de memoria de la exponencial, tenemos que E{T2 } = 1/λ. Dado que E{T1 } > 0, tenemos que E{T } > 1/λ, pero el tiempo promedio de espera es 1/λ, que es lo que queríamos probar. El error viene del hecho que el inspector no considera que es suficiente considerar el tiempo que demora en llegar el siguiente bus solamente, por la perdida de memoria de la exponencial. Solución parte 2. Condicional en que N (t) = n, los tiempos de llegadas desordenados se distribuyen como n variables iid U (0, t). Entonces, considerando Ui ∼ U (0, t) para i ≤ n, independientes, tenemos que E{T1 |N (t) = n} = E{T − máx{Ui : i ≤ n}} Consideremos que P(máx{Ui : i ≤ n} ≤ x) = P(∩ni=1 {Ui ≤ x}) = n Y P(Ui < x) = i=1 n x t . Por lo tanto, la densidad del máximo fmax (·) está dada por fmax (x) = Apunte de Cátedra ∂P(máx{Ui : i ≤ n} ≤ x) n = ∂x t n−1 x t . IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 73 Entonces, tenemos que E{máx{Ui : i ≤ n}} = Z t x 0 n t n−1 x t dx = n n xn+1 t |0 = t. n t n+1 n+1 Por otro lado, ya sabemos que E{T2 |N (t) = n} = 1/λ. Con esto concluimos que E{T |N (t) = n} = E{T1 |N (t) = n} + E{T2 |N (t) = n} = t − n 1 t 1 t+ = + . n+1 λ n+1 λ Solución parte 3. Supongamos que el tiempo de llegada X del inspector es X = t. De la parte anterior, tenemos que E{T |X = t} = = = ∞ X E{T |X = t, N (t) = n}P(N (t) = n) n=0 ∞ X n=0 ∞ X n=0 1 t + P(N (t) = n) λ n+1 1 t + λ n+1 (λt)n −λ t e n! = ∞ 1 1X (λt)n+1 −λ t + e λ λ n=0 (n + 1)! = ∞ (λt)n −λ t 1 1X + e λ λ n=1 n! = ∞ (λt)n −λ t 1 −λ t 1 1X 2 1 + e − e = − e−λ t . λ λ n=0 n! λ λ λ Finalmente, tenemos que E{T } = = = = = Z ∞ 0 E{T |X = t}µ e−µ t dt Z ∞ 2 1 − e−λ t µ e−µ t dt λ λ 0 Z ∞ 2 µ − e−λ t e−µ t dt λ λ 0 Z ∞ 2 µ 1 − (µ + λ) e−(µ+λ) t dt λ λµ+λ 0 2 µ 1 1 1 1 − = (µ + 2λ)) = + . λ λµ+λ λ(µ + λ) λ λ+µ Solución parte 4. Cuando µ → ∞ tenemos que P(X > ) = e−µ → 1, es decir, en el limite X = 0. En este caso el inspector llega en t = 0, por lo que su estimación lı́m E{T } = µ→∞ Apunte de Cátedra 1 1 1 + lı́m = µ→∞ λ λ+µ λ IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 74 es correcta. Por otro lado, cuando µ → 0 tenemos que P(X ≤ M ) = 1 − e−µM → 0, es decir, en el limite X → ∞. En este caso la estimación del inspector es lı́m E{T } = µ→0 1 1 2 + lı́m = . λ µ→0 λ + µ λ En este caso, la estimación se puede explicar por que en el largo plazo, el tiempo hasta que pasa el próximo bus debiese distribuirse igual que el tiempo desde que pasó el bus pasado. Por lo tanto, en el largo plazo, la distribución T1 es exponencial con tasa λ (sabemos que este es siempre el caso para T2 ). 4.3. División y suma de procesos de Poisson. Sea N (t) un proceso de Poisson de tasa λ. Supongamos que los eventos pueden ser clasificados en 2 categorías, A y B (con probabilidad p un evento sería de tipo A y con prob. (1 − p) sería B, independiente del resto). Definamos NA (t) y NB (t) como los procesos de conteo asociados a los eventos clasificados como A y B, respectivamente. Mostraremos que NA (t) es un proceso de Poisson (y por lo tanto, invirtiendo los roles, NB (T ) tambien lo es). Primero veamos la intuición detrás del resultado. Intuición: Consideremos la aproximación binomial al proceso de Poisson. En nuestra aproximación, en cada intervalo existe un evento con probabilidad λ h(n): dicha evento cuenta para el proceso NA (t) con probabilidad p, por lo tanto el proceso de conteo NA (t) acepta la misma aproximación binomial, pero con probabilidad modificada de ocurrencia de un evento en un intervalo igual a λ p h(n). Claramente, en el límite el proceso resultante es un proceso de Poisson de tasa λ p. En nuestra aproximación, los procesos están claramente correlacionados: si sabemos que han ocurrido n llegadas de eventos tipo A, sabemos que no han ocurrido llegadas de tipo B. Sorprendentemente, en el límite, los procesos NA (t) y NB (t) son independientes. Proposición 4.1 (División procesos de Poisson) Los procesos NA (t) y NB (t) son procesos de Poisson independientes, con tasas λA = pλ y λB = (1 − p)λ, respectivamente. Dem: Chequeamos DII para ambos procesos. Claramente las propiedad de incrementos independientes y estacionarios se heredan del proceso N (t), por lo tanto solo es necesario chequear que NA (T ) y NB (t) se distribuyen Poisson con las tasas apropiadas. A continuación chequeamos esto, y en forma simultánea, la independencia de los procesos. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 75 Para n, m ∈ N, condicionando en las llegadas del proceso original N (t), tenemos que P(NA (t) = n, NB (t) = m) = X P(NA (t) = n, NB (t) = m|N (t) = k)P(N (t) = k) k≥0 = P(NA (t) = n, NB (t) = m|N (t) = n + m)P(N (t) = n + m). Notamos que (NA (t) = n, NB (t) = m|N (t) = n + m) corresponde a clasificar n eventos tipo A de un total de n + m eventos. Claramente, el número de eventos clasificados tipo A se distribuye binomial con parámetros m + n y p, por lo tanto n+m n p (1 − p)m . n ! P (NA (t) = n, NB (t) = m|N (t) = n + m) = Con esto, tenemos que n+m n e−λt (λt)n+m p (1 − p)m n (n + m)! ! P(NA (t) = n, NB (t) = m) = = = = e−λt(1−p+p) (n + m)! (pλt)n ((1 − p)λt)m n!m! (n + m)! (pλt)n e−pλt ((1 − p)λt)m e−(1−p)λt · n! m! m −λ n −λ t A (λB t) e B t (λA t) e · n! m! El resultado sigue de notar que este es el producto de las probabilidades que dos variables Poisson con tasas p t y (1 − p)t tomen los valores n y m, respectivamente. Sean NA (t) y NB (t) dos procesos de Poisson independientes, con tasas λA y λB , respectivamente. Consideremos el proceso N (t) = NA (t) + NB (t) que cuenta los eventos de ambos procesos. Probaremos que N (t) también es un proceso de Poisson. Primero revisamos la intuición. Intuición: Consideremos la aproximación binomial de ambos procesos (hacemos coincidir los intervalos escogiendo el mismo n en ambas aproximaciones): la probabilidad p(h) de observar k eventos en un intervalo de largo h está dada por p(h) =    1 − (λA + λB )h + o(h) (λ + λB )h + o(h) A   o(h) k=0 k=1 ∼. Notamos que la probabilidad de observar un evento es, esencialmente, (λA + λB )h: entonces, en el límite, debiésemos recuperar un proceso de Poisson de tasa λ = λA + λB . Notamos que, en la aproximación binomial, observamos un evento si viene de alguno de los procesos A o B, pero la probabilidad de que se cuenten dos eventos va a 0 cuando disminuimos el largo h de los intervalos. El siguiente resultado corrobora nuestra intuición. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 76 Proposición 4.2 (Suma de procesos de Poisson) El proceso N (t) = NA (t) + NB (t) es un proceso de Poisson de tasa λ = λA + λB . Dem: Chequeamos DII para el proceso N (t). Tanto la propiedad de incrementos independientes como aquella de incrementos estacionarios se heredan de los procesos NA (t) y NB (t), por lo que nos limitamos a probar que N (t) se distribuye Poisson con tasa λ t. Condicionando sobre el número de llegadas del proceso NB (t), tenemos que: P (N (t) = n) = P (NA (t) + NB (t) = n) = X P (NA (t) + NB (t) = n| NB (t) = i) P (NB (t) = i) (condicionando) i≤0 = X P (NA (t) = n − i | NB (t) = i) P (NB (t) = i) i > n (tiene P = 0) i≥0 = X P (NA (t) = n − i) P (NB (t) = i) (son independientes) i≥0 = X (λA t)n−1 e−λA t ( i≥0 (n − i)! )( (λB t)i e−λB t ) i! = n e−(λA +λB )t X n! (λA t)n−i (λB t)i n! (n − i)!i! i=1 = e−(λA +λB )t (λt)n e−λt ((λA + λB )t)n = n! n! Apunte de Cátedra (· n! ) n! (binomio de Newton) (λ = λA + λB ) IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 77 Ejemplo 4.4 (Pregunta 1, Control 2, Otoño 2019) Considere personas que llegan a un evento de juegos de mesa según un proceso de Poisson de tasa λ personas por minuto. Suponga además que todos los juegos son para 4 personas, de modo que las personas que llegan deben esperar hasta poder formar un grupo de 4. En el momento en que se juntan 4 personas ociosas, instantáneamente arman una mesa de juego (que se mantendrá jugando hasta el fin del evento). 1. Calcule la probabilidad de que hayan exactamente 2 mesas de juego armadas a los 30 minutos de iniciado el evento. 2. Calcule la esperanza del tiempo de espera de una persona hasta empezar a jugar. 3. Si la primera mesa se armó 20 minutos después de iniciado el evento, calcule la esperanza de la suma de los tiempos esperados de las primeras 4 personas en llegar. 4. Suponga ahora que cada persona que llega al evento es un jugador que conoce los juegos del evento con probabilidad p o alguien que va a aprender a jugar con probabilidad 1 − p (independiente de todo lo demás). En este nuevo escenario, solo se pueden armar mesas con 4 personas que saben jugar o con 4 personas que van a aprender. ¿Cuál es la probabilidad de que no haya ninguna mesa armada luego de una hora de iniciar el evento? Solución parte 1. Sea X el evento en cuestión, y T = 30 minutos. Tenemos que P(X) = P(N (T ) ∈ {8, 9, 10, 11}) = 11 X (λT )i −λT e . i=8 i! Solución parte 2. Sea T el tiempo de espera de una persona cualquier hasta empezar a jugar. Es claro (sino, ver la parte 2 de la siguiente pregunta) que una persona cualquiera tiene igual probabilidad de encontrar i = 0, 1, 2, 3 personas esperando formar una mesa al momento de llegar. Condicionando sobre N , el número de personas esperando al momento de llegar, tenemos que 3 X 3 1 X 1 3 E{T |N = i} = (3 − i)λ−1 = λ−1 . E{T } = 4 4 2 i=0 i=0 Solución parte 3. Notamos que la cuarta persona en llegar llego exactamente en t = 20 minutos, y esa persona no espero. Por lo tanto, debemos sumar los tiempos de espera de las otras tres personas. Sin embargo, notamos que los tiempos de llegada condicionales se distribuyen como los estadísticos de orden de 3 variables aleatorias independientes uniformes[0, T ], con T = 20 minutos. Entonces, tenemos que la esperanza del tiempo de espera W es E{W |N (T −) = 3} = 3 X i=1 E{T − Si |N (T −) = 3} = 3 X i=1 E[{T − U(i) } = 3 X 3 E{T − Ui } = T. 2 i=1 Solución parte 4. los procesos N1 (t) y N2 (t) de llegada de jugadores que saben/no saben jugar son procesos de Poisson independientes con tasas λ p y λ(1 − p), respectivamente. Definiendo Z Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 78 como el evento en cuestión, y T = 1 hora, tenemos que P(Z) = P(N1 (T ) ≤ 3 ∧ N2 (T ) ≤ 3) = P(N1 (T ) ≤ 3] · P [N2 (T ) ≤ 3) = 3 X (λ p)i −λ p e i=0 i! ! · 3 X (λ (1 − p))i −λ (1−p) e i=0 ! i! . Ejemplo 4.5 (Pregunta 3, Examen, Primavera 2018) Boris recibe regalos por parte de sus seres queridos de acuerdo a un proceso de Poisson de tasa λ. Además, es visitado por cobradores de deudas, quienes llegan de acuerdo a un proceso de Poisson de tasa µ. Ambos procesos son independientes. Suponga que la casa de Boris tiene espacio para guardar prácticamente infinitos regalos. 1. Si Boris aún no ha recibido ningún regalo, ni ha sido visitado por ningún cobrador, ¿cuánto es el tiempo esperado hasta que haya ocurrido al menos una de cada tipo de llegadas? 2. Si en [0, T ] Boris recibió 2 regalos y llegaron 3 cobradores, ¿cuál fue el instante esperado de llegada del primer regalo? Suponga a continuación que, al llegar, los cobradores eligen al azar alguno de los regalos a modo de pago, y se marchan inmediatamente tras elegirlo. En caso de llegar un cobrador y no encontrar regalos, esperará hasta la llegada del siguiente. Sin embargo, si un cobrador al llegar se encuentra con que un colega suyo ya se encuentra esperando, abandonará el lugar inmediatamente, sin esperar su regalo. 3. Si en un momento cualquiera Boris no tiene ningún regalo, y no hay ningún cobrador esperando, ¿cuánto será el tiempo de espera del siguiente cobrador hasta tomar un regalo e irse, en esperanza? 4. Si en un momento cualquiera Boris solo cuenta con un regalo, ¿cuál es la probabilidad de que éste sea el escogido por el siguiente cobrador en llegar? Solución parte 1. Sean Tr y Tc los tiempos hasta la llegada del primer regalo y el primer cobrador, respectivamente. Buscamos la esperanza del máximo de estas variables aleatorias: E{máx{Tr , Tc }} = E{Tr + Tc − mı́n{Tr , Tc }} = E{Tr } + E{Tc } − E{mı́n{Tr , Tc }} 1 1 1 + − = λ µ λ+µ Obs: Alternativamente se puede estudiar la distribución de probabilidad de máx{Tr , Tc } para calcular su esperanza por definición. Solución parte 2. Cada una de las llegadas mencionadas sigue una distribución uniforme en el intervalo [0, T ]. En particular, nos interesa conocer la esperanza del menor de ambos instantes de Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 79 llegada correspondientes a regalos. Para dicho análisis, los instantes de llegada de los cobradores son irrelevantes. En general, calcular la esperanza de los estadísticos de orden de n variables aleatorias uniformes en un intervalo equivale a dividir dicho intervalo en n + 1 partes iguales, siendo los límites entre subintervalos consecutivos los valores buscados. En este caso particular, dividimos el intervalo [0, T ] 2T en 2 + 1 = 3 partes iguales: [0, T3 ), [ T3 , 2T 3 ) y [ 3 , T ]. Concluimos que la esperanza del instante de llegada del primer regalo es T3 Obs: Alternativamente, calculamos la esperanza E del mínimo de dos uniformes (0, T ). Esto es E = = = = T T 1 mı́n{t1 , t2 }dt1 dt2 T2 0 0 Z t2 Z T 1 t1 dt1 )dt2 (t (T − t ) + 2 2 T2 0 0 Z T 1 (t2 · T − t22 /2)dt2 T2 0 T /2 − T /6 = T /3. Z Z Solución parte 3. Si llega al menos un regalo antes que el siguiente un cobrador, éste no deberá esperar nada. En cambio, si llega un cobrador antes que el siguiente regalo, deberá esperar λ1 , en esperanza. La probabilidad de que ocurra cada uno de estos escenarios corresponde a una carrera de exponenciales, por lo que el resultado buscado finalmente será λ µ 1 µ ·0+ · = λ+µ λ+µ λ λ(λ + µ) Solución parte 4. Llamemos R al evento cuya probabilidad queremos calcular. Suponiendo que llegan exactamente n regalos más antes de la llegada del siguiente cobrador, la probabilidad de que 1 se elija particularmente el regalo que nos interesa es n+1 . A este evento lo llamaremos Rn . Además, sea N la variable aleatoria que indica el número de regalos adicionales que recibe Boris antes de la llegada del siguiente cobrador. Entonces, P(R) = = = ∞ X n=0 ∞ X P(R | N = n) · P(N = n) P(Rn ) · P(N = n) n=0 ∞ X P(N = n) n+1 n=0 µ Podemos interpretar N como una variable aleatoria geométrica de parámetro µ+λ , ya que se trata del número de llegadas diferentes a un cobrador, anteriores a la llegada del primer cobrador. Por lo tanto, n λ µ P(N = n) = µ+λ µ+λ Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 80 Retomando entonces el cálculo anterior, P(R) = ∞ X P(N = n) n+1 n=0 = ∞ X λ µ+λ n=0 = ∞ µX λ n=1 n µ µ+λ n+1 λ µ+λ n n Obs: Esta serie tiene forma cerrada, obteniéndose P(R) = − µλ ln 4.4. µ µ+λ Procesos de Poisson no homogéneos. Tal como en división de procesos de Poisson, considere un proceso de Poisson de tasa λ, cuyos eventos pueden ser clasificados en tipo A o B. Sin embargo, en esta ocasión supondremos que la probabilidad que un evento sea clasificado como tipo A depende del instante de la llegada. En particular, supondremos que la probabilidad que un evento ocurrido en el instante s sea clasificado como tipo A es p(s) (la probabilidad que sea de tipo B es 1 − p(s)). Definimos NA (t) y NB (t) como los eventos tipo A yB ocurridos hasta el instante t, respectivamente. ¿Qué tipo de procesos son estos? Desarrollemos algo de intuición. Intuición: Consideremos la aproximación binomial del proceso N (t). Para un n dado, la probabilidad pi que el i-ésimo intervalo contenga un evento esta dada por pi = λ h · p((i − 1) · h). Claramente, en esta situación los intervalos no son intercambiables, dado que las probabilidades asociadas difieren. Esto implica que el proceso resultante no posee la propiedad de incrementos estacionarios. Sin embargo, la propiedad de incrementos independientes se mantendrá, dado que lo que sucede en un intervalo es independiente de lo que sucede en los otros intervalos. Si bien el proceso resultante no es un proceso de Poisson, aún es posible estudiar la distribución de probabilidad de NA (t). Condicionando en el número total de llegadas, tenemos que P(NA (t) = n, NB (t) = m) = X P(NA (t) = n, NB (t) = m|N (t) = k)P(N (t) = k) k≥0 = P(NA (t) = n, NB (t) = m|N (t) = n + m)P(N (t) = n + m). Consideremos ahora una de las m + n llegadas en el evento {N (t) = n + m}. Sin importar el orden de su llegada, independiente de todo, el tiempo de llegada es U nif [0, t]. Esto implica que, independiente de los otros eventos, la probabilidad que un evento cualquiera sea clasificado como tipo A es Z t 1 p̄(t) = p(s) ds. t 0 Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 81 Concluimos que n+m e−λt (λt)n+m p̄(t)n (1 − p̄(t))m (n + m)! n ! P(NA (t) = n, NB (t) = m) = = (λp̄(t)t)n e−λp̄(t)t (λ(1 − p̄(t))t)m e−λ(1−p̄(t))t · , n! m! donde la segunda igualdad sigue de seguir los mismos pasos que en el caso de división de procesos de Poisson. Concluimos que NA (t) y NB (t) se distribuyen Poisson con tasas λp̄(t) y λ(1 − p̄(t)), respectivamente. Adicionalmente NA (t) y NB (t) son independientes. De forma más general, para s, t ∈ R, con s < t, podemos definir la función m(s, t) = Z t p(u)du, s y concluir lo siguiente. Proposición 4.3 Para s < t, NA (t) − NA (s) y NB (t) − NB (s) son independientes y se distribuyen Poisson con tasas m(s, t) y (t − s) − m(s, t), respectivamente. Notamos que el proceso anterior mantiene la mayoría de las propiedades de un proceso de Poisson (de acuerdo a DII), salvo aquella de incrementos estacionarios. Esto, debido a que la “tasa” de llegada del proceso NA (t) no es homogénea en el tiempo. Esto motiva la definición de procesos de Poisson no-homogéneos. (Utilizaremos las definiciones DI y DII.) Definición 4.6 (Proceso de Poisson no homogéneo (I)). Decimos que un proceso de conteo {N (t) : t ≥ 0} es un proceso de Poisson no homogéneo con función de tasa λ(t) ssi i) N (t = 0) = 0. ii) El proceso posee incrementos independientes. iii) P (N (t + h) − N (t) = 1) = λ(t)h + o(h); P (N (t + h) − N (t) ≥ 2) = o(h). Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 82 Definición 4.7 (Proceso de Poisson no homogéneo (II)). Decimos que un proceso de conteo {N (t) : t ≥ 0} es un proceso de Poisson no homogéneo con función de tasa λ(t) ssi i) N (t) = 0. ii) El proceso posee incrementos independientes. iii) Para t > s, N (t) − N (s) se distribuye Poisson con tasa m(s, t), donde m(s, t) = Z t λ(u)du. s Ejemplo 4.6 (Pregunta 3, Examen, Primavera 2018) Pasajeros llegan a un paradero de buses de acuerdo a un proceso de Poisson de tasa λ, mientras que los buses llegan de acuerdo a un proceso de Poisson de tasa µ. Cada bus tiene capacidad para llevar C personas, y partirá inmediatamente una vez que esté lleno. La subida de pasajeros a los buses es instantánea. 1. Suponga que el paradero se encuentra completamente vacío: no hay pasajeros ni buses. ¿Cuál es la probabilidad de que no queden más de n pasajeros en el paradero tras la salida del siguiente vehículo? 2. Si en el paradero hay C − 1 pasajeros esperando partir, pero no ha llegado ningún bus, ¿cuánto es el tiempo esperado hasta que salga el siguiente bus? 3. Suponga que en t = 0 había C−1 pasajeros esperando partir, pero no había llegado ningún bus. Posteriormente, llegaron exactamente un pasajero y un bus antes del instante T . En esperanza, ¿en qué momento el bus abandonó la parada? 4. Considere ahora que la tasa de llegada de pasajeros no es conocida, pero que a priori se estima que λ ∼ exp(α). Si hay C − 1 pasajeros y un bus en la parada, ¿cuál es la probabilidad que, a partir de este momento, el bus demore menos de t en salir? Solución parte 1. Podemos interpretar la cantidad de pasajeros que llegan antes que el siguiente µ . De esta manera, la probabilidad bus como una variable aleatoria geométrica de parámetro p = µ+λ de que queden más de n pasajeros cuando salga el siguiente bus es (1 − p)C+n+1 = ya que los primeros C se subirán. Finalmente, la probabilidad buscada es 1− λ µ+λ λ µ+λ C+n+1 , C+n+1 Obs: Alternativamente, podemos definir Pj como la probabilidad de que queden j personas en el paradero tras la salida del siguiente bus. Si j ≥ 1, Pj es igual a la probabilidad de que lleguen Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 83 exactamente C + j pasajeros antes de la llegada del siguiente bus, es decir Pj = λ µ+λ C+j µ µ+λ ∀j ≥ 1 Por otro lado, P0 corresponde a la probabilidad de que a lo más lleguen C pasajeros antes que el siguiente bus: i C X λ µ P0 = µ + λ µ + λ i=0 Finalmente, la probabilidad pedida viene dada por n X Pj = j=0 C X i=0 = λ µ+λ i n X µ λ + µ + λ j=1 µ + λ X λ µ C+n µ + λ j=0 µ + λ =1− λ µ+λ C+j µ µ+λ j C+n+1 Solución parte 2. En cualquier caso, primero se debe considerar el tiempo que demora en llegar el siguiente bus, cuya esperanza es µ1 . Una vez que llega el bus, se debe considerar dos escenarios posibles: si ya había llegado al menos un pasajero, el bus sale inmediatamente. De lo contrario, se debe esperar un tiempo adicional de media λ1 . Por lo tanto, el tiempo esperado hasta que salga el siguiente bus es 1 λ µ 1 1 µ + ·0+ · = + µ λ+µ λ+µ λ µ λ(λ + µ) Solución parte 3. Sean tp ∼ U [0, T ] y tb ∼ U [0, T ] los instantes de llegada del pasajero y el bus, respectivamente. El bus salió en el momento en que ambos se encontraban en el paradero, es decir máx{tp , tb }. Por lo tanto, el valor buscado es E{máx{tp , tb }} = 2T 3 Solución parte 4. Sea T el tiempo hasta la llegada del siguiente pasajero, que es cuando saldrá Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Procesos de Poisson 84 el bus. P(T < t) = = = = Z ∞ Z0∞ 0 Z ∞ Apunte de Cátedra (1 − e−xt )αe−αx dx αe−αx dx − −αx αe 0 Z ∞ αe−x(t+α) dx 0 Z0∞ =1− = P(T < t|λ = x)fλ (x)dx α t+α dx − α t+α Z ∞ 0 (t + α)e−x(t+α) dx t t+α IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 5. 85 Teoría de Renovación Un proceso de renovación es un proceso de conteo donde los tiempos entre llegadas {Xi , i ∈ N} son variables aleatorias no-negativas iid. Tal como en el capítulo anterior, Xi representa el tiempo transcurrido entre las llegadas i − 1 e i, y Sn representa el instante de la llegada n-esima. Por lo tanto, tenemos que S0 = 0, Sn = n X Xi , n ≥ 1. i=1 Definición 5.1 (Proceso de Renovación). Definimos el proceso de renovación {N (t) : t ≥ 0} mediante la relación N (t) := sup {n : Sn ≤ t} . Los instantes de llegada Sn tambien son conocidos como renovaciones, puedo que el proceso se resetea (probabilisticamente) en cada uno de estos instantes. Supondremos que la distribución común de los tiempos entre llegadas es F , y definimos µ := E {Xn } = Z ∞ 0 x dF (x) ≤ ∞. Suponiendo que F (0) ≤ 1, se tiene que µ > 0, y por la ley fuerte de los grandes números Sn /n → µ cuando n → ∞ (en particular, Sn → ∞ cuando n → ∞, y por lo tanto N (t) → ∞ cuando t → ∞). Proposicion 5.1 (Ley de grandes números para renovación). Con probabilidad 1 se tiene que N (t) 1 lı́m = . t→∞ t µ Dem: Es fácil ver que SN (t) ≤ t < SN (t)+1 , por lo tanto SN (t)+1 SN (t)+1 N (t) + 1 SN (t) t ≤ < = . N (t) N (t) N (t) N (t) + 1 N (t) Dado que N (t) → ∞ cuando t → ∞, tenemos que, por la ley fuerte de los grandes números, SN (t) → µ, N (t) y SN (t)+1 →µ N (t) + 1 N (t) 1 → , SN (t) µ y N (t) + 1 1 → , SN (t)+1 µ con probabilidad 1, por lo que Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 86 tambien con probabilidad 1. El resultado se desprende del hecho que (N (t) + 1)/N (t) → 1 cuando t → ∞. Ejemplo (Lanzamiento de monedas) Suponga que usted tiene una caja con una colección infinite de monedas. La probabilidad que una moneda escogida al azar caiga cara, es independiente de las otras monedas, y distribuye U [0, 1]. Suponga que usted escoge una moneda al azar y la lanza hasta obtener un sello, tras lo cual descarta la moneda, escoge otra al azar, y repite el procedimiento. Cual es la proporción de caras que obtiene en total en el lago plazo? Solución. Sea Xi el número de lanzamientos que hacemos con la i-esima moneda. Con esto N (n) es el número de sellos obtenidos durante los n primeros lanzamientos. De acuerdo a la Proposición 5.1, tenemos que la proporción de sellos obtenidos en total en el largo plazo es N (n) 1 = , n→∞ n µ lı́m donde µ = E {Xi }. Ahora, condicional en que la probabilidad que un lanzamiento sea cara es p, tenemos que Xi |p ∼ Geometrica(p), y por lo tanto E[Xi |p] = 1 . 1−p Por otro lado, sabemos que p ∼ U [0, 1], por lo que tenemos que E[Xi ] = Z 1 0 E[Xi |p]dp = Z 1 0 1 dp = − log(1 − p)|10 = ∞. 1−p Concluimos que N (n) = 0, n→∞ n es decir, en el largo plazo, la proporción de caras que observamos es 1. lı́m Definición 5.2 (función de renovación). Para t ≥ 0 definimos la funcion de renovación m(t) := E {N (t)} . Se puede mostrar que m(t) < ∞, para todo t ≥ 0. En particular,se tiene que Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 87 m(t) = E {N (t)} = X P {N (t) ≥ n} n=1 = X P {Sn ≤ t} n=1 = X Fn (t). n=1 donde Fn () denota la convolución de F sobre si misma n-veces. En lo anterior utilizamos la equivalencia N (t) ≥ n ⇔ Sn ≤ t. 5.1. Ecuación de Wald Definición 5.2 (tiempo de parada). Una variable aleatoria N se dice que es un tiempo de parada respecto a la secuencia de variables aleatorias {Xn } si el evento {N = n} es independiente de {Xi : i > n}, para todo n. El siguiente resultado nos dice que el valor esperado de la suma de variables aleatorias iid hasta un tiempo de parada es igual al valor esperado de las variables aleatorias por el valor esperado del tiempo de parada. Proposición 5.2 (Ecuación de Wald). Sea {Xn } una secuencia de variables aleatorias iid. tales que E {Xn } < ∞, y sea N un tiempo de parada respecto a {Xn } tal que E {N } < ∞, entonces ( ) E N X = E {N } E {Xn } . Xn n=1 Dem: Para n ∈ N definamos 1 0 ( In := si N ≥ n ∼. Con esto, tenemos que E ( N X ) Xn = E (∞ X n=1 ) Xn In n=1 = ∞ X E {Xn In } n=1 = E {Xn } ∞ X P {N ≥ n} n=1 = E {Xn } E {N } . Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 88 Ejemplo (Ross 3.11) Considere un minero atrapado en cuarto que contiene tres puertas. La primra puerta lo lleva a la salida despues de 2 horas de viaje; la segunda puerta lo retorna al cuarto despues de 4 horas de viaje, y la tercera puerta los retorna al cuarto despues de 8 horas de viaje. Suponga que cada vez que el minero escoge una puerta, lo hace al azar (con igual probabilidad, sin recordar elecciones pasadas). Sea T el tiempo que demora el minero en llegar a la salida. a) Defina una secuencia de variables iid {Xn } y un tiempo de parada N tal que T = N X Xn . n=1 b) Utilice la ecuacion de Wald para encontrar E {T }. c) Calcule E nP N n=1 Xn |N o = k y comparelo con E nP k n=1 Xn o . d) Utilice c) para encontrar E {T } de una forma alternativa. Solución. a) Definimos {Xn } iid tal que Xi =    2 c.p. 1/3 c.p. 1/3 c.p. 1/3. 4   8 y N = ı́nf {n : Xn = 2}. Notamos que el evento {N = n} = {Xi 6= 2, i < n, xn = 2}, por lo P que N es un tiempo de parada. Con esto tenemos que T = N n=1 Xn . b) Chequeamos los postulados de la ecuación de Wald. Tenemos que E {Xi } = 14/3 < ∞, y N ∼ Geometrica(1/3), por lo que E {N } = 11 = 3 < ∞. Esto implica que Wald se cumple, 3 por lo que E {T } = E {Xi } E {N } = 14 · 3 = 14. 3 c) Tenemos que, condicional en N = k, 4 8 ( Xi = c.p. 1/2 c.p. 1/2. i < n. y Xn = 2. Con esto, tenemos que E ( N X ) Xn |N = k = (k − 1) · 6 + 2 = 6 · k − 4. n=1 Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 89 Notamos que E ( k X 14 · k. 3 ) = Xn n=1 d) Calculamos la esperanza de T condicionando en el valor de N . Tenemos que E {T } = E (N X ) Xi k=1 ∞ X = E (N X Xi |N = k k=1 k=1 ∞ X = ) (6 · k − 4) k=1 2 k−1 1 3 3 ∞ X 2 k−1 1 = 6 k k=1 3 2 k−1 1 3 3 3 ! −4 = 6 · 3 − 4 = 18 − 4 = 14. Proposición 5.3 (Teorema elemental de renovación). Se tiene que m(t) 1 = . t→∞ t µ lı́m Dem: Supongamos primero que µ < ∞ y notemos que N (t) + 1 es un tiempo de parada respecto a la secuencia de tiempos entre llegadas. Para ver esto, notamos que {N (t) + 1 = n} = {N (t) ≥ n − 1, N (t) < n} = {Sn > t, Sn−1 ≤ t} , por lo que el evento depende solo de X1 , . . . , Xn . Entonces, aplicando Wald (recuerde que m(t) < ∞), tenemos que N (t)+1 E[SN (t)+1 ] = X Xi = µ (m(t) + 1) . n=1 Dado que SN (t)+1 > t, vemos que E[SN (t)+1 ] = µ (m(t) + 1) > t. Rearreglando los términos y tomando límite, vemos que lı́m t→∞ Ahora probaremos que lı́mt→∞ Apunte de Cátedra m(t) t m(t) 1 ≥ . t µ ≤ µ1 . Para esto, consideremos la siguiente secuencia de tiempos IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 90 entre llegadas modificada {Xn0 }: para un M < ∞ constante, definimos ( Xn0 = Xn M si Xn ≤ M ∼. Sea N 0 (t) el proceso de renovación asociado a los tiempos entre llegada {Xn0 }. Tenemos que Xn0 ≤ Xn , para todo n, por lo que N 0 (t) ≥ N (t) para todo t. Por otro lado, tenemos que, definiendo P Sn0 = ni=1 Xi0 , 0 SN 0 (t)+1 ≤ t + M, por lo que (m0 (t) + 1)µ0 ≤ t + M, donde µ0 = E {Xn0 } y m0 (t) = E {N 0 (t)}. Notando que m0 (t) ≥ m(t), rearreglando los términos de arriba y tomando límites, conclumos que m(t) m0 (t) 1 ≤ lı́m sup ≤ 0. t→∞ t t µ t→∞ lı́m Dado que el lado izquierdo no depende de M , tomamos limite cuando M → ∞, y concluimos que lı́m t→∞ 1 m(t) ≤ . t µ Una variable aleatoria no-negativa X es lattice si existe un d > 0 tal que ∞ n=0 P {X = nd} = 1. El período de la variable aleatoria es el máximo d que cumple esta propiedad. P Proposición 5.4 (Teorema de Blackwell). Si Xn no es lattice, entonces cuando a → 0 se tiene que m(t + a) − m(t) → a µ Si Xn es lattice de período d, se tiene que cuando n → ∞ E[número de renovaciones en nd] → ! d . µ Importante: Los resultados asintóticos expuestos hasta ahora (Proposiciones 5.1, 5.3 y 5.4) siguen siendo validos cuando la distribución de X1 es distinta a la del resto de los {Xn : n ≥ 2}, caso en el cual el proceso de renovación toma el nombre de un proceso de renovación retrasado. El único requisito para esto es que P {X1 = ∞} = 0. El teorema de Blackwell es equivalente al siguiente resultado que enunciamos sin prueba. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 91 Proposición 5.4b (Teorema Clave de Renovación). Si F no es lattice, y h() es una función Directamente Riemann Integrable (DRI), entonces lı́m Z t t→∞ 0 h(t − x)dm(x) = 1 E {Xn } Z t h(t)dt. 0 Ejemplo Suponga que usted lanza consecutivamente una moneda que tiene probabilidad p ∈ (0, 1) de caer cara. Calcule el número esperado de lanzamientos hasta que el patrón ccsccscc aparece por primera vez, donde c = cara, y s = sello. n o Solución. Sea T P el tiempo esperado hasta que el patrón P aparece por primera vez, y sea XnP el tiempo entre renovaciones de un proceso de renovación que cuenta renovaciones cada vez que un lanzamiento completa el patron P (suponga que el proceso comienza con una renovación en el instante t = 0). Con esto, tenemos que E {T ccsccscc } = E {T ccscc } + E {Xnccsccscc } . Esto se explica puesto que para conseguir el patrón ccsccscc primero se debe conseguir el patrón ccscc, y condicional en comenzar con el patrón ccscc, el tiempo restante hasta T ccsccscc distribuye como el tiempo entre renovaciones Xnccsccscc (dado que a partir de una renovación, en el mejor de los casos, tan solo los últimos 5 lanzamientos pueden utilizarse para construir la siguiente renovación) Utilizando la misma lógica, concluimos que E {T ccsccscc } = E {Xnc } + E {Xncc } + E {Xnccscc } + E {Xnccsccscc } . Por otro lado, siendo la distribución de los XnP lattice con peródo d = 1, sabemos (desde Blackwell) que 1 lı́m P [renovación en t ] = t→∞ E {XnP } Sin embargo, por la independencia de los lanzamientos, tenemos que la probabilidad de largo plazo de obtener una renovación para, por ejemplo, el patrón P = ccsccscc esta dado por lı́m P {renovación en t } = P {Zt = c, Zt−1 = c, . . . , Zt−7 = c} t→∞ = p6 q 2 , donde Zt representa el resultado del t-esimo lanzamiento de la moneda, y q := 1 − p. Utilizando esto, tenemos que E {T ccsccscc } = Apunte de Cátedra 1 1 1 1 + + + . p p2 p4 q p6 q 2 IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 5.2. 92 Renovación con Recompensas Consideremos ahora situaciones donde durante el tiempo Xn entre las renovaciones n − 1 y n se genera una recompensa aleatoria Rn . Supondremos que la secuencia de pares tiempos-recompensas {Xn , Rn } son iid. Note que esto considera la posibilidad que Rn y Xn esten correlacionadas (por ejemplo uno podria tener un proceso tal que Rn = Xn ). Considerando esto, definimos la recompensa acumulada hasta el instante t, N (t) R(t) := X Rn , t≥0 n=1 El siguiente resultado extiende las Proposiciones 5.1 y 5.3 al proceso de recompensa R(t). Proposición 5.5 Si E {Rn } < ∞ y E {Xn } < ∞, entonces R(t) E {Rn } = , t→∞ t E {Xn } E {R(t)} E {Rn } = . t→∞ t E {Xn } lı́m lı́m Dem: Tal como en la prueba de la Proposición 5.1, notamos que N (t) ↑ ∞ cuando t ↑ ∞, por lo tanto tenemos que R(t) lı́m t→∞ t = lı́m PN (t) Rn N (t) E {Rn } lı́m = , N (t) t→∞ t E {Xn } n=1 t→∞ donde la primera convergencia viene de la Ley Fuerte de los Grandes Numeros, y la segunda del resultado fuerte para renovación (Proposición 5.1). Respecto al segundo resultado, notamos que N (t) + 1 es un tiempo de parada respecto a los {Xn }, por lo que podemos aplicar la ecuación de Wald (revisar la prueba de la Proposición 5.3 para una justificación). Con esto, tenemos que E  (t) N X  n=1 Rn   = E   (t)+1 N X  n=1 Rn   n − E RN (t)+1 o  n o = (m(t) + 1)E {Rn } − E RN (t)+1 , por lo tanto tenemos que lı́m t→∞ E nP N (t) n=1 t Rn o n = E {Rn } − lı́m E {Xn } t→∞ E RN (t)+1 t o . Debemos probar entonces que el último término es 0. para esto, condicionaremos en el instante de llegada de la renovación N (t). Para eso, primero derivamos la densidad del tiempo de llegada de N (t) Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 93 n P SN (t) ≤ s o = ∞ X P {Sn ≤ s, Sn+1 > t} n=0 = F̄ (t) + = F̄ (t) + = F̄ (t) + = F̄ (t) + = F̄ (t) + ∞ X P {Sn ≤ s, Sn+1 > t} n=1 ∞ Z s X n=1 0 ∞ Z s X n=1 0 Z s P {Sn ≤ s, Sn+1 > t|Sn = y} dFn (y) F̄ (t − y)dFn (y) F̄ (t − y) 0 ∞ X dFn (y) n=1 Z s 0 F̄ (t − y) d m(y). Identificamos la densidad de SN (t) y procedemos a calcular n E RN (t)+1 o n o = E RN (t)+1 |SN (t) = 0 F̄ (t) + = E {R1 |X1 > t} F̄ (t) + Z t 0 Z t 0 n o E RN (t)+1 |SN (t) = s F̄ (t − s) d m(s) E {Rn |Xn > t − s} F̄ (t − s) d m(s) Notamos que |E {R1 |X1 > t} F̄ (t)| = | Z ∞ t E {R1 |X1 = s} dF (s)| ≤ | Z ∞ 0 E {R1 |X1 = s} dF (s)| = E {|R1 |} < ∞. Concluimos que E {R1 |X1 > t} F̄ (t) → 0 a medida que t ↑ ∞. Consideremos ahora > 0, arbitrario, y tomamos un T lo suficientemente grande para que E {R1 |X1 > t} F̄ (t) < para todo t ≥ T . Con esto, tenemos que, para t ≥ T , n E RN (t)+1 t o E {R1 |X1 > t} F̄ (t) 1 t−T = + E {Rn |Xn > t − s} F̄ (t − s) d m(s) t t 0 Z ∞ 1 + E {Rn |Xn > t − s} F̄ (t − s) d m(s) t t−T 1 m(t − T ) m(t) − m(t − T ) t→∞ ≤ E {Rn } + + E {|Rn |} → . t t t E {Xn } Z El resultado sigue de notar que es aribitrariamemente pequeño. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 94 Ejemplo Considere una estacion de buses, donde pasajeros llegan de acuerdo a un proceso de renovación cuyos tiempos entre renovaciones distribuyen de acuerdo a F . Cada vez que se acumulan N pasajeros en la estación un bus se acerca y recoge a todos los pasajeros, para llevarlos a sus destinos. La administración de la estación paga un costo de $c por cada unidad de tiempo que cada pasajero espera por un bus, e incurre en un costo fijo $K por cada bus que parte de la estación. Calcule el costo promedio por unidad de tiempo que incurre la estación de buses en el largo plazo. Solución. Definimos un proceso de renovación con recompensas, donde una renovación se produce cada vez que un bus deja la estacion con N pasajeros. Sea Xn el tiempo entre la llegada de los pasajeros n − 1 y n, y Yn el tiempo entre la salida de los buses n − 1 y n: tenemos que d Yn ∼ X1 + . . . + XN . La recompensa Rn es tal que d Rn ∼ c(X2 + 2 X3 + 3 X4 + . . . + (N − 1)XN ) + K. Utilizando la Proposicion 5.5, tenemos que E {R(t)} t→∞ t lı́m = = = = E {Rn } E {Yn } c E {X2 + 2 X3 + 3 X4 + . . . + (N − 1)XN } + K E {Yn } c N (N − 1) K + 2N E {Xn } E {Xn } N K c(N − 1) + . 2 E {Xn } N Ejemplo Para proceso de renovación, encuentre 1 t→∞ t lı́m Z t 0 XN (s)+1 ds, es decir, el promedio temporal de largo plazo de la renovación que contiene al instante t. n Solución. Notamos que para todo t ∈ [Sn−1 , Sn ] para algún n tenemos que SSn−1 XN (s)+1 ds = Xn2 . R Con esto, definimos un proceso de renovación con recompensa de forma que R(t) = 0t XN (s)+1 ds. Con esto, tenemos que Rn = Xn2 , y por lo tanto R 1 lı́m t→∞ t Apunte de Cátedra Z t 0 E Xn2 XN (s)+1 ds = . E {Xn } IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 95 Notamos que el resultado es valido cuando E Xn2 < ∞. 5.3. Proceso de Renovación Alternante. Consideremos ahora un proceso de renovación tal que, entre las llegadas de las renovaciones n − 1 y n el proceso se encuentra primero en estado prendido, durante un tiempo aleatorio Yn , para luego pasar a un estado apagado durante un tiempo aleatorio Zn , tal que Xn = Yn + Zn . La unica condición que impondremos sobre estos tiempos es que la secuencia {(Yn , Zn )} es iid. El siguiente resultado nos entrega la probabilidad de largo plazo de encontrar el sistema en el estado prendido. Proposición 5.6 Si E {Zn + Yn } < ∞, entonces lı́m P {el sistema esta prendido en t} = t→∞ E {Yn } . E {Yn + Zn } Dem: Condicionamos en el instante de la llegada de la renovacion N (t) (ver prueba de Proposición 5.5). Definimos P (t) = P {prendido en t} . Tenemos que n o P (t) = P prendido en t|SN (t)=0 F̄ (t) + Z t 0 n o P prendido en t|SN (t)=s F̄ (t − s)dm(s). Sea G la distribución de Yn . Tenemos que Ḡ(t) F̄ (t) n o = P {Y1 > t|X1 > t} = n o = P {Y1 > t − y|X1 > t − y} = P prendido en t|SN (t)=0 P prendido en t|SN (t)=y Ḡ(t − y) . F̄ (t − y) Con esto, tenemos que P (t) = Ḡ(t) + Z t Ḡ(t − s)dm(s). 0 Es facil chequar que Ḡ al ser el complemento de una funciónde distribución, es DRI, por lo que el teorema clave de renovación implica que lı́m P (t) = t→∞ Apunte de Cátedra 1 E {Xn } Z ∞ 0 Ḡ(x)dx = E {Yn } . E {Xn } IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 96 Ejemplo Para que un sistema funcione se requiere que al menos una de sus k partes se encuentre funcionando. La parte i del sistema funciona durante un tiempo distribuido exponencial de parámetro λi , momento en el que presenta una falla y deja de funcionar. El tiempo que demora en ser reparada la parte i se distribuye exponencial con parámetro µi , tras lo cual comienza a funcionar, y el ciclo se repite. Usted nota que el sistema acaba de volver a funcionar. Calcule la esperanza del tiempo que el sistema continuará funcionando antes de fallar. Solución. Definimos un proceso de renovación alternante, donde una renovación occure cada vez que el sistema falla (note que en ese instante, el proceso se resetea probabilisticamente, debido a la perdida de memoria de la exponencial). Decimos que el sistema está on mientras no se encuentra funcionando, y asignamos la variable Yn al tiempo entre las renovaciones n − 1 y n durante el cual el sistema está on. Notamos que Yn ∼ mı́n {ti : i = 1, . . . , k} donde ti ∼ exp(µi ). Esto se debe a que el sistema vuelve a funcionar cuando se completa el menor entre los tiempos de reparación. Sabemos que el mínimo entre variables aleatorias independientes distribuidas exponenciales distribuye exponencial con parámetro igual a la suma de las tasas de las exponenciales individuales, por lo tanto, tenemos que E {Yn } = k X !−1 µi . i=1 Defimos que el sistema está off mientras se encuentra funcionando, y asignamos la variable Zn al tiempo entre las renovaciones n − 1 y n durante el cual el sistema está off. Notamos que el enunciado nos pide calcular E {Zn }. Sea p(t) la probabilidad que el sistema se encuentre on (no funcionando) en el instante t. Utilizando la Proposición 5.6, tenemos que −1 k . i=1 µi . P −1 k µ + E {Z } n i=1 i P lı́m p(t) = t→∞ Esto implica que E {Zn } = k X i=1 Apunte de Cátedra !−1 µi 1 lı́mt→∞ p(t) −1 . IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 97 Por otro lado, tenemos que lı́m p(t) = t→∞ = = lı́m P {parte i no funcionando en t, i = 1, . . . , k} t→∞ k Y lı́m P {parte i no funcionando en t} i=1 k Y t→∞ µ−1 i −1 −1 , i=1 µi + λi donde en la primera igualdad arriba utilizamos la independencia de los procesos asociados a cada parte, y en la segunda desigualdad usamos la Proposición 5.6, pero esta vez aplicada al proceso alternante asociado a cada parte del sistema de forma individual. Concluimos que E {Zn } = k X i=1 Apunte de Cátedra !−1 µi   Q  1 µ−1 k i i=1 µ−1 +λ−1 i i − 1 .  IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 98 Ejemplo Control 2, Primavera 2021 Pasajeros llegan a un paradero de acuerdo a un Proceso de Poisson de tasa λ [pasajeros/hora]. En paralelo, de forma independiente, buses llegan al paradero de acuerdo a un proceso de renovación con distribución de tiempo entre llegadas F . Una vez en el paradero, un bus recoge a todos los pasajeros esperando y parte de inmediato. Sea R(t) el número de pasajeros esperando en el paradero en el instante t. a) Encuentre el número esperado de clientes que se suben al primer bus. Indicación: Calcule primero cuando el bus llega en tiempo X = x, y concluya recordando que Z E[g(X)] = ∞ 0 g(x)dF (x). b) Calcule cuanto espera en promedio (valor esperado) un pasajero en subir al bus. c) Suponga que exactamente N (t) = n pasajeros llegaron al paradero antes de la llegada del primer bus, la que se produjo en X = x. Calcule la esperanza del promedio temporal de pasajeros esperando el bus entre t = 0 y la llegada del primer bus, esto es Z X E[ 0 R(t) dt | N (X) = n ∧ X = x]. Indicación: Denotando Sk el tiempo de llegada del k-ésimo pasajero, justifique que Z X 0 N (X) R(t)dt = X X − Sk k=1 d) Calcule la esperanza del promedio temporal de pasajeros esperando el bus entre t = 0 y la llegada del primer bus. Más formalmente, calcule Z X R(t) dt]. E[ 0 e) Calcule lı́mt→∞ 1 Rt t 0 R(s) ds. f) Definimos Pj (t) = P (j o menos pasajeros esperando un bus en el instante t), para j ≥ 0. Calcule lı́m Pj (t) t→∞ k (Hint: puede utilizar el hecho que E(U(k) ) = n+1 , donde {U(k);k=1,...,n } son los estadísticos de orden de n variables aleatorias independientes U [0, t]) Solución. a) Sea N el número de pasajeros que se suben al primer bus, y X el tiempo de llegada del primer Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 99 bus. Tenemos que E[N ] = Z ∞ 0 E[N |X = x]F (dx) = Z ∞ 0 λx F (dx) = λE[X]. b) Condicional en que los buses demoran X = x en pasar, cada uno de los pasajeros que sube al bus, independiente de su orden de llegada, espera en valor esperado x/2 por el bus. Descondicionando, los pasajeros en promedio esperan E[X]/2. c) Notemos que Z X E[ 0 R(t) dt | N (X1 ) = n ∧ X = x] = E[ = E[ = E[ = E[ n X (t − Sk )| N (X) = n ∧ X = x] k=1 n X (x − U(k) )] k=1 n X (x − Uk )] k=1 n X Uk ] k=1 = n x 2 d) Tomamos la expresión de la parte b) y descondicionamos. Esto es Z X E[ 0 R(t) dt] = = = Z ∞X ∞ 0 0 E 0 n=1 Z ∞X ∞ Z ∞ "Z X n n=1 x2 λ 2 2 E[X ] = λ 2 0 # R(t) dt | N (X) = n ∧ X = x (λx)n −λ x e F (dx) n! x (λx)n −λ x e F (dx) 2 n! F (dx) e) Vemos esto como un proceso de renovación con recompensas donde E[Rn ] = λE[X 2 ]/2. Por lo tanto, concluimos que Z 1 t E[X 2 ] lı́m R(s) ds = λ . t→∞ t 0 2E[X] f) Definimos un proceso de renovación alternante, donde el período on consiste en todos los momentos donde hay j o menos pasajeros esperando en el paradero. Sea Y el largo del periodo on. Tenemos que Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 100 E[Y ] = = = = = Z x 0 E[Y |X = x]F (dx) Z xX ∞ 0 k=0 E[Y |X = x, N (x) = k] Z xX ∞ mı́n{j + 1, k + 1} k+1 0 k=0 Z x X 1 ∞ 0 λ k=1 Z x 1 0 λ mı́n{j + 1, k} x (λx)k −λx e F (dx) k! (λx)k −λx e F (dx) k! (λx)k −λx e F (dx) k! E[mı́n{j + 1, N (x)}]F (dx) Utilizando el resultado conocido para procesos de renovación alternantes, concluimos que lı́m Pj (t) = t→∞ 1 E[X] Z x 1 0 λ E[mı́n{j + 1, N (x)}]F (dx) Ejemplo Examen Primavera 2021 Pasajeros con dirección al poniente llegan a una estación de metro acuerdo a un Proceso de Poisson de tasa λ [pasajeros/hora]. En paralelo, de forma independiente, trenes con dirección al poniente llegan a la estación de acuerdo al siguiente proceso: una vez en la estación, las puertas de los carros permanecen abiertas durante un tiempo aleatorio distribuido de acuerdo a F ; una vez se cierran las puertas, el tiempo hasta la llegada del siguiente tren es aleatorio y distribuido de acuerdo a G. Los pasajeros que llegan y encuentran un tren en el andén, abordan instantáneamente; los pasajeros que no encuentran un tren en el andén, esperan la llegada del siguiente tren, tras lo cual suben de forma instantánea. a) (3.0 pts.) Entregue una expresión para la fracción del tiempo que en el largo plazo que hay 0 pasajeros en el andén esperando subir a un tren. b) (3.0 pts.) Entregue una expresión para la fracción del tiempo que en el largo plazo que hay k pasajeros en el andén esperando subir a un tren, k > 0. a) Utilizamos un proceso de renovación alternante, donde los instantes de renovación están dados por cada vez que llega un tren al anden (gracias a la pérdida de memoria de la exponencial), y decimos que el proceso esta en on cuando no hay gente en el anden. Consideremos X ∼ F y Y ∼ G, y sea Pk la fracción de largo plazo en la que hay k pasajeros Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Teoría de Renovación 101 en el anden. Tenemos que P0 = = = = = = E[X] + E[mı́n{S1 , Y }] E[X] + E[Y ] Z ∞Z ∞ E[X] 1 mı́n{s, t}e−λt F (ds) λ + E[X] + E[Y ] E[X] + E[Y ] 0 0 Z ∞ Z s E[X] 1 −λt −λs te + se F (ds) λ + E[X] + E[Y ] E[X] + E[Y ] 0 0 Z ∞ Z s E[X] 1 e−λt F (ds) + E[X] + E[Y ] E[X] + E[Y ] 0 0 Z ∞ Z s E[X] 1 −λt e F (ds) + E[X] + E[Y ] E[X] + E[Y ] 0 0 E[X] λ−1 + (1 − Lf (λ)) E[X] + E[Y ] E[X] + E[Y ] donde supusimos que F admite una densidad f . b) Utilizando la notación definida en la parte anterior, tenemos que para k > 0 Pk = E[mı́n{Sk+1 , Y } − mı́n{Sk , Y }] E[X] + E[Y ] Sea N el numerador arriba. Tenemos que, condicionando primero sobre Y y luego sobre el número de pasajeros que llegan mientras no hay un tren en el anden, N = = Z ∞ 0 Z ∞ 0 = λ−1 Apunte de Cátedra   ∞ X (λt)k −λt (λt)n −λt  (t − Sk ) e + E[Sk+1 − Sk |N (t) = n] e F (dt) k! n! n=k+1   ∞ X t (λt)k −λt t (λt)n −λt   e + e F (dt) k + 1 k! n + 1 n! n=k+1 Z ∞ 0 P(N (t) > k)F (dt). IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 6. 102 Cadenas de Markov en Tiempo Continuo Decimos que un proceso estocástico {X(t) : t ∈ T } es un proceso en tiempo continuo si T = R+ , caso en el cual nos referimos a X(t) como el estado del proceso en el instante t. Al igual que en el caso discreto, nos enfocaremos en cadenas con un conjunto contable de estados, por lo que sin pérdida de generalidad nos referimos a los estados como números naturales. De esta forma, tenemos que X(t) ∈ N ∀ t > 0. Diremos que un proceso estocástico es cadena de Markov en tiempo continuo si, y solo si cumple con la condición de Markov, extendida a tiempo continuo. Condición de Markov (extendida). Decimos que un proceso estocástico {X(t) : t ≥ 0} cumple con la condición de Markov ssi P {X(tn ) = in | X(tk ) = ik , k < n} = P(X(tn ) = in | X(tn−1 ) = in−1 ), para cualquier n ∈ N y conjuntos {tk : k ≤ n} y {ik : k ≤ n} tales que tk ∈ R, ik ∈ N, k ≤ n, y 0 < t1 < . . . < tn . Tal como en el caso discreto, nos concentraremos en procesos homogéneos en el tiempo: esto es, asumiremos que P (X(s + t) = j| X(s) = i) = P (X(t) = j| X(0) = i) . Sea τi,n el tiempo de permanencia del proceso en el estado i en la n-ésima visita al estado. Dado que el proceso es homogéneo en el tiempo, tenemos que {τi,n : n ∈ N} forma una secuencia de variables aleatorias i.i.d. Para simplificar la notación, definimos τi como el tiempo de permanencia en el estado i en una visita cualquiera. Tenemos que la condición de Markov determina la distribución de τi . Proposición 5.1 Para todo i ∈ N , τi se distribuye exp(·), y por lo tanto posee pérdida de memoria, es decir, para s, t ∈ R, con s < t, se tiene que P (τi > t|τi > s) = P (τi > t − s) . Dem: Mostraremos que τi posee pérdida de memoria, y concluimos que se distribuye exp(·) debido a que esta distribución es la única con soporte R+ con dicha propiedad. Para t, s > 0 con s < t tenemos que P(τi > t| τi > s) = P(X(u) = i, u ∈ [0, t]| X(u) = i, u ∈ [0, s]) = P(X(u) = i, u ∈ [s, t]| X(s) = i) = P(X(u) = i, u ∈ [0, t − s]| X(0) = i) (propiedad de Markov) (homogeneidad) = P(τi > t − s). Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 6.1. 103 Caracterización Para caracterizar una cadena de Markov en tiempo continuo necesitamos tres elementos Distribución de los tiempos de estadía: para i ∈ N, denotamos νi la tasa a la cual la cadena deja el estado i una vez que se encuentra en el, i.e. τi ∼ exp(νi ). Distribución de transición entre estados: denotamos por Pij a la probabilidad de llegar al estado j una vez que se abandona el estado i. Denotamos P = [Pi,j ] como la matriz de transición. Distribución inicial: tal como en el caso discreto, denotamos por π0 como la distribución del estado inicial del sistema en t = 0. Representación gráfica. Cuando sea posible, representaremos una cadena de Markov mediante un grafo. En dicho grafo, los nodos corresponden a los estados posibles y los arcos corresponden a los pares (ordenados) de estados (i, j) tales que Pi,j > 0. A diferencia del caso discreto, en la cadena escribiremos sobre el arco (i, j) la tasa qi,j asociada a la transición, donde qi,j = νi Pi,j . ! Importante: La matriz de transición P y π0 definen una cadena de Markov en tiempo discreto subyacente. Esta cadena es tal que Pi,i = 0 para todo i (en el caso contrario, una transición desde un estado a sí mismo causa que los tiempos de estadía no se distribuyan exponencial). Ejemplo 5.1 (caracterización vía {νi : i ∈ N} y P ) Una máquina funciona durante un tiempo exponencial de tasa λ hasta agotar su combustible. Al agotarse, con probabilidad p simplemente se apaga y debe ser rellenada, lo que toma un tiempo exponencial de tasa µ; con probabilidad (1 − p), el agotamiento del combustible genera un desperfecto que requiere reparación, lo cual demora un tiempo exponencial de tasa γ, tras lo cual debe ser reabastecida de combustible para funcionar. La representación gráfica de la cadena es la siguiente (denotamos por F , C y R los estados, que representan que la máquina está funcionando, en recarga de combustible y en reparación, respectivamente). pλ F C µ γ (1 − p)λ R Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 104 Las tasas de transición estan dadas por la multiplicación de las tasas de estadía por la probabilidad de transición. Nuestra caracterización está dada entonces por νF = λ, νC = µ, νR = γ y pF C = p, pF R = (1 − p), pCF = 1, pRC = 1 (el resto de las transiciones tienen probabilidad nula). 6.2. Interpretación alternativa. Una interpretación alternativa al modelo de cadena de Markov es la siguiente: supongamos que cuando el sistema está en el estado i, existen varios eventos que gatillan la salida hacia otro estado; estos eventos están indexados por j ∈ N, con j 6= i; el tiempo τi,j hasta que se produce una salida hacia el estado j se distribuye exp(qi,j ) y es independiente de todos los otros tiempos. Con esto, tenemos que una salida desde el estado i se produce cuando ocurre el primero de estos eventos, es decir τi = mı́n {τi,j : j 6= i, qi,j > 0} . Recordamos un par de propiedades de la distribución exponencial. Lema 5.1 (Carrera de Exponenciales) Sean X1 ∼ exp(λ1 ) y X2 ∼ exp(λ2 ) tales que 1 X1 ⊥ X2 . Entonces, se tiene que mı́n {X1 , X2 } ∼ exp(λ1 + λ2 ), y P (X1 ≤ X2 ) = λ1λ+λ . 2 Dem: Notamos que mı́n x, y > z ⇐⇒ x > z , y > z. Entonces, tenemos que P (mı́n {X1 , X2 } ≤ x) = 1 − P (X1 > x, X2 > x) = 1 − P (X1 > x) P (X2 > x) = 1 − e−λ1 x e−λ2 x = 1 − e−(λ1 +λ2 )x . Concluimos que el mínimo de dos exponenciales independientes se distribuye exponencial con la suma de las tasas. Por otro lado, tenemos que P (X1 ≤ X2 ) = = = Z ∞ Z0∞ P (X1 ≤ X2 |X1 = x) λ1 e−λ1 x dx e−λ1 x λ1 e−λ2 x dx 0 λ1 λ1 + λ2 Z ∞ 0 e−λ1 x (λ1 + λ2 )e−λ2 x dx = λ1 . λ1 + λ2 Usando inducción matemática, vemos que los resultados arriba se extienden a cualquier número finito de exponenciales independientes. Con esto entonces, tenemos que el tiempo de estadía bajo esta interpretación alternativa es tal que   X τi = mı́n {τi,j : j = 6 i, qi,j > 0} ∼ exp qi,j . j6=i Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 105 Notamos que j6=i qi,j = νi j6=i Pi,j = νi , recuperando la tasa de estadía en el estado i de la 0 de transicionar desde caracterización original. De la misma forma, tenemos que la probabilidad Pi,j i a j en esta nueva interpretación está dada por P P qi,j νi Pi,j νi Pi,j = Pi,j . =P = q ν P νi k6=i i,k k6=i i i,k 0 Pi,j =P Con esto, recuperamos la caracterización original del proceso a partir de la interpretación alternativa, que se caracteriza via las tasas {qi,j }. Ejemplo 5.2 (Caracterización vía {qi,j : i, j ∈ N}) Una máquina funciona durante un tiempo exponencial de tasa λp hasta agotar su combustible. Al agotarse, el combustible debe ser rellenado, lo que toma un tiempo exponencial de tasa µ. Adicionalmente, mientras funciona, la máquina puede sufrir un desperfecto, el que requiere reparación. El tiempo que puede funcionar una máquina hasta una falla se distribuye exponencial de tasa λ(1 − p), y el tiempo de reparación se distribuye exponencial de tasa γ. Finalmente, considere que durante la reparación la máquina pierde todo el combustible, por lo que debe ser rellenado para funcionar. Notamos que la cadena es exactamente la misma, solamente que ahora las transiciones están explícitamente gatilladas por eventos asociados a una transición en particular. Sabemos que la representación gráfica es la misma, dado que las tasas de transición son las mismas. Lo único que ha cambiado en los dos ejemplos de arriba, es la interpretación del origen de las transiciones (exponenciales compitiendo vs. lanzamiento de monedas). ! Importante: En general, nos enfrentaremos a problemas en contextos que mezclan las dos caracterizaciones; algunas transiciones se gatillan por carreras de exponenciales y otras por algún tiempo exponencial, sumado al lanzamiento de una moneda. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 106 Ejemplo 5.3 (Control 4, Primavera 2018) Considere el proceso de desarrollo de una tarea en el curso. En cada instante, cada estudiante desarrolla la tarea de acuerdo a una idea, la cual puede ser buena o mala. Los estudiantes desarrollan la tarea siguiendo la última idea que se les ha ocurrido o a la que han sido expuestos. En este sentido, las ideas llegan a la mente de cada estudiante de acuerdo a un proceso de Poisson de tasa λ y con probabilidad p una idea es buena. Adicionalmente, cada estudiante comparte la idea con la que está trabajando (independientemente de si es buena o mala) con un estudiante en su red de colaboración a intervalos de tiempo aleatorios, según una distribución exponencial de tasa µ. Para esto, considere un grafo no dirigido G(N, A) donde el conjunto de nodos N representa a los estudiantes del curso y el conjunto de arcos A a las relaciones de colaboración en la evaluación: el estudiante i expone su idea al compañero j, cuando {i, j} ∈ A, a intervalos de tiempo aleatorios con distribución exponencial, independientes de su colaboración con otros compañeros y de las ideas que le comparta el compañero j. Suponga que, inicialmente, todos los estudiantes parten con una idea en su mente (ya sea buena o mala). 1. Modele como cadena de Markov para el caso general de un grafo G(N, A). 2. Suponga ahora que el grafo G(N, A) es completo (es decir {i, j} ∈ A para todo par {i, j} con i 6= j). Modele la situación como un proceso de nacimiento y muerte. Solución parte 1. Consideramos como estados el subconjunto de alumnos trabajando en una idea buena. Por lo tanto existen 2n estados, donde n = |N |. Considere un estado S ⊆ N . Las posibles transiciones son a cualquier estado S 0 tal que ||S|−|S 0 || = 1. Supongamos que S 0 = S ∪{i}, entonces qS,S 0 = λ p + µ |(j, i) ∈ A : j ∈ S|. Supongamos ahora que S 0 = S \ {i}, entonces qS,S 0 = λ (1 − p) + µ |(j, i) ∈ A : j ∈ N \ S|. Solución parte 2. Ahora solo nos interesa saber el número total de alumnos trabajando con ideas buenas. Efectivamente ahora tenemos que el proceso es de nacimiento y muerte, con tasas λi = (n − i) p λ + i (n − i)µ, µi = i(1 − p)λ + (n − i) i µ, donde n = |N |. 6.3. Probabilidades estacionarias Ahora estudiaremos el comportamiento de largo plazo de una cadena de Markov. Para un par de estados i, j ∈ N, y t ≥ 0, definimos Pij (t) := P(X(t + s) = j| X(s) = i). Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 107 (Notamos que esta definición es independiente de s por la homogeneidad del proceso). Nos gustaría analizar πj := lı́m Pij (t), esperamos que el límite sea independiente de i, como el caso t→∞ de tiempo discreto. Para ello, necesitamos el siguiente resultado. Lema 5.2 (Resultados limites - (S. Ross) Lemas 5.4.1 y. 5.4.2) (1) lı́m t→0 1 − Pii (t) Pij = νi ; lı́m = qij , i 6= j t→0 t t (2) Pij (t + s) = P Pik (t)Pkj (s) k∈E Dem: Condicionando en si el proceso sale del estado i entre s y s + t, tenemos que Pii (t) = P (X(u) = i, u ∈ [0, t]) + P (X(t) = i, x(u) 6= i para algún u ∈ (0, s)) = 1 − νi t + o(t) + o(t), donde la última igualdad viene de notar que e−νi t = 1 − νi t + o(h), (recuerda DI de P. de Poisson) y que si el proceso sale del estado i, luego tiene que volver, por lo que tenemos que (condicionando el estado visitado al salir de i) 0 ≤ P (X(t) = i, x(u) 6= i para algún u ∈ (0, s)) ≤ X νi t · νk t + o(t) = o(t). k6=i La primera parte de 1) resulta de dividir la expresión de arriba por t y tomar límite. Para probar la segunda parte de 1), procedemos de forma similar, obteniendo que Pij (t) = P (X(u) = i, u ∈ [0, h], X(u) = j, u ∈ [h, t]) + o(t) = qi,j t + o(t), donde la primera igualdad viene de notar que cualquier camino de i a j que no involucre una y solo una trancisión directa entre i y j implica la realización de dos variables exponenciales (o más) en un intervalo de tiempo t, lo que es o(t), y la segunda igualdad sigue de notar que P (τi ≤ t) = 1 − e−qi,j t = qi,j t + o(t). La demostración de 2) sigue de aplicar probabilidades totales (condicionando en el estado del Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 108 proceso en el instante s) y la propiedad de Markov. Esto es, Pij (t + s) = X P(X(t + s) = j|X(t) = k , X(0) = i)P(X(t) = k|X(0) = i) k∈N = X P(X(s) = j|X(0) = k)P(X(t) = k|X(0) = i) k∈N = X Pi,k (t)Pk,j (s). k∈N Primera derivación. Aplicaremos los resultados anteriores para obtener una ecuación diferencial para {Pi,j (t) : i, j ∈ E}. En particular, formaremos la diferencia entre Pi,j (t + h) y Pi,j (t), dividiremos por h, y tomaremos el límite cuando h → 0. Esto es, Pij (t + h) − Pij (t) = X Pik (t)Pkj (h) − Pij (t)(1 − Pjj (h)). k6=j Con esto, dividiendo por h y tomando límite, tenemos que Pij (t + h) − Pij (t) h→0 h Pij0 (t) = lı́m = X Pik (t) lı́m h→0 k6=j = X Pkj (h) 1 − Pjj (h) − Pij (t) lı́m h→0 h h Pik (t)qkj − Pij νj . k6=j ! Importante: En la derivación de arriba intercambiamos la sumatoria y el limite sin justificación. Para una justificación formal, recomendamos ver la prueba del Teorema 5.4.3 en S. Ross. Supongamos que πj = lı́m Pij (t) existe y es independiente de i: entonces, lı́m Pij0 (t) = 0 (si la t→∞ t→∞ función Pij (·) tiende a una constante, su derivada tiende a 0). Suponiendo que podemos intercambiar la sumatoria y el límite en el lado derecho de (1), tenemos que la ecuación se convierte en 0= X πk qkj − πj νj , i ∈ N. k6=j Podemos escribir el sistema lineal de arriba en una forma más concisa definiendo Q = [qij ], con qi,j = νi Pi,j , i, j ∈ N, i 6= j; qi,i = −νi , i ∈ N. Con esto, tenemos el siguiente resultado. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 109 Probabilidades estacionarias. El vector de probabilidades estacionarias π es la única solución al sistema lineal X 0 = π Q, πi = 1, π ≥ 0. i∈N Ejemplo 5.4 (Calculo probabilidades estacionarias) Retomando el ejemplo 5.2, el sistema 0 = πQ, P i πi = 1,π ≥ 0 toma la forma πF λ = πC µ + πR · 0 πC µ = πF λp + πR γ πR γ = πF λ(1 − p) + πC · 0 1 = πF + πR + πC . Interpretación. El sistema 0 = π Q se puede interpretar como una ecuación de balance de flujos en el largo plazo. Para esto, consideremos la tasa en el largo plazo de transiciones desde el estado i; esta es tasa de salida a i (largo plazo) = πi νi . Esto dado que, si estuviésemos todo el tiempo en el estado i, la tasa de salida el estado sería νi , por definición. En la práctica, solo se está una fracción πi del tiempo en aquel estado. Ahora, consideremos la tasas en el largo plazo de transiciones hacia el estado i; esta es tasa de entrada a i (largo plazo) = X πk qk,i . k6=i Esto dado que, si estuviésemos todo el tiempo en el estado k 6= i, la tasa de entrada al estado i sería qk,i . En la práctica, solo se está una fracción πk en el estado k. Concluimos viendo que la tasa de entrada al estado i viene de sumar las contribuciones desde todo los estados distintos a i. Entonces, el sistema 0 = π Q se puede intepretar como tasa de salida a i (largo plazo) = tasa de entrada a i (largo plazo). Segunda derivación: Miremos el proceso {X(t) : t ≥ 0} como un proceso semi-Markov con tiempos de estadía distribuidos exponenciales. Sea π D el vector de probabilidades estacionarias asociados a la cadena en tiempo discreto subyacente a {X(t) : t ≥ 0}, i.e. aquella definida por la matriz de transición P = [Pi,j ] (supondremos que la cadena subyacente admite probabilidades estacionarias). Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 110 Ejemplo 5.5 (Cadena de tiempo discreto subyacente) Consideremos el ejemplo 5.2. La cadena de Markov en tiempo continuo se muestra a la izquierda más abajo, mientras que la cadena de Markov en tiempo discreto subyacente se muestra a la derecha. λp p C F C F µ → γ λ(1 − p) 1−p R 1 1 R Se vió en la sección de procesos semi-Markov la relación entre π y π D , aplicada a estadías exponenciales, está dada por πD πi ∝ i . (1) νi (La notación ∝ denota proporcionalidad). Adicionalmente, tenemos que π D es la única solución al sistema X X πiD = 1, π D ≥ 0, πjD Pji , i ∈ N, πiD = i j donde π D denota un vector fila. Reemplazando (1) en el sistema de arriba, tenemos que π es tal que νi πi = X πj νj Pji , i ∈ N, X πi = 1, π ≥ 0. i j Reconociendo el término νj Pj,i = qj,i tenemos que el sistema es equivalente a 0 = π Q, X πi = 1, π ≥ 0. i∈N Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 111 Ejemplo 5.6 (Pregunta 2, Examen, Otoño 2018) Considere una enfermedad que afecta el funcionamiento de cada uno de K organos del cuerpo. Para alguien que sufre esta enfermedad, el tiempo que el organo k funciona correctamente se puede modelar como una variable aleatoria de distribución exponencial de tasa µk : una vez que el organo falla, bajo el tratamiento i, el organo demora un tiempo aleatorio de distribución exponencial de tasa λk,i en volver a funcionar correctamente. Se dice que un tratamiento es exitoso si mantiene, en el largo plazo, por lo menos la mitad de los organos funcionando simultaneamente por lo menos la mitad del tiempo. Suponiendo que µk = µ, k = 1, · · · , K y λk,i = λi , i = 1, 2, responda: 1. Modele el número de organos funcionando cuando se utiliza el tratamiento i como una cadena de Markov en tiempo continuo, i = 1, 2. 2. ¿Bajo que condiciones el tratamiento i es exitoso, i = 1, 2? (Hint: calcule la proporción del tiempo que hay al menos la mitad de los organos funcionando) 3. Suponiendo adicionalmente que en un inicio todos los organos de un paciente se encuentran funcionando, calcule el valor esperado del tiempo hasta que todos los organos han fallado por lo menos una vez. (Hint: dado que n organos ya han fallado alguna vez, ¿cómo se distribuye el tiempo hasta que un nuevo organo falla por primera vez?) 4. Para K = 3, bajo que condiciones el tratamiento i es exitoso en el caso general µk 6= µl , l 6= k. (Hint: primero, modele el conjunto de organos funcionando como una cadena de markov) Solución parte 1. Estados S = 0, . . . , K el número de organos funcionando. Este es un proceso de nacimiento y muerte tal que qk,k+1 = (K − k)λi qk,k−1 = kµ. Solución parte 2. De la parte anterior tenemos que las probabilidades estacionarias siempre existen y son: ! πi = K i ρ π0 i donde ρ = λ/µ y π0 = K X k=0 El tratamiento es exitoso cuando i = 0, . . . , K ! !−1 K i ρ i K X = (1 + ρ)−K . πi ≥ 1/2. i=dK/2e Solución parte 3. El tiempo hasta la primera falla se distribuye como el mínimo de K variables aleatorias exponenciales de tasa µ. Desde la primera falla, el tiempo hasta que un segundo organo Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 112 falla por primera vez es el mínimo de K − 1 exponenciales. Cuento corto, cuando ya han fallado n órganos alguna vez, el tiempo hasta que algún otro órgano falla pro pimera vez se distribuye como el mínimo de K − n exponenciales. Concluimos que la esperanza buscada es E= K X 1 k=1 µk . Solución parte 4. Ahora el estado es Sk , el conjunto de organos que funcionan. qSk ,Sk ∪i = λi , qSk ,Sk \{i} = µi , Sk ⊂ {1, . . . , K}, i ∈ Skc , Sk ⊆ {1, . . . , K}, Sk 6= ∅, i ∈ Sk . Una vez definida la cadena, podemos plantear el sistema para calculo de probs estacionarias: ( X µk + i∈Sk X λi )πSk i∈Skc X = X λi πSk \{i} + µi πSk ∪{i} , Sk ⊆ {1, . . . , K} i∈Skc i∈Sk πSk X = 1. Sk ⊆{1,...,K} La condicion de éxito sigue siendo la misma: X πSk ≥ 1/2. Sk ⊆{1,...,K}:|Sk |≥K/2 Ejemplo 5.7 (Pregunta 4, Examen Recuperativo, Primavera 2018). Boris trabaja envolviendo regalos en una tienda en una estación de buses, donde observa que pasajeros llegan de acuedo a un proceso de Poisson de tasa λ. Cada vez que llega un pasajero, el chofer del siguiente bus por salir (siempre hay un bus listo para salir) decide partir con los pasajeros actualmente en el bus (incluyendo al que acaba de llegar) con probabilidad p. 1. Suponiendo que los buses tienen capacidad infinita, modele el número de pasajeros esperando salir como una cadena de Markov en tiempo continuo. Boris ahora decide concentrarse en su trabajo. Cuando está desocupado, conjuntos de paquetes llegan para ser envueltos de acuerdo a un proceso de Poisson de tasa λ0 = λ(1 − p). El número de paquetes incluidos en cada conjunto es una variable aleatoria X cuya distribución es tal que P [X = i] = (1 − p)i−1 p, i ≥ 1. Boris demora un tiempo exponencial de media λ en envolver un paquete. Una vez envuelto un paquete, este es retirado inmediatamente de la tienda por un cliente. 2. Modele el número de paquetes esperando ser envueltos como una cadena de Markov en tiempo continuo. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 113 Solución parte 1. Los estados son los enteros positivos, incluyendo el cero, que representan el número de personas esperando partir. La matriz Q que define el proceso es qi,j =   λ (1 − p)  λp   0 j =i+1 j = 0, i > 0 ∼. Solución parte 2. Los estados son los enteros positivos, incluyendo el cero, que representan el número de paquestes esperando ser envueltos. La matriz Q∗ que define el proceso es ∗ qi,j =    λ λ (1 −   0 Apunte de Cátedra p)j p j = i − 1, i > 0 i = 0, j > 0 ∼. IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 114 Ejemplo 5.8 (Pregunta 2, Control 2, Primavera 2019) Considere un comerciante que vende almuerzos en la entrada de Beauchef 850. El comerciante ofrece I opciones de almuerzo. Los clientes llegan al puesto del comerciante de acuerdo a un proceso de Poisson de tasa λ [clientes/min.]. El comerciante atiende a los clientes de acuerdo al orden de llegada. Un cliente, independiente de todo lo demás, pide la opción de almuerzo i P con probabilidad pi ≥ 0, donde p = (p1 , . . . , pI ) es tal que i≤I pi = 1 (asuma que el cliente toma su decisión antes de unirse a la cola). El comerciante por su parte demora en atender a dicho cliente un tiempo aleatorio de distribución exponencial de tasa µi [1/min.]. En lo que viene, suponga que siempre existe estado estacionario. 1. Modele el sistema de atención descrito como una cadena de Markov en tiempo continuo, y plantee las ecuaciones que permiten calcular las probabilidades estacionarias. Suponga ahora que el comerciante atiende primero al último cliente en llegar (interrumpiendo las atenciones a otros clientes de ser necesario). 2. Modele el sistema de atención descrito como una cadena de Markov en tiempo continuo, y muestre que las probabilidades estacionarias están dadas por π(n) = C · I Y λ pi ni i=1 µi , donde ni denota el número de clientes en fila que ordenan la opción i. (Hint: si lo desea, puede chequear la condición de reversibilidad.) Suponga ahora que el comerciante atiende primero los pedidos de las opciones menores o iguales a i antes de atender los pedidos de opciones mayores a i (incluso si eso implica interrumpir atenciones). 3. Modele el sistema de atención descrito como una cadena de Markov en tiempo continuo. Para el caso particular µj = µ para todo j ≤ I, encuentre la distribución estacionaria (asuma que existe) de pedidos en cola por opciones menores o iguales a i. (Hint: note que las atenciones y esperas de pedidos menores o iguales a i no son afectadas por los pedidos mayores a i.) Solución parte 1. El estado es o = (o1 , o2 , . . . , ok ) donde oi representa la opción a comprar por el i-esimo cliente en la fila, y k es el número de personas en la fila. Con esto, tenemos que las transiciones posibles son ( qo,o0 = Apunte de Cátedra λ · pj µo 1 si oi = o0i , i ≤ k, o0k+1 = j, k 0 = k + 1, j ≤ I si o0i = oi+1 , i < k, k 0 = k − 1, k ≥ 1. IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 115 Las ecuaciones de balance son π(o)(λ + µo1 ) = π((o1 , . . . , ok−1 ))pok λ + X π(((j, o1 , . . . , ok ))µj , n 6= ∅ j≤I π(∅) λ = X π((j))µj . j≤I Adicionalmente las probabilidades deben ser no-negativas y sumar 1. Solución parte 2. Los estados son los mismos. Las tasas de transición ahora son ( qo,o0 = si o0i = oi , i ≤ k, o0k+1 = j, k 0 = k + 1, j ≤ I si o0i = oi , i < k, k 0 = k − 1, k ≥ 1. λ · pj µo k Mostramos que la cadena es reversible chequeando que π cumple la condición de reversibilidad. Las transiciones en la cadena son entre los estados o y o0 cuando oi = o0i para i ≤ k, o0k+1 = j y k 0 = k + 1. Tenemos que π(o)λ pj = C I Y λ pi ni µi i=1 k Y p oh = C λk h=1 µo h λ pj λ ph 0 = µj C λ = C k+1 k p 0 Y o h µ0 h=1 oh 0 I Y pi ni i=1 µi = µj π((o1 , . . . , ok , j)) = µj π(o0 ), donde ni = j≤k 1{oj = i}, n0i = j≤k0 1{o0j = i}. Concluimos que la cadena es reversible, y que π es el vector de probabilidades estacionarias. P P Solución parte 3. En esta situación el estado es m = (m1 , . . . , mI ) donde mi representa el número de clientes en la fila que piden la opción i. Tenemos que ( qm,m0 = λpj µj si m0i = mi , i 6= j, m0j = mj + 1 . si m0i = mi , i = 6 j, m0j = mj − 1, mi = 0, i < j, mj > 0. Consideremos ahora el caso µj = µ. Fijemos i ≤ I y consideremos una Cadena de Markov donde el estado m representa el número de clientes con pedidos iguales o menores a i. Tenemos que la cadena tiene tasas de transición qm,m0 = ( P λ µ j≤i pj si m0 = m + 1, . si m0 = m − 1, m > 0. Vemos que la cadena es una M/M/1, por lo tanto la distribución estacionaria {πi (m) : m ≥ 0} del Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 116 número de clientes con pedidos menores o iguales a i es πi (m) = (1 − ρi )ρm i , donde ρi = 6.4. λ P j≤i µ pj . Reversibilidad Tal como en el caso de tiempo discreto, consideremos una cadena de Markov en tiempo continuo que admita un vector de probabilidades estacionarias π y elijamos como distribución inicial dichas probabilidades estacionarias. El proceso resultante es estacionario (debido a que π(t)0 = π Q = 0), es decir π(t) = π para todo t ≥ 0. Consideremos un tiempo muy grande (infinito) y consideremos el proceso reverso en el tiempo {Y (t) : t ≥ 0} donde Y (t) = X(t∗ − t), con t∗ muy grande. Resulta que este proceso reverso es tambiénnuna cadena o de Markov en tiempo continuo. Para ver esto, notemos que los tiempo de Y estadía τi : i ∈ N son idénticos a los tiempos de la cadena original, por lo tanto forman una serie de variables aleatorias independientes de distribución exponencial. En particular, tenemos que τiY ∼ exp(νi ) i ∈ N. Denotemos por π D el vector de probabilidades estacionarias de la cadena de Markov discreta subyacente (asumiremos que esta cadena acepta un vector de probabilidades estacionarias). Desde la sección 3.4 sabemos que la matriz de transición de la cadena de Markov discreta reversa en el tiempo, P ∗ es tal que πjD Pij∗ = D Pji , i, j ∈ N, i 6= j. πi Concluimos que el proceso reverso {Y (t) : t ≥ 0} es una cadena de Markov en tiempo continuo caracterizado por las tasas de estadía {νi : i ∈ N}, la matriz de transición P ∗ , y la distribución inicial π. ! Importante: La cadena de Markov reversa también admite a π como vector de probabilidades estacionarias. Para esto, interpretamos πi como la fracción del tiempo que la cadena original pasa en el estado i y notamos que dicha fracción es la misma para el proceso reverso. Tal como en el caso discreto, diremos que la cadena es reversible si su comportamiento hacia adelante en el tiempo es indistinguible de aquel hacia atrás en el tiempo (en el largo plazo). En términos concretos, estos significa que la cadena reversa y la original poseen la misma caracterización, es decir la condición de reversibilidad πiD Pij = πjD Pji se cumple. Esta condición está en términos de las probabilidades estacionarias de la cadena discreta subyacente, que comúnmente no calcularemos. Para remediar esto, podemos ver una cadena de Markov en tiempo continuo como un caso especial de un proceso semi-Markov, tal que los tiempos de estadía se distribuyen exponencial. Desde las secciónes pasadas, tenemos que Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo πi ∝ 117 πD , νi i ∈ N, por lo tanto, podemos reescribir la condición de reversibilidad en términos de las probabilidades estacionarias de la cadena en tiempo continuo: πi qi,j = πj qj,i , i, j ∈ N. Tal como en el caso discreto, si encontramos un vector de probabilidad que cumpla la condición de reversibilidad, este debe corresponder al vector de probabilidades estacionarias. Proposición 5.2 (Condición de reversibilidad) Consideremos una cadena de Markov en tiempo continuo caracterizada por Q. Si existe un vector de probabilidad π tal que πi qi,j = πj qj,i , i, j ∈ N, entonces i) π corresponde al vector de probabilidades estacionarias; y ii) la cadena es reversible. Normalmente utilizamos el resultado anterior de la siguiente forma: adivinamos la forma funcional del vector de probabilidades estacionarias a partir de la condición de reversibilidad: si encontramos una solución satisfactoria, concluimos que ese es el vector de probabilidades estacionarias (como resultado colateral, corroboramos que la cadena es reversible). Podemos utilizar reversibilidad incluso en casos donde la cadena no es reversible. En dichos casos, debemos adicionalmente conjeturar el comportamiento de la cadena reversa, como muestra el siguiente resultado. Proposición 5.3 (Cadena reversa) Consideremos una cadena de Markov caracterizada por Q. Si existe un vector de probabilidad π y una matriz Q∗ tal que ∗ πi qi,j = πj qj,i , y X j6=i qij = X ∗ qij , i, j ∈ N, i ∈ N, j6=i entonces π es el vector de probabilidades estacionarias y Q∗ caracteriza a la cadena reversa. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo ! 118 Importante: Tal como el sistema 0 = π Q se puede interpretar como una ecuación de balance de tasas, la condición de reversibilidad puede interpretarse como una ecuación de balance de tasas, más detallada, entre cada par de estados (i, j). En este sentido, la condición de reversibilidad puede interpretarse como tasa de salida a i hacia j (largo plazo) = tasa de salida desde j hacia i (largo plazo). El siguiente ejemplo describe una clase muy grande de modelos, los cuales estudiaremos con más detalle en la siguiente sección. Ejemplo 5.9 (Procesos de Nacimiento y Muerte) Considere un proceso estocástico que representa el tamaño de una población de individuos: cuando la población tiene tamaño k ≥ 0 individuos nacen de acuerdo a un proceso de Poisson de tasa λk y el tiempo hasta la primera muerte de alguno de estos k individuos se distribuye exp(µk ), k ≥ 1. Un proceso de nacimiento y muerte admite la siguiente representación gráfica. λ1 λ0 0 1 µ1 λ2 2 ··· µ3 µ2 Alternativamente, la cadena de Markov asociada queda caracterizada por {νi : i ∈ N}, con ν0 = λ0 , νi = λi + µi para i ≥ 1 y la matriz de transición P , caracterizada por sus términos no nulos: P01 = 1, Pi,i+1 = λi µi , Pi,i−1 = . λi + µi λ i + µi Notemos que, bajo cualquier escenario, el número de transiciones desde el estado i al i + 1 difiere en a lo más una unidad del número de transiciones desde el estado i + 1 al i, por lo tanto (mirando la interpretación de la condición de reversibilidad como una ecuación de balance de tasas) sospechamos que un proceso de nacimiento y muerte es reversible. Bajo esa hipótesis, tenemos que la condición de reversibilidad, aplicada al proceso de nacimiento y muerte, se transforma en el sistema πi+1 = λi πi , µi+1 i ≥ 0. Utilizando esta ecuación de forma recursiva, partiendo desde i = 0, podemos escribir πi en función de π0 como sigue. Qi−1 λk λi−1 λi−1 λi−2 πi = πi−1 = πi−2 = · · · = Qik=0 π0 . (2) µi µi µi−1 k=1 µk Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 119 Entonces, dado π0 , el vector π dado por (2) cumple (por construcción) con la condición de reversibilidad. Lo único restante es corroborar que π0 puede ser especificado de forma que π sea un vector de probabilidad. Dada la no-negatividad de los parámetros, lo único que debemos corroborar es P que i πi = 1. Esto es equivalente a π0 = ! ∞ X Qi−1 λk Qik=0 k=1 µk i=0 !−1 . Importante: La existencia de π0 > 0 depende de la convergencia de la serie en el lado derecho de la ecuación de arriba. Si la serie no converge, el único vector π que satisface la condición de reversibilidad es π = 0, que no es un vector de probabilidad y, por lo tanto, concluimos que el sistema no acepta un vector de probabilidades estacionarias. En general, la existencia de π0 > 0 se examina caso a caso en función de los parámetros del modelo. A modo de ejemplo, a continuación revisamos dos ejemplos. Caso especial I: Cola simple (M/M/1). Considere el modelo de una cola donde individuos llegan de acuerdo a un proceso de Poisson de tasa λ y las atenciones son hechas por un único servidor que atiende a los individuos de acuerdo al orden de llegada; consideremos que el tiempo que demora en atender a un cliente cualquiera es una variable aleatoria de distribución exponencial de tasa µ, independiente de todo los demás. Claramente, el número de personas en el sistema es una cadena de Markov en tiempo continuo; su representación gráfica es la siguiente: λ λ 0 1 µ λ 2 µ ··· µ Vemos que la cadena corresponde a un proceso de nacimiento y muerte con tasas λk = λ para todo k ≥ 0, y µk = µ para todo k ≥ 1. Definiendo ρ = λ/µ, concluimos que las probabilidades estacionarias existen cuando la serie ∞ X i=0 ∞ ∞ X λk λi X = = ρi i µ µ k k=1 i=0 i=0 Qi−1 Qik=0 converge. La serie converge si y sólo si ρ < 1, caso en el cual tenemos que π0 = (1 − ρ) y, por lo tanto, πi = ρi (1 − ρ), i ≥ 0. Caso especial II: autoservicio. Consideremos el sistema del caso especial I, pero ahora el número de servidores es infinito (en la práctica esto puede modelar un sistema de autoservicio). Dado que toda persona en el sistema se está atentiendo y demora un tiempo exponencial de tasa µ, tenemos que la representación gráfica de la cadena es Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 120 λ λ 0 λ 1 2 µ ··· 3µ 2µ Vemos que la cadena corresponde a un proceso de nacimiento y muerte con tasas λk = λ para todo k ≥ 0, y µk = k µ para todo k ≥ 1. Definiendo nuevamente ρ = λ/µ, concluimos que las probabilidades estacionarias existen, ya que ∞ X Qi−1 λk Qik=0 k=1 µk i=0 = ∞ X 1 λi i=0 i! µi = eρ . Notamos que la serie siempre converge, por lo que concluimos que el vector de probabilidades estacionarias está dado por ρi πi = !e−ρ , i ≥ 0. i (Note que esta es una distribución Poisson con tasa ρ.) A continuación, consideremos una cadena de Markov con estados E. Podemos truncar esta cadena a un subconjunto A ⊂ E, conservando las tasas qij tales que i ∈ A, j ∈ A y anulando las demás (esto resulta práctico, por ejemplo, para poner una cantidad máxima de gente esperando a ser atendida en un modelo de cola). Nos referimos a la cadena resultante como la cadena truncada. Ejemplo 5.10 (Cadena truncada) Considere la cadena con tres estados cuya representación gráfica es: λ 0 λ 1 µ 2 µ Para el caso A = {0, 1}, la cadena truncada corresponde a λ 1 0 µ Consideremos el siguiente resultado que liga una cadena reversible con su versión truncada. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 121 Proposición 5.4. Consideremos una cadena reversible, con probabilidad estacionaria π y conjunto de estados E. Si truncamos esta cadena a A ⊂ E y el proceso resultante consiste en una sola clase, entonces la cadena truncada es reversible y posee probabilidades estacionarias π A , donde πj πjA = P , i ∈ A. i∈A πi Dem: Probaremos que el vector π A satisface la condición de reversibilidad, lo que permite concluir que la cadena truncada es reversible y que el vector π A es su vector de probabilidades estacionarias. Para i, j ∈ A, de la definición de π A tenemos que πi πj πiA qi,j = P qi,j = P qj,i = πjA qj,i , A πk A πk donde la segunda igualdad viene del hecho que la cadena original es reversible. Esta es la condición de reversibilidad aplicada a la cadena reversa. Dado que π A es un vector de probabilidad, concluimos el resultado. Ejemplo 5.11 (Cola simple con capacidad (M/M/1/N)) A modo de ejemplo consideremos el modelo de cola simple del Caso especial I arriba, pero bajo el supuesto que existe una capacidad máxima de N individuos que pueden estar simultáneamente en el sistema (cualquier llegada del proceso de Poisson que encuentra el sistema con N individuos es perdida). Gráficamente, la cadena es la siguiente. λ λ 0 1 λ N −1 ··· µ µ λ µ N µ Para calcular las probabilidades estacionarias de esta cadena notamos que esta es la versión truncada de la cola simple (M/M/1) considerando el conjunto A = {0, . . . , N }. Esto implica que el vector de probabilidades estacionarias π es tal que  πiA = ρ (1 − ρ)  i N X j=0 Apunte de Cátedra −1 ρ (1 − ρ) j =ρ i 1−ρ , 1 − ρN +1 i ≤ N. IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 122 Ejemplo 5.12 (Pregunta 2, Control 3, Otoño 2018) Considere un sistema M/M/2 con servidores heterogéneos: el servidor i atiende a un tasa µi (µ1 6= µ2 ). Una llegada se atiende con el primer servidor disponible. 1. Modele el sistema como una cadena de Markov en tiempo continuo y encuentre el vector de probabilidades estacionarias asumiendo que una llegada que encuentra el sistema vacío se dirige al primer servidor con probabilidad p = 1/2. 2. Encuentre el vector de probabilidades estacionarias de su cadena asumiendo que una llegada que encuentra el sistema vacío se dirige al servidor que lleva más tiempo desocupado. 3. Suponga ahora que una llegada es de tipo i con probabilidad pi (p1 + p2 = 1) y que el servidor i atiende exclusivamente a llegadas tipo i. Modele como una cadena de Markov en tiempo continuo y encuentre el vector de probabilidades estacionarias cuando el sistema tiene una capacidad conjunta (para llegadas tipo 1 y 2) de N (llegadas que encuentran el sistema lleno simplemente se pierden). Solución parte 1. El conjunto de estados está dado por E = (0, 1a, 1b, 2, 3, 4, . . .), donde i denota el número de personas en el sistema, con la excepción de 1a y 1b que denotan que hay una persona en el sistema siendo atendidos por el servidor 1 y 2, respectivamente. Dado esto, tenemos que qi,i+1 = λ, q2,1a = µ2 , qi+1,i = µ1 + µ2 , q2,1b = µ1 , q0,1a = q0,1b = λ/2, i > 1, q1a,2 = q1b,2 = λ, q1a,0 = µ1 , q1b,0 = µ2 . Escribimos las probabilidades estacionarias en función de π2 . Para i ≥ 2 es fácil ver que πi = π2 ρi−2 , donde ρ = λ/(µ1 + µ2 ). De las ecuaciones de balance agregadas obtenemos que π0 λ = π1a µ1 + π1b µ2 π1a (λ + µ1 ) = π0 λ/2 + π2 µ2 π1b (λ + µ2 ) = π0 λ/2 + π2 µ1 Sumando estas ecuaciones vemos que π1a + π1b = ρ−1 π2 . Con esto obtenemos que π1a = π1b = π0 = Apunte de Cátedra π2 µ2 (ρ−1 + 2) 2λ + µ1 + µ2 π2 µ1 (ρ−1 + 2) 2λ + µ1 + µ2 2π2 µ1 µ2 (ρ−1 + 2) (2λ + µ1 + µ2 )λ IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 123 Con esto podemos despejar el valor de π2 como sigue: 1 π2 (µ2 + µ1 + 2µ1 µ2 )(ρ−1 + 2) + π2 = ρ 1 + 2λ + µ1 + µ2 1−ρ !−1 . Solución parte 2. El conjunto de estados está dado por E = (0a, 0b, 1a, 1b, 2, 3, 4, . . .), donde i denota el número de personas en el sistema, con la excepción de 0a y 0b que denotan que el sistema está vacío y el servidor que lleva menos tiempo desocupado es el 1 y 2, respectivamente, y los estados 1a y 1b, que denotan que hay una persona en el sistema siendo atendidos por el servidor 1 y 2, respectivamente. Dado esto, tenemos que qi,i+1 = λ, q2,1a = µ2 , qi+1,i = µ1 + µ2 , q2,1b = µ1 , q0a,1b = q0b,1a = λ, i > 1, q1a,2 = q1b,2 = λ, q1a,0a = µ1 , q1b,0b = µ2 . Nuevamente es posible escribir las probabilidades estacionarias en función de π2 . Esto es, para i > 1, πi = ρi−2 π2 . Para el resto de los estados las ecuaciones de balance son π0a λ = π1a µ1 π0b λ = π1b µ2 π1a (λ + µ1 ) = π0b λ + π2 µ2 , π1b (λ + µ2 ) = π0a λ + π2 µ1 , Sumando todo, nuevamente tenemos que π1a + π1b = ρ−1 π2 Desde la tercera ecuación obtenemos µ2 (ρ−1 + 1) λ + µ1 + µ2 µ1 (ρ−1 + 1) = π2 λ + µ1 + µ2 µ2 µ1 (ρ−1 + 1) = π0b = π2 . λ + µ1 + µ2 π1a = π2 π1b π0a El valor de π2 se obtiene imponiendo que π es vector de probabilidad. Esto es, π2 = (µ2 + µ1 + 2µ1 µ2 )(ρ−1 + 1) 1 1+ λ + µ1 + µ2 1−ρ !−1 Solución parte 3. Modelamos el estado como un par ordenado (n1 , n2 ), donde ni denota el número de personas de tipo i. Primero consideremos el sistema sin capacidad: notamos que el sistema corresponde a dos M/M/1 independientes, por lo que el vector de probabilidades estacionarias está dado por: Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 124 π(n1 , n2 ) = (1 − ρ1 )ρn1 1 (1 − ρ2 )ρn2 2 , donde ρi = λpi /µi . Adicionalmente, notamos que cada M/M/1 es reversible, y al ser independientes es fácil ver que el sistema en conjunto es reversible. De vuelta al sistema original, vemos que este es simplemente un truncamiento de la cadena sin capacidad, por lo tanto sus probabilidades estacionarias son un escalamiento de las probabilidades estacionarias del sistema sin capacidad. Concluimos que 1 π(n1 , n2 ) = ρn1 1 ρn2 2 , c donde c= −n1 N NX X ρn1 1 ρn2 2 . n1 =0 n2 =0 Ejemplo 5.13 (Pregunta 4, Examen, Primavera 2018) Los k profesores auxiliares del curso buscan contratar al nuevo profesor auxiliar para el próximo semestre. Para esto consideran el siguiente proceso: Los candidatos llegan al lugar de las entrevistas de acuerdo a un proceso de Poisson de tasa λ [candidatos/hora] y se colocan en la fila de un profesor auxiliar escogido al azar. El profesor auxiliar i demora un tiempo aleatorio de distribución exponencial de tasa µi = µ [1/horas] en entrevistar a alguien; una vez terminada la entrevista, los candidatos se unen a la espera de una entrevista con el profesor auxiliar i + 1, con i < k. Una vez finalizada la entrevista con el profesor auxiliar k, los candidatos se retiran. 1. Modele el sistema de entrevistas como una cadena de Markov en tiempo continuo. Indique las condiciones para que exista estado estacionario. ¿Es la cadena reversible? 2. Los auxiliares ahora piensen en utilizar un sistema alternativo de entrevistas: Los candidatos ahora se entrevistan primero con el auxiliar k. Si la entrevista con el auxiliar i es exitosa (lo que ocurre con probabilidad pi = 1 − 1/i) el candidato pasa a esperar para entrevistarse con el auxiliar i − 1, con i > 1. Si una entrevista fracasa (o se desarrollo con el auxiliar 1), el candidato se retira del proceso. Modele el sistema de entrevistas como una cadena de Markov en tiempo continuo. Indique las condiciones para que exista estado estacionario. ¿Es la cadena reversible? 3. El profesor, quien se ha dedicado a observar ambos procesos de entrevistas, plantea que los procesos son esencialmente equivalentes, en el largo plazo. Calcule las probabilidades estacionarias de ambas cadenas, y compruebe que el proceso de la parte 1 es el reverso del de la parte 2. Solución parte 1. Dejamos que ni represente el número de personas entrevistándose o esperando entrevistarse con el auxiliar i, i ≤ k y definimos n = (n1 , . . . , nk ). El conjunto de estados posibles es Nk y la matriz Q que caracteriza la cadena está dada por Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo qn,n0 =   λ/k  µ   µ 125 n0i = ni + 1 ∧ n0j = nj ∀j 6= i, i ≤ k, n0i+1 = ni+1 + 1 ∧ n0i = ni − 1 ∧ n0j = nj ∀j ∈ / {i, i + 1}, i < k tal que ni > 1 0 0 nk = nk − 1 ∧ nj = nj ∀j < k, cuando nk > 0 La condición de estado estacionario es λ < µ, que viene de mirar la carga del auxiliar k (y ver el sistema como una red de colas). La cadena no es reversible. Para ver esto considere los estados n0 y n tales que ni = n0i para todo i, salvo un j tal que n0j = n0j + 1. En la cadena hacia adelante en el tiempo esto corresponde a la llegada de un candidato a la cola del auxiliar j. En tiempo reverso esto es la salida de un candidato del sistema desde la cola del auxiliar j, lo que no es posible en la cadena hacia adelante. Solución parte 2. Utilizamos la misma definición de estados. La matriz Q0 está dada por 0 qn,n 0   λ     µ/i n0k = nk + 1 ∧ n0j = nj ∀j < k n0i = ni − 1 ∧ n0j = nj ∀j 6= i, i > 1 tal que ni > 0 =  µ(1 − 1/i) n0i = ni − 1 ∧ n0i−1 = ni−1 + 1 ∧ n0j = nj ∀j ∈ / {i, i − 1}, i > 1 tal que ni > 0     0 0 µ n1 = n1 − 1 ∧ nj = nj ∀j 6= 1, n tal que n1 > 0 La condición de estado estacionario es λ < µ, que viene de mirar la carga del auxiliar k (y ver el sistema como una red de colas). La cadena no es reversible. Para ver esto considere los estados n0 y n tales que ni = n0i para todo i, salvo un j tal que n0j = n0j − 1. En la cadena hacia adelante en el tiempo esto corresponde a un candidato que termina su entrevista con el auxiliar j y fracasa en esta. En tiempo reverso esto es la llegada externa de un candidato al sistema a la cola del auxiliar j, lo que no es posible en la cadena hacia adelante. Solución parte 3. Mirando el sistema de la parte a como una red de colas, tenemos que el vector de probabilidades estacionarias π es tal que πn = n Y (1 − ρi )ρni i , i=1 donde ρi = ki ρ, con ρ = λ/µ. Si un proceso es el reverso del otro, π también es el vector de probabilidades estacionarias del proceso de la parte b). Entonces, para chequear que el proceso de la parte a) es el reverso del de la parte b) basta chequear que qn,n0 πn = qn0 0 ,n πn0 , ∀ (n, n0 ). Veamos que esto se cumple considerando los casos en la parte a). Caso 1: n0i = ni + 1 ∧ n0j = nj ∀j 6= i, i ≤ k kµλ µ πn qn,n0 = = = qn0 0 ,n . X 0 πn i λk i Caso 2: n0i+1 = ni+1 + 1 ∧ n0i = ni − 1 ∧ n0j = nj ∀j ∈ / {i, i + 1}, i < k tal que ni > 1 Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Cadenas de Markov en Tiempo Continuo 126 i πn 1 qn,n0 = µ = (1 − )µ = qn0 0 ,n . X πn0 i+1 i+1 Caso 3: n0k = nk − 1 ∧ n0j = nj ∀j < k, cuando nk > 0 kλ πn qn,n0 = µ = λ = qn0 0 ,n . X πn0 kµ Concluimos entonces que un proceso es el reverso del otro y que el vector π representa las probabilidades estacionarias de ambos. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 7. 7.1. 127 Fenómenos de Espera Preliminares En este capítulo estudiaremos el comportamiento (estocástico) de sistemas de espera, entendidos como aquellos que involucran un flujo de individuos/entidades que deben ser procesados por un conjunto de servidores de acuerdo a algún protocolo de atención. Dada su aplicación en, por ejemplo, el modelamiento de sistemas de atención (e.g. espera en una sucursal de un banco o en un call-center), nos interesa analizar medidas de desempeño tales como tiempos promedios de estadía en el sistema, largo promedio de las colas, etc. El elemento base de un sistema de espera es la cola simple, las que serán descritas utilizando la notación de Kendall, que especifica seis elementos. Notación de Kendall. Describiremos una cola como una tupla A|B|C|D|E|F , donde A describe el proceso de llegada de entidades, B la distribución de tiempos de servicio, C el número de servidores, D denota la capacidad máxima del sistema (por defecto ∞), E el tamaño de la población (por defecto ∞), y F la disciplina de atención. Para la especificación de A y B se hace referencia a la distribución del tiempo entre llegadas/tiempo de antención, respectivamente. Por ejemplo, A=M denota que el tiempo entre llegadas tiene la propiedad de Markov, es decir, las llegadas constituyen un proceso de Poisson. De la misma forma A=D denota que los tiempos entre llegadas son Deterministas y B=G denota una distribución General. Los valores de C, D y E son enteros no negativos y F denota la disciplina utilizada por los servidores para priorizar la atención de las entidades. Por ejemplo F=FIFO denota la disciplina donde las entidades son atendidas de acuerdo al orden de llegada y F=LIFO denota aquella donde la última entidad en llegar es la primera en ser atendida. Para propósitos del curso, estamos interesados en filas que pueden ser representadas mediante cadenas de Markov en tiempo continuo. La notación de Kendall es versátil, pero de ninguna forma pretende cubrir todas las posibles configuraciones posibles para una fila simple. Ejemplo 6.1 (La fila M/M/1) Este sistema corresponde a una fila donde un solo servidor demora en atender entidades un tiempo aleatorio de distribución exponencial, y las entidades llegan al sistema de acuerdo a un proceso de Poisson. Denotando λ a la tasa del proceso de Poisson y µ al inverso del tiempo esperado de atención, tenemos que el modelo de cadena de Markov correspondiente a la cola M/M/1 admite la siguiente representación gráfica. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 128 λ λ 0 1 λ 2 µ ··· µ µ Desde el capítulo anterior sabemos que el vector de probabilidades estacionarias π = (π(1), π(2), . . .) es tal que π(i) = ρi (1 − ρ), i ≥ 0, donde ρ = λ/µ < 1. La condición para la existencia de probabilidades estacionarias (ρ < 1) puede interpretarse como que la persona que atiende lo hace a un ritmo más rápido del que tiene la gente que llega. Ejemplo 6.2 (La fila M/M/∞) La fila M/M/∞. Este sistema corresponde a un autoservicio donde las entidades demoran un tiempo aleatorio de distribución exponencial en salir del sistema y las entidades llegan al sistema de acuerdo a un proceso de Poisson. Denotando λ a la tasa del proceso de Poisson y µ al inverso del tiempo esperado de atención, tenemos que el modelo de cadena de Markov correspondiente a la cola M/M/∞ admite la siguiente representación gráfica. λ λ 0 1 µ λ 2 ··· 3µ 2µ Desde el capítulo anterior sabemos que el vector de probabilidades estacionarias π = (π(1), π(2), . . .) es tal que ρi π(i) = e−ρ , i ≥ 0, i! donde ρ = λ/µ. Ejemplo 6.3 (Fila con capacidad finita) La fila M/M/2/3. Siguiendo la lógica de los ejemplos anteriores, la cadena asociada a esta fila admite la siguiente representación gráfica. λ λ 0 1 µ Apunte de Cátedra λ 2 2µ 3 2µ IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 7.2. 129 Ley de Little Estamos interesados en calcular ciertas medidas de desempeño (de largo plazo) asociadas a distintos modelos de colas. En particular, nos gustaría calcular el número promedio de entidades y/o el tiempo promedio que pasa una entidad en el sistema, en el largo plazo. Normalmente, una de estas cantidades es más sencilla de calcular que la otra. La ley de Little relaciona estas dos cantidades, de forma que el cálculo de una cantidad es equivalente el cálculo de la otra. Sorprendentemente, la ley de Little aplica a cualquier sistema de espera, independiente de su especificación. Ley de Little (1961). Considere un sistema de espera y defina los procesos (nt , t ≥ 0), (wr , r ∈ Z) y (τr , r ∈ Z), donde nt representa el número de entidades en el sistema en el instante t, wr el tiempo que pasa en el sistema la r-ésima entidad en llegar, y τr el tiempo entre la llegada de la r-ésima y la r + 1-ésima entidad. Si los procesos anteriores son estacionarios y tienen media finita, entonces, si definimos 1 L(ω) = lı́m t→∞ t Z t 0 ns (ω)ds W (ω) = m 1 X wj (ω) m→∞ m j=1 T (w) = m 1 X τj (ω), m→∞ m j=1 lı́m lı́m entonces, con probabilidad 1, los límites de arriba existen, y satisfacen W (ω) = T (ω) · L(ω). Notamos que la cantidad L representa el número promedio (en el largo plazo) de entidades en el sistema, W el tiempo promedio de estadía en el sistema y T el tiempo promedio entre llegadas. Si bien la prueba del resultado está fuera del alcance de este curso, su argumento principal es el siguiente: Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 130 Para un t >> 0,el número promedio de entidades en el sistema corresponde al área bajo la curva (entre 0 y t) en la Figura 1 (que muestra el número de entidades en el sistema en función del tiempo), dividido por t; definimos A(t) como aquella área, y N (t) el número de entidades que llegan entre 0 y t; con esto, se tiene que L(t) = A(t)/t es el número promedio de entidades en el sistema entre 0 y t, λ(t) = N (t)/t es la tasa de llegada de entidades entre 0 y t, y W (t) = A(t)/N (t) es el tiempo promedio de estadía (por arribo) en el sistema entre 0 y t. Con esto, tenemos que para t muy grande, A(t) L(t) = = W (t) · λ(t). t El resultado surge de tomar límite respecto a t (los límites existen debido a los supuestos sobre los procesos), notar que T = (lı́mt→∞ λ(t))−1 y mostrar que los efectos de las condiciones de borde (regiones A y B en la Figura 1, que corresponden a tiempos de espera de eventos que ya estaban en el sistema antes de 0 y tiempos de espera de eventos que continúan en el sistema tras T ) se vuelven despreciables cuando t tiende a infinito. ! Importante: Notemos que la ley de Little se cumple para cada evento ω ∈ Ω y para cada sistema de espera que cumple con las condiciones de arriba. Esto incluye subsistemas dentro de sistemas más grandes (por ejemplo, el subsistema de gente esperando ser atendido en una cola M/M/1). Normalmente utilizaremos la ley de Little en sistemas donde la llegada está dada por un proceso de Poisson homogéneo. Por lo mismo, es común ver la ley de Little enunciada como L = W · λ, donde λ denota la tasa de llegada de entidades y, L y W son referidas como los valores esperados del número promedio y tiempo promedio de estadía en el sistema. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 131 Ejemplo 6.4 (Ley de Litle para una Fila M/M/1) Para esta fila, tenemos que el número promedio de entidades en el sistema (en el largo plazo) está dado por L= X iπi = i X iρi (1 − ρ) = (1 − ρ) i ρ ρ λ = = . 2 (1 − ρ) 1−ρ µ−λ Por otro lado,el tiempo promedio de estadía en el sistema puede calcularse condicionando en el número de entidades en el sistema al momento de llegada de una entidad en el largo plazo. Esto es, asumiendo la política FIFO y denotando Te al tiempo de estadía en el sistema, tenemos que W = X E[Te | i entidades al llegar] πi i = X (i + 1) i = 1 i · ρ (1 − ρ) µ 1 1 λ + = . (µ − λ)µ µ µ−λ Alternativamente, podemos calcular W utilizando Little: tenemos que el tiempo esperado de estadía en la fila es 1 L . W = = λ µ−λ Métricas adicionales. Normalmente nos interesa calcular los tiempos promedios de estadía en el subsistema de espera y en el de servicio, y lo mismo para el número promedio de entidades. Utilizando los subíndices q y s para denotar dichos subsistemas, tenemos que L = Ls + Lq , W = Ws + Wq , donde, por ejemplo, Ls denota el número promedio de entidades en servicio, en el largo plazo. Para la fila M/M/1, tenemos que trivialmente Ws = µ−1 , por lo que rápidamente vemos que Wq = 1 1 λ − = . µ−λ µ (µ − λ)µ Respecto a los largos de fila, tenemos que Ls = X 1{i > 0}πi = 1 − π0 = ρ, i 2 λ λ con lo que concluimos que Lq = µ−λ − µλ = (µ−λ)µ . Alternativamente, podemos aplicar Little a cada subsistema (notando que la tasa de entrada a cada uno de ellos es λ), para obtener que Ls = λ Ws = Apunte de Cátedra λ = ρ, µ Lq = λ Wq = λ2 . (µ − λ)µ IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 132 Ejemplo 6.5 (Ley de Little para una Fila M/M/∞) En esta fila, la distribución estacionaria es Poisson con tasa ρ, por lo tanto tenemos que L= X ρi i e−ρ = ρ, i i! por lo que (usando Little) concluimos que W = Lλ = µ1 , lo que tiene sentido, dado que este sistema es un autoservicio. Por lo mismo, tenemos que Wq = 0, por lo que Ws = W . De la misma forma, se tiene que Lq = 0, por lo que Ls = L. 7.3. Colas en Tandem Considere un sistema con dos estaciones de servicio, cada una con un solo servidor. Una atención en la estación Si demora un tiempo aleatorio de distribución exponencial de tasa µi , i ∈ {1, 2}. Entidades llegan al primer servidor de acuerdo a un proceso de Poisson de tasa λ. Al ser atendidos, pasan de inmediato al siguiente servidor. Las entidades esperan en cada estación por su turno en ser atendidos. λ S1 S2 Queremos analizar el sistema descrito arriba, idealmente caracterizando su comportamiento en estado estacionario y encontrando expresiones para métricas tales como el tiempo esperado de estadía en el sistema, número promedio de entidades en el sistema, etc. El sistema en sí mismo, puede ser modelado como una cadena de Markov en tiempo continuo, donde un estado es un par ordenado (n1 , n2 ) donde ni representa el número de entidades en la estación Si , i ∈ {1, 2}. Denotemos a π = (π(n1 , n2 ) : ni ≥ 0, i = 1, 2) como el vector de probabilidades estacionarias, y definimos πi a la distribución marginal del número de entidades en el sistema i en el largo plazo. Claramente, tenemos que π1 (n) = ρn1 (1 − ρ1 ), n ≥ 0, donde ρ1 = µλ1 . Esto, debido a que si ignoramos la segunda estación, el primer servidor corresponde a una fila M/M/1. A priori, el cálculo de la marginal π2 no es directo, debido a que no conocemos las características del proceso de llegada de entidades al segundo servidor. El siguiente resultado, sin embargo, nos dice que en estado estacionario dicho proceso de llegada es Poisson de tasa λ, con lo que la marginal π2 está dada por π2 (n) = ρn2 (1 − ρ2 ), donde ρ2 = n ≥ 0, λ µ2 . Lema 6.1 (S. Ross - Lemma 5.6.2) Considere una fila M/M/C. Si λ < C µ (condición de estado estacionario), entonces el proceso de salida de entidades, en estado estacionario, es un proceso de Poisson de tasa λ. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 133 Dem: Argumentamos por reversibilidad. De la representación gráfica de la cadena asociada a la fila M/M/C vemos que este corresponde a un proceso de nacimiento y muerte y, por lo tanto, dicha cadena es reversible. En la cadena reversa, el proceso de llegada de entidades, en el largo plazo, corresponde a un proceso de Poisson de tasa λ (por reversibilidad). Sin embargo, interpretado desde el punto de vista del proceso original, este proceso correponde a las salidas de entidades desde la fila. Concluimos que las salidas en estado estacionario forman un proceso de Poisson de tasa λ. Con este resultado, tenemos que podemos calcular las distribuciones marginales del número de entidades en cada servidor, en estado estacionario. Estas distribuciones, sin embargo, no nos permiten a priori calcular el vector π, debido a la posible correlación entre el número de entidades en cada estación. El siguiente resultado nos muestra que, en estado estacionario, los números de entidades en cada subsistema son variables aleatorias independientes. Con esto podremos recuperar el vector π a partir de π1 y π2 , para obtener (sujeto a que ρi < 1, i ∈ {1, 2}) π(n, m) = ρn1 (1 − ρ1 ) ρm 2 (1 − ρ2 ), m, n ≥ 0, Lema 6.2 (S. Ross - Lemma 5.6.3) En una cola M/M/1 tal que ρ < 1, se tiene que en estado estacionario i) el número de entidades en el sistema en un instante es independiente de la secuencia de tiempos de salida pasados; ii) el tiempo que una entidad pasa en el sistema (espera más servicio) es independiente del proceso de salida de entidades hasta antes del instante de su propia salida. Dem: Argumentamos por reversibilidad. En el proceso hacia adelante en el tiempo, dado que las llegadas son Poisson, el número de entidades en el sistema en cualquier instante de tiempo es independiente del proceso de llegadas en el futuro. Esto quiere decir que en el proceso reverso, el número de entidades en el sistema es independiente del proceso de salidas pasadas. Sin embargo, dado que el sistema es reversible, lo mismo se puede concluir del sistema hacia adelante en el tiempo, lo que corresponde a i). Respecto a ii), notamos que el tiempo que una entidad pasa en el sistema es independiente del proceso de llegada de entidades después de la llegada de dicha entidad (aquí estamos asumiendo la política FIFO de atención). Visto desde la perspectiva del proceso reverso, vemos que el tiempo que una entidad pasa en el sistema es independiente de las salidas hasta antes del instante de su propia salida. Sin embargo, dado que el sistema es reversible, concluimos que lo mismo se cumple en estado estacionario para el sistema hacia adelante en el tiempo, lo que corresponde a ii). Claramente este resultado se puede extender al caso de k colas M/M/1 en tandem. En dicho caso, tendremos que denotando con π(n1 , . . . , nk ) la probabilidad estacionaria del estado (n1 , . . . , nk ) donde nj denota el número de entidades en la estación j, tenemos que, bajo la condición que ρj < 1 Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 134 para todo j = 1, . . . , k (donde ρj = λ/µj ), π(n1 , . . . , nk ) = k Y nj ρj (1 − ρj ). j=1 Adicionalmente, vemos que los argumentos usados en las demostraciones arriba se mantienen para el caso donde el servidor i cuenta con ci servidores, transformando dicha estación en una cola M/M/ci . En dicho caso, tenemos que π(n1 , . . . , nk ) = k Y πj (nj ), (1) j=1 donde πj corresponde a las probabilidades estacionarias de una cola M/M/cj con llegada Poisson de tasa λ y atenciones exponenciales de tasa µj . ! Importante: El desarrollo anterior también se mantiene válido en el caso donde el ruteo de las entidades a través de las estaciones es probabilista (piensen en la suma y división de procesos de Poisson). En tal caso debemos tener en cuenta que la tasa de llegada puede variar de estación a estación y no podemos permitir feedback. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 135 Ejemplo 6.6 (Problema 5, Examen, Primavera 2018) Los k profesores auxiliares de un curso buscan contratar a alguien que se disfrace de Santa durante las fiestas. Para esto consideran el siguiente proceso: Candidatos llegan al lugar de las entrevistas de acuerdo a un proceso de Poisson de tasa λ [candidatos/hora] y se colocan en fila para ser entrevistados por el profesor auxiliar 1. En general, el profesor auxiliar i demora un tiempo aleatorio de distribución exponencial de tasa µi = µ/i [1/horas] en entrevistar a alguien, y dicha entrevista es exitosa con probabilidad pi = i/(i + 1). Cuando un candidato fracasa tras una entrevista, es despachado a su casa. Por otro lado, un candidato que concluye exitosamente su entrevista con el profesor auxiliar i procede a esperar su turno para entrevistarse con el profesor auxiliar i + 1, excepto en el caso que la entrevista haya sido con el último profesor auxiliar (en cuyo caso los candidatos también se retiran, pero sabiendo que potencialmente serán contratados). Boris quiere entrevistarse para el puesto, pero va muy atrasado, por lo cual el proceso ya lleva un largo tiempo operando cuando llega. 1. Modele el sistema de entrevistas como una red de colas. Indique las condiciones sobre los parámetros del problema para que exista estado estacionario. 2. Boris quiere saber cuánto tiempo debería presupuestar (en valor esperado) para las entrevistas, pensando en que está seguro de triunfar en todas ellas. 3. Suponga que se cumplen las condiciones de estado estacionario. Al llegar al sistema, Boris nota que hay muchas personas esperando su turno para entrevistarse con el primer profesor auxiliar. ¿Cuál es la probabilidad que todos los otros profesores auxiliares se encuentren desocupados en ese momento? 4. Suponga ahora que, aprovechando que nadie lleva registro de la identidad de los candidatos, una vez fracasada una entrevista, los candidatos se mezclan con la gente esperando su entrevista con el profesor auxiliar 1 (es decir, simulan ser nuevos candidatos). Modele este nuevo sistema como una red de colas e indique las condiciones para alcanzar estado estacionario. En valor esperado, ¿cuánto tiempo estará Boris en el sistema, pensando en que él está seguro de triunfar en todas las entrevistas (al primer intento)? Solución parte 1. El sistema esta formado por k colas M/M/1 en serie. La cola i corresponde a las entrevistas realizadas por el auxiliar i, tiene una tasa de atención µi = µ/i efectiva de llegada λi = λ i−1 Y pj = λ/i. j=1 Definimos ρi := λi /µi = λ/µ = ρ. La condición de estacionario es entonces ρ < 1. Solución parte 2. El tiempo que Boris debería presupuestar es la suma de los tiempos esperados de estadia (de largo plazo) en k colas M/M/1, cada una con parámetros λ/i y µ/i. Esto es WB = k X i=1 Apunte de Cátedra i k(k + 1) = . µ−λ 2(µ − λ) IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 136 Solución parte 3. Sabemos que, por reversibilidad, el número de personas en las colas son variables aleatorias independientes. Por lo tanto el hecho que haya gente esperando en la primera cola no perturba las probabilidades estacionarias en el resto de las colas. Con esto, la probabilidad P buscada es P = (1 − ρ)k−1 . Solución parte 4. El sistema sigue siendo k colas, pero ahora hay una nueva matriz de ruteo. En terminos prácticos, tenemos que recalcular las tasas efectivas de llegadas. Estas son la solución al sistema λ1 = λ + X λj j≥1 λi+1 = i λi i+1 1 j+1 i≥1 Resolviendo tenemos que λ1 = λi = λ 1− 1 λ1 i P 1 j≥1 j(j+1) i>1 La condición de estado estacionario ahora es λ1 < µ, y el tiempo esperado para Boris ahora cambia k a WB = µ−λ . 1 XXX Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 137 Ejemplo 6.7 (Pregunta 3, Examen, Otoño 2019) De Lunes a Miércoles, pacientes llegan a un laboratorio de acuerdo a un proceso de Poisson de tasa λ [pacientes/hora] para realizarse una secuencia de hasta n exámenes, indexados por i = 1, . . . , n. Todos los pacientes comienzan realizándose el examen 1. Cada paciente demora un tiempo aleatorio exponencial de tasa µ [1/hora] en realizarse el examen i, el que requiere la supervisión del único técnico especialista que hay en el laboratorio para ese examen, por lo que los pacientes esperan su turno en orden de llegada. Una vez concluido el examen i, los pacientes se retiran con probabilidad p, y con probabilidad (1 − p) deben realizarse el examen i + 1, para i < n. Todos los pacientes que se realizan el examen n se retiran del laboratorio. 1. Modele el sistema de atención del laboratorio como una red de colas. Encuentre las condiciones para que exista un estado estacionario. De Jueves a Sábado, pacientes vuelven al laboratorio de acuerdo a un proceso de Poisson de tasa λ [pacientes/hora], a buscar los resultados de sus exámenes, los que son entregados por los técnicos especialistas. Cada ténico demora un tiempo aleatorio exponencial de tasa µ [1/hora] en entregar el resultado a un paciente, independiente de todo. Cada paciente comienza recolectando el resultado del último examen que se tomo, y comienza a volver a través de la secuencia de exámenes que se tomo, hasta terminar recolectando el resultado del examen 1, tras lo cual se retira del laboratorio. 2. Cuál es la probabilidad de que un paciente cualquiera comience a recolectar los resultados de sus exámenes partiendo por el examen i? 3. Modele el sistema de atención del laboratorio como una red de colas. Encuentre las condiciones para que exista un estado estacionario. 4. Compare los tiempos promedio de estadía en el laboratorio durante los días de la semana. Solución parte 1. La red de colas cuenta con n estaciones, una por cada examen. Solo existen llegadas externas a la estación 1 (tasa λ). La estación i corresponde a una M/M/1, con tasa de atención es µ, y su tasa efectiva de llegada es λ(1 − p)i−1 . La matriz de ruteo es tal que Pi,i+1 = (1 − p), para i < n. Con esto, la condición de estado estacionario es λ < µ. Solución parte 2. Es la probabilidad que el ultimo examen que tuvieron fue el i. Eso es P = (1 − p)i−1 p (distribuye geométrica). Solución parte 3. La red de colas cuenta con n estaciones, una por cada examen. La tasa externa de llegada a la estación i es λ(1 − p)i−1 p para i < n, y λ(1 − p)n−1 para i = n. La estación i corresponde a una M/M/1, con tasa de atención es µ, y su tasa efectiva de llegada es λ(1 − p)i−1 . La matriz de ruteo es tal que Pi+1,i = 1, para i < n. Con esto, la condición de estado estacionario es λ < µ. Solución parte 4. Las tasas efectivas de llegada a cada estación son las mismas en cada situación, por lo que el número esperado de pacientes en el largo plazo en cada estación, y por lo tanto en el Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 138 sistema, es el mismo. Utilizando Little en ambas situaciones concluimos que el tiempo esperado de estadia tambien es el mismo. 7.4. Redes de Colas Consideremos un sistema con k estaciones: las llegadas a la estación i desde el exterior forman un proceso de Poisson con tasa λi ; esta estación cuenta con ci servidores, cada uno de los cuales demora un tiempo aleatorio de distribución exponencial de tasa µi en atender a una entidad; una vez atendida, una entidad se dirige a la estación j con probabilidad Pi,j , independiente de todo lo demás. Viendo el sistema de estaciones como un grafo dirigido G (donde los nodos son las estaciones y existe un arco entre i y j si Pi,j > 0) tenemos que los argumentos presentados hasta ahora se mantienen válidos mientras se cumpla que i) Pi,i = 0 para todo i; y ii) que G no contenga ciclos. En este caso, tendremos que P es una matriz estrictamente triangular superior. Para j ≤ k definimos λ¯j como la tasa efectiva de llegada a la estación j. Tenemos que el conjunto de tasas efectivas (o throughput) son la única solución al sistema λ̄j = λj + X Pi,j λ̄i , j ≤ k. i Ejemplo 6.8 (Calculo tasas efectivas) Calculemos las tasas efectivas a la siguiente red (ver abajo), donde las entidades llegan a la red a tasas γ, β, y α. Con esto, tenemos que λ̄1 = γ λ̄2 = γp + β λ̄3 = (1 − p)γ λ̄4 = (1 − p)qγ λ̄5 = (1 − p)(1 − q)γ + α Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 139 β 2 p γ 1 4 q 1−p 3 1−q 5 α ! Importante: En general, tendremos que existe un vector de probabilidades estacionarias cuando se cumple que λ¯j < cj µj para todo j ≤ k. En tal caso, los resultados anteriores se mantienen, de forma que el vector de probabilidades estacionarias sigue estando dado por (1), salvo que en este caso, πj corresponde al vector de probabilidades estacionarias de una cola M/M/cj donde la tasa de atención es µj y las llegadas siguen un proceso de Poisson de tasa λ̄j , para todo j ≤ k. ¿Qué ocurre si las entidades procesadas pueden volver a servidores? Por ejemplo, consideremos el siguiente sistema con una sola estación, que cuenta con un único servidor. γ −→ S1 p 1−p Si bien el proceso de llegadas externas es un proceso de Poisson, el proceso total no será Poisson. Para ver esto supongamos que la tasa γ es muy chica en relación a la tasa de atención µ (i.e. γ/µ << 1), y que p = 0.01: cuando llega un cliente hay una posibilidad muy grande de que haya otro arribo en un intervalo de tiempo corto (el mismo cliente que tiene que atenderse nuevamente), siendo que en un intervalo cualquiera el tiempo entre llegadas debiese ser grande (debido a que γ es pequeño), esto viola la propiedad de incrementos independientes. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 140 Supongamos ahora que la matriz de ruteo P no es estrictamente triangular superior. Aún podemos representar el sistema como una cadena de Markov en tiempo continuo, donde el estado es un vector n = (n1 , . . . , nk ) donde nj representa el número de entidades en la estación j, j ≤ k. Como vimos anteriormente, los procesos de llegada a las estaciones no son necesariamente Poisson, por lo que el sistema i no es necesariamente una fila M/M/ci , lo que dificulta el cálculo de las probabilidades marginales de ni . Más importante, es posible mostrar que la cadena de Markov asociada al sistema no es reversible, lo que impide utilizar los argumentos que usamos para el caso de colas en tandem. Sin embargo, del contenido de reversibilidad, sabemos que cuando una cadena no es reversible, podemos tratar de adivinar un vector π junto a una matriz Q∗ , de forma que la cadena reversa esté definida por Q∗ y las probabilidades estacionarias estén dadas por π. Recordamos aquel resultado. Proposición 6.1 (Caracterización probabilidades estacionarias) Consideremos una cadena de Markov caracterizada por Q. Si existe un vector de probabilidad π, y una matriz Q∗ tal que ∗ πi qi,j = πj qj,i , i, j ∈ N, y X j6=i qij = X ∗ qij , i ∈ N, j6=i entonces π es el vector de probabilidades estacionarias y Q∗ caracteriza a la cadena reversa. Utilizaremos este resultado para calcular el vector de probabilidades estacionarias π. Para esto debemos conjeturar π y el proceso reverso (definido por Q∗ ). Conjetura para π. Nos pondremos en un caso muy optimista: supongamos que, si bien los procesos de llegada a las estaciones no son Poisson, las probabilidades marginales de ni corresponde a aquella de un sistema M/M/ci , para cada estación i ≤ k; adicionalmente, como en el caso de las colas en tandem, supongamos que las componentes de n son independientes, con eso tenemos que un candidato a vector π está dado por π(n1 , . . . , nk ) = k Y πj (nj ), j=1 donde πj corresponde a las probabilidades estacionarias de una cola M/M/cj con llegada Poisson de tasa λ̄j y atenciones exponenciales de tasa µj , donde {λ̄i , i ≤ k} corresponde a la solución del sistema lineal. X λ̄j = λj + Pi,j λ̄i , j ≤ k. i (Suponemos también que λ̄i < ci µi , para que exista estado estacionario.) Conjetura para Q∗ . Conjeturamos que el proceso reverso es también un sistema de colas, de forma que no caracterizamos Q∗ directamente, sino que a través de los elementos que definen una Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 141 red de colas. Entonces, para caracterizar dicho proceso necesitamos encontrar una matriz de ruteo P ∗ y un conjunto de tasas de llegadas exteriores a cada estación {λ∗i : i ≤ k}. Pensando en el proceso reverso, la tasa a la cual entidades pasan, en el largo plazo, desde la estación i a la j debe coincidir con aquella con que las entidades pasan de la estación j a la i en el proceso hacia adelante en el tiempo. Notando que tanto en el proceso hacia adelante en el tiempo como en el reverso, la tasa de salida desde la estación i es λ̄i , i ≤ k, al igualar las tasas, concluimos que P ∗ debe ser tal que λ̄j ∗ Pi,j = Pj,i . λ̄i Por otro lado, salidas al exterior desde la estación i en el proceso adelante en el tiempo corresponden a llegadas desde el exterior en el sistema reverso. Concluimos entonces que  λ∗i  = λ̄i 1 − X i ≤ k. Pi,j  , j Con estas dos conjeturas (respecto a π y Q∗ ) debemos corroborar que las condiciones en el resultado de arriba se cumplen. Para esto, consideremos un par de estados n y n0 , y chequeamos que la condición π(n)qn,n0 = π(n0 )qn∗ 0 ,n se cumple. Para simplificar el análisis, supondremos que ci = 1 para todo i, entendiendo que el análisis se mantiene para el caso más general. Caso I: n0 = (n1 , . . . , ni + 1, . . . , nk ). Notamos que la transición corresponde a una llegada desde el exterior a la estación i para la cadena hacia adelante en el tiempo y una salida al exterior desde la estación i para la cadena reversa. Por lo tanto, tenemos que qn,n0 = λi , qn∗ 0 ,n = µi (1 − X ∗ Pi,j ). j Notando que π(n0 ) = π(n)ρi , tenemos que π(n) qn,n0 = π(n) λi µi = π(n0 ) λi λ̄i X 0 µi = π(n ) (λ̄i − Pj,i λ̄j ) λ̄i j = π(n0 ) µi (1 − X 0 X j = π(n ) µi (1 − Pj,i λ̄j ) λ̄i ∗ Pi,j ) j = π(n 0 ) qn∗ 0 ,n . Caso II: n0 = (n1 , . . . , ni + 1, . . . , nj − 1, . . . , nk ). Notamos que la transición corresponde a una entidad que completa su atención en la estación j (i) y se mueve a la estación i (j), en la cadena Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 142 hacia adelante (reversa). Por lo tanto, tenemos que qn,n0 = µj Pj,i , ∗ qn∗ 0 ,n = µi Pi,j . Notando que π(n0 ) = π(n)ρi /ρj , tenemos que π(n) qn,n0 = π(n) µj Pj,i λ¯j µi µj Pj,i = π(n0 ) λ̄i µj ∗ = π(n0 ) µi Pi,j = π(n0 ) qn∗ 0 ,n . Caso III: n0 = (n1 , . . . , ni − 1, . . . , nk ). Notamos que la transición corresponde a una salida al exterior a la estación i para la cadena hacia adelante en el tiempo y una llegada desde el exterior a la estación i para la cadena reversa. Por lo tanto, tenemos que qn,n0 = µi (1 − X Pi,j ), qn∗ 0 ,n = λ̄i (1 − X j Pi,j ). j Notando que π(n) = π(n0 )ρi , tenemos que π(n) qn,n0 = π(n) µi (1 − X Pi,j ) j = π(n0 ) X λ̄i Pi,j ) µi (1 − µi j = π(n0 ) λ̄i (1 − X Pi,j ) j = π(n0 ) qn∗ 0 ,n . Hemos probado lo siguiente Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 143 Proposición 5.2 (Probabilidades estacionarias red de colas) En la red de colas con matriz de ruteo P arbitraria, si λ̄i < ci µi , para todo i ≤ k, tenemos que el vector de probabilidades estacionarias está dado por π(n1 , . . . , nk ) = k Y πj (nj ), j=1 donde πj corresponde a las probabilidades estacionarias de una cola M/M/cj con llegada Poisson de tasa λ̄j y atenciones exponenciales de tasa µj , donde {λi , i ≤ k} corresponde a la solución del sistema lineal. X λ̄j = λj + Pi,j λ̄i , j ≤ k. i Adicionalmente, en estado estacionario: i) las salidas hacia el exterior desde la estación i forman P un proceso de Poisson de tasa λ̄i (1 − j Pi,j ); y ii) el número de entidades en las distintas estaciones son variables aleatorias independientes. Ejemplo 6.9 (Problema 5, Examen Recuperativo, Primavera 2018) Considere las visitas al nuevo sitio web que ha lanzado Boris, en el cual da consejos para enfrentar entrevistas de trabajo. El mapa del sitio tiene una estructura de árbol, donde la raíz representa la página de inicio del sitio (por lo tanto todas las páginas - salvo la raíz - tienen una página madre y potencialmente múltiples páginas hijas - salvo las páginas hoja). Visitantes al sitio web llegan a la raíz del sitio de acuerdo a un proceso de Poisson de tasa λ. Cada vez que alguien llega a una página del sitio web, permanece en ella por un tiempo exponencial de tasa µ (independiente de si la ha visitado en el pasado o no), tras lo cual puede volver a la página madre, lo que ocurre con probabilidad p, o visitar una página hija (escogida al azar), lo que ocurre con probabilidad 1 − p. En este contexto, visitar la madre del nodo raíz representa abandonar el sitio, al igual que lo es visitar hijas de páginas hoja. 1. Modele el número de visitantes al sitio web (en todas sus páginas) como una red de colas. ¿Qué condiciones son necesarias para que exista estado estacionario? Entrege una expresión para las tasas efectivas de llegada a cada componente de dicha red. 2. Calcule las probabilidades estacionarias del sistema. ¿Cuánto tiempo pasa en promedio un visitante navegando por el sitio web? 3. Verdadero o falso: si el sitio web de Boris tiene una capacidad para C visitantes simultáneos, podemos fácilmente calcular las probabilidades estacionarias de dicho sistema simplemente escalando aquellas encontradas en la parte 2. Justifique su respuesta. Solución parte 1. Cada página del árbol es una cola. Cada cola tiene capacidad infinita. Definamos N como el conjunto de páginas y para i ∈ N definamos M (i) como la página madre de la página i, H(i) el conjunto de hijas de la página i (esta página y conjunto son vacíos en el caso de la página Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 144 raíz y páginas hojas, respectivamente). La matriz de ruteo P es p j = M (i) (1 − p)/|H(i)| j ∈ H(i). ( Pi,j = Dado que cada cola tiene capacidad infinita, no existen condiciones para alcanzar estado estacionario. Las tasas efectivas de llegada son la solución al siguiente sistema. λi = λ 1{i es la pagina madre} + p X λj + j∈H(i) 1−p λ , |H(M (i))| M (i) ∀ i ∈ N. Solución parte 2. Considerando la cadena de Markov subyacente, donde el estado n = (ni , i ∈ N ), el vector de probabilidades estacionarias es πn = Y ρni i e−ρi , i∈N ni ! donde ρi = λi /µ. Utilizando el hecho que la marginal del número de personas en la página i es Poisson(ρi ), y que la esperanza de una Poisson es su parámetro, tenemos que W = L 1X = ρi . λ λ i∈N Solución parte 3. Falso. La afirmación seria cierta si la cadena subyacente fuese reversible. En este caso la cadena no lo es (por ejemplo, en el proceso reverso personas llegan desde fuera del sistema a las paginas hoja, lo que no ocurre en el proceso original). Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 145 Ejemplo 6.10 (Problema 1, Control 5, Primavera 2018) Un club de fútbol se apresta a escoger al Entrenador. para su equipo. Para esto, los k directores entrevistan a los numerosos postulantes, quienes llegan a la sala donde se realizan las entrevistas de acuerdo a un proceso de Poisson de tasa λ. Al llegar a dicha sala, los candidatos escogen al azar a uno de los directores y proceden a esperar su turno para entrevistarse con el director. El director i por su parte demora en entrevistar a un candidato un tiempo aleatorio distribuido exponencial de tasa µi , para i ≤ k. Tras entrevistarse con un director, los candidatos se retiran. 1. Considerando que la sala de entrevistas solo tiene capacidad para C personas (excluyendo a los directores), modele el estado de ocupación de los directores como una cadena de Markov en tiempo continuo, entregue condiciones para la existencia de estado estacionario y calcule (en forma cerrada) las probabilidades estacionarias asociadas. 2. Suponga ahora que las entrevistas se realizarán en el estadio del club (y por lo tanto podemos considerar la capacidad infinita para cualquier fin práctico), pero que, sin embargo, al terminar la entrevista con uno de los directores, se le pide a un candidato que se entreviste nuevamente con otro director con probabilidad p (independiente de con quién y cuántas veces se ha entrevistado en el pasado, por lo que es posible que un candidado se entreviste dos o más veces con un mismo director, pero nunca de forma consecutiva). Modele el sistema de atención como una red de colas, determine las condiciones para la existencia de probabilidades estacionarias y calcule el vector de probabilidades estacionarias. 3. ¿Cuánto tiempo espera en promedio un candidato hasta entrevistarse por primera vez? ¿Cuántas entrevistas tiene en promedio un candidato? ¿Cuánto tiempo en promedio pasa en total un candidado en el sistema hasta abandonarlo? 4. ¿Cuánto tiempo pasa en promedio en el sistema un candidato, de quien se sabe que solamente se entrevistó con dos o menos directores distintos? Solución parte 1. Consideremos el sistema descrito en el enunciado, pero sin restricción de capacidad. Por lo tanto, se tiene k filas M/M/1, cada una con tasa de llegada λk y su respectiva tasa de servicio µi . El vector s = (s1 , . . . , sk ) ∈ S = Nk0 con la cantidad de personas en cada una de las k filas es una cadena reversible, ya que cada si lo es. Las probabilidades estacionarias de esta cadena son k Y λ λ si πs = 1− . kµi kµi i=1 Podemos truncar esta cadena al conjunto A = {s ∈ S : deseado, con probabilidades estacionarias Qk πsA = P i=1 a∈A Qk λ kµi i=1 si λ kµi 1− ai Pk i=1 si λ kµi 1− ≤ C}, resultando el sistema λ kµi . Finalmente, podemos ver que no existen condiciones de estado estacionario. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 146 p Solución parte 2. Cada servidor i posee una tasa efectiva de llegadas λi = λk + j6=i k−1 λj . Estas λ tasas son todas iguales (λi = λj ∀ i, j), por lo cual se puede despejar y obtener λi = k(1−p) para P todo i. Luego, como condición de estabilidad, se debe cumplir que probabilidades estacionarias de este sistema entonces son πs = k Y i=1 λ k(1 − p)µi si 1− λ k(1−p) < µi para todo i. Las λ . k(1 − p)µi Solución parte 3. Sea WiQ el tiempo promedio de espera de un candidato si llega a hacer fila para entrevistarse con el director i. Este valor es el mismo que se obtendría para una fila M/M/1: WiQ = λi . µi (µi − λi ) Desconociendo el director al que llega un candidato cualquiera, esta esperanza viene dada por WQ = k X WiQ · i=1 k λi 1 1 X = · . k µ (µ − λi ) k i=1 i i El número de entrevistas por candidato puede ser visto como una variable aleatoria con distribución 1 geométrica de parámetro 1 − p. Por lo tanto, su esperanza simplemente es 1−p . Para calcular el tiempo esperado total en el sistema, podemos usar la ley de Little. Para esto, definimos Li como el largo promedio en largo plazo de personas en la cola i y recordamos desde las formulas de la cola M/M/1 que λi Li = . µi − λi Dado que L = i Li , P tenemos que W = k k X λi 1 1 1X 1 1 L= = · . λ λ i=1 µi − λi (1 − p) i=1 µi − λi k Solución parte 4. Consideremos momentaneamente un sub-sistema compuesto por 2 de los k directores, digamos i y j. Usando el resultado de la parte anterior, tenemos que un candidato pasa en promedio en este sub-sistema (en el largo plazo) un tiempo Wi,j 1 = 2(1 − p) 1 1 + µi − λi µj − λj ! . Ahora pensamos en Wi,j como el tiempo que pasa un candidato en el sistema, condicional en que era posible visitar solo a los directores i y j. Obtenemos el resultado descondicionando sobre i y j, notando que cualquier par de directores es equiprobable. Esto es, W̃ = {(i,j) : Apunte de Cátedra Wi,j . k(k − 1) i6=j} X IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 147 Ejemplo 6.11 (Problema 1, Control 3, Otoño 2018) Considere la asistencia del publico a un partido de futbol profesional Chileno. Los hinchas llegan a la entrada del estadio según un proceso de Poisson de tasa λ. En la entrada, un único guardia se realiza el control de identidad a cada asistente. Esto demora un tiempo exponencialmente distribuido de media 1/µ1 (i.i.d.). Un asistente que pasa el control de identidad, con probabilidad p se dirige directamente a su asiento, y con probabilidad (1 − p) primero pasa a comprar un snack. El puesto de snacks es atendido por su dueño, quien atiende a un cliente a la vez, demorando un tiempo aleatorio exponencial de tasa µ2 . Tras comprar su snack, los asistentes se dirigen a sus asientos. El partido dura lo que parece ser una eternidad. Cada asistente, independiente del resto, se aburre y decide retirarse tras un tiempo aleatorio exponencial de tasa µ3 (contabilizado desde el instante en que llegan a su asiento). Al retirarse del recinto, una fracción r de los asistentes pasan por la tienda de souveniers ubicada al interior del estadio, la cual es atentida por un único empleado, quien demora un tiempo aleatorio exponencial de tasa µ4 en atender a un cliente (el resto de los asistentes se retira directamente sus casas). Una vez comprado un souvenier, un asistente retorna con probabilidad q a su asiento (el resto se retira a sus casas). 1. Modele la situación descrita como una red de colas. Bajo que condiciones existe un estado estacionario? 2. Que fracción del tiempo (en el largo plazo) pasa desocupado el dueño del puesto de snacks? 3. Cuál es la probabilidad que hayan k personas viendo el partido (en el largo plazo)? 4. Cuanto pasa en promedio (en el largo plazo) un asistente en el estadio? 5. Cuanto pasa en promedio (en el largo plazo) un asistente en el estadio que no compra souveniers? 6. En el entretiempo un carabinero llega supervisar la labor del guardia (en la entrada al estadio). El carabinero se retira tras supervisar n controles de identidad. Calcule la probabilidad que el carabinero este supervisando al guardia durante más de t unidades de tiempo. Solución parte 1. La representación gráfica del problema es: Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 148 Para analizar las condiciones en las que existe el estado estacionario, se plantean las siguiente ecuaciones: (1) λ1 = λ (2) λ2 = λ1 · (1 − p) (3) λ3 = λ1 · p + λ2 + λ4 · q (4) λ4 = λ3 · r Reemplazando (1) en (2), se obtiene: (5) λ2 = λ · (1 − p) Ahora, reemplazando (1), (4) y (5) en (3), se obtiene: λ3 = λ · p + λ · (1 − p) + λ3 · r · q Obteniendo: λ1 = λ λ2 = λ · (1 − p) λ λ3 = 1−q·r λ·r λ4 = 1−q·r Imponiendo condiciones de estabilidad, se tiene: Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 149 λ1 < µ1 ⇒ λ2 < µ2 ⇒ λ4 < µ4 ⇒ λ < µ1 µ2 (1 − p) µ4 · (1 − q · r) λ< r λ< Notemos que no se agrega la ecuación asociada al λ3 ya que al ser un sistema del tipo M/M/∞ tiene infinitos servidores (un servidor para cada entidad), por ende el proceso siempre alcanzara estado estacionario. Luego, µ2 µ4 · (1 − q · r) λ∗ = min{µ1 , , } (1 − p) r Solución parte 2. Notemos que el número de entidades del sistema M/M/1 se puede modelar como una cadena de Markov de tiempo continuo, más específicamente como un proceso de nacimiento y mierte. Así, como se vio en clases para un proceso de nacimiento y muerte de parámetros (λ, µ), se tiene que: λ p0 = 1 − = 1 − ρ µ Y en general pk = (1 − ρ) · ρk es decir tiene una distribución geométrica. Como se pide la fracción de tiempo al largo plazo donde el número de entidades en el sistema de la tienda de snack es cero, la solución es: p0 = 1 − ρ = 1 − λ2 λ · (1 − p) =1− µ2 µ2 Solución parte 3. Se debe identificar que estamos hablando de un proceso del tipo M/M/∞. Las probabilidades estacionarias vienen dadas por pk = −λ λk ·e µ , k µ · k! ∀n = 0, 1, 2, ... Entonces, la probabilidad que hayan k personas en el estadio (asiento) es: pk = λ )k ( 1−q·r (µ3 )k · k! ·e λ − 1−q·r µ3 . Solución parte 4. Notemos que un asistente se encuentra en el estadio desde el momento que entra al sistema, así, para encontrar e tiempo promedio que pasa un asistente en el estadio debemos considerar los 4 sistemas. Una de las relaciones de teoría de colas que se basa en Conservación en estado estacionario es la fórmula de Little, donde sabemos L=λ·W (2) Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 150 donde λ es la tasa promedio de llegada de las entidades al sistema, L el número promedio de entidades en el sistema y W es el tiempo promedio de permanencia de una entidad en el sistema en estado estacionario. Así, como sabemos que la tasa promedio de llegada de los asistentes es λ, para poder calcular W debemos despejarlo de (1) L W = (3) λ Así, sólo nos falta calcular L, que se calcula como sigue L = L1 + L2 + L3 + L4 Donde ρ1 , 1 − ρ1 ρ2 , = 1 − ρ2 λ1 λ = µ1 µ1 λ2 λ · (1 − p) con ρ2 = = L2 = LM/M/1 µ2 µ2 λ3 λ L3 = LM/M/∞ = ρ3 , con ρ3 = = µ3 (1 − q · r) · µ3 ρ4 λ4 λ·r L4 = LM/M/1 = , con ρ4 = = 1 − ρ4 µ4 (1 − q · r) · µ4 L1 = LM/M/1 = Por lo tanto, W =λ· con ρ1 = λ λ · (1 − p) λ λ·r + + + µ1 µ2 (1 − q · r) · µ3 (1 − q · r) · µ4 Solución parte 5. Del grafo asociado a la red de colas, vemos que alguien que no pasa por la tienda de sourveniers pasa por la entrada, por el partido (asiento) y con probabilidad (1 − p) por la tienda de snacks. Por lo tanto, tenemos que su tiempo de estadia en el sistema esta dado por Wno souvenirs = W1 + (1 − p) · W2 + W3 = L1 /λ + (1 − p) · L2 /(λ · (1 − p)) + 1/µ3 1 1−p 1 = + + . µ1 − λ µ2 − (1 − p) · λ µ3 Solución parte 6. En estado estacionario, la salida de la estación “Entrada” es un proceso de Poisson de tasa λ. Por lo tanto, denotando con X una variable aleatoria distribuida Poisson(λ · t), tenemos que la probabilidad P que el carabinero este supervisando al guardia más de t unidades de tiempo esta dada por P = P [X < n] = Apunte de Cátedra n−1 X (λ · t)k e−λ·t . k! k=1 IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 151 Ejemplo 6.12 (Pregunta 1, Control 3, Otoño 2019) Los auxiliares del curso realizarán un horario de consulta para ayudar a resolver la tarea 3. Los alumnos del curso (quienes para fines de esta pregunta son infinitos) llegan al horario de consulta de acuerdo a un proceso de Poisson de tasa λ [alumnos/minuto]. Los alumnos son recibidos por Sebastián, quien demora un tiempo aleatorio exponencial de tasa µ1 [1/minutos] en determinar el tipo de asistencia requerida y derivar al alumno al auxiliar(es) encargado(s) de entregar la asistencia pertinente. De experiencias anteriores, se sabe que una fracción p de las consultas se refieren a aclaraciones de enunciado, mientras que una fracción (1−p) se refiere a programación en Julia. Las consultas relativas al enunciado son resueltas por Natalia y Simón: cada uno de ellos atiende un alumno a la vez, y demoran un tiempo exponencial de tasa µ2 [1/minutos] en resolver una consulta. Por su parte, las dudas relativas a Julia son resueltas por Pablo, quien demora un tiempo aleatorio exponencial de tasa µ3 [1/minutos] en resolver una consulta. Tras la resolución de una consulta de enunciado (Julia), pueden ocurrir 3 cosas: i) una duda relativa Julia (enunciado) surge con probabilidad r (independiente de todo lo demás); ii) otra duda surge con probabilidad q, pero no es claro su ámbito, por lo que el alumno vuelve a consultar a Sebastián; o iii) no existen mas dudas, con lo que el alumno abandona el horario de consulta. (q + r < 1) De la misma forma, tras la resolución de una consulta de programación, pueden ocurrir 3 cosas: i) una duda relativa al enunciado surge con probabilidad r; ii) otra duda cuyo ámbito se desconoce surge con probabilidad q ; o iii) el alumno abandona el horario de consulta. 1. Modele el horario de consulta como una red de colas, y determine las condiciones para la existencia de estado estacionario. 2. Cuál es la probabilidad que, en el largo plazo, hayan i alumnos resolviendo (o esperando resolver) consultas con Natalia y Simón? (Hint: escriba el resultado en función de ρ = 2λ̄µ22 , donde λ̄2 denota la tasa efectiva de llegada de consultas de enunciado). 3. Cuánto tiempo pasan en promedio (en el largo plazo) los alumnos que no tuvieron dudas de enunciado en el horario de consulta? (Hint: muestre que el número de consultas de programación de este tipo de alumno tiene distribución geométrica.) 4. Al cabo de mucho tiempo, Pablo, Natalia y Simón tienen una gran cantidad de alumnos esperando. Cuál es la probabilidad de que Sebastián se encuentre desocupado en ese instante? Solución parte 1. Tenemos 3 estaciones, una M/M/1 (estación 1, Sebastian), una M/M/2 (estación 2, Natalia y Simon), y otra M/M/1 (estación 3, Pablo). Las tasas externas de llegada son λ1 = λ, λ2 = λ3 = 0. La matriz de ruteo es tal que P1,2 = p, P1,3 = 1 − p, P2,3 = P3,2 = r y P2,1 = P3,1 = q. Las tasas efectivas de llegada son la solución al siguiente sistema. λ̄1 = λ + q λ̄2 + q λ̄3 λ̄2 = pλ̄1 + r λ̄3 λ̄3 = (1 − p)λ̄1 + r λ̄2 Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 152 Con un poco de álgebra, obtenemos que 1−r 1−r−q p + (1 − p) r = λ (1 − r − q)(1 + r) 1 − p + pr = λ (1 − r − q)(1 + r) λ¯1 = λ λ¯2 λ¯3 Las condiciones de estado estacionario son λ̄1 < µ1 , λ̄2 < 2µ2 y λ̄3 < µ3 . Solución parte 2. Modelando esta cola como un proceso de nacimiento y muerte, tenemos que las probabilidades estacionarias estan dadas por πi = π0 2ρi i ≥ 1. Despejando el valor de π0 , tenemos que π0 = 1+ ∞ X !−1 2ρ i i=1 2 ∞ X !−1 ρ −1 i i=0 2 −1 1−ρ 1−ρ . 1+ρ −1 Conclumos que πi = 2ρi 1−ρ 1+ρ , para i ≥ 0. Solución parte 3. Notamos que el número de veces Xque un alumno en cuestión pasa por la q estaciónes 1 y 3 se distribuye geométrica con parámetro 1 − 1−r , por lo tanto, la esperanza del tiempo T que pasa este alumno en horario de consulta es E{T } = (W1 + W3 ) · E{X} = L1 L3 + λ̄1 λ̄3 q · 1− 1−r −1 , donde usamos Little para obtener los tiempos en las estaciones 1 y 3 (una pasada) y el hecho que la esperanza de una variable geométrica (que parte en 1) es el inverso del parámetro. Solución parte 4. Utilizamos el hecho que, en el largo plazo, el número de alumnos en cada estación son variables aleatorias independientes. Por lo tanto, la probabilidad que Sebastián se encuentre desocupado en el lago plazo es (desde las formulas de una M/M/1) π0 = 1 − Apunte de Cátedra λ¯1 . µ1 IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 153 Ejemplo 6.13 (Pregunta 2, Control 3, Otoño 2019) Una vez concluido el semestre, los (infinitos) alumnos del curso van de paseo a acampar a un parque nacional que tiene N zonas ubicadas alrededor del lago conectadas por un único circuito circular. Los alumnos llegan a la única boletería del parque según un proceso de Poisson de tasa λ [alumnos/minuto], donde un único vendedor tarda un tiempo de distribución exponencial de media 1/µ0 minutos en atender a cada alumno. Una vez dentro del parque, cada alumno tarda un tiempo de distribución exponencial de media 1/µ en recorrer la zona en la que se encuentra, tiempo tras el cual decide pasar a la siguiente zona del circuito con probabilidad p o abandonar el parque con probabilidad 1 − p (cada zona cuenta con su propia salida). Todo visitante parte su recorrido en la zona 1, y todo visitante que llega a la zona N abandona el parque después de recorrer dicha zona. 1. Modele la situación como una red de colas, determine las condiciones para la existencia de probabilidades estacionarias y calcúlelas. 2. En el largo plazo, cuánto tiempo pasa en promedio un alumno en el parque? Los Domingos el acceso al parque es liberado, por lo que los visitantes pueden entrar directamente a cualquiera de zona del parque (sin pasar por boletería). En este escenario, los alumnos continúan llegando al parque según un proceso de Poisson de tasa λ [alumnos/minuto], pero eligen de forma equiprobable que zona recorrer primero. Una vez dentro del parque, tras recorrer una zona, un alumno decide avanzar a la siguiente zona, retroceder a la zona anterior o abandonar el parque con igual probabilidad, independiente de las zonas que ha visitado con anterioridad (para estos efectos, los visitantes en la zona N que deciden avanzar, lo hacen a la zona 1, y los visitantes en la zona 1 que deciden retroceder, lo hacen a la zona N ). 3. Modele esta nueva situación como una red de colas, determine las condiciones para la existencia de probabilidades estacionarias y calcúlelas. 4. En el largo plazo, cuánto tiempo pasa en promedio un alumno en el parque? Solución parte 1. Tenemos N + 1 estaciones (la boletería, más cada zona). La boletería (estación 0) es una M/M/1, mientras que la zona i (estación i) es una M/M/∞. La tasas externas de llegada son λ0 = λ, y λi = 0 para todo i > 0. La matriz de ruteo es tal que P0,1 = 1, y Pi,i+1 = p, para todo i ∈ {1, . . . , N − 1}. Las tasas efectivas de llegada a cada estación son λ¯0 = λ, λ̄i = pi−1 λ, i > 0. La condición de estado estacionario es λ < µ0 . El vector de probabilidades estacionarias es: para n = (n0 , n1 ·, nN ) π(n) = (1 − ρ0 )ρn0 0 N Y ρni i i=1 donde ρi = λ̄i µi , ni ! e−ρi , con µi = µ para i > 0. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre Fenómenos de Espera 154 Solución parte 2. Utilizamos Little, y la formulas para el número promedio de gente en el sistema para una M/M/1 y una M/M/∞. Tenemos que L= N X ρ0 + ρi . 1 − ρ0 i=1 (Se puede desarrollar más usando la expresión para λ̄i , pero esta bien si lo dejan así). El resultado viene de aplicar Little: L W = . λ Solución parte 3. Ahora tenemos N estaciones, todas M/M/∞. La tasa externa de llegada a la zona i es λi = λ/N . La matriz de ruteo es tal que Pi,i+1 = Pi,i−1 = 1/3, donde se entiende que i + 1 = 0 cuando i = N , y i − 1 = N cuando i = 1. Las ecuaciones para calcular las tasas efectivas de llegadas son: λ̄1 = λ/N + 1/3λ̄2 + 1/3λ̄N , λ̄i = λ/N + 1/3λ̄i+1 + 1/3λ̄i−1 , λ̄N i ∈ {2, · · · , N − 1}, = λ/N + 1/3λ̄N −1 + 1/3λ̄1 . Razonando por simetría, tenemos que la solucion al sistema es λ̄i = 3λ/N, ∀i. El vector de probabilidades estacionarias es: para n = (n0 , n1 ·, nN ) π(n) = N Y ρni i i=1 donde ρi = λ̄i µi , ni ! e−ρi , con µi = µ para i > 0. Solución parte 4. Razonando de la misma forma que en la parte 2, tenemos que L= N X i=1 ρi = N 3λ Nµ = 3λ . µ Con lo que tenemos que W = (Una forma alternativa de ver esto es pensar que cada alumno visita en promedio 3 zonas - esperanza de una geométrica de parámetro 1/3; y que el tiempo promedio de visita a cada zona es 1/µ.) 3 µ. Apunte de Cátedra IN3272 - Decisiones Bajo Incertidumbre

Decisiones Bajo Incertidumbre: Apunte de Cátedra IN3272

Products

Support

Decisiones Bajo Incertidumbre: Apunte de Cátedra IN3272

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib