Probabilidad y Estadística: Espacios de Probabilidad

Universidad de Montevideo Facultad de Ingenierı́a PROBABILIDAD Y ESTADÍSTICA Tema 1: Espacios de Probabilidad. Pepe DIAZ (versión 7 de agosto de 2017) 1. Génesis de la Teorı́a de la Probabilidad. “El concepto de probabilidad es el más importante de la ciencia moderna, especialmente porque nadie tiene la mı́nima idea de lo que significa” Bertrand Russel (1929) 1.1. Introducción. . . . . . . . . . . . . . . . 1.2. Experimentos aleatorios. . . . . . . . . . 1.3. El espacio muestral. . . . . . . . . . . . 1.4. Sucesos . . . . . . . . . . . . . . . . . 1.5. Operaciones con sucesos. . . . . . . . . 1.6. La “definición” clásica. . . . . . . . . . 1.7. Limitaciones a la “definición” clásica. . 1.8. De “contar” a “medir”. . . . . . . . . . 1.9. Funciones de probabilidad. . . . . . . . 1.10. La familia P (Ω). . . . . . . . . . . . . 1.11. La necesidad de σ−álgebras. . . . . . . 1.12. σ−álgebras. . . . . . . . . . . . . . . . 1.13. La definición axiomática de Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 4 6 7 8 13 14 17 18 19 22 23 1.1 Introducción. En la actualidad la Teorı́a de la Probabilidad es una importante área de la matemática pura, con conceptos, procedimientos y resultados propios. Además es una herramienta, con innumerables aplicaciones, en otras ciencias y en otros campos de la misma matemática. Sin embargo, la probabilidad no siempre fue reconocida como una disciplina matemática, y se discutı́a si no se trataba de una “ciencia experimental o empı́rica” que no era parte de las “ciencias exactas o puras”. A inicios del siglo XX, muchos matemáticos se hallaban insatisfechos por la falta de claridad y rigor de algunos conceptos. Hasta la definición misma de probabilidad era cuestionada. Por ejemplo, en 1896 el matemático francés Henri Poincaré afirmó en su libro “Calcul des probabilités” que: “difı́cilmente puede uno dar una definición satisfactoria de Probabilidad” Fragmento de Calcul des probabilités (1896) Jules Henri Poincaré (1854 - 1912) En 1899 el matemático alemán David Hilbert, que siempre estuvo muy interesado en los Fundamentos de la Matemática y de la Fı́sica, publica el libro “Grundlagen der Geometrie” (Fundamentos de la Geometrı́a). En dicho tratado sustituye 1 1. Génesis de la Teorı́a de la Probabilidad. 1.1. Introducción. los tradicionales axiomas de Euclides por un conjunto de 20 axiomas[1] , y sujeto a los requisitos más estrictos del rigor matemático y por medios puramente lógicos deduce los teoremas de la geometrı́a euclı́dea elemental, remediando las falencias que existı́an en las deducciones realizadas por Euclides en sus “demostraciones”. El método axiomático presentado por Hilbert creo un precedente que cambió definitivamente la manera de fundamentar la matemática del siglo XX. David Hilbert (1862-1956) Portada de “Leçons sur la théorie des fonctions” (1898) Posteriormente, en el II Congreso Internacional de Matemática, realizado en Paris en 1900, en una de las principales conferencias, bajo el modesto tı́tulo: “Mathematische Probleme” (“Problemas matemáticos”) David Hilbert presentó una lista de 23 problemas abiertos[2] que consideraba que debı́an ocuparse los matemáticos durante el nuevo siglo que comenzaba. La lista de Hilbert constaba de importantes problemas no resueltos en Teorı́a de Números, Álgebra, Geometrı́a, Análisis, Teorı́a de Conjuntos y sobre todo en Fundamentos Axiomáticos de aquellas disciplinas que crecı́an sin una base rigurosa. En particular, dentro del sexto problema planteado, Hilbert solicitaba encontrar una base axiomática que permitiese fundamentar una teorı́a de los fenómenos aleatorios: “Las investigaciones sobre los fundamentos de la geometrı́a sugieren el problema de considerar de la misma manera, mediante axiomas, aquellas ciencias fı́sicas en donde la matemática juega un papel importante, en primer lugar la teorı́a de la probabilidad y la mecánica”. Es interesante observar que Hilbert considera a la probabilidad como parte de las ciencias fı́sicas y no como una disciplina matemática. En esa época los conceptos probabilı́sticos estaban definidos de forma imprecisa, eran ambiguos y demasiados apegados a la experiencia práctica. Además muchas resultados se deducı́an basandose en consideraciones intuitivas o empı́ricas y carecı́an de demostraciones rigurosas. Por estos motivos Hilbert le propone a los matemáticos a fines del siglo XIX realizar una fundamentación axiomática de la probabilidad. Una axiomatización similar a su construcción de la geometrı́a, que a partir de ciertas premisas minı́mas (axiomas) con el auxilio de la lógica y razonamientos formales , se puedan enunciar y demostrar las nuevas propiedades, construyendo de esta manera una teorı́a de la probabilidad. Se puede decir que el sexto problema de Hilbert, en cuanto a la probabilidad, queda resuelto recién en el año 1933, cuando el matemático ruso Andrey Kolmogórov publica un pequeño libro en alemán, llamado“Grundbegriffe der Wahrscheinlichkeitsrechnung” (“Fundamentos del cálculo de probabilidades”). Con las fundamentaciones de Kolmogorov la [1] originalmente el tratado de Hilbert tenı́a 21 axiomas, pero en 1902 el joven matemático estadounidense Robert Lee Moore, con 19 años deedad, demostró que el axioma 21 era redundante, es decir que se puede deducir de los anteriores. [2] En realidad, por falta de tiempo, Hilbert sólo pudo exponer tan sólo diez problemas, los otros trece problemas se presentaron en la versión escrita de la charla, publicada en las actas del mismo: “Sur les problèmes futures des Mathématique” , D. Hilbert, Comptes Rendus du Deuxième Congrès International des mathematiciens, Paris, p. 58-114, 1900 Facultad de Ingenierı́a - UM Pepe DIAZ 2 1. Génesis de la Teorı́a de la Probabilidad. 1.2. Experimentos aleatorios. probabilidad comienza a ser ampliamente aceptada como una teorı́a matemática. Andrey Nikolaevich Kolmogórov (1903-1987) Portada de Fundamentos del cálculo de probabilidades (1933) En su texto Kolmogórov formula un modelo matemático que es la base de una sólida teorı́a que prevalece hasta la actualidad, la llamada “Teorı́a Matemática de la Probabilidad” En las siguientes secciones se analizará el proceso que llevó a la formulación de este modelo matemático, que transformó el viejo “cálculo de probabilidades” en la moderna “teorı́a matemática de la probabilidad”. 1.2 Experimentos aleatorios. La teorı́a de la probabilidad es el área de la matemática que modela y estudia los experimentos llamados aleatorios[3] . ¿Qué entendemos por “experimento aleatorio”? Consideraremos que un experimento es “aleatorio” cuando conocemos sus resultados posibles, pero al realizar dicho experimento no sabemos exactamente cual de ellos ocurre.En otras palabras la naturaleza aleatoria del experimento impide predecir de antemano el resultado que obtendremos al llevarlo a cabo. Los juegos de azar proporcionan numerosos ejemplos de experimentos aleatorios. Uno de los ejemplos más sencillos es el lanzamiento de un dado. Los resultados posibles son seis pero al lanzar el dado no sabemos cual de los seis números saldrá. ¿Cómo se modela matemáticamente un experimento aleatorio?. Los “espacios de probabilidad” son los modelos matemáticos, creados durante el primer tercio del siglo XX por Kolmogorov, para estudiar los experimentos aleatorios. Tratemos de explicar, motivar y justificar la razón de este modelo. [3] La palabra “aleatorio” proviene de álea, dado en latı́n. Algunas frases atribuidas a Julio César (100 a. C.- 44 a. C.) se han conservado a través de los siglos y han alcalzado cierto grado de popularidad. Una de ellas es la frase en latı́n “álea jacta est” que significa literalmente “el dado fue echado” y de uso actual en español como “la suerte está echada”, que se usa frecuentemente cuando se toma una desición, de la cual no se puede retroceder, y cuyas consecuencias no dependen de uno mismo. Según el historiador romano Suetonio (70 d.C. - 130 d.C.) la frase fue pronunciada por Julio César el 10 de enero de 49 a.C. al cruzar el rı́o Rubicón con sus legionarios. Julio César sabı́a que el cruce del rı́o por sus ejércitos era un punto de no retorno, pues iniciaba la segunda guerra civil en Roma, contra Pompeyo (106 a. C.-48 a. C.) y la autoridad del Senado Romano; y “la suerte estaba echada” a partir de aquel momento. Facultad de Ingenierı́a - UM Pepe DIAZ 3 1. Génesis de la Teorı́a de la Probabilidad. 1.3. El espacio muestral. 1.3 El espacio muestral. Llamaremos espacio muestral al conjunto de todos los resultados posibles de un experimento aleatorio y lo indicaremos por Ω . A cada elemento ω del espacio muestral Ω le llamaremos punto muestral y al conjunto unitario {ω} le llamaremos suceso elemental [4] . Ilustraremos con la ayuda de algunos ejemplos los conceptos de espacio muestral y de suceso elemental. Ejemplo 1.1. El experimento aleatorio consiste en lanzar un dado y observar el número que aparece en la cara superior Como espacio muestral podemos tomar el conjunto ↔ {4} = “salió el número 4” Ω = {1, 2, 3, 4, 5, 6} donde los sucesos elementales se representan por los conjuntos {i} = “salió el número i” i = 1, 2, 3, 4, 5, 6 Ejemplo 1.2. El experimento aleatorio consiste en arrojar tres veces una moneda y observar los resultados obtenidos. Si indicamos por c a “cara” y por x a “cruz”, podemos tomar como espacio muestral el conjunto Ω = {ccc, xcc, ccx, cxc, xcx, cxx, xxc, xxx} (moneda de oro del emperador Theophilos, Imperio Bizantino, 829-831) donde los sucesos elementales están representados por los conjuntos {ccc} = “salieron tres caras” {xcc} = “primero salió cruz y luego dos caras” .. . {xxx} = “salieron tres cruces” Si en lugar de estar interezados en las secuencias de caras y cruces que salen al realizar el experimento, nos intereza el número de caras, podemos considerar otro espacio muestral asociado al mismo experimento Ω = {0, 1, 2, 3} [4] Ω es la letra griega omega mayúscula, ω es la letra griega omega minúscula. ———————– Es importante notar la difererencia entre ω y {ω}, mientras ω es un elemento de Ω, y se expresa ω ∈ Ω, por otro lado {ω} es un subconjunto de Ω, y se expresa {ω} ⊆ Ω . En otras palabras {ω} es el conjunto formado por el elemento ω. Facultad de Ingenierı́a - UM Pepe DIAZ 4 1. Génesis de la Teorı́a de la Probabilidad. 1.3. El espacio muestral. donde los sucesos elementales están representados por los conjuntos {i} = “se obtienen i caras en los tres lanzamientos” i = 0, 1, 2, 3 Ejemplo 1.3. Si se lanza un dado hasta obtener un seis, y estamos interesados en la cantidad de lanzamientos, como espacio muestral podemos tomar el conjunto Ω = {1, 2, 3, . . .} = N donde los sucesos elementales son {n} = “el dado se lanzó n veces hasta obtener el primer seis” n = 1, 2, 3, . . . por ejemplo ↔ {8} = “el dado se lanzó 8 veces hasta obtener el primer seis” Ejemplo 1.4. Se dispara, al azar, sobre un blanco que está formado por 3 cı́rculos concéntricos de radios 1,2 y 3, respectivamente. (No se toman en cuenta los impactos fuera del blanco). Como espacio muestral podemos tomar el conjunto Ω = (x, y) ∈ R2 : x2 + y 2 ≤ 9 donde los sucesos elementales son los puntos del plano {(x, y)} = “se alcanzó el punto (x, y) ” Facultad de Ingenierı́a - UM Pepe DIAZ con x2 + y 2 ≤ 9 5 1. Génesis de la Teorı́a de la Probabilidad. 1.4. Sucesos 1.4 Sucesos Un suceso es un resultado particular de un experimento aleatorio. En términos de conjuntos, un suceso es un subconjunto del espacio muestral Ω [5] Ejemplo 1.5. En el ejemplo 1.1, donde se lanza un dado y se observa el número que aparece en la cara superior, nos pueden interesar sucesos como A = “sacar un número par” = {2, 4, 6} B = “sacar un múltiplo de tres” = {3, 6} C = “sacar un número menor que 3” = {1, 2} que son subconjuntos del espacio muestral Ω = {1, 2, 3, 4, 5, 6} En general, al realizar un experimento aleatorio, sólo puede ocurrir un suceso elemental {ω}, pero muchos sucesos no elementales ocurren al mismo tiempo: todos los sucesos no elementales que contienen a ω. En el ejemplo anterior si ocurre {4} (“salió el número 4”) entonces ocurre el suceso no elemental A = {2, 4, 6} (“salió un número par”), pues 4 ∈ A y cualquier otro suceso que contenga a 4 En otras palabras, un suceso no elemental A ocurre si al realizar el experimento aleatorio ocurre un suceso elemental {ω} con ω ∈ A. Ejemplo 1.6. En el ejemplo 1.2, nos pueden interesar sucesos como A = “obtener por lo menos una cara” = {ccc, ccx, cxc, xcc, cxx, xcx, xxc} B = “obtener dos caras” = {ccx, cxc, xcc} C = “no sacar caras” = {xxx} que son subconjuntos del espacio muestral Ω = {ccc, ccx, cxc, xcc, cxx, xcx, xxc, xxx} Observación 1.1. El espacio muestral Ω también es considerado como un suceso (suceso que contiene todos los resultados posibles) y es llamado el suceso seguro, ya que ocurre siempre. También el conjunto vacı́o ∅ es considerado como un suceso (suceso que no contiene ningún resultado posible ) y es llamado el suceso imposible. [5] En este punto en particular estamos siendo poco rigurosos, si bien es cierto que un suceso es un subconjunto del espacio muestral Ω, no siempre es cierto que cualquier subconjunto de Ω es un suceso. En efecto cuando Ω tiene infinitos elementos pueden existir subconjuntos de Ω que no pueden ser considerados como sucesos. La definición correcta de suceso es otra. Siendo más precisos, los sucesos son subconjuntos de Ω que pertencen a una familia de conjuntos que cumple determinadas propiedades que más tarde detallaremos. En términos más intuitivos los sucesos son los subconjuntos de Ω a los cuales se les puede calcular la probabilidad que estamos considerando en nuestro experimento, y a los subconjuntos de Ω a los cuales no se le puede calcular tal probabilidad no serán sucesos. Al ir avanzando en la presentación, veremos más detalles e iremos explicando mejor estos comentarios. Facultad de Ingenierı́a - UM Pepe DIAZ 6 1. Génesis de la Teorı́a de la Probabilidad. 1.5. Operaciones con sucesos. 1.5 Operaciones con sucesos. Si bien en las aplicaciones el espacio muestral Ω se interpreta como el conjunto de resultados posibles de un experimento aleatorio, en el modelo teórico el espacio muestral Ω será simplemente un conjunto no vacı́o (sin necesidad de ninguna otra condición o interpretación). Esto constituye un hecho fundamental en la formalización teórica, pues permite la incorporación de la teorı́a de conjuntos en el modelo matemático de la probabilidad. De esta manera, como los sucesos son conjuntos las conocidas operaciones entre conjuntos se pueden interpretar como “operaciones entre sucesos” Dados dos sucesos A y B, podemos realizar las siguientes operaciones: Unión de sucesos. El suceso A ∪ B está formado por los resultados del suceso A y los resultados del suceso B. y tiene la siguiente interpretación: A ∪ B = “o bien ocurre A o bien ocurre B o bien ocurren ambos a la vez” = “ocurre por lo menos uno de los sucesos A o B” Interseción de sucesos. El suceso A ∩ B está formado por los resultados comunes de A y B. y tiene la siguiente interpretación: A ∩ B = “ocurre A y ocurre B” (simultáneamente) En ocasiones podremos encontrarnos con sucesos que no tengan elementos en común, es decir que A ∩ B 6= ∅ En estos casos se dice que los sucesos A y B son disjuntos ( o incompatibles, o mutuamente excluyentes) Complemento. El suceso Ac (“complemeto de A”) está formado por los resultados de Ω que no pertenecen al suceso A es decir Ac = “no ocurre A” Facultad de Ingenierı́a - UM Pepe DIAZ 7 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. Combinando las operaciones básicas anteriores se tienen nuevas operaciones: Diferencia de sucesos. El suceso diferencia se define como def A \ B = A ∩ Bc y tiene la siguiente interpretación: A \ B = “ocurre A y no ocurre B” Diferencia simétrica de sucesos. El suceso diferencia simétrica se define como def A4B = (A − B) ∪ (B − A) = (A ∩ B c ) ∪ (B ∩ Ac ) y tiene la siguiente interpretación: A4B = “ (ocurre A y no ocurre B) o (no ocurre A y ocurre B) ” = “o bien ocurre A o bien ocurre B pero no ocurren ambos a la vez” 1.6 La “definición” clásica. En 1812, el matemático francés Pierre-Simon de Laplace publica un tratado de 464 páginas, dividido en dos libros, titulado “Théorie Analytique de Probabilitiés”.[6] En esta extensa obra Laplace recopila, en forma ordenada y sistemática, todo el conocimiento que se tenı́a hasta ese momento sobre el “cálculo de probabilidades”, junto con importantes aportes propios. Es el primer intento de formalizar una teorı́a de la probabilidad. Laplace formula siete “principios generales”. El primero de estos principios es una tentativa de definición de probabilidad, que se conoce como la “definición” clásica. “El primer principio es la misma definición de probabilidad, que, como hemos visto, es la relación entre el número de casos favorables y la de todos los casos posibles. Pero esto supone los diversos casos igualmente posibles” Pierre-Simon Laplace (1749 - 1827) Fragmento de Théorie Analytique de Probabilitiés (1812) [6] Que en ediciones posteriores será ampliado a 506 páginas bajo el tı́tulo “Essai Philosophique sur les Probabilités”. Facultad de Ingenierı́a - UM Pepe DIAZ 8 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. La definición clásica, errónea e injustamente, se conoce como “definición de Laplace o laplaciana”, pues se le suele atribuir a Laplace, debido a que la estableció formalmente y le dió amplia divulgación a travez de su obra, donde la enunció como su “primer principio”. Sin embargo, el pionero en formular la “definición” clásica fue el matemático suizo Jacob Bernoulli en su obra póstuma “Ars Conjectandi” publicada en latı́n en 1713, algunos años después de su muerte. Habiendo considerado previamente un total de a casos posibles divididos en dos grupos, con b y c casos respectivamente, es decir a = b + c, en la pag.31 de su obra Bernoulli considera la “suerte” (o probabilidad) como un cociente, que lo indetificamos con la “definición” clásica, casi 100 años antes de que la formulara Laplace “Si quiere alcanzar el destino en el primer intento, su suerte, como hemos visto, es a−c = ab ” a Jacob Bernoulli (1654 - 1705) Fragmento de Ars conjectandi (1713) Posteriormente, nos encontramos con la “definición” clásica en la introducción del artı́culo “The Doctrine of Chances” del matemático francés De Moivre publicado en inglés[7] en 1718 “...si constituimos una fracción donde el numerador es el número de posibilidades por el que un evento puede ocurrir, y el denominador el número de todas las posibilidades por el cual puede o pasar o fallar,esa fracción será una designación apropiada de la probabilidad de que ocurra Abraham De Moivre (1654 - 1705) Fragmento de The Doctrine of Chances (1718) En el contexto de nuestro curso, podemos reformular la “definición” clásica de la siguiente manera Si realizamos un experimento aleatorio en el que hay una cantidad finita de resultados posibles, todos igualmente probables, entonces si A es un suceso, la probabilidad de que ocurra el suceso A es: P (A) = “casos favorables al suceso A” “casos posibles del experimento aleatorio” (“definición” clásica) (1.-2) [7] De Moivre estaba exiliado en Inglaterra por motivos religiosos. Facultad de Ingenierı́a - UM Pepe DIAZ 9 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. Escribimos entre comillas la palabra definición, pues en realidad no puede considerarse como una definición en una teorı́a matemática. Más adelante indicaremos las deficiencias y limitaciones de está “definición” (ver página 13). Sin embargo es indiscutible su utilidad práctica. Muchos de los problemas históricos se resolvieron aplicando la “definición” clásica. A continuación, a pesar de no tener una definición razonble, a partir de la “definición” clásica vamos a resolver unos ejemplos sencillos. Esto nos permitirá enteder y descubrir las propiedades que caracterizan a las probabilidades observadas en estos ejemplos. Paso fudamental para poder llegar a una correcta definición de probabilidad, que incluya, como caso particular, a la “definición” clásica. Tener presente que los cálculos, en muchos probelmas prácticos, realizados con la “definición” clásica son correctos; pues la definción clasica será un modelo particualr, un “ejemplo”, en la teorı́a que vamos a desarrollar. Lo que es incorrecto es tomar este “ejemplo” como una definición general. Ejemplo 1.7. Se lanza un dado. (a) ¿Cuál es la probabilidad de obtener un número par? (b) ¿Cuál es la probabilidad de obtener un número múltiplo de tres? (c) ¿Cuál es la probabilidad de obtener un número par y menor que 5? El espacio muestral Ω = {1, 2, 3, 4, 5, 6} (a) siendo A = “sacar un número par” = {2, 4, 6} la probabilidad es P(A) = 3 1 = 6 2 (b) siendo B = “sacar un múltiplo de tres” = {3, 6} la probabilidad es P(B) = 2 1 = 6 3 (c) siendo C = “sacar un número par y menor que 5” = {2, 4} la probabilidad es P(C) = 1 2 = 6 3 Veamos, para finalizar esta sección, algunos ejemplos históricos, donde la aplicación de la “definición” clásica, cuando no es posible, nos conduce a conclusiones erradas. Errores que son tı́picos entre quienes se inician en el estudio de la probabilidad. Ejemplo 1.8. Galileo y el problema del duque de Toscana. Aproximadamente entre 1612 y 1624, Galileo escribió un tratado “Sopre le Scoperte dei dadi” (“Sobre los descubrimientos del dado”) [8] que contiene una respuesta a un problema asociado al juego de dados llamado “pasadiez”. Este juego consiste en lanzar 3 dados, y el jugador gana si la suma es superior a diez y pierde en caso contrario. Es un buen ejercicio probar que este juego es “justo” (equitativo), es decir, las probabilidades de perder y de ganar Facultad de Ingenierı́a - UM Pepe DIAZ 10 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. son iguales. Cosimo II de Médicile (1590-1621) Galileo Galilei (1564-1642) Pero habı́a un hecho que extrañaba al Gran Duque de Toscana Cosimo II de Médici. Luego de jugar muchas partidas, cada vez que perdı́a, observó que el 10 salı́a con más frecuencia que el 9, y no entendı́a por qué, ya que hay la misma cantidad de casos posibles en cada suma: las seis maneras de obtener suma 9 las seis maneras de obtener suma 10 Si hay 6 maneras en ambos casos,¿por qué no se obsevan con la misma frecuencia?. El duque consultó el problema a Galileo, quien encontró el error en el razonamiento del duque y dió la solución correcta. Galilelo observó que los sucesos considerados por el duque no son “igualmente probables”. Por ejemplo para obtener 9 si sale 3 en los tres dados hay una sola posibilidad: 3 + 3 + 3, mientras que obtener 10 si sale un 4 y dos 3 hay tres posibilidades: 3 + 3 + 4 = 3 + 4 + 3 = 4 + 3 + 3 (una manera de visualizar este hecho es pensar que se tiene dados de distintos colores) dos sucesos no equiprobables suma 9 suma 10 {3, 3, 3} cuatro sucesos equiprobables suma 10 suma 9 {3, 3, 4} (3, 3, 3) (3, 3, 4) , (3, 4, 3) , (4, 3, 3) los sucesos elementales son subconjuntos de tres elementos los sucesos elementales son ternas ordenadas de elementos (para el Duque de Toscana) (para Galileo) Luego, para Galileo, los casos favorables al suceso “la suma es nueve” son las siguientes 25 ternas ordenadas (1, 2, 6) (1, 6, 2) (2, 1, 6) (2, 6, 1) (6, 1, 2) (6, 2, 1) Facultad de Ingenierı́a - UM (1, 3, 5) (1, 5, 3) (3, 1, 5) (3, 5, 1) (5, 1, 3) (5, 3, 1) (2, 2, 5) (2, 5, 2) (5, 2, 2) (1, 4, 4) (4, 1, 4) (4, 4, 1) Pepe DIAZ (2, 3, 4) (2, 4, 3) (3, 2, 4) (3, 4, 2) (4, 2, 3) (4, 3, 2) (3, 3, 3) 11 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. y los casos favorables a “la suma es diez” son 27 ternas ordenadas (1, 3, 6) (1, 6, 3) (3, 1, 6) (3, 6, 1) (6, 1, 3) (6, 3, 1) (1, 4, 5) (1, 5, 4) (4, 1, 5) (4, 5, 1) (5, 1, 4) (5, 4, 1) (2, 2, 6) (2, 6, 2) (6, 2, 2) (2, 3, 5) (2, 5, 3) (3, 2, 5) (3, 5, 2) (5, 2, 3) (5, 3, 2) (2, 4, 4) (4, 2, 4) (4, 4, 2) (3, 3, 4) (3, 4, 3) (4, 3, 3) Como la cantidad de resultados posibles (ternas ordenadas) son 6 × 6 × 6 = 216, las probabilidades respectivas resultan ser[9] : 27 25 y P (“la suma es 10”) = P (“la suma es 9”) = 216 216 Ejemplo 1.9. El error de D’Alembert. ¿Cuál es la probabilidad de que salga cara por lo menos una vez cuando se lanzan dos monedas?. En 1754 el célebre matemático francés D’Alembert analizó el problema diciendo que existı́an tres casos posibilidades: una cara. dos caras ninguna cara Jean le Rond D’Alembert (1717-1783) de los cuales dos son favorables, y por consiguiente la probabilidad buscada es 23 . Nuevamente, al igual que el ejemplo anterior, se comete el error de considerar sucesos como equiprobables cuando en realidad no lo son. El suceso “una cara” tiene dos “maneras” de ocurrir, mientras que los otros dos ocurren de una sola “manera” y por lo tanto no son equiprobables. La afirmación anterior resulta clara si lanzamos una moneda tras otra y no simultáneamente una cara una cara dos caras ninguna cara primer lanzamiento segundo lanzamiento ro si las monedas son distinguibles, por ejemplo, podemos pensar que se tienen monedas acuñadas en metales [8] Este ensayo, en la colección de obras de Galileo publicadas en 1718, aparece bajo el tı́tulo “Consideratione sopra il Giuco dei Dadi” (“Consideraciones sobre el juego de los dados”) [9] Como la diferencia entre las probabilidades es mı́nima, el juego “pasa diez”, más que un juego debió ser un vicio para el duque, pues sólo jugando muchas veces se puede percibir tal diferencia. Facultad de Ingenierı́a - UM Pepe DIAZ 12 1. Génesis de la Teorı́a de la Probabilidad. 1.7. Limitaciones a la “definición” clásica. distintos una cara dos caras ninguna cara El análisis correcto es observar que hay 4 casos posibles y “ocurre cara por lo menos una vez” en 3 de estos casos, por lo tanto la probabilidad buscada es 34 . Es sorprendente que D’Alembert no haya intententado realizar una verificación experimental, pues basta con lanzar las monedas unas cuantos veces para darse cuenta que sus tres resultados posibles no ocurren con igual frecuencia. 1.7 Limitaciones a la “definición” clásica. Uno de los problemas fundamentales para desarrollar una teorı́a matemática de la probabilidad fue, durante varios siglos, la definicón misma de probabilidad. Desde un punto de vista teórico la “definición” clásica dada en (1.6) no puede considerarse como una definición, pues introduce el término a definir en el enunciado de la misma definición: ¿qué sentido tiene la frase “igualmente probables” cuando todavı́a no se dió la definición de probabilidad? Por lo tanto, la teorı́a de la probabilidad que se estaba desarrollando a partir de esta “definición” no era aceptable y no se consideraba como parte de la matemática. Era necesirio encontrar una definición satisfactoria de probabilidad. También desde un punto de vista práctico la “definición” clásica tiene sentido en experimentos con una cantidad finita de resultados posibles los cuales tienen la misma probabilidad de ocurrir (“equiprobabilidad”). Es decir que la “definición” clásica no es aplicable, en muchas situaciones de interés, donde no hay equiprobabilidad de los sucesos elementales. Lo mismo ocurre si espacio muestral es infinito. Ilustramos estas situaciones con los siguientes ejemplos. Ejemplo 1.10. Si se arroja una moneda tres veces. Modelamos el espacio muestral con el conjunto (donde c = “cara” y x =“cruz”) Ω = {ccc, ccx, cxc, xcc, cxx, xcx, xxc, xxx} luego si consideramos los sucesos A = “obtener tres caras” = {ccc} y B = “obtener tres cruces” = {xxx} y aplicamos la “definición” clásica, resulta que los sucesos tienen la misma probabilidad P(A) = P(B) = Facultad de Ingenierı́a - UM Pepe DIAZ 1 8 13 1. Génesis de la Teorı́a de la Probabilidad. 1.8. De “contar” a “medir”. Pero si la moneda está “cargado” de tal manera que “salir cara” es bastante más probable que “salir cruz” (no hay equiprobabilidad) no parece razonable que P(A) = P(B) !!!!!!! es más creı́ble que[10] P(A) > P(B) Ejemplo 1.11. En el ejemplo 1.4 los disparos que impactan en el cı́rculo interior valen 100 puntos, los que impactan en el anillo interior valen 10 puntos y los que impactan el anillo exterior valen 1 punto el espacio muestral Ω Si se lanza el dardo al azar (es decir sin apuntar al blanco) ¿Cuál es la probabilidad de obtener 100 puntos?. (No se toman en cuenta los impactos fuera del blanco). Modelamos el espacio muestral con el conjunto (infinito no numerable) Ω = (x, y) ∈ R2 : x2 + y 2 ≤ 9 y consideramos el suceso A = “obtener 100 puntos” = (x, y) ∈ Ω : x2 + y 2 ≤ 1 Aquı́ no tiene sentido plantear “casos favorables al suceso A” = “casos posibles del experimento aleatorio” “cantidad de elementos del suceso A” ∞ = = =??????? “cantidad de elementos de Ω” ∞ P (A) = 1.8 De “contar” a “medir”. Desde sus inicios y durante muchos años el “cálculo deprobabilidades” se circunscribió a problemas relacionados con los juegos de azar, y en tal contexto, las probabilidades de los sucesos se obtenı́an sencillamente contando los resultados posibles y favorables. Pero en problemas como el del ejemplo 1.11 ya que no podemos “contar” (hay infinitas posibilidades), sino que es necesario “medir”. [10] Por ejemplo, si la moneda está “cargado” de tal manera que la probabilidad de obtener “cara” es el doble de la probailidad de obtener 2 1 y la probabilidad de “cruz” es ), veremos más adelante, luego de dar una correcta definición 3 3 de probabilidad y usando el concepto de “independencia” que lo razonable es 3 3 2 8 1 1 P(A) = = y P(B) = = 3 27 3 27 “cruz” (es decir la probailidad de “cara” es Facultad de Ingenierı́a - UM Pepe DIAZ 14 1. Génesis de la Teorı́a de la Probabilidad. 1.8. De “contar” a “medir”. Ejemplo 1.12. Continuando con el ejemplo 1.11 anterior, dado que el dardo se lanza al azar, es decir sin apuntar al blanco, es razonable suponer que cuanto “más grande” es un suceso es más probable que ocurra y cuanto “más pequeño” es menos probable. Es decir que que la probabilidad de un suceso depende únicamente de su área y no de su “forma” y “ubicación” en el blanco. En este contexto “equiprobabilidad” significa igual área. Es ası́ que una respuesta razonable a nuestro problema es P (A) = π 1 área (A) = = área (Ω) 9π 9 área (A) = π A = (x, y) ∈ Ω : x2 + y 2 ≤ 1 = “obtener 100 punos” área (Ω) = 9π Ω = (x, y) ∈ R2 : x2 + y 2 ≤ 9 Estas probabilidades que se resolvieron “midiendo” longitudes, áreas o volúmenes se llamaron históricamente “probabilidades geométricas” Uno de los primeros antecedentes de probabilidades geométricas, que se ha convertido con el tiempo en una referencia clásica, es el problema conocido como “la aguja de Buffon”. El problema fue propuesto en 1733 por el naturalista francés Georges Louis Leclerc, nombrado Conde de Buffon por Luis XV. Si bien en su juventud tuvo inclinación por la matemática, el Conde de Buffon se distinguió en la biologı́a. Autor de la famosa “Histoire Naturelle”, una monumental obra de 44 volúmenes[11] donde presentó sus teorı́as y recopiló el conocimiento cientı́fico sobre el mundo natural de su época.[12] Georges Louis Leclerc Conde de Buffon (1708-1788) Portada del Suplemento, volumen IV, Historia Natural (1777) [11] La primera publicación se realizó en 1749, y en el lapso de treinta y nueve años hasta su muerte, publicó treinta y seis volúmenes, mientras que los ocho volúmenes finales aparecieron tras su muerte. [12] Las ideas del Conde de Buffon, y la del otro gran naturalista de su siglo, el sueco Carl Nilsson Linneo (1707-1778), influyeron sobre las siguientes generaciones de naturalistas, en particular sobre los franceses Jean-Baptiste Lamarck (1744-1829) y Georges Cuvier (1769-1832) y el inglés Charles Darwin (1809-1882). Facultad de Ingenierı́a - UM Pepe DIAZ 15 1. Génesis de la Teorı́a de la Probabilidad. 1.8. De “contar” a “medir”. Pero el Conde de Buffon no abandonó nunca su interés por la matemática. Es ası́ que el Suplemento, volumen IV, de su Historia Natural, publicado en 1777 contiene su “Essai d’Aritmétique Morale” , en el cual se encuentra la solución de su famoso problema.[13] Dibujo realizado por buffon en su solución (pag. 101 Essai d’Aritmétique Morale) Ejemplo 1.13. La aguja de Buffon. Sobre un plano que está rayado por rectas paralelas, equidistantes entre sı́ a una distancia de 2a, lanzamos al azar una aguja de longitud 2l (l < a). ¿Cuál es la probabilidad de que la aguja corte alguna de las paralelas? La solución presentada por el Conde de Buffon es la siguiente. Sea x la distancia del centro de la aguja a la paralela más próxima y θ el ángulo que la aguja forma con dicha paralela [13] Este suplemento también continene un intersante trabajo estadı́stico, donde el Conde de Buffon elabora una serie de “tablas de mortalidad”, en las que registra las edades en las que morı́a la gente de Parı́s y sus alrededores, y calculó las expectativas de vida de esta población.. Facultad de Ingenierı́a - UM Pepe DIAZ 16 1. Génesis de la Teorı́a de la Probabilidad. 1.9. Funciones de probabilidad. Al lanzar la aguja al azar la distancia x puede tomar cualquier valor en [0, a] y el ángulo θ puede tomar cualquier valor en [0, π]. Ası́ el rectángulo Ω = [0, π] × [0, a] representa todas las posibles posiciones de la aguja al ser lanzada respecto a su paralela más próxima. La aguja cortará a la paralela más próxima sólo si la distancia del centro de la aguja a dicha paralela es menor o igual que la proyección de la mitad de su longitud: x ≤ l sin θ es decir que la aguja cortará a la paralela más próxima si ocurre el suceso A = {(θ, x) ∈ Ω : x ≤ l sin θ} con lo cual Zπ (l sin θ) dθ área (A) P(A) = = área (Ω) 0 aπ = 2l aπ La “probabilidad geométrica” fue una extensión de la “definición” clásica en donde ahora la probabilidad de un suceso ya no se calcula a través de su cardinal sino mediante la determinación de su longitud, área, volumen o alguna “medida” que da una idea del “tamaño” del suceso. 1.9 Funciones de probabilidad. Siguiendo con el desarrollo teórico, nos preguntamos ¿qué es una probabilidad?. Si analizamos los ejemplos anteriores (o cualquier otro experimento aleatorio) al calcular una probabilidad a un suceso siempre le asignamos, ya sea “contando” elementos o “midiendo” longitudes, áreas o volúmenes, un número. Dicho número indica el grado de confianza que tenemos sobre la ocurrencia de dicho suceso. Ejemplo 1.14. Se lanza dos monedas, una de 10 y otra de 5 pesos. Si consideramos el suceso A =“salen dos escudos”, es razonable que P(A) = Facultad de Ingenierı́a - UM 1 4 Pepe DIAZ 17 1.10. La familia P (Ω). 1. Génesis de la Teorı́a de la Probabilidad. En matemática, el concepto de función aparece como el “mecanismo” de asignar números a un conjunto. Por lo tanto una manera de formalizar el concepto de probabilidad será con el concepto de función. En concreto una probabilidad P será una función con un dominio en “una familia A de sucesos” y cuyo codominio son los números reales R: P :A → R Pero para formalizar esta idea tenemos que precisar con mas detalle: el dominio de nuestra función de probabilidad, es decir ¿que cosa es “una familia A de sucesos”? y si bien es claro que la función P (probabilidad) será distinta en cada aplicación, ¿qué propiedades básicas tienen en común estas funciones (probabilidades) que las caracterizan como tales? 1.10 La familia P (Ω). Recordemos que la familia[14] de partes de Ω, denotada por P (Ω), es un conjunto cuyos elementos son todos los subconjuntos posibles de Ω. Por ejemplo, Ejemplo 1.15. Si Ω = {a, b, c} entonces la familia de todos los subconjuntos de Ω es[15]   =Ω    z }| { P (Ω) = ∅, {a} , {b} , {c} , {a, b} , {a, c} , {b, c} , {a, b, c}     (Recordar que de acuerdo con la Teorı́a de Conjuntos el conjunto vacı́o siempre es un subconjunto de cualquier conjunto, esto es, ∅ ⊆ Ω para cualquier conjunto Ω). Ejemplo 1.16. Si lanza una moneda y el espacio muestral es Ω = {c, x} (donde c = “cara” y x =“cruz”) la familia de todos los sucesos es   =Ω    z }| { P (Ω) = ∅, {c} , {x} , {c, c}     [14] Se llama familia a un conjunto cuyos elementos son conjuntos. [15] Tener presente la diferencia entre a y {a}. Mientras a es un elemento de Ω, y se expresa a ∈ Ω, por otro lado {a} es el conjunto formado por el elemento a, es decir que {a} es un subconjunto de Ω, y se expresa {a} ⊆ Ω. Facultad de Ingenierı́a - UM Pepe DIAZ 18 1. Génesis de la Teorı́a de la Probabilidad. 1.11. La necesidad de σ−álgebras. Ejemplo 1.17. Si se lanza una dado y el espacio muestral es Ω = {1, 2, 3, 4, 5, 6} la familia de todos los sucesos es ∅, {1}, {2}, {3}, {4}, {5}, {6}, {1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}, {2, 3}, {2, 4}, {2, 5}, {2, 6}, {3, 4} P (Ω) = {3, 5}, {3, 6}, {4, 5}, {4, 6}, {5, 6}, {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 2, 6}, {1, 3, 4}, {1, 3, 5}, {1, 3, 6} {1, 4, 5}, {1, 4, 6}, {1, 5, 6}, {2, 3, 4}, {2, 3, 5}, {2, 3, 6}, {2, 4, 5}, {2, 4, 6}, {2, 5, 6}, {3, 4, 5}, {3, 4, 6} {3, 5, 6}, {4, 5, 6}, {3, 4, 5, 6} , {2, 4, 5, 6} , {2, 3, 5, 6} , {2, 3, 4, 6} , {2, 3, 4, 5} , {1, 4, 5, 6} , {1, 3, 5, 6} , {1, 3, 4, 6} , {1, 3, 4, 5} , {1, 3, 5, 6} , {1, 2, 4, 6} , {1, 2, 4, 5} , {1, 2, 3, 6} , {1, 2, 3, 5} , {1, 2, 3, 4} {2, 3, 4, 5, 6} , {1, 3, 4, 5, 6} , {1, 2, 4, 5, 6} , {1, 2, 3, 5, 6} , {1, 2, 3, 4, 6} , {1, 2, 3, 4, 5} , Ω En un principio, parece razonable considerar como dominio de nuestras funciones de probabilidad a la familia P (Ω) de todos los sucesos Pero, como veremos en la siguiente sección, esto no será siempre posible. 1.11 La necesidad de σ−álgebras. Cuando el espacio muestral Ω es infinito no numerable no siempre puede considerarse a la familia P (Ω) como dominio de algunas funciones de probabilidad. En efecto, en el año 1904, unos de los creadores de la Teorı́a de la Medida e Integración, el matemático francés Henri Facultad de Ingenierı́a - UM Pepe DIAZ 19 1. Génesis de la Teorı́a de la Probabilidad. 1.11. La necesidad de σ−álgebras. Lebesgue planteó en su libro “Leçons sur l’integration” el llamado “problema de la medida” Henri Léon Lebesgue (1875-1941) Portada de Leçons sur l’integration (1904) que podemos reformularlo en el contexto que estamos estudiando de la siguiente manera: Ejemplo 1.18. Consideremos el experimento aleatorio que consistente en la elección al azar de un punto en el intervalo [0, 1]. Podemos considerar como espacio muestral Ω al propio intervalo [0, 1], donde los sucesos elementales son {x} = “se obtiene el número x ∈ [0, 1] ” y considerar a cada subconjunto A ⊆ [0, 1] como un suceso, en el sentido que “ocurre A” = “se obtiene un número x ∈ A” Es decir que el dominio de la probabilidad que queremos definir es la familia P ([0, 1]) de todos los subconjuntos de [0, 1]. La condición de que la elección del número se realiza al azar determina que la probabilidad se distribuye uniformemente en todo el intervalo [0, 1], en el sentido que la probabilidad de un suceso dependará exclusivamente de su “tamaño”[16] y no de su posición dentro del intervalo [0, 1][17] . Un modelo razonable es la siguiente función de probabilidad: P :P ([0, 1]) → R tal que def P (A) = longitud(A) Facultad de Ingenierı́a - UM Pepe DIAZ (1.-2) 20 1. Génesis de la Teorı́a de la Probabilidad. De esta manera siendo 1.11. La necesidad de σ−álgebras. 1 1 0, = “obtener un número menor o igual a ” 2 2 podemos calcular probabilidad 1 1 1 P 0, = longitud 0, = 2 2 2 y siendo 1 1 , 1 = “obtener un número mayor a ” 3 3 la probabilidad será P Y si consideramos el suceso 1 1 2 ,1 = longitud ,1 = 3 3 3 1 1 = “obtener ” 2 2 entonces P 1 1 = longitud =0 2 2 Pero si nos propononemos sucesos “más complicados” , ¿cómo calculamos la probabilidad?, es decir, ¿cómo medimos la longitud de estos conjuntos?. Peor aún, existe tal probabilidad, es decir ¿es posible extender la noción de longitud a cualquier subconjunto de [0, 1]? ¿P (A) = longitud(A) tiene sentido para cualquier subconjunto A ⊆ [0, 1] ? Este es el problema (fórmulado de otra manera) que inquietaba a Lebesgue. Sin entrar en los detalles técnicos, en 1905 el matemático italiano Giuseppe Vitali en su artı́culo “Sul problema della misura dei gruppi di punti di una retta” dió un ejemplo donde muestra que existen subconjuntos en [0, 1] que no se les puede calcular la longitud. Giuseppe Vitali (1875 - 1932) El modelo (1.18) del ejemplo anterior no tiene sentido, pues no es posible definir la función de probabilidad sobre todos los subconjuntos de [0, 1]. Por lo tanto si queremos modelar el experimento aleatorio donde se elije un punto al azar en el intervalo [0, 1], de tal modo que la probabilidad de un suceso sea la longitud del mismo, no podemos definirla sobre todos los subconjuntos de [0, 1] . [17] Intuitivamente, cuanto “más grande” es un suceso es más probable que ocurra y cuanto “más pequeño” es menos probable. [17] Intuitivamente, un suceso y una traslación del mismo deberán tener la misma probabilidad. Facultad de Ingenierı́a - UM Pepe DIAZ 21 1. Génesis de la Teorı́a de la Probabilidad. 1.12. σ−álgebras. Es ası́, que en muchas situaciones cuando Ω es infinto no numerable, la familia P (Ω) es “muy grande”. Para solucionar este problema debemos modificar el dominio de la función de probabilidad, tenemos que restringirnos una familia A “más pequeña” de sucesos, a los cuales les podemos calcular la probabilidad.[18] En la práctica, dado un experimento aleatorio raramente se tiene interés en todos los posibles subconjuntos de Ω, lo habitual es estar interesados en unos pocos sucesos. En términos intuitivos la familia A debe ser lo “suficientmente grande” de modo que contenga a los sucesos que son interés en las aplicaciones y lo “suficientemente pequeña” de modo que no tenga encuenta aquellos conjuntos que no se puede “medir” con la probabilidad, y que no interesan prácticamente. Tales familias de subconjuntos se llaman σ-álgebras y los presentaremos en la próima sección. 1.12 σ−álgebras. Por lo visto en la sección anterior estamos interesados en familias A de subconjuntos de Ω sin la necesidad de que en A estén todos los subconjuntos de Ω. La familia A de subconjuntos de Ω serán nuestros sucesos, es decir aquellos subconjunto de Ω que queremos “medir” en algun sentido (asignarle una probabilidad). Vimos en las secciones precedentes que nos intersa operar con sucesos (sección 1.5, página 7) por lo tanto. parece razonable pedir que nuestra familia A debe ser cerrada frente a estas operaciones. Esto nos lleva al concepto de σ-álgebra. Definición 1.1 Sea Ω un conjunto no vacı́o. Una familia A de subconjuntos de Ω se dice una σ−álgebra en Ω si: (S1) Ω ∈ A (S2) Si A ∈ A ⇒ Ac ∈ A ∞ S (S3) Si An ∈ A ∀n ⇒ An ∈ A n=1 [18] La solución al “problema de la medida” la proporcionó el propio Lebesgue. Considero una familia de conjuntos B mı́nima (en el sentido de la inclusión) que contiene a todos los intervalos y a todos los conjuntos que se obtinen como uniones numerables, intersecciones numerables y complemeto de elementos de esta familia. Lebesgue llamó a esta familia “colección de conjuntos de Borel o boreleanos” en honor a su maestro. Un conjunto se dice nulo cuando tiene medida nula, y un conjunto se dice despreciable si está contenido estrictamente en un conjunto nulo. Cuando todos los conjuntos despreciables se pueden medir (y por lo tanto tienen medida nula) la medida que se esta considerando se dice completa. Lebesgue definió una medida, hoy llamada medida de Lebesgue, que es la única medida completa, invariante por translaciones, definida sobre los boreleanos, que es una extensión natural de la longitud de los intervalos. Facultad de Ingenierı́a - UM Pepe DIAZ 22 1. Génesis de la Teorı́a de la Probabilidad. 1.13. La definición axiomática de Kolmogorov. Las propiedades (S2) y (S3) nos dicen que la familia A es cerrada al efectuar las operaciones usuales de complemente y unión. Además de las propiedades (S1), (S2) y (S3) se deduce: Proposición 1.1 Si A es una en Ω entonces (1) ∅ ∈ A (2) Si A1 , A2 , . . . , Am ∈ A ⇒ A1 ∪ A2 ∪ . . . ∪ Am ∈ A (3) Si An ∈ A ∀n ⇒ ∞ T An ∈ A n=1 (4) Si A1 , A2 , . . . , Am ∈ A ⇒ A1 ∩ A2 ∩ . . . ∩ Am ∈ A Demostración. (Ejercicio) Por lo tanto de (2), (3) y (4) las σ−álgebras son estructuras también cerradas bajo las operaciones de uniones finitas, intersecciones (infinitas numerables) e intersecciones finitas. En resumen nuestras funciones de probablidad P :A → R tendrán dominio en una σ−álgebra A de sucesos 1.13 La definición axiomática de Kolmogorov. “La Teorı́a de la Probabilidad, como disciplina matemática, puede y debe ser desarrollada a partir de unos axiomas, de la misma manera que la Geometrı́a o el Álgebra” Andrei Nikolaevich Kolmogorov (1933) Si bien es claro que la función P (probabilidad) será distinta en cada aplicación, ¿qué propiedades básicas o mı́nimas tienen en común las funciones de probabilidad que las caracterizan como tales?. Estas propiedades se convierten precisamente en los axiomas de la definición de Kolmogorov Definición 1.2 (Axiomática de Kolmogorov) Sea Ω un conjunto no vacı́o y A una σ−álgebra en Ω. Una medida de probabilidad P es una función P : A → R que cumple las siguientes propiedades: (Axioma 1) (positivad) 0 ≤ P(A) (Axioma 2) (normalización) ∀A∈A P(Ω) = 1 (Axioma 3) (σ − aditividad) Si An ∈ A ∀n ∈ N y Ai ∩ Aj = ∅ ∀ i 6= j ⇒ P ∞ S n=1 Facultad de Ingenierı́a - UM Pepe DIAZ An = ∞ P P(An ) n=1 23 1. Génesis de la Teorı́a de la Probabilidad. 1.13. La definición axiomática de Kolmogorov. En la definición axiomática, a diferencia de la “definción” clasica, no se pretende definir la probabilidad diciendo como hay que calcularla, sino que simplemente dice cuando una función es una medida de probabilidad. Es ası́ que el problema de calcular una probabilidad en un experimento aleatorio no es un problema de la teorı́a, es en esencia un problema práctico, donde la intuición y experiencia nos sirven para asignar la probabilidad más razonable respecto al experimento que estemos considerando. Facultad de Ingenierı́a - UM Pepe DIAZ 24 2. Espacios de probabilidad. “La probabilidad tiene una mano derecha y otra mano izquierda: en la derecha está el trabajo riguroso de sus fundamentos, usando resultados de la teorı́a de la medida, mientras la mano izquierda piensa de “manera probabilı́stica” reduciéndose a problemas de juegos de azar, lanzamientos de moneda o movimientos de partı́culas” Leo Breiman (1968) 2.1. Espacios de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Propiedades elementales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Continuidad de las medidas de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . 25 29 39 2.1 Espacios de Probabilidad. Recordemos que si Ω es un conjunto no vacı́o tenemos las siguientes definiciones: Definición 2.1 Sea Ω un conjunto no vacı́o. Una familia A de subconjuntos de Ω se dice una σ−álgebra en Ω si: (S1) Ω ∈ A (S2) Si A ∈ A ⇒ Ac ∈ A (S3) Si An ∈ A ∀n ⇒ ∞ S An ∈ A n=1 Definición 2.2 (Axiomática de Kolmogorov) Sea Ω un conjunto no vacı́o y A una σ−álgebra en Ω. Una medida de probabilidad P es una función P : A → R que cumple las siguientes propiedades: (Axioma 1) (positivad) 0 ≤ P(A) ∀A∈A (Axioma 2) (normalización) P(Ω) = 1 (Axioma 3) (σ − aditividad) Si An ∈ A ∀n ∈ N y Ai ∩ Aj = ∅ ∀ i 6= j ⇒ P ∞ S n=1 An = ∞ P P(An ) n=1 Estos tres elementos constituyen una estructura matemática formal, llamada espacios de probabilidad , que nos permiten modelar los experimentos aleatorios y poder desarrollar una teorı́a rigurosa. La definición es la siguiente: 25 2. Espacios de probabilidad. 2.1. Espacios de Probabilidad. Definición 2.3 Un espacio de probabilidad es una terna (Ω, A, P) donde Ω es un conjunto no vacı́o, A es una σ-álgebra en Ω y P : A → R una medida de probabilidad Observación 2.1. Cada elemento de la terna que forma un espacio de probabilidad tiene interpretaciones bien concretas: El conjunto Ω representa al espacio muestral, es decir al conjunto de resultados posibles o sucesos elementales del experimento aleatorio. En la teorı́a se lo considera como un conjunto arbitrario no vacı́o, y no es imprescindible darle una interpretación. La σ-álgebra A representa a la familia de sucesos a los cuales queremos asignarle una probabilidad. En la teorı́a es una familia no vacı́a de subconjuntos de Ω, la cual es cerrada bajo las operaciones de tomar complementos y uniones numerables[1] . Tampoco, en la teorı́a, es imprescindible darle una interpretación en términos de sucesos. Finalmente la medida de probabilidad P es una medida de ocurrencia que se le asigna a cada suceso de A., siendo para la teorı́a una función P : A → R que cumple con los axiomas de Kolmogorov y esta libre de cualquier interpretación práctica. El problema práctico “calcular la probabilidad del suceso A” corresponde a determinar el valor funcional P (A) de acuerdo a las condiciones concretas del experimento aleatorio considerado. Como señalaba Kolmogorov en sus “fundamentos”, no se debe confundir el problema teórico de dar una definición de probabilidad con el problema práctico de calcular una probabilidad. En otras palabras, son preguntas bien distintas: “¿qué es la probabilidad?” (teorı́a) “¿cómo se calcula una probabilidad?” (práctica) Si bien es cierto que, primero en el “cálculo de probabilidades”, y posteriormente en la Teorı́a de la Probabilidad, se han obtenidos grandes avanzances en base a las interpretaciones prácticas, es importante destacar que sobre los espacios de probabilidad se desarrolla una teorı́a matemática sin necesidad de los significados prácticos de sus elementos. Presentemos algunos importantes ejemplos de espacios de probabilidad. En el primer ejemplo veamos que la “definición” clásica de la probabilidad, que se aplica al analizar experimentos aleatorios laplacianos[2] , se puede modelar por un espacio de probabidad. Es decir que la definición axiomática de Kolmogorov no descarta la “definición” clásica , por el contrario, la valida como un ejemplo de medida de probabilidad. Ejemplo 2.1. (Espacio de probabilidad finito uniforme) Consideramos un conjunto finito (no vacio) Ω = {ω1 , ω2 , ..., ωn } y la σ-álgebra A = P (Ω) formada por todos los subconjuntos de Ω. Es inmediato probar que la función P : A → R def P (A) = # (A) # (A) = # (Ω) n (“definición” clásica) [2] es decir a experimentos aleatorios que tienen un número finito de resultados posibles que tienen la misma probabilidad de ocurrir (“espacios muestrales finitos equiprobables”) Facultad de Ingenierı́a - UM Pepe DIAZ 26 2. Espacios de probabilidad. 2.1. Espacios de Probabilidad. es una medida de probabilidad (ejercicio) En particular para cada ωi ∈ Ω (i = 1, 2, ..., n) se tiene que P ({ωi }) = 1 n (equiprobabilidad en los sucesos elementales) Por lo tanto (Ω, A, P) es un espacio de probabilidad que modela la probabilidad clásica. El nombre de uniforme se justifica porque la probabilidad (“masa”) está uniformemente repartida en cada suceso elemental (“punto”) En situaciones como la anterior el problema de calcular la probabilidad de un suceso se reduce a contar todos los resultados posibles del experimento y ver cuántos de estos pertenecen al suceso que nos interesa. Por eso es bueno repasar algunas de las técnicas de conteo vistas en preparatorios. Ejemplo 2.2. Al tirar el dado equilibrado, ¿cuál es la probabilidad de obtener un número impar?. Como espacio muestral podemos considerar el conjunto Ω = {1, 2, 3, 4, 5, 6} donde el suceso elemental {i} representa salió el número i = 1, 2, ..., 6 Luego si consideramos el suceso A = “salió número impar” = {1, 3, 5} resulta que P (A) = # (A) 3 1 = = # (Ω) 6 2 El ejemplo 2.1 se puede generalizar, bastará con repartir la probabilidad (“la masa total unitaria”) en forma no uniforme en cada suceso elemental (“punto”) Ejemplo 2.3. (Espacio de probabilidad finito) Consideramos un conjunto finito Ω = {ω1 , ω2 , ..., ωn } y la σ-álgebra A = P (Ω) formada por todos los subconjuntos de Ω Sea p : Ω → R una función de probabilidad puntual en Ω, esto es, una función no negativa que cumple: p (ω1 ) + p (ω2 ) + ... + p (ωn ) = 1 (“masa total unitaria”) (intuitivamente a cada suceso elemental ωi ∈ Ω le estamos asignado una número real p (ωi ), que representa su probabilidad de ocurrir. Observar que 0 ≤ p (ωi) ≤ 1 para todo i = 1, ..., n). Facultad de Ingenierı́a - UM Pepe DIAZ 27 2. Espacios de probabilidad. 2.1. Espacios de Probabilidad. La función P : A → R tal que def P (A) = X p (ω) ω∈A P (A) es la “masa” del conjunto A pues sumamos todos los “masas” p (ω) con ω ∈ A es una medidade probabilidad (ejercicio) 1 Ejemplo 2.4. Un dado está cargado de modo que la probabilidad de obtener 6 es , mientras que la probailidad de 2 obtener las otras caras son iguales. Al tirar el dado, ¿cuál es la probailidad de obtener un número impar?. Como espacio muestral podemos considerar el conjunto Ω = {1, 2, 3, 4, 5, 6} donde el suceso elemental {i} representa salió el número i = 1, 2, ..., 6 Sabemos que p (6) = 1 2 y p (1) = p (2) = p (3) = p (4) = p (5) = p Pero como las “probabilidades puntuales” deben sumar 1: p (1) + p (2) + p (3) + p (4) + p (5) + p (6) = 1 tenemos que 5p + 1 1 =1⇔p= 2 10 Luego si consideramos el suceso A = “salió número impar” = {1, 3, 5} resulta que P (A) = p (1) + p (3) + p (5) = 3 5 El ejemplo anterior, fácilmente puede generalizarse al caso de un espacio muestral infinito numerable Ejemplo 2.5. (Espacio de probabilidad infinito numerable) Consideramos un conjunto infinito nunerable Ω = {ω1 , ω2 , ..., ωn , ...} Facultad de Ingenierı́a - UM Pepe DIAZ 28 2. Espacios de probabilidad. 2.2. Propiedades elementales. y la σ-álgebra A = P (Ω) formada por todos los subconjuntos de Ω. Sea p : Ω → R una función de probabilidad puntual en Ω, es decir, una función no negativa verificando que +∞ X p (ωn ) = 1 n=1 (intuitivamente a cada suceso elemental ωn ∈ Ω le estamos asignado una número real p (ωn ), que representa su probabilidad de ocurrir. Observar que 0 ≤ p (ωn ) ≤ 1). La función P : A → R tal que[3] X P (A) = p (ω) ω∈A es una medida de probabilidad (ejercicio ). Por lo tanto (Ω, A, P) es un espacio de probabilidad Observación 2.2. la equiprobabilidad es imposible en un espacio muestral infinito numerables. Algunas veces se afirma, erróneamente, que cuando el espacio muestral Ω es infinito no numerable no es posible definir una medida de probabilidad sobre la familia P (Ω) formada por todos los subconjuntos de Ω y por eso es necesario considerar una σ−álgebra A estrictamente menor que P (Ω). La afirmación anterior es falsa, pues como verenos en el siguiente ejemplo siempre se puede definir al menos una medida de probabilidad sobre P (Ω), cualquiera sea el conjunto no vacı́o Ω. Ejemplo 2.6. (Probabilidad puntual de Dirac) Sea Ω un conjunto no vacı́o (cualquiera).y la σ-álgebra A = P (Ω) formada por todos los subconjuntos de Ω. Tomemos un punto cualquiera ω0 ∈ Ω y definimos la función P : A → R tal que def 1 si ω0 ∈ A P(A) = 0 si ω0 ∈ /A Es inmediato verificar que P es una medida de probabilidad. Por lo tanto (Ω, A, P) es un espacio de probabilidad Cuando en espacio muestral Ω es infinito no numerable es imposible definir determinadas medidas de probabilidad sobre P (Ω). Por ejemplo es imposible definir una probabilidad uniforme sobre todos los subconjuntos en el intervalo [0, 1]. 2.2 Propiedades elementales. En esta sección se estudian las propiedades elementales que cumplen las medidas de probabilidad, las mismas se deducen inmediatamente de los axiomas de Kolmogorov (definición 2.2). [3] tener presente que siendo A un subconjunto de Ω y Ω numerable resulta que A es finito o infinito numerable, por lo tanto cuando A P P es finito “ ” es una suma ordinaria y cuando A es infinito numerable “ ” es una serie (convergente, con suma ≤ 1) ω∈A Facultad de Ingenierı́a - UM ω∈A Pepe DIAZ 29 2. Espacios de probabilidad. 2.2. Propiedades elementales. Teorema 2.1 (propiedades elementales) Sea (Ω, A, P) un espacio de probabilidad. Entonces la medida de probabilidad P cumple las siguientes propiedades: (1) P (∅) = 0 (2) (Aditividad finita). Si A1 , A2 , ...y Ak ∈ A y son disjuntos dos a dos (esto es Ai ∩ Aj = ∅ entonces ∀ i 6= j), P (A1 ∪ A2 ∪ ... ∪ Ak ) = P (A1 ) + P (A2 ) + ... + P (Ak ) (3) Para cualquier A ∈ A se cumple que P(Ac ) = 1 − P(A) (4) Para cualquier A ∈ A se cumple que P(A) ≤ 1 Demostración. (1) Definimos An = ∅ ∀n ∈ N. Luego se tiene que An ∈ A ∀n ∈ N y An ∩ Am = ∅ ∩ ∅ = ∅ ∀ n 6= m, entonces por la σ-aditividad (axioma 3) de las medidas de probabilidad ∞ ∞ X [ P(An ) P( An ) = n=1 n=1 | {z } | ∅ | Por lo tanto la serie ∞ X {z P(∅) } ∞ P {z } P(∅) n=1 P(∅) converge a P (∅), y esto solo es posible cuando P (∅) = 0 (pues si P (∅) 6= 0 tendrı́amos n=1 que 1 + 1 + 1 + ..... = 1) (2) Definimos B1 = A1 , B2 = A2 , . . . , Bk = Ak yBn = ∅ ∀n ≥ k + 1.  An ∩ Am = ∅ si n < m ≤ k An ∩ ∅ = ∅ si n ≤ k < m , entonces por la σ-aditividad Luego se tiene que Bn ∈ A ∀n ∈ N y Bn ∩ Bm =  ∅∩∅=∅ si k < n < m (axioma 3) de las medidas de probabilidad ! ∞ ∞ [ X P Bn = P(Bn ) n=1 | {z n=1 | } P(A1 ∪A2 ∪...∪Ak ) {z } P(A1 )+P(A2 )+...+P(Ak )+ ∞ X P(∅) n=k+1 | {z =0 } es decir P (A1 ∪ A2 ∪ ... ∪ Ak ) = P (A1 ) + P (A2 ) + ... + P (Ak ) (3) De la teorı́a elemental de conjuntos sabemos que A ∪ Ac = Ω Facultad de Ingenierı́a - UM y A ∩ Ac = ∅ Pepe DIAZ 30 2. Espacios de probabilidad. 2.2. Propiedades elementales. Ası́, por la propiedad 2 (adtividad finita) y el axioma 2 tenemos que P (A ∪ Ac ) = P(Ω) | {z } | {z } =1 P(A)+P(Ac ) de donde P(Ac ) = 1 − P(A) Como A ⊆ Ω, por la propiedad anterior, se tiene P (A) ≤ P (Ω), y junto con el primer axioma: 0 ≤ P (A) y el segundo axioma: P (Ω) = 1 se tiene la propiedad 0 ≤ P(A) ≤ 1 deseada. (4) Por la propiedad anterior P(A) = 1 − P(Ac ) y como, por el primer axioma, P (Ac ) ≥ 0 se tiene que P(A) ≤ 1 Observación 2.3. El primer axioma de la definición 2.2 junto con la propiedad 4 del Teorema anterior nos dicen que 0 ≤ P(A) ≤ 1 ∀A ∈ A En la propiedad 1 del Teorema anterior hemos probado que si A = ∅ entonces P(A) = 0, pero es claro que no vale el recı́proco, es decir que P(A) = 0 no implica que A = ∅ De la misma manera si A = Ω sabemos que P(A) = 1 (segundo axioma de la definición de probabilidad), y tampoco vale el recı́proco, esto es, P(A) = 1 no implica que A = Ω Si bien la propiedad 3, desde un punto de vista teórico, es bastante obvia, no deja ser útil en muchas situaciones prácticas, donde es más sencillo calcular la probabilidad del complemento de un suceso que la probabilidad del suceso mismo. Veamos algunos ejemplos. Ejemplo 2.7. Un juego consiste en extraer al azar, sucesivamente y sin reposicón 10 bolillas de un bolillero que contiene 200 bolillas numeradas (del 1 al 200). Un jugador gana el juego si extrae por lo menos una bolilla con uno de los 20 números finales. ¿Cuál es la probabilidad que tiene de ganar?. Como espacio muestral Ω podemos tomar el conjunto de todas las 10-uplas ordenadas de enteros diferentes del 1 al 200. Por ejemplo el suceso se representa por (23, 172, 12, 56, 188, 133, 49, 110, 7, 149) ∈ Ω Es claro que # (Ω) = (200) (199) (198) (197) (196) (195) (194) (193) (192) (191) . Las últimas 20 bolillas son las “exitosas” para el jugador: ······ ······ | Facultad de Ingenierı́a - UM Pepe DIAZ {z bolillas “exitosas” para el jugados } 31 2. Espacios de probabilidad. 2.2. Propiedades elementales. Consideremos el suceso A = “el jugar gana” = “extrae por lo menos una bolilla “exitosa” (del 181 al 200)” El suceso A está formado por todos los sucesos elementales que contienen exactamente 1 bolilla “exitosa”, los que contienen exactamente 2 bolillas “exitosas”, .... y ası́ sucesivamente hasta el suceso elemental formado por 10 bolillas “exitosas”. En otras palabras si consideramos el suceso An = “obtener exactamente n bolillas “exitosas” ”, n = 1, 2, ..., 10 tenemos que A = A1 ∪ A2 ∪ ... ∪ A10 y por tratarse de sucesos disjuntos P (A) = P (A1 ) + P (A2 ) + ... + P (A10 ) Si bien no es imposible, y los calculos se pueden realizar, nos enfrentamos a calcular diez probabilidades. Pero si aplicamos la propiedad 3 de Teorema anterior el problema se resuelve en forma más sencilla, pues Ac = “el jugar pierde” = “no obtener ninguna bolilla “éxitosa” y se tiene que P (Ac ) = (180) (189) (188) (187) (186) (185) (184) (183) (182) (181) # (Ac ) = ≈ 0,560 # (Ω) (200) (199) (198) (197) (196) (195) (194) (193) (192) (191) y por lo tanto P (A) = 1 − P (Ac ) ≈ 0,440 Ejemplo 2.8. Se tiran n dados, hay interés en saber si en alguno de los dados salió el 1 o el 6. En otras palabras, se quiere calcular la probabilidad de que el 1 o el 6 salga por lo menos una vez en el lanzamiento de n dados. Como espacio muestral podemos tomar el conjunto de las n−uplas formadas por los resultados de cada dado Ω = {(ω1 , ω2 , ..., ωn ) : ωi = 1, 2, 3, 4, 5, 6} Observar que # (Ω) = 6n El suceso de interés A es el subconjunto de Ω formado por todas las n−uplas donde una o varias coordenadas son 1 o 6, y por consiguiente su complemento es el suceso Ac formado por todas las n−uplas cuyas coordenadas son distintas de 1 y de 6, es decir los valores posibles en cada coordenada son 2,3,4 o 5: y por lo tanto # (Ac ) = 4n . Ası́ n # (Ac ) 4n 2 P (Ac ) = = n = # (Ω) 6 3 y por lo tanto n 2 P (A) = 1 − P (A ) = 1 − 3 c Facultad de Ingenierı́a - UM Pepe DIAZ 32 2. Espacios de probabilidad. 2.2. Propiedades elementales. El siguiente Lema es una herramienta útil, no sólo para probar resultados teóricos, sino que también en muchas situaciones prácticas al querer determinar la probabilidad de un suceso los cálculos se simplifican si de divide dicho suceso en sucesos disjuntos. Lema 2.1 ((Uniones disjuntas)) Consideremos dos sucesos A y B ∈ A entonces (1) A = (A ∩ B) ∪ (A ∩ B c ) (unión disjunta) (2) A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (B ∩ Ac ) (unión disjunta) Demostración. (1) Se tiene que A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ) (unión disjunta) (2.1) (2) Por la parte anterior A = (A ∩ B) ∪ (A ∩ B c ) y B = (B ∩ A) ∪ (B ∩ Ac ) de donde A∪B = [(A ∩ B) ∪ (A ∩ B c )] ∪ [(B ∩ A) ∪ (B ∩ Ac )] = (A ∩ B c ) ∪ (A ∩ B) ∪ (B ∩ Ac ) (pues A ∩ B = B ∩ A) (unión disjunta) Observación 2.4. La propiedad (1) se puede expresar de la siguiente manera ocurre A = (ocurre A y ocurre B) o (ocurre A y no ocurre B) La propiedad (1) anterior se simétrica en relación a los sucesos en el sentido que también se cumple que B = (A ∩ B) ∪ (Ac ∩ B) (unión disjunta) Facultad de Ingenierı́a - UM Pepe DIAZ 33 2. Espacios de probabilidad. 2.2. Propiedades elementales. Teorema 2.2 Sea (Ω, A, P) un espacio de probabilidad. Si A y B ∈ A, entonces (1) P(A) = P (A ∩ B) + P (A ∩ B c ) (2) P (A ∪ B) = P(A) + P(B) − P (A ∩ B) Demostración. (1) P(A) = P (A ∩ B) ∪ (A ∩ B c ) = P (A ∩ B) + P (A ∩ B c ) (por el Lema anterior A = (A ∩ B) ∪ (A ∩ B c ) ) (por ser una unión disjunta) (2) P (A ∪ B) = P c c (A ∩ B ) ∪ (A ∩ B) ∪ (B ∩ A ) = P (A ∩ B c ) + P (A ∩ B) + P (B ∩ Ac ) c por el Lema anterior A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (B ∩ Ac ) (por ser una unión disjunta) c = P (A ∩ B ) + P (A ∩ B) + P (B ∩ A ) + P (A ∩ B) − P (A ∩ B) (sumamos y restamos P (A ∩ B)) = P (A) + P (B) − P (A ∩ B) por la parte anterior P (A ∩ B c ) + P (A ∩ B) = P (A) P (B ∩ Ac ) + P (A ∩ B) = P (B) Corolario 2.1 (monotonı́a) Sea (Ω, A, P) un espacio de probabilidad y A, B ∈ A. Si A ⊆ B entonces P(A) ≤ P(B) Ejemplo 2.9. Se extrae una carta de un mazo de baraja española de 40 cartas. Se consideran los sucesos A =“ la carta extraı́da es de oro” y B = “la carta extraı́da es negra ” (es decir la carta es un 10, un 11 o un 12 de cualquier “palo”) Calculemos las probabilidades A, B, A ∩ B y A ∪ B. Facultad de Ingenierı́a - UM Pepe DIAZ 34 2. Espacios de probabilidad. 2.2. Propiedades elementales. “ la carta extraı́da es de oro” “la carta extraı́da es negra” “la carta extraı́da es de oro y negra” 10 1 12 3 3 P (A) = = P (B) = = P (A ∩ B) = 40 4 40 10 40 Si bien se puede realizar un cálculo directo de la probabilidad de A ∪ B, haremos el cálculo usando la propiedad anterior: 1 3 3 19 P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = + − = 4 10 40 40 Ejemplo 2.10. En una localidad el 60 % de las familias estan registradas en Neflix[4] , el 80 % en DirecTV[5] y el 50 % ambos servicios. Si se elige una familia al azar, ¿cuál es la probabilidad de tengan por lo menos uno de los servicios?, ¿ y exactamente uno de los servicios?. Consideremos los sucesos A = “la familia tiene el servivio Neflix” B = “la familia tiene el servivio DirecTV” A ∩ B = “la familia tiene ambos servicios” Sabemos que P (A) = 60 3 = , 100 5 P (B) = 80 4 = , 100 5 P (A ∩ B) = 50 1 = 100 2 Siendo A ∪ B = “la familia tiene por lo menos uno de los servicios” se tiene que P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 3 4 1 9 + − = 5 5 2 10 Por otro lado (A ∩ B c ) ∪ (Ac ∩ B) = “la familia tiene exactamente uno de los servicios” P ((A ∩ B c ) ∪ (Ac ∩ B)) = P (A ∩ B c ) + P (Ac ∩ B) = P (A ∪ B) − P (A ∩ B) = Facultad de Ingenierı́a - UM 9 1 2 − = 10 2 5 Pepe DIAZ 35 2. Espacios de probabilidad. 2.2. Propiedades elementales. La propiedad 2 del Teorema 2.2 se le atribuye a Abraham de Moivre y su generalización Henri Poincaré. Teorema 2.3 (Fórmula de Poincaré) Sea (Ω, A, P) un espacio de probabilidad. Si A1 , . . . , An ∈ A, entonces ! k=n n [ X X P Ak = P (Ak )− P(Ak1 ∩Ak2 )+ k=1 k=1 1≤k1 <k2 ≤n X P(Ak1 ∩Ak2 ∩Ak3 )−. . . . . .+(−1)n+1 P(A1 ∩A2 ∩. . .∩An ) 1≤k1 <k2 <k3 ≤n Demostración. (ver ejercicio 16 Práctico 1) Observación 2.5. La fórmula de Poincaré se puede expresar en forma más compacta como: ! i=n n [ X X P Ak = (−1)i+1 P(Ak1 ∩ Ak2 ∩ . . . ∩ Aki ) k=1 i=1 1≤k1 <...<ki ≤n Ejemplo 2.11. Se tienen 3 bolas numeradas y sus respectivas cajas numeradas. Se disponen al azar una bola en cada caja. Hallemos la probabilidad de que por lo menos un bola esté en su caja (es decir que el número de la bola coincide con el número de la caja). El cálculo de la probailidad se puede realizar directamente tenemos 4 resultados favorables en 6 resultados posibles, y por lo tanto la probabilidad por lo menos 4 2 un bola esté en su caja es = 6 3 Vamos a realizar el cálculo usando la fórmula de Poincaré. Consideremos los sucesos A = “la bola 1 está en la caja 1” B = “la bola 2 está en la caja 2” C = “la bola 3 está en la caja 3” luego A ∪ B ∪ C = “por lo menos una bola está en su caja ” aplicando la fórmula de Poincaré P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C) Facultad de Ingenierı́a - UM Pepe DIAZ 36 2. Espacios de probabilidad. 2.2. Propiedades elementales. Ahora bien P(A) = P(B) = P(C) = A 2 1 = 6 3 B C y P(A ∩ B) = P(A ∩ C) = P(B ∩ C) = P(A ∩ B ∩ C) = 1 6 A∩B =A∩C =B∩C =A∩B∩C de donde 1 1 1 2 P(A ∪ B ∪ C) = 3 −3 + = 3 6 6 3 Ejemplo 2.12. Se toma un número entero al azar entre 1 al 1000, ¿cuál es la probabilidad de que sea divisible entre por lo menos uno de los números 3, 5, 7 o 11? Consideremos los sucesos A = “el número seleccionado es divisible entre 3” B = “el número seleccionado es divisible entre 5” C = “el número seleccionado es divisible entre 7” D = “el número seleccionado es divisible entre 11” luego A ∪ B ∪ C ∪ D = “el número seleccionado es divisible entre por lo menos uno de los números 3, 5, 7 o 11” aplicando la fórmula de Poincaré P(A ∪ B ∪ C ∪ D) = P(A) + P(B) + P(C) + P(D) −P(A ∩ B) − P(A ∩ C) − P(A ∩ D) − P(B ∩ C) − P(B ∩ D) − P(C ∩ D) +P(A ∩ B ∩ C) + P(A ∩ B ∩ D) + P(A ∩ C ∩ D) + P(B ∩ C ∩ D) −P(A ∩ B ∩ C ∩ D) Ahora bien entre 1 y 1000 tenemos[6] 1000 = 333 números divisibles entre 3 3 1000 = 200 números divisibles entre 5 5 1000 = 142 números divisibles entre 7 7 1000 = 90 números divisibles entre 11 11 Facultad de Ingenierı́a - UM Pepe DIAZ ⇒ P(A) = 333 1000 ⇒ P(B) = 200 1000 ⇒ P(C) = 142 1000 ⇒ P(D) = 90 1000 37 2. Espacios de probabilidad. 2.2. Propiedades elementales. 1000 15 1000 21 1000 33 1000 35 1000 55 1000 77 1000 105 1000 165 1000 231 1000 385 = 66 números divisibles entre 3 y 5 ⇒ P(A ∩ B) = 66 1000 = 47 números divisibles entre 3 y 7 ⇒ P(A ∩ C) = 47 1000 = 30 números divisibles entre 3 y 11 ⇒ P(A ∩ D) = 30 1000 = 28 números divisibles entre 5 y 7 ⇒ P(B ∩ C) = 28 1000 = 18 números divisibles entre 5 y 11 ⇒ P(B ∩ D) = 18 1000 = 12 números divisibles entre 7 y 11 ⇒ P(C ∩ D) = 12 1000 = 9 números divisibles entre 3, 5 y 7 ⇒ P(A ∩ B ∩ C) = 9 1000 = 6 números divisibles entre 3, 5 y 11 ⇒ P(A ∩ B ∩ D) = 6 1000 = 4 números divisibles entre 3, 7 y 11 ⇒ P(A ∩ C ∩ D) = 4 1000 = 2 números divisibles entre 5, 7 y 11 ⇒ P(B ∩ C ∩ D) = 2 1000 y finalmente como A ∩ B ∩ C ∩ D = ∅ (no hay ningún número divisible entre 3, 5, 7 y 11 menor a 1155) se tiene que P(A ∩ B ∩ C ∩ D) = 0 Ası́ P(A ∪ B ∪ C ∪ D) = = 333 1000 117 200 + 200 1000 + 142 1000 + 90 1000 − 66 1000 − 47 1000 − 30 1000 − 28 1000 − 18 1000 − 12 1000 + 9 1000 + 6 1000 + 4 1000 + 2 1000 ≈ 0,585 Observación 2.6. Principio de inclusión-exclusión. En el modelo de la probabilidad clásica (Ejemplo 2.1, pag. 26) donde el espacio muestral Ω es un conjunto finito no vacı́o, la σ-álgebra es la familia P (Ω) formada por todos los subconjuntos de Ω. y la medida de probabilidad es: P (A) = la fórmula de Poincaré se expresa como n S # Ak k=n X # (Ak ) X #(Ak ∩ Ak ) k=1 1 2 = − + # (Ω) # (Ω) # (Ω) k=1 1≤k1 <k2 ≤n # (A) # (Ω) X ∀A ⊆ Ω #(Ak1 ∩ Ak2 ∩ Ak3 ) #(A1 ∩ A2 . . . ∩ An ) −. . . (−1)n+1 # (Ω) # (Ω) 1≤k1 <k2 <k3 ≤n y simplificando # (Ω) en la ecuación anterior se obtiene el llamado “principio de inclusión-exclusión” ! k=n n [ X X X # Ak = # (Ak ) − #(Ak1 ∩ Ak2 ) + #(Ak1 ∩ Ak2 ∩ Ak3 ) − . . . (−1)n+1 #(A1 ∩ A2 . . . ∩ An ) k=1 k=1 1≤k1 <k2 ≤n 1≤k1 <k2 <k3 ≤n que se estudia en los cursos de Matemática Discreta, el cual permite calcular el cardinal de la unión finita de conjuntos, mediante los cardinales de cada uno de los conjuntos y todas sus posibles intersecciones. [6] [x] indica la parte entera del número x, por ejemplo [24, 7865] = 24 Facultad de Ingenierı́a - UM Pepe DIAZ 38 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. 2.3 Continuidad de las medidas de probabilidad. Una sucesión de sucesos {An }n∈N ⊆ A se dice monótona creciente si An ⊆ An+1 ∀n ∈ N y se le llama lı́mite de dicha sucesión al suceso A = ∞ S An n=1 Usaremos la siguiente notación para indicar que la sucesión de sucesos {An }n∈N crece al suceso A: An ↑ A ⇔  (1) An ⊆ An+1    ∀n ∈ N ∞ S   An  (2) A = n=1 De la misma manera una sucesión de sucesos {An }n∈N ⊆ A se dice monótona decreciente si An ⊇ An+1 ∀n ∈ N y se le llama lı́mite de dicha sucesión al suceso A = ∞ T An n=1 Usaremos la siguiente notación para indicar que la sucesión de sucesos {An }n∈N decrece al suceso A: An ↓ A ⇔  (1) An ⊇ An+1    ∀n ∈ N ∞ T   An  (2) A = n=1 Recordemos que la continuidad de una función en un punto de acumulación se expresaba en término de lı́mites como f es continua en a ⇔ lı́m f (x) = f (a) x→a En el contexto que estamos trabajando si An ↑ A (o si An ↓ A) ¿se cumple que lı́m P(An ) = P (A)? n→+∞ La respuesta es afirmativa y es el contenido del siguiente Teorema, y por tal propiedad se dice que las medidas de Facultad de Ingenierı́a - UM Pepe DIAZ 39 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. probabilidad son continuas respecto de sucesiones monótonas crecientes o decrecientes de sucesos.Veamos previamente que a partir de cualquier sucesión de sucesos se puede construir otra sucesión de sucesos disjuntos dos a dos, y cuyas uniones coinciden con las uniones de los sucesos originales. En el siguiente diagrama se ilustra el resultado con tres sucesos A1 , A2 y A3 no disjuntos, a partir de los cuales se construyen tres sucesos disjuntos B1 , B2 y B3 cuya uniones coinciden con las uniones de los sucesos originales[7] A1 = B 1 , A1 ∪ A2 = B1 ∪ B2 , A1 ∪ A2 ∪ A3 = B1 ∪ B2 ∪ B3 Pasemos al resultado en general Lema 2.2 Consideremos una sucesión de sucesos {An }n∈N ⊆ A. Entonces la sucesión de sucesos {Bn }n∈N ⊆ A definidos por def B 1 = A1 .. . def Bn = An \ (A1 ∪ A2 ∪ . . . ∪ An−1 ) para n ≥ 2 cumple que: (a) B n ⊆ An (b) Bn ∩ Bm = ∅ (c) n S Bk = k=1 (d) +∞ S n=1 Demostración. (a) Por definición B1 = A1 Bn ∀n≥1 n S si n 6= m Ak ∀n≥1 k=1 Bn = +∞ S An n=1 y = An \ (A1 ∪ A2 ∪ . . . ∪ An−1 ) = An ∩ (A1 ∪ A2 ∪ . . . ∪ An−1 ) c = An ∩ Ac1 ∩ Ac2 ∪ ... ∩ Acn ⊆ An ∀n ≥ 1 (b) Sin pérdida de generalidad, supongamos que n < m, y por lo tanto Bm ⊆ Acn (2.2) en efecto Bm = Am \ (A1 ∪ A2 ∪ . . . ∪ An ∪ ... ∪ Am−1 ) = Am ∩ (A1 ∪ A2 ∪ . . . ∪ An ∪ . . . ∪ Am−1 ) = Am ∩ Ac1 ∩ Ac2 ∩ ... ∩ Acn ∩ ... ∩ Acm−1 ⊆ Acn c [7] Recordar que X \ Y = X ∩ Y c , es decir los elementos de X “menos” los elementos de Y , por consiguiente quedan los elementos de X en el complemento de Y Facultad de Ingenierı́a - UM Pepe DIAZ 40 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. y de la parte anterior B n ⊆ An (2.3) ası́ de (2.2) y (2.3) se tiene Bn ∩ Bm ⊆ An ∩ Acn y como An ∩ Acn = ∅ hemos probado que Bn ∩ Bm = ∅ (c) Por la parte (a) B n ⊆ An ∀n ≥ 1 y por lo tanto B1 ∪ B2 ∪ . . . ∪ Bn ⊆ A1 ∪ A2 ∪ . . . ∪ An ∀n ≥ 1 (2.4) Por otro lado si ω ∈ A1 ∪ A2 ∪ . . . ∪ An entonces existe n0 ∈ {1, 2, ..., n} tal que ω ∈ An0 Consideremos el conjunto de ı́ndices I = {i ∈ {1, ..., n0 } : ω ∈ Ai } (ı́ndices de los sucesos que contienen a ω) Es claro que I 6= ∅ (pues n0 ∈ I) y por consiguiente existe m0 = mı́n I Si m0 = 1 entonces ω ∈ Am0 = A1 = B1 Si 1 < m0 ≤ n0 se cumple que ω ∈ Am 0 ω∈ / Ak y para k = 1, ..., m0−1 es decir que c ω ∈ Am0 ∩ Ac1 ∩ Ac2 ∩ ... ∩ Acm0 −1 = Am0 ∩ (A1 ∪ A2 ∪ . . . ∪ Am0 −1 ) = Am0 \ (A1 ∪ A2 ∪ . . . ∪ Am0 −1 ) = Bm0 Hemos probado que si ω ∈ A1 ∪ A2 ∪ . . . ∪ An entonces ω ⊆ Bm0 , es decir que A1 ∪ A2 ∪ . . . ∪ An ⊆ Bm0 y dado que Bm0 ⊆ B1 ∪ B2 ∪ . . . ∪ Bn se tiene que A1 ∪ A2 ∪ . . . ∪ An ⊆ B1 ∪ B2 ∪ . . . ∪ Bn (2.5) De (2.4) y (2.5) se tiene que A1 ∪ A2 ∪ . . . ∪ An = B1 ∪ B2 ∪ . . . ∪ Bn (d) Por la parte (a) B n ⊆ An ⊆ +∞ [ ∀n ≥ 1 An n=1 y por lo tanto +∞ [ Bn ⊆ n=1 +∞ [ An (2.6) n=1 y por la parte anterior An ⊆ A1 ∪ A2 ∪ . . . ∪ An = B1 ∪ B2 ∪ . . . ∪ Bn ⊆ +∞ [ Bn ∀n ≥ 1 n=1 y por lo tanto +∞ [ An ⊆ n=1 +∞ [ Bn (2.7) n=1 de (2.6) y (2.7) +∞ [ n=1 Facultad de Ingenierı́a - UM Bn = +∞ [ An n=1 Pepe DIAZ 41 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. Teorema 2.4 (continuidad de las medidas de probabilidad) Sea (Ω, A, P) es un espacio de probabilidad y consideremos una sucesión de sucesos {An }n∈N ⊂ A (1) Si An ↑ A entonces lı́m P(An ) = P (A) n→+∞ (2) Si An ↓ A entonces lı́m P(An ) = P (A) n→+∞ Demostración. (1) A partir de la sucesión de sucesos {An }n∈N vamos a considerar la sucesión de sucesos {Bn }n∈N tales que def B 1 = A1 .. . def Bn = An \ (A1 ∪ A2 ∪ . . . ∪ An−1 ) por ser una sucesión crecientes de sucesos se cumple que A1 ∪ A2 ∪ . . . ∪ An−1 = An−1 = An \ An−1 y de acuerdo con el Lema 2.2 se cumple (a) B n ⊆ An (b) Bn ∩ Bm = ∅ (c) B1 ∪ B2 ∪ . . . ∪ Bn = An (d) +∞ S Bn = n=1 ∀n≥1 +∞ S si n 6= m ∀n≥1 An n=1 Luego P (A) = P ∞ S An =P n=1 = ∞ X ∞ S Bn (por (d)) n=1 P (Bn ) (por (b) y la σ-aditividad de la probabilidad (axioma 3)) n=1 = lı́m (P (B1 ) + ... + P (Bn )) n→+∞ (por la definición de serie numérica: ∞ X n=1 = lı́m P (B1 ∪ ... ∪ Bn ) (por (b) y la aditividad de la probabilidad) = lı́m P (An ) (por (c)) n→+∞ n→+∞ Facultad de Ingenierı́a - UM Pepe DIAZ def an = lı́m (a1 + ... + an )) n→+∞ 42 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. (2) Es claro que si[8]    Acn ⊆ Acn+1 ∀n ∈ N  An ⊇ An+1 ∀n ∈ N ∞ ∞ S T ⇔ Acn ↑ Ac ⇔ An ↓ A ⇔ Acn An  Ac =  A= n=1 n=1 Luego P (A) = 1 − P (Ac ) = 1 − lı́m P(Acn ) n→+∞ = lı́m (1 − P(Acn )) = lı́m P(An ) n→+∞ n→+∞ (pues como Acn ↑ Ac aplicamos la parte (1) del Teorema) Ejemplo 2.13. Se lanza un dado equilibrado infinitas veces, ¿cuál es.la probabilidad de nunca obtener 6? Consideremos el suceso A = “en los infinitos lanzamientos no se obtiene 6” y los sucesos An = “en los primeros n lanzamientos no se obtiene 6” Obsevemos que An ⊇ An+1 ∀n ≥ 1 y ∞ \ ∀n ≥ 1 An = A n=1 esto es An ↓ A Luego 5n =0 n→+∞ n→+∞ 6n El razonamiento anterior es válido para cualquiera de los resultados del dado, y por lo tanto, con probabilidad uno, cada resultado de un dado equilibrado saldrá al lanzarlo infinitas veces. P (A) = lı́m P (An ) = lı́m [8] Recordemos dos propiedades de la operación “complemento” de conjuntos: 1. A ⊆ B ⇔ Ac ⊇ B c  c  c [ \ \ [ c    2. Leyes de De Morgan: Ai = Ai y Ai  = Aci , donde I es un conjunto de ı́ndices cualquiera. i∈I Facultad de Ingenierı́a - UM i∈I i∈I i∈I Pepe DIAZ 43

Probabilidad y Estadística: Espacios de Probabilidad

Products

Support

Probabilidad y Estadística: Espacios de Probabilidad

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib