Universidad de Montevideo Facultad de Ingenierı́a PROBABILIDAD Y ESTADÍSTICA Tema 1: Espacios de Probabilidad. Pepe DIAZ (versión 7 de agosto de 2017) 1. Génesis de la Teorı́a de la Probabilidad. “El concepto de probabilidad es el más importante de la ciencia moderna, especialmente porque nadie tiene la mı́nima idea de lo que significa” Bertrand Russel (1929) 1.1. Introducción. . . . . . . . . . . . . . . . 1.2. Experimentos aleatorios. . . . . . . . . . 1.3. El espacio muestral. . . . . . . . . . . . 1.4. Sucesos . . . . . . . . . . . . . . . . . 1.5. Operaciones con sucesos. . . . . . . . . 1.6. La “definición” clásica. . . . . . . . . . 1.7. Limitaciones a la “definición” clásica. . 1.8. De “contar” a “medir”. . . . . . . . . . 1.9. Funciones de probabilidad. . . . . . . . 1.10. La familia P (Ω). . . . . . . . . . . . . 1.11. La necesidad de σ−álgebras. . . . . . . 1.12. σ−álgebras. . . . . . . . . . . . . . . . 1.13. La definición axiomática de Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 4 6 7 8 13 14 17 18 19 22 23 1.1 Introducción. En la actualidad la Teorı́a de la Probabilidad es una importante área de la matemática pura, con conceptos, procedimientos y resultados propios. Además es una herramienta, con innumerables aplicaciones, en otras ciencias y en otros campos de la misma matemática. Sin embargo, la probabilidad no siempre fue reconocida como una disciplina matemática, y se discutı́a si no se trataba de una “ciencia experimental o empı́rica” que no era parte de las “ciencias exactas o puras”. A inicios del siglo XX, muchos matemáticos se hallaban insatisfechos por la falta de claridad y rigor de algunos conceptos. Hasta la definición misma de probabilidad era cuestionada. Por ejemplo, en 1896 el matemático francés Henri Poincaré afirmó en su libro “Calcul des probabilités” que: “difı́cilmente puede uno dar una definición satisfactoria de Probabilidad” Fragmento de Calcul des probabilités (1896) Jules Henri Poincaré (1854 - 1912) En 1899 el matemático alemán David Hilbert, que siempre estuvo muy interesado en los Fundamentos de la Matemática y de la Fı́sica, publica el libro “Grundlagen der Geometrie” (Fundamentos de la Geometrı́a). En dicho tratado sustituye 1 1. Génesis de la Teorı́a de la Probabilidad. 1.1. Introducción. los tradicionales axiomas de Euclides por un conjunto de 20 axiomas[1] , y sujeto a los requisitos más estrictos del rigor matemático y por medios puramente lógicos deduce los teoremas de la geometrı́a euclı́dea elemental, remediando las falencias que existı́an en las deducciones realizadas por Euclides en sus “demostraciones”. El método axiomático presentado por Hilbert creo un precedente que cambió definitivamente la manera de fundamentar la matemática del siglo XX. David Hilbert (1862-1956) Portada de “Leçons sur la théorie des fonctions” (1898) Posteriormente, en el II Congreso Internacional de Matemática, realizado en Paris en 1900, en una de las principales conferencias, bajo el modesto tı́tulo: “Mathematische Probleme” (“Problemas matemáticos”) David Hilbert presentó una lista de 23 problemas abiertos[2] que consideraba que debı́an ocuparse los matemáticos durante el nuevo siglo que comenzaba. La lista de Hilbert constaba de importantes problemas no resueltos en Teorı́a de Números, Álgebra, Geometrı́a, Análisis, Teorı́a de Conjuntos y sobre todo en Fundamentos Axiomáticos de aquellas disciplinas que crecı́an sin una base rigurosa. En particular, dentro del sexto problema planteado, Hilbert solicitaba encontrar una base axiomática que permitiese fundamentar una teorı́a de los fenómenos aleatorios: “Las investigaciones sobre los fundamentos de la geometrı́a sugieren el problema de considerar de la misma manera, mediante axiomas, aquellas ciencias fı́sicas en donde la matemática juega un papel importante, en primer lugar la teorı́a de la probabilidad y la mecánica”. Es interesante observar que Hilbert considera a la probabilidad como parte de las ciencias fı́sicas y no como una disciplina matemática. En esa época los conceptos probabilı́sticos estaban definidos de forma imprecisa, eran ambiguos y demasiados apegados a la experiencia práctica. Además muchas resultados se deducı́an basandose en consideraciones intuitivas o empı́ricas y carecı́an de demostraciones rigurosas. Por estos motivos Hilbert le propone a los matemáticos a fines del siglo XIX realizar una fundamentación axiomática de la probabilidad. Una axiomatización similar a su construcción de la geometrı́a, que a partir de ciertas premisas minı́mas (axiomas) con el auxilio de la lógica y razonamientos formales , se puedan enunciar y demostrar las nuevas propiedades, construyendo de esta manera una teorı́a de la probabilidad. Se puede decir que el sexto problema de Hilbert, en cuanto a la probabilidad, queda resuelto recién en el año 1933, cuando el matemático ruso Andrey Kolmogórov publica un pequeño libro en alemán, llamado“Grundbegriffe der Wahrscheinlichkeitsrechnung” (“Fundamentos del cálculo de probabilidades”). Con las fundamentaciones de Kolmogorov la [1] originalmente el tratado de Hilbert tenı́a 21 axiomas, pero en 1902 el joven matemático estadounidense Robert Lee Moore, con 19 años deedad, demostró que el axioma 21 era redundante, es decir que se puede deducir de los anteriores. [2] En realidad, por falta de tiempo, Hilbert sólo pudo exponer tan sólo diez problemas, los otros trece problemas se presentaron en la versión escrita de la charla, publicada en las actas del mismo: “Sur les problèmes futures des Mathématique” , D. Hilbert, Comptes Rendus du Deuxième Congrès International des mathematiciens, Paris, p. 58-114, 1900 Facultad de Ingenierı́a - UM Pepe DIAZ 2 1. Génesis de la Teorı́a de la Probabilidad. 1.2. Experimentos aleatorios. probabilidad comienza a ser ampliamente aceptada como una teorı́a matemática. Andrey Nikolaevich Kolmogórov (1903-1987) Portada de Fundamentos del cálculo de probabilidades (1933) En su texto Kolmogórov formula un modelo matemático que es la base de una sólida teorı́a que prevalece hasta la actualidad, la llamada “Teorı́a Matemática de la Probabilidad” En las siguientes secciones se analizará el proceso que llevó a la formulación de este modelo matemático, que transformó el viejo “cálculo de probabilidades” en la moderna “teorı́a matemática de la probabilidad”. 1.2 Experimentos aleatorios. La teorı́a de la probabilidad es el área de la matemática que modela y estudia los experimentos llamados aleatorios[3] . ¿Qué entendemos por “experimento aleatorio”? Consideraremos que un experimento es “aleatorio” cuando conocemos sus resultados posibles, pero al realizar dicho experimento no sabemos exactamente cual de ellos ocurre.En otras palabras la naturaleza aleatoria del experimento impide predecir de antemano el resultado que obtendremos al llevarlo a cabo. Los juegos de azar proporcionan numerosos ejemplos de experimentos aleatorios. Uno de los ejemplos más sencillos es el lanzamiento de un dado. Los resultados posibles son seis pero al lanzar el dado no sabemos cual de los seis números saldrá. ¿Cómo se modela matemáticamente un experimento aleatorio?. Los “espacios de probabilidad” son los modelos matemáticos, creados durante el primer tercio del siglo XX por Kolmogorov, para estudiar los experimentos aleatorios. Tratemos de explicar, motivar y justificar la razón de este modelo. [3] La palabra “aleatorio” proviene de álea, dado en latı́n. Algunas frases atribuidas a Julio César (100 a. C.- 44 a. C.) se han conservado a través de los siglos y han alcalzado cierto grado de popularidad. Una de ellas es la frase en latı́n “álea jacta est” que significa literalmente “el dado fue echado” y de uso actual en español como “la suerte está echada”, que se usa frecuentemente cuando se toma una desición, de la cual no se puede retroceder, y cuyas consecuencias no dependen de uno mismo. Según el historiador romano Suetonio (70 d.C. - 130 d.C.) la frase fue pronunciada por Julio César el 10 de enero de 49 a.C. al cruzar el rı́o Rubicón con sus legionarios. Julio César sabı́a que el cruce del rı́o por sus ejércitos era un punto de no retorno, pues iniciaba la segunda guerra civil en Roma, contra Pompeyo (106 a. C.-48 a. C.) y la autoridad del Senado Romano; y “la suerte estaba echada” a partir de aquel momento. Facultad de Ingenierı́a - UM Pepe DIAZ 3 1. Génesis de la Teorı́a de la Probabilidad. 1.3. El espacio muestral. 1.3 El espacio muestral. Llamaremos espacio muestral al conjunto de todos los resultados posibles de un experimento aleatorio y lo indicaremos por Ω . A cada elemento ω del espacio muestral Ω le llamaremos punto muestral y al conjunto unitario {ω} le llamaremos suceso elemental [4] . Ilustraremos con la ayuda de algunos ejemplos los conceptos de espacio muestral y de suceso elemental. Ejemplo 1.1. El experimento aleatorio consiste en lanzar un dado y observar el número que aparece en la cara superior Como espacio muestral podemos tomar el conjunto ↔ {4} = “salió el número 4” Ω = {1, 2, 3, 4, 5, 6} donde los sucesos elementales se representan por los conjuntos {i} = “salió el número i” i = 1, 2, 3, 4, 5, 6 Ejemplo 1.2. El experimento aleatorio consiste en arrojar tres veces una moneda y observar los resultados obtenidos. Si indicamos por c a “cara” y por x a “cruz”, podemos tomar como espacio muestral el conjunto Ω = {ccc, xcc, ccx, cxc, xcx, cxx, xxc, xxx} (moneda de oro del emperador Theophilos, Imperio Bizantino, 829-831) donde los sucesos elementales están representados por los conjuntos {ccc} = “salieron tres caras” {xcc} = “primero salió cruz y luego dos caras” .. . {xxx} = “salieron tres cruces” Si en lugar de estar interezados en las secuencias de caras y cruces que salen al realizar el experimento, nos intereza el número de caras, podemos considerar otro espacio muestral asociado al mismo experimento Ω = {0, 1, 2, 3} [4] Ω es la letra griega omega mayúscula, ω es la letra griega omega minúscula. ———————– Es importante notar la difererencia entre ω y {ω}, mientras ω es un elemento de Ω, y se expresa ω ∈ Ω, por otro lado {ω} es un subconjunto de Ω, y se expresa {ω} ⊆ Ω . En otras palabras {ω} es el conjunto formado por el elemento ω. Facultad de Ingenierı́a - UM Pepe DIAZ 4 1. Génesis de la Teorı́a de la Probabilidad. 1.3. El espacio muestral. donde los sucesos elementales están representados por los conjuntos {i} = “se obtienen i caras en los tres lanzamientos” i = 0, 1, 2, 3 Ejemplo 1.3. Si se lanza un dado hasta obtener un seis, y estamos interesados en la cantidad de lanzamientos, como espacio muestral podemos tomar el conjunto Ω = {1, 2, 3, . . .} = N donde los sucesos elementales son {n} = “el dado se lanzó n veces hasta obtener el primer seis” n = 1, 2, 3, . . . por ejemplo ↔ {8} = “el dado se lanzó 8 veces hasta obtener el primer seis” Ejemplo 1.4. Se dispara, al azar, sobre un blanco que está formado por 3 cı́rculos concéntricos de radios 1,2 y 3, respectivamente. (No se toman en cuenta los impactos fuera del blanco). Como espacio muestral podemos tomar el conjunto Ω = (x, y) ∈ R2 : x2 + y 2 ≤ 9 donde los sucesos elementales son los puntos del plano {(x, y)} = “se alcanzó el punto (x, y) ” Facultad de Ingenierı́a - UM Pepe DIAZ con x2 + y 2 ≤ 9 5 1. Génesis de la Teorı́a de la Probabilidad. 1.4. Sucesos 1.4 Sucesos Un suceso es un resultado particular de un experimento aleatorio. En términos de conjuntos, un suceso es un subconjunto del espacio muestral Ω [5] Ejemplo 1.5. En el ejemplo 1.1, donde se lanza un dado y se observa el número que aparece en la cara superior, nos pueden interesar sucesos como A = “sacar un número par” = {2, 4, 6} B = “sacar un múltiplo de tres” = {3, 6} C = “sacar un número menor que 3” = {1, 2} que son subconjuntos del espacio muestral Ω = {1, 2, 3, 4, 5, 6} En general, al realizar un experimento aleatorio, sólo puede ocurrir un suceso elemental {ω}, pero muchos sucesos no elementales ocurren al mismo tiempo: todos los sucesos no elementales que contienen a ω. En el ejemplo anterior si ocurre {4} (“salió el número 4”) entonces ocurre el suceso no elemental A = {2, 4, 6} (“salió un número par”), pues 4 ∈ A y cualquier otro suceso que contenga a 4 En otras palabras, un suceso no elemental A ocurre si al realizar el experimento aleatorio ocurre un suceso elemental {ω} con ω ∈ A. Ejemplo 1.6. En el ejemplo 1.2, nos pueden interesar sucesos como A = “obtener por lo menos una cara” = {ccc, ccx, cxc, xcc, cxx, xcx, xxc} B = “obtener dos caras” = {ccx, cxc, xcc} C = “no sacar caras” = {xxx} que son subconjuntos del espacio muestral Ω = {ccc, ccx, cxc, xcc, cxx, xcx, xxc, xxx} Observación 1.1. El espacio muestral Ω también es considerado como un suceso (suceso que contiene todos los resultados posibles) y es llamado el suceso seguro, ya que ocurre siempre. También el conjunto vacı́o ∅ es considerado como un suceso (suceso que no contiene ningún resultado posible ) y es llamado el suceso imposible. [5] En este punto en particular estamos siendo poco rigurosos, si bien es cierto que un suceso es un subconjunto del espacio muestral Ω, no siempre es cierto que cualquier subconjunto de Ω es un suceso. En efecto cuando Ω tiene infinitos elementos pueden existir subconjuntos de Ω que no pueden ser considerados como sucesos. La definición correcta de suceso es otra. Siendo más precisos, los sucesos son subconjuntos de Ω que pertencen a una familia de conjuntos que cumple determinadas propiedades que más tarde detallaremos. En términos más intuitivos los sucesos son los subconjuntos de Ω a los cuales se les puede calcular la probabilidad que estamos considerando en nuestro experimento, y a los subconjuntos de Ω a los cuales no se le puede calcular tal probabilidad no serán sucesos. Al ir avanzando en la presentación, veremos más detalles e iremos explicando mejor estos comentarios. Facultad de Ingenierı́a - UM Pepe DIAZ 6 1. Génesis de la Teorı́a de la Probabilidad. 1.5. Operaciones con sucesos. 1.5 Operaciones con sucesos. Si bien en las aplicaciones el espacio muestral Ω se interpreta como el conjunto de resultados posibles de un experimento aleatorio, en el modelo teórico el espacio muestral Ω será simplemente un conjunto no vacı́o (sin necesidad de ninguna otra condición o interpretación). Esto constituye un hecho fundamental en la formalización teórica, pues permite la incorporación de la teorı́a de conjuntos en el modelo matemático de la probabilidad. De esta manera, como los sucesos son conjuntos las conocidas operaciones entre conjuntos se pueden interpretar como “operaciones entre sucesos” Dados dos sucesos A y B, podemos realizar las siguientes operaciones: Unión de sucesos. El suceso A ∪ B está formado por los resultados del suceso A y los resultados del suceso B. y tiene la siguiente interpretación: A ∪ B = “o bien ocurre A o bien ocurre B o bien ocurren ambos a la vez” = “ocurre por lo menos uno de los sucesos A o B” Interseción de sucesos. El suceso A ∩ B está formado por los resultados comunes de A y B. y tiene la siguiente interpretación: A ∩ B = “ocurre A y ocurre B” (simultáneamente) En ocasiones podremos encontrarnos con sucesos que no tengan elementos en común, es decir que A ∩ B 6= ∅ En estos casos se dice que los sucesos A y B son disjuntos ( o incompatibles, o mutuamente excluyentes) Complemento. El suceso Ac (“complemeto de A”) está formado por los resultados de Ω que no pertenecen al suceso A es decir Ac = “no ocurre A” Facultad de Ingenierı́a - UM Pepe DIAZ 7 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. Combinando las operaciones básicas anteriores se tienen nuevas operaciones: Diferencia de sucesos. El suceso diferencia se define como def A \ B = A ∩ Bc y tiene la siguiente interpretación: A \ B = “ocurre A y no ocurre B” Diferencia simétrica de sucesos. El suceso diferencia simétrica se define como def A4B = (A − B) ∪ (B − A) = (A ∩ B c ) ∪ (B ∩ Ac ) y tiene la siguiente interpretación: A4B = “ (ocurre A y no ocurre B) o (no ocurre A y ocurre B) ” = “o bien ocurre A o bien ocurre B pero no ocurren ambos a la vez” 1.6 La “definición” clásica. En 1812, el matemático francés Pierre-Simon de Laplace publica un tratado de 464 páginas, dividido en dos libros, titulado “Théorie Analytique de Probabilitiés”.[6] En esta extensa obra Laplace recopila, en forma ordenada y sistemática, todo el conocimiento que se tenı́a hasta ese momento sobre el “cálculo de probabilidades”, junto con importantes aportes propios. Es el primer intento de formalizar una teorı́a de la probabilidad. Laplace formula siete “principios generales”. El primero de estos principios es una tentativa de definición de probabilidad, que se conoce como la “definición” clásica. “El primer principio es la misma definición de probabilidad, que, como hemos visto, es la relación entre el número de casos favorables y la de todos los casos posibles. Pero esto supone los diversos casos igualmente posibles” Pierre-Simon Laplace (1749 - 1827) Fragmento de Théorie Analytique de Probabilitiés (1812) [6] Que en ediciones posteriores será ampliado a 506 páginas bajo el tı́tulo “Essai Philosophique sur les Probabilités”. Facultad de Ingenierı́a - UM Pepe DIAZ 8 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. La definición clásica, errónea e injustamente, se conoce como “definición de Laplace o laplaciana”, pues se le suele atribuir a Laplace, debido a que la estableció formalmente y le dió amplia divulgación a travez de su obra, donde la enunció como su “primer principio”. Sin embargo, el pionero en formular la “definición” clásica fue el matemático suizo Jacob Bernoulli en su obra póstuma “Ars Conjectandi” publicada en latı́n en 1713, algunos años después de su muerte. Habiendo considerado previamente un total de a casos posibles divididos en dos grupos, con b y c casos respectivamente, es decir a = b + c, en la pag.31 de su obra Bernoulli considera la “suerte” (o probabilidad) como un cociente, que lo indetificamos con la “definición” clásica, casi 100 años antes de que la formulara Laplace “Si quiere alcanzar el destino en el primer intento, su suerte, como hemos visto, es a−c = ab ” a Jacob Bernoulli (1654 - 1705) Fragmento de Ars conjectandi (1713) Posteriormente, nos encontramos con la “definición” clásica en la introducción del artı́culo “The Doctrine of Chances” del matemático francés De Moivre publicado en inglés[7] en 1718 “...si constituimos una fracción donde el numerador es el número de posibilidades por el que un evento puede ocurrir, y el denominador el número de todas las posibilidades por el cual puede o pasar o fallar,esa fracción será una designación apropiada de la probabilidad de que ocurra Abraham De Moivre (1654 - 1705) Fragmento de The Doctrine of Chances (1718) En el contexto de nuestro curso, podemos reformular la “definición” clásica de la siguiente manera Si realizamos un experimento aleatorio en el que hay una cantidad finita de resultados posibles, todos igualmente probables, entonces si A es un suceso, la probabilidad de que ocurra el suceso A es: P (A) = “casos favorables al suceso A” “casos posibles del experimento aleatorio” (“definición” clásica) (1.-2) [7] De Moivre estaba exiliado en Inglaterra por motivos religiosos. Facultad de Ingenierı́a - UM Pepe DIAZ 9 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. Escribimos entre comillas la palabra definición, pues en realidad no puede considerarse como una definición en una teorı́a matemática. Más adelante indicaremos las deficiencias y limitaciones de está “definición” (ver página 13). Sin embargo es indiscutible su utilidad práctica. Muchos de los problemas históricos se resolvieron aplicando la “definición” clásica. A continuación, a pesar de no tener una definición razonble, a partir de la “definición” clásica vamos a resolver unos ejemplos sencillos. Esto nos permitirá enteder y descubrir las propiedades que caracterizan a las probabilidades observadas en estos ejemplos. Paso fudamental para poder llegar a una correcta definición de probabilidad, que incluya, como caso particular, a la “definición” clásica. Tener presente que los cálculos, en muchos probelmas prácticos, realizados con la “definición” clásica son correctos; pues la definción clasica será un modelo particualr, un “ejemplo”, en la teorı́a que vamos a desarrollar. Lo que es incorrecto es tomar este “ejemplo” como una definición general. Ejemplo 1.7. Se lanza un dado. (a) ¿Cuál es la probabilidad de obtener un número par? (b) ¿Cuál es la probabilidad de obtener un número múltiplo de tres? (c) ¿Cuál es la probabilidad de obtener un número par y menor que 5? El espacio muestral Ω = {1, 2, 3, 4, 5, 6} (a) siendo A = “sacar un número par” = {2, 4, 6} la probabilidad es P(A) = 3 1 = 6 2 (b) siendo B = “sacar un múltiplo de tres” = {3, 6} la probabilidad es P(B) = 2 1 = 6 3 (c) siendo C = “sacar un número par y menor que 5” = {2, 4} la probabilidad es P(C) = 1 2 = 6 3 Veamos, para finalizar esta sección, algunos ejemplos históricos, donde la aplicación de la “definición” clásica, cuando no es posible, nos conduce a conclusiones erradas. Errores que son tı́picos entre quienes se inician en el estudio de la probabilidad. Ejemplo 1.8. Galileo y el problema del duque de Toscana. Aproximadamente entre 1612 y 1624, Galileo escribió un tratado “Sopre le Scoperte dei dadi” (“Sobre los descubrimientos del dado”) [8] que contiene una respuesta a un problema asociado al juego de dados llamado “pasadiez”. Este juego consiste en lanzar 3 dados, y el jugador gana si la suma es superior a diez y pierde en caso contrario. Es un buen ejercicio probar que este juego es “justo” (equitativo), es decir, las probabilidades de perder y de ganar Facultad de Ingenierı́a - UM Pepe DIAZ 10 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. son iguales. Cosimo II de Médicile (1590-1621) Galileo Galilei (1564-1642) Pero habı́a un hecho que extrañaba al Gran Duque de Toscana Cosimo II de Médici. Luego de jugar muchas partidas, cada vez que perdı́a, observó que el 10 salı́a con más frecuencia que el 9, y no entendı́a por qué, ya que hay la misma cantidad de casos posibles en cada suma: las seis maneras de obtener suma 9 las seis maneras de obtener suma 10 Si hay 6 maneras en ambos casos,¿por qué no se obsevan con la misma frecuencia?. El duque consultó el problema a Galileo, quien encontró el error en el razonamiento del duque y dió la solución correcta. Galilelo observó que los sucesos considerados por el duque no son “igualmente probables”. Por ejemplo para obtener 9 si sale 3 en los tres dados hay una sola posibilidad: 3 + 3 + 3, mientras que obtener 10 si sale un 4 y dos 3 hay tres posibilidades: 3 + 3 + 4 = 3 + 4 + 3 = 4 + 3 + 3 (una manera de visualizar este hecho es pensar que se tiene dados de distintos colores) dos sucesos no equiprobables suma 9 suma 10 {3, 3, 3} cuatro sucesos equiprobables suma 10 suma 9 {3, 3, 4} (3, 3, 3) (3, 3, 4) , (3, 4, 3) , (4, 3, 3) los sucesos elementales son subconjuntos de tres elementos los sucesos elementales son ternas ordenadas de elementos (para el Duque de Toscana) (para Galileo) Luego, para Galileo, los casos favorables al suceso “la suma es nueve” son las siguientes 25 ternas ordenadas (1, 2, 6) (1, 6, 2) (2, 1, 6) (2, 6, 1) (6, 1, 2) (6, 2, 1) Facultad de Ingenierı́a - UM (1, 3, 5) (1, 5, 3) (3, 1, 5) (3, 5, 1) (5, 1, 3) (5, 3, 1) (2, 2, 5) (2, 5, 2) (5, 2, 2) (1, 4, 4) (4, 1, 4) (4, 4, 1) Pepe DIAZ (2, 3, 4) (2, 4, 3) (3, 2, 4) (3, 4, 2) (4, 2, 3) (4, 3, 2) (3, 3, 3) 11 1. Génesis de la Teorı́a de la Probabilidad. 1.6. La “definición” clásica. y los casos favorables a “la suma es diez” son 27 ternas ordenadas (1, 3, 6) (1, 6, 3) (3, 1, 6) (3, 6, 1) (6, 1, 3) (6, 3, 1) (1, 4, 5) (1, 5, 4) (4, 1, 5) (4, 5, 1) (5, 1, 4) (5, 4, 1) (2, 2, 6) (2, 6, 2) (6, 2, 2) (2, 3, 5) (2, 5, 3) (3, 2, 5) (3, 5, 2) (5, 2, 3) (5, 3, 2) (2, 4, 4) (4, 2, 4) (4, 4, 2) (3, 3, 4) (3, 4, 3) (4, 3, 3) Como la cantidad de resultados posibles (ternas ordenadas) son 6 × 6 × 6 = 216, las probabilidades respectivas resultan ser[9] : 27 25 y P (“la suma es 10”) = P (“la suma es 9”) = 216 216 Ejemplo 1.9. El error de D’Alembert. ¿Cuál es la probabilidad de que salga cara por lo menos una vez cuando se lanzan dos monedas?. En 1754 el célebre matemático francés D’Alembert analizó el problema diciendo que existı́an tres casos posibilidades: una cara. dos caras ninguna cara Jean le Rond D’Alembert (1717-1783) de los cuales dos son favorables, y por consiguiente la probabilidad buscada es 23 . Nuevamente, al igual que el ejemplo anterior, se comete el error de considerar sucesos como equiprobables cuando en realidad no lo son. El suceso “una cara” tiene dos “maneras” de ocurrir, mientras que los otros dos ocurren de una sola “manera” y por lo tanto no son equiprobables. La afirmación anterior resulta clara si lanzamos una moneda tras otra y no simultáneamente una cara una cara dos caras ninguna cara primer lanzamiento segundo lanzamiento ro si las monedas son distinguibles, por ejemplo, podemos pensar que se tienen monedas acuñadas en metales [8] Este ensayo, en la colección de obras de Galileo publicadas en 1718, aparece bajo el tı́tulo “Consideratione sopra il Giuco dei Dadi” (“Consideraciones sobre el juego de los dados”) [9] Como la diferencia entre las probabilidades es mı́nima, el juego “pasa diez”, más que un juego debió ser un vicio para el duque, pues sólo jugando muchas veces se puede percibir tal diferencia. Facultad de Ingenierı́a - UM Pepe DIAZ 12 1. Génesis de la Teorı́a de la Probabilidad. 1.7. Limitaciones a la “definición” clásica. distintos una cara dos caras ninguna cara El análisis correcto es observar que hay 4 casos posibles y “ocurre cara por lo menos una vez” en 3 de estos casos, por lo tanto la probabilidad buscada es 34 . Es sorprendente que D’Alembert no haya intententado realizar una verificación experimental, pues basta con lanzar las monedas unas cuantos veces para darse cuenta que sus tres resultados posibles no ocurren con igual frecuencia. 1.7 Limitaciones a la “definición” clásica. Uno de los problemas fundamentales para desarrollar una teorı́a matemática de la probabilidad fue, durante varios siglos, la definicón misma de probabilidad. Desde un punto de vista teórico la “definición” clásica dada en (1.6) no puede considerarse como una definición, pues introduce el término a definir en el enunciado de la misma definición: ¿qué sentido tiene la frase “igualmente probables” cuando todavı́a no se dió la definición de probabilidad? Por lo tanto, la teorı́a de la probabilidad que se estaba desarrollando a partir de esta “definición” no era aceptable y no se consideraba como parte de la matemática. Era necesirio encontrar una definición satisfactoria de probabilidad. También desde un punto de vista práctico la “definición” clásica tiene sentido en experimentos con una cantidad finita de resultados posibles los cuales tienen la misma probabilidad de ocurrir (“equiprobabilidad”). Es decir que la “definición” clásica no es aplicable, en muchas situaciones de interés, donde no hay equiprobabilidad de los sucesos elementales. Lo mismo ocurre si espacio muestral es infinito. Ilustramos estas situaciones con los siguientes ejemplos. Ejemplo 1.10. Si se arroja una moneda tres veces. Modelamos el espacio muestral con el conjunto (donde c = “cara” y x =“cruz”) Ω = {ccc, ccx, cxc, xcc, cxx, xcx, xxc, xxx} luego si consideramos los sucesos A = “obtener tres caras” = {ccc} y B = “obtener tres cruces” = {xxx} y aplicamos la “definición” clásica, resulta que los sucesos tienen la misma probabilidad P(A) = P(B) = Facultad de Ingenierı́a - UM Pepe DIAZ 1 8 13 1. Génesis de la Teorı́a de la Probabilidad. 1.8. De “contar” a “medir”. Pero si la moneda está “cargado” de tal manera que “salir cara” es bastante más probable que “salir cruz” (no hay equiprobabilidad) no parece razonable que P(A) = P(B) !!!!!!! es más creı́ble que[10] P(A) > P(B) Ejemplo 1.11. En el ejemplo 1.4 los disparos que impactan en el cı́rculo interior valen 100 puntos, los que impactan en el anillo interior valen 10 puntos y los que impactan el anillo exterior valen 1 punto el espacio muestral Ω Si se lanza el dardo al azar (es decir sin apuntar al blanco) ¿Cuál es la probabilidad de obtener 100 puntos?. (No se toman en cuenta los impactos fuera del blanco). Modelamos el espacio muestral con el conjunto (infinito no numerable) Ω = (x, y) ∈ R2 : x2 + y 2 ≤ 9 y consideramos el suceso A = “obtener 100 puntos” = (x, y) ∈ Ω : x2 + y 2 ≤ 1 Aquı́ no tiene sentido plantear “casos favorables al suceso A” = “casos posibles del experimento aleatorio” “cantidad de elementos del suceso A” ∞ = = =??????? “cantidad de elementos de Ω” ∞ P (A) = 1.8 De “contar” a “medir”. Desde sus inicios y durante muchos años el “cálculo deprobabilidades” se circunscribió a problemas relacionados con los juegos de azar, y en tal contexto, las probabilidades de los sucesos se obtenı́an sencillamente contando los resultados posibles y favorables. Pero en problemas como el del ejemplo 1.11 ya que no podemos “contar” (hay infinitas posibilidades), sino que es necesario “medir”. [10] Por ejemplo, si la moneda está “cargado” de tal manera que la probabilidad de obtener “cara” es el doble de la probailidad de obtener 2 1 y la probabilidad de “cruz” es ), veremos más adelante, luego de dar una correcta definición 3 3 de probabilidad y usando el concepto de “independencia” que lo razonable es 3 3 2 8 1 1 P(A) = = y P(B) = = 3 27 3 27 “cruz” (es decir la probailidad de “cara” es Facultad de Ingenierı́a - UM Pepe DIAZ 14 1. Génesis de la Teorı́a de la Probabilidad. 1.8. De “contar” a “medir”. Ejemplo 1.12. Continuando con el ejemplo 1.11 anterior, dado que el dardo se lanza al azar, es decir sin apuntar al blanco, es razonable suponer que cuanto “más grande” es un suceso es más probable que ocurra y cuanto “más pequeño” es menos probable. Es decir que que la probabilidad de un suceso depende únicamente de su área y no de su “forma” y “ubicación” en el blanco. En este contexto “equiprobabilidad” significa igual área. Es ası́ que una respuesta razonable a nuestro problema es P (A) = π 1 área (A) = = área (Ω) 9π 9 área (A) = π A = (x, y) ∈ Ω : x2 + y 2 ≤ 1 = “obtener 100 punos” área (Ω) = 9π Ω = (x, y) ∈ R2 : x2 + y 2 ≤ 9 Estas probabilidades que se resolvieron “midiendo” longitudes, áreas o volúmenes se llamaron históricamente “probabilidades geométricas” Uno de los primeros antecedentes de probabilidades geométricas, que se ha convertido con el tiempo en una referencia clásica, es el problema conocido como “la aguja de Buffon”. El problema fue propuesto en 1733 por el naturalista francés Georges Louis Leclerc, nombrado Conde de Buffon por Luis XV. Si bien en su juventud tuvo inclinación por la matemática, el Conde de Buffon se distinguió en la biologı́a. Autor de la famosa “Histoire Naturelle”, una monumental obra de 44 volúmenes[11] donde presentó sus teorı́as y recopiló el conocimiento cientı́fico sobre el mundo natural de su época.[12] Georges Louis Leclerc Conde de Buffon (1708-1788) Portada del Suplemento, volumen IV, Historia Natural (1777) [11] La primera publicación se realizó en 1749, y en el lapso de treinta y nueve años hasta su muerte, publicó treinta y seis volúmenes, mientras que los ocho volúmenes finales aparecieron tras su muerte. [12] Las ideas del Conde de Buffon, y la del otro gran naturalista de su siglo, el sueco Carl Nilsson Linneo (1707-1778), influyeron sobre las siguientes generaciones de naturalistas, en particular sobre los franceses Jean-Baptiste Lamarck (1744-1829) y Georges Cuvier (1769-1832) y el inglés Charles Darwin (1809-1882). Facultad de Ingenierı́a - UM Pepe DIAZ 15 1. Génesis de la Teorı́a de la Probabilidad. 1.8. De “contar” a “medir”. Pero el Conde de Buffon no abandonó nunca su interés por la matemática. Es ası́ que el Suplemento, volumen IV, de su Historia Natural, publicado en 1777 contiene su “Essai d’Aritmétique Morale” , en el cual se encuentra la solución de su famoso problema.[13] Dibujo realizado por buffon en su solución (pag. 101 Essai d’Aritmétique Morale) Ejemplo 1.13. La aguja de Buffon. Sobre un plano que está rayado por rectas paralelas, equidistantes entre sı́ a una distancia de 2a, lanzamos al azar una aguja de longitud 2l (l < a). ¿Cuál es la probabilidad de que la aguja corte alguna de las paralelas? La solución presentada por el Conde de Buffon es la siguiente. Sea x la distancia del centro de la aguja a la paralela más próxima y θ el ángulo que la aguja forma con dicha paralela [13] Este suplemento también continene un intersante trabajo estadı́stico, donde el Conde de Buffon elabora una serie de “tablas de mortalidad”, en las que registra las edades en las que morı́a la gente de Parı́s y sus alrededores, y calculó las expectativas de vida de esta población.. Facultad de Ingenierı́a - UM Pepe DIAZ 16 1. Génesis de la Teorı́a de la Probabilidad. 1.9. Funciones de probabilidad. Al lanzar la aguja al azar la distancia x puede tomar cualquier valor en [0, a] y el ángulo θ puede tomar cualquier valor en [0, π]. Ası́ el rectángulo Ω = [0, π] × [0, a] representa todas las posibles posiciones de la aguja al ser lanzada respecto a su paralela más próxima. La aguja cortará a la paralela más próxima sólo si la distancia del centro de la aguja a dicha paralela es menor o igual que la proyección de la mitad de su longitud: x ≤ l sin θ es decir que la aguja cortará a la paralela más próxima si ocurre el suceso A = {(θ, x) ∈ Ω : x ≤ l sin θ} con lo cual Zπ (l sin θ) dθ área (A) P(A) = = área (Ω) 0 aπ = 2l aπ La “probabilidad geométrica” fue una extensión de la “definición” clásica en donde ahora la probabilidad de un suceso ya no se calcula a través de su cardinal sino mediante la determinación de su longitud, área, volumen o alguna “medida” que da una idea del “tamaño” del suceso. 1.9 Funciones de probabilidad. Siguiendo con el desarrollo teórico, nos preguntamos ¿qué es una probabilidad?. Si analizamos los ejemplos anteriores (o cualquier otro experimento aleatorio) al calcular una probabilidad a un suceso siempre le asignamos, ya sea “contando” elementos o “midiendo” longitudes, áreas o volúmenes, un número. Dicho número indica el grado de confianza que tenemos sobre la ocurrencia de dicho suceso. Ejemplo 1.14. Se lanza dos monedas, una de 10 y otra de 5 pesos. Si consideramos el suceso A =“salen dos escudos”, es razonable que P(A) = Facultad de Ingenierı́a - UM 1 4 Pepe DIAZ 17 1.10. La familia P (Ω). 1. Génesis de la Teorı́a de la Probabilidad. En matemática, el concepto de función aparece como el “mecanismo” de asignar números a un conjunto. Por lo tanto una manera de formalizar el concepto de probabilidad será con el concepto de función. En concreto una probabilidad P será una función con un dominio en “una familia A de sucesos” y cuyo codominio son los números reales R: P :A → R Pero para formalizar esta idea tenemos que precisar con mas detalle: el dominio de nuestra función de probabilidad, es decir ¿que cosa es “una familia A de sucesos”? y si bien es claro que la función P (probabilidad) será distinta en cada aplicación, ¿qué propiedades básicas tienen en común estas funciones (probabilidades) que las caracterizan como tales? 1.10 La familia P (Ω). Recordemos que la familia[14] de partes de Ω, denotada por P (Ω), es un conjunto cuyos elementos son todos los subconjuntos posibles de Ω. Por ejemplo, Ejemplo 1.15. Si Ω = {a, b, c} entonces la familia de todos los subconjuntos de Ω es[15] =Ω z }| { P (Ω) = ∅, {a} , {b} , {c} , {a, b} , {a, c} , {b, c} , {a, b, c} (Recordar que de acuerdo con la Teorı́a de Conjuntos el conjunto vacı́o siempre es un subconjunto de cualquier conjunto, esto es, ∅ ⊆ Ω para cualquier conjunto Ω). Ejemplo 1.16. Si lanza una moneda y el espacio muestral es Ω = {c, x} (donde c = “cara” y x =“cruz”) la familia de todos los sucesos es =Ω z }| { P (Ω) = ∅, {c} , {x} , {c, c} [14] Se llama familia a un conjunto cuyos elementos son conjuntos. [15] Tener presente la diferencia entre a y {a}. Mientras a es un elemento de Ω, y se expresa a ∈ Ω, por otro lado {a} es el conjunto formado por el elemento a, es decir que {a} es un subconjunto de Ω, y se expresa {a} ⊆ Ω. Facultad de Ingenierı́a - UM Pepe DIAZ 18 1. Génesis de la Teorı́a de la Probabilidad. 1.11. La necesidad de σ−álgebras. Ejemplo 1.17. Si se lanza una dado y el espacio muestral es Ω = {1, 2, 3, 4, 5, 6} la familia de todos los sucesos es ∅, {1}, {2}, {3}, {4}, {5}, {6}, {1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}, {2, 3}, {2, 4}, {2, 5}, {2, 6}, {3, 4} P (Ω) = {3, 5}, {3, 6}, {4, 5}, {4, 6}, {5, 6}, {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 2, 6}, {1, 3, 4}, {1, 3, 5}, {1, 3, 6} {1, 4, 5}, {1, 4, 6}, {1, 5, 6}, {2, 3, 4}, {2, 3, 5}, {2, 3, 6}, {2, 4, 5}, {2, 4, 6}, {2, 5, 6}, {3, 4, 5}, {3, 4, 6} {3, 5, 6}, {4, 5, 6}, {3, 4, 5, 6} , {2, 4, 5, 6} , {2, 3, 5, 6} , {2, 3, 4, 6} , {2, 3, 4, 5} , {1, 4, 5, 6} , {1, 3, 5, 6} , {1, 3, 4, 6} , {1, 3, 4, 5} , {1, 3, 5, 6} , {1, 2, 4, 6} , {1, 2, 4, 5} , {1, 2, 3, 6} , {1, 2, 3, 5} , {1, 2, 3, 4} {2, 3, 4, 5, 6} , {1, 3, 4, 5, 6} , {1, 2, 4, 5, 6} , {1, 2, 3, 5, 6} , {1, 2, 3, 4, 6} , {1, 2, 3, 4, 5} , Ω En un principio, parece razonable considerar como dominio de nuestras funciones de probabilidad a la familia P (Ω) de todos los sucesos Pero, como veremos en la siguiente sección, esto no será siempre posible. 1.11 La necesidad de σ−álgebras. Cuando el espacio muestral Ω es infinito no numerable no siempre puede considerarse a la familia P (Ω) como dominio de algunas funciones de probabilidad. En efecto, en el año 1904, unos de los creadores de la Teorı́a de la Medida e Integración, el matemático francés Henri Facultad de Ingenierı́a - UM Pepe DIAZ 19 1. Génesis de la Teorı́a de la Probabilidad. 1.11. La necesidad de σ−álgebras. Lebesgue planteó en su libro “Leçons sur l’integration” el llamado “problema de la medida” Henri Léon Lebesgue (1875-1941) Portada de Leçons sur l’integration (1904) que podemos reformularlo en el contexto que estamos estudiando de la siguiente manera: Ejemplo 1.18. Consideremos el experimento aleatorio que consistente en la elección al azar de un punto en el intervalo [0, 1]. Podemos considerar como espacio muestral Ω al propio intervalo [0, 1], donde los sucesos elementales son {x} = “se obtiene el número x ∈ [0, 1] ” y considerar a cada subconjunto A ⊆ [0, 1] como un suceso, en el sentido que “ocurre A” = “se obtiene un número x ∈ A” Es decir que el dominio de la probabilidad que queremos definir es la familia P ([0, 1]) de todos los subconjuntos de [0, 1]. La condición de que la elección del número se realiza al azar determina que la probabilidad se distribuye uniformemente en todo el intervalo [0, 1], en el sentido que la probabilidad de un suceso dependará exclusivamente de su “tamaño”[16] y no de su posición dentro del intervalo [0, 1][17] . Un modelo razonable es la siguiente función de probabilidad: P :P ([0, 1]) → R tal que def P (A) = longitud(A) Facultad de Ingenierı́a - UM Pepe DIAZ (1.-2) 20 1. Génesis de la Teorı́a de la Probabilidad. De esta manera siendo 1.11. La necesidad de σ−álgebras. 1 1 0, = “obtener un número menor o igual a ” 2 2 podemos calcular probabilidad 1 1 1 P 0, = longitud 0, = 2 2 2 y siendo 1 1 , 1 = “obtener un número mayor a ” 3 3 la probabilidad será P Y si consideramos el suceso 1 1 2 ,1 = longitud ,1 = 3 3 3 1 1 = “obtener ” 2 2 entonces P 1 1 = longitud =0 2 2 Pero si nos propononemos sucesos “más complicados” , ¿cómo calculamos la probabilidad?, es decir, ¿cómo medimos la longitud de estos conjuntos?. Peor aún, existe tal probabilidad, es decir ¿es posible extender la noción de longitud a cualquier subconjunto de [0, 1]? ¿P (A) = longitud(A) tiene sentido para cualquier subconjunto A ⊆ [0, 1] ? Este es el problema (fórmulado de otra manera) que inquietaba a Lebesgue. Sin entrar en los detalles técnicos, en 1905 el matemático italiano Giuseppe Vitali en su artı́culo “Sul problema della misura dei gruppi di punti di una retta” dió un ejemplo donde muestra que existen subconjuntos en [0, 1] que no se les puede calcular la longitud. Giuseppe Vitali (1875 - 1932) El modelo (1.18) del ejemplo anterior no tiene sentido, pues no es posible definir la función de probabilidad sobre todos los subconjuntos de [0, 1]. Por lo tanto si queremos modelar el experimento aleatorio donde se elije un punto al azar en el intervalo [0, 1], de tal modo que la probabilidad de un suceso sea la longitud del mismo, no podemos definirla sobre todos los subconjuntos de [0, 1] . [17] Intuitivamente, cuanto “más grande” es un suceso es más probable que ocurra y cuanto “más pequeño” es menos probable. [17] Intuitivamente, un suceso y una traslación del mismo deberán tener la misma probabilidad. Facultad de Ingenierı́a - UM Pepe DIAZ 21 1. Génesis de la Teorı́a de la Probabilidad. 1.12. σ−álgebras. Es ası́, que en muchas situaciones cuando Ω es infinto no numerable, la familia P (Ω) es “muy grande”. Para solucionar este problema debemos modificar el dominio de la función de probabilidad, tenemos que restringirnos una familia A “más pequeña” de sucesos, a los cuales les podemos calcular la probabilidad.[18] En la práctica, dado un experimento aleatorio raramente se tiene interés en todos los posibles subconjuntos de Ω, lo habitual es estar interesados en unos pocos sucesos. En términos intuitivos la familia A debe ser lo “suficientmente grande” de modo que contenga a los sucesos que son interés en las aplicaciones y lo “suficientemente pequeña” de modo que no tenga encuenta aquellos conjuntos que no se puede “medir” con la probabilidad, y que no interesan prácticamente. Tales familias de subconjuntos se llaman σ-álgebras y los presentaremos en la próima sección. 1.12 σ−álgebras. Por lo visto en la sección anterior estamos interesados en familias A de subconjuntos de Ω sin la necesidad de que en A estén todos los subconjuntos de Ω. La familia A de subconjuntos de Ω serán nuestros sucesos, es decir aquellos subconjunto de Ω que queremos “medir” en algun sentido (asignarle una probabilidad). Vimos en las secciones precedentes que nos intersa operar con sucesos (sección 1.5, página 7) por lo tanto. parece razonable pedir que nuestra familia A debe ser cerrada frente a estas operaciones. Esto nos lleva al concepto de σ-álgebra. Definición 1.1 Sea Ω un conjunto no vacı́o. Una familia A de subconjuntos de Ω se dice una σ−álgebra en Ω si: (S1) Ω ∈ A (S2) Si A ∈ A ⇒ Ac ∈ A ∞ S (S3) Si An ∈ A ∀n ⇒ An ∈ A n=1 [18] La solución al “problema de la medida” la proporcionó el propio Lebesgue. Considero una familia de conjuntos B mı́nima (en el sentido de la inclusión) que contiene a todos los intervalos y a todos los conjuntos que se obtinen como uniones numerables, intersecciones numerables y complemeto de elementos de esta familia. Lebesgue llamó a esta familia “colección de conjuntos de Borel o boreleanos” en honor a su maestro. Un conjunto se dice nulo cuando tiene medida nula, y un conjunto se dice despreciable si está contenido estrictamente en un conjunto nulo. Cuando todos los conjuntos despreciables se pueden medir (y por lo tanto tienen medida nula) la medida que se esta considerando se dice completa. Lebesgue definió una medida, hoy llamada medida de Lebesgue, que es la única medida completa, invariante por translaciones, definida sobre los boreleanos, que es una extensión natural de la longitud de los intervalos. Facultad de Ingenierı́a - UM Pepe DIAZ 22 1. Génesis de la Teorı́a de la Probabilidad. 1.13. La definición axiomática de Kolmogorov. Las propiedades (S2) y (S3) nos dicen que la familia A es cerrada al efectuar las operaciones usuales de complemente y unión. Además de las propiedades (S1), (S2) y (S3) se deduce: Proposición 1.1 Si A es una en Ω entonces (1) ∅ ∈ A (2) Si A1 , A2 , . . . , Am ∈ A ⇒ A1 ∪ A2 ∪ . . . ∪ Am ∈ A (3) Si An ∈ A ∀n ⇒ ∞ T An ∈ A n=1 (4) Si A1 , A2 , . . . , Am ∈ A ⇒ A1 ∩ A2 ∩ . . . ∩ Am ∈ A Demostración. (Ejercicio) Por lo tanto de (2), (3) y (4) las σ−álgebras son estructuras también cerradas bajo las operaciones de uniones finitas, intersecciones (infinitas numerables) e intersecciones finitas. En resumen nuestras funciones de probablidad P :A → R tendrán dominio en una σ−álgebra A de sucesos 1.13 La definición axiomática de Kolmogorov. “La Teorı́a de la Probabilidad, como disciplina matemática, puede y debe ser desarrollada a partir de unos axiomas, de la misma manera que la Geometrı́a o el Álgebra” Andrei Nikolaevich Kolmogorov (1933) Si bien es claro que la función P (probabilidad) será distinta en cada aplicación, ¿qué propiedades básicas o mı́nimas tienen en común las funciones de probabilidad que las caracterizan como tales?. Estas propiedades se convierten precisamente en los axiomas de la definición de Kolmogorov Definición 1.2 (Axiomática de Kolmogorov) Sea Ω un conjunto no vacı́o y A una σ−álgebra en Ω. Una medida de probabilidad P es una función P : A → R que cumple las siguientes propiedades: (Axioma 1) (positivad) 0 ≤ P(A) (Axioma 2) (normalización) ∀A∈A P(Ω) = 1 (Axioma 3) (σ − aditividad) Si An ∈ A ∀n ∈ N y Ai ∩ Aj = ∅ ∀ i 6= j ⇒ P ∞ S n=1 Facultad de Ingenierı́a - UM Pepe DIAZ An = ∞ P P(An ) n=1 23 1. Génesis de la Teorı́a de la Probabilidad. 1.13. La definición axiomática de Kolmogorov. En la definición axiomática, a diferencia de la “definción” clasica, no se pretende definir la probabilidad diciendo como hay que calcularla, sino que simplemente dice cuando una función es una medida de probabilidad. Es ası́ que el problema de calcular una probabilidad en un experimento aleatorio no es un problema de la teorı́a, es en esencia un problema práctico, donde la intuición y experiencia nos sirven para asignar la probabilidad más razonable respecto al experimento que estemos considerando. Facultad de Ingenierı́a - UM Pepe DIAZ 24 2. Espacios de probabilidad. “La probabilidad tiene una mano derecha y otra mano izquierda: en la derecha está el trabajo riguroso de sus fundamentos, usando resultados de la teorı́a de la medida, mientras la mano izquierda piensa de “manera probabilı́stica” reduciéndose a problemas de juegos de azar, lanzamientos de moneda o movimientos de partı́culas” Leo Breiman (1968) 2.1. Espacios de Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Propiedades elementales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Continuidad de las medidas de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . 25 29 39 2.1 Espacios de Probabilidad. Recordemos que si Ω es un conjunto no vacı́o tenemos las siguientes definiciones: Definición 2.1 Sea Ω un conjunto no vacı́o. Una familia A de subconjuntos de Ω se dice una σ−álgebra en Ω si: (S1) Ω ∈ A (S2) Si A ∈ A ⇒ Ac ∈ A (S3) Si An ∈ A ∀n ⇒ ∞ S An ∈ A n=1 Definición 2.2 (Axiomática de Kolmogorov) Sea Ω un conjunto no vacı́o y A una σ−álgebra en Ω. Una medida de probabilidad P es una función P : A → R que cumple las siguientes propiedades: (Axioma 1) (positivad) 0 ≤ P(A) ∀A∈A (Axioma 2) (normalización) P(Ω) = 1 (Axioma 3) (σ − aditividad) Si An ∈ A ∀n ∈ N y Ai ∩ Aj = ∅ ∀ i 6= j ⇒ P ∞ S n=1 An = ∞ P P(An ) n=1 Estos tres elementos constituyen una estructura matemática formal, llamada espacios de probabilidad , que nos permiten modelar los experimentos aleatorios y poder desarrollar una teorı́a rigurosa. La definición es la siguiente: 25 2. Espacios de probabilidad. 2.1. Espacios de Probabilidad. Definición 2.3 Un espacio de probabilidad es una terna (Ω, A, P) donde Ω es un conjunto no vacı́o, A es una σ-álgebra en Ω y P : A → R una medida de probabilidad Observación 2.1. Cada elemento de la terna que forma un espacio de probabilidad tiene interpretaciones bien concretas: El conjunto Ω representa al espacio muestral, es decir al conjunto de resultados posibles o sucesos elementales del experimento aleatorio. En la teorı́a se lo considera como un conjunto arbitrario no vacı́o, y no es imprescindible darle una interpretación. La σ-álgebra A representa a la familia de sucesos a los cuales queremos asignarle una probabilidad. En la teorı́a es una familia no vacı́a de subconjuntos de Ω, la cual es cerrada bajo las operaciones de tomar complementos y uniones numerables[1] . Tampoco, en la teorı́a, es imprescindible darle una interpretación en términos de sucesos. Finalmente la medida de probabilidad P es una medida de ocurrencia que se le asigna a cada suceso de A., siendo para la teorı́a una función P : A → R que cumple con los axiomas de Kolmogorov y esta libre de cualquier interpretación práctica. El problema práctico “calcular la probabilidad del suceso A” corresponde a determinar el valor funcional P (A) de acuerdo a las condiciones concretas del experimento aleatorio considerado. Como señalaba Kolmogorov en sus “fundamentos”, no se debe confundir el problema teórico de dar una definición de probabilidad con el problema práctico de calcular una probabilidad. En otras palabras, son preguntas bien distintas: “¿qué es la probabilidad?” (teorı́a) “¿cómo se calcula una probabilidad?” (práctica) Si bien es cierto que, primero en el “cálculo de probabilidades”, y posteriormente en la Teorı́a de la Probabilidad, se han obtenidos grandes avanzances en base a las interpretaciones prácticas, es importante destacar que sobre los espacios de probabilidad se desarrolla una teorı́a matemática sin necesidad de los significados prácticos de sus elementos. Presentemos algunos importantes ejemplos de espacios de probabilidad. En el primer ejemplo veamos que la “definición” clásica de la probabilidad, que se aplica al analizar experimentos aleatorios laplacianos[2] , se puede modelar por un espacio de probabidad. Es decir que la definición axiomática de Kolmogorov no descarta la “definición” clásica , por el contrario, la valida como un ejemplo de medida de probabilidad. Ejemplo 2.1. (Espacio de probabilidad finito uniforme) Consideramos un conjunto finito (no vacio) Ω = {ω1 , ω2 , ..., ωn } y la σ-álgebra A = P (Ω) formada por todos los subconjuntos de Ω. Es inmediato probar que la función P : A → R def P (A) = # (A) # (A) = # (Ω) n (“definición” clásica) [2] es decir a experimentos aleatorios que tienen un número finito de resultados posibles que tienen la misma probabilidad de ocurrir (“espacios muestrales finitos equiprobables”) Facultad de Ingenierı́a - UM Pepe DIAZ 26 2. Espacios de probabilidad. 2.1. Espacios de Probabilidad. es una medida de probabilidad (ejercicio) En particular para cada ωi ∈ Ω (i = 1, 2, ..., n) se tiene que P ({ωi }) = 1 n (equiprobabilidad en los sucesos elementales) Por lo tanto (Ω, A, P) es un espacio de probabilidad que modela la probabilidad clásica. El nombre de uniforme se justifica porque la probabilidad (“masa”) está uniformemente repartida en cada suceso elemental (“punto”) En situaciones como la anterior el problema de calcular la probabilidad de un suceso se reduce a contar todos los resultados posibles del experimento y ver cuántos de estos pertenecen al suceso que nos interesa. Por eso es bueno repasar algunas de las técnicas de conteo vistas en preparatorios. Ejemplo 2.2. Al tirar el dado equilibrado, ¿cuál es la probabilidad de obtener un número impar?. Como espacio muestral podemos considerar el conjunto Ω = {1, 2, 3, 4, 5, 6} donde el suceso elemental {i} representa salió el número i = 1, 2, ..., 6 Luego si consideramos el suceso A = “salió número impar” = {1, 3, 5} resulta que P (A) = # (A) 3 1 = = # (Ω) 6 2 El ejemplo 2.1 se puede generalizar, bastará con repartir la probabilidad (“la masa total unitaria”) en forma no uniforme en cada suceso elemental (“punto”) Ejemplo 2.3. (Espacio de probabilidad finito) Consideramos un conjunto finito Ω = {ω1 , ω2 , ..., ωn } y la σ-álgebra A = P (Ω) formada por todos los subconjuntos de Ω Sea p : Ω → R una función de probabilidad puntual en Ω, esto es, una función no negativa que cumple: p (ω1 ) + p (ω2 ) + ... + p (ωn ) = 1 (“masa total unitaria”) (intuitivamente a cada suceso elemental ωi ∈ Ω le estamos asignado una número real p (ωi ), que representa su probabilidad de ocurrir. Observar que 0 ≤ p (ωi) ≤ 1 para todo i = 1, ..., n). Facultad de Ingenierı́a - UM Pepe DIAZ 27 2. Espacios de probabilidad. 2.1. Espacios de Probabilidad. La función P : A → R tal que def P (A) = X p (ω) ω∈A P (A) es la “masa” del conjunto A pues sumamos todos los “masas” p (ω) con ω ∈ A es una medidade probabilidad (ejercicio) 1 Ejemplo 2.4. Un dado está cargado de modo que la probabilidad de obtener 6 es , mientras que la probailidad de 2 obtener las otras caras son iguales. Al tirar el dado, ¿cuál es la probailidad de obtener un número impar?. Como espacio muestral podemos considerar el conjunto Ω = {1, 2, 3, 4, 5, 6} donde el suceso elemental {i} representa salió el número i = 1, 2, ..., 6 Sabemos que p (6) = 1 2 y p (1) = p (2) = p (3) = p (4) = p (5) = p Pero como las “probabilidades puntuales” deben sumar 1: p (1) + p (2) + p (3) + p (4) + p (5) + p (6) = 1 tenemos que 5p + 1 1 =1⇔p= 2 10 Luego si consideramos el suceso A = “salió número impar” = {1, 3, 5} resulta que P (A) = p (1) + p (3) + p (5) = 3 5 El ejemplo anterior, fácilmente puede generalizarse al caso de un espacio muestral infinito numerable Ejemplo 2.5. (Espacio de probabilidad infinito numerable) Consideramos un conjunto infinito nunerable Ω = {ω1 , ω2 , ..., ωn , ...} Facultad de Ingenierı́a - UM Pepe DIAZ 28 2. Espacios de probabilidad. 2.2. Propiedades elementales. y la σ-álgebra A = P (Ω) formada por todos los subconjuntos de Ω. Sea p : Ω → R una función de probabilidad puntual en Ω, es decir, una función no negativa verificando que +∞ X p (ωn ) = 1 n=1 (intuitivamente a cada suceso elemental ωn ∈ Ω le estamos asignado una número real p (ωn ), que representa su probabilidad de ocurrir. Observar que 0 ≤ p (ωn ) ≤ 1). La función P : A → R tal que[3] X P (A) = p (ω) ω∈A es una medida de probabilidad (ejercicio ). Por lo tanto (Ω, A, P) es un espacio de probabilidad Observación 2.2. la equiprobabilidad es imposible en un espacio muestral infinito numerables. Algunas veces se afirma, erróneamente, que cuando el espacio muestral Ω es infinito no numerable no es posible definir una medida de probabilidad sobre la familia P (Ω) formada por todos los subconjuntos de Ω y por eso es necesario considerar una σ−álgebra A estrictamente menor que P (Ω). La afirmación anterior es falsa, pues como verenos en el siguiente ejemplo siempre se puede definir al menos una medida de probabilidad sobre P (Ω), cualquiera sea el conjunto no vacı́o Ω. Ejemplo 2.6. (Probabilidad puntual de Dirac) Sea Ω un conjunto no vacı́o (cualquiera).y la σ-álgebra A = P (Ω) formada por todos los subconjuntos de Ω. Tomemos un punto cualquiera ω0 ∈ Ω y definimos la función P : A → R tal que def 1 si ω0 ∈ A P(A) = 0 si ω0 ∈ /A Es inmediato verificar que P es una medida de probabilidad. Por lo tanto (Ω, A, P) es un espacio de probabilidad Cuando en espacio muestral Ω es infinito no numerable es imposible definir determinadas medidas de probabilidad sobre P (Ω). Por ejemplo es imposible definir una probabilidad uniforme sobre todos los subconjuntos en el intervalo [0, 1]. 2.2 Propiedades elementales. En esta sección se estudian las propiedades elementales que cumplen las medidas de probabilidad, las mismas se deducen inmediatamente de los axiomas de Kolmogorov (definición 2.2). [3] tener presente que siendo A un subconjunto de Ω y Ω numerable resulta que A es finito o infinito numerable, por lo tanto cuando A P P es finito “ ” es una suma ordinaria y cuando A es infinito numerable “ ” es una serie (convergente, con suma ≤ 1) ω∈A Facultad de Ingenierı́a - UM ω∈A Pepe DIAZ 29 2. Espacios de probabilidad. 2.2. Propiedades elementales. Teorema 2.1 (propiedades elementales) Sea (Ω, A, P) un espacio de probabilidad. Entonces la medida de probabilidad P cumple las siguientes propiedades: (1) P (∅) = 0 (2) (Aditividad finita). Si A1 , A2 , ...y Ak ∈ A y son disjuntos dos a dos (esto es Ai ∩ Aj = ∅ entonces ∀ i 6= j), P (A1 ∪ A2 ∪ ... ∪ Ak ) = P (A1 ) + P (A2 ) + ... + P (Ak ) (3) Para cualquier A ∈ A se cumple que P(Ac ) = 1 − P(A) (4) Para cualquier A ∈ A se cumple que P(A) ≤ 1 Demostración. (1) Definimos An = ∅ ∀n ∈ N. Luego se tiene que An ∈ A ∀n ∈ N y An ∩ Am = ∅ ∩ ∅ = ∅ ∀ n 6= m, entonces por la σ-aditividad (axioma 3) de las medidas de probabilidad ∞ ∞ X [ P(An ) P( An ) = n=1 n=1 | {z } | ∅ | Por lo tanto la serie ∞ X {z P(∅) } ∞ P {z } P(∅) n=1 P(∅) converge a P (∅), y esto solo es posible cuando P (∅) = 0 (pues si P (∅) 6= 0 tendrı́amos n=1 que 1 + 1 + 1 + ..... = 1) (2) Definimos B1 = A1 , B2 = A2 , . . . , Bk = Ak yBn = ∅ ∀n ≥ k + 1. An ∩ Am = ∅ si n < m ≤ k An ∩ ∅ = ∅ si n ≤ k < m , entonces por la σ-aditividad Luego se tiene que Bn ∈ A ∀n ∈ N y Bn ∩ Bm = ∅∩∅=∅ si k < n < m (axioma 3) de las medidas de probabilidad ! ∞ ∞ [ X P Bn = P(Bn ) n=1 | {z n=1 | } P(A1 ∪A2 ∪...∪Ak ) {z } P(A1 )+P(A2 )+...+P(Ak )+ ∞ X P(∅) n=k+1 | {z =0 } es decir P (A1 ∪ A2 ∪ ... ∪ Ak ) = P (A1 ) + P (A2 ) + ... + P (Ak ) (3) De la teorı́a elemental de conjuntos sabemos que A ∪ Ac = Ω Facultad de Ingenierı́a - UM y A ∩ Ac = ∅ Pepe DIAZ 30 2. Espacios de probabilidad. 2.2. Propiedades elementales. Ası́, por la propiedad 2 (adtividad finita) y el axioma 2 tenemos que P (A ∪ Ac ) = P(Ω) | {z } | {z } =1 P(A)+P(Ac ) de donde P(Ac ) = 1 − P(A) Como A ⊆ Ω, por la propiedad anterior, se tiene P (A) ≤ P (Ω), y junto con el primer axioma: 0 ≤ P (A) y el segundo axioma: P (Ω) = 1 se tiene la propiedad 0 ≤ P(A) ≤ 1 deseada. (4) Por la propiedad anterior P(A) = 1 − P(Ac ) y como, por el primer axioma, P (Ac ) ≥ 0 se tiene que P(A) ≤ 1 Observación 2.3. El primer axioma de la definición 2.2 junto con la propiedad 4 del Teorema anterior nos dicen que 0 ≤ P(A) ≤ 1 ∀A ∈ A En la propiedad 1 del Teorema anterior hemos probado que si A = ∅ entonces P(A) = 0, pero es claro que no vale el recı́proco, es decir que P(A) = 0 no implica que A = ∅ De la misma manera si A = Ω sabemos que P(A) = 1 (segundo axioma de la definición de probabilidad), y tampoco vale el recı́proco, esto es, P(A) = 1 no implica que A = Ω Si bien la propiedad 3, desde un punto de vista teórico, es bastante obvia, no deja ser útil en muchas situaciones prácticas, donde es más sencillo calcular la probabilidad del complemento de un suceso que la probabilidad del suceso mismo. Veamos algunos ejemplos. Ejemplo 2.7. Un juego consiste en extraer al azar, sucesivamente y sin reposicón 10 bolillas de un bolillero que contiene 200 bolillas numeradas (del 1 al 200). Un jugador gana el juego si extrae por lo menos una bolilla con uno de los 20 números finales. ¿Cuál es la probabilidad que tiene de ganar?. Como espacio muestral Ω podemos tomar el conjunto de todas las 10-uplas ordenadas de enteros diferentes del 1 al 200. Por ejemplo el suceso se representa por (23, 172, 12, 56, 188, 133, 49, 110, 7, 149) ∈ Ω Es claro que # (Ω) = (200) (199) (198) (197) (196) (195) (194) (193) (192) (191) . Las últimas 20 bolillas son las “exitosas” para el jugador: ······ ······ | Facultad de Ingenierı́a - UM Pepe DIAZ {z bolillas “exitosas” para el jugados } 31 2. Espacios de probabilidad. 2.2. Propiedades elementales. Consideremos el suceso A = “el jugar gana” = “extrae por lo menos una bolilla “exitosa” (del 181 al 200)” El suceso A está formado por todos los sucesos elementales que contienen exactamente 1 bolilla “exitosa”, los que contienen exactamente 2 bolillas “exitosas”, .... y ası́ sucesivamente hasta el suceso elemental formado por 10 bolillas “exitosas”. En otras palabras si consideramos el suceso An = “obtener exactamente n bolillas “exitosas” ”, n = 1, 2, ..., 10 tenemos que A = A1 ∪ A2 ∪ ... ∪ A10 y por tratarse de sucesos disjuntos P (A) = P (A1 ) + P (A2 ) + ... + P (A10 ) Si bien no es imposible, y los calculos se pueden realizar, nos enfrentamos a calcular diez probabilidades. Pero si aplicamos la propiedad 3 de Teorema anterior el problema se resuelve en forma más sencilla, pues Ac = “el jugar pierde” = “no obtener ninguna bolilla “éxitosa” y se tiene que P (Ac ) = (180) (189) (188) (187) (186) (185) (184) (183) (182) (181) # (Ac ) = ≈ 0,560 # (Ω) (200) (199) (198) (197) (196) (195) (194) (193) (192) (191) y por lo tanto P (A) = 1 − P (Ac ) ≈ 0,440 Ejemplo 2.8. Se tiran n dados, hay interés en saber si en alguno de los dados salió el 1 o el 6. En otras palabras, se quiere calcular la probabilidad de que el 1 o el 6 salga por lo menos una vez en el lanzamiento de n dados. Como espacio muestral podemos tomar el conjunto de las n−uplas formadas por los resultados de cada dado Ω = {(ω1 , ω2 , ..., ωn ) : ωi = 1, 2, 3, 4, 5, 6} Observar que # (Ω) = 6n El suceso de interés A es el subconjunto de Ω formado por todas las n−uplas donde una o varias coordenadas son 1 o 6, y por consiguiente su complemento es el suceso Ac formado por todas las n−uplas cuyas coordenadas son distintas de 1 y de 6, es decir los valores posibles en cada coordenada son 2,3,4 o 5: y por lo tanto # (Ac ) = 4n . Ası́ n # (Ac ) 4n 2 P (Ac ) = = n = # (Ω) 6 3 y por lo tanto n 2 P (A) = 1 − P (A ) = 1 − 3 c Facultad de Ingenierı́a - UM Pepe DIAZ 32 2. Espacios de probabilidad. 2.2. Propiedades elementales. El siguiente Lema es una herramienta útil, no sólo para probar resultados teóricos, sino que también en muchas situaciones prácticas al querer determinar la probabilidad de un suceso los cálculos se simplifican si de divide dicho suceso en sucesos disjuntos. Lema 2.1 ((Uniones disjuntas)) Consideremos dos sucesos A y B ∈ A entonces (1) A = (A ∩ B) ∪ (A ∩ B c ) (unión disjunta) (2) A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (B ∩ Ac ) (unión disjunta) Demostración. (1) Se tiene que A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ) (unión disjunta) (2.1) (2) Por la parte anterior A = (A ∩ B) ∪ (A ∩ B c ) y B = (B ∩ A) ∪ (B ∩ Ac ) de donde A∪B = [(A ∩ B) ∪ (A ∩ B c )] ∪ [(B ∩ A) ∪ (B ∩ Ac )] = (A ∩ B c ) ∪ (A ∩ B) ∪ (B ∩ Ac ) (pues A ∩ B = B ∩ A) (unión disjunta) Observación 2.4. La propiedad (1) se puede expresar de la siguiente manera ocurre A = (ocurre A y ocurre B) o (ocurre A y no ocurre B) La propiedad (1) anterior se simétrica en relación a los sucesos en el sentido que también se cumple que B = (A ∩ B) ∪ (Ac ∩ B) (unión disjunta) Facultad de Ingenierı́a - UM Pepe DIAZ 33 2. Espacios de probabilidad. 2.2. Propiedades elementales. Teorema 2.2 Sea (Ω, A, P) un espacio de probabilidad. Si A y B ∈ A, entonces (1) P(A) = P (A ∩ B) + P (A ∩ B c ) (2) P (A ∪ B) = P(A) + P(B) − P (A ∩ B) Demostración. (1) P(A) = P (A ∩ B) ∪ (A ∩ B c ) = P (A ∩ B) + P (A ∩ B c ) (por el Lema anterior A = (A ∩ B) ∪ (A ∩ B c ) ) (por ser una unión disjunta) (2) P (A ∪ B) = P c c (A ∩ B ) ∪ (A ∩ B) ∪ (B ∩ A ) = P (A ∩ B c ) + P (A ∩ B) + P (B ∩ Ac ) c por el Lema anterior A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (B ∩ Ac ) (por ser una unión disjunta) c = P (A ∩ B ) + P (A ∩ B) + P (B ∩ A ) + P (A ∩ B) − P (A ∩ B) (sumamos y restamos P (A ∩ B)) = P (A) + P (B) − P (A ∩ B) por la parte anterior P (A ∩ B c ) + P (A ∩ B) = P (A) P (B ∩ Ac ) + P (A ∩ B) = P (B) Corolario 2.1 (monotonı́a) Sea (Ω, A, P) un espacio de probabilidad y A, B ∈ A. Si A ⊆ B entonces P(A) ≤ P(B) Ejemplo 2.9. Se extrae una carta de un mazo de baraja española de 40 cartas. Se consideran los sucesos A =“ la carta extraı́da es de oro” y B = “la carta extraı́da es negra ” (es decir la carta es un 10, un 11 o un 12 de cualquier “palo”) Calculemos las probabilidades A, B, A ∩ B y A ∪ B. Facultad de Ingenierı́a - UM Pepe DIAZ 34 2. Espacios de probabilidad. 2.2. Propiedades elementales. “ la carta extraı́da es de oro” “la carta extraı́da es negra” “la carta extraı́da es de oro y negra” 10 1 12 3 3 P (A) = = P (B) = = P (A ∩ B) = 40 4 40 10 40 Si bien se puede realizar un cálculo directo de la probabilidad de A ∪ B, haremos el cálculo usando la propiedad anterior: 1 3 3 19 P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = + − = 4 10 40 40 Ejemplo 2.10. En una localidad el 60 % de las familias estan registradas en Neflix[4] , el 80 % en DirecTV[5] y el 50 % ambos servicios. Si se elige una familia al azar, ¿cuál es la probabilidad de tengan por lo menos uno de los servicios?, ¿ y exactamente uno de los servicios?. Consideremos los sucesos A = “la familia tiene el servivio Neflix” B = “la familia tiene el servivio DirecTV” A ∩ B = “la familia tiene ambos servicios” Sabemos que P (A) = 60 3 = , 100 5 P (B) = 80 4 = , 100 5 P (A ∩ B) = 50 1 = 100 2 Siendo A ∪ B = “la familia tiene por lo menos uno de los servicios” se tiene que P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 3 4 1 9 + − = 5 5 2 10 Por otro lado (A ∩ B c ) ∪ (Ac ∩ B) = “la familia tiene exactamente uno de los servicios” P ((A ∩ B c ) ∪ (Ac ∩ B)) = P (A ∩ B c ) + P (Ac ∩ B) = P (A ∪ B) − P (A ∩ B) = Facultad de Ingenierı́a - UM 9 1 2 − = 10 2 5 Pepe DIAZ 35 2. Espacios de probabilidad. 2.2. Propiedades elementales. La propiedad 2 del Teorema 2.2 se le atribuye a Abraham de Moivre y su generalización Henri Poincaré. Teorema 2.3 (Fórmula de Poincaré) Sea (Ω, A, P) un espacio de probabilidad. Si A1 , . . . , An ∈ A, entonces ! k=n n [ X X P Ak = P (Ak )− P(Ak1 ∩Ak2 )+ k=1 k=1 1≤k1 <k2 ≤n X P(Ak1 ∩Ak2 ∩Ak3 )−. . . . . .+(−1)n+1 P(A1 ∩A2 ∩. . .∩An ) 1≤k1 <k2 <k3 ≤n Demostración. (ver ejercicio 16 Práctico 1) Observación 2.5. La fórmula de Poincaré se puede expresar en forma más compacta como: ! i=n n [ X X P Ak = (−1)i+1 P(Ak1 ∩ Ak2 ∩ . . . ∩ Aki ) k=1 i=1 1≤k1 <...<ki ≤n Ejemplo 2.11. Se tienen 3 bolas numeradas y sus respectivas cajas numeradas. Se disponen al azar una bola en cada caja. Hallemos la probabilidad de que por lo menos un bola esté en su caja (es decir que el número de la bola coincide con el número de la caja). El cálculo de la probailidad se puede realizar directamente tenemos 4 resultados favorables en 6 resultados posibles, y por lo tanto la probabilidad por lo menos 4 2 un bola esté en su caja es = 6 3 Vamos a realizar el cálculo usando la fórmula de Poincaré. Consideremos los sucesos A = “la bola 1 está en la caja 1” B = “la bola 2 está en la caja 2” C = “la bola 3 está en la caja 3” luego A ∪ B ∪ C = “por lo menos una bola está en su caja ” aplicando la fórmula de Poincaré P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C) Facultad de Ingenierı́a - UM Pepe DIAZ 36 2. Espacios de probabilidad. 2.2. Propiedades elementales. Ahora bien P(A) = P(B) = P(C) = A 2 1 = 6 3 B C y P(A ∩ B) = P(A ∩ C) = P(B ∩ C) = P(A ∩ B ∩ C) = 1 6 A∩B =A∩C =B∩C =A∩B∩C de donde 1 1 1 2 P(A ∪ B ∪ C) = 3 −3 + = 3 6 6 3 Ejemplo 2.12. Se toma un número entero al azar entre 1 al 1000, ¿cuál es la probabilidad de que sea divisible entre por lo menos uno de los números 3, 5, 7 o 11? Consideremos los sucesos A = “el número seleccionado es divisible entre 3” B = “el número seleccionado es divisible entre 5” C = “el número seleccionado es divisible entre 7” D = “el número seleccionado es divisible entre 11” luego A ∪ B ∪ C ∪ D = “el número seleccionado es divisible entre por lo menos uno de los números 3, 5, 7 o 11” aplicando la fórmula de Poincaré P(A ∪ B ∪ C ∪ D) = P(A) + P(B) + P(C) + P(D) −P(A ∩ B) − P(A ∩ C) − P(A ∩ D) − P(B ∩ C) − P(B ∩ D) − P(C ∩ D) +P(A ∩ B ∩ C) + P(A ∩ B ∩ D) + P(A ∩ C ∩ D) + P(B ∩ C ∩ D) −P(A ∩ B ∩ C ∩ D) Ahora bien entre 1 y 1000 tenemos[6] 1000 = 333 números divisibles entre 3 3 1000 = 200 números divisibles entre 5 5 1000 = 142 números divisibles entre 7 7 1000 = 90 números divisibles entre 11 11 Facultad de Ingenierı́a - UM Pepe DIAZ ⇒ P(A) = 333 1000 ⇒ P(B) = 200 1000 ⇒ P(C) = 142 1000 ⇒ P(D) = 90 1000 37 2. Espacios de probabilidad. 2.2. Propiedades elementales. 1000 15 1000 21 1000 33 1000 35 1000 55 1000 77 1000 105 1000 165 1000 231 1000 385 = 66 números divisibles entre 3 y 5 ⇒ P(A ∩ B) = 66 1000 = 47 números divisibles entre 3 y 7 ⇒ P(A ∩ C) = 47 1000 = 30 números divisibles entre 3 y 11 ⇒ P(A ∩ D) = 30 1000 = 28 números divisibles entre 5 y 7 ⇒ P(B ∩ C) = 28 1000 = 18 números divisibles entre 5 y 11 ⇒ P(B ∩ D) = 18 1000 = 12 números divisibles entre 7 y 11 ⇒ P(C ∩ D) = 12 1000 = 9 números divisibles entre 3, 5 y 7 ⇒ P(A ∩ B ∩ C) = 9 1000 = 6 números divisibles entre 3, 5 y 11 ⇒ P(A ∩ B ∩ D) = 6 1000 = 4 números divisibles entre 3, 7 y 11 ⇒ P(A ∩ C ∩ D) = 4 1000 = 2 números divisibles entre 5, 7 y 11 ⇒ P(B ∩ C ∩ D) = 2 1000 y finalmente como A ∩ B ∩ C ∩ D = ∅ (no hay ningún número divisible entre 3, 5, 7 y 11 menor a 1155) se tiene que P(A ∩ B ∩ C ∩ D) = 0 Ası́ P(A ∪ B ∪ C ∪ D) = = 333 1000 117 200 + 200 1000 + 142 1000 + 90 1000 − 66 1000 − 47 1000 − 30 1000 − 28 1000 − 18 1000 − 12 1000 + 9 1000 + 6 1000 + 4 1000 + 2 1000 ≈ 0,585 Observación 2.6. Principio de inclusión-exclusión. En el modelo de la probabilidad clásica (Ejemplo 2.1, pag. 26) donde el espacio muestral Ω es un conjunto finito no vacı́o, la σ-álgebra es la familia P (Ω) formada por todos los subconjuntos de Ω. y la medida de probabilidad es: P (A) = la fórmula de Poincaré se expresa como n S # Ak k=n X # (Ak ) X #(Ak ∩ Ak ) k=1 1 2 = − + # (Ω) # (Ω) # (Ω) k=1 1≤k1 <k2 ≤n # (A) # (Ω) X ∀A ⊆ Ω #(Ak1 ∩ Ak2 ∩ Ak3 ) #(A1 ∩ A2 . . . ∩ An ) −. . . (−1)n+1 # (Ω) # (Ω) 1≤k1 <k2 <k3 ≤n y simplificando # (Ω) en la ecuación anterior se obtiene el llamado “principio de inclusión-exclusión” ! k=n n [ X X X # Ak = # (Ak ) − #(Ak1 ∩ Ak2 ) + #(Ak1 ∩ Ak2 ∩ Ak3 ) − . . . (−1)n+1 #(A1 ∩ A2 . . . ∩ An ) k=1 k=1 1≤k1 <k2 ≤n 1≤k1 <k2 <k3 ≤n que se estudia en los cursos de Matemática Discreta, el cual permite calcular el cardinal de la unión finita de conjuntos, mediante los cardinales de cada uno de los conjuntos y todas sus posibles intersecciones. [6] [x] indica la parte entera del número x, por ejemplo [24, 7865] = 24 Facultad de Ingenierı́a - UM Pepe DIAZ 38 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. 2.3 Continuidad de las medidas de probabilidad. Una sucesión de sucesos {An }n∈N ⊆ A se dice monótona creciente si An ⊆ An+1 ∀n ∈ N y se le llama lı́mite de dicha sucesión al suceso A = ∞ S An n=1 Usaremos la siguiente notación para indicar que la sucesión de sucesos {An }n∈N crece al suceso A: An ↑ A ⇔ (1) An ⊆ An+1 ∀n ∈ N ∞ S An (2) A = n=1 De la misma manera una sucesión de sucesos {An }n∈N ⊆ A se dice monótona decreciente si An ⊇ An+1 ∀n ∈ N y se le llama lı́mite de dicha sucesión al suceso A = ∞ T An n=1 Usaremos la siguiente notación para indicar que la sucesión de sucesos {An }n∈N decrece al suceso A: An ↓ A ⇔ (1) An ⊇ An+1 ∀n ∈ N ∞ T An (2) A = n=1 Recordemos que la continuidad de una función en un punto de acumulación se expresaba en término de lı́mites como f es continua en a ⇔ lı́m f (x) = f (a) x→a En el contexto que estamos trabajando si An ↑ A (o si An ↓ A) ¿se cumple que lı́m P(An ) = P (A)? n→+∞ La respuesta es afirmativa y es el contenido del siguiente Teorema, y por tal propiedad se dice que las medidas de Facultad de Ingenierı́a - UM Pepe DIAZ 39 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. probabilidad son continuas respecto de sucesiones monótonas crecientes o decrecientes de sucesos.Veamos previamente que a partir de cualquier sucesión de sucesos se puede construir otra sucesión de sucesos disjuntos dos a dos, y cuyas uniones coinciden con las uniones de los sucesos originales. En el siguiente diagrama se ilustra el resultado con tres sucesos A1 , A2 y A3 no disjuntos, a partir de los cuales se construyen tres sucesos disjuntos B1 , B2 y B3 cuya uniones coinciden con las uniones de los sucesos originales[7] A1 = B 1 , A1 ∪ A2 = B1 ∪ B2 , A1 ∪ A2 ∪ A3 = B1 ∪ B2 ∪ B3 Pasemos al resultado en general Lema 2.2 Consideremos una sucesión de sucesos {An }n∈N ⊆ A. Entonces la sucesión de sucesos {Bn }n∈N ⊆ A definidos por def B 1 = A1 .. . def Bn = An \ (A1 ∪ A2 ∪ . . . ∪ An−1 ) para n ≥ 2 cumple que: (a) B n ⊆ An (b) Bn ∩ Bm = ∅ (c) n S Bk = k=1 (d) +∞ S n=1 Demostración. (a) Por definición B1 = A1 Bn ∀n≥1 n S si n 6= m Ak ∀n≥1 k=1 Bn = +∞ S An n=1 y = An \ (A1 ∪ A2 ∪ . . . ∪ An−1 ) = An ∩ (A1 ∪ A2 ∪ . . . ∪ An−1 ) c = An ∩ Ac1 ∩ Ac2 ∪ ... ∩ Acn ⊆ An ∀n ≥ 1 (b) Sin pérdida de generalidad, supongamos que n < m, y por lo tanto Bm ⊆ Acn (2.2) en efecto Bm = Am \ (A1 ∪ A2 ∪ . . . ∪ An ∪ ... ∪ Am−1 ) = Am ∩ (A1 ∪ A2 ∪ . . . ∪ An ∪ . . . ∪ Am−1 ) = Am ∩ Ac1 ∩ Ac2 ∩ ... ∩ Acn ∩ ... ∩ Acm−1 ⊆ Acn c [7] Recordar que X \ Y = X ∩ Y c , es decir los elementos de X “menos” los elementos de Y , por consiguiente quedan los elementos de X en el complemento de Y Facultad de Ingenierı́a - UM Pepe DIAZ 40 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. y de la parte anterior B n ⊆ An (2.3) ası́ de (2.2) y (2.3) se tiene Bn ∩ Bm ⊆ An ∩ Acn y como An ∩ Acn = ∅ hemos probado que Bn ∩ Bm = ∅ (c) Por la parte (a) B n ⊆ An ∀n ≥ 1 y por lo tanto B1 ∪ B2 ∪ . . . ∪ Bn ⊆ A1 ∪ A2 ∪ . . . ∪ An ∀n ≥ 1 (2.4) Por otro lado si ω ∈ A1 ∪ A2 ∪ . . . ∪ An entonces existe n0 ∈ {1, 2, ..., n} tal que ω ∈ An0 Consideremos el conjunto de ı́ndices I = {i ∈ {1, ..., n0 } : ω ∈ Ai } (ı́ndices de los sucesos que contienen a ω) Es claro que I 6= ∅ (pues n0 ∈ I) y por consiguiente existe m0 = mı́n I Si m0 = 1 entonces ω ∈ Am0 = A1 = B1 Si 1 < m0 ≤ n0 se cumple que ω ∈ Am 0 ω∈ / Ak y para k = 1, ..., m0−1 es decir que c ω ∈ Am0 ∩ Ac1 ∩ Ac2 ∩ ... ∩ Acm0 −1 = Am0 ∩ (A1 ∪ A2 ∪ . . . ∪ Am0 −1 ) = Am0 \ (A1 ∪ A2 ∪ . . . ∪ Am0 −1 ) = Bm0 Hemos probado que si ω ∈ A1 ∪ A2 ∪ . . . ∪ An entonces ω ⊆ Bm0 , es decir que A1 ∪ A2 ∪ . . . ∪ An ⊆ Bm0 y dado que Bm0 ⊆ B1 ∪ B2 ∪ . . . ∪ Bn se tiene que A1 ∪ A2 ∪ . . . ∪ An ⊆ B1 ∪ B2 ∪ . . . ∪ Bn (2.5) De (2.4) y (2.5) se tiene que A1 ∪ A2 ∪ . . . ∪ An = B1 ∪ B2 ∪ . . . ∪ Bn (d) Por la parte (a) B n ⊆ An ⊆ +∞ [ ∀n ≥ 1 An n=1 y por lo tanto +∞ [ Bn ⊆ n=1 +∞ [ An (2.6) n=1 y por la parte anterior An ⊆ A1 ∪ A2 ∪ . . . ∪ An = B1 ∪ B2 ∪ . . . ∪ Bn ⊆ +∞ [ Bn ∀n ≥ 1 n=1 y por lo tanto +∞ [ An ⊆ n=1 +∞ [ Bn (2.7) n=1 de (2.6) y (2.7) +∞ [ n=1 Facultad de Ingenierı́a - UM Bn = +∞ [ An n=1 Pepe DIAZ 41 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. Teorema 2.4 (continuidad de las medidas de probabilidad) Sea (Ω, A, P) es un espacio de probabilidad y consideremos una sucesión de sucesos {An }n∈N ⊂ A (1) Si An ↑ A entonces lı́m P(An ) = P (A) n→+∞ (2) Si An ↓ A entonces lı́m P(An ) = P (A) n→+∞ Demostración. (1) A partir de la sucesión de sucesos {An }n∈N vamos a considerar la sucesión de sucesos {Bn }n∈N tales que def B 1 = A1 .. . def Bn = An \ (A1 ∪ A2 ∪ . . . ∪ An−1 ) por ser una sucesión crecientes de sucesos se cumple que A1 ∪ A2 ∪ . . . ∪ An−1 = An−1 = An \ An−1 y de acuerdo con el Lema 2.2 se cumple (a) B n ⊆ An (b) Bn ∩ Bm = ∅ (c) B1 ∪ B2 ∪ . . . ∪ Bn = An (d) +∞ S Bn = n=1 ∀n≥1 +∞ S si n 6= m ∀n≥1 An n=1 Luego P (A) = P ∞ S An =P n=1 = ∞ X ∞ S Bn (por (d)) n=1 P (Bn ) (por (b) y la σ-aditividad de la probabilidad (axioma 3)) n=1 = lı́m (P (B1 ) + ... + P (Bn )) n→+∞ (por la definición de serie numérica: ∞ X n=1 = lı́m P (B1 ∪ ... ∪ Bn ) (por (b) y la aditividad de la probabilidad) = lı́m P (An ) (por (c)) n→+∞ n→+∞ Facultad de Ingenierı́a - UM Pepe DIAZ def an = lı́m (a1 + ... + an )) n→+∞ 42 2. Espacios de probabilidad. 2.3. Continuidad de las medidas de probabilidad. (2) Es claro que si[8] Acn ⊆ Acn+1 ∀n ∈ N An ⊇ An+1 ∀n ∈ N ∞ ∞ S T ⇔ Acn ↑ Ac ⇔ An ↓ A ⇔ Acn An Ac = A= n=1 n=1 Luego P (A) = 1 − P (Ac ) = 1 − lı́m P(Acn ) n→+∞ = lı́m (1 − P(Acn )) = lı́m P(An ) n→+∞ n→+∞ (pues como Acn ↑ Ac aplicamos la parte (1) del Teorema) Ejemplo 2.13. Se lanza un dado equilibrado infinitas veces, ¿cuál es.la probabilidad de nunca obtener 6? Consideremos el suceso A = “en los infinitos lanzamientos no se obtiene 6” y los sucesos An = “en los primeros n lanzamientos no se obtiene 6” Obsevemos que An ⊇ An+1 ∀n ≥ 1 y ∞ \ ∀n ≥ 1 An = A n=1 esto es An ↓ A Luego 5n =0 n→+∞ n→+∞ 6n El razonamiento anterior es válido para cualquiera de los resultados del dado, y por lo tanto, con probabilidad uno, cada resultado de un dado equilibrado saldrá al lanzarlo infinitas veces. P (A) = lı́m P (An ) = lı́m [8] Recordemos dos propiedades de la operación “complemento” de conjuntos: 1. A ⊆ B ⇔ Ac ⊇ B c c c [ \ \ [ c 2. Leyes de De Morgan: Ai = Ai y Ai = Aci , donde I es un conjunto de ı́ndices cualquiera. i∈I Facultad de Ingenierı́a - UM i∈I i∈I i∈I Pepe DIAZ 43