MEDIDA Y PROBABILIDAD Miguel Ángel García Álvarez Contenido 1 Prólogo Notación y terminología 15 CAPÍTULO 1. MEDIDA E INTEGRAL DE LEBESGUE Desarrollo histórico 1.1. La integral de Riemann 1.2. Teoría de la medida de Borel 1.3. Teoría de la medida de Lebesgue 1.4. La integral de Lebesgue 1.5. La medida de Lebesgue en R2 19 22 32 36 44 47 CAPÍTULO 2. MEDIDA DE LEBESGUE 2.1. Álgebras, -álgebras y borelianos 2.2. -álgebra de Borel en Rn 2.3. Funciones …nitamente aditivas y -aditivas 2.4. La medida de Lebesgue en R 53 53 58 64 67 CAPÍTULO 3. FUNCIONES DE VARIACIÓN ACOTADA 3.1. Estudio de las discontinuidades de una función de variación acotada 3.2. Parte continua y parte de saltos de una función de variación acotada 75 81 90 CAPÍTULO 4. LA INTEGRAL DE STIELTJES 4.1. La integral de Riemann-Stieltjes 4.2. Criterio de Cauchy 4.3. Funciones de variación acotada e integrabilidad de las funciones continuas 4.4. Fórmula de integración por partes 4.5. Integración de funciones discontinuas 99 99 100 113 119 122 CAPÍTULO 5. TEORÍA GENERAL DE LA MEDIDA 5.1. Introducción 5.2. Medidas sobre álgebras y -álgebras 5.3. Construcción de medidas 5.4. Teorema de clases monótonas 5.5. Unicidad de la extensión de una medida 5.6. Medidas con signo 129 129 134 139 146 149 152 CAPÍTULO 6. MEDIDAS EN (R; B (R)) 159 iii iv CONTENIDO 6.1. 6.2. 6.3. 6.4. Medidas Medidas Medidas Medidas y funciones no decrecientes y funciones no decrecientes que crecen únicamente mediante saltos y funciones no decrecientes continuas con signo y funciones de variación acotada 161 170 172 173 CAPÍTULO 7. TEORÍA GENERAL DE INTEGRACIÓN Primera parte 7.1. Introducción 7.2. Funciones medibles 7.3. Funciones medibles con valores en R n 7.4. Funciones medibles con valores en R 7.5. La integral de funciones medibles simples no negativas 7.6. La integral de funciones medibles no negativas 7.7. Funciones integrables 179 179 190 191 197 200 203 208 CAPÍTULO 8. TEORÍA GENERAL DE INTEGRACIÓN Segunda parte 8.1. Integrabilidad uniforme 8.2. Teorema de Radon-Nikodym 8.3. Producto de espacios de medida 8.4. Proyección de medidas 215 215 223 227 236 CAPÍTULO 9. LA INTEGRAL DE LEBESGUE STIELTJES 9.1. Propiedades de la integral de Lebesgue Stieltjes 9.2. Fórmula de integración por partes 9.3. Fórmula de cambio de variable 243 247 257 258 CAPÍTULO 10. CONVERGENCIA 10.1. Introducción 10.2. Convergencia casi en todas partes 10.3. Convergencia en medida 10.4. Convergencia débil 10.5. Convergencia en distribución 263 263 266 268 277 286 CAPÍTULO 11. ESPACIOS Lp 11.1. Espacios Lp 11.2. Convergencia en Lp 11.3. Densidad de las funciones simples en Lp 291 291 296 305 CAPÍTULO 12. TEORÍA DE LA PROBABILIDAD Desarrollo histórico 12.1. Origen del Cálculo de Probabilidades 12.2. Jacques Bernoulli 12.3. Teorema de de Moivre-Laplace 12.4. El Cálculo de Probabilidades durante la segunda mitad del siglo XIX 12.5. El Cálculo de Probabilidades durante los primeros 30 años del siglo XX 307 309 316 323 325 326 CONTENIDO 12.6. La axiomática 12.7. Acerca de la propiedad de -aditividad de la función de probabilidad v 336 339 CAPÍTULO 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD 13.1. Espacios de Probabilidad 13.2. Variables Aleatorias 13.3. Independencia de variables aleatorias 13.4. Funciones de distribución 13.5. Funciones de distribución conjuntas 343 343 350 352 354 359 CAPÍTULO 14. Esperanza y leyes de los grandes números 14.1. Esperanza de una variable aleatoria 14.2. Varianza y covarianza 14.3. Desigualdad de Chebyshev 14.4. Léy débil de los grandes números 14.5. Ley fuerte de los grandes números 367 367 371 376 377 381 CAPÍTULO 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD 15.1. Introducción 15.2. Funciones de distribución como medidas 15.3. Regularidad de las medidas …nitas sobre los borelianos de Rn 15.4. Sucesiones de variables aleatorias independientes 15.5. Sucesiones de variables aleatorias con distribuciones …nito dimensionales conocidas 15.6. Teorema de Kolmogorov 389 389 393 401 403 APÉNDICES A.1. Teorema de Heine Borel A.2. Conjuntos compactos A.3. Caracterización de los conjuntos compactos A.4. Espacios vectoriales normados A.5. Convergencia uniforme A.6. Los racionales diádicos 415 415 420 427 429 434 437 Referencias para la parte de historia 443 Referencias para la formulación moderna 447 Índice 449 409 410 Prólogo El Cálculo Estocástico se encuentra actualmente en el centro de la Teoría de los Procesos Estocásticos, la cual, a su vez, forma parte de la Teoría de la Probabilidad. Esta última se encuentra bastante desarrollada, aunque, en su formulación moderna, aún no cumple 100 años. Tuvo un impulso enorme durante los primeros 33 años del siglo XX al vincularse con la Teoría de la Medida, la cual surgió y se desarrolló ampliamente también durante el mismo periodo. Esta última tuvo su origen en el Cálculo Diferencial e Integral, el cual tiene una historia más antigua. El origen de la Teoría de la Probabilidad se encuentra en el Cálculo de Probabilidades, el cual surgió con las soluciones que dieron Blaise Pascal, Pierre Fermat y Christiaan Huygens a algunos problemas relacionados con juegos de dados; Pascal y Fermat en el año 1654 ([33]) y Huygens en el año 1657 ([49]). Algunos años más tarde (1713) se publicó el trabajo de Jacques Bernoulli ([4]) en el cual estableció una relación matemática entre la probabilidad de un evento y la frecuencia relativa con la cual ocurre, relación conocida ahora como Teorema de Bernoulli. Fue el primero de los llamados teoremas límite del Cálculo de Probabilidades. El segundo de estos teoremas lo demostró Abraham de Moivre en el año 1733 ([28]) y en el estableció lo que años más tarde, en una formulación más general, se llamaría el Teorema Central del Límite. Los teoremas de Bernoulli y de de Moivre marcaron la pauta para el desarrollo del Cálculo de Probabilidades durante un periodo de aproximadamente 200 años. Fue entre …nales del siglo XIX y principios del siglo XX cuando los teoremas límite fueron formulados en toda su generalidad. Todos ellos se re…eren al comportamiento en el límite de determinadas relaciones que se obtienen de una sucesión de variables aleatorias independientes. Resulta curioso que haya surgido un Cálculo de Probabilidades en la época en que iba formándose una concepción mecanicista y determinista del mundo, aunque también fue una época en la cual se derrumbaron viejos paradigmas al cuestionarse el pensamiento y las ideas que estaban establecidas como verdades eternas. Era una época revolucionaria en la cual mucha gente decía “no”a lo que se presentaba como la única realidad posible. En 1654 se había iniciado ya la revolución cientí…ca del Renacimiento con las publicaciones de algunas de las obras que serían los fundamentos de la ciencia moderna: Sobre las revoluciones de los cuerpos celestes (1543), de Nicolás Copérnico, donde, en contraposición a la concepción 1 2 PRÓLOGO aritotélica, planteó que es la Tierra la que se mueve alrededor del Sol; Novum Organum o Indicaciones relativas a la interpretación de la naturaleza (1620), de Francis Bacon, donde crítica los fundamentos de la …losofía aristotélica; Discurso del Método, para dirigir bien la razón y buscar la verdad en las ciencias (1637), de René Descartes, obra en la cual pone en primer plano la duda y la razón y Discursos y demostraciones matemáticas en torno a dos nuevas ciencias (1638), de Galileo Galilei, una de las obras en las cuales se funda el método cientí…co y la Física moderna. Todo esto en forma paralela al cuestionamiento del sistema social imperante. Los …lósofos de la antigua Grecia habían tratado el tema del azar. Aristóteles lo trató explicitamente. Consideraba que hay causas accidentales, dentro de las cuales se encuentran tychē ( ) y autómaton ( o o ), las cuales se presentan en cierto tipo de acontecimientos. Tychē puede traducirse como suerte, restringiendo su signi…cado a un encadenamiento de sucesos, relacionados con una persona o grupo de personas, los cuales llevan a una situación no planeada como objetivo por esa persona o grupo. Autómaton podría traducirse como casualidad, entendiendo ésta como una combinación de circunstancias que no se pueden prever y que llevan a un resultado no intencionado. Decía Aristóteles: “... puesto que vemos que unos eventos suceden de la misma manera siempre, otros, en la mayoría de los casos, es claro que en ninguno de ellos se dice que tychē sea su causa, ni que ocurren por tychē, ni en lo que ocurre por necesidad y siempre, ni en lo que sucede la mayoría de las veces. Pero dado que hay eventos que son opuestos a éstos y de los que todos dicen que existen por tychē, es claro que la tychē y el autómaton existen, pues sabemos que tales eventos se dan por tychē y que por tychē son tales.”([1], p. 35). En otro texto decía: “es claro que no hay ciencia del accidente. Pues toda ciencia es de lo que o se da siempre o habitualmente. De lo contrario, ¿cómo se podría enseñar a otro? Es preciso, en efecto, que esté de…nido o por el siempre o el habitalmente.”([2], p. 102). Una idea más de Aristóteles refutada, surgió la ciencia del azar. Lo que en una época parecía que no podía ser, fue, cuando el pensamiento se abrió a nuevas posibilidades. Pero llevó tiempo y esfuerzo de mucha gente para que la ciencia del azar ocupara un lugar dentro de la Matemática. De hecho, a principios del siglo XX, el Cálculo de Probabilidades era considerado como parte de la Física, no de la Matemática. Así lo dejó ver David Hilbert en el Congreso Internacional de Matemáticas de 1900, donde expresó: “Pienso que en cualquier lugar en donde se presenten ideas matemáticas, sea en Filosofía, sea en Geometría, sea en Física, se plantea el problema de la discusión de los principios fundamentales, base de esas ideas, y del establecimiento de un sistema simple y completo de axiomas... Las investigaciones sobre los principios fundamentales de la geometría nos conducen a plantear este problema: Tratar con base en ese modelo las ramas de la Física donde las Matemáticas juegan actualmente un papel preponderante; esas ramas de la ciencia son, antes que cualesquiera otras, el Cálculo de Probabilidades y la Mecánica”.([48]) Incluso, a pesar del desarrollo del Cálculo de Probabilidades, por lo menos hasta mediados del siglo XIX el azar parecía un concepto que en algún momento perdería importancia pues, para los pensadores de la época, sólo era producto de nuestra ignorancia. Pierre Simon PRÓLOGO 3 Laplace formuló esta idea de manera muy clara, en un artículo publicado en el año 1814, al a…rmar que “todos los acontecimientos, aun aquellos que por su insigni…cancia parecen no depender de las grandes leyes de la naturaleza, constituyen una sucesión tan necesaria como las revoluciones del Sol. Ignorando los vínculos que los ligan al sistema entero del universo, se los ha hecho depender de causas …nales o del azar, según que ocurrieran y se sucedieran con regularidad o sin orden aparente; pero esas causas imaginarias han retrocedido gradualmente con los límites de nuestros conocimientos y desaparecen por completo frente a la sana …losofía que no ve en ellas más que la expresión de nuestra ignorancia respecto de las verdaderas causas ... una inteligencia que en un determinado instante pudiera conocer todas las fuerzas que impulsan la naturaleza y la respectiva posición de los seres que la componen y que, además tuviera la su…ciente amplitud para someter esos datos al análisis, incluiría en una sola fórmula los movimientos de los mayores cuerpos del universo y del más ligero átomo; nada le sería incierto y tanto el pasado como el futuro estarían en su presencia.” ([56], p. 2-3) Sin embargo, con los avances cientí…cos de la segunda mitad del siglo XIX, la concepción determinista mecanicista comenzó a resquebrajarse y un nuevo paradigma comenzó a gestarse, el cual se a…anzaría plenamente durante el siglo XX. Durante la segunda mitad del siglo XIX surgió la Mecánica Estadística con los trabajos de Krönig , Clausius , Maxwell y Boltzmann, donde el Cálculo de probabilidades se constituyó como la herramienta fundamental para el estudio de sistemas con muchas partículas. Además, fue en ese periodo cuando surgió la teoría de Mendel sobre la herencia y la teoría de Darwin sobre la evolución de las especies, la primera fundada en un modelo probabilístico y la segunda planteando que el surgimiento de nuevas especies se realiza al azar. Más aún, los estudios de datos, los cuales eran tratados con métodos probabilísticos, crecieron a un ritmo acelerado con los trabajos de Bienaymé, Quetelet y Galton, entre otros. La nueva irrupción del azar en el pensamiento cientí…co cambió el paradigma; de ser pensado únicamente como un producto de nuestra ignorancia, pasó a conceptualizarse como algo objetivo. En 1896, Poincaré expresó claramente este cambio: “... en la teoría cinética de los gases, se encuentran las conocidas leyes de Mariotte y de Gay-Lussac, gracias a la hipótesis de que las velocidades de las moléculas gaseosas varían irregularmente, es decir, al azar. Las leyes observables serían mucho menos simples, dirían los físicos, si las velocidades estuvieran arregladas por alguna ley elemental simple, si las moléculas estuvieran, como se dice, organizadas, si obedecieran a alguna disciplina. Es gracias al azar, es decir, gracias a nuestra ignorancia, que podemos concluir; y entonces, si la palabra azar es simplemente un sinónimo de ignorancia, ¿qué querría decir eso? ¿Se traduciría entonces como sigue? Me pide usted que le prediga los fenómenos que van a producirse. Si, por desgracia, conociera las leyes de esos fenómenos, podría lograrlo únicamente mediante cálculos inextricables y debería renunciar a responderle; pero, como tengo la suerte de ignorarlas, le voy a responder en seguida. Y, lo más extraordinario, es que mi respuesta será correcta. Se requiere entonces que el azar sea más que el nombre que le damos a nuestra ignorancia.”([75], p. 2-3) A …nales del siglo XIX el Cáculo de Probabilidades y el Cálculo Diferencial e Integral éran dos áreas del conocimiento un tanto independientes. La segunda era utilizada por la primera 4 PRÓLOGO para resolver algunos problemas de probabilidad, así como en otro tipo de problemas se utilizaba el Cálculo Combinatorio. Pero las investigaciones que se llevaban a cabo en uno y otro lado parecían muy alejadas unas de otras; por el lado del Cálculo de Probabilidades se trabajaba principalmente en el estudio de las sucesiones de variables aleatorias independientes (teoremas límite), concepto que ni siquiera existía en el Cálculo Diferencial e Integral. Por el lado de este último las investigaciones estaban orientadas a resolver el problema que había planteado Bernhard Riemann en un artículo publicado en el año 1854 ([77]), el cual consistía en caracterizar a las funciones que son integrables de acuerdo con la de…nición que él mismo dio en su artículo; problema que, a su vez, tenía como objetivo el determinar las condiciones para que una función se pueda expresar como una serie trigonométrica; algo muy alejado del Cálculo de Probabilidades. Nadie imaginaba que pudiera haber un vículo estrecho entra ambas áreas. Pero las cosas fueron cambiando y tomaron un rumbo inesperado. Las investigaciones alrededor del problema planteado por Riemann condujeron a caracterizar a las funciones integrables en términos de un concepto que surgió en el transcurso de esas investigaciones, el de conjunto de contenido cero: una función acotada f : [a; b] ! R es Riemann integrable si y sólo si, dada cualquier " > 0, el conjunto de puntos en los cuales la oscilación de la función es mayor que " tiene contenido cero. Para aclarar lo que dice este resultado, demos las correspondientes de…niciones: Si f : [a; b] ! R es una función acotada, x 2 (a; b) y [a1 ; b1 ] ; [a2 ; b2 ] ; : : : es una T sucesión de intervalos cerrados encajados que contienen a x como punto interior y tales nf ff (x) : x 2 [an ; bn ]g] que 1 n=1 [an ; bn ] = fxg, el límite l mn!1 [sup ff (x) : x 2 [an ; bn ]g existe y es independiente de la sucesión particular de intervalos encajados con las propiedades dadas antes; a ese límite se le llama la oscilación de la función f en el punto x. Si A es un subconjunto de R, se dice que A tiene contenido cero si, dada cualquier " > 0, existe un número …nito de intervalos abiertos cuya unión contiene al conjunto A y tales que la suma de sus longitudes es menor que ". Una vez surgido este concepto y dada su importancia en la teoría de integración se desarrolló una Teoría del Contenido, mediante la cual se extiende el concepto de longitud a una familia bastante grande de subconjuntos de R. Esta caracterización jugó un papel muy importante en el desarrollo posterior de la teoría de integración; además, echó por tierra algunas ideas que se tenían y signi…có un giro fundamental en las investigaciones que se venían realizando. Antes de esta caracterización de la integrabilidad en términos del concepto de contenido cero se pensaba que el que una función fuera integrable tenía que ver con el tamaño topológico del conjunto de sus discontinuidades, o, planteándolo de una manera más general, se pensaba que tenía que ver con propiedades topológicas del conjunto de sus discontinuidades. Especi…camente, la caracterización de las funciones integrables intentó hacerse con base en dos conceptos topológicos: el de conjunto denso en ninguna parte y el de conjunto de primera especie. Recordemos que se dice que un conjunto A de números reales es denso en ninguna parte si dado cualquier intervalo abierto no vacío I, existe un intervalo abierto no vacío J contenido en I tal que J Ac . Esto es equivalente a decir que la cerradura de A no tiene puntos interiores. Por otra parte, si denotamos por A(1) al conjunto de puntos de acumulación de A, por A(2) al conjunto de puntos de acumulación de A(1) , etcétera. Al conjunto A(n) se le llama el enésimo conjunto derivado de A. Se dice que A es de primera especie si A(n) es …nito para alguna n. Hacia 1873 era PRÓLOGO 5 ya bien conocido que un conjunto acotado de primera especie es denso en ninguna parte, sin embargo, se pensaba que los conjuntos de primera especie agotaban las posibilidades de los conjuntos densos en ninguna parte, es decir se pensaba que un conjunto es denso en ninguna parte si y sólo si es de primera especie. La confusión terminó cuando se inventaron métodos para construir conjuntos densos en ninguna parte, con lo cual se encontraron ejemplos de conjuntos densos en ninguna parte que no son de primera especie. El concepto de contenido cero no es topológico, se deriva del concepto de longitud; sin embargo, se tiene la siguiente relación: todo conjunto acotado de primera especie tiene contenido cero y a su vez todo conjunto acotado de contenido cero es denso en ninguna parte. La Teoría del Contenido fue desarrollada principalmente por Camille Jordan alrededor del año 1890. De lo que se trataba era de de…nir la longitud de cualquier subconjunto de R y el área de cualquier subconjunto de R2 . Jordan dio un método para lograr esto de…niendo el contenido interior de un conjunto (acercándonos por adentro a lo que podría entenderse por área del conjunto, mediante uniones …nitas de intervalos, en el caso de R, y por uniones …nitas de rectángulos, en el caso de R2 ) y el contenido exterior de un conjunto (acercándonos al área que se quiere de…nir mediante uniones …nitas de intervalos que cubran al conjunto, en el caso de R, y mediante uniones …nitas de rectángulos que cubran al conjunto, en el caso de R2 ). El contenido (longitud o área) de un conjunto estará bien de…nida cuando su contenido interior coincida con su contenido exterior. La familia de conjuntos cuyo contenido está bien de…nido no incluye a todos los subconjuntos de R o de R2 , según sea el caso, pero es bastante grande, tiene la misma cardinalidad que la familia de todos los subconjuntos de R o de R2 , según sea el caso. La función Contenido tiene la propiedad siguiente: Si se tiene una familia …nita de conjuntos ajenos por parejas y cuyo contenido está bien de…nido, entonces el contenido de la unión también está bien de…nido y es igual a la suma de los contenidos de los conjuntos de la familia. A esta propiedad la llamaremos la propiedad de la aditividad …nita. Años más tarde, buscando resolver un problema que no tenía nada que ver con la Teoría de Integración, ni mucho menos con el Cálculo de Probabilidades, Émile Borel de…nió el concepto de medida cero: Si A es un subconjunto de R, se dice que A tiene medida cero si, dada cualquier " > 0, existe un número …nito o in…nito numerable de intervalos abiertos cuya unión contiene al conjunto A y tales que la suma de sus longitudes es menor que ". Una vez de…nido este concepto, Borel se planteó el problema de desarrollar una teoría de la medida mediante la cual se pudiera extender el concepto de longitud a una familia más grande de subconjuntos de R que la familia a la que se llegaba con el concepto de contenido. Borel no logró su objetivo, pero sí lo hizo Henri Lebesgue, quien desarrolló lo que ahora se llama la Teoría de la Medida de Lebesgue, mediante la cual se asigna una medida (longitud) a cada elemento de una familia de subconjuntos de los números reales, la cual es más grande que la familia a la que se llega con el concepto de contenido. Esta medida tiene la propiedad siguiente: Si (An )n2N es una sucesión de subconjuntos de R a cada uno de los cuales se les puede asignar una medida y esos conjuntos son ajenos por parejas, entonces la unión de ellos también tiene asignada una medida, la cual es igual a la suma de las medidas de cada uno de 6 PRÓLOGO los conjuntos de la sucesión. A esta propiedad la llamaremos la propiedad de la aditividad numerable o -aditividad. ¿Qué vínculo podía tener lo anterior con el Cálculo de Probabilidades? Por el lado del Cálculo de Probabilidades, una de las propiedades básicas con la que se contaba para calcular probabilidades es la que formula Henri Poincaré en un libro publicado en el año 1896: “cuando un evento puede producirse de dos maneras diferentes, de tal forma que esas dos maneras no puedan ocurrir simultáneamente, la probabilidad de ocurrencia de este evento es igual a la suma de la probabilidad de que se produzca de la primer manera y de la probabilidad de que se produzca de la segunda manera.”De aquí se sigue inmediatamente que si un evento puede producirse de n maneras diferentes, de tal forma que cualesquiera dos de esas maneras no puedan ocurrir simultáneamente, la probabilidad de ocurrencia de este evento es igual a la suma p1 + p2 + + pn , donde, para k 2 f1; 2; : : : ; ng, pk es la probabilidad de que se produzca de la k-ésima manera. ¡Es la aditividad …nita! Se van acercando las ideas. ¿Qué se podía decir (estamos ubicándonos a …nales del siglo XIX) si un evento puede producirse de una in…nidad numerable de maneras diferentes, de tal forma que cualesquiera dos de esas maneras no puedan ocurrir simultáneamente? Hacía muchos años que Jacques Bernoulli había dado una respuesta a esta pregunta, en su libro publicado en el año 1713. No lo hizo para el problema general que estamos planteando, sino para un problema particular donde se presentaba esta situación. La respuesta, para el problema particular P1que planteó Bernoulli, es simple: la probabilidad de ocurrencia de tal evento es la serie k=1 pk , donde para k 2 N, pk es la probabilidad de que el evento se produzca de la k-ésima manera. ¡Es la -aditividad! Estamos más cerca. Sin embargo, aún muy lejos ya que una propiedad que se presenta en un caso particular no puede ser trasladada mecanicamente a una situación general. Todavía había un camino por recorrer. Además, lo anterior parece simplemente una analogía; en el caso del contenido de Jordan o de la medida de Lebesgue lo que tenemos son subconjuntos de R (o de R2 ), mientras que en el caso de la probabilidad lo que tenemos son eventos. Tienen propiedades similares, pero estamos tratando con dos tipos de objetos. Sin embargo la historia no …nalizó con lo que hizo Lebesgue ni el Cálculo de Probabilidades se estancó en el estado en que se encontraba a …nales del siglo XIX. Lebesgue continuó con sus investigaciones y se le fue uniendo más gente. Después de que Lebesgue desarrolló su teoría de integración en R, se extendió al caso de Rn sin mucha di…cultad. ¿Y si tuviéramos un espacio de dimensión in…nita? Parece di…cil y ¿nos serviría para algo?, bueno, tal vez no se trate de que sirva para algo. Pero regresemos a lo que ocurrió... Bueno, mejor dejemos la historia aquí por el momento, la continuaremos más adelante. Veamos el …nal, bueno, no el …nal …nal, sólo el …nal de esta parte. Hacia 1930 se tenía ya desarrollada una Teoría General de la Medida, la cual incluye la de…nición y el estudio de medidas de…nidas sobre una familia de subconjuntos de un conjunto cualquiera (sí, cualquiera) y se contaba con un método para construir esas medidas. La propiedad básica de cualquier medida es la -aditividad. PRÓLOGO 7 ¿Y qué pasó por el lado del Cálculo de Probabilidades? Antes de responder esta pregunta, adelantémonos un poco. Mediante un razonamiento lógico, podríamos acercar más el Cálculo de Probabilidades a la Teoría de la Medida, salvando uno de los obstáculos planteados antes. Un problema de probabilidad lo podemos plantear en términos de lo que se denomina un experimento aleatorio, el cual se de…ne como un proceso cualquiera que conduzca a un resultado, pero con la característica de que ese resultado no está únicamente determinado, puede ser uno cualquiera de un conjunto de posibles resultados. ¿Conjunto?, Sí, conjunto. Por …n los conjuntos en el Cálculo de Probabilidades. Al conjunto de posibles resultados de un experimento aleatorio se le denomina espacio muestral y se le suele denotar por la letra . Ahora bien, ¿qué es un evento?, podríamos de…nirlo como una proposición (en el sentido de la Lógica, es decir una aseveración que se hace la cual únicamente puede ser verdadera o falsa) relativa al resultado del experimento aleatorio que estemos considerando. Si realizamos el experimento podremos decir si esa proposición es verdadera o falsa (para esa realización); utilizando la terminología del Cálculo de Probabilidades, cuando la proposición resulte verdadera diremos que el evento ocurre y cuando es falsa diremos que no ocurre. Dado un evento cualquiera, hay un conjunto de posibles resultados del experimento para los cuales la proposición que de…ne al evento resulta verdadera y para cualquier posible resultado que no esté en ese conjunto la proposición resulta falsa. De esta forma podemos identi…car al evento en consideración con ese conjunto, el cual es un subconjunto del espacio muestral. Ah!, entonces la probabilidad es una función que está de…nida sobre una familia de subconjuntos de un conjunto; como una medida. Salvado un obstáculo, ya no estamos tratando con dos tipos de objetos. Queda entonces un único punto que salvar para poder identi…car una función de probabilidad con una medida. ¿Es -aditiva cualquier función de probabilidad? Volvamos a la historia. Casi inmediatamente después de publicado el trabajo de Lebesgue, la naciente Teoría de la Medida comenzó a utilizarse en algunos problemas de probabilidad, por ejemplo para calcular un tipo de probabilidades llamadas geométricas, las cuales consisten en considerar la elección al azar de un punto en una determinada región del plano y calcular la probabilidad de que el punto seleccionado pertenezca a un subconjunto dado de esa región. La probabilidad buscada se calculaba simplemente dividiendo el área del subconjunto dado entre el área de la región (la cual obviamente tendría que ser positiva). Con la teoría de Lebesgue ese problema podía ser resuelto para una familia más grande de subconjuntos de la región donde se selecciona el punto. En ese caso la función de probabilidad resulta ser aditiva ya que está de…nida mediante la medida de Lebesgue en el plano. Pero, se trataba únicamente de un tipo de problemas de probabilidad. En el año 1909 Borel publicó un artículo donde trató un tipo de problemas que denominó de probabilidades numerables. Para no tener que dar nuevas de…niciones, podemos plantear un ejemplo del tipo de problemas que Borel estudió en ese artículo. Supongamos que se lanza un dado una in…nidad de veces, ¿cuál es la probabilidad de que el número 6 se obtenga una in…nidad de veces? Si se asume que la función de probabilidad es -aditiva, la respuesta es que esa probabilidad es igual a 1. Borel llegó a este resultado pero planteándolo en otros términos, sin asumir que la función de probabilidad es -aditiva; escribió Borel: “es 8 PRÓLOGO claro que no se puede buscar aquí la probabilidad de que el caso favorable se produzca una in…nidad de veces en n ensayos y enseguida hacer crecer n inde…nidamente; por lo tanto se razonará como sigue: eligiendo un número …jo m, se buscará la probabilidad de que el caso favorable se produzca más de m veces en n ensayos y se calculará el límite hacia el cual tiende esta probabilidad cuando n aumenta inde…nidamente; omito aquí el sencillo cálculo, cuyo resultado es el siguiente: este límite es la unidad cualquiera que sea el número …jo m; eso signi…ca que se puede apostar con ventaja una cantidad tan grande como se quiera contra 1 franco a que el número de casos favorables será superior a un número …jo dado cualquiera m; es precisamente la signi…cación de este enunciado: la probabilidad P (A1 ) es igual a uno” (en nuestro ejemplo A1 es la obtención del número 6 una in…nidad de veces). Aunque pareciera que sí, Borel no a…rmó que P (A1 ) = 1, o, si se quiere, lo a…rmó pero solamente como un enunciado con una interpretación particular. Y había una razón para que Borel no escribiera P (A1 ) = 1 sin necesidad de dar una determinada interpretación. La razón era que Borel había mostrado que una función de probabilidad no siempre es aditiva. Esto lo hizo dando el siguiente ejemplo: “Supongamos, por ejemplo, que existe una manera de elegir de entre la colección in…nita de números enteros, uno de ellos al azar, de manera que cada uno de ellos tenga la misma probabilidad, esta probabilidad deberá entonces ser nula, pero su suma debe ser igual a 1”. ¡Ups!, efectivamente no hay -aditividad. ¡Qué complicación!, tan bien que íbamos. Alguien podría argumentar que no hay ningún problema pues el experimento aleatorio que planteó Borel es irrealizable, ¿cómo elegir al azar un número entero? La aceptación de ese argumento nos metería en problemas ya que en el Cálculo de Probabilidades nos encontramos con muchos experimentos de ese tipo; son experimentos pensados. Serían serios los problemas pues un experimento de importancia básica en el Cálculo de Probabilidades consiste en la elección al azar de un número real en el intervalo [0; 1], imposible de realizar, pero no de modelar matemáticamente, con una función de probabilidad -aditiva. Cabe mencionar aquí que el problema de la imposibilidad de efectivamente realizar un experimento aleatorio no crea ningún problema en la formulación moderna de la Teoría de la Probabilidad ya que esta formulación consiste en de…nir y estudiar un sistema matemático formal, con reglas muy precisas que no tienen nada que ver con la realización de experimentos; dentro de ese sistema, todo es Matemática. La utilización de ese cuerpo teórico formal para modelar fenómenos que se presentan en la realidad es un problema aparte. Pero sigamos con la historia. Se fueron planteando problemas de probabilidad cada vez más complejos, ya no únicamente con sucesiones de variables aleatorias independientes. Un problema de gran importancia que se resolvió fue el de construir un modelo matemático (probabilístico) para el llamado movimiento browniano, el cual consiste en el movimiento de un grano de polen que se coloca sobre agua. Las posibles trayectorias que sigue el grano de polen sobre el agua son funciones continuas de…nidas en el intervalo de tiempo en que se observa el movimiento, el cual podríamos asumir que es el intervalo [0; 1) y podríamos imaginar que el recipiente de agua es in…nito, de manera que cada posible trayectoria que sigue el grano de polen es una función continua f : [0; 1) ! R2 ; así que el conjunto de posibles trayectorias es un espacio vectorial de dimensión dimensión. Fue Norbert Wiener quien, en el año 1923, construyó ese modelo. Para ello utilizó los resultados que había PRÓLOGO 9 obtenido John Daniell, quien entre los años 1918 y 1920, desarrolló una teoría general de integración la cual permitía de…nir la integral para funciones que dependen de una in…nidad de variables. El método de Daniell conduce a una de…nición de integral la cual tiene las mismas propiedades que la integral que de…nió Lebesgue, en particular en lo que se re…ere a poder integrar, bajo determinadas condiciones, el límite de una sucesión de funciones como el límite de las integrales de las funciones de la sucesión, propiedad que equivale a la -aditividad de una medida. Teníamos nuevamente la -aditividad de la función de probabilidad, pero todavía para un caso particular, aunque esta vez de mucha importancia. El ejemplo de Borel, de una función de probabilidad que no es -aditiva, medio se olvidó, tal vez por todos los resultados que se iban obteniendo en la Teoría de la Medida, dándole así mucha fuerza. En el año 1925 se publicó un libro de Paul Lévy titulado Calcul des Probabilités, donde asume que toda función de probabilidad es -aditiva. Sin embargo aún quedaban algunos obstáculos que salvar para una aceptación general de esta propiedad. El problema central era el siguiente: A una variable aleatoria se le asocia una función no decreciente denominada su función de distribución y, desde el año 1913, August Radon había demostrado que, a partir de una función de ese tipo, se puede construir una medida utilizando el método de Lebesgue; a una familia …nita formada por n variables aleatorias se le asocia también una función de n variables denominada su función de distribución conjunta y, utilizando el método que Constantin Carathéodory había publicado en el año 1914, también, a partir de una función de distribución conjunta, se podía construir una medida. El problema que quedaba por resolver era como construir una medida asociada a una in…nidad, numerable o no numerable, de variables aleatorias. Este problema lo resolvió, utilizando el método de Carathéodory, Andrei Nikolayevich Kolmogorov en el año 1933. De esta manera la fusión del Cálculo de Probabilidades con la Teoría de la Medida quedaba consumada. El sistema matemático formal que surgió con las investigaciones realizadas entre los años 1900 y 1933, las cuales culminaron con la publicación del trabajo de Kolmogorov, es lo que propiamente podemos llamar ahora la Teoría de la Probabilidad. ¿Y qué hacer con el ejemplo de Borel? Hubo una polémica al respecto que se dio mediante la publicación de varios artículos. La conclusión para quienes optaron por aceptar la aditividad como propiedad de cualquier función de probabilidad, fue simplemente que ese ejemplo queda fuera del cuerpo teórico que se desarrolló. Además de lo interesante y maravilloso de esta historia, tenemos aquí un ejemplo de entrelazamiento, y en algún momento prácticamente una fusión, entre dos áreas del conocimiento que parecían independientes una de la otra. Una inventada para tratar con sistemas deterministas, como el movimiento de los cuerpos celestes; otra inventada para tratar con procesos que evolucionan al azar. Analizando la historia, tanto de la Teoría de Integración como del Cálculo de Probabilidades, hay algunos aspectos que merecen ser resaltados: 1. El desarrollo se va dando gracias a que cada uno de los que fueron contribuyendo tuvieron una mirada crítica hacía lo que estaba ya hecho. Algunos ejemplos: Cuando Fourier a…rmó 10 PRÓLOGO que toda función se puede expresar como una serie trigonométrica, algunos tomaron el resultado cautelosamente y se pusieron a investigar sobre el tema, Cauchy se dio cuenta que una de las cosas que es necesario de…nir con precisión es el concepto de integral, pero lo hizo únicamente para las funciones continuas; después, él mismo y otros que le siguieron buscaron de…nir la integral para el caso de funciones discontinuas; la integral se de…nía dependiendo del tipo de discontinuidades. Más adelante, Riemann, con una posición crítica hacia lo que se venía haciendo, cambió el enfoque al de…nir la integral de una única manera, independientemente de como sea la función; se abocó entonces al problema de caracterizar a las funciones que son integrables. Borel introdujo el concepto de medida cero e intentó desarrollar una Teoría de la Medida, sin embargo, su planteamiento fue limitado. Lebesgue, mirando el trabajo de Borel criticamente, planteó otro camino que resultó mucho más fructífero. Vemos entonces que es un pensamiento crítico el que va produciendo el desarrollo. 2. En el recuento histórico de los párrafos anteriores quedan muchísimos nombres sin mencionar. Tanto del lado del Cálculo de Probabilidades como del Análisis Matemático, los avances que se hicieron fueron producto del trabajo de mucha gente, lo cual muestra que la matemática es un producto social y que se desarrolla en zigzag, buscando a veces en una dirección sin encontrar resultados su…cientemente satisfactorios, dejando preguntas abiertas que en un momento dado no pudieron responderse y que la tenacidad de quienes continuaron permitieron irlas respondiendo, no necesariamente en la forma en que fueron inicialmente formuladas. Se trata de un trabajo colectivo que va creando una historia de suspenso, porque en cada momento no se sabe cómo se llegará a la solución de un determinado problema ni qué nuevos elementos se irán introduciendo para abordarlo. No se sabe tampoco si surgirá una nueva teoría, que tal vez lo englobe o lo descarte; todo esto en un proceso que no tiene …n, porque nunca estará todo dicho, aún cuando la historia pudiera continuar inde…nidamente. 3. La formulación que se dio a la Teoría de la Probabilidad es axiomática, es decir, se de…nió un sistema formal de axiomas, con los cuales se ha desarrollado un cuerpo teórico puramente matemático, independiente de los procesos o fenómenos reales que posibilitaron su surgimiento. ¿Independiente realmente? La respuesta es dialéctica, sí y no. Sí, porque efectivamente el cuerpo teórico que se va creando tiene su propia dinámica interna; es válido, por ejemplo, inventar de…niciones con los elementos de ese cuerpo teórico y construir una teoría con resultados relativos a lo de…nido, la cual quedaría dentro del cuerpo teórico general; y esto aún cuando lo de…nido o los resultados que se demuestren no tengan vínculo alguno con algún fenómeno o proceso real. No, porque lo que ocurre en el desarrollo histórico es que, en general, son los fenómenos reales los que motivan el interés en estudiar un determinado problema. Son los fenómenos reales los que direccionan el desarrollo teórico. A su vez, el cuerpo teórico que se forma a partir de los axiomas es utilizado para resolver algún nuevo problema real. En un contexto más general, el conocimiento va formando un entramado complejo con vínculos entre diferentes áreas, incluyendo lo social. Una investigación cientí…ca, de cualquier área, tiene la posibilidad, por su naturaleza de producción, de tener efectos en otras áreas del saber, dentro de cualquiera de sus ramas, las cuales, todas juntas, conforman el entramado simbólico humano. PRÓLOGO 11 Por otra parte, como lo mencionamos antes, el cuerpo teórico que conforma la Teoría de la Probabilidad es puramente matemático, basado en un sistema de axiomas, el cual incluye la propiedad de -aditividad de la función de probabilidad, de manera que viéndolo retrospectivamente, la pregunta ¿es -aditiva cualquier función de probabilidad?, planteada en uno de los párrafos anteriores, está mal formulada, o, si se quiere, tiene una respuesta trivial: cualquier función de probabilidad es -aditiva si el sistema de axiomas incluye esa propiedad; de otra forma, no necesariamente se tiene la -aditividad. En otras palabras, podríamos de…nir un sistema axiomático en el cual una función de probabilidad tuviera como propiedad necesaria el ser …nitamente aditiva; pudiendo ser -aditiva o no serlo. El cuerpo teórico que se desarrollara a partir de ese sistema axiomático conformaría una teoría matemática más, con el mismo status que cualquier otra. El incluir a la -aditividad como propiedad de cualquier función de probabilidad tiene la justi…cación que se fue dando históricamente, pero …nalmente es, en sí, arbitraria. Tal vez alguien podría preguntarse, bueno, pero en un fenómeno aleatorio real, ¿la función de probabilidad es o no es -aditiva? Nuestro punto de vista es que, parafraseando a Jacques Lacan, un fenómeno aleatorio real no habla, así que no cuenta con un sistema simbólico. La función de probabilidad es una invención humana, la cual forma parte de todo el simbolismo con el que los humanos tratamos de entender a la naturaleza; pero ese simbolismo es únicamente eso, un simbolismo que no forma parte de la naturaleza en sí misma. 4. Hay un aspecto que no desarrollamos en este libro; es el que se re…ere al vínculo que hay entre el avance cientí…co y las necesidades del sistema dominante. En ocasiones suele pensarse que el quehacer de un matemático es un acto solipsista, signado de la más absoluta neutralidad, dejándose arti…ciosamente de lado que dicho acto es un acto humano y como tal se encuentra inmerso en un marco conceptual, y atravesado por la cultura y la ideología. También se cae frecuentemente en el reduccionismo de pensar que es un acto que tiene garantía de ser "sin consecuencias", haciendo entonces a un lado la importancia vital del desarrollo de las ciencias para bien o para mal de la humanidad. Siempre están presentes el mundo real, los problemas sociales y los intereses de determinados grupos, que parecen estar por fuera del quehacer cientí…co, pero que en realidad no lo están totalmente. Hay una responsabilidad del hombre o mujer de ciencia, incluido el matemático o la matemática, de re‡exionar sobre lo que atañe a la investigación cientí…ca, abriendo canales de comunicación con todo el abanico del desarrollo cientí…co y social, en pos de alcanzar una visión más completa, insertos en un marco histórico especí…co. Es incluso así como sería más fructífero ese pensamiento crítico que ha sido desde siempre el impulsor de los pasos cruciales del desarrollo a lo largo de la historia de la humanidad. Ese maravilloso pensamiento crítico que pone sobre el tapete los saberes de los que nos precedieron para que pueda darse lugar a los grandes hitos signi…cativos del salto cualitativo del saber. Volviendo nuevamente a la parte histórica de los temas que se tratan en este libro y recapitulando lo mencionado con anterioridad, durante los primeros 33 años del siglo XX el Cálculo de Probabilidades se desarrolló enormemente; puede decirse que durante esos años culminó un periodo de desarrollo y comenzó uno nuevo. Paralelamente a la conclusión del estudio de las sucesiones de variables aleatorias independientes se comenzaron a formular problemas 12 PRÓLOGO que involucraban una in…nidad de variables aleatorias las cuales dependían unas de otras de diferentes maneras, iniciándose así el estudio de los procesos estocásticos. Este estudio se hizo ya sobre nuevas bases, con una formulación de la Teoría de la Probabilidad basada en la Teoría General de la Medida. En este libro se expone la formulación moderna de la Teoría General de la Medida y de la Teoría de Integración con respecto a una medida, para pasar después a la formulación de la Teoría de la Probabilidad basándonos en la Teoría de la Medida. Está pensado como el primero de dos libros, en el segundo de los cuales el objetivo es formular las bases del Cálculo Estocástico mediante la de…nición de lo que se denomina una integral estocástica y el estudio de sus propiedades. La intención es lograr una exposición de los diferentes temas de tal manera que el libro sea accesible a estudiantes de licenciatura, sin dejar de lado el rigor matemático que se requiere en cada uno de ellos. El libro consta de 15 capítulos. En el primero se expone de manera detallada la historia del desarrollo de la Teoría de Integración hasta llegar a la formulación de Lebesgue. En el segundo se hace una exposición formal de cómo se construye la medida de Lebesgue en R. En el tercero se trata el tema de las funciones de variación acotada. En el cuarto se de…ne y se demuestran las propiedades de la integral de Riemann-Stieltjes, la cual fue de gran importancia para generalizar el trabajo de Lebesgue y llegar a formular una Teoría General de la Medida y de la Integral. En el quinto de desarrolla formalmente la Teoría General de la Medida. En el sexto se trata el tema de la construcción de medidas a partir de funciones de variación acotada. En el séptimo se expone la primera parte de la Teoría General de Integración con respecto a una medida. En el octavo se expone la segunda parte de la Teoría General de Integración con respecto a una medida. En el noveno se trata nuevamente el tema de la integral de Stieltjes, pero viéndola como la integral con respecto a la medida generada por una función de variación acotada. En el décimo se de…nen y estudian diferentes tipos de convergencia de funciones; tema central ya que, por ejemplo, la integral estocástica se de…ne utilizando la convergencia en el espacio de funciones de cuadrado integrable. PRÓLOGO 13 En el décimo primero se estudian los espacios Lp . En el décimo segundo se expone de manera detallada la historia del desarrollo de la Teoría de Probabilidad hasta llegar a su formulación axiomática. En el décimo tercero se desarrolla la Teoría de la Probabilidad, considerando a ésta como una medida; se de…nen los conceptos básicos y se estudian sus propiedades; en particular, se muestra cómo se genera una medida a partir de una función de distribución conjunta. En el décimo cuarto se estudia el concepto de Esperanza y las leyes de los grandes números. En el décimo quinto se trata el tema de la construcción de espacios de probabilidad, concluyendo el capítulo con la demostración del teorema de Kolmogorov, el cual permite construir un espacio de probabilidad para una familia cualquiera de variables aleatorias. En el Apéndice se desarrollan algunos temas de Análisis que se utilizan en el texto: el teorema de Heine-Borel, compacidad en espacios métricos, caracterización de los conjuntos compactos, espacios vectoriales normados, convergencia uniforme y la aproximación de funciones continuas mediante polinomios. Miguel Ángel García Álvarez Diciembre de 2018 e-mail: magaz@unam.mx Notación y terminología A[B A\B Sn k=1 Ak Tn k=1 Ak Unión de los conjuntos A y B. Intersección de los conjuntos A y B. Unión de los conjuntos A1 ; : : : ; An . Intersección de los conjuntos A1 ; : : : ; An . (An )n2N S1 k=1 Ak T1 k=1 Ak Sucesión de los conjuntos A1 ; A2 ; : : : . A B Producto cartesiano de los conjuntos A y B. A B El conjunto A está contenido en el conjunto B. A B El conjunto A contiene al conjunto B. Ac B A Unión de los conjuntos de la sucesión (An )n2N . Intersección de los conjuntos de la sucesión (An )n2N . Complemento del conjunto A. B \ Ac . ; Conjunto vacío. N Conjunto de los números naturales, sin incluir el cero. Z Conjunto de los números enteros. Q Conjunto de los números racionales. R Conjunto de los números reales. R R [ f 1; 1g . Z+ Conjunto de los números enteros no negativos. R+ Conjunto de los números reales no negativos. fn; : : : ; mg Conjunto de números enteros entre n y m inclusive. fn; n + 1 : : :g Conjunto de números enteros mayores o iguales a n. 15 16 NOTACIÓN Y TERMINOLOGíA m n(a; b) Mínimo entre a y b. max(a; b) x^y Máximo entre a y b. m n(x; y). x_y max(x; y). nf A Ín…mo del conjunto A. sup A Supremo del conjunto A. (xn )n2N Sucesión de los números x1 ; x2 ; : : : . x x tiende al valor . f : A 7! B función de…nida sobre el conjunto A, con valores en el conjunto B. g f Composición de las funciones f y g. IA Función indicadora del conjunto A (igual a 1 sobre A y 0 sobre Ac ). f (x+) Límite de la función f cuando la variable tiende a x por la derecha. f (x ) Límite de la función f cuando la variable tiende a x por la izquierda. ln x Logaritmo natural de x. jxj Valor absoluto del número real x. [[x]] Mayor entero menor o igual a x. x+ max(x; 0). x max( x; 0). (a; b) Intervalo abierto fx 2 R ja < x < bg. Intervalo cerrado fx 2 R ja [a; b] k=1 xk k=1 xk k=1 xk P1 Qn n k bg. Intervalo semiabierto fx 2 R ja < x (a; b] [a; b) Pn x Intervalo semiabierto fx 2 R ja bg. x < bg. Suma de los números x1 ; : : : ; xn . P l mn 1 nk=1 xk Producto de los números x1 ; : : : ; xn . Combinaciones de n elementos tomados de k en k ( k!(nn! k)! ). NOTACIÓN Y TERMINOLOGíA 17 Diremos que una sucesión de números reales (xn )n2N es no decreciente (resp. no creciente) si xn xn+1 (resp, xn xn+1 ) para cualquier n 2 N. Diremos que una sucesión de números reales (xn )n2N es creciente (resp. decreciente) si xn < xn+1 (resp, xn > xn+1 ) para cualquier n 2 N. Diremos que una sucesión de funciones (fn )n2N , de R en R, es no decreciente (resp. no creciente) si f (x) f (y) (resp, f (x) f (y)) para cualquier pareja x; y 2 R tales que x y. Diremos que una sucesión de funciones (fn )n2N , de R en R, es creciente (resp. decreciente) si f (x) < f (y) (resp, f (x) > f (y)) para cualquier pareja x; y 2 R tales que x < y. Diremos que una sucesión de conjuntos (An )n2N es creciente (resp. decreciente) si An (resp, An An+1 ) para cualquier n 2 N. An+1 CAPÍTULO 1 MEDIDA E INTEGRAL DE LEBESGUE Desarrollo histórico El Cálculo Diferencial e Integral fue inventado por Isaac Newton y Gottfried Wilhelm Leibniz a …nales del siglo XVII. En su trabajo de…nieron el concepto de derivada de una función y geometricamente la interpretaban como la pendiente de la tangente a su grá…ca. La integral de una función la vieron como la operación inversa de la derivada y geometricamente la interpetaban como el área de la región delimitada, en el intervalo de integración, por la grá…ca de la función y el eje horizontal. A medida que la teoría se fue desarrollando se plantearon problemas cada vez más complejos, los cuales hicieron ver la necesidad de de…nir los conceptos con mayor precisión y de demostrar resultados con métodos analíticos, en lugar de algunos métodos geométricos que se utilizaban. En particular, la manera en que se trataba con la integral de una función llevó a cuestionamientos acerca de la validez de algunas propiedades que se asumían como válidas. De particular importancia fue el trabajo de Jean-Baptiste Joseph Fourier, publicado en el año 1822 bajo el título T héorie analytique de la chaleur ([35]). A…rmó ahí que una función arbitraria f , de…nida y acotada en el intervalo [ L; L], puede representarse mediante una serie trigonométrica de la forma: f (x) = 21 a0 + P1 n=1 an cos nLx + bn sen nLx . La demostración de Fourier de esta a…rmación consiste básicamente en tratar el desarrollo anterior como una ecuación para la cual tendrían que encontrarse los coe…cientes a0 , an y bn (n 2 N) que la hacen válida. Para esto, integrando entre L y L ambos lados de la expresión, se obtiene: RL f (x)dx = 2a0 L. L Así que a0 = 1 2L RL L f (x)dx. Ahora, multiplicando por cos nLx ambos lados de la expresión e integrando, se obtiene: RL f (x) cos nLx dx = an L. L 19 20 1. MEDIDA E INTEGRAL DE LEBESGUE Así que an = 1 L RL f (x) cos nLx dx. RL f (x)sen nLx dx. L DESARROLLO HISTÓRICO Finalmente, multiplicando por sen nLx ambos lados de la expresión e integrando, se obtiene: RL f (x)sen nLx dx = bn L. L Así que bn = 1 L L Fourier argumentaba que las integrales que de…nen los coe…cientes a0 , an y bn están bien de…nidas pues cada una puede obtenerse mediante el cálculo del área bajo la grá…ca de la función correspondiente. Cabe mencionar que por función arbitraria Fourier no se refería a lo que actualmente se entiende por una función como cualquier correspondencia de un conjunto en otro; sin embargo dentro de las funciones que consideraba incluía no únicamente a las funciones continuas. Además de la necesidad de clari…car el concepto de función, la demostración de Fourier planteaba los siguientes tres problemas: (i) De…niendo los coe…cientes an y bn como lo hacía Fourier, P1 1 ¿la serie 2 a0 + n=1 an cos nLx + bn sen nLx converge a f (x)? (ii) ¿Para qué funciones f , las integrales que de…nen los coe…cientes an y bn (n 2 N) están de…nidas? (iii) ¿Se puede integrar término a término una serie de funciones? En el año 1823 se publicó el libro de Augustin-Louis Cauchy titulado Résumé des leçons données à l’École Royale Politechnique sur le calcul in…nitésimal ([17]), en el cual trató el problema de la de…nición de la integral, primero para las funciones continuas y después para funciones con discontinuidades. En ese trabajo, Cauchy de…nió el concepto de continuidad básicamente como se conoce actualmente: Una función de…nida en un intervalo es continua si para cada x en el intervalo el valor numérico de la diferencia f (x + ) f (x) decrece inde…nidamente con . Más adelante formuló la de…nición analítica de la integral de una función continua, demostrando su existencia: Sea f una función continua en el intervalo [a; b], entonces las sumas: S= Pn k=1 f (xk 1 ) (xk xk 1 ), correspondientes a particiones P = fa = x0 < < xn = bg tienden a un límite cuando los elementos xk xk 1 se hacen in…nitamente pequeños; a ese límite se le llama la integral 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO 21 Rb de…nida de f y seP le denota por a f (x)dx. Se obtiene el mismo límite si se consideran sumas de la forma S = nk=1 f [xk 1 + k (xk xk 1 )] (xk xk 1 ), donde k 2 [0; 1]. Rx Demostró además que si f es una función continua y F (x) = a f (y)dy, entonces F 0 (x0 ) = f (x0 ) para cualquier x0 2 (a; b). La integral así de…nida es conocida actualmente como la integral de Riemann y no como la integral de Cauchy. La razón de esto parece justa pues es el trabajo de Riemann, publicado en el año 1867, el que dió la pauta para desarrollar una Teoría de Integración, la cual a su vez llevaría más tarde a una Teoría del Contenido y …nalmente a la moderna Teoría de la Medida. En trabajos posteriores, Cauchy consideró funciones discontinuas haciendo la aclaración siguiente: “es necesario observar que las funciones discontinuas introducidas en el Cálculo dejan de ser continuas únicamente para algunos valores de las variables” Para este tipo de funciones discontinuas extendió el concepto de integral de la siguiente manera: Si una función es continua en un intervalo [a; b], excepto en un punto c, en una vecindad del cual f puede ser acotada o no, se puede de…nir la integral de f como el límite: lm h 0 Z a c h f (x)dx + Z b f (x)dx , c h cuando éste existe. En 1829, Johann Peter Gustav Lejeune Dirichlet conjeturó que el método de Cauchy para de…nir la integral de funciones discontinuas se puede extender a todas las funciones que tengan la siguiente propiedad: Suponiendo que f está de…nida en un intervalo [a; b], dadas dos cantidades arbitrarias u y v en ese intervalo, es posible encontrar otras dos cantidades r y s entre u y v tales que la función f es continua en el intervalo [r; s]. Es decir, utilizando la terminología moderna, el conjunto de puntos donde la función es discontinua debe ser denso en ninguna parte. Recordemos que se dice que un conjunto A de números reales es denso en ninguna parte si dado cualquier intervalo abierto no vacío I, existe un intervalo abierto no vacío J contenido en I tal que J Ac . Esto es equivalente a decir que la cerradura de A no tiene puntos interiores, o bien que A no es denso en ningún intervalo abierto no vacío. 22 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO 1.1. La integral de Riemann Georg Friedrich Bernhard Riemann, en un artículo titulado Sur la possibilité de représenter une fonction par une série trigonométrique ([77]), el cual fue elaborado en 1854 pero publicado en 1867, cambió el enfoque para atacar el problema de la integración de funciones. Cauchy y quienes le siguieron buscaban extender la de…nición de la integral a funciones tan discontinuas como fuera posible, pero no partiendo de una de…nición general sino dando una de…nición distinta dependiendo del tipo de funciones que se querían integrar. En cambio, Riemann planteó una de…nición general de la integral para cualquier función y se abocó al problema de caracterizar a las funciones para las cuales esa integral está de…nida. Planteaba Riemann: ¿Qué se debe entender por Rb a f (x)dx? Consideremos una partición x0 ; x1 ; : : : ; xn del intervalo [a; b] y de…namos k = xk independientemente de como se elijan las cantidades "k 2 [0; 1], las sumas Pn k=1 k f (xk 1 + "k k ) tienden a un límite cuando todas R b las cantidades valor de la integral de…nida a f (x)dx. k xk 1 . Si, tienden a cero, a ese límite se le llama el Decía Riemann: “Busquemos ahora la extensión y el límite de la de…nición precedente y hagámonos esta pregunta: ¿En qué casos una función es susceptible de integración?, ¿en qué casos no lo es?” Estableció dos criterios, ambos basados en el concepto de oscilación de una función en un intervalo. Definición 1.1. Sea f : [a; b] ! R una función acotada. La diferencia: sup ff (x) : x 2 [a; b]g nf ff (x) : x 2 [a; b]g es llamada la oscilación de f en el intervalo [a; b]. Criterio R1 Sea Dk la oscilación de f en el intervalo [xk 1 ; xk ], entonces: P f es integrable si y sólo si l m k !0 k Dk k = 0. 1.1. LA INTEGRAL DE RIEMANN 23 Criterio R2 Dada > 0 y una partición P , sea (P; ) la suma de las longitudes de los subintervalos de la partición en los cuales la oscilación de la función es mayor que , entonces: f es integrable si y sólo si l mkP k!0 (P; ) = 0 para cualquier > 0, donde kP k es la norma de P . Este criterio se sigue del criterio R1 y las siguientes desigualdades: P (P; ) D (P; ) + (b a) . k Dk k donde Dk es la oscilación de f en el intervalo [xk 1 ; xk ] y D la oscilación de f en el intervalo [a; b]. El criterio R2 permitió a Riemann dar un ejemplo de una función integrable con un conjunto denso de discontinuidades: Sea M = (x) = 1 3 5 ; ; ;::: 2 2 2 y, para x 2 [0; 1), de…namos: si x 2 M m(x) si x 2 =M 0 x donde m(x) es el número entero más cercano a x. Riemann de…nió entonces la función f : [0; 1] ! R de la siguiente manera: P (kx) f (x) = 1 k=1 k2 Se puede demostrar que esta función es discontinua en todos todos los puntos x de la forma m x = 2n , donde m y n son dos números naturales tales que m y 2n son primos entre sí. Además f satisface el criterio R2 de Riemann y, por lo tanto, es integrable. Un ejemplo similar, pero más fácil de tratar, es el siguiente: Consideremos la función f : [0; 1] ! R de…nida por: f (x) = si x = m con m; n 2 N y primos entre sí n 0 en otro caso 1 n Esta función es continua en los irracionales y discontinua en los racionales. En efecto, la discontinuidad en un número racional x se sigue del hecho de que nos podemos acercar a x mediante números irracionales, en los cuales f toma el valor 0. Para demostrar la contuidad en un número irracional, primero observemos que dada " > 0, únicamente existe un número …nito de puntos x para los cuales se tiene f (x) ", de manera que si x0 es un número irracional en el intervalo [0; 1], podemos tomar una vecindad de x0 que no contenga 24 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO a ninguno de los puntos en donde f es mayor o igual a ". Para cualquier x en esa vecindad se tiene f (x) f (x0 ) < ". Por otra parte, f satisface el criterio R2 de Riemann y, por lo tanto, es integrable. En efecto, dada > 0 y " > 0, sea A = fx1 , x2 , : : :, xM g el conjunto de puntos en los cuales f es mayor " o igual que y de…namos = 3M . Si P es una partición de norma menor que , hay a lo más 2M subintervalos de P que contienen algún punto de A; en el resto de los subintervalos de P la oscilación de f es menor que , de manera que si (P; ) es la suma de las longitudes de los subintervalos de P en los cuales la oscilación de la función es mayor que , se tiene (P; ) 2M < ", así que l mkP k!0 (P; ) = 0. Hermann Hankel, discípulo de Riemann, introdujo en 1870 ([43]) el concepto de oscilación de una función en un punto y reformuló el criterio de Riemann en los siguientes términos: Sea f : [a; b] ! R una función acotada y x 2 (a; b). Sea (In )n2N una sucesión de intervalos cerrados encajados que contengan a x como T1 punto interior y tales que n=1 In = fxg; denotemos por On a la oscilación de f en el intervalo In ; entonces el límite l mn 1 On existe y es independiente de la sucesión particular de intervalos encajados con las propiedades dadas antes. A ese límite se le llama la oscilación de la función f en el punto x. Demostró entonces, erróneamente, que una función es integrable si y sólo si para cualquier " > 0 el conjunto de puntos donde la oscilación de la función es mayor que " es denso en ninguna parte. Durante varios años prevaleció la búsqueda de la caracterización de las funciones integrables en base a la pequeñez topológica del conjunto de sus discontinuidades y, en esa búsqueda, se puede observar la confusión que existía respecto a los diferentes conceptos de pequeñez que podían de…nirse. Alrededor del año 1873 tal confusión radicaba básicamente en la idea de que un conjunto es denso en ninguna parte si y sólo si es de primera especie. Recordemos que si A R, se denota por A(1) al conjunto de puntos de acumulación de A, por A(2) al conjunto de puntos de acumulación de A(1) , etc... Al conjunto A(n) se le llama el enésimo conjunto derivado de A. Se dice que un conjunto A R es de primera especie si A(n) es …nito para alguna n. En 1873 era ya bien conocido que un conjunto acotado de primera especie es denso en ninguna parte: si un conjunto es denso en algún intervalo, entonces el conjunto de sus puntos de acumulación también lo es; de manera que ese conjunto no puede ser de primera especie. 1.1. LA INTEGRAL DE RIEMANN 25 Sin embargo, se pensaba que los conjuntos de primera especie agotaban las posibilidades de los conjuntos densos en ninguna parte. La confusión terminó cuando se inventaron métodos para construir conjuntos densos en ninguna parte. Paul du Bois Reymond dio en 1883 ([30]) un ejemplo de un conjunto denso en ninguna parte que no es de primera especie: Sea In una sucesión de intervalos ajenos cuyos puntos extremos convergen al punto P . S En el interior de In de…namos un conjunto Qn de orden n y sea Q = 1 n=1 Qn . Q es un conjunto denso en ninguna parte pues cada conjunto Qn lo es y éstos se encuentran en intervalos ajenos. Por otra parte, P 2 Q(n) para toda n, por lo tanto, Q no es de primera especie. Otro método de construcción de conjuntos densos en ninguna parte fue desarrollado de manera independiente por Henry John Stephen Smith en 1875 ([84]), Vito Volterra en 1881 ([92], [93]) y Georg Ferdinand Ludwig Philipp Cantor durante el periodo 1879-1884 ([11], [12], [13], [14], [15]). Este método es el que se utiliza actualmente para de…nir el conjunto de Cantor, el cual es un ejemplo de un conjunto denso en ninguna parte que no es de primera especie. De…namos: F0 = [0; 1], F1 = [0; 31 ] [ [ 32 ; 1], F2 = [0; 19 ] [ [ 92 ; 13 ] [ [ 32 ; 79 ] [ [ 89 ; 1], .. . En general, si ya tenemos de…nido el conjunto Fn , éste consta de una unión de 2n intervalos cerrados ajenos. El conjunto Fn+1 se construye entonces partiendo cada uno de esos intervalos en 3 intervalos de la misma longitud y eliminando el intervalo central abierto. T F = 1 n=1 Fn es llamado el conjunto de Cantor y tiene las siguientes propiedades: Es un conjunto denso en ninguna parte F = F (n) para toda n, por lo tanto, no es de primera especie. Durante ese periodo emergió una nueva clase de conjuntos, los de contenido cero: Definición 1.2. Se dice que un conjunto tiene contenido cero si, para cualquier " > 0, existe una familia …nita de intervalos abiertos cuya unión cubre al conjunto y tales que la suma de sus longitudes es menor que ". 26 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO Se pudo demostrar además que esta nueva clase de conjuntos se ubica entre las otras dos que hemos mencionado, es decir, todo conjunto acotado de primera especie tiene contenido cero y a su vez todo conjunto de contenido cero es denso en ninguna parte. Una demostración de la primera de estas contenciones puede basarse en el hecho de que si B es un conjunto acotado tal que el conjunto de sus puntos de acumulación tiene contenido cero entonces B también tiene contenido cero. En efecto, sea C el conjunto de puntos de acumulación de B; entonces, dada " > 0, existe una colección …nita de intervalos abiertos cuya unión cubre a C y tales que la suma de sus longitudes es menor que 2" ; el conjunto de puntos de B que no son cubiertos por la unión de esos intervalos es …nito, pues si fuera in…nito, siendo además acotado, tendría por lo menos un punto de acumulación, el cual obviamente no estaría en C, lo cual es una contradicción. Tal conjunto …nito puede ser cubierto por una colección …nita de intervalos abiertos tales que la suma de sus longitudes es menor que 2" . Para demostrar la segunda contención, sea B un conjunto denso en algún intervalo [a; b] con a < b; entonces, dada cualquier colección …nita de intervalos abiertos cuya unión cubra a B, redefínanse los intervalos de tal manera que se tengan intervalos ajenos con la misma unión; de esta forma resulta fácil mostrar que el conjunto de puntos del intervalo [a; b] que no son cubiertos por la unión de esos intervalos es …nito, pues de otra manera existiría un intervalo no vacío (c; d), contenido en [a; b], el cual no tendría puntos en común con la unión de tales intervalos; pero, como B es denso en [a; b], el intervalo (c; d) contendría puntos de B, lo cual es una contradicción. Se concluye entonces que dada cualquier colección …nita de intervalos abiertos cuya unión cubra a B, la suma de las longitudes de esos intervalos es mayor o igual a b a, de manera que B no puede tener contenido cero. El conjunto de Cantor, además de ser denso en ninguna parte, tiene contenido cero y, como ya se mencionó, no es de primera especie. Además, con el mismo método con el que se construye el conjunto de Cantor, se pudieron construir conjuntos compactos, densos en ninguna parte, que no son de primera especie y, además, que no tienen contenido cero. Por ejemplo, divídase el intervalo [0; 1] en 3 intervalos de la misma longitud, elimínese el interior del subintervalo central y llámese F1 a la unión de los subintervalos cerrados que restan; divídase cada uno de los 2 subintervalos que forman F1 en 32 intervalos de la misma longitud, elimínese el interior del subintervalo central, llámese F2 a la unión de los subintervalos cerrados que restan; júntese cada grupo de subintervalos contiguos en un solo intervalo, divídase cada uno de los 22 subintervalos que se forman en 33 intervalos de la misma longitud y elimínese el interior del subintervalo central; continuando con este proceso inde…nidamente, la intersección F de los conjuntos F1 ; F2 ; : : : resulta ser un conjunto compacto, denso en ninguna parte y que no tiene contenido cero. 1.1. LA INTEGRAL DE RIEMANN 27 Para probar que F es denso en ninguna parte, obsérvese que cada uno de los 2n intervalos ajenos que forman Fn tiene longitud igual a: 1 32 1 32 2 13 1 3 2 1 3n 1 3n 2 = 1 3 1 32 1 2n 3 33 3n 1 3n < 1 . 2n Supongamos que F es denso en algún intervalo (a; b) con 0 a < b 1, entonces, como F es cerrado, se tiene [a; b] F y, por lo tanto, [a; b] Fn para cualquier n. Así que, como Fn es la unión de 2n intervalos ajenos, se tiene [a; b] I, donde I es alguno de los 2n intervalos ajenos que componen Fn . De manera que b a l(I) < 21n . Como esto pasa para cualquier n 2 N, se concluye que b a = 0, lo cual es una contradicción. Por lo tanto, F es denso en ninguna parte. Ahora bien, al dividir cada uno de los 2n intervalos ajenos que forman Fn en 3n+1 subintervalos de la misma longitud y eliminar el subintervalo central, la suma de las longitudes de los intervalos que se eliminan está dada por: 1 2n 3n+1 13 1 3 2 1 32 1 32 2 1 3n 1 3n 2 = 1 3 1 32 1 3n+1 3 33 3n 1 3n < 1 . 3n+1 De manera que si S es la suma de las longitudes de todos los intervalos abiertos ajenos que componen F c , se tiene: S< 1 3 + 1 32 + = 21 . Sea I1 ; I2 ; : : : ; In una colección …nita de intervalos abiertos cuya unión cubre F , entonces esos intervalos, junto con los intervalos abiertos ajenos que componen F c , forman una cubierta Pn del intervalo [0; 1]: Por lo tanto S + j=1 l(Ij ) 1, así que: Pn 1 S > 12 . j=1 l(Ij ) Se concluye entonces que F no puede tener contenido cero. El ejemplo de Du Bois Reymond aún no era su…ciente para aclarar la diferencia entre los 3 tipos de conjuntos, pues el conjunto que él de…nió es de contenido cero. En efecto, cada conjunto Qn tiene contenido cero por ser de primera especie y al cubrir el punto P con cualquier intervalo abierto quedan cubiertos todos los conjuntos Qn a partir de una cierta n. Todo lo anterior permitió exhibir funciones no integrables cuyo conjunto de discontinuidades sea denso en ninguna parte: El conjunto de discontinuidades de la función indicadora de un conjunto F , denso en ninguna parte, es el conjunto F . En efecto, sea F un conjunto denso en ninguna parte y sea f : [0; 1] ! R su función indicadora. Si x0 2 F c , existe entonces un intervalo abierto I tal que x0 2 I f (x) = 0 para cualquier x 2 I. Por lo tanto, f es continua en x0 . F c , de manera que 28 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO Si x0 2 F , entonces, como F es denso en ninguna parte, para cualquier intervalo abierto I que contenga a x0 , se tiene I \ F c 6= , de manera que existe y 2 I tal que f (y) = 0. Por lo tanto, f no es continua en x0 . Finalmente, la función indicadora de un conjunto F , denso en ninguna parte, que no tiene contenido cero, no es integrable. En efecto, sea F [0; 1] un conjunto denso en ninguna parte que no tiene contenido cero y sea f : [0; 1] ! R la función indicadora de F . Consideremos una partición fx0 ; x1 ; : : : ; xn g del intervalo [0; 1]. Como F es denso en ninguna parte, cada subintervalo de la partición contiene una intervalo que no contiene puntos de F , de manera que, cualquiera que sea la partición, se puede elegir Pn en cada subintervalo [xk 1 ; xk ] un punto k que no pertenece a F y entonces la suma xk 1 ) es igual a cero. k=1 f ( k ) (xk Por otra parte, como F no tiene contenido cero, existe "0 > 0 tal que, dada cualquier colección …nita de intervalos abiertos I1 ; I2 ; : : : ; Im cuya unión contenga a F , la suma de las longitudes de esos intervalos es mayor o igual que "0 . Si en lugar de intervalos abiertos, consideramos una colección …nita de intervalos cerrados I1 ; I2 ; : : : ; Im cuya unión contenga a F , entonces, dada cualquier > 0, podemos cubrir los extremos de esos intervalos con 2m intervalos abiertos J1 ; J2 ; : : : ; J2m tales que la suma de sus longitudes es menor que . Por lo tanto, como el interior de los intervalos I1 ; I2 ; : : : ; Im junto con los intervalos J1 ; J2 ; : : : ; J2m cubren a F , la suma de sus longitudes es mayor o igual que "0 . Se tiene entonces: P2m Pm . "0 k=1 l (Jk ) > "0 k=1 l (Ik ) P "0 . Como esto es válido para cualquier > 0, se concluye que m k=1 l (Ik ) Dada cualquier partición fx0 ; x1 ; : : : ; xn g del intervalo [0; 1], consideremos los subintervalos [xk 1 ; xk ] que contengan por lo menos un elemento de F . En cada uno de esos subintervalos tomemos un punto k que Ppertenece a F y en el resto tomemos un punto k que no pertenece a F . Entonces la suma nk=1 f ( k ) (xk xk 1 ) es mayor o igual que "0 . Así que eligiendo los puntos Pn xk 1 ) k=1 f ( k ) (xk k de la primera manera obtenemos una suma igual a cero y eligiendo los puntos Pn xk 1 ) k=1 f ( k ) (xk k de la segunda manera obtenemos una suma mayor o igualque "0 . Por lo tanto, f no es integrable. Por otro lado, Riemann había mostrado la existencia de funciones cuyas discontinuidades forman un conjunto denso pero que son integrables. Se podía concluir, …nalmente, que: 1.1. LA INTEGRAL DE RIEMANN 29 no es el tamaño topológico del conjunto de discontinuidades lo que determina que una función sea o no sea integrable. Fue en ese momento cuando se pudo ya establecer con toda claridad la condición para que una función sea integrable. Axel Harnack demostró en 1881 ([44]) que: Una función es integrable si y sólo si, para cualquier > 0, el conjunto de puntos donde la oscilación de la función es mayor que tiene contenido cero. La demostración es como sigue: Sea f : [a; b] ! R una función acotada. Obsérvese primero que si P es una partición del intervalo [a; b] y, para > 0 dada, x es un punto en donde la oscilación de f es mayor que entonces o bien x pertenece al interior de uno de los subintervalos de P en donde la oscilación de f es mayor que , o bien x es un elemento de la partición P . Sea entonces A( ) el conjunto de puntos x 2 [a; b] donde la oscilación de f es mayor que . Si f es Riemann integrable, satisface el criterio R2 , así que, dada " > 0, existe > 0 tal que si P es una partición de norma menor que , entonces (P; ) < 2" ; tomemos entonces una partición particular P de norma menor que e intervalos abiertos I1 ; I2 ; : : : ; In cuya unión cubra los puntos de la partición P y tales que la suma de sus longitudes sea menor que 2" . De esta manera, A( ) queda cubierto por una colección …nita de intervalos abiertos tales que la suma de sus longitudes es menor que ", así que A( ) tiene contenido cero. Supongamos ahora que A( ) tiene contenido cero para cualquier > 0 y sea > 0 …ja. Dada " > 0, existen entonces intervalos abiertos no vacíos, Ik (k = 1; 2; : : : ; n), de extremos ck ; dk P 2 [a; b]; tales que dk ck+1 para k = 1; 2; : : : ; n 1, A( ) [nk=1 Ik y nk=1 [dk ck ] < ". Dado un intervalo I de la forma [a; c1 ], [dk ; ck+1 ] (k = 1; 2; : : : ; n 1) o [dn ; b], si la oscilación de f en I es mayor que 2 , se parte I en dos subintervalos de la misma longitud; si, en ninguno de los subintervalos que se forman, la oscilación de f sigue siendo mayor que 2 , termina el proceso; si no, se parte en dos subintervalos de la misma longitud cada subintervalo en donde la oscilación de f sea mayor que 2 : 30 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO Continuando con este proceso, en un número …nito de pasos se tiene partido I de tal manera que en cada subintervalo de la partición la oscilación de f es menor o igual a 2 . De esta manera se tiene una partición del intervalo [a; b] formada por todos los extremos de los intervalos Ik (k = 1; 2; ; : : : ; n) y por todos los extremos de los subintervalos que conforman cada uno de los intervalos I del tipo descrito arriba. De…namos entonces 1 como la más pequeña de las longitudes de los subintervalos de esta partición y = m nf 1 ; n" g. Dada una partición P de norma menor que ; si la oscilación de f es mayor que 4 en un subintervalo de P; entonces ese subintervalo intersecta alguno de los intervalos Ik (k = 1; 2; ; : : : ; n), por lo tanto, se tiene (P; 4 ) < " + 2n n" = 3": Así que, por el criterio R2 , f es integrable. El concepto de contenido cero se convertiría desde ese momento en uno clave para la teoría de la integración. Surgiría más adelante en conexión con la teoría de integrales dobles sobre una región E del plano, cuya frontera requiere tener contenido cero para que la integral pueda ser de…nida. En ese momento se tuvieron entonces las bases para desarrollar una teoría del contenido, lo cual fue llevado a cabo por Otto Stolz ([88], [89]), Axel Harnack ([45], [46]), Giuseppe Peano ([74]) y, sobre todo, por Marie Ennemond Camille Jordan ([50]). Todo esto durante el periodo que va de 1883 a 1892: Las de…niciones y propiedades se establecieron en ese periodo tanto para el caso de subconjuntos de los reales como para subconjuntos del plano, siendo similares en los dos casos. También surgieron en este periodo los conceptosRde integral superior e inferior de una función, R las cuales serán denotadas en lo que sigue por e respectivamente. Sea A un conjunto acotado de números reales y [a; b] un intervalo que lo contenga. Para cada partición P del intervalo [a; b] sea S(P; A) la suma de los subintervalos de P que contienen puntos de A y S(P; A) la suma de los subintervalos de P contenidos en A. Se de…ne entonces el contenido exterior de A, ce (A), y el contenido interior de A, ci (A) mediante las relaciones: ce (A) = nf S(P; A) : P es partición del intervalo [a; b] . ci (A) = nf fS(P; A) : P es partición del intervalo [a; b]g. Se dice entonces que A es Jordan-medible si ce (A) = ci (A) y, en este caso, a esta cantidad común se le llama el contenido de A y se le denota por c(A). Evidentemente todo conjunto de contenido cero es Jordan-medible. También todo intervalo acotado es Jordan-medible y su contenido es igual a su longitud. 1.1. LA INTEGRAL DE RIEMANN 31 Consideremos un intervalo [a; b], entonces la familia de subconjuntos de [a; b] que son Jordanmedibles es cerrada bajo complementos y uniones …nitas. Además, si A1 , A2 , . . . ,An es una familia …nita de subconjuntos de [a; b] que son Jordan-medibles y ajenos por parejas, entonces: S P c ( nk=1 Ak ) = nk=1 c (Ak ). Se observó también durante ese periodo que la teoría del contenido está íntimamente relacionada con la teoría de integración de Riemann, no únicamente porque la caracterización de la integrabilidad de una función se establece con base en el concepto de contenido cero o porque para integrar sobre una región del plano se requiere que la frontera de ésta tenga contenido cero. La relación resulta bastante más profunda, a tal grado que puede decirse que constituyen en realidad la misma teoría, formulada por un lado para los conjuntos y por el otro para las funciones. Por ejemplo, se tienen los siguientes resultados: Proposición 1.1. Sea A un subconjunto del intervalo [a; b] e IA su función indicadora, entonces: Rb I (x)dx = ce (A), a A Rb IA (x)dx = ci (A). a Corolario 1.1. A es Jordan-medible si y sólo si IA es Riemann integrable. Además, en ese caso, se tiene: Rb I (x)dx = c(A). a A Proposición 1.2. Sea f : [a; b] ! R una función acotada no negativa y E la región en R2 acotada por el eje x y la grá…ca de f entre a y b, entonces R b f es Riemann integrable si y sólo si E es Jordan medible. Además, en ese caso, se tiene a f (x)dx = c(E). Proposición 1.3. Sea f : E ! R una función acotada de…nida sobre un subconjunto acotado de R o de R2 Jordan medible. Para cada partición E1 ; E2 ; : : : ; En Pn P de E en n conjuntos P n f ) = Jordan medibles ajenos, de…namos S(P; f ) = M c(E ) y S(P; j j j=1 mj c(Ej ), j=1 donde, para cada j 2 f1; 2; : : : ; ng, Mj = sup ff (x) : x 2 Ej g y mj = nf ff (x) : x 2 Ej g, entonces: R f (x)dx = l mkP k!0 S(P; f ), E R E f (x)dx = l mkP k!0 S(P; f ), donde kP k = max fC(Ej ) : j 2 f1; 2; : : : ; ngg. 32 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO En particular, f es Riemann integrable sobre E si y sólo si el límite de las sumatorias P n j=1 f ( j )c(Ej ), donde, para cada j 2 f1; 2; : : : ; ng, j 2 Ej , existe cuando kP k tiende a 0 y es independiente de los puntos j 2 Ej que se tomen. Además, en ese caso, se tiene: R E f (x)dx = l mkP k!0 Pn j=1 f ( j )c(Ej ). 1.2. Teoría de la medida de Borel En 1894-1895, Félix Édouard Justin Émile Borel ([5], [6]) dio las bases para un nuevo avance al introducir el concepto de medida cero: Definición 1.3. Se dice que un conjunto tiene medida cero si para cualquier " > 0 existe una colección numerable de intervalos abiertos fIn g cuya unión cubre al conjunto y tales que la suma de sus longitudes es menor que ". Curiosamente, el concepto de medida cero no lo introdujo Borel con relación a la teoría de integración. Al introducir ese concepto, Borel estaba atacando un problema de continuación analítica de una función de variable compleja: Considérese la función de variable compleja f (z) = P1 An n=1 z an , P donde A1 ; A2 ; : : : son números complejos tales que la serie 1 n=1 jAn j converge y a1 ; a2 ; : : : son puntos en el plano complejo que están sobre una curva cerrada C formando un conjunto denso en esa curva. P An Se puede ver inmediatamente que si z 2 = C entonces la serie 1 n=1 z an converge pues la distancia de z a C es positiva. Consideremos dos puntos P y Q, el primero al interior de la región que forma C y el segundo al exterior de la misma; el problema que se planteó Borel P consiste entonces en encontrar un arco circular que una P con Q sobre el cual la An serie 1 n=1 z an converja absoluta y uniformemente. Esto llevó a Borel a la necesidad de demostrar que existen puntos z sobre C para los cuales la serie en consideración converge. Para simpli…car el razonamiento, consideremos el mismo problema pero con funciones de variable real. 1.2. TEORíA DE LA MEDIDA DE BOREL Sea fa1 ; a2 ; : : :g un conjunto numerable y denso en el intervalo [a; b] y (An )n 1 una sucesión de números Para cada x 2 [a; b] P1 reales. An fa1 ; a2 ; : : :g consideremos la serie n=1 x an . Aparentemente tal serie no converge para ninguno de esos puntos x pues el conjunto fa1 ; a2 ; : : :g es denso en [a; b] y entonces dado cualquier punto x 2 [a; b] hay puntos an tan cerca de x como se quiera. Sin embargo, a Borel, p P1 siguiendo se puede mostrar que, asumiendo que la serie n=1 jAn j converge, existe una in…nidad no numerable de puntos x 2 [a; b] para p los cuales la serie converge. En efecto, para cada n 2 N, sea unP= jAn j. Sea l ahora l la longitud del intervalo [a; b] y N 2 N tal que 1 n=N +1 un < 2 : Para cada n > N sea P In un intervalo abierto con centro en an y radio un . Se tiene entonces 1 n=N +1 l(In ) < l, donde l(In ) es la longitud del intervalo In . Como los puntos a1 ; a2 ; : : : ; aN forman un conjunto …nito, se pueden cubrir con Pintervalos abiertos I1 ; I2 ; : : : ; In , respectivamente, de tal manera que 1 n=1 l(In ) < l. Si x no pertenece a ninguno de los intervalos IN +1 ; IN +2 ; : : : entonces jx ai j > 0 para i 2 f1; 2; : : : ; N g y jx ai j ui para i 2 fN + 1; N + 2; : : :g. Por lo tanto: P1 PN P1 An An An = + n=1 x an n=1 x an n=N +1 x an p PN P1 An jAn j < 1. n=1 x an + n=N +1 Lo único que resta probar es que existe una in…nidad de puntos x 2 [a; b] que no pertenecen a ninguno de los intervalos IN +1 ; IN +2 ; : : :. Para esto, Borel demostró el resultado, ahora clásico, que asegura que todo intervalo cerrado y acotado es compacto. De manera más especí…ca, Borel demostró, básicamente como se hace actualmente, que si un intervalo cerrado y acotado es cubierto por una in…nidad numerable de intervalos abiertos, entonces existe una colección …nita de esos intervalos que también lo cubren. Con base en ese resultado, si los intervalos P I1 ; I2 ; : : : cubrieran al intervalo [a; b], necesariamente se tendría 1 l, lo cual es una n=1 l(In ) contradicción. Más aún, si únicamente hubiera una colección numerable de puntos x 2 [a; b] que no pertenecen a ninguno de los intervalos I1 ; I2 ; : : :., estos puntos podrían ser cubiertos por una nueva colección numerable de intervalos abiertos de tal manera que la suma de sus longitudes, sumadas con las longitudes de los intervalos I1 ; I2 ; : : :, siga siendo menor que l, lo cual no es posible. 33 34 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO Todavía siguiendo a Borel, se puede decir aún más, pues cambiando l por una " > 0 arbitraria en el razonamiento anterior sePmuestra que An el conjunto de puntos x 2 [a; b] para los cuales la serie 1 n=1 x an no converge absolutamente pueden ser cubiertos por una colección numerable de intervalos abiertos de tal manera que la suma de sus longitudes sea menor que ". Es decir, utilizando el concepto que introdujo Borel, P An el conjunto de puntos x 2 [a; b] para los cuales la serie 1 n=1 x an no converge absolutamente tiene medida cero. Además de introducir el concepto de medida cero al resolver el problema que se planteó, la demostración de Borel contiene un resultado que sería clave para que más adelante Lebesgue. pudiera de…nir el concepto de medida. Ese resultado se puede enunciar de la siguiente manera: Sea I un intervalo cerrado y acotado y (Ij )j2N una sucesión de intervalos abiertos tales que S1 I j=1 Ij , entonces: l (I) P1 j=1 l (Ij ). El resultado parece trivial ya que al evaluar la suma de las longitudes de los intervalos Ij , si dos de ellos se traslapan, podría haber una parte de I cuya longitud se está sumando dos veces; si no se traslapan, al sumar las longitudes de los dos intervalos, esa suma es por lo menos igual a la suma de las longitudes de las partes de I que se encuentran dentro de esos intervalos. Sin embargo, al tratar de formalizar esta idea se llega nuevamente al problema inicial. Si el conjunto de intervalos abiertos cuya unión cubre I fuera …nito, el resultado se puede demostrar fácilmente. En efecto, supongamos que el intervalo acotado I = [a; b] está contenido en la unión de los intervalos no vacíos Ij = (aj ; bj ), con j 2 f1; 2; : : : ; mg. Si alguno de esos intervalos tiene longitud in…nita, el resultado es trivial, así que podemos suponer que todos los intervalos Ij son …nitos. Sea D = fx0 ; x1 ; : : : ; xn g el conjunto que se obtiene al ordenar, del menor al mayor, los puntos a; b; a1 ; b1 ; a2 ; b2 ; : : : ; am ; bm . (k) Para k 2 f1; 2; : : : ; ng de…namos I (k) = (xk 1 ; xk ) e I = [xk 1 ; xk ]; además, para j 2 f1; 2; : : : ; mg, denotemos por I j al intervalo [aj ; bj ]. Entonces: 1) los intervalos I (1) ; I (2) ; : : : ; I (n) (j) son ajenos por parejas; 2) el intervalo I, así como cada uno de los intervalos I , con j 2 f1; 2; : : : ; mg, es la unión de algunos de los intervalos I k , con k f1; 2; : : : ; ng. n (k) o Sean D el conjunto de superíndices de los intervalos de la familia I : k 2 f1; 2; : : : ; ng Sm (k) cuya unión es igual a I. Como I , con k 2 D, está contenido j=1 Ij , cada intervalo I en algún rectángulo I j (j 2 f1; 2; : : : ; mg). Además: l (I) = P fk2Dg l I (k) . 1.2. TEORíA DE LA MEDIDA DE BOREL 35 Para n (k) cada j 2of1; 2; : : : ; mg, sea Dj el conjunto de superíndices de los intervalos de la familia I : k 2 D que están contenidos en I j . Obviamente se tiene: l (Ij ) = l I j P fk2Dj g l I (k) . (k) Y como cada intervalo I , con k 2 D, está contenido en algún rectángulo I j (j 2 f1; 2; : : : ; mg), se tiene: P Pm Pm P (k) (k) = l (I). fk2Dg l I j=1 l (Ij ) j=1 fk2Dj g l I Regresando al problema inicial, sea I un intervalo cerrado y acotado e (Ij )j2N una sucesión S1 de intervalos abiertos tales que I j=1 Ij . Para demostrar el resultado enunciado, Borel demostró que existe una colección …nita de los intervalos Ij cuya unión también contiene a I. Su razonamiento, ahora clásico, fue el siguiente: Sea B = fx 2 [a; b] : el intervalo [a; x] está contenido en la unión de un número …nito de intervalos de la familia fIj : j 2 Ngg. B es un conjunto no vacío, ya que a 2 B, y está acotado por b; por lo tanto B tiene un supremo, que denotaremos por x0 . Como a 2 B y b es cota superior de B se tiene a x0 b. Como x0 2 [a; b], hay un intervalo Ij0 = (aj0 ; bj0 ) al cual pertenece x0 . Siendo x0 el supremo de B, existe x 2 B tal que x 2 (aj0 ; x0 ]. Como x 2 B, hay una colección …nita de intervalos de la familia fIj : j 2 Ng cuya unión cubre al intervalo [a; x]. Entonces agregándole a esa colección el intervalo Ij0 (si no está ya incluido), obtenemos una colección …nita de intervalos de la familia fIj : j 2 Ng cuya unión cubre al intervalo [a; x0 ]; así que x0 2 B. Sea Ij0 ; Ij1 ; Ij2 ; : : : ; Ijm una colección …nita de intervalos cuya unión cubre el intervalo [a; x0 ]. Si se tuviera x0 < b, entonces, si c = m n (bj0 ; b), se tendría x0 < c b. Tomando cualquier y 2 (x0 ; c) se tendría x0 < y < bj0 , así que la unión de los intervalos Ij0 ; Ij1 ; Ij2 ; : : : ; Ijm también cubriría al intervalo [a; y]. Como (x0 ; c) [a; b], se tendría y 2 [a; b] y, por lo tanto, y 2 B, lo cual no es posible ya que x0 < y y x0 es el supremo de B. Por lo tanto, x0 = b y, entonces, el intervalo [a; b] está contenido en la unión de un número …nito de intervalos de la familia fIj : j 2 Ng. Más adelante, en un libro publicado en 1898 ([7]), Borel retomó el concepto de conjunto de medida cero. para desarrollar una teoría de la medida. Para esto, in‡uenciado en parte por el trabajo de Jules Joseph Drach, siguió el método axiomático. Para Borel la idea fundamental consistía en de…nir los elementos nuevos que se introducen con ayuda de sus propiedades esenciales, es decir, aquellas que son estrictamente indispensables para los razonamientos 36 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO que siguen. En el caso de la medida, las propiedades esenciales que planteó Borel son las siguientes: (i) La medida de la unión de una colección numerable de conjuntos ajenos es igual a la suma de sus medidas. (ii) La medida de la diferencia de dos conjuntos de medida …nita A y B, con A B, es igual a la diferencia de sus medidas m(B) m(A). (iii) La medida de un conjunto nunca es negativa. Llamaba entonces conjuntos medibles a todos aquellos conjuntos a los cuales se les pueda asignar una medida en base a las propiedades mencionadas, tomando como punto de partida que la medida de un intervalo es su longitud. Borel no vio relación entre su concepto de medida y el de integral. Más aún, aclaraba que el problema que él estaba investigando era totalmente diferente del resuelto por Jordan. Además, consideraba la de…nición que hacía Jordan de los conjuntos medibles (con contenido) como más general que la que él daba pues, por ejemplo, con base en la de…nición de Jordan, cualquier subconjunto del conjunto de Cantor es medible, de manera que, teniendo el conjunto de Cantor la misma cardinalidad que los números reales, la familia de conjuntos Jordan medibles tiene una cardinalidad mayor que la de los reales. Por otra parte, se puede mostrar que la familia de conjuntos medibles que de…ne Borel tiene únicamente la cardinalidad de los números reales. 1.3. Teoría de la medida de Lebesgue El paso siguiente en el desarrollo de la Teoría de la Medida, así como el último paso hacia la caracterización de las funciones Riemann-integrables lo dió Henri Léon Lebesgue en 1902 ([57]) Para la caracterización de las funciones Riemann integrables, Lebesgue primero demostró una forma ligeramente distinta del resultado de Harnack: Si, dada > 0, B( ) denota al conjunto de puntos en donde la oscilación de la función f es mayor o igual que , entonces f es integrable si y sólo si para cualquier > 0, B( ) tiene contenido cero. Mostró además que, para cualquier siendo acotado, es compacto. > 0, B( ) es un conjunto cerrado, de manera que, Las demostraciones de estos resultados son como sigue: Sea A( ) el conjunto de puntos en donde la oscilación de f es mayor que , entonces: A( ) B( ) A( 2 ) 1.3. TEORíA DE LA MEDIDA DE LEBESGUE 37 Así que si f es integrable entonces A( 2 ) tiene contenido cero y, por lo tanto, B( ) también. Inversamente, si B( ) tiene contenido cero para cualquier > 0, entonces A( ) también. Para probar que B( ) es un conjunto cerrado, sea x un punto de acumulación de B( ), entonces toda vecindad de x contiene puntos de B( ), es decir, puntos en donde la oscilación de f es mayor o igual que . Por lo tanto, la oscilación de f en x es también mayor o igual que , así que x pertenece a B( ). Lebesgue observó entonces que si D es el conjunto de puntos en donde la función es disconS1 tinua, se tiene D = n=1 B( n1 ). Entonces, si f es Riemann integrable, B( n1 ) tiene contenido cero para cualquier n 2 N, así que D tiene medida cero. Por otra parte, si D tiene medida cero, entonces B( n1 ) tiene medida cero para cualquier n 2 N, de manera que, siendo estos conjuntos compactos, también tienen contenido cero; …nalmente, dada > 0 arbitraria y B( n1 ), así que B( ) tiene contenido cero. Se tiene así la siguiente n > 1 se tiene B( ) caracterización de las funciones Riemann integrables: Una función acotada f : [a; b] 7! R es Riemann integrable si y sólo si el conjunto de puntos donde la función es discontinua tiene medida cero. Lebesgue desarrolló su teoría de la integral en su tesis doctoral titulada Integrale, longueur, aire ([57]). Más tarde la expuso en su libro Leçons sur l’intégration et la recherche des fonctions primitives ([58]). Para de…nir la integral, primero desarrolló su teoría de la medida de conjuntos, pero el interés de Lebesgue estaba centrado en la de…nición de la integral ya que había analizado antes que las propiedades de la integral con la que se trabaje juegan un papel muy importante en algunos resultados acerca de la teoría de funciones; en particular en su libro dedica un capítulo al vínculo entre la integral y la búsqueda de la primitiva de una función, es decir, una función tal que su derivada sea la función dada. Se planteó entonces el encontrar una de…nición de la integral con mejores propiedades que las integrales conocidas, en particular la integral de Riemann. Se propuso así asignar a cualquier R b función acotada f , de…nida en un intervalo …nito (a; b), un número real, denotado por a f (x) dx, al cual llamaba la integral de f en el intervalo (a; b). Planteó que esta integral debe tener las siguientes propiedades: (i) Para cualesquiera a; b; h 2 R, se tiene: Rb R b+h f (x) dx = a+h f (x h) dx. a (ii) Para cualesquiera a; b; c 2 R, se tiene: Rb Rc Ra (iii) a f (x) dx + a f (x) dx + c f (x) dx = 0. Rb Rb Rb (iv) a [f (x) + ' (x)] dx = a f (x) dx + a ' (x) dx. Rb (v) Si f es no negativa y a < b, entonces a f (x) dx es no negativa. R1 (vi) 0 1dx = 1. 38 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO (vii) Si una sucesión de funciones (fn )n2N es no decreciente y converge a la función f , enRb Rb tonces la sucesión de integrales a fn (x) dx converge a la integral a f (x) dx. n2N En seguida hizo algunas observaciones importantes acerca de estas propiedades que planteó para la integral: “La signi…cación, la necesidad y las consecuencias de las cinco primeras condiciones de este problema de integración son más o menos evidentes; no nos extenderemos acerca de ellas. La condición 6 tiene un lugar aparte. No tiene ni el mismo carácter de simplicidad que las cinco primeras, ni el mismo carácter de necesidad. Además, mientras que es fácil construir números que satisfagan a cualesquiera cuatro de las cinco primeras condiciones, sin satisfacer a las cinco, lo cual muestra que esas cinco condiciones son independientes, no se sabe si las seis condiciones del problema de integración son independientes o no.”En una nota a pie de página, agrega: “La respuesta a esta pregunta importa poco para las aplicaciones, pero presenta interés desde el punto de vista de los principios. Si se demostrara que esta sexta condición es independiente de las otras cinco, cabría buscar reemplazarla por una sexta más simple y sobre todo buscar si, entre los sistemas de números que satisfacen solamente a las cinco primeras condiciones, no hay algunos tan útiles como el que va a ser estudiado.” Años más tarde, Stefan Banach demostraría que la sexta condición que plantea Lebesgue es independiente de las primeras cinco ([3]). Aclaraba Lebesgue que la de…nición de la integral que daba es descriptiva, es decir que la ha de…nido mediante las propiedades características que tiene. Se propuso entonces dar una de…nición constructiva equivalente a la descriptiva; es decir, enunciar las operaciones que se requieren realizar para de…nir la integral de una función acotada de tal manera que se satisfagan las seis condiciones de la de…nición descriptiva. En seguida mostró Lebesgue que para dar una de…nición constructiva de la integral de cualquier función acotada, basta con hacerlo para las funciones que únicamente toman como valores 0 y 1 y, para una función f de este tipo, el problema de integración se traduce en asignar un número al conjunto de números reales x 2 (a; b) tales que f (x) = 1; de manera que entonces se planteó Lebesgue el problema de la medida, de conjuntos el cual consiste en asignar a cada conjunto acotado de números reales E, un número no negativo, m (E), al cual llamará la medida de E, debiéndose satisfacer las siguientes propiedades: (i) Si E es un conjunto acotado y a 2 R, entonces m(E + a) = m(E). (ii) Si E1 ; E2 ; : : : es una familia …nita o in…nita numerable de una sucesión de conjuntos, S ajenos por parejas y contenidos en un conjunto acotado, entonces m( En ) = n P m(E ). n n 1.3. TEORíA DE LA MEDIDA DE LEBESGUE 39 (iii) m([0; 1]) = 1. Aunque Lebesgue planteó el problema de asignar una medida a cualquier conjunto acotado de números reales, en realidad, como se ve más adelante en su razonamiento, lo que hizo fue encontrar una familia de conjuntos acotados de números reales a los cuales se les pueda asignar una medida de tal forma que se satisfagan las 3 propiedades mencionadas. Para esto, suponiendo que E es un elemento de esa familia, analizó las condiciones que debe satisfacer la medida de E para que se satisfagan las 3 propiedades; más aún, lo que hace es encontrar los conjuntos E para los cuales su medida queda únicamente determinada por esas 3 propiedades. Pero, para lograr esto, lo que hizo Lebesgue fue iniciar su razonamiento asumiendo que el problema de la medida tiene solución, es decir que se puede asignar una medida no negativa a cada subconjunto acotado de números reales. Después restringirá la familia de conjuntos medibles a aquellos cuya medida se pueda determinar de manera única. Luego de hacer esto viene el proceso inverso: partir de una de…nición de conjunto medible, al cual le asocia una medida, y mostrar que la familia de conjuntos así de…nida satisface las 3 propiedades que enunció. Las condiciones sobre la medida implican que si x 2 R, entonces m (fxg) = 0. En efecto, en primer lugar, si A y B son conjuntos acotados y A B, entonces, como B = A[ (B A), se tiene m (B) = m (A)+m (B A), así que m (B A) = m (B) m (A) y m (A) m (B). Además, si m es cualquier número entero, la medida del intervalo [m; m + 1] debe ser igual a 1. Ahora, si x es cualquier número real, tomemos el único número entero m tal que x 2 [m; m + 1); dada " > 0, tomemos n 2 N tal que n1 < " y consideremos los intervalos m; m + n1 , m; m + n2 , . . . , m; m + nn . Cada uno de estos intervamos tiene la misma medida y la suma de sus medidas es menor o igual a 1, así que la medida de cada uno de ellos es menor o igual a n1 . Además, como x pertenece a alguno de esos intervalos, se tiene m (fxg) n1 < ". Siendo " arbitrario, se concluye que m (fxg) = 0. También, la medida de un intervalo acotado [a; b] debe de ser igual a su longitud. En efecto, el razonamiento anterior nos lleva a que, si n 2 N, la medida de un intervalo de es longitud n1 es igual a n1 . Así que si n; m 2 N, la medida de un intervalo de longitud m n m igual a n . De aquí se sigue que la medida de un intervalo con extremos racionales es igual a su longitud. Ahora, el caso a = b ya está tratado, así que tomemos a < b y dado " > 0, tomemos c = m n "; 14 (b a) y cuatro números racionales, r, s, u y v tales que: a c<r <a<u<a+c<b c < v < b < s < b + c. Entonces: b b a 2" a + 2". b a 2c < v u = m ([u; v]) m ([a; b]) Siendo " arbitrario, se concluye que m ([a; b]) = b a. m ([r; s]) = s r<b a + 2c 40 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO Para de…nir la medida de cualquier conjunto acotado, Lebesgue hizo el siguiente razonamiento: Si E es un conjunto acotado e I1 ; I2 ; : : : es una colección …nita o in…nita numerable de intervalos, ajenos por parejas, tales que E [n In , entonces se debe de tener m(E) P n l(In ); de…nió entonces la medida exterior de E, me (E), como el ín…mo de esas sumas, es decir: P S me (E) = nf f n l(In ) : I1 ; I2 ; : : : son intervalos ajenos por parejas y E n In g. Aquí hay un detalle que no aclaraba Lebesgue: como el problema que plantea es asignar una medida a cada conjunto acotado, se tendría que asumir que el conjunto [n In es acotado. Esto puede hacerse sin causar algún problema; en efecto si [a; b] es un intervalo tal que E [a; b], entonces: P nf f n l(In ) : I1 ; I2 ; : : : son intervalos ajenos por parejas y E Un In g P = nf f n l(In \ [a; b]) : I1 ; I2 ; : : : son intervalos ajenos por parejas y E Un In g. Ahora bien, como se tiene que m ([a; b]) = m (E) + m ([a; b] m (E) = m ([a; b]) m ([a; b] E) m ([a; b]) me ([a; b] E), entonces: E) = l ([a; b]) me ([a; b] E). Se sigue que la cantidad: l ([a; b]) me ([a; b] E) es una cota inferior para la medida de E, la cual de…ne como la medida interior de E y la denota por mi (E). Lebesgue no demostró que la cantidad l ([a; b]) me ([a; b] E) es la misma cualquiera que sea el intervalo [a; b], conteniendo E, que se tome; sin embargo esto es cierto, así que la medida interior queda bien de…nida. En efecto: Si [a1 ; b1 ] y [a2 ; b2 ] son intervalos que contienen a E, su intersección [a; b] también lo contiene, así que para mostrar que tomando [a1 ; b1 ] se obtiene el mismo resultado que tomando [a2 ; b2 ], basta con demostrar que tomando [a; b] se obtiene el mismo resultado que tomando cualquiera de los dos. Tomemos entonces dos intervalos, [a; b] y [c; d], tales que E [a; b] [c; d] y, para cada colección …nita S o in…nita numerable de intervalos I1 ; I2 ; : : :, ajenos por parejas, tales que [c; d] E n In , de…namos: Jn = In \ [a; b], Kn = In \ [c; a), Ln = In \ (b; d]. Se tiene entonces lo siguiente: 1.3. TEORíA DE LA MEDIDA DE LEBESGUE 41 Los intervalos J1 ; K1 ; L1 ; J2 ; K2 ; L2 ; : : : son ajenos por parejas y la unión de todos ellos es S igual a ( n In ) \ [c; d]. S [a; b] E n Jn . S [c; d] [a; b] = n (Kn [ Jn ). Así que: P S me ([c; d] E) = nf f n l(In ) : I1 ; I2 ; : : : son intervalos ajenos y [c; d] E n In g P S = nf f n l(In \ [c; d]) : I1 ; I2 ; : : : son intervalos ajenos y [c; d] E n In g P P = f nf n l(In \ [a; b]) + n l(In \ [c; a)) + l(In \ (b; d]) : S I1 ; I2 ; : : : son intervalos ajenos y [c; d] E n In g P = nf f n l(In \ [a; b]) + l([c; d]) l([a; b]) : S I1 ; I2 ; : : : son intervalos ajenos y [c; d] E n In g S P = l([c; d]) l([a; b]) + nf f n l(Jn ) : J1 ; J2 ; : : : son intervalos ajenos y [a; b] E n Jn g = l([c; d]) l([a; b]) + me ([a; b] E). Así que: l([a; b]) me ([a; b] E) = l([c; d]) me ([c; d] E). Como ya lo mencionamos, Lebesgue hizo lo anterior asumiendo que es posible asignarle una medida a todo conjunto acotado E, sin embargo las de…niciones de medida exterior e interior son independientes de esta consideración y pueden darse para cualquier conjunto. Mostró entonces que se tienen las siguientes relaciones para cualquier conjunto acotado E: ci (E) mi (E) me (E) ce (E). Además, como se mostró arriba, de ser posible asignar una medida m(E) al conjunto E, se debe de tener mi (E) m(E) me (E). Por lo tanto, la medida asignada a E será única cuando sus medidas interior y exterior coincidan. De aquí que Lebesgue estableció la siguiente de…nición: Definición 1.4. Se dice que un conjunto acotado E es medible si mi (E) = me (E). Aclaraba Lebesgue que es únicamente para estos conjuntos que se estudiará el problema de la medida, aclarando no saber siquiera si existen conjuntos que no sean medibles. Pero si existen tales conjuntos, decía que el desarrollo posterior que él hace no es su…ciente para a…rmar ni que el problema de la medida es posible ni que es imposible para tales conjuntos. 42 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO Este comentario de Lebesgue es importante pues lo que él hizo fue encontrar cotas más …nas que las que daba Jordan para la medida de un conjunto, lo cual automáticamente amplía la familia de conjuntos a los cuales se les puede asignar una medida de manera única. En efecto, la condición ci (E) = ce (E) permite asignar a E una única medida y esa condición implica mi (E) = me (E). Pero se puede cumplir la condición mi (E) = me (E), lo cual permite asignar una única medida a E, sin que se tenga ci (E) = ce (E). Sin embargo, no se puede asegurar que no sea posible asignarle una medida a conjuntos para los cuales mi (E) < me (E). En caso de que esto fuera posible, tal vez no sería de manera única (de hecho se sabe actualmente que es posible ampliar la familia de conjuntos medibles conservando las propiedades i y iii que pide Lebesgue a la medida, pero tal extensión no es única), o tal vez se puedan encontrar cotas aún más …nas que las que da Lebesgue para la medida de un conjunto y se pueda de…nir una medida con propiedades adicionales a las que propone Lebesgue. Mostró Lebesgue que se tiene la siguiente propiedad: Si E1 ; E2 ; : : : es una colección …nita o in…nita numerable de conjuntos medibles, entonces la unión de ellos, así como su intersección, es medible. Además demostró que la familia de los conjuntos medibles satisface las 3 condiciones que planteó para la medida de los conjuntos y demostró T también que si (En )n2N es una sucesión decreciente de conjuntos medibles, entonces m ( 1 n=1 En ) = l mn!1 m (En ). Finalmente observó Lebesgue que, debido a la relación: ci (E) mi (E) me (E) ce (E). cualquier conjunto Jordan medible es también Lebesgue medible y, dado que los intervalos son medibles y la familia de conjuntos medibles tiene las propiedades enunciadas arriba, todo conjunto medible de acuerdo a la de…nición de Borel es también Lebesgue medible. De esta forma la teoría de la medida de Lebesgue resulta más general tanto que la de Jordan como de la de Borel y las engloba a ambas. Años más tarde, en 1914 ([16]), Constantin Carathéodory expresó la condición de medibilidad de un conjunto sin introducir el concepto de medida interior. De acuerdo con la de…nición de Carathéodory y restringiéndonos a los conjuntos acotados, como hace Lebesgue, un conjunto acotado de números reales E es medible si y sólo si se tiene: me (A) = me (A \ E) + me (A \ E c ). para cualquier conjunto acotado de números reales A. Obsérvese que, de acuerdo con la de…nición de Lebesgue, para que un conjunto acotado sea medible se requiere que si [a; b] es un intervalo que contiene a E, entonces: l([a; b]) me ([a; b] E) = mi (E) = me (E). 1.3. TEORíA DE LA MEDIDA DE LEBESGUE 43 Así que la condición de medibilidad de E puede darse de la siguiente forma: l([a; b]) = me (E) + me ([a; b] E). De manera que, si se cumple la condición de medibilidad de Carathéodory, entonces se cumple la condición de medibilidad de Lebesgue. Por otra parte, se puede demostrar que la medida exterior satisface las siguientes propiedades: Si A y B son conjuntos acotados tales que A B, entonces me (A) me (B). Si A1 ; A2 ; : : : es una colección …nita o in…nita numerable de conjuntos acotados cuya unión es un conjunto acotado, entonces: S m e ( n An ) Así que, en particular, la desigualdad me (A) cualquier par de conjuntos acotados E y A. P n me (An ). me (A \ E) + me (A \ E c ) se cumple para Sea ahora un conjunto acotado E, medible de acuerdo con la de…nición de Lebesgue, A un conjunto acotado cualquiera, [a; b] un intervalo tal que A[E [a; b] e I1 ; I2 ; : : : una colección …nita o in…nita numerable de intervalos, ajenos por parejas, tales que A Un In [a; b]. De la condición l([a; b]) = me (E) + me ([a; b] E), se sigue que [a; b] E es Lebesgue medible. c c Así que, tanto los conjuntos I1 \ E; I2 S \ E; : : : como los conjuntos S I1 \ E c; I2 \ E ; : : :, son c Lebesgue medibles. Además, A \ E n (In \ E ), así que: n (In \ E) y A \ E P P S me (A \ E) me ( n (In \ E)) n m (In \ E), n me (In \ E) = S P P c c me (A \ E c ) me ( n (In \ E c )) n me (In \ E ) = n m (In \ E ). Por lo tanto: P P c me (A \ E) + me (A \ E c ) n m (In \ E) + n m (In \ E ) P P P = n [m (In \ E) + m (In \ E c )] = n m (In ) = n l(In ). Así que: me (A \ E) + me (A \ E c ) = me (A). P nf f n l(In ) : I1 ; I2 ; : : : son intervalos ajenos y A S n In g Por lo tanto, E satisface la condición de medibilidad de Carathéodory. Más adelante expondremos de manera detallada la formulación moderna de la teoría de la medida Lebesgue, utilizando como condición de medibilidad la de Carathéodory por ser más fácil de manejar. Además, no será necesario restringirnos a los conjuntos acotados. 44 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO 1.4. La integral de Lebesgue La formulación de Riemann del problema de la integral de una función condujo al surgimiento del concepto de contenido y a mostrar cómo se encuentra estrechamente vinculado al de integral, siendo prácticamente dos conceptos equivalentes en el sentido de que con cualquiera de ellos se puede introducir y desarrollar el otro. Cuando más tarde Borel introdujo el concepto de medida cero y Lebesgue desarrolló una teoría de la medida, más general tanto que la de Jordan como la que había desarrollado Borel, fue posible para el mismo Lebesgue desarrollar una teoría de integración, ahora siguiendo un proceso inverso, es decir, partiendo del concepto de medida para llegar al de integral. Al igual que la teoría de la medida resultó ser más general que la teoría del contenido, la teoría de la integral desarrollada por Lebesgue resultó ser más general que la teoría de la integral de Riemann. Es necesario remarcar que Lebesgue desarrolló su teoría de la medida con el objetivo de resolver el problema de la integral que se había planteado. El mismo título del libro que publicó (Leçons sur l’intégration et la recherche des fonctions primitives) deja ver claramente que su interés principal era el del concepto de integral. En su libro hizo un estudio del desarrollo del concepto de integral y de las de…niciones que diferentes autores habían propuesto, haciendo énfasis en las condiciones para que una función sea integrable. Aclaraba el por qué de su interés de no limitarse al estudio de las funciones para las cuales se puede dar una de…nición simple de la integral: “si se quisiera limitarse siempre a la consideración de esas buenas funciones, habría que renunciar a la resolución de muchos problemas con enunciados simples planteados desde hace mucho tiempo. Es para la resolución de esos problemas, y no por amor a las complicaciones, que he introducido en este libro una de…nición de la integral más general que la de Riemann y que la incluye como caso particular.” Una vez de…nida la integral, Lebesgue se aboca a estudiar sus propiedades y a utilizarla para profundizar en el estudio de la teoría de funciones: “Como aplicación de la de…nición de la integral, estudié la búsqueda de funciones primitivas y la recti…cación de curvas. A esas dos aplicaciones hubiera querido agregar otra muy importante: el estudio del desarrollo trigonométrico de las funciones; pero en mi curso, no pude dar a ese tema más que indicaciones tan incompletas que he juzgado inútil reproducirlas aquí.”Con relación a su de…nición de integral agregó: 1.4. LA INTEGRAL DE LEBESGUE 45 “Aquellos que me leerán con empeño, lamentando tal vez que las cosas no sean más simples, pienso que estarán de acuerdo conmigo en que esta de…nición es necesaria y natural. Me atrevo a decir que es, en un cierto sentido, más simple que la de Riemann, tan fácil de asimilar como ella y que únicamente los hábitos adquiridos anteriormente pueden hacerla parecer más complicada.” La de…nición de Lebesgue de la integral tuvo su motivación directa en la relación que existe entre la integral de Riemann y la teoría del contenido. Recordando que si f : [a; b] ! R es una función acotada no negativa y E la región en R2 acotada por el eje x y la grá…ca de f entre a Ry b, entonces f es Riemann integrable si y sólo si b E es Jordan medible y, en ese caso, se tiene a f (x)dx = c(E), Lebesgue observó que cuando Rb el conjunto E es (Lebesgue) medible se puede de…nir la integral de f como a f (x)dx = m(E). Automáticamente, esta de…nición resulta ser una extensión de la integral de Riemann pues si E es Jordan medible también es Lebesgue medible, pero hay conjuntos Lebesgue medibles que no son Jordan medibles. Una vez formulada esta de…nición geométrica de la integral, Lebesgue se planteó el problema de caracterizar a las funciones integrables y de llegar a la de…nición de la integral por la vía analítica. El primer problema lo resolvió demostrando el siguiente resultado: Sea f : [a; b] ! R una función acotada no negativa, entonces el conjunto E = f(x; y) 2 R2 : x 2 [a; b] y y 2 [0; f (x)]g es medible si y sólo si el conjunto fx 2 [a; b] : f (x) > g es medible para cualquier 2 R. De aquí que si f : [a; b] ! R es una función acotada, la de…na como medible si el conjunto fx 2 [a; b] : f (x) > g es medible para cualquier 2 R. Se demuestra fácilmente que la suma, el producto y otras operaciones entre funciones medibles resulta ser medible. Demostró Lebesgue una propiedad más cuya importancia resaltaba: el límite de una sucesión convergente de funciones medibles es una función medible. El segundo problema lo resolvió Lebesgue aproximando la integral de una función medible considerando particiones cada vez más …nas del intervalo donde toma valores la función, en lugar de hacerlo, como se hace para de…nir la integral de Riemann, mediante particiones cada vez más …nas del intervalo donde está de…nida la función. Ésta es una de las ideas originales de Lebesgue en su de…nición de integral. De manera especí…ca, el razonamiento de Lebesgue es como sigue: Sea f : [a; b] ! R una función medible, ` = nf ff (x) : x 2 [a; b]g, L = sup ff (x) : x 2 [a; b]g y, dada " > 0, consideremos una partición del intervalo [`; L], ` = `0 < `1 < < `n = L, de norma menor que ". De…namos las funciones ' : [a; b] ! R y : [a; b] ! R de la siguiente manera: 46 1. MEDIDA E INTEGRAL DE LEBESGUE ' (x) = Pn 1 i=0 `i Ify2[a;b]:`i f (y)<`i+1 g (x) = `0 Ify2[a;b]:f (y)=`0 g (x) + Pn DESARROLLO HISTÓRICO (x) + `n Ify2[a;b]:f (y)=`n g (x), 1 i=0 `i+1 Ify2[a;b]:`i <f (y) `i+1 g (x). Para cualquier x 2 [a; b], se tiene: ' (x) (x) f (x) ' (x) = (x), Pn 1 i=0 (`i+1 `i ) Ify2[a;b]:`i <f (y)<`i+1 g (x) < " Pn 1 i=0 Ify2[a;b]:`i <f (y)<`i+1 g (x) ". Denotemos por a la medida de Lebesgue en el intervalo [a; b] y de…namos: P = ni=01 `i (fy 2 [a; b] : `i f (y) < `i+1 g) + `n (fy 2 [a; b] : f (y) = `n g) P P = ni=01 `i (fy 2 [a; b] : `i < f (y) < `i+1 g) + ni=0 `i (fy 2 [a; b] : f (y) = `i g), P = `0 (fy 2 [a; b] : f (y) = `0 g) + ni=01 `i+1 (fy 2 [a; b] : `i < f (y) `i+1 g) P P = ni=01 `i+1 (fy 2 [a; b] : `i < f (y) < `i+1 g) + ni=0 `i (fy 2 [a; b] : f (y) = `i g). Observemos que se tiene: P 0 = ni=01 (`i+1 `i ) (fy 2 [a; b] : `i < f (y) < `i+1 g) P < " ni=01 (fy 2 [a; b] : `i < f (y) < `i+1 g) " (b a). Tomemos ahora una sucesión decreciente ("m )m2N que converja a cero. Para cada m 2 N, de…namos las funciones 'm : [a; b] ! R y m : [a; b] ! R, así como los números reales m y m , como antes, tomando " = "m . Tomemos las particiones del intern o (m+1) (m+1) (m+1) valo [`; L] de tal forma que, para cualquier m 2 N, la partición `0 ; `1 ; < `nm+1 , n o (m) (m) (m) correspondiente a "m+1 , es un re…namiento de la partición `0 ; `1 ; < `nm correspondiente a "m . Se tiene entonces que la sucesión de funciones ('m )m2N es creciente, mientras que la sucesión ( m )m2N es decreciente, así que ambas convergen puntualmente. También, la sucesión ( m )m2N es creciente y la sucesión ( m )m2N es decreciente, así que ambas son convergentes. Además, como 'm (x) f (x) 'm (x) "m para cualquier m 2 N y m (x) y m (x) cualquier x 2 [a; b], las sucesiones ('m )m2N y ( m )m2N convergen uniformemente a la función f. También, como 0 < "m (b a), las sucesiones ( m )m2N y ( m R bm mismo valor. La integral a f (x) dx se de…ne como este límite común. m )m2N convergen al Falta demostrar que se obtiene el mismo valor de la integral para cualquier sucesión decreciente ("m )m2N que converja a cero, lo cual hace Lebesgue de la siguiente manera: 1.5. LA MEDIDA DE LEBESGUE EN R2 47 Consideremos otra sucesión ("0m )m2N que converja a cero. Para la sucesión ("m )m2N inicial, tenemos una sucesión de particiones (Pm )m2N del intervalo [`; L], y para la sucesión ("0m )m2N , tenemos una sucesión de particiones (Pm0 )m2N del intervalo [`; L]. Para cada m 2 N, de…namos: Pm00 = Pm [ Pm0 . Se tiene entonces, para cualquier m 2 N: m 00 m 00 m m, 0 m 00 m 00 m 0 m. De la primeras desigualdades, se sigue que las sucesiones ( mismo valor que las sucesiones ( m )m2N y ( m )m2N . 00 m )m2N y( 00 m )m2N convergen al De las segundas desigualdades, se sigue que las sucesiones ( mismo valor que las sucesiones ( 0m )m2N y ( 0m )m2N . 00 m )m2N y( 00 m )m2N convergen al Así que, las sucesiones ( ( 0m )m2N y ( 0m )m2N . Obsérvese que si E m )m2N y ( [a; b], entonces m )m2N Rb a convergen al mismo valor que las sucesiones IE (x) dx = (E). Una vez de…nida la integral de una función medible, se demuestran fácilmente las 5 primeras propiedades que Lebesgue planteó como propiedades que debe tener la integral. La sexta propiedad es un corolario del siguiente resultado que demostró Lebesgue, el cual es ahora conocido como el teorema de la convergencia uniformemente acotada: Si una sucesión de funciones medibles (fn )n2N , de…nidas sobre un intervalo [a; b], converge a una función f y existe M 2 R tal que jfn (x)j M para cualquier x 2 [a; b] y cualquier n 2 N, entonces: l mn 1 Rb a fn (x) dx = Rb a f (x) dx. 1.5. La medida de Lebesgue en R2 Como puede verse, en la caracterización de las funciones integrables, Lebesgue hacía referencia a conjuntos medibles en R2 . En su libro, Lebesgue planteó que éstos se pueden de…nir de manera similar a como lo hacía en el caso de los conjuntos medibles en R. Para ello se requiere extender a R2 el resultado de Borel que asegura que si un intervalo cerrado y acotado es cubierto por una in…nidad numerable de intervalos abiertos, entonces existe una colección …nita de esos intervalos que también lo cubren y, una vez hecho esto, extender también la propiedad básica que permite de…nir la medibilidad con el método de Lebesgue, a saber, 48 1. MEDIDA E INTEGRAL DE LEBESGUE DESARROLLO HISTÓRICO que si I es un intervalo cerrado y acotado y (Ij )j2N una sucesión de intervalos abiertos tales S1 P1 que I j=1 Ij , entonces l (I) j=1 l (Ij ). El resultado de Borel lo demostró Lebesgue utilizando un resultado de Peano que a…rma que se puede cubrir todo R2 mediante una curva continua. La demostración ahora clásica del resultado de Borel es como sigue: Proposición 1.4. Sea R = [a; b] [c; d] un rectángulo acotado en R2 y una sucesión R(j) = S1 (j) (j) (j) (j) (j) a1 ; b1 a2 ; b2 (con j 2 N) de rectángulos no vacíos en R2 tales que R j=1 R , entonces existe un número …nito de rectángulos de la familia contiene a R. R(j) : j 2 N cuya unión Demostración Supongamos que no existe un número …nito de rectángulos de la familia R(j) : j 2 N cuya unión contenga a R. Denotemos por c1 al punto medio del intervalo [a1 ; b1 ] y por c2 al punto medio del intervalo [a2 ; b2 ]. Consideremos los rectángulos [a1 ; c1 ] [a2 ; c2 ], [a1 ; c1 ] [c2 ; b2 ], [c1 ; b1 ] [a2 ; c2 ] y [c1 ; b1 ] [c2 ; b2 ], cuya unión es R. Como no existe un número …nito de rectángulos de la familia R(j) : j 2 N cuya unión contenga a R, por lo menos uno de esos 4 rectángulos tiene la misma propiedad. Denotemos por R1 a cualquiera de los 4 rectángulos para el cual no existe un número …nito de rectángulos de la familia R(j) : j 2 N cuya unión lo contenga. Sea R1 = a(1) ; b(1) c(1) ; d(1) . Repitamos el procedimiento, partiendo ahora R1 en cuatro rectángulos y denotemos por R2 a cualquiera de los 4 rectángulos para el cual no existe un número …nito de rectángulos de la familia R(j) : j 2 N cuya unión lo contenga. Sea R2 = a(2) ; b(2) c(2) ; d(2) . Continuando con este procedimiento, obtenemos una sucesión de rectangulos encajados (Rk )k2N para cada uno de los cuales no existe un número …nito de rectángulos de la familia R(j) : j 2 N cuya unión lo contenga. Denotemos por L a la longitud de la diagonal del rectángulo R y por Lk a la longitud de la diagonal del rectángulo Rk . Por la manera en que los construimos, se tiene: Lk = 1 L. 2k Como los rectángulos Rk son cerrados y están encajados, su intersección es no vacía. Además, como la longitud de su diagonal tiende a cero, la intersección es un único punto x0 = (a0 ; b0 ), el cual pertenece a R ya que R es cerrado. Sea R(j0 ) un intervalo de la familia R(j) : j 2 N al cual pertenezca x0 y sea Br (x0 ) una bola abierta, de radio r y centro x0 , contenida en R(j0 ) . Tomemos k0 2 N tal que Lk0 < r; 1.5. LA MEDIDA DE LEBESGUE EN R2 49 entonces, como x 2 Rk0 , la distancia de cualquier punto de Rk0 a x0 es menor que r. Por lo tanto, Rk0 Br (x0 ) R(j0 ) , lo cual es una contradicción. Con este resultado la otra parte ya es simple: Definición 1.5. Si R = I1 I2 es un rectángulo en R2 , denotaremos por a (R) al área de R, es decir al producto l (I1 ) l (I2 ), donde l (I) es la longitud del intervalo I. Lema 1.1. Sea R = [a1 ; b1 ] [an2 ; b2 ] un rectángulo acotado en R2 y una colección …nita de reco (j) (j) (j) (j) tángulos abiertos no vacíos R(j) = a1 ; b1 a2 ; b2 : m 2 N y j 2 f1; 2; : : : ; mg Sm (j) tales que R j=1 R , entonces: Pm (j) . a (R) j=1 a R Demostración Si alguno de los rectángulos R(j) no está acotado, el resultado es inmediato, así que asumiremos que todos los rectángulo R(j) están acotados. Para h cada ji 2 hf1; 2; : : : i; mg, denotemos (j) (j) (j) (j) (j) (j) a2 ; b2 . por R a la cerradura de R , es decir al rectángulo a1 ; b1 (1) (1) (m) (m) Para cada i 2 f1; 2g, los puntos ai ; bi ; ai ; bi ; : : : ; ai ; bi constituyen una partición de (1) (1) (1) (1) un intervalo [ci ; di ]. Para i = 1 (resp. i = 2), denotemos por x0 ; x1 ; x2 ; : : : ; xn1 (resp. (2) (2) (2) (2) x0 ; x1 ; x2 ; : : : ; xn2 ) los elementos de esa partición, ordenados del menor al mayor y, para (1) (1) (2) (2) k1 2 f1; 2; : : : ; n1 g y k2 2 f1; 2; : : : ; n2 g, de…namos Rk1 ;k2 = xk1 1 ; xk1 xk2 1 ; xk2 y deh i h i (1) (1) (2) (2) notemos por Rk1 ;k2 a la cerradura de Rk1 ;k2 , es decir al rectángulo xk1 1 ; xk1 x k 2 1 ; xk2 . Por la construcción de los rectángulos Rk1 ;k2 , el rectángulo R, así como cada uno de los (j) rectángulos R , con j 2 f1; 2; : : : ; mg, es la unión de algunos de los rectángulos Rk1 ;k2 . Además, cualquier par de rectángulos Rk1 ;k2 son ajenos. Sean R1 ; R2 ; : : : ; Rt los rectángulos de la familia Rk1 ;k2 : k1 2 f1; 2; : : : ; n1 g y k2 2 f1; 2; : : : ; n2 g , cuya unión es igual a R. Sm (j) Como R j=1 R , cada rectángulo Ri (i 2 f1; 2; : : : ; tg) está contenido en algún rectángulo R (j) (j 2 f1; 2; : : : ; mg). Además: P a (R) = ti=1 a (Ri ). Para cada j 2 f1; 2; : : : ; mg, sea Dj el conjunto de índices de los rectángulos de la familia (j) fR1 ; R2 ; : : : ; Rt g que están contenidos en R . Obviamente se tiene: 50 1. MEDIDA E INTEGRAL DE LEBESGUE a R(j) = a R (j) P fi2Dj g DESARROLLO HISTÓRICO a (Ri ). Y como cada rectángulo Ri (i 2 f1; 2; : : : ; tg) está contenido en algún rectángulo R f1; 2; : : : ; mg), se tiene: Pm P Pt Pm (j) j=1 fi2Dj g a (Ri ) i=1 a (Ri ) = a (R). j=1 a R (j) (j 2 Proposición 1.5. Sea R = [a1 ; b1 ] [a2 ; b2 ] un rectángulo acotado en R2 y una sucesión (j) (j) (j) (j) R(j) = a1 ; b1 a2 ; b2 (con j 2 N) de rectángulos no vacíos en R2 tales que R S1 (j) j=1 R , entonces: P1 (j) a (R) . j=1 a R Demostración Por el teorema de Borel, existe una colección …nita, R(j1 ) ; R(j2 ) ; : : : ; R(jm ) , tal que: Sm (j1 ) . R i=1 R Así que, por el lema anterior: P1 Pm (j) (ji ) . a R a (R) j=1 a R i=1 Proposición 1.6. Sea R un rectángulo …nito de cualquier tipoSy R1 ; R2 ; : : : una familia …nita o in…nita numerable de rectángulos abiertos tales que R j Rj , entonces: P a(R) j a(Rj ). Demostración Sea R = I De…namos: J, a y b los extremos del intervalo I, c y d los extremos del intervalo J. L1 = f(a; y) : y 2 [c; d]g, L2 = f(b; y) : y 2 [c; d]g, L3 = f(x; c) : x 2 [a; b]g, L4 = f(x; d) : x 2 [a; b]g. Dada " > 0, para k 2 f1; 2; 3; 4g, sea R(k) un rectángulo abiertos que contengan a Lk y de área igual a 4" . Entonces la unión de los rectángulos R(1) ; R(2) ; R(3) ; R(4) ; R1 ; R2 ; : : : contiene al rectángulo R = [a; b] [c; d]. Por el teorema de Borel, existe entonces una colección …nita de esos rectángulos cuya unión contiene a R, así que: 1.5. LA MEDIDA DE LEBESGUE EN R2 a(R) = a(R) P j 51 a(Rj ) + ". Como esta relación es válida para cualquier " > 0, se puede concluir que a(R) P j a(Rj ). Con base en lo anterior, la de…nición de los conjuntos medibles en R2 y la demostración de sus propiedades, puede hacerse siguiendo paso a paso el razonamiento de Lebesgue para el caso de los conjuntos medibles en R. CAPÍTULO 2 MEDIDA DE LEBESGUE 2.1. Álgebras, -álgebras y borelianos Una vez desarrollada la teoría iniciada por Borel y Lebesgue, se volvieron básicos los conceptos de álgebra y -álgebra de subconjuntos de un conjunto dado, ya que la familia de conjuntos para los cuales se pudo de…nir una medida, si bien no siempre está formada por todos los subconjuntos del conjunto, constituye una -álgebra. Definición 2.1 (álgebra). Sea F un conjunto. Se dice que una familia A de subconjuntos de F es un álgebra si se satisfacen las siguientes condiciones: (i) F 2 A. (ii) Si A 2 A entonces Ac 2 A. (iii) Si A1 ; : : : ; An es cualquier familia …nita de elementos de A, entonces n S k=1 Ak 2 A. Definición 2.2 ( -álgebra). Sea F un conjunto. Se dice que una familia = de subconjuntos de F es una -álgebra si es un álgebra y dada cualquier colección in…nita numerable de 1 S elementos de =, A1 ; A2 ; : : :, entonces Ak 2 =. k=1 Definición 2.3. Llamaremos espacio medible a una pareja (F; =), donde F es un conjunto y = una -álgebra de subconjuntos de F. Si F es un conjunto arbitrario, se pueden de…nir distintas -álgebras de subconjuntos de F. Por ejemplo, la familia = = f;, Fg constituye una -álgebra de subconjuntos de F. También la familia formada por todos los subconjuntos de F constituye una -álgebra de subconjuntos de F. Si A1 ; A2 ; : : : ; An son subconjuntos de F, T = f1; 2; : : : ; ng, U = fi1 ; : : : ; ik g T y T U = fj1 ; : : : ; jn k g, de…namos: BU = Ai1 \ U = fBU : U \ Aik \ Acj1 \ \ Acjm k , T g. 53 54 2. MEDIDA DE LEBESGUE Entonces, la familia A formada por el conjunto vacío y las uniones de elementos de U constituye una -álgebra de subconjuntos de F. Los anteriores son ejemplos sencillos y, podría decirse, arti…ciales. En general vamos a trabajar con conjuntos F que son in…nitos y con -álgebras que están formadas por una in…nidad de subconjuntos de F. La necesidad de introducir el concepto de -álgebra proviene de que, en general, para de…nir una medida se sigue un procedimiento similar al que siguió Lebesgue para de…nir lo que podríamos llamar la longitud de un subconjunto de los números reales. Partió de que la longitud de un intervalo de extremos a y b está de…nida como la diferencia b a y se planteó entonces el problema de extender el concepto de longitud a todos los subconjuntos de los números reales. A lo que llegó es que es posible realizar esa extensión hasta abarcar una determinada familia de subconjuntos. Mostró también que la familia de conjuntos hasta donde es posible llevar su proceso de extensión, si bien no necesariamente está formada por todos los subconjuntos de R, es una familia bastante grande ya que es cerrada bajo complementos y uniones e interserciones numerables; es decir, constituye lo que estamos de…niendo como -álgebra. En general, el procedimiento de Lebesgue es el que se sigue para de…nir una medida: se comienza por asignar una medida a cada conjunto de una determinada familia y después se realiza el proceso de extensión. Con este camino siempre se llega a de…nir la medida sobre una familia de conjuntos que forma una -álgebra. Definición 2.4 (Intersección de -álgebras). Dado un conjunto F y una familia arbitraria de -álgebras de subconjuntos de F, se de…ne la intersección de esas -álgebras como la familia de conjuntos que pertenecen a todas ellas. Se puede ver fácilmente que la intersección de -álgebras de subconjuntos de F es también una -álgebra y, dada una colección arbitraria B de subconjuntos de F, siempre existe por lo menos una -álgebra que contiene a todos los elementos de B, a saber, la formada por todos los subconjuntos de F. Se puede de…nir entonces una -álgebra como la intersección de todas las -álgebras de subconjuntos de F que contienen a todos los elementos de B. Definición 2.5 ( álgebra generada por una familia de conjuntos). Dada una colección A de subconjuntos de un conjunto F, se de…ne la -álgebra generada por A como la intersección de todas las -álgebras que contienen a todos los conjuntos de A. Denotaremos por (A) a esta -álgebra. Evidentemente la -álgebra generada por A es la más pequeña -álgebra de subconjuntos de F que contiene a todos los elementos de A. Una -álgebra de particular importancia es la de los conjuntos borelianos en R y, de manera más general, en Rn . Los conjuntos borelianos deben su nombre a Émile Borel quien los introdujo para caracterizar a los subconjuntos de R a los cuales se les puede asignar una longitud. 2.1. ÁLGEBRAS, -ÁLGEBRAS Y BORELIANOS 55 La idea fundamental consiste en que se puede asignar una longitud a todos los subconjuntos de R que se puedan obtener a partir de los intervalos mediante las operaciones conjuntistas de unión numerable y diferencia. La de…nición moderna se basa en la generación de -álgebras de acuerdo con la de…nición anterior. Cabe mencionar que Borel era constructivista, de manera que únicamente aceptaba de…niciones de elementos para los cuales se pudiera decir, explicitamente, como se construían. La siguiente de…nición de los conjuntos borelianos, obviamente, no es la de Borel, ya que no se dice en ella cómo se construye cada conjunto boreliano. Definición 2.6 ( -álgebra de Borel en R). La -álgebra de Borel en R, la cual será denotada por B (R), es la -álgebra de subconjuntos de R generada por la familia de todos los intervalos de números reales. A los elementos de esa -álgebra los llamaremos borelianos de R. Las siguientes propiedades pueden ser probada fácilmente, para ello sólo hay que demostrar que, a partir de cada una de las familias que se dan, se puede obtener un intervalo de cualquier tipo utilizando las operaciones de complemento y de uniones o intersecciones numerables. Ejercicio 2.1. Demuestra que la -álgebra de los conjuntos borelianos de R está generada por cualquiera de las siguientes familias de conjuntos. (i) (ii) (iii) (iv) (v) (vi) Los Los Los Los Los Los intervalos intervalos intervalos intervalos intervalos intervalos de de de de de de la la la la la la forma forma forma forma forma forma ( 1; x], donde x 2 R. ( 1; x), donde x 2 R. (a; b], donde a; b 2 R. [a; b), donde a; b 2 R. (a; b), donde a; b 2 R. [a; b], donde a; b 2 R. Ejercicio 2.2. Muestra que no todo boreliano de R es una unión numerable de intervalos o el complemento de una unión numerable de intervalos. Sugerencia: Denotemos por C al conjunto de números racionales contenidos en el intervalo ( 1; 0) y por D al conjunto de números racionales contenidos en el intervalo [0; 1). De…namos: A = (( 1; 0) C) [ D Demuestra lo siguiente: 1. A es un conjunto boreliano de R. 2. A \ ( 1; 0) y Ac \ [0; 1) son conjuntos no numerables que no contienen ningún intervalo de longitud positiva. 3. A no es una unión numerable de intervalos ni el complemento de una unión numerable de intervalos. 56 2. MEDIDA DE LEBESGUE Definición 2.7. Cuando los extremos de un intervalo sean números reales, diremos que el intervalo es …nito (esto equivale a decir que el intervalo es un conjunto acotado). Conviene considerar desde este momento al conjunto de números reales extendidos, el cual consiste del conjunto de números reales y dos elementos especiales, 1 y 1, con los cuales operaremos bajo las siguientes convenciones: Si c 2 R, entonces: 1 < c < 1, 1= c 1, c + 1 = 1, c (1) = 1 si c > 0, 1 si c < 0, c (1) = (0) (1) = (0) ( 1) = 0, c 1 = c 1 = 0, (1) (1) = 1 + 1 = 1, 1 1e 1 1 no están de…nidos. R denotará al conjunto R [ f 1; 1g. Tomando en consideración las convenciones anteriores, las propiedades usuales de conmutatividad y asociatividad de las operaciones de suma y producto entre números reales siguen siendo válidas, cuando estén de…nidas, sobre R . El conjunto de números reales R también será denotado por ( 1; 1). El conjunto de + números reales no negativos será denotado por [0; 1) ; o por R+ , y R denotará al conjunto R+ [ f1g. n R denotará al conjunto (x1 ; : : : ; xn ) : xk 2 R para cualquier k 2 f1; 2; : : : ; ng . Cuando n estén bien de…nidas, consideraremos sobre R las operaciones usuales de…nidas en Rn . n Denotaremos por R a la familia de subconjuntos de R de la forma I1 I2 In , donde, para cualquier k 2 f1; 2; : : : ; ng, Ik es ya sea un intervalo de la forma ( 1; x], con x 2 R, o bien Ik = R. Si F es un conjunto cualquiera y f y g son dos funciones con valores en R, de…nidas sobre F, vamos a considerar a la suma de f y g como la función h : F !R de…nida de la siguiente manera: 2.1. ÁLGEBRAS, h (x) = -ÁLGEBRAS Y BORELIANOS 57 f (x) + g (x) si f (x) + g (x) está de…nida 1 si f (x) + g (x) no está de…nida Esta convención se traslada a la resta de dos funciones ya que f g = f + ( g). Definición 2.8 ( -álgebra de Borel en R). La -álgebra de Borel en R, la cual será denotada por B R , es la -álgebra de subconjuntos de R generada por la familia de intervalos de la forma ( 1; x], donde x 2 R. A los elementos de esa -álgebra los llamaremos borelianos de R. Ejercicio 2.3. Los conjuntos f1g, f 1g y f 1; 1g son borelianos de R. Proposición 2.1. La -álgebra de Borel en R está formada los borelianos de R y los conjuntos de la forma B [ f1g, B [ f 1g y B [ f 1; 1g, donde B es un boreliano de R. Demostración Sea H la familia de conjuntos formada los borelianos de R y los conjuntos de la forma B [ f1g, B [ f 1g y B [ f 1; 1g, donde B es un boreliano de R. Todos los elementos de H son borelianos de R y H es una -álgebra que contiene a todos los intervalos de la forma ( 1; x], donde x 2 R. Proposición 2.2. La -álgebra de Borel en R está generada por la familia de intervalos de la forma [ 1; x], donde x 2 R. Demostración Para cualquier x 2 R, se tiene: [ 1; x] = ( 1; x] [ f 1g 2 B R . Sea J la familia de intervalos en R de la forma [ 1; x], donde x 2 R. Entonces: T f 1g = 1 (J), n=1 [ 1; n] 2 ( 1; 1] = R f 1g 2 (J). Finalmente, si x 2 R, entonces: ( 1; x] = [ 1; x] f 1g 2 (J). Corolario 2.1. La -álgebra de Borel en R está generada por la familia de intervalos de la forma [ 1; x], donde x 2 R. Proposición 2.3. La -álgebra de Borel en R está generada por la familia de intervalos de la forma [ 1; x), donde x 2 R. 58 2. MEDIDA DE LEBESGUE Demostración Sea I la familia de intervalos en R de la forma [ 1; x), donde x 2 R, y J la familia de intervalos en R de la forma [ 1; x], donde x 2 R. Entonces, para cualquier x 2 R, se tiene: S 1; x n1 2 (J), [ 1; x) = 1 n=1 T [ 1; x] = 1 1; x + n1 2 (I). n=1 Así que (I) = (J) = B R . 2.2. -álgebra de Borel en Rn Definición 2.9. Por una celda en Rn se entenderá un conjunto de la forma I1 donde I1 ; ; In son intervalos en R. In , Obviamente, si R = I1 In entonces R es un conjunto acotado si y sólo si los intervalos I1 ; ; In son …nitos. De la misma manera, R es un conjunto abierto (resp. cerrado) si y sólo si los intervalos I1 ; ; In son abiertos (resp. cerrados). Denotaremos por R a la familia de celdas en Rn . Definición 2.10 ( -álgebra de Borel en Rn ). La -álgebra de Borel en Rn , la cual será denotada por B (Rn ), es la -álgebra de subconjuntos de Rn generada por R. A los elementos de esa -álgebra los llamaremos borelianos de Rn . Proposición 2.4. La -álgebra generada por la familia de celdas de Rn de la forma ( 1; x1 ] ( 1; x2 ] ( 1; xn ], donde (x1 ; x2 ; : : : ; xn ) 2 Rn , contiene a todos los subconjuntos de Rn de la forma B1 B2 : : : Bn , donde B1 ; : : : ; Bn son borelianos de R. Demostración Sea H la -álgebra de subconjuntos de Rn generada por la familia de celdas de Rn de la forma ( 1; x1 ] ( 1; x2 ] ( 1; xn ], donde (x1 ; x2 ; : : : ; xn ) 2 Rn . Sea (x1 ; x2 ; : : : ; xn ) 2 Rn y U (m) sucesión de intervalos Jk m2N ( 1; xk ] si k 2 =U R si k 2 U Jk = (m) Jk = Se tiene: ( 1; xk ] si k 2 =U ( 1; m] si k 2 U f1; 2; : : : ; ng. Para cada k 2 f1; 2; : : : ; ng, de…namos la y el intervalos Jk de la siguiente manera: 2.2. J1 J2 Así que J1 Jn = J2 S1 m=1 (m) J1 -ÁLGEBRA DE BOREL EN Rn (m) J2 59 (m) Jn . Jn 2 H. De…namos G = f( 1; x] : x 2 Rg [ fRg. Por lo anterior, I1 In 2 H, para cualquier celda I1 cualquier k 2 f1; 2; : : : ; ng. In donde Ik 2 G para La familia de conjuntos B 2 B (R) tales que I1 In 1 B 2 H, para cualquier celda n 1 I1 In 1 2 R tal que Ik 2 G para cualquier k 2 f1; 2; : : : ; n 1g, forma una álgebra que contiene a los intervalos de la familia f( 1; x] : x 2 Rg; por lo tanto, contiene a todos los borelianos de R. De la misma manera, si Bn es un boreliano de R cualquiera, entonces la familia de conjuntos B 2 B (R) tales que I1 In 2 B Bn 2 H, para cualquier celda I1 In 2 de n 2 R tal que Ik 2 G para cualquier k 2 f1; 2; : : : ; n 2g, forma una -álgebra que contiene a los intervalos de la familia f( 1; x] : x 2 Rg; por lo tanto, contiene a todos los borelianos de R. Continuando con este procedimiento, se obtiene que los conjuntos de la forma I B2 : : : Bn , donde I 2 G y B2 ; : : : ; Bn son borelianos cualesquiera de R, pertenecen a H. Finalmente, si B2 ; : : : ; Bn son borelianos cualesquiera de R, entonces la familia de conjuntos B 2 B (R) tales que B B2 : : : Bn 2 H, forma una -álgebra que contiene a los intervalos de la familia f( 1; x] : x 2 Rg; por lo tanto, contiene a todos los borelianos de R. Así que, H contiene a todos los subconjuntos de Rn de la forma B1 B1 ; : : : ; Bn son borelianos de R. B2 ::: Bn , donde En particular, H contiene a cualquier celda en Rn , así que contiene a todos los borelianos de Rn . Finalmente, como H B (Rn ), entonces H = B (Rn ). Corolario 2.2. La -álgebra de Borel en Rn está generada por la familia de celdas de Rn de la forma ( 1; x1 ] ( 1; x2 ] ( 1; xn ], donde (x1 ; x2 ; : : : ; xn ) 2 Rn . Corolario 2.3. La -álgebra de Borel en Rn está generada por la familia de subconjuntos de Rn de la forma B1 B2 : : : Bn , donde B1 ; : : : ; Bn son borelianos de R. Proposición 2.5. La -álgebra de Borel en Rn está generada por cualquiera de las siguientes familias de conjuntos: (i) D1 : Las celdas de Rn de la forma ( 1; x1 ) ( 1; x2 ) ( 1; xn ), donde (x1 ; x2 ; : : : ; xn ) 2 Rn . (ii) D2 : Las celdas de Rn de la forma 60 2. MEDIDA DE LEBESGUE (a1 ; b1 ] (a2 ; b2 ] (an ; bn ], donde (a1 ; a2 ; : : : ; an ) ; (b1 ; b2 ; : : : ; bn ) 2 Rn . (iii) D3 : Las celdas de Rn de la forma (a1 ; b1 ) (a2 ; b2 ) (an ; bn ), donde (a1 ; a2 ; : : : ; an ) ; (b1 ; b2 ; : : : ; bn ) 2 Rn . (iv) D4 : Las celdas de Rn de la forma [a1 ; b1 ) [a2 ; b2 ) [an ; bn ), donde (a1 ; a2 ; : : : ; an ) ; (b1 ; b2 ; : : : ; bn ) 2 Rn . (v) D5 : Las celdas de Rn de la forma [a1 ; b1 ] [a2 ; b2 ] [an ; bn ], donde (a1 ; a2 ; : : : ; an ) ; (b1 ; b2 ; : : : ; bn ) 2 Rn . Demostración Denotemos por D a la familia de celdas de Rn de la forma: ( 1; x1 ] ( 1; x2 ] ( 1; xn ], donde (x1 ; x2 ; : : : ; xn ) 2 Rn . a) Sea ( 1; x1 ] ( 1; x1 ] T = 1 m=1 ( 1; x2 ] ( 1; x2 ] 1; x1 + ( 1; xn ] 1 m Así que, B (Rn ) = ( 1; xn ] 2 D, entonces: (D) 1; x2 + 1 m 1; xn + 1 m 2 (D1 ). (D1 ). Además, todo elemento de D1 es un boreliano de Rn . Por lo tanto, (D1 ) = B (Rn ). b) Sea ( 1; x1 ] ( 1; x1 ] ( 1; x2 ] ( 1; x2 ] Así que, B (Rn ) = (D) ( 1; xn ] 2 D, entonces: S ( 1; xn ] = 1 ( m; x2 ] m=1 ( m; x1 ] ( m; xn ] 2 (D2 ). (D2 ). Además, todo elemento de D2 es un boreliano de Rn . Por lo tanto, c) Sea (a1 ; b1 ] (D2 ) = B (Rn ). (an ; bn ] 2 D2 una celda no vacía, entonces: T 1 a2 ; b2 + m1 an ; bn + (an ; bn ] = 1 m=1 a1 ; b1 + m (a2 ; b2 ] (a1 ; b1 ] (a2 ; b2 ] Así que, B (Rn ) = (D2 ) (D3 ). Además, todo elemento de D3 es un boreliano de Rn . 1 m 2 (D3 ). 2.2. Por lo tanto, 61 (D3 ) = B (Rn ). d) Sea (a1 ; b1 ) (a1 ; b1 ) (D4 ). -ÁLGEBRA DE BOREL EN Rn (a2 ; b2 ) (a2 ; b2 ) Así que, B (Rn ) = (an ; bn ) 2 D3 una celda no vacía, entonces: S 1 (an ; bn ) = 1 a2 + m1 ; b2 m=1 a1 + m ; b1 (D3 ) an + 1 ;b m n 2 (D4 ). Además, todo elemento de D4 es un boreliano de Rn . Por lo tanto, (D4 ) = B (Rn ). e) Sea [a1 ; b1 ) [an ; bn ) 2 D4 una celda no vacía, entonces: S 1 a2 ; b2 m1 an ; bn [an ; bn ) = 1 m=1 a1 ; b1 m [a2 ; b2 ) [a1 ; b1 ) [a2 ; b2 ) Así que, B (Rn ) = (D4 ) 1 m 2 (D5 ). (D5 ). Además, todo elemento de D5 es un boreliano de Rn . Por lo tanto, (D5 ) = B (Rn ). Proposición 2.6. La -álgebra de Borel en Rn está generada por la familia de subconjuntos abiertos de Rn . Demostración Sea G un subconjunto abierto no vacío de Rn , entonces, para cada x 2 G existe una bola abierta B de centro x y radio s > 0 contenida en G. Sea r un número racional positivo menor que s y y = (y1 ; y2 ; : : : ; yn ) un elemento de la bola 1 abierta de centro x y radio 2n r tal que, para cualquier k 2 f1; 2; : : : ; ng, yk es un número racional. Obviamente x pertenece a la bola abierta de centro y y radio B. 1 r, 2n la cual está contenida en De…namos: C = y1 1 r; y1 2n + 1 r 2n y2 1 r; y2 2n + 1 r 2n yn 1 r; yn 2n + 1 r 2n . La distancia entre dos elementos cualesquiera de C es menor que la distancia entre los puntos 1 1 1 1 1 1 y1 2n r; y2 2n r; : : : ; yn 2n r y y1 + 2n r; y2 + 2n r; : : : ; yn + 2n r , la cual es igual a p1n r. 1 Como x pertenece a la bola abierta de centro y y radio 2n r, si x = (x1 ; x2 ; : : : ; xn ), entonces 1 jxk yk j < 2n r para cualquier k 2 f1; 2; : : : ; ng, así que x 2 C. Por lo tanto, si z 2 C, entonces: 62 d (z; x) < Así que C 2. MEDIDA DE LEBESGUE p1 r n B r < s. G. Denotemos por C al conjunto de celdas en Rn de la forma (r1 ; s1 ) (r2 ; s2 ) (rn ; sn ), donde r1 ; s1 ; r2 ; s2 ; : : : ; rn ; sn son números racionales. C es entonces un conjunto numerable y, por lo anterior, para cada x 2 G existe C 2 C tal que x 2 C y C G. Por lo tanto, G se puede expresar como la unión de una colección …nita o in…nita numerable de conjuntos en C, cada uno de los cuales un boreliano de Rn . Así que G es un boreliano de Rn . Finalmente, la familia de subconjuntos abiertos de Rn contiene a las celdas en Rn de la forma ( 1; x1 ) ( 1; x2 ) ( 1; xn ), donde (x1 ; x2 ; : : : ; xn ) 2 Rn , las cuales generan a la -álgebra de Borel en Rn . Así que también la familia de subconjuntos abiertos de Rn genera a la -álgebra de Borel en Rn . n Definición 2.11 ( -álgebra de Borel en Rn ). La -álgebra de Borel en R , la cual será n n denotada por B R , es la -álgebra de subconjuntos de R generada por R. A los elementos n de esa -álgebra los llamaremos borelianos de R . Proposición 2.7. Si B1 ; : : : ; Bn son borelianos de R, entonces B1 n boreliano de R . B2 ::: Bn es un Demostración De…namos H = ( 1; x] : x 2 R [ R n La familia de conjuntos B 2 B R tales que I1 In 1 B 2 B R , para cualquier familia de intervalos I1 In 1 tales que Ik 2 H para cualquier k 2 f1; 2; : : : ; n 1g, forma una -álgebra que contiene a los intervalos de la familia ( 1; x] : x 2 R ; por lo tanto, contiene a todos los borelianos de R. De la misma manera, si Bn es un boreliano de R cualquiera, entonces la familia de conjuntos n B 2 B R tales que I1 In 2 B Bn 2 B R , para cualquier familia de intervalos I1 In 2 tales que Ik 2 H para cualquier k 2 f1; 2; : : : ; n 2g, forma una -álgebra que contiene a los intervalos de la familia ( 1; x] : x 2 R ; por lo tanto, contiene a todos los borelianos de R. Continuando con este procedimiento, se obtiene que los conjuntos de la forma I B2 : : : Bn , n donde I 2 H y B2 ; : : : ; Bn son borelianos cualesquiera de R, son borelianos de R . Finalmente, si B2 ; : : : ; Bn son borelianos cualesquiera de R, entonces la familia de conjuntos n B 2 B R tales que B B2 : : : Bn 2 B R , forma una -álgebra que contiene a los intervalos de la familia ( 1; x] : x 2 R ; por lo tanto, contiene a todos los borelianos de R. 2.2. -ÁLGEBRA DE BOREL EN Rn 63 n Corolario 2.4. La -álgebra de Borel en R está generada por la familia de conjuntos de la forma B1 B2 : : : Bn , donde B1 ; : : : ; Bn son borelianos de R. n Proposición 2.8. La -álgebra de Borel en R está generada por la familia de subconjuntos n In , donde, para cualquier k 2 f1; 2; : : : ; ng, Ik es ya sea un de R de la forma I1 I2 intervalo de la forma [ 1; x], con x 2 R, o bien Ik = R. Demostración n 0 Denotemos por R a la familia de subconjuntos de R de la forma I1 I2 In , donde, para cualquier k 2 f1; 2; : : : ; ng, Ik es ya sea un intervalo de la forma [ 1; x], con x 2 R, o bien Ik = R. Sean R = I1 I2 In 2 R una celda no vacía y U f1; 2; : : : ; ng tal que Ik 6= R si k 2 U e Ik = R si k 2 = U . Para cada j 2 f1; 2; : : : ; ng, k 2 U y m 2 N, de…namos: [ 1; xj ] si j 2 U e Ij = ( 1; xj ] R si j 2 =U 8 < [ 1; xj ] si j 2 U , j 6= k e Ij = ( 1; xj ] f 1g si j = k Bjk = : R si j 2 =U 8 si j 2 U , j 6= k e Ij = ( 1; xj ] < [ 1; xj ] (m) [ 1; m] si j = k Bjk = : R si j 2 =U Aj = Rk = B1k B2k Entonces: T (m) Rk = 1 m=1 B1k Bnk (m) (m) Bnk 2 B2k 0 R . Así que: R = A1 A2 An S k2U Rk 2 0 R . n Corolario 2.5. La -álgebra de Borel en R está generada por la familia de subconjuntos n de R de la forma [ 1; x1 ] [ 1; xn ], donde xk 2 R para cualquier k 2 f1; 2; : : : ; ng. n Proposición 2.9. La -álgebra de Borel en R está generada por la familia de subconjuntos n de R de la forma I1 I2 In , donde, para cualquier k 2 f1; 2; : : : ; ng, Ik es ya sea un intervalo de la forma [ 1; x), con x 2 R, o bien Ik = R. 64 2. MEDIDA DE LEBESGUE Demostración n 0 Denotemos por R a la familia de subconjuntos de R de la forma I1 I2 In , donde, para cualquier k 2 f1; 2; : : : ; ng, Ik es ya sea un intervalo de la forma [ 1; x], con x 2 R, n 00 o bien Ik = R, y por R a la familia de subconjuntos de R de la forma I1 I2 In , donde, para cualquier k 2 f1; 2; : : : ; ng, Ik es ya sea un intervalo de la forma [ 1; x), con x 2 R, o bien Ik = R. 0 Sean R = I1 I2 In 2 R y U f1; 2; : : : ; ng tal que Ij 6= R si j 2 U e Ij = R si j2 = U . Para cada k 2 f1; 2; : : : ; ng y m 2 N, de…namos: Jkm = R 1; xk + Entonces: T (m) R= 1 m=1 J1 1 m (m) J2 si Ik = [ 1; xk ] y k 2 U si j 2 =U (m) Jn 2 00 R . 00 Sean R = I1 I2 In 2 R y U f1; 2; : : : ; ng tal que Ij 6= R si j 2 U e Ij = R si j2 = U . Para cada k 2 f1; 2; : : : ; ng y m 2 N, de…namos: Jkm = R 1 m 1; xk Entonces: S (m) R= 1 m=1 J1 (m) J2 si Ik = [ 1; xk ) y k 2 U si j 2 =U (m) Jn 2 0 R . 2.3. Funciones …nitamente aditivas y -aditivas Corolario 2.6. La -álgebra de Borel en R está generada por la familia de intervalos de la forma [ 1; x), donde x 2 R. Definición 2.12 (Función …nitamente aditiva sobre un álgebra). Sea F un conjunto y A un álgebra de subconjuntos de F. Se dice que una función no negativa : A 7! R es …nitamente aditiva si dada cualquier familia …nita, A1 ; : : : ; An , de elementos de A tal que n S P Ai \ Aj = ; para i 6= j, entonces ( Ak ) = nk=1 (Ak ). k=1 Obsérvese que, si A es un álgebra de subconjuntos de F, para probar que una función : A 7! R es …nitamente aditiva, basta con demostrar que si A y B son dos conjuntos ajenos del álgebra, entonces (A [ B) = (A) + (B). Teniendo esta propiedad, la aditividad …nita se prueba con un razonamiento de inducción. 2.3. FUNCIONES FINITAMENTE ADITIVAS Y -ADITIVAS 65 Definición 2.13 (Función -aditiva sobre un álgebra). Sea F un conjunto y A un álgebra de subconjuntos de F. Se dice que una función no negativa : A 7! R es -aditiva si es …nitamente aditiva y dada cualquier familia in…nita numerable, A1 ; A2 ; : : :, de elementos 1 1 S S P de A tal que Ai \ Aj = ; para i 6= j y Ak 2 A, entonces Ak = 1 k=1 (Ak ). k=1 k=1 Definición 2.14 (Función -aditiva sobre una -álgebra). Sea F un conjunto y = una -álgebra de subconjuntos de F. Se dice que una función no negativa : = 7! R es -aditiva si es …nitamente aditiva y dada cualquier familia in…nita numerable, A1 ; A2 ; : : :, 1 S P de elementos de = tal que Ai \ Aj = ;, entonces Ak = 1 k=1 (Ak ). k=1 Proposición 2.10. Sea F un conjunto, A un álgebra de subconjuntos de F y una función no negativa …nitamente aditiva, entonces: :A!R (i) Si A; B 2 A y A B, entoncesS (A) (B). Pn n (ii) Si A1 ; : : : ; An 2 A, entonces ( k=1 Ak ) k=1 (Ak ). Demostración Sean A; B 2 A tales que A B, entonces B = A[(B Por lo tanto, (A) (B), ya que es no negativa. A), así que (B) = (A)+ (B A). Sean ahora A1 ; : : : ; An 2 A y de…namos A0 = ;, entonces: Sn S ( nk=1 Ak ) = = Pn k=1 k=1 Sk 1 j=0 Ak Ak Aj Sk 1 j=0 Pn k=1 Aj (Ak ). Corolario 2.7. Sea F un conjunto, A un álgebra de subconjuntos de F y función no negativa …nitamente aditiva, entonces: Si A; B 2 A, A (B A) = (B) B y (A) < 1, entonces: (A). Para cualquier pareja A; B 2 A tal que (A [ B) = : A ! R una (A) + (B) (A) < 1 o (B) < 1, se tiene: (A \ B). Proposición 2.11. Sea F un conjunto, A un álgebra de subconjuntos de F y : A ! R una función no negativa …nitamente aditiva, entonces, para cualquier colección …nita A1 ; A2 ; : : : ; An de elementos de A, se tiene: S P P P ( nk=1 Ak ) = nk=1 P (Ak ) fi;j2f1;:::;ng;:i6=jg P (Ai \ Aj ) P + fi;j;k2f1;:::;ng;:i6=j;j6=k;i6=kg P (Ai \ Aj \ Ak ) : : : + ( 1)n+1 P (A1 \ A2 : : : \ An ). 66 2. MEDIDA DE LEBESGUE Demostración La demostración se hará por inducción sobre el número de eventos n. Para n = 2 ya se tiene el resultado. Supongamos ahora que la propiedad es válida para el caso de cualesquiera m 1 eventos y sean A1 ; : : : Am m eventos cualesquiera. Se tiene entonces: m 1 P ([m k=1 Ak ) = P ([k=1 Ak ) + P (Am ) 1 P (Am \ f[m k=1 Ak g) 1 1 = P ([m P ([m k=1 Ak ) + P (Am ) k=1 Ak \ Am ) P 1 P = m k=1 P (Ak ) fi;j2f1;:::m 1g;i6=jg P (Ai \ Aj ) P + fi;j;k2f1;:::m 1g;i6=j;j6=k;i6=kg P (Ai \ Aj \ Ak ) : : : Pm 1 +( 1)m P (A1 \ A2 : : : \ Am 1 ) + P (Am ) k=1 P (Ak \ An ) P + fi;j2f1;:::m 1g;i6=jg P ((Ai \ Am ) \ (Aj \ Am )) P fi;j;k2f1;:::m 1g;i6=j;j6=k;i6=kg P ((Ai \ Am ) \ (Aj \ Am ) \ (Ak \ Am )) + : : : ( 1)m P ((A1 \ Am ) \ (A2 \ Am ) : : : \ (Am 1 \ Am )) P P P (A ) = m k fi;j2f1;:::mg;i6=jg P (Ai \ Aj ) k=1 P + fi;j;k2f1;:::mg;i6=j;j6=k;i6=kg P (Ai \ Aj \ Ak ) : : : + ( 1)m+1 P (A1 \ : : : \ Am ). Por lo tanto, la propiedad es válida para m eventos cualesquiera. Así que, por el principio de inducción matemática, la propiedad es válida para cualquier n 2 N. Teorema 2.1. Sea F un conjunto, = una función no negativa -aditiva. Entonces: -álgebra de subconjuntos de F y : = ! R (i) Para cualquier sucesión creciente (An )n2N , de elementos de =, se tiene: S1 ( n=1 An ) = l mn!1 (An ). (ii) Para cualquier sucesión decreciente (An )n2N , de elementos de =, tales que (AN ) < 1 para T alguna N 2 N, se tiene: ( 1 n=1 An ) = l mn 1 (An ). Demostración 1. Sea (An )n2N sucesión creciente de elementos de =. Si S(An ) = 1 para alguna n 2 N, entonces l mn ( 1 n=1 An ) = l mn 1 (An ). 1 (An ) = 1 y S ( 1 n=1 An ) = 1; así que 2.4. LA MEDIDA DE LEBESGUE EN R 67 Supongamos ahora que (An ) < 1 para cualquier n 2 N. De…namos B1 = A1 y, para cada n 2 f2; 3; : : :g, Bn =SAn An S 1 . Entonces los conjuntos B1 ; B2 ; : : : pertenecen a =, son 1 ajenos por parejas y 1 A = n=1 n n=1 Bn . Así que: S S P1 Pn ( 1 ( 1 n=1 An ) = n=1 Bn ) = n=1 (Bn ) = l mn 1 k=1 (Bk ) P P = (B1 ) + l mn 1 nk=2 (Ak Ak 1 ) = (B1 ) + l mn 1 nk=2 [ (Ak ) (Ak 1 )] = (B1 ) + l mn 1 (An ) (A1 ) = l mn 1 (An ). 2. Sea (An )n2N sucesión decreciente de elementos de = tales que (AN ) < 1 para alguna N 2 N. Para cada k 2 S fN + 1; N + 2; : : :g, T de…namos Bk = AN Ak . Entonces la sucesión (BN +n )n2N 1 es creciente y 1 B = A N n=N +1 n n=N +1 An , así que: S1 T1 T A = (A ) A ) = ( 1 n N n n=N +1 Bn n=N +1 n=1 = (AN ) l mn 1 (BN +n ) = (AN ) = l mn!1 (AN +n ) = l mn 1 l mn 1 (AN AN +n ) (An ). 2.4. La medida de Lebesgue en R En esta sección expondremos la formulación moderna de la teoría de la medida de Lebesgue en R, de manera que todos los conjuntos con los que trataremos serán subconjuntos de los números reales. La medida de Lebesgue se de…ne mediante un proceso de extensión partiendo de que la medida de un intervalo es su longitud. Se de…ne la medida exterior de cualquier subconjunto de R acercándonos a ese conjunto mediante uniones numerables de intervalos abiertos que contienen al conjunto. No se de…ne una medida interior, como lo hizo Lebesgue, ya que la caracterización que hizo Carathéodory de los conjuntos medibles es más cómoda de trabajar y requiere únicamente contar con una medida exterior Definición 2.15. Diremos que una colección …nita o in…nita S numerable de intervalos abiertos …nitos I1 ; I2 ; : : : es una cubierta del conjunto A si A n In . El resultado siguiente, cuya demostración es muy simple gracias al teorema de Heine-Borel, es fundamental para demostrar que la medida de Lebesgue de un intervalo es igual a su longitud. De esta forma, lo que obtenemos es una extensión a todos los conjuntos medibles del concepto de longitud. Lema 2.1. Sea I un intervalo …nito de cualquier tipo (i.e. abierto, semiabierto, etc.) e I1 ; I2 ; : : : una cubierta de I, entonces: 68 l(I) 2. MEDIDA DE LEBESGUE P j l(Ij ). Demostración Sean a y b los extremos del intervalo I y, dada " > 0, sean Ia e Ib intervalos abiertos que contengan a a y b respectivamente y tales que l(Ia ) = l(Ib ) = 2" . Entonces los intervalos Ia ; Ib ; I1 ; I2 ; : : : forman una cubierta del intervalo [a; b]. Por el teorema de Heine-Borel, existe entonces una subcubierta …nita. Sea L la suma de las longitudes de los intervalos de dicha cubierta …nita, entonces: P l(I) = b a L j l(Ij ) + ". P Se tiene entonces que l(I) j l(Ij )+" para cualquier " > 0, de lo cual se sigue el resultado. Definición 2.16. Se de…ne la medida exterior, me (A), de un conjunto A, mediante la relación: o nP l(I ) : I ; I ; : : : es cubierta de A . me (A) = nf j 1 2 j Proposición 2.12. Si A y B son dos conjuntos tales que A me (A) B entonces: me (B). Proposición 2.13. La medida exterior de un intervalo es igual a su longitud. Demostración Consideremos primero un intervalo …nito I. Por el lema 2.1 se tiene l(I) Dada " > 0 sea J un intervalo abierto tal que J cubierta de I, así que se tiene: me (I) me (I). I y l(J) < l(I) + ". Como J I , J es l(J) < l(I) + ". Es decir, me (I) < l(I) + " para cualquier " > 0. Por lo tanto, me (I) l(I). Si el intervalo I es in…nito, dado cualquier > 0 existe un intervalo …nito J contenido en I y de longitud . Por lo tanto, me (I) me (J) = l(J) = . Así que me (I) = 1. Ahora viene la propiedad que caracteriza a una medida exterior. Proposición 2.14. Si A1 ; A2 ; : : : es una colección …nita o in…nita numerable de conjuntos, entonces: S P m e ( n An ) n me (An ). 2.4. LA MEDIDA DE LEBESGUE EN R 69 Demostración Si me (An ) = 1 para alguna n el resultado es trivial. Supongamos entonces que me (An ) < 1 para P toda n. Dada " > 0,"para cada conjunto An sea In;1 ; In;2 ; : : : una cubierta de A Sn tal que m l(In;m ) < me (An ) + 2n . La familia de intervalos In;m forman una cubierta de n An , así que: S P P P P " m e ( n An ) n m l(In;m ) n me (An ) + 2n n me (An ) + ". S P Es decir, me ( n An ) n me (An ) + " para cualquier " > 0. Por lo tanto: S P m e ( n An ) n me (An ). Definición 2.17. La propiedad enunciada en la última proposición es llamada la propiedad de -subaditividad de la medida exterior. Como decíamos, seguimos ahora el método de Carathéodory para de…nir la medibilidad de un conjunto. Definición 2.18. Se dice que un conjunto E es Lebesgue medible si: me (A) = me (A \ E) + me (A \ E c ) para cualquier conjunto A. Además, en ese caso, se de…ne la medida de E, m(E), como la medida exterior de E. Obsérvese que, por la -subaditividad de la medida exterior, se tiene: me (A) me (A \ E) + me (A \ E c ) para cualquier par de conjuntos E y A, de manera que para demostrar la medibilidad de un conjunto E únicamente es necesario probar la otra desigualdad. Ahora se trata de demostrar que la familia de conjuntos medibles forma una -álgebra de subconjuntos de R y que la función que asigna a cada conjunto medible su medida es aditiva. Comenzamos demostrando primero que forma un álgebra y que la función medida es …nitamente aditiva. Proposición 2.15. La familia de conjuntos Lebesgue medibles forma un álgebra de subconjuntos de R. Demostración Que R es medible, así como que el complemento de un conjunto medible es medible, son resultados obvios. 70 2. MEDIDA DE LEBESGUE Sean E1 y E2 dos conjuntos medibles y A cualquier conjunto. Se tiene entonces: me (A \ (E1 [ E2 )) + me (A \ (E1 [ E2 )c ) = me ((A \ E1 ) [ (A \ E1c \ E2 )) + me (A \ E1c \ E2c ) me (A \ E1 ) + me (A \ E1c \ E2 ) + me (A \ E1c \ E2c ) = me (A \ E1 ) + me (A \ E1c ) = me (A). Así que, E1 [ E2 es medible. Proposición 2.16. Sea E1 ; E2 ; : : : ; En cualquier colección …nita de conjuntos Lebesgue medibles, ajenos por parejas, entonces: P S me A \ ( nj=1 Ej ) = nj=1 me (A \ Ej ) para cualquier conjunto A. Demostración Para n = 1 la igualdad es obvia. Supongamos ahora que la igualdad es válida para n = k y sea E1 ; E2 ; : : : ; Ek+1 una colección …nita de k + 1 conjuntos medibles, ajenos por parejas, entonces, como Ek+1 es Lebesgue medible, se tiene: Sk+1 Sk+1 S c me A \ ( k+1 j=1 Ej ) = me A \ ( j=1 Ej ) \ Ek+1 + me A \ ( j=1 Ej ) \ Ek+1 S = me (A \ Ek+1 ) + me A \ ( kj=1 Ej ) = me (A \ Ek+1 ) + Pk j=1 me (A \ Ej ) = Pk+1 j=1 me (A \ Ej ). Corolario 2.8. La función que asigna a cada conjunto Lebesgue medible E su medida, m(E), es una función …nitamente aditiva. Proposición 2.17. La familia de conjuntos Lebesgue medibles forma una -álgebra de subconjuntos de R. Demostración Sea E1 ; E2 ; : : : una colección in…nita numerable de conjuntos Lebesgue medibles, ajenos por parejas. Como la familia de conjuntos S Lebesgue medibles forma un álgebra de subconjuntos de R, para cada n 2 N el conjunto nj=1 Ej es Lebesgue medible, así que, utilizando la proposición 5.5 y la -subaditividad de la medida exterior, se tiene, para cualquier conjunto A: 2.4. LA MEDIDA DE LEBESGUE EN R 71 S S me (A) = me A \ ( nj=1 Ej ) + me A \ ( nj=1 Ej )c = Pn j=1 Pn S me (A \ Ej ) + me A \ ( nj=1 Ej )c S1 c m (A \ E ) + m A \ ( e j e j=1 j=1 Ej ) . Tomando límite cuando n me (A) P1 j=1 1, se obtiene: S c me (A \ Ej ) + me A \ ( 1 j=1 Ej ) S S1 c me A \ ( 1 j=1 Ej ) + me A \ ( j=1 Ej ) . Por lo tanto, S1 j=1 Ej es Lebesgue medible. Proposición 2.18. La función que asigna a cada conjunto Lebesgue medible E su medida, m(E), es una función -aditiva. Demostración Sea E1 ; E2 ; : : : una colección in…nita numerable de conjuntos Lebesgue por Pajenos S medibles, 1 m(E E ) parejas. Por la -subaditividad de la medida exterior, se tiene m( 1 j ). j=1 j=1 j Por otra parte, por la aditividad …nita de la función que asigna a cada conjunto Lebesgue medible su medida, se tiene, para cualquier n 2 N: P S S m( nj=1 Ej ) = nj=1 m(Ej ), m( 1 j=1 Ej ) así que tomando límite cuando n P1 S m( 1 j=1 m(Ej ) j=1 Ej ) 1, se tiene: El resultado siguiente, cuya demostración es muy simple, es importante ya que hace ver que la familia de conjuntos medibles no está formada únicamente por los conjuntos borelianos de R. Es la parte que la faltó considerar a Borel cuando desarrollo su teoría de la medida, ya que quedándonos únicamente con la medida de los borelianos, la medida no resulta ser una generalización del contenido de Jordan. La familia de conjuntos Jordan-medibles (aquellos cuyo contenido interior coincide con su contenido exterior) contiene a todos los conjuntos de contenido cero; por ejemplo, el conjunto de Cantor es Jordan-medible ya que su contenido es cero; por lo tanto, todo subconjunto del conjunto de Cantor es Jordan-medible. Como el conjunto de Cantor tiene la misma cardinalidad que el conjunto de números reales, resulta enconces que la cardinalidad de la familia de conjuntos que son Jordan-medibles coincide con la cardinalidad de la familia formada por todos los subconjuntos de R. La familia de los conjuntos borelianos, en cambio, tiene la misma cardinalidad que R. 72 2. MEDIDA DE LEBESGUE Ejercicio 2.4. Demuestra que todo conjunto de medida exterior cero es Lebesgue medible. Proposición 2.19. Todo intervalo es Lebesgue medible. Demostración Como la familia de conjuntos Lebesgue medibles forma una -álgebra de subconjuntos de R y los conjuntos formados por un punto son Lebesgue medibles, es su…ciente con probar que los intervalos de la forma [a; 1) son Lebesgue medibles. Sea E un intervalo de la forma [a; 1), A cualquier conjunto e I1 ; I2 ; : : : una cubierta de A, entonces, para cada In , los conjuntos In \ E e In \ E c son intervalos y se tiene: S S me (A \ E) me (( n In ) \ E) = me ( n (In \ E)) P P n me (In \ E) = n l(In \ E) S S me (A \ E c ) me (( n In ) \ E c ) = me ( n (In \ E c )) P P c c n l(In \ E ). n me (In \ E ) = Así que: me (A \ E) + me (A \ E c ) P n l(In \ E) + P n l(In \ E c ) = P n l(In ). Finalmente, como lo anterior es válido para cualquier cubierta de A, se puede concluir que: me (A \ E) + me (A \ E c ) me (A). Ejercicio 2.5. Demuestra que todo conjunto boreliano es Lebesgue medible. El resultado siguiente muestra que la familia de los conjuntos medibles, si bien es más grande que la familia de los conjuntos borelianos, está formada por los conjuntos que di…eren de un boreliano únicamente por un conjunto de medida cero. Es decir, no hay algún conjunto medible que no se obtenga de un boreliano ya sea quitándole o agregándole un conjunto de medida cero. Proposición 2.20. Dado cualquier conjunto Lebesgue medible E existe un boreliano B y un conjunto C de medida cero tales que E = B [ C y B \ C = ;. Demostración Consideremos primero el caso de un conjunto Lebesgue medible E contenido en un intervalo …nito (a; b) y de…namos F = (a; b) E. La idea es cubrir F con un boreliano A tal que m(A acercamos a E por dentro mediante (a; b) A. Dada " > 0, sea I1 ; I2 ; : : : una cubierta de F tal que: F ) = 0, después de lo cual nos 2.4. LA MEDIDA DE LEBESGUE EN R 73 P l(Ij ) < m(F ) + ". S A(") = j Ij es entonces un boreliano tal que: P m(A(") F ) = m(A(") ) m(F ) m(F ) < ". j l(Ij ) j Es decir, dada " > 0 existe un boreliano A(") tal que A(") Sea entonces A(n) que: m(A(n) F) < 1 n Se tiene entonces m T1 j=1 A(j) F ) < ". una sucesión decreciente de borelianos que contengan a F y tales n2N para cualquier n 2 N. m F y m(A(") F T1 j=1 A(j) F m(A(n) F) < 1 n para cualquier n 2 N, así que: = 0. Por lo tanto, A = (a; b) \ De…namos B = (a; b) T1 j=1 A(j) es un boreliano tal que A F y m(A F ) = 0. A, entonces B es boreliano y se tiene: B = (E [ F ) \ Ac = (E \ Ac ) [ (F \ Ac ) = E \ Ac , E \ A = ((a; b) F) \ A = A Así que, de…niendo C = A F. F , se tiene E = B [ C, B \ C = ; y m(C) = 0. Tomemos ahora un conjunto Lebesgue medible E arbitrario y, para cada k 2 N, de…namos Ek = E \ ( k; k). Sea Bk un boreliano y CS medida cero tales que Ek = Bk [ Ck y Bk \ Ck = ;, k un conjunto de S1 B y D = entonces tomando B = 1 k=1 k k=1 Ck , se tiene que B es boreliano, D tiene medida cero y E = B [ D. Finalmente, de…namos C = D B \ C = ;. B, entonces C tiene medida cero y se tiene E = B [ C y Como corolario, se tiene el siguiente resultado: Teorema 2.2. La -álgebra de los conjuntos Lebesgue medibles es la -álgebra generada por los intervalos y los conjuntos de medida exterior cero. Obsérvese que la familia de los conjuntos de medida exterior cero coindice con la familia de los conjuntos de medida cero de acuerdo con la de…nición de Borel: Un conjunto tiene 74 2. MEDIDA DE LEBESGUE medida cero si para cualquier " > 0 existe un conjunto …nito o in…nito numerable de intervalos abiertos, cuya unión contiene al conjunto dado, y tales que la suma de sus longitudes es menor que ". Así que los resultados anteriores pueden condensarse en el siguiente: Teorema 2.3. Existe una medida de…nida sobre la -álgebra de subconjuntos de R generada por los intervalos y los conjuntos de medida cero tal que la medida de cualquier intervalo es igual a su longitud. El siguiente resultado muestra lo cerca que estaba Borel de la teoría de la medida de Lebesgue. Bastaba con agregar a los borelianos los subconjuntos de los borelianos de medida cero y generar una -álgebra con esos conjuntos. Proposición 2.21. Todo conjunto de medida exterior cero está contenido en un conjunto boreliano de medida exterior cero. Demostración : : una colección Sea A un conjunto de medida exterior cero. Para cada n 2 N, S sea I1n ; I2n : P 1 n n I y …nita o in…nita numerable de intervalos abiertos tales que A k=1 l(Ik ) < n . k=1 k T S 1 De…namos Bn = k=1 Ikn y B = n=1 Bn . Entonces, B 2 B (R), tiene medida exterior cero y A B. Definición 2.19. Denotaremos por L (R) a la -álgebra formada por los conjuntos Lebesgue medibles en R y por a la medida de Lebesgue sobre L (R). Obsérvese que la -álgebra de subconjuntos de R generada por L (R) y los conjuntos f1g y f 1g, la cual denotaremos por L R , está formada por los conjuntos Lebesgue medibles en R y los conjuntos de la forma B [ f1g, B [ f 1g y B [ f 1; 1g, donde B 2 L (R). Así que podemos extender la medida de Lebesgue a L R de…niendo (f 1; 1g) = 0. CAPÍTULO 3 FUNCIONES DE VARIACIÓN ACOTADA Previamente al trabajo de Lebesgue, Thomas Joannes Stieltjes había extendido el concepto de integral en una dirección distinta a la de Lebesgue. En el año 1894 publicó un artículo titulado Recherches sur les fractions continues ([87]), donde planteó el problema de determinar el límite, si existe, de una fracción continua de la forma: 1 a1 z+ a2 z+ 1 1 1 a3 z+ ::: donde (an )n2N es una sucesión de números reales positivos y z un número real o un número complejo. En el desarrollo que realizó Stieltjes en su artículo, obtuvo una expresión que lo llevó a introducir el concepto de momento de una función monótona creciente y al problema de la determinación de esa función a partir de sus momentos. Para ello, decía que una distribución de masa sobre la parte positiva de una recta de origen O representa una función creciente de la distancia x al origen. Agregaba que, inversamente, una función creciente, de…nida sobre la parte positiva de la recta, se puede imaginar como representando una distribución de masa. Dada una función creciente , de…nida en un intervalo [a; b] sobre la parte positiva de una recta, consideraba una partición fx0 ; x1 ; : : : ; xnP g del intervalo [a; b], tomaba un punto n en cada subintervalo [x ; x ], consideraba la suma (xi 1 )) y de…nía el i 1 i i i=1 i ( (xi ) momento de como el límite de esa suma cuando las longitudes de los subintervalos de la partición tienden a cero (para k 2 N, el momento de orden k de sería el límite de las sumas P n k (xi 1 ))). Generalizando esta idea, consideró una función continua f , i=1 i ( (xi ) de…nida sobre el intervalo [a; b], y de…nió la integral de f con respecto a en el intervalo [a; b], Rb P denotada por a f (u) d (u), como el límite de las sumas ni=1 f ( i ) ( (xi ) (xi 1 )). De esta forma surgió lo que ahora se conoce como la integral de Riemann-Stieltjes. La integral de Stieltjes jugó un papel central para el desarrollo de una teoría general de la medida ya que permitió visualizar el problema de la integración de funciones en un contexto más amplio. Después que Lebesgue desarrolló su teoría de integración para funciones de R en R, basándose en la teoría de la medida en R, que él mismo desarrolló, la extensión al caso de funciones de Rn en R, basada en el concepto de medida de Lebesgue en Rn , fue 75 76 3. FUNCIONES DE VARIACIÓN ACOTADA relativamente simple. De hecho el mismo Lebesgue lo había hecho ya para el caso de R2 . Sin embargo, la medida de Lebesgue en R se construye con base en el concepto de longitud de un intervalo; de ahí se puede pasar a de…nir la medida de un producto cartesiano de n intervalos I1 I2 In como el producto de las longitudes de cada uno de esos intervalos. En cambio, la integral de Stieltjes hacía ver que el concepto de medida de un intervalo puede ser más amplio y no restringirse a de…nirla como la longitud de ese intervalo. Con el trabajo de Stieltjes pudo verse que la medida de un intervalo [a; b] puede de…nirse también como la diferencia (b) (a), donde es una función creciente (con las adecuaciones correspondientes para el caso en que no es continua). La integral de Stieltjes se vincula con otro concepto de importancia central, el de función de variación acotada. En su libro Leçons sur l’intégration et la recherche des fonctions primitives (1904), Lebesgue atribuye la invención de este concepto a Jordan. En ese libro, Lebesgue dedicó un capítulo al estudio de las funciones de variación acotada, aunque no motivado por el trabajo de Stieltjes, el cual ni siquiera menciona. La motivación de Lebesgue provenía del estudio que hacía de la recti…cación de curvas, es decir de la medida de la longitud de una curva, y también del hecho de que, si f : [a; b] ! R, es integrable, entonces la función Rx x ! a f (y) dy, de…nida sobre [a; b], es de variación acotada. La relación entre la integral de Stieltjes y las funciones de variación acotada proviene de que una función g : [a; b] ! R es de variación acotada si y sólo si se puede expresar como la diferencia de dos funciones no decrecientes, resultado que Lebesgue demostró en el libro citado. De aquí que la integral de Stieltjes se pueda extender al caso en que es de variación acotada. Además de los resultados y aplicaciones de las funciones de variación acotada que se hicieron previamente, el trabajo que las puso en el centro de la teoría de integración y que vinculó estrechamente la integral de Stieltjes con las funciones de variación acotada, fue un artículo de Frédéric Riesz del año 1909, titulado Sur les opérations fonctionnelles linéaires ([80]), en el cual demostró el ahora llamado teorema de representación de Riesz: Si A es una funcional lineal de…nida sobre el conjunto C de funciones continuas f : [a; b] ! R y si A es continua considerando la norma de la convergencia uniforme en C, entonces existe R b una función de variación acotada g : [a; b] ! R tal que A (f ) = a f dg para cualquier función f 2 C. En lo que respecta a la Teoría de la Medida, la importancia de las funciones de variación acotada radica en el hecho de que cualquier medida (con signo, es decir que puede tomar valores positivos y negativos) sobre los conjuntos borelianos de R tal que los intervalos acotados tienen medida …nita se puede considerar como generada por una función de…nida sobre R y que es de variación acotada sobre cualquier intervalo compacto. Esto lo desarrollaremos en el capítulo 4 de este libro. 3. FUNCIONES DE VARIACIÓN ACOTADA 77 En esta sección vamos a exponer la de…nición y las propiedades básicas de una función de variación acotada de…nida sobre un intervalo compacto. En la sección siguiente haremos un estudio más …no en lo que respecta a su parte continua y su parte de saltos. Definición 3.1. Dada una funciónPg : [a; b] ! R y una partición P = fx0 ; x1 ; : : : ; xn g del intervalo [a; b], de…namos Vg (P ) = nk=1 jg(xk ) g(xk 1 )j. Diremos que g es de variación acotada en [a; b] si: Vg [a; b] = sup fVg (P ) : P es una partición de [a; b]g < 1. Las funciones de variación acotada tienen algunas propiedades las cuales hacen que se pueda trabajar fácilmente con ellas. Una de esas propiedades es que toda función g : R ! R tal que, restringida a cualquier intervalo compacto, es de de variación acotada, se puede expresar como la diferencia de dos funciones no decrecientes; de manera que, estudiando las propiedades de las funciones no decrecientes, podemos obtener las de las que, restringidas a un intervalo compacto, son de variación acotada. Una función no decreciente es fácil de tratar ya que el conjunto de sus discontinuidades es a lo más in…nito numerable y todas sus discontinuidades son saltos. Además, las propiedades que nos van a interesar de una función no decreciente no se alteran si, en cada punto de discontinuidad, la sustituimos por su límite por la derecha o su límite por la izquierda; así que podemos asumir que la función es continua por la derecha para cualquier x 2 R, o bien continua por la izquierda para cualquier x 2 R. Si g es continua por la derecha, la función que asigna a cada intervalo de la forma (a; b] el valor g(b) g(a) se puede extender a una medida de…nida sobre los conjuntos borelianos.De la misma manera, si g es continua por la izquierda, la función que asigna a cada intervalo de la forma [a; b) el valor g(b) g(a) se puede extender a una medida de…nida sobre los conjuntos borelianos. De esta forma, hablar de funciones no decrecientes es equivalente a hablar de medidas de…nidas sobre los borelianos. Pasemos entonces a demostrar los resultados que nos permiten probar las propiedades mencionadas. Como veremos, el teorema de Heine Borel juega un papel central en el desarrollo de la teoría. Proposición 3.1. Si g : [a; b] ! R es de variación acotada, entonces está acotada. Demostración Dado cualquier punto x 2 [a; b], consideremos la partición P = fa; x; bg; se tiene entonces: jf (x)j jf (a)j jf (x) f (a)j jf (x) f (a)j + jf (b) f (x)j = Vg (P ) Vg [a; b]. Así que: jf (x)j jf (a)j + Vg [a; b]. Proposición 3.2. Sea g : [a; b] ! R y c 2 [a; b], entonces Vg [a; b] = Vg [a; c] + Vg [c; b]. 78 3. FUNCIONES DE VARIACIÓN ACOTADA Demostración Si P1 es una partición de [a; c] y P2 es una partición de [c; b], entonces P = P1 [ P2 es una partición de [a; b] y se tiene: Vg (P1 ) + Vg (P2 ) = Vg (P ) Vg [a; b]. Por lo tanto: Vg [a; c] + Vg [c; b] Vg [a; b]. Para probar la otra desigualdad, sea P una partición de [a; b] y P0 = P [ fcg, entonces: P1 = P0 \ [a; c] es una partición de [a; c], P2 = P0 \ [c; b] es una partición de [c; b], y se tiene: Vg (P0 ) = Vg (P1 ) + Vg (P2 ) Vg [a; c] + Vg [c; b]. Por otra parte, si c 2 P , entonces Vg (P ) = Vg (P0 ), mientras que si c 2 = P , entonces c 2 (xk ; xk+1 ), donde xk y xk+1 son dos puntos consecutivos de P , así que: jg(xk+1 ) g(xk )j jg(xk+1 ) g(c)j + jg (c) g(xk )j. Por lo tanto, en cualquier caso: Vg (P ) Vg (P0 ) Vg [a; c] + Vg [c; b]. Así que: Vg [a; b] Vg [a; c] + Vg [c; b]. Corolario 3.1. Sea g : [a; b] ! R y c 2 [a; b], entonces g es de variación acotada en el intervalo [a; b] si y sólo si es de variación acotada en cada uno de los intervalos [a; c] y [c; b]. Corolario 3.2. Sea g : [a; b] ! R y [c; d] [a; b], entonces Vg [c; d] Vg [a; b]. Teorema 3.1. El conjunto de funciones de variación acotada, de…nidas en un mismo intervalo [a; b], forma un espacio vectorial. Demostración Obviamente, si g es de variación acotada y c 2 R, entonces cg es de variación acotada. Sean f y g funciones de variación acotada en el intervalo [a; b] y P = fx0 ; x1 ; : : : ; xn g cualquier partición de [a; b]. Se tiene: P P Vf +g (P ) = ni=1 j(f + g)(xi ) (f + g)(xi 1 )j = ni=1 j[f (xi ) f (xi 1 )] + [g(xi ) g(xi 1 )]j 3. FUNCIONES DE VARIACIÓN ACOTADA Pn i=1 jf (xi ) f (xi 1 )j + Pn i=1 jg(xi ) g(xi 1 )j 79 Vf [a; b] + Vg [a; b]. Así que, tomando supremos: Vf +g [a; b] Vf [a; b] + Vg [a; b] < 1. Por lo tanto f + g es de variación acotada en [a; b]. Proposición 3.3. Si g : [a; b] ! R es de variación acotada, entonces g 2 también lo es. Sea M = sup fjg(x)j j x 2 [a; b]g y P = fx0 ; x1 ; : : : ; xn g cualquier partición del intervalo [a; b], entonces: P P Vg2 (P ) = nk=1 jg 2 (xk ) g 2 (xk 1 )j = nk=1 jg(xk ) + g(xk 1 )j jg(xk ) g(xk 1 )j P 2M nk=1 jg(xk ) g(xk 1 )j = 2M Vg (P ) 2M Vg [a; b]. Por lo tanto: Vg2 [a; b] 2M Vg [a; b] < 1. Así que g 2 es de variación acotada. Corolario 3.3. Si f : [a; b] ! R y g : [a; b] ! R son funciones de variación acotada, entonces f g también lo es. Demostración fg = 1 2 (f + g)2 f2 g2 . Proposición 3.4. Si g : [a; b] ! R es una función monótona, entonces es de variación acotada. Demostración Si P = fx0 ; x1 ; : : : ; xn g es cualquier partición de [a; b], entonces: P Vg (P ) = nk=1 jg(xk ) g(xk 1 )j = jg (b) g (a)j. Así que: Vg [a; b] = jg (b) g (a)j < 1. Corolario 3.4. Si g1 : [a; b] ! R y g2 : [a; b] ! R son funciones no decrecientes, entonces g1 g2 es de variación acotada. 80 3. FUNCIONES DE VARIACIÓN ACOTADA Corolario 3.5. Si g1 : R ! R y g2 : R ! R son funciones no decrecientes, entonces g1 es de variación acotada sobre cualquier intervalo compacto. g2 Teorema 3.2. Si g : R ! R es una función de variación acotada sobre cualquier intervalo compacto, entonces se puede expresar como la diferencia de dos funciones no decrecientes. Demostración La idea de la demostración consiste en de…nir una función V , no decreciente, tal que V también sea no decreciente. g Hay un problemita que es necesario salvar para poder de…nir la función V ; se trata de que estamos tomando una función g de…nida sobre todo R de la cual únicamente sabemos que es de variación acotada sobre cualquier intervalo compacto. Si a 2 R, de…namos V : [a; 1) ! R como V (x) = Vg [a; x] y tomemos x; y 2 [a; 1) tales que x < y; entonces se tiene: Vg [a; y] = Vg [a; x] + Vg [x; y] Así que: V (y) V (x) = Vg [x; y] 0 Por lo tanto, V es una función no decreciente. Además, como Vg [x; y] V (y) g (y) Así que V V (x) g (y) :g (x), entonces V (y) V (x) g (y) :g (x); por lo tanto: :g (x) g es no decreciente sobre el intervalo [a; 1). Pero, como decíamos, g está de…nida sobre todo R; así que es necesario hacer algunos ajustes en la de…nición de V con el objeto de tenerla de…nida sobre todo R. Para esto, podemos tomar un número real arbitrario a0 y primero de…nir V sobre el intervalo ( 1; a0 ] y después sobre el intervalo [a0 ; 1). Sobre ( 1; a0 ] podemos de…nir V (x) = Vg [x; a0 ] (el signo es para que V sea no decreciente); mientras que sobre [a0 ; 1) podemos de…nir V (x) = Vg [a0 ; x]. La función V así de…nida toma valores menores o iguales a cero sobre ( 1; a0 ] y valores mayores o iguales a cero sobre [a0 ; 1) (en 0 toma el valor 0); así que es una función no decreciente de…nida sobre todo R. Por comodidad vamos a tomar a0 = 0. De…namos entonces la función V : R ! R de la siguiente manera: 3.1. ESTUDIO DE LAS DISCONTINUIDADES DE UNA FUNCIÓN DE VARIACIÓN ACOTADA V (x) = Si x < y, se tiene: 8 < 81 Vg [x; 0] si x 2 ( 1; 0) : 0 Vg [0; x] si x = 0 si x 2 (0; 1) V (y) = V (x) + Vg [x; y]. Así que: V (y) V (x) = Vg [x; y] 0. Por lo tanto: V (y) V (x). Así que V es una función no decreciente. Además: jg (y) Vg [x; y] g (x)j g (y) g (x). Por lo tanto: V (y) V (x) g (y) g (x). V (x) g (x). Así que: V (y) g (y) Es decir, V g es una función no decreciente. De…niendo h1 = V y h2 = V g = h1 g, se tiene: h2 . Combinando los dos últimos resultados, se tiene el siguiente: Teorema 3.3. Una función g : R ! R es de variación acotada sobre cualquier intervalo compacto si y sólo si se puede expresar como la diferencia de dos funciones no decrecientes. 3.1. Estudio de las discontinuidades de una función de variación acotada A continuación vamos a estudiar las funciones g : R ! R que son de variación acotada sobre cualquier intervalo compacto. En particular vamos a analizar el conjunto de discontinuidades de una función de ese tipo. Como toda función de variación acotada sobre cualquier intervalo 82 3. FUNCIONES DE VARIACIÓN ACOTADA compacto se puede expresar como la diferencia de dos funciones no decrecientes, trataremos primero el caso de una función no decreciente. Primero veremos algunas propiedades elementales: Sea f : R ! R una función no decreciente. Por ser monótona, f tiene límites por la derecha y por la izquierda en todo punto x 2 R; en efecto, sea x0 2 R, entonces: f (x) f (x0 ) para cualquier x > x0 . f (x) f (x0 ) para cualquier x < x0 . Así que el conjunto ff (x) : x > x0 g está acotado por abajo y el conjunto ff (x) : x < x0 g está acotado por arriba. Por lo tanto: f (x0 +) = l mx!x0 + f (x) = nf ff (x) : x > x0 g 2 R f (x0 ) = l mx!x0 f (x) = sup ff (x) : x < x0 g 2 R Por lo anterior, f no tiene discontinuidades oscilatorias; es decir, todas sus discontinuidades son de salto. Además, si a y b son dos números reales tales que a < b, entonces: 1. Si t 2 (a; b), f es discontinua en t si y sólo si f (t+) > f (t ); en ese caso, f tiene un salto en t de magnitud f (t+) f (t ). 2. Si t 2 [a; b), f es discontinua por la derecha en t si y sólo si f (t+) > f (t); en ese caso, f tiene un salto por la derecha en t de magnitud f (t+) f (t). 3.Si t 2 (a; b], f es discontinua por la izquierda en t si y sólo si f (t) > f (t ); en ese caso, f tiene un salto por la izquierda en t de magnitud f (t) f (t ). Por otra parte: i) La función f i : R ! R de…nida por f i (x) = f (x ) es no decreciente y continua por la izquierda. Además, f i (x+) = f (x+) y f i (x+) f i (x) = f (x+) f (x ) para cualquier x 2 R. ii) La función f d : R ! R de…nida por f d (x) = f (x+) es no decreciente y continua por la derecha. Además, f d (x ) = f (x ) y f d (x) f d (x ) = f (x+) f (x ) para cualquier x 2 R. En efecto: i) Si x < y, f (x ) f (y ), así que f i es no decreciente. Dado x 2 R y " > 0, existe > 0 tal que f (x ) f (y) < " para cualquier y 2 (x ; x). 3.1. ESTUDIO DE LAS DISCONTINUIDADES DE UNA FUNCIÓN DE VARIACIÓN ACOTADA Dado z 2 (x que: f (x ) ; x), tomemos y 2 (x f (z ) f (x ) ; z), entonces y 2 (x ; x) y f (y) 83 f (z ) , así f (y) < ". Por lo tanto f i es continua por la izquierda. Para cualquier x 2 R se tiene f (x) f i (x+). f (x ), es decir f (x) f i (x), así que f (x+) Dado x 2 R y " > 0, tomemos > 0 tal que f i (y) f i (x+) < " para cualquier y 2 (x; x + ). Si y 2 (x; x + ), entonces y > x, así que f (y ) tanto: 0 f (x+) f i (x+) f i (y) f (x+), es decir, f i (y) f (x+), por lo f i (x+) < ". Como esto es válido para cualquier " > 0, se tiene f i (x+) = f (x+). Por lo tanto, f i (x+) f i (x) = f (x+) que f i (x+) = f (x+). f (x ) para cualquier x 2 R, de lo cual se sigue El inciso ii se demuestra de manera similar. Además, tenemos el siguiente resultado: Proposición 3.5. Sea f : R ! R una función no decreciente. x1 ; x2 ; : : : ; xk 2 (a; b) y x1 < x2 < < xk , entonces: f (b) f (a) f (a+) f (a) + Demostración Xk j=1 [f (xj +) f (xj )] + f (b) Si a < b, k 2 N, f (b ) Este resultado es fácil de visualizar, pero vamos a demostrarlo analiticamente: De…namos x0 = a y xk+1 = b y, para cada j 2 f0; 1; 2; : : : ; kg, sea yj 2 (xj ; xj+1 ); entonces: Xk f (a+) f (a) + [f (xj +) f (xj )] + f (b) f (b ) j=1 f (a+) = f (a+) f (a+) = f (b) f (a) + Xk j=1 f (a) + f (yk ) f (a) + f (b ) f (a) [f (yj ) f (yj 1 )] + f (b) f (y0 ) + f (b) f (a+) + f (b) f (b ) f (b ) f (b ) 84 3. FUNCIONES DE VARIACIÓN ACOTADA Proposición 3.6. Toda función no decreciente f : R ! R tiene a lo más un conjunto numerable de discontinuidades. Demostración Sean m; n 2 N y de…namos: Am;n = x 2 ( m; m) : f (x+) f (x ) > 1 n Am = fx 2 ( m; m) : f (x+) 6= f (x )g A = fx 2 R : f (x+) 6= f (x )g Sea M 2 N tal que M n > f (m) f ( m). Si k 2 N, x1 ; x2 ; : : : ; xk 2 Am;n y x1 < x2 < Xk f (m) f ( m) [f (xk +) f (xk )] < xk , entonces: j=1 Así que: Xk k < n j=1 [f (xj +) f (xj )] < M n Por lo tanto, k < M ; así que Am;n es un conjunto …nito. Además: [1 Am = Am;n n=1 Por lo tanto, Am es un conjunto a lo más in…nito numerable. Finalmente: [1 A= Am m=1 Así que, también A es un conjunto a lo más in…nito numerable. Corolario 3.6. Una función de variación acotada sobre cualquier intervalo compacto tiene a lo más un conjunto numerable de discontinuidades. Ahora podemos extender la proposición 3.5, abarcando todas las discontinuidades de una función no decreciente. Proposición 3.7. Sea f : R ! R una función no decreciente, a y b dos números reales tales que a < b y D(a;b) el conjunto de puntos del intervalo (a; b) donde f es discontinua; entonces: 3.1. ESTUDIO DE LAS DISCONTINUIDADES DE UNA FUNCIÓN DE VARIACIÓN ACOTADA f (b) f (a) P f (a) + fy2D(a;b) g [f (y+) f (a+) Demostración f (y )] + f (b) 85 f (b ) Si D(a;b) es vacío, el resultado es trivial, mientras que si D(a;b) es un conjunto no vacío …nito, el resultado ya se demostró previamente. Así que únicamente resta probarlo para el caso en que D(a;b) es un conjunto in…nito numerable. Sea D(a;b) = fy1 ; y2 ; : : :g Por la proposición 3.5, para cada n 2 N, se tiene: Xn f (b) f (a) f (a+) f (a) + [f (yj +) f (yj )] + f (b) j=1 f (b ) Tomando límites, obtenemos: f (b) fa f (a+) f (a) + P fy2D(a;b) g [f (y+) f (y )] + f (b) f (b ) Corolario 3.7. Sea f : R ! R una función no decreciente, a y b dos números reales tales d el conjunto de puntos del intervalo [a; b) donde f es discontinua por la que a < b y D[a;b) derecha; entonces: Pn o [f (y+) f (b) f (a) f (y)] + f (b) f (b ) y2Dd [a;b) Lema 3.1. Demostración f (b) = f (a) f (a+) f (a+) f (a) + Pn o d y2D[a;b) f (a) + P fy2D(a;b) g [f (y+) P fy2D(a;b) g [f (y+) [f (y+) f (y)] + f (b) f (y)] + f (b) f (y )] + f (b) f (b ) f (b ) f (b ) Corolario 3.8. Sea f : R ! R una función no decreciente, a y b dos números reales tales i que a < b y D(a;b] el conjunto de puntos del intervalo (a; b] donde f es discontinua por la izquierda; entonces: P f (b) f (a) f (a+) f (a) + ny2Di o [f (y) f (y )] (a;b] Demostración f (b) f (a) f (a+) = f (a+) f (a+) f (a) + P fy2D(a;b) g [f (y+) P fy2D(a;b) g [f (y) P f (a) + ny2Di o [f (y) f (a) + (a;b] f (y )] + f (b) f (y )] f (y )] + f (b) f (b ) f (b ) 86 3. FUNCIONES DE VARIACIÓN ACOTADA Ahora vamos a a…nar el resultado del teorema 3.2. Queremos demostrar que si g : R ! R es una función de variación acotada sobre cualquier intervalo compacto, entonces se puede expresar como la diferencia de dos funciones no decrecientes, f1 : R ! R y f2 : R ! R, las cuales no tienen discontinuidades en común del mismo lado.La idea es que al tomar la diferencia de dos funciones no decrecientes, si éstas tienen una discontinuidad por la derecha en un mismo punto t, entonces, si le quitamos a ambas, en ese punto, la magnitud del más pequeño de los dos saltos por la derecha, una de las dos funciones que se obtienen es continua por la derecha en ese punto. De la misma manera, si éstas tienen una discontinuidad por la izquierda en un mismo punto t, entonces, si le quitamos a ambas, en ese punto, la magnitud del más pequeño de los dos saltos por la izquierda, una de las dos funciones que se obtienen es continua por la izquierda en ese punto. De esta forma, las nuevas funciones no tienen discontinuidades en común del mismo lado y la diferencia entre ellas es igual a la diferencia entre las dos funciones originales. Como vamos a tener que tratar con el conjunto de discontinuidades de una función no decreciente, el cual puede ser in…nito numerable, vamos a requerir de algunos resultados que nos permitan tratar con toda generalidad el problema mencionado. El siguiente lema es un resultado de Teoría de la Medida, pero como ese tema no lo hemos tratado, vamos a hacer la demostración de manera directa. Lema 3.2. Sea F = fx1 ; x2 ; : : :g un conjunto in…nito numerable y (zn )n2N una sucesión de números reales no negativos. Para cada n 2 N, de…namos m (xn ) = zn y, para cualquier subconjunto A de F, de…namos: P (A) = fx2Ag m (x). Entonces es una función no negativa y -aditiva, con valores en R, de…nida sobre la -álgebra formada por todos los subconjuntos de F. Demostración Obviamente Agreguemos a es no negativa y (;) = 0. un elemento arbitrario, el cual denotaremos por x0 , y de…namos m (x0 ) = 0. Sea A1 ; A2 ; : : : una colección in…nita numerable de subconjuntos de tales S que Ai \ Aj = ; para i 6= j. Denotemos por xs1 ; xs2 ; : : : a los elementos de la unión 1 i=1 Ai y para cada i 2 N, denotemos por xi;1 ; xi;2 ; : : : a los elementos de Ai . Si A es vacío o un conjunto …nito y r es el número de sus elementos, de…namos xsk = x0 para cualquier k 2 fr + 1; r + 2; : : :g y, para cada i 2 N, si Ai es vacío o un conjunto …nito y ri es el número de sus elementos, de…namos xi;j = x0 para cualquier j 2 fri + 1; ri + 2; : : :g. Para cada terna i; j; k 2 N, de…namos: 3.1. ESTUDIO DE LAS DISCONTINUIDADES DE UNA FUNCIÓN DE VARIACIÓN ACOTADA 87 mij = m (xi;j ), mk = m (xsk ). Entonces: P (Ai ) = 1 j=1 mij , S P1 ( 1 A ) = i i=1 k=1 mk . Por otra parte, la sucesión (mk )k2N contiene a todos los elementos mij tales que xi;j 2 Ai ; así que, para cualquier pareja n; m 2 N, se tiene: Pn i=1 Pm j=1 P1 xij k=1 Así que: P1 1=1 (Ai ) = P1 i=1 P1 mk . j=1 mij P1 k=1 mk = S ( 1 i=1 Ai ). Además, la sucesión doble (mij )i;j2N contiene a todos los elementos mk tales que S x sk 2 1 i=1 Ai ; en consecuencia, dado N 2 N, existen n; m 2 N tales que: Así que: Pn Pm PN P1 P1 PN k=1 k=1 mk mk i=1 i=1 j=1 j=1 Por lo tanto: S P1 A ) = ( 1 i i=1 k=1 mk mij . mij = P1 1=1 P1 1=1 (Ai ). (Ai ). Podemos concluir entonces que: S P1 ( 1 A ) = i i=1 1=1 (Ai ). Esta relación incluye la propiedad de la aditividad …nita ya que, si A1 ; : : : ; An es una colección …nita de subconjuntos de F, ajenos por parejas, podemos de…nir Ak = ; para cualquier k 2 fn + 1; n + 2; : : :g. Entonces, (Ak ) = 0 para cualquier k 2 fn + 1; n + 2; : : :g, así que: S S P1 Pn ( ni=1 Ai ) = ( 1 i=1 Ai ) = 1=1 (Ai ) = 1=1 (Ai ). Corolario 3.9. Sea fx1 ; x2 ; : : :g un conjunto in…nito numerable de números reales y (zn )n2N una sucesión de números reales no negativos. Para cada subconjunto A de R, de…namos: 88 3. FUNCIONES DE VARIACIÓN ACOTADA (A) = P fj2N:xj 2Ag zj . Entonces es una función no negativa y -aditiva, con valores en R, de…nida sobre la -álgebra formada por todos los subconjuntos de R. Los siguientes dos resultados se siguen inmediatamente de la proposición 2.1. Ejercicio 3.1. Sea (qn )n2N una sucesión de números reales no negativos tales que la serie P1 q converge. Si (An )n2N es una sucesión creciente de subconjuntos de N, entonces: n=1 n P P q = l m 1 A j n 1 fj2An g qj . j2[ f n=1 n g Ejercicio 3.2. Sea (qn )n2N una sucesión de números reales no negativos tales que la serie P1 n=1 qn converge. Si (An )n2N es una sucesión decreciente de subconjuntos de N, entonces: P P q = l m 1 j n 1 fj2An g qj . fj2\n=1 An g Teorema 3.4. Si g : R ! R es una función de variación acotada sobre cualquier intervalo compacto, entonces se puede expresar como la diferencia de dos funciones no decrecientes, f1 : R ! R y f2 : R ! R, las cuales no tienen discontinuidades en común del mismo lado. Demostración De…namos la función V : R ! R como en la proposición 3.2, entonces h1 = V y h2 = V son no decrecientes y g = h1 h2 . g Sea D = fd1 ; d2 ; : : :g el conjunto de puntos donde tanto h1 como h2 son discontinuas y de…namos: P P f1 (x) = h1 (x) m n (h (z+) h (z) ; h (z+) h (z)) h2 (z ) ; h1 ( 2 2 1 1 fz2D:z<xg fz2D:z xg m n (h2 (z) P P f2 (x) = h2 (x) h2 (z) ; h1 (z+) h1 (z)) h2 (z ) ; h1 ( fz2D:z<xg m n (h2 (z+) fz2D:z xg m n (h2 (z) Entonces: f1 f2 = h1 h2 = g. Si x < y, se tiene: f1 (y) P f1 (x) = h1 (y) P m n (h2 (z+) h2 (z) ; h1 (z+) h1 (z)) h2 (z ) ; h1 (z) fz2D:x<z yg m n (h2 (z) P P h1 (x) h1 (z)] h1 (z )] fz2D:x z<yg [h1 (z+) fz2D:x<z yg [h1 (z) P h1 (x) h1 (z )] h1 (x+) + h1 (x) h1 (y) + h1 (y ). fz2D:x<z<yg [h1 (z+) fz2D:x z<yg h1 (y) = h1 (y) h1 (x) Pero, por el lema ??: h1 (z 3.1. ESTUDIO DE LAS DISCONTINUIDADES DE UNA FUNCIÓN DE VARIACIÓN ACOTADA Por lo tanto: P f1 (y) 0. h1 (y) h1 (x) fz2D:x<z<yg f1 (x) De la misma manera, f2 (y) [h1 (z+) f2 (x) h1 (z )] h1 (x+) h1 (x) + h1 (y) 89 h1 (y ). 0: Así que tanto f1 como f2 son no decrecientes. Mostremos ahora que f1 y f2 no tienen discontinuidades en común del mismo lado. Sea x 2 D y (xn )n2N una sucesión decreciente que tienda a x, entonces, por el corolario 3.2: f1 (x+) = l mn 1 f1 (xn ) = h1 (x+) P P l mn!1 fz2D:z<xn g m n (h2 (z+) h2 (z) ; h1 (z+) h1 (z)) l mn 1 fz2D:z xn g m n (h2 (z) h2 (z ) ; PT PT 1 1 = h1 (x+) m n (h2 (z+) h2 (z) ; h1 (z+) h1 (z)) m n (h2 (z) h2 (z fz2D:z<xn g fz2D:z xn g n=1 = h1 (x+) Así que: f1 (x+) n=1 P fz2D:z xg m n (h2 (z+) f1 (x) = h1 (x+) h2 (z) ; h1 (z+) h1 (z)) P fz2D:z xg m n (h2 (z) h2 (z ) ; h1 (z) h1 (x) m n (h2 (x+) h2 (x) ; h1 (x+) h1 (x)) h2 (x) m n (h2 (x+) h2 (x) ; h1 (x+) h1 (x)) h1 (x) (h2 (x+) si h1 (x+) h2 (x)) si h1 (x+) h1 (x) h2 (x+) h1 (x) > h2 (x+) h2 (x) h2 (x) h2 (x) (h1 (x+) h1 (x)) si h1 (x+) si h1 (x+) h1 (x) h2 (x+) h1 (x) > h2 (x+) h2 (x) h2 (x) De la misma manera: f2 (x+) f2 (x) = h2 (x+) Por lo tanto: f1 (x+) f1 (x) = 0 h1 (x+) f2 (x+) f2 (x) = h2 (x+) 0 Así que, f1 y f2 no tienen discontinuidades en común por la derecha. Sea x 2 D y (xn )n2N una sucesión creciente que tienda a x, entonces, por el corolario 3.1: f1 (x ) = l mn 1 f1 (xn ) = h1 (x ). P P l mn!1 fz2D:z<xn g m n (h2 (z+) h2 (z) ; h1 (z+) h1 (z)) l mn 1 fz2D:z xn g m n (h2 (z) h2 (z ) ; PS PS 1 1 = h1 (x ) m n (h2 (z+) h2 (z) ; h1 (z+) h1 (z)) m n (h2 (z) h2 (z fz2D:z<xn g fz2D:z xn g n=1 = h1 (x ) P fz2D:z<xg n=1 m n (h2 (z+) h2 (z) ; h1 (z+) h1 (z)) P fz2D:z<xg m n (h2 (z) h2 (z ) ; h1 (z) 90 3. FUNCIONES DE VARIACIÓN ACOTADA Así que: f1 (x) f1 (x ) = h1 (x) h1 (x ) m n (h2 (z) h2 (z ) ; h1 (z) h1 (z )) h2 (x ) m n (h2 (z) h2 (z ) ; h1 (z) h1 (z )) h1 (x ) (h2 (z) si h1 (z) h2 (z )) si h1 (z) h1 (z ) h2 (z) h1 (z ) > h2 (z) h2 (z ) h2 (z ) h2 (x ) (h1 (z) h1 (z )) si h1 (z) si h1 (z) h1 (z ) h2 (z) h1 (z ) > h2 (z) h2 (z ) h2 (z ) De la misma manera: f2 (x) f2 (x ) = h2 (x) Por lo tanto: f1 (x) f1 (x ) = 0 h1 (x) f2 (x+) f2 (x) = h2 (x) 0 Por lo tanto, f1 y f2 no tienen discontinuidades en común por la izquierda. Obsérvese que, si f es una función no decreciente y continua, entonces f1 + f y f2 + f satisfacen también el enunciado de la proposición. Corolario 3.10. Si g : R ! R es una función continua por la derecha y de variación acotada sobre cualquier intervalo compacto, entonces se puede expresar como la diferencia de dos funciones no decrecientes continuas por la derecha. Corolario 3.11. Si g : R ! R es una función continua por la izquierda y de variación acotada sobre cualquier intervalo compacto, entonces se puede expresar como la diferencia de dos funciones no decrecientes continuas por la izquierda. Corolario 3.12. Si g : R ! R es una función continua y de variación acotada sobre cualquier intervalo compacto, entonces se puede expresar como la diferencia de dos funciones no decrecientes continuas. 3.2. Parte continua y parte de saltos de una función de variación acotada Como el conjunto de discontinuidades de una función no decreciente es a lo más in…nito numerable, la función se puede descomponer en una función no decreciente que crece únicamente mediante saltos y una función no decreciente continua. Más adelante demostraremos este resultado. Primero vamos a demostrar que una función no decreciente se puede expresar como la suma de función no decreciente, continua por la derecha y que crece únicamente mediante saltos y una función no decreciente continua por la izquierda. Teorema 3.5. Sea f : R ! R una función no decreciente, D = fd1 ; d2 ; : : :g el conjunto de puntos donde f es discontinua y de…namos f d : R ! R de la siguiente manera: P f (0 ) f (y )] si x 2 ( 1; 0) fy2D:x<y<0g [f (y) d P f (x) = f (0) + fy2D:0<y xg [f (y) f (y )] si x 2 [0; 1) 3.2. PARTE CONTINUA Y PARTE DE SALTOS DE UNA FUNCIÓN DE VARIACIÓN ACOTADA 91 Entonces f d es no decreciente, continua por la derecha, crece únicamente mediante saltos y f d (x) f d (x ) = f (x) f (x ) para cualquier x 2 R. Además, la función h = f f d es no decreciente, continua por la izquierda y h (x+) h (x) = f (x+) f (x) para cualquier x 2 R. Demostración Si x < z < 0, se tiene: P f d (z) f d (x) = fy2D:x<y<0g [f (y) P = fy2D:x<y zg [f (y) f (y )]. f (y )] x < z, se tiene: P f d (z) f d (x) = fy2D:0<y zg [f (y) P = fy2D:x<y zg [f (y) f (y )]. P fy2D:z<y<0g [f (y) f (y )] [f (y) f (y )] Si 0 f (y )] P fy2D:0<y xg Si x < 0 f d (0) f d (x) = f (0) f (0 ) + P fy2D:x<y<0g [f (y) f (y )]. Así que, para cualquier parera (x; z) de números reales tales que x < z se tiene: P f d (z) f d (x) = fy2D:x<y zg [f (y) f (y )] 0 Así que f d es una función no decreciente. Sea x 2 R y (xn )n2N una sucesión decreciente que tienda a x. Si x 0, se tiene: P f d (x+) = l mn 1 f d (xn ) = f (0) + l mn 1 fy2D:0<y xn g [f (y) f (y )] P P = f (0) + T1 fy2D:0<y xn g [f (y) f (y )] = f (0) + fy2D:0<y xg [f (y) f d (x). f (y )] = n=1 Si x < 0, se tiene: P f d (x+) = l mn 1 f d (xn ) = f (0) l mn 1 fy2D:xn <y<0g [f (y) f (y )] PS P 1 = f (0) [f (y) f (y )] = f (0) fy2D:x<y<0g [f (y) fy2D:xn <y<0g f d (x). n=1 Por lo tanto, f d es continua por la derecha. f (y )] = 92 3. FUNCIONES DE VARIACIÓN ACOTADA Sea x 2 R y (xn )n2N una sucesión creciente que tienda a x. Si x 0, se tiene: f d (x ) = l mn P = f (0) + S1 1 f d (xn ) = f (0) + l mn fy2D:0<y xn g n=1 f d (x) f d (x ) = = f (x) f (x ). [f (y) P fy2D:0<y xg 1 P fy2D:0<y xn g f (y )] = f (0) + [f (y) f (y )] P [f (y) f (y )] P fy2D:0<y<xg fy2D:0<y<xg [f (y) [f (y) f (y )]. f (y )] Si x < 0, se tiene: f d (x ) = l mn PT 1 = f (0) 1 f d (xn ) = f (0) fy2D:xn <y<0g n=1 f d (x) f d (x ) = = f (x) f (x ). [f (y) P fy2D:x y<0g l mn 1 P fy2D:xn <y<0g f (y )] = f (0) [f (y) f (y )] P [f (y) f (y )] P fy2D:x y<0g fy2D:x<y<0g [f (y) [f (y) f (y )]. f (y )] Así que el conjunto de discontinuidades por la izquierda de f d coincide con el conjunto de discontinuidades por la izquierda de f . En particular, se tiene: P f d (z) f d (x) = fy2D:x<y reales tales que x < z. zg f d (y) f d (y ) para cualquier parera (x; z) de números Así que f d crece únicamente mediante saltos. Por otra parte: Si x < z < 0, se tiene: h (z) h (x) = f (z) f (x) Si 0 f d (z) f d (x) = f (z) f (x) f d (z) f d (x) = f (z) f (x) f d (0) f d (x) = f (0) f (x) x < z, se tiene: h (z) h (x) = f (z) f (x) Si x < 0 h (z) h (x) = f (0) f (x) P fy2D:x<y zg P fy2D:x<y zg P fy2D:x<y 0g [f (y) f (y )]. [f (y) f (y )]. [f (y) f (y )]. Así que, para cualquier parera (x; z) de números reales tales que x < z se tiene: P h (z) h (x) = fy2D:x<y zg [f (y) f (y )] 0. 3.2. PARTE CONTINUA Y PARTE DE SALTOS DE UNA FUNCIÓN DE VARIACIÓN ACOTADA 93 Por lo tanto, h es una función no decreciente. h (x) h (x ) = f (x) f (x ) f d (x) f d (x ) = 0. Así que h es continua por la izquierda. Además: h (x+) h (x) = f (x+) f (x) f d (x+) f d (x) = f (x+) f (x). Por el corolario 3.15 h = f i + f c , donde f i es una función no decreciente, continua por la izquierda, que crece únicamente mediante saltos y tal que f i (x+) f i (x) = h (x+) h (x) para cualquier x 2 R, y f c es una función no decreciente y continua. Se tiene entonces: f i (x+) f i (x) = h (x+) h (x) = f (x+) f (x), f = f d + f i + f c. Corolario 3.13. Toda función no decreciente f : R ! R se puede expresar como la suma de dos funciones no decrecientes, f1 y f2 ; la primera, continua por la derecha y la segunda, continua por la izquierda y tales que, para cualquier x 2 R, f1 (x) f1 (x ) = f (x) f (x ) y f2 (x+) f2 (x) = f (x+) f (x). Corolario 3.14. Sea f : R ! R una función no decreciente y continua por la derecha, entonces f se puede expresar como la suma de una función f d no decreciente, continua por la derecha, que crece únicamente mediante saltos y tal que f d (x) f d (x ) = f (x) f (x ) para cualquier x 2 R, y una función f c no decreciente y continua. Demostración Sea D = fd1 ; d2 ; : : :g el conjunto de puntos donde f es discontinua y de…namos f d : R ! R de la siguiente manera: P f (0 ) [f (y) f (y )] si x 2 ( 1; 0) P fy2D:x<y<0g f d (x) = f (0) + fy2D:0<y xg [f (y) f (y )] si x 2 [0; 1) Por el teorema 3.5, f d es no decreciente, continua por la derecha, crece únicamente mediante saltos y f d (x) f d (x ) = f (x) f (x ) para cualquier x 2 R. Además, la función f c = f f d es no decreciente y continua por la izquierda. Finalmente, como f y f d son continuas por la derecha, f c también lo es. Por lo tanto, f c es continua. 94 3. FUNCIONES DE VARIACIÓN ACOTADA Corolario 3.15. Sea f : R ! R una función no decreciente y continua por la izquierda, entonces f se puede expresar como la suma de una función f i no decreciente, continua por la izquierda, que crece únicamente mediante saltos y tal que f i (x+) f i (x) = f (x+) f (x) para cualquier x 2 R, y una función f c no decreciente y continua. Demostración De…namos h : R ! R de la siguiente manera: h (x) = f (x+). Por su de…nición, h es no decreciente y continua por la derecha. Además h (x ) = f (x) para cualquier x 2 R. Expresemos h como la suma de una función f d no decreciente, continua por la derecha, que crece únicamente mediante saltos y tal que f d (x) f d (x ) = h (x) h (x ) para cualquier x 2 R, y una función f c no decreciente y continua. Para cualquier x 2 R se tiene: h (x) = f d (x) + f c (x). Así que: f (x) = h (x ) = f d (x ) + f c (x). Entonces, si f i : R ! R se de…ne por f i (x) = f d (x ), se tiene f = f i + f c . Por su de…nición, f i es no decreciente y continua por la izquierda. Además, f i (x+) f i (x) = f d (x) f d (x ) para cualquier x 2 R. Como f d crece únicamente mediante saltos, si (x; z) es una pareja de números reales tales que x < z, se tiene: P f d (z) f d (x) = fy2D:x<y zg f d (y) f d (y ) . Así que: P fy2D:x y<zg = P [f i (y+) fy2D:x<y zg = f d (z) = f d (z ) f i (y)] = f d (y) f d (x) f d (y ) f d (z) f d (x ) = f i (z) P fy2D:x y<zg f d (z) f d (y) f d (y ) f d (z ) + f d (x) f d (z ) + f d (x) f i (x). Por lo tanto, f i crece únicamente mediante saltos. f d (x ) f d (x ) 3.2. PARTE CONTINUA Y PARTE DE SALTOS DE UNA FUNCIÓN DE VARIACIÓN ACOTADA 95 Finalmente, para cualquier x 2 R, se tiene: f i (x+) f i (x) = f d (x) f d (x ) = h (x) h (x ) = f (x+) f (x). Ahora extendemos los tres resultados anteriores a las funciones de variación acotada. Teorema 3.6. Toda función de variación acotada sobre cualquier intervalo compacto g : R ! R se puede expresar como la suma de dos funciones de variación acotada sobre cualquier intervalo compacto, g1 y g2 ; la primera, continua por la derecha y la segunda, continua por la izquierda y tales que, para cualquier x 2 R, g1 (x) g (x ) y g2 (x+) g1 (x ) = g (x) g2 (x) = g (x+) g (x). Demostración Sean f1 : R ! R y f2 : R ! R, no decrecientes y continuas por la derecha tales que g = f1 f2 . Sean f1d , f1i , f2d y f2i funciones no decrecientes tales que f1 = f1d + f1i , f2 = f2d + f2i , f1d y f2d son continuas por la derecha, f1i y f2i son continuas por la izquierda, y tales que, para cualquier x 2 R, f1d (x) f1d (x ) = f1 (x) f1 (x ), f1i (x+) f1i (x) = f1 (x+) f1 (x), f2d (x) f2d (x ) = f2 (x) f2 (x ), f2i (x+) f2 (x) = f2 (x+) f2 (x). De…namos g1 = f1d f2d y g2 = f1i f2i Entonces: g1 y g2 son de variación acotada sobre cualquier intervalo compacto; g1 es continua por la derecha y g2 es continua por la izquierda. Además: f2 = f1d + f1i g = f1 g1 (x) f2d + f2i = f1d g1 (x ) = f1d (x) = f1d (x) f1d (x ) f2d (x) = g (x) g (x ) g2 (x+) g2 (x) = f1i (x+) = f1i (x+) = g (x+) f1i (x) g (x) f2d (x) f2d + (f1i f1d (x ) f2d (x ) f2d (x ) = f1 (x) f2i (x+) (f2i (x+) (f1i (x) f2i ) = g1 + g2 f1 (x ) (f2 (x) f2 (x )) (f2 (x+) f2 (x)) f2i (x)) f2i (x)) = f1 (x+) f1 (x) 96 3. FUNCIONES DE VARIACIÓN ACOTADA Teorema 3.7. Sea g : R ! R una función continua por la derecha y de variación acotada sobre cualquier intervalo compacto, entonces g se puede expresar como la suma de dos funciones de variación acotada sobre cualquier intervalo compacto, g d y g c ; la primera, continua por la derecha, que crece o decrece únicamente mediante saltos y tal que: g d (x) g d (x ) = g (x) g (x ) para cualquier x 2 R, y la segunda, continua. Demostración Sean f1 : R ! R y f2 : R ! R, no decrecientes y continuas por la derecha tales que g = f1 f2 . Por el teorema 3.14, se tiene: f1 = f1d + f1c , f1d (x ) = f1 (x) f1 (x ) para cualquier x 2 R, P f1d (z) f1d (x) = fy2D:x<y zg f1d (y) f1d (y ) para cualquier pareja (x; z) de números reales tales que x < z, f1d (x) f2 = f2d + f2c , f2d (x ) = f2 (x) f2 (x ), para cualquier x 2 R. P f2d (z) f2d (x) = fy2D:x<y zg f2d (y) f2d (y ) , para cualquier parera (x; z) de números reales tales que x < z, f2d (x) donde f1c y f2c son funciones no decrecientes continuas y f1d y f2d son funciones no decrecientes, continuas por la derechas y que crecen únicamente mediante saltos. Así que: g = f1d + f1c f2d + f2c = f1d f2d + (f1c f2c ). De…namos: g d = f1d f2d , g c = f1c f2c . g d es continua por la derecha y de variación acotada sobre cualquier intervalo compacto. g c es continua y de variación acotada sobre cualquier intervalo compacto. Para cualquier x 2 R, se tiene: g d (x) g d (x ) = f1d (x) f1d (x ) f2d (x) f2d (x ) 3.2. PARTE CONTINUA Y PARTE DE SALTOS DE UNA FUNCIÓN DE VARIACIÓN ACOTADA = f1 (x) = g (x) f1 (x ) [f2 (x) f2 (x )] = f1 (x) f2 (x) [f1 (x ) 97 f2 (x )] g (x ). Como g d = f1d f2d , g d puede crecer en un intervalo [x; z], donde x < z, únicamente si f1d crece en el intervalo [x; z]. Además, f1d crece únicamente mediante saltos. Si f1d crece mediante un salto f1d (y) f1d (y ), entonces g d crece mediante la diferencia de los saltos f1d (y) f1d (y ) y f2d (y) f2d (y ), cuando esta diferencia es positiva. Además, se tiene: f1d (y) f1d (y ) f2d (y) f2d (y ) = f1d (y) f2d (y) f1d (y ) f2d (y ) = g d (y) g d (y ). Por lo tanto, g d crece en el intervalo [x; z] únicamente mediante los saltos g d (y) que sean positivos, donde y 2 (x; z]. g d (y ) De la misma manera, g d decrece en el intervalo [x; z] únicamente mediante los saltos g d (y) g d (y ) que sean negativos, donde y 2 (x; z]. Para cualquier parera (x; z) de números reales tales que x < z, se tiene: f2d (z) f2d (x) g d (z) g d (x) = f1d (z) f1d (x) P P d = fy2D:x<y zg f1d (y) f1d (y ) fy2D:x<y zg f2 (y) P = fy2D:x<y zg f1d (y) f2d (y) f1d (y ) f2d (y ) P = fy2D:x<y zg g d (y) g d (y ) . f2d (y ) Corolario 3.16. Sea g : R ! R una función continua por la izquierda y de variación acotada sobre cualquier intervalo compacto, entonces g se puede expresar como la suma de dos funciones de variación acotada sobre cualquier intervalo compacto, g i y g c ; la primera, continua por la izquierda, que crece o decrece únicamente mediante saltos y tal que: g i (x+) g i (x) = g (x+) g (x) para cualquier x 2 R, y la segunda, continua. A continuación exponemos el resultado general de descomposición de una función no decreciente en su parte continua y su parte de saltos. Ésta última puede descoponerse en una parte de saltos por la derecha más una parte de saltos por la izquierda. Teorema 3.8. Sea f : R ! R una función no decreciente, entonces f se puede expresar como la suma de tres funciones no decrecientes, f d , f i y f c ; la primera, continua por la derecha, que crece únicamente mediante saltos y tal que f d (x) f d (x ) = f (x) f (x ) para cualquier x 2 R, la segunda, continua por la izquierda, que crece únicamente mediante saltos y tal que f i (x+) f i (x) = f (x+) f (x) para cualquier x 2 R, y la tercera, continua. 98 3. FUNCIONES DE VARIACIÓN ACOTADA Demostración Sea D = fd1 ; d2 ; : : :g el conjunto de puntos donde f es discontinua y de…namos f d : R ! R de la siguiente manera: P f (0 ) [f (y) f (y )] si x 2 ( 1; 0) P fy2D:x<y<0g f d (x) = f (0) + fy2D:0<y xg [f (y) f (y )] si x 2 [0; 1) Por el teorema 3.5, se tiene: f d es una función no decreciente, continua por la derecha, crece únicamente mediante saltos y f d (x) f d (x ) = f (x) f (x ) para cualquier x 2 R. Además, la función h = f f d es no decreciente, continua por la izquierda y h (x+) h (x) = f (x+) f (x) para cualquier x 2 R. Por el corolario 3.15 h = f i + f c , donde f i es una función no decreciente, continua por la izquierda, que crece únicamente mediante saltos y tal que f i (x+) f i (x) = h (x+) h (x) para cualquier x 2 R, y f c es una función no decreciente y continua. Se tiene entonces: f i (x+) f i (x) = h (x+) f = f d + h = f d + f i + f c. h (x) = f (x+) f (x), CAPÍTULO 4 LA INTEGRAL DE STIELTJES 4.1. La integral de Riemann-Stieltjes Rb Así como se de…ne la integral de Riemann, a f (x)dx, de una función acotada f : [a; b] ! R, puede de…nirse la integral de una función f con respecto a una función g. Como lo mencionamos en la introducciuón de este capítulo, este problema fue abordado y resuelto por Stieltjes a …nales del siglo XIX. Para la de…nición general no es necesario restringirse al caso de una función g de variación acotada. La integral de Stieltjes puede estar bien de…nida aún para el caso de una función g que no es de variación acotada. La necesidad de integrar con respecto a una función g de variación acotada surge si queremos que todas las funciones continuas sean integrables con respecto a g, propiedad que únicamente se tiene cuando g es de variación acotada. Por otra parte, si queremos generar una medida a partir de una función g, también es necesario que ésta sea de variación acotada. La de…nición y las propiedades de la integral de Riemann-Stieltjes son similares a las de la integral de Riemann. Ésta última resulta más simple ya que la función con respecto a la cual se integra es creciente y continua. Definición 4.1. Sean f : [a; b] ! R y g : [a; b] ! R dos funciones acotadas y P = fx0 ; x1 ; : : : ; xn g una particion del intervalo [a; b]. Una suma de Riemann-Stieltjes S(P; f; g) de Pnf con respecto a g, correspondiente a la particion P , es una suma de la forma S(P; f; g) = g(xk 1 )], donde k 2 [xk 1 ; xk ] para k 2 f1; 2; : : : ; ng. k=1 f ( k ) [g(xk ) Definición 4.2. Se dice que f es integrable con respecto a g en el intervalo [a; b] si existe un numero real I tal que para cualquier " > 0 existe una particion P" del intervalo [a; b] tal que jS(P; f; g) Ij < " para cualquier particion P que sea un re…namiento de P" y cualquier suma de Riemann-Stieltjes S(P; f; g) de f con respecto a g, correspondiente a la particion P . Al numero R b real I de esta de…nición se le llama la integral de f con respecto a g y se le denota por a f dg. 99 100 4. LA INTEGRAL DE STIELTJES 4.2. Criterio de Cauchy Definición 4.3. Se dice que la pareja de funciones acotadas f : [a; b] ! R y g : [a; b] ! R satisface el criterio de Cauchy si para cada " > 0 existe una partición P" del intervalo [a; b] tal que si P y P 0 son dos re…namientos de P" y S(P; f; g), S(P 0 ; f; g) son sumas de Riemann-Stieltjes de f con respecto a g, entonces: jS(P; f; g) S(P 0 ; f; g)j < " Teorema 4.1. Una función f es integrable con respecto a g en el intervalo [a; b] si y sólo si la pareja f; g satisface el criterio de Cauchy. Demostración Si f es integrable con respecto a g, claramente se satisface el criterio de Cauchy. Para el inverso, de…namos inductivamente una sucesión de particiones fQn g tal que Q0 = fa; bg y, para n 1, Qn Qn 1 y si P; Q Qn entonces jS(P; f; g) S(Q; f; g)j < n1 para cualquier par de sumas de Riemann-Stieltjes S(P; f; g) y S(Q; f; g). Para cada n consideremos entonces cualquier suma de Riemann-Stieltjes S(Qn ; f; g). La sucesión fS(Qn ; f; g) : n 2 Ng claramente es de Cauchy y por lo tanto converge. Sea I = l mn toda n N . Si P 1 S(Qn ; f; g) y, dada " > 0, sea N tal que QN , se tiene jS(P; f; g) jS(P; f; g) Ij jS(P; f; g) S(QN ; f; g)j < 1 , N 1 N < " 2 y jS(Qn ; f; g) Ij < " 2 para por lo tanto: S(QN ; f; g)j + jS(QN ; f; g) Ij < 1 N + " 2 < ". Se concluye entonces que f es integrable con respecto a g. Proposición 4.1. Si f es integrable con respecto a g, entonces f y g no tienen discontinuidades en común del mismo lado. Demostración Supongamos que f no es continua por la izquierda en c 2 (a; b]. Existe entonces M > 0 tal que para cualquier > 0 existe y 2 (c ; c) tal que jf (c) f (y)j > M . Dada " > 0, sea P" una partición del intervalo [a; b] tal que jS(P; f; g) S(P 0 ; f; g)j < M " para todo par de re…namientos P y P 0 de P" . Si el punto c no forma parte de la partición P" se le puede agregar y la nueva partición sigue teniendo la misma propiedad que P" , de manera que podemos siempre elegir P " de tal manera que contenga al punto c. Sea d el punto de P " que se encuentre inmediatamente a la izquierda de c. Entonces, si x 2 (d; c) de…namos las particiones P = Q = P" [ fxg y consideremos dos sumas de Riemann-Stieltjes S(P; f; g) y S(Q; f; g) de la siguiente manera: 4.2. CRITERIO DE CAUCHY 101 En el subintervalo [x; c], al de…nir la suma S(P; f; g) elijamos el punto c como punto intermedio, mientras que al de…nir la suma S(Q; f; g) elijamos un punto tal que jf (c) f ( )j > M . En los otros subintervalos de la partición elijamos el mismo punto intermedio para de…nir cualquiera de las dos sumas de Riemann-Stieltjes S(P; f; g) y S(Q; f; g). Se tiene entonces: j[f (c) f ( )] [g(c) Por lo tanto, jg(c) g(x)]j = jS(P; f; g) S(Q; f; g)j < M ". g(x)j < ". Se puede concluir entonces que g es continua por la izquierda en c. De la misma manera, se tiene que si f no es continua por la derecha en c 2 [a; b), entonces g sí lo es. Teorema 4.2. Si g es de variación acotada, entonces toda función continua es integrable con respecto a g. Demostración Sea g : [a; b] ! R de variación acotada y f : [a; b] ! R continua. Si g es constante en el intervalo [a; b], el resultado es trivial. Supongamos que g no es constante en el intervalo [a; b] y de…namos v = Vg [a; b]. Como f es uniformemente continua en [a; b], dada " > 0 existe " . y jx yj < , entonces jf (x) f (y)j < 2v > 0 tal que si x; y 2 [a; b] Sea P" una partición de [a; b] de norma menor que , P un re…namiento de P" y S(P; f; g), S(P" ; f; g) sumas de Riemann-Stieltjes de f con respecto a g. P Si P" = fx0 ; x1 ; : : : ; xn g, P = fy0 ; y1 ; : : : ; ym g y S(P; f; g) = m g (yj 1 )], j=1 f ( j ) [g (yj ) entonces, por ser P un re…namiento de P" , S(P" ; f; g) puede escribirse en la forma: P S(P" ; f; g) = m g (yj 1 )], j=1 f ( j ) [g (yj ) donde j no necesariamente pertenece al intervalo [yj 1 ; yj ], pero de tal manera que, para cada j 2 f1; 2; : : : ; mg, j y j pertenecen a un mismo intervalo de la forma [xk 1 ; xk ]. Se tiene entonces: Pm jS(P; f; g) S(P" ; f; g)j = f ( j ) [g (yj ) g (yj 1 )] j=1 f ( j ) < " 2v Pm j=1 [g (yj ) g (yj 1 )] " V [a; b] 2v g = 2" . Si P 0 es otro re…namiento de P" y S(P 0 ; f; g) es una suma de Riemann-Stieltjes de f con respecto a g, se tiene: 102 4. LA INTEGRAL DE STIELTJES jS(P; f; g) S(P 0 ; f; g)j jS(P; f; g) S(P" ; f; g)j + jS(P 0 ; f; g) S(P" ; f; g)j < ". Así que la pareja f; g satisface el criterio de Cauchy y, por lo tanto, f es integrable con respecto a g. Teorema 4.3. Si f1 : [a; b] ! R y f2 : [a; b] ! R son integrables con respecto a g : [a; b] ! R y 1 ; 2 2 R, entonces 1 f1 + 2 f2 es integrable con respecto a g y: Rb Rb Rb ( 1 f1 + 2 f2 ) dg = 1 a f1 dg + 2 a f2 dg. a Demostración Si f : [a; b] ! R es integrable con respecto a g, se prueba inmediatamente que si 2 Rb Rb R, entonces f es integrable con respecto a g y que a f dg = f dg. Así que, para a demostrar la proposición, basta con demostrar que f + f es integrable con respecto a g y 1 2 Rb Rb Rb que a (f1 + f2 ) dg = a f1 dg + a f2 dg. (1) Dada " > 0 sea P" S(P; f1 ; g) Rb a (2) (resp. P" ) una partición del intervalo [a; b] tal que: f1 dg < 21 " (resp. S(P; f2 ; g) Rb a f2 dg < 21 ") (1) (2) para cualquier particion P que sea un re…namiento de P" (resp. P" ) y cualquier suma de Riemann-Stieltjes S(P; f1 ; g) (resp. S(P; f2 ; g)) de f1 (resp. f2 ) con respecto a g, correspondiente a la partición P . (1) (2) De…namos P" = P" [ P" y sean P = fx0 ; x1 ; : : : ; xn g un re…namiento de P" y: P S(P; f1 + f2 ; g) = nk=1 [f1 ( k ) + f2 ( k )] [g(xk ) g(xk 1 )] una suma de Riemann-Stieltjes de f1 + f2 con respecto a g, correspondiente a la partición (1) (2) P . Entonces P es un re…namiento de P" y de P" , P P S(P; f1 ; g) = nk=1 f1 ( k ) [g(xk ) g(xk 1 )] (resp. S(P; f2 ; g) = nk=1 f2 ( k ) [g(xk ) g(xk 1 )] es una suma de Riemann-Stieltjes de f1 (resp. f2 ) con respecto a g, correspondiente a la partición P , y se tiene: Rb Rb Rb Rb S(P; f1 + f2 ; g) f dg f dg = S(P; f ; g) + S(P; f ; g) f dg f dg 1 2 1 2 1 a a a a 2 S(P; f1 ; g) Rb a f1 dg + S(P; f2 ; g) Rb a f2 dg < ". Por lo tanto, f1 + f2 es integrable con respecto a g y Rb a (f1 + f2 ) dg = Rb a f1 dg + Rb a f2 dg. 4.2. CRITERIO DE CAUCHY 103 Teorema 4.4. Si f : [a; b] ! R es integrable con respecto a g1 : [a; b] ! R y con respecto a g2 : [a; b] ! R y 1 ; 2 2 R, entonces f es integrable con respecto a 1 g1 + 2 g2 y: Rb Rb Rb f d ( 1 g1 + 2 g2 ) = 1 a f dg1 + 2 a f dg2 . a Demostración Si f : [a; b] ! R es integrable con respecto a g, se prueba inmediatamente que si 2 R, Rb Rb entonces f es integrable con respecto a g y que a f d ( g) = f dg. Así que, para a demostrar la proposición, basta con demostrar que f es integrable con respecto a g1 + g2 y Rb Rb Rb que a f d (g1 + g2 ) = a f dg1 + a f dg2 . (1) Dada " > 0 sea P" S(P; f; g1 ) Rb a (2) (resp. P" ) una partición del intervalo [a; b] tal que: f dg1 < 21 " (resp. S(P; f; g2 ) Rb a f dg2 < 21 ") (1) (2) para cualquier partición P que sea un re…namiento de P" (resp. P" ) y cualquier suma de Riemann-Stieltjes S(P; f; g1 ) (resp. S(P; f; g2 )) de f con respecto a g1 (resp. g2 ), correspondiente a la partición P . (1) (2) De…namos P" = P" [ P" y sean P = fx0 ; x1 ; : : : ; xn g un re…namiento de P" y: P S(P; f; g1 + g2 ) = nk=1 f ( k ) [(g1 + g2 ) (xk ) (g1 + g2 ) (xk 1 )] una suma de Riemann-Stieltjes de f con respecto a g1 + g2 , correspondiente a la partición (1) (2) P . Entonces P es un re…namiento de P" y de P" , P P S(P; f; g1 ) = nk=1 f ( k ) [g1 (xk ) g1 (xk 1 )] (resp. S(P; f; g2 ) = nk=1 f ( k ) [g2 (xk ) g2 (xk 1 )] es una suma de Riemann-Stieltjes de f con respecto a g1 (resp. g2 ), correspondiente a la partición P , y se tiene: Rb Rb Rb Rb S(P; f; g1 + g2 ) f dg f dg = S(P; f; g ) + S(P; f; g ) f dg f dg2 1 2 1 2 1 a a a a S(P; f; g1 ) Rb a f dg1 + S(P; f; g2 ) Rb a f dg2 < ". Por lo tanto, f es integrable con respecto a g1 + g2 y Rb a f d (g1 + g2 ) = Rb a f dg1 + Rb a f dg2 . Teorema 4.5. Sean f : [a; b] ! R y g : [a; b] ! R funciones acotadas y c 2 [a; b], entonces f es integrable con respecto a g en el intervalo [a; b] si y sólo si es integrable con respecto a g en cada uno de los intervalos [a; c] y [c; b]. En ese caso se tiene: Rb Rc Rb f dg = a f dg + c f dg. a 104 4. LA INTEGRAL DE STIELTJES Demostración Si c 2 fa; bg, el resultado es inmediato, así que resta únicamente probar la proposición cuando c 2 (a; b). Supongamos primero que f es integrable con respecto a g en el intervalo [a; b]. Dada " > 0 sea P" = fx0 ; x1 ; : : : ; xn g una partición del intervalo [a; b] tal que: jS(P; f; g) S(P 0 ; f; g)j < " para cualquier par de particiones P y P 0 que sean re…namientos de P" y cualquier suma de Riemann-Stieltjes S(P; f; g) (resp. S(P 0 ; f; g)) de f con respecto a g, correspondiente a la partición P (resp. P 0 ). (1) De…namos P" (1) (2) = fx0 ; x1 ; : : : ; xj ; cg y P" (1) = fc; xj+1 ; : : : ; xn g. (1) (2) (1) Sean P1 y P2 dos re…namientos de P" , P (2) un re…namiento de P" , S(P1 ; f; g) una (1) suma de Riemann-Stieltjes de f con respecto a g, correspondiente a la particion P1 , (1) S(P2 ; f; g) una suma de Riemann-Stieltjes de f con respecto a g, correspondiente a la (1) particion P2 y S(P (2) ; f; g) una suma de Riemann-Stieltjes de f con respecto a g, corres(1) (1) pondiente a la particion P (2) . Entonces P1 [ P (2) y P2 [ P (2) son re…namientos de P" , (1) S(P1 ; f; g)+S(P (2) ; f; g) es una suma de Riemann-Stieltjes de f con respecto a g, correspon(1) (1) diente a la particion P1 [P (2) y S(P2 ; f; g)+S(P (2) ; f; g) es una suma de Riemann-Stieltjes (1) de f con respecto a g, correspondiente a la particion P2 [ P (2) . Por lo tanto: (1) S(P1 ; f; g) (1) S(P2 ; f; g) (1) = S(P1 ; f; g) + S(P (2) ; f; g) (1) S(P2 ; f; g) S(P (2) ; f; g) < ". Así que, por el criterio de Cauchy, f es integrable con respecto a g en el intervalo [a; c]. De manera análoga se demuestra que f es integrable con respecto a g en el intervalo [c; b]. Inversamente, supongamos que f es integrable con respecto a g en cada uno de los intervalos [a; c] y [c; b]. (1) Dada " > 0 sea P" (1) S(P1 ; f; g) = fx0 ; x1 ; : : : ; cg una partición del intervalo [a; c] tal que: (1) S(P2 ; f; g) < 12 " (1) (1) (1) para cualquier par de particiones P1 y P2 que sean re…namientos de P" y cualquier suma (1) (1) de Riemann-Stieltjes S(P1 ; f; g) (resp. S(P2 ; f; g)) de f con respecto a g, correspondiente (1) (1) a la partición P1 (resp. P2 ). 4.2. CRITERIO DE CAUCHY (2) Sea también P" (2) 105 = fc; y1 ; : : : ; yn g una partición del intervalo [c; b] tal que: (2) S(P2 ; f; g) < 12 " S(P1 ; f; g) (2) (2) (2) para cualquier par de particiones P1 y P2 que sean re…namientos de P" y cualquier suma (2) (2) de Riemann-Stieltjes S(P1 ; f; g) (resp. S(P2 ; f; g)) de f con respecto a g, correspondiente (2) (2) a la partición P1 (resp. P2 ). (1) (2) De…namos P" = P" [ P" y sean P y P 0 dos re…namientos de P" y S(P; f; g) (resp. S(P 0 ; f; g)) una suma de Riemann-Stieltjes de f con respecto a g, correspondiente a la (1) (1) particion P (resp. P 0 ). Entonces P1 = P \ [a; c] y P2 = P 0 \ [a; c] son re…namientos de (1) (2) (2) (2) P" y P1 = P \ [c; b] y P2 = P 0 \ [c; b] son re…namientos de P" . Además, S(P; f; g) y S(P 0 ; f; g)) se pueden expresar de la siguiente manera: (1) (2) S(P; f; g) = S(P1 ; f; g) + S(P1 ; f; g), (1) (2) S(P 0 ; f; g) = S(P2 ; f; g) + S(P2 ; f; g), (1) (2) donde S(P1 ; f; g) (resp. S(P1 ; f; g)) es una suma de Riemann-Stieltjes de f con respecto (1) (2) (1) (2) a g, correspondiente a la partición P1 (resp. P1 ), y S(P2 ; f; g) (resp. S(P2 ; f; g)) es (1) una suma de Riemann-Stieltjes de f con respecto a g, correspondiente a la partición P2 (2) (resp. P2 ). Por lo tanto: jS(P; f; g) (1) (1) (2) S(P 0 ; f; g)j = S(P1 ; f; g) + S(P1 ; f; g) S(P1 ; f; g) (1) (2) (1) S(P2 ; f; g) (2) S(P2 ; f; g) (2) S(P2 ; f; g) < ". S(P2 ; f; g) + S(P1 ; f; g) Así que, por el criterio de Cauchy, f es integrable con respecto a g en el intervalo [a; b]. Finalmente, si f es integrable con respecto a g en cada uno de los intervalos [a; c] y [c; b], (1) (2) dada " > 0, sea P" (resp. P" ) una partición del intervalo [a; c] (resp. [c; b]) tal que Rc Rb S P (1) ; f; g f dg < 21 " (resp. S(P (2) ; f; g) f dg < 21 ") para cualquier partición a c (1) (2) P (1) (resp. P (2) ) que sea un re…namiento de P" (resp. P" ) y cualquier suma de RiemannStieltjes S P (1) ; f; g (resp. S(P (2) ; f; g)) de f con respecto a g correspondiente a la partición P (1) (resp. P (2) ). (1) (2) De…namos P" = P" [P" y sean P un re…namiento de P" y S(P; f; g) una suma de RiemannStieltjes de f con respecto a g correspondiente a la partición P . Entonces P (1) = P \ [a; c] (1) (2) (resp. P (2) = P \ [c; b]) es un re…namiento de P" (resp. P" ) y S(P; f; g) se puede expresar de la siguiente manera: 106 4. LA INTEGRAL DE STIELTJES S(P; f; g) = S(P (1) ; f; g) + S(P (2) ; f; g), donde S(P (1) ; f; g) (resp. S(P (2) ; f; g)) es una suma de Riemann-Stieltjes de f con respecto a g, correspondiente a la partición P (1) (resp. P (2) ). Por lo tanto: S(P; f; g) Rc a f dg S(P (1) ; f; g) Rc a Rb c f dg = S(P (1) ; f; g) + S(P (2) ; f; g) f dg + S(P (2) ; f; g) Así que: Rb Rc Rb f dg = f dg + f dg a a c Rb c f dg < ". Rc a f dg Rb c f dg Proposición 4.2. Si f : [a; b] ! R es una función no negativa e integrable con respecto a Rb una función no decreciente g : [a; b] ! R, entonces a f dg 0: Demostración Supongamos que Rb a f dg < 0 y sea " 2 0; Rb a f dg . Rb f dg < " para cualquier Sea P" una partición del intervalo [a; b] tal que S(P; f; g) a particion P que sea un re…namiento de P" y cualquier suma de Riemann-Stieltjes S(P; f; g) de f con respecto a g, correspondiente a la particion P . Como f es no negativa y g es no decreciente, S(P; f; g) S(P; f; g) Rb a f dg = S(P; f; g) Rb a f dg < " < Rb a 0, así que: f dg = Por lo tanto, S(P; f; g) < 0, lo cual es una contradicción. Rb a f dg. Corolario 4.1. Si f1 : [a; b] ! R y f2 : [a; b] ! R son dos funciones integrables con Rb Rb respecto a una función no decreciente g : [a; b] ! R y f1 f2 , entonces a f1 dg f dg. a 2 Proposición 4.3. Si f : [a; b] ! R es integrable con respecto a una función no decreciente g : [a; b] ! R, entonces jf j es integrable con respecto a g y: Rb a f dg Rb a jf j dg. Demostración Dada " > 0, sea P" una partición del intervalo [a; b] tal que si P y P 0 son dos re…namientos de P" y S(P; f; g), S(P 0 ; f; g) son sumas de Riemann-Stieltjes de f con respecto a g, entonces jS(P; f; g) S(P 0 ; f; g)j < 12 ". 4.2. CRITERIO DE CAUCHY 107 Sean P un re…namiento de P" y: P S(P; jf j ; g) = nk=1 jf ( k )j [g(xk ) g(xk 1 )], P S(P" ; jf j ; g) = m g(zk 1 )], k=1 jf ( k )j [g(zk ) dos sumas de Riemann-Stieltjes de jf j con respecto a g. Como P es un re…namiento de P" , cada intervalo [xi 1 ; xi ] está contenido en un intervalo [zj 1 ; zj ], de…namos entonces i = j si [xi 1 ; xi ] [zj 1 ; zj ]. Entonces: P S(P" ; jf j ; g) = nk=1 jf ( k )j [g(xk ) g(xk 1 )]. Si f ( k ) f( k) 0, tomemos k = k y k = k. Si f ( k ) f( k) < 0, tomemos k = k y k = k. Tomemos: S(P; f; g) = 0 S (P; f; g) = Pn k=1 Pn f( k=1 k ) [g(xk ) g(xk 1 )], f ( k ) [g(xk ) g(xk 1 )]. Entonces se tiene: P 0 S(P; f; g) S (P; f; g) = j nk=1 [f ( k ) f ( k )] [g(xk ) g(xk 1 )]j P P = nk=1 [f ( k ) f ( k )] [g(xk ) g(xk 1 )] = nk=1 jf ( k ) f ( k )j [g(xk ) Así que: Pn k=1 jf ( k ) f( k )j [g(xk ) g(xk 1 )]. g(xk 1 )] < 12 ". Por lo tanto: P jS(P; jf j ; g) S(P" ; jf j ; g)j = j nk=1 (jf ( k )j jf ( Pn f ( k )j [g(xk ) g(xk 1 )] < 12 ". k=1 jf ( k ) k )j) [g(xk ) g(xk 1 )]j Si P 0 es otro re…namiento de P" y S(P; jf j ; g) es una suma de Riemann-Stieltjes de jf j con respecto a g, se tiene: jS(P; jf j ; g) jS(P; jf j ; g) S(P 0 ; jf j ; g)j S(P" ; jf j ; g)j + jS(P 0 ; jf j ; g) Así que jf j y g satisfacen el criterio de Cauchy. Por lo tanto, jf j es integrable con respecto a g. S(P" ; jf j ; g)j < ". 108 4. LA INTEGRAL DE STIELTJES Finalmente, como jf j Rb Rb jf j dg f dg, a a Rb Rb f dg. jf j dg a a f y jf j f , entonces: Por lo tanto: Rb Rb jf j dg f dg . a a El siguiente resultado es importante ya que muestra que la propiedad de que la función integradora sea de variación acotada se conserva para la integral que se obtiene. Esto hace que la integral de cualquier función continua con respecto a la función que se obtiene al integrar esté bien de…nida. Teorema 4.6. Sean f : [a; b] ! R una función continua y g : [a; b] ! R una función de variación acotada, entonces la función F : [a; b] ! R de…nida por: Rt F (t) = a f dg es de variación acotada. Demostración Sean f1 : [a; b] ! R y f2 : [a; b] ! R dos funciones no decrecientes tales que g = f1 f2 , M = sup fjf (x)j : x 2 [a; b]g y P = fx0 ; x1 ; : : : ; xn g una partición del intervalo [a; b]. Entonces: Pn k=1 = Rb a jF (xk ) jf j df1 + Así que: F (xk 1 )j = Rb a jf j df2 Pn k=1 R xk M [f1 (b) xk 1 f dg Pn k=1 R xk xk f1 (a)] + M [f2 (b) 1 jf j df1 + f2 (a)]. Pn k=1 R xk xk 1 jf j df2 VF [a; b] = sup fVg (P ) : P es una partición de [a; b]g M [f1 (b) f1 (a)] + M [f2 (b) f2 (a)] < 1. Teorema 4.7. Sean f : [a; b] ! R una función continua y g : [a; b] ! R una función continua de variación acotada, entonces la función F : [a; b] ! R de…nida por: Rt F (t) = a f dg es continua. 4.2. CRITERIO DE CAUCHY 109 Demostración Sean f1 : [a; b] ! R y f2 : [a; b] ! R dos funciones continuas no decrecientes tales que g = f1 f2 , M1 = sup fjf1 (x)j : x 2 [a; b]g + 1, M2 = sup fjf2 (x)j : x 2 [a; b]g + 1 y M = sup fjf (x)j : x 2 [a; b]g + 1. Dada " > 0, sea h 2 (0; b f1 (a + h) f1 (a) < 1 ", 2M1 f2 (a + h) f2 (a) < 1 ", 2M2 f1 (b) f1 (b h) < 1 ", 2M1 f2 (b) f2 (b h) < 1 ". 2M2 Entonces: R a+h f df1 a R a+h a Rb b h Rb b f df2 f df1 f df2 h Así que: jF (a + h) jF (b) F (b R a+h a R a+h a Rb b h Rb b h a) tal que: jf j df1 M1 [f1 (a + h) f1 (a)] < 21 ", jf j df2 M2 [f1 (a + h) f1 (a)] < 12 ", jf j df1 M1 [f1 (b) f1 (b h)] < 12 ", jf j df2 M2 [f2 (b) f2 (b h)] < 12 ". F (a)j = h)j = R a+h a Rb b h f df1 f df1 R a+h a Rb b h f df2 f df2 R a+h a Rb b h f df1 + f df1 + R a+h a Rb b h f df2 < ", f df2 < "g. Por lo tanto, F es continua por la derecha en a y continua por la izquierda en b. Si u 2 (a; b), dada " > 0, sea h 2 (0; m n (u jf1 (x) f1 (u)j < 1 ", 2M jf2 (x) f2 (u)j < 1 " 2M para cualquier x 2 (u a; b u)) tal que: h; u + h). Entonces: jF (x) F (u)j = R max(x;u) m n(x;u) f dg R max(x;u) m n(x;u) jf j df1 + R max(x;u) m n(x;u) jf j df2 110 4. LA INTEGRAL DE STIELTJES M [f1 (max (x; u)) f1 (m n (x; u))] + M [f2 (max (x; u)) f2 (m n (x; u))] < ". Así que F es continua en u. Proposición 4.4. Sean f : [a; b] ! R una función continua y g : [a; b] ! R una función no decreciente, entonces existe c 2 [a; b] tal que: Rb f dg = f (c) [g (b) g (a)]. a Demostración Si g es constante, el resultado es inmediato, así que supongamos que g no es constante. Sea M = sup ff (x) : x 2 [a; b]g y m = nf ff (x) : x 2 [a; b]g, entonces: Rb Rb Rb mdg f dg M dg. a a a Así que: m 1 g(b) g(a) Rb a f dg M. Como f es continua, existe c 2 [a; b] tal que: Rb f (c) = g(b) 1 g(a) a f dg. Teorema 4.8. Sean f : [a; b] ! R y h : [a; b] ! R dos funciones continuas, g : [a; b] ! R una función de variación acotada y F : [a; b] ! R de…nida por: Rt F (t) = a f dg. Entonces: Rb Rb hdF = a hf dg. a Demostración Sean f1 : [a; b] ! R y f2 : [a; b] ! R dos funciones no decrecientes tales que g = f1 f2 , M = sup fjh (x)j : x 2 [a; b]g+1, c1 = f1 (b) f1 (a)+1, c2 = f2 (b) f2 (a)+1, c = max (c1 ; c2 ) y, dada " > 0, sea > 0 tal que, si x; y 2 [a; b] y jy xj < , entonces: jf (y) f (x)j < jh(y)f (y) 1 ". 4cM h(x)f (x)j < 1 ". 4c Sea P" una partición del intervalo Pn [a; b] de norma menor que , P = fx0 ; x1 ; : : : ; xn g un re…namiento de P" , S(P; h; F ) = k=1 h( k ) [F (xk ) F (xk 1 )] una suma de Riemann-Stieltjes (1) (2) (1) (2) de h con respecto a y, para cada k 2 f1; 2; : : : ng, k ; k ; k ; k 2 [xk 1 ; xk ] tales que: 4.2. CRITERIO DE CAUCHY R xk xk 1 R xk xk 1 R xk xk 1 R xk xk 1 f df1 = f (1) k [f1 (xk ) f1 (xk 1 )], f df2 = f (2) k [f2 (xk ) f2 (xk 1 )], hf df1 = h( (1) k )f (1) k [f1 (xk ) f1 (xk 1 )], hf df2 = h( (2) k )f (2) k [f2 (xk ) f2 (xk 1 )]. 111 Entonces: S(P; h; F ) = = Pn k=1 Pn k=1 Pn k=1 = + = + Pn k=1 k=1 Pn k=1 k=1 Pn k=1 Pn k=1 + Pn k=1 h a h( k ) h( k ) h h( k ) Pn k=1 h( k ) [F (xk ) hf dg = R xk xk f dg 1 R xk R xk xk R xk f df1 1 xk R xk xk R xk f df1 1 xk hf dg 1 xk i hf df1 1 hf df1 1 k=1 + (f1 (xk ) f1 (xk 1 )) h( k )f (2) k (f2 (xk ) f2 (xk 1 )) h( k )f (1) k h( (1) k )f (1) k h( k )f (2) k h( (2) k )f (2) k (1) k h( (1) k )f (1) k h( k )f (2) k h( (2) k )f (2) k h i i i Pn h h( k ) k=1 h h( (1) k )f h( (2) k )f (2) k + jh( k )j f (2) k = 1 " 4c + < 1 " 2c 1 " 4c c+ [f1 (b) 1 " 2c f1 (a)] + c = ". f1 (xk 1 )] + 1 " 4c + 1 " 4c 1 " 4c [f2 (b) R xk k=1 i i f1 (xk 1 )) i f2 (xk 1 )) i f ( k ) [f1 (xk ) Pn i hf df2 1 i f ( k ) [f2 (xk ) 1 + M 4cM " f2 (a)] hf df2 1 xk (f2 (xk ) f2 (xk 1 )] (2) k )f xk (2) k [f2 (xk ) hf dg R xk (f1 (xk ) f1 (xk 1 )] h( 1 (1) k [f1 (xk ) h( k )f ( k ) [f1 (xk ) xk f2 (xk 1 )] (1) k xk f df2 1 [f2 (xk ) + jh( k )j f k=1 R xk f1 (xk 1 )] (1) k R xk f df2 1 [f1 (xk ) (1) k )f Pn xk h( k ) h( 1 + M 4cM " k=1 R xk h( k )f ( k ) 1 " 4c Pn F (xk 1 )] Pn (1) k h( k )f h i h( k )f h h Pn Pn h h Pn k=1 + h Rb [f2 (xk ) f1 (xk 1 )] f2 (xk 1 )] f2 (xk 1 )] 112 4. LA INTEGRAL DE STIELTJES Al igual que la integral de Riemann, la integral de Riemann Stieltjes presenta limitaciones en cuanto a la convergencia de las integrales de una sucesión convergente de funciones. El resultado siguiente muestra que el límite y la integral se pueden intercambiar pero la condición de convergencia uniforme que se pide es muy fuerte. Es éste uno de los aspectos en que la integral de Lebesgue y la integral de Lebesgue-Stieltjes, que de…niremos posteriormente, superan a la integral de Riemann y a la de Riemann-Stieltjes, respectivamente. Teorema 4.9. Sea (fn )n2N una sucesión de funciones fn : [a; b] ! R, integrables con respecto a una función no decreciente g : [a; b] ! R, y supongamos que (fn )n2N converge uniformemente a la función f : [a; b] ! R. Entonces, f es integrable con respecto a g y: Rb Rb f dg = l mn 1 a fn dg. a Demostración Dada " > 0, sea N 2 N tal que: jfn (x) f (x)j < 1 " 2[g(b) g(a)]+1 para cualquier número natural n N y cualquier x 2 [a; b], y sea P" una partición del intervalo [a; b] tal que si P = fx0 ; x1 ; : : : ; xn g y P 0 son dos re…namientos de P" y S(P; fN ; g), S(P 0 ; fN ; g) son sumas de Riemann-Stieltjes de f N con respecto a g, entonces: S(P 0 ; fN ; g)j < 2[g(b) 1g(a)]+1 ". P P Sean S(P; f; g) = nk=1 f ( k ) [g(xk ) g(xk 1 )] y S(P 0 ; f; g) = m k=1 f ( k ) [g(yk ) dos sumas de Riemann-Stieltjes de f con respecto a g y de…namos: jS(P; fN ; g) g(yk 1 )] M = sup fjfN (x) f (x)j : x 2 [a; b]g, P S(P; fN ; g) = nk=1 fN ( k ) [g(xk ) g(xk 1 )], P S(P 0 ; fN ; g) = m g(yk 1 )]. k=1 fN ( k ) [g(yk ) Se tiene entonces: P Pn jS(P; f; g) S(P; fN ; g)j = j nk=1 f ( k ) [g(xk ) g(xk 1 )] g(xk 1 )]j k=1 fN ( k ) [g(xk ) P g(b) g(a) M nk=1 jg(xk ) g(xk 1 )j 2[g(b) ". g(a)]+1 P Pm jS(P 0 ; fN ; g) S(P 0 ; f; g)j = j m g(yk 1 )] g(yk 1 )]j k=1 fN ( k ) [g(yk ) k=1 f ( k ) [g(yk ) P g(b) g(a) M m g(yk 1 )j 2[g(b) ". k=1 jg(yk ) g(a)]+1 Por lo tanto: 4.3. FUNCIONES DE VARIACIÓN ACOTADA E INTEGRABILIDAD DE LAS FUNCIONES CONTINUAS 113 jS(P; f; g) < S(P 0 ; f; g)j jS(P; f; g) S(P; fN ; g)j + jS(P; fN ; g) g(b) g(a) " 2[g(b) g(a)]+1 + 1 " 2[g(b) g(a)]+1 + S(P 0 ; fN ; g)j + jS(P 0 ; fN ; g) g(b) g(a) " 2[g(b) g(a)]+1 S(P 0 ; f; g)j = ". Así que f y g satisfacen el criterio de Cauchy, de lo cual se sigue que f es integrable con respecto a g. Finalmente, para cualquier n N , se tiene: Rb Rb Rb Rb f dg f dg = a (fn f ) dg jfn a a a n f j dg g(b) g(a) " 2[g(b) g(a)]+1 ". Por lo tanto: Rb Rb l mn 1 a fn dg = a f dg. Corolario 4.2. Sean g : [a; b] ! R una función de variación acotada y (fn )n2N una sucesión de funciones continuas fn : [a; b] ! R que converge uniformemente a la función f : [a; b] ! R. Entonces: Rb Rb f dg = l mn 1 a fn dg. a Demostración Sean g1 : [a; b] ! R y g2 : [a; b] ! R dos funciones no decrecientes tales que g = g1 la proposición 4.9, se tiene: Rb Rb f dg1 = l mn 1 a fn dg1 , a Rb Rb f dg2 = l mn 1 a fn dg2 . a Así que: Rb Rb f dg = f dg1 a a Rb a f dg2 = l mn!1 Rb a fn dg1 l mn!1 Rb a fn dg2 = l mn 1 Rb a g2 . Por fn dg. 4.3. Funciones de variación acotada e integrabilidad de las funciones continuas Lo siguiente tiene como objetivo demostrar que si g : [a; b] ! R no es de variación acotada, entonces existe una función continua f : [a; b] ! R tal que f no es integrable con respecto a g, lo cual tiene como corolario que si toda función continua f : [a; b] ! R es integrable con respecto a una función g : [a; b] ! R, entonces g es de variación acotada. Definición 4.4. Diremos que una función g : [a; b] ! R es de variación acotada en un punto x0 2 (a; b) si existe > 0 tal que [x0 ; x0 + ] [a; b] y g es de variación acotada 114 4. LA INTEGRAL DE STIELTJES en [x0 ; x0 + ]. Diremos que g es de variación acotada en a (resp. b) si existe > 0 tal que [a; a + ] [a; b] (resp. [b ; b] [a; b]) y g es de variación acotada en [a; a + ] (resp. [b ; b]). Diremos que g es localmente de variación acotada en [a; b] si es de variación acotada en cada punto x0 2 [a; b]. Teorema 4.10. Una función g : [a; b] ! R es de variación acotada en [a; b] si y sólo si es localmente de variación acotada en [a; b]. Demostración Si g es de variación acotada y x0 2 (a; b), tomando cualquier > 0 tal que [x0 ; x0 + ] [a; b], g es de variación acotada en [x0 ; x0 + ]; de la misma manera, tomando cualquier > 0 tal que [a; a + ] [a; b] (resp. [b ; b] [a; b]), g es de variación acotada en [a; a + ] (resp. [b ; b]). Así que g es localmente de variación acotada. Supongamos ahora que g es localmente de variación acotada en [a; b]. Para cada x 2 (a; b), sea x > 0 tal que [x [a; b] y g es de variación acotada x; x + x] en [x ; x + ]. Sea también > 0 (resp. > 0) tal que [a; a + a ] [a; b] (resp. x x a b [b [a; b]) y g es de variación acotada en [a; a + a ] (resp. [b b ; b] b ; b]). Tomando > 0 arbitraria, la colección de intervalos (a a ), ;a + (b b; b + ) y (x x; x + x ), para cada x 2 (a; b), constituye una cubierta de [a; b] con intervalos abiertos; por el teorema de Heine-Borel existe entonces una subcubierta …nita (a ; a + a ), (b b ; b + ), (x1 x1 ; x1 + x1 ), (x2 x2 ; x2 + x2 ), . . . , (xn xn ; xn + xn ). Tomando a, b y los extremos de los intervalos de esta subcubierta …nita (excepto a y b + ) formamos una partición P = fa = y0 < y1 < < ym = bg de [a; b]. Obviamente cada subintervalo (yk 1 ; yk ), con k 2 f1; 2; : : : ; ng, está contenido en algún intervalo de la subcubierta …nita, por lo tanto, g es de variación acotada en cada uno de los intervalos [yk 1 ; yk ] y, entonces, es de variación acotada en [a; b]. Proposición 4.5. Sea g : [a; b] ! R una función acotada que no es de variación acotada en [a; b]. Entonces existe w 2 [a; b] para el cual se cumple alguna de las dos condiciones siguientes: a) Existe una sucesión decreciente (yn )n2f0;1;:::g de números reales en [a; b] tal que: i) y0 = b. ii) l mn 1 yn = w. P iii) 1 n=1 jg (yn 1 ) g (yn )j = 1. 4.3. FUNCIONES DE VARIACIÓN ACOTADA E INTEGRABILIDAD DE LAS FUNCIONES CONTINUAS 115 b) Existe una sucesión creciente (xn )n2f0;1;:::g de números reales en [a; b] tal que: i) x0 = a. ii) l mn 1 xn = w. P iii) 1 g (xn 1 )j = 1. n=1 jg (xn ) Demostración Como g no es de variación acotada en [a; b], existe w 2 [a; b] tal que g no es de variación acotada en w. Si w = a, entonces, dada cualquier Si w = b, entonces dada cualquier 2 (0; b 2 (0; b a], g no es de variación acotada en [a; a + ]. a], g no es de variación acotada en [b Si w 2 (a; b) y existe 0 2 (0; w a] tal que g es de variación acotada en [w dada cualquier 2 (0; b w], g no es de variación acotada en [w; w + ]. 0 ; w], Si w 2 (a; b) y existe 0 2 (0; b w] tal que g es de variación acotada en [w; w + dada cualquier 2 (0; w a], g no es de variación acotada en [w ; w]. 0 ], ; b]. entonces entonces Los cuatro casos anteriores se pueden reducir a los dos siguientes: 1) w 2 [a; b) y dada cualquier 2 (0; b 2) w 2 (a; b] y dada cualquier 2 (0; w w], g no es de variación acotada en [w; w + ]. a], g no es de variación acotada en [w ; w]. En el primer caso se cumple la condición a de la proposición; en el segundo se cumple la condición b. Las demostraciones de estas dos aseveraciones son similares; demostremos la segunda. Supongamos entonces que w 2 (a; b] y que dada cualquier acotada en [w ; w]. 2 (0; w a], g no es de variación Vamos a demostrar primero que existe una sucesión creciente (zn )n2f0;1;:::g de números reales en [a; b] tal que: i) z0 = a. ii) l mn 1 zn = w. iii) Para cada n 2 f0; 1; : : :g, existe una partición Pn del intervalo [zn ; zn+1 ] tal que Vg (Pn ) > 1. De…namos M = sup fjg (x)j : x 2 [a; b]g y z0 = a. Paso 0. Como g no es de variación acotada en [z0 ; w], existe una partición: 116 4. LA INTEGRAL DE STIELTJES Q0 = fz0 = u0;0 < u0;1 < < u0;m0 = wg tal que: Vg (Q0 ) > 2M + 1 y w De…namos z1 = u0;m0 Si Vg (P0 ) u0;m0 1 1 < 21 . y llamemos P0 a la partición Q0 restringida al intervalo [z0 ; z1 ]. 1, se tendría: Vg (Q0 ) = Vg (P0 ) + jg (w) 1 + 2M , g (z1 )j lo cual es una contradicción. Por lo tanto, Vg (P0 ) > 1. Paso 1. Como g no es de variación acotada en [z1 ; w], existe una partición: Q1 = fz1 = u1;0 < u1;1 < < u1;m1 = wg tal que: Vg (Q1 ) > 2M + 1 y w De…namos z2 = u1;m1 Si Vg (P1 ) u1;m1 1 1 < 1 . 22 y llamemos P1 a la partición Q1 restringida al intervalo [z1 ; z2 ]. 1, se tendría: Vg (Q1 ) = Vg (P1 ) + jg (w) g (z2 )j 1 + 2M , lo cual es una contradicción. Por lo tanto, Vg (P1 ) > 1. Continuando con este procedimiento hasta el paso k, tendremos de…nido el conjunto fz0 ; z1 ; : : : ; zk+1 g de tal forma que: a = z0 < z1 < < zk+1 < w, Para j 2 f1; 2; : : : ; k + 1g, w zj < 1 , 2j Para cada j 2 f0; 1; 2; : : : ; kg, existe una partición Pj del intervalo [zj ; zj+1 ] tal que Vg (Pj ) > 1, Paso k + 1. Como g no es de variación acotada en [zk+1 ; w], existe una partición: Qk+1 = zk+1 = uk+1;0 < uk+1;1 < < uk+1;mk+1 = w 4.3. FUNCIONES DE VARIACIÓN ACOTADA E INTEGRABILIDAD DE LAS FUNCIONES CONTINUAS 117 tal que: Vg (Qk+1 ) > 2M + 1 y w uk+1;mk+1 De…namos zk+2 = uk+1;mk+1 [zk+1 ; zk+2 ]. Si Vg (Pk+1 ) 1 1 < 1 . 2k+2 y llamemos Pk+1 a la partición Qk+1 restringida al intervalo 1, se tendría: Vg (Qk+1 ) = Vg (Pk+1 ) + jg (w) g (zk+2 )j 1 + 2M , lo cual es una contradicción. Por lo tanto, Vg (Pk+1 ) > 1. Por el principio de inducción matemática, para cada n 2 f0; 1; : : :g, existe zn+1 2 [a; b] tal que: a = z0 < z1 < w zn+1 < < zn+1 < w, 1 , 2n+1 Existe una partición Pn del intervalo [zn ; zn+1 ] tal que Vg (Pn ) > 1. Los puntos de la unión [1 n=0 Pn , ordenados en forma creciente, constituyen una sucesión (xn )n2f0;1;:::g de números reales en [a; b] tal que x0 = a, l mn 1 xn = w y: P P1 g (xn 1 )j = 1 n=0 Vg (Pn ) = 1. n=1 jg (xn ) P Lema 4.1. Sea (an )n2N una sucesión de números reales no negativos tales que 1 n=1 an = 1. Entonces existe una sucesión no creciente (c ) de números reales positivos tales que n n2N P1 l mn!1 cn = 0 y n=1 cn an = 1. Demostración Para cada n 2 N, de…namos sn = Pn k=1 ak . Sea aN el primer elemento positivo de la sucesión (an )n2N , entonces, para k 2 f1; : : : ; N g de…namos ck = a1N y, para k 2 fN + 1; N + 2; : : :g, ck = s1k . P También, para cada n 2 N, de…namos tn = nk=1 ck ak . Si n; m 2 N y n > m, se tiene: P Pn tn tm = nk=m+1 ck ak k=m+1 cn ak = cn (sn sm ) = 1 sm . sn Como l mn 1 sn = 1, …jando m podemos tomar n su…cientemente grande de tal manera que sn > 2sm , en cuyo caso se tiene: 118 tn 4. LA INTEGRAL DE STIELTJES tm 1 sm sn > 12 . En otras palabras, dado m 2 N, existe n 2 N tal que n > m y tn tm > 21 . Por lo tanto, la sucesión no decreciente (tn )n2N no es de Cauchy, así que no converge y entonces: P1 n=1 cn an = l mn 1 tn = 1. Teorema 4.11. Sea g : [a; b] ! R una función acotada que no es de variación acotada en [a; b]. Entonces existe una función continua f : [a; b] ! R la cual no es Riemann-Stieltjes integrable con respecto a g. Demostración Sabemos que existe w 2 [a; b] para el cual se cumple alguna de las dos condiciones de la proposición anterior; supongamos que se cumple la segunda (así que w 2 (a; b]) y consideremos una sucesión creciente (xn )n2f0;1;:::g de números reales en [a; b] tal que x0 = a, P g (xn 1 )j = 1. l mn!1 xn = w y 1 n=1 jg (xn ) Consideremos también una sucesión no creciente (cn )n2N de números reales positivos tales que l mn 1 cn = 0 y: P1 g (xn 1 )j = 1. n=1 cn jg (xn ) De…namos f : [a; b] ! R de la siguiente manera: 1 , f (x) = a0 x + b0 , de tal manera que: Para x 2 a; x0 +x 2 f (a) = 0, 1 f ( x0 +x )= 2 c1 c1 si g (x1 ) si g (x1 ) Para cada k 2 N y x 2 f ( xk 1 +xk 2 )= f ( xk +x2 k+1 ) = xk g (x0 ) 0 g (x0 ) < 0 1 +xk 2 ck si g (xk ) ck si g (xk ) ; xk +x2 k+1 , f (x) = ak x + bk , de tal manera que: g (xk 1 ) 0 g (xk 1 ) < 0 ck+1 si g (xk+1 ) ck+1 si g (xk+1 ) g (xk ) 0 g (xk ) < 0 Para x 2 [w; b], f (x) = 0. Dada una partición P = fv0 ; v1 ; : : : ; vN g de [a; b] y M > 0, de…namos: r = max fj 2 f0; 1; 2; : : : ; N g : vj < wg, 4.4. FÓRMULA DE INTEGRACIÓN POR PARTES s = m{n fj 2 f1; 2; : : :g : xj > vr g, P S = rj=1 f (vj 1 ) [g (vj ) g (vj 1 )] + f (vr ) [g (xs ) PkM kM 2 N tal que n=s+1 cn jg (xn ) g (vr )], g (xn 1 )j > M S, P 0 = fv0 ; : : : ; vr ; xs ; : : : ; xkM ; w; vr+1 ; : : : ; vN g, P S (P 0 ; f; g) = rj=1 f (vj 1 ) [g (vj ) g (vj 1 )] + f (vr ) [g (xs ) + PkM j=s+1 f( xj 1 +xj 2 +f (w) [g (vr+1 ) ) [g (xj ) g (w)] + donde una sumatoria Entonces: Pi2 g (xj 1 )] + f (w) [g (w) PN j=i1 1 j=r+1 f (vj ) [g (vj+1 ) 119 g (vr )] g (xkM )] g (vj )] se toma igual a cero cuando i2 < i1 . a) P 0 es un re…namiento de P . b) S (P 0 ; f; g) es una suma de Riemann-Stieltjes de f con respecto a g, correspondiente a la particion P 0 . PM cj jg (xj ) g (xj 1 )j > M . c) S (P 0 ; f; g) = S + kj=s+1 Por lo tanto, no existe I 2 R tal que para cualquier " > 0 existe una particion P del intervalo [a; b] tal que jS(P 0 ; f; g) Ij < " para cualquier particion P 0 que sea un re…namiento de P y cualquier suma de Riemann-Stieltjes S(P 0 ; f; g) de f con respecto a g, correspondiente a la particion P 0 . Así que f no es integrable con respecto a g. Corolario 4.3. Si toda función continua f : [a; b] ! R es integrable con respecto a la función acotada g : [a; b] ! R, entonces g es de variación acotada. 4.4. Fórmula de integración por partes La fórmula de integración por partes es importante no únicamente como fórmula técnica que permite expresar la integral de una función f con respecto a g en términos de la integral de g con respecto a f . Una parte muy importante del resultado es que si una función f es integrable con respecto a una función g, entonces g es integrable con respecto a f . Esto permite a…rmar, por ejemplo, que toda función de variación acotada es integrable con respecto a cualquier función continua. Teorema 4.12. Sean f : [a; b] ! R y g : [a; b] ! R dos funciones acotadas y supongamos que f es integrable con respecto a g, entonces g es integrable con respecto a f y, además, se tiene: 120 Rb a 4. LA INTEGRAL DE STIELTJES gdf = g(b)f (b) Rb g(a)f (a) a Demostración f dg. Rb Dada " > 0, sea P" una partición del intervalo [a; b] tal que S(P; f; g) f dg < " a para cualquier partición P que sea un re…namiento de P" y cualquier suma de RiemannStieltjes S(P; f; g) de f con respecto a g, correspondiente a la particion P . Sea entonces P = fx0 ; x1 ; : : : ; xn g un re…namiento de P" y consideremos ahora una suma de RiemannStieltjes S(P; g; f ) de g con respecto a f , correspondiente a la particion P : P S(P; g; f ) = nk=1 g( k ) [f (xk ) f (xk 1 )], la cual tambien puede escribirse en la forma siguiente P S(P; g; f ) = nk=1 g( k ) [f (xk ) f (xk 1 )] P = nk=11 f (xk ) g( k ) g( k+1 ) + f (xn )g( n ) f (x0 )g( 1 ) P = nk=11 f (xk ) g( k ) g(xk ) + g(xk ) g( k+1 ) + f (xn )g( n ) f (x0 )g( 1 ) P = nk=11 f (xk ) [g( k ) g(xk )] + f (xk ) g(xk ) g( k+1 ) + f (xn )g( n ) f (x0 )g( 1 ) = f (xn )g(xn ) f (x0 )g(x0 ) f (x0 ) [g( 1 ) Pn 1 g( k )] + f (xk ) g( k=1 f (xk ) [g(xk ) = f (xn )g(xn ) f (x0 )g(x0 ) donde P 0 = fa = x0 1 g(x0 )] k+1 ) g(xk ) S(P 0 ; f; g) = f (b)g(b) x1 x2 2 xn f (a)g(a) 1 Como P 0 es un re…namiento de P" , se tiene S(P 0 ; f; g) S(P; g; f ) h f (b)g(b) f (a)g(a) Rb a f dg i < ". f (xn ) [g(xn ) n Rb a g( n )] S(P 0 ; f; g), xn = bg. f dg < "; es decir: Por lo tanto g es integrable con respecto a f y: Rb Rb gdf = f (b)g(b) f (a)g(a) f dg. a a Corolario 4.4. Si f : [a; b] ! R es continua, entonces toda función de variación acotada es integrable con respecto a f . El siguiente resultado es el equivalente al Teorema Fundamental del Cálculo que se demuestra para la integral de Riemann. Además, muestra que el espacio vectorial formado por las funciones de variación acotada en un intervalo cerrado y acotado es cerrado bajo la composición de cualquier elemento de ese espacio con una función de clase C 1 . Esto extiende algunas propiedades que se demostraron en la segunda sección de este capítulo. Por ejemplo, 4.4. FÓRMULA DE INTEGRACIÓN POR PARTES 121 se demostró que si g : [a; b] ! R es de variación acotada, entonces g 2 también lo es. Con base en el siguiente teorema podemos a…rmar que, si g es continua, hay muchas otras funciones de g que siguen siendo de variación acotada: la composición de cualquier función de clase C 1 con g. Teorema 4.13. Sea g : [a; b] ! R una función continua de variación acotada y F : R ! R una función de clase C 1 , entonces F g es de variación acotada y: Rt F (g (t)) = F (g (a)) + a F 0 (g (s))dg (s) para cualquier t 2 [a; b]. Demostración Se tiene: Rt 0 g (s) dg (s) = g (t) a g (a). Supongamos que: Rt k 1 g (s) dg (s) = k+1 g k+1 (t) a 1 g k+1 k+1 (a) para cualquier t 2 [a; b], donde k 2 f0; 1; 2; : : :g. Entonces: g k+1 (t) = g k+1 (a) + (k + 1) para cualquier t 2 [a; b]. Rt a g k (s) dg (s) En particular, g k+1 es continua y de variación acotada. Así que, por la fórmula de integración por partes, se tiene, para cualquier t 2 [a; b]: Rt Rt g k+2 (t) = g k+1 (t) g (t) = g k+1 (a) g (a) + a g k+1 (s) dg (s) + a g (s) dg k+1 (s) Rt Rt = g k+2 (a) + a g k+1 (s) dg (s) + (k + 1) a g (s) g k (s) dg (s) Rt = g k+2 (a) + (k + 2) a g k+1 (s) dg (s). Así que, por el principio de inducción matemática: Rt n 1 1 g (s) dg (s) = n+1 g n+1 (t) n+1 g n+1 (a) a para cualquier n 2 f0; 1; 2; : : :g y cualquier t 2 [a; b]. Por lo tanto: g n (t) = g n (a) + n Rt 0 gn 1 (s) dg (s) para cualquier n 2 N y cualquier t 2 [a; b]. 122 4. LA INTEGRAL DE STIELTJES P Sea p : R ! R un polinomio dado por p (x) = nk=0 ak xk , donde n 2 N. Entonces, por la linealidad de la integral: i Rt k 1 Pn Pn h k k (s) dg (s) p(g (t)) = k=0 ak g (t) = a0 + k=1 ak g (a) + k 0 g = p(g (a)) + Rt a p0 (g (s))dg (s). Sea M = sup fjg (x)j : x 2 [a; b]g. Tomemos dos números reales c y d de tal forma que c < M y d > M , y de…namos las funciones Fc : R ! R, Fd : R ! R y G : R ! R de la siguiente manera: h i F ( M) (c+M )F 0 ( M )+2F ( M ) Fc (x) = (c+M + (x + M ) (x c)2 , )2 (c+M )3 Fd (x) = h F (M ) (d M )2 8 F (x) > > < c F (x) G(x) = Fd (x) > > : 0 + (d M )F 0 (M )+2F (M ) (d M )3 (x si x 2 [c; M ) si x 2 [ M; M ] si x 2 (M; d] en otro caso i M ) (x d)2 , G es de clase C 1 y nula fuera del intervalo (c; d), así que existe una sucesión (pn )n2N de polinomios pn : R ! R tales que (pn )n2N y (p0n )n2N convergen uniformente a G y G0 , respectivamente, en el intervalo (c; d). Además, G (x) = F (x) y G0 (x) = F 0 (x) para cualquier x 2 [ M; M ]. Para cada n 2 N, se tiene: Rt pn (g (t)) = pn (g (a)) + a p0n (g (s))dg (s). Así que, tomando límites cuando n 1, se obtiene: Rt F (g (t)) = F (g (a)) + a F 0 (g (s))dg (s) para cualquier t 2 [a; b]. 4.5. Integración de funciones discontinuas No únicamente las funciones continuas son integrables con respecto a una función de variación acotada. Ejemplo 4.1. Si g : [a; b] ! R es una función escalonada, fx0 ; x1 ; : : : ; xn g es una partición del intervalo [a; b] tal que, para cualquier j 2 f1; 2; : : : ; ng, la función g es igual a una 4.5. INTEGRACIÓN DE FUNCIONES DISCONTINUAS 123 constante cj en el intervalo (xj 1 ; xj ) y f : [a; b] ! R es una función acotada y continua en fx0 ; x1 ; : : : ; xn g, entonces f y g son integrables, una con respecto a la otra, y se tiene: Rb P gdf = nj=1 cj [f (xj ) f (xj 1 )], a Rb a f dg = f (a) [g(a+) g(a)] + Pn 1 j=1 f (xj ) [g(xj +) g(xj )] + f (b) [g(b) g(b )]. En efecto, como f es continua en fx0 ; x1 ; : : : ; xn g, si x 2 fx0 ; x1 ; : : : ; xn g y h = Ifxg , entonces Rb h es integrable con respecto a f y a hdf = 0. También, si hj = I(xj 1 ;xj ) , donde j 2 Rb f1; 2; : : : ; ng, entonces hj es integrable con respecto a f y a hj df = f (xj ) f (xj 1 ). P P Por otra parte, g = nj=1 g (xj ) Ifxj g + nj=1 cj I(xj 1 ;xj ) , así que g es integrable con respecto a f y se tiene: Rb P gdf = nj=1 cj [f (xj ) f (xj 1 )], a Rb = f (b)g(b) Rb f (a)g(a) gdf a Pn f (a)g(a) j=1 cj [f (xj ) = f (a) (c1 g(a)) + a f dg = f (b)g(b) = f (b)g(b) = f (a) [g(a+) Pn j=1 cj f (xj ) f (a)g(a) Pn 1 j=1 g(a)] + f (xj ) (cj+1 Pn 1 j=1 + f (xj 1 )] Pn 1 j=0 cj+1 f (xj ) cj ) + f (b) (g(b) f (xj ) [g(xj +) cn ) g(xj )] + f (b) [g(b) g(b )]. Proposición 4.6. Si g : [a; b] ! R es una función no decreciente, continua por la derecha y que crece únicamente mediante saltos y f : [a; b] ! R es una función acotada y continua por la izquierda donde g es discontinua, entonces f es integrable con respecto R ben los puntos P a g y se tiene a f dg = fx2Dg f (x) [g(x) g(x )], donde D es el conjunto de puntos en el intervalo (a; b] donde g es discontinua. Demostración Si g es constante, el resultado es trivial ya que si g = c, entonces Supongamos entonces que g no es constante. Rb a f dg = 0. Sea D = fx1 ; x2 ; : : :g el conjunto de puntos en el intervalo (a; b] donde g es discontinua y M una cota positiva se jf j. P Como fx2Dg [g (x) g (x )] f (b) f (a), existe N 2 N tal que: P1 " g (xj )] < 4M . j=N +1 [g (xj ) Sean z1 ; z2 ; : : : ; zN los elementos del conjunto fx1 ; x2 ; : : : ; xN g, ordenados del menor al mayor y de…namos x0 = a. 124 4. LA INTEGRAL DE STIELTJES Para j 2 f1; 2; : : : ; N g, tomemos h 2 (0; m n fzj jf (y) zj 1 : j 2 f1; 2; : : : ; N gg) tal que: " 2[g(b) g(a)] f (zj )j < para cualquier j 2 f1; 2; : : : ; N g y y 2 [zj h; zj ]. Sea P" = fx0 ; z1 h; z1 ; z2 h; z2 ; : : : ; zN h; zN ; bg = fy0 ; y1 ; : : : ; ym g ; P = fu0 ; u1 ; : : : ; un g un re…namiento de P" y, para cada j 2 f1; 2; : : : ; N g, yj el elemento de P más cercano a zj por la izquierda. Como g crece únicamente mediante saltos, para cada j 2 f1; 2; : : : ; ng, se tiene: P g (uj ) g (uj 1 ) = fx2D:x2(a;b]g [g(x) g(x )]. De…namos: H = f[uj 1 ; uj ] : j 2 f1; 2; : : : ; ngg f[yj ; zj ] : j 2 f1; 2; : : : ; ngg. P Sea S (P; f; g) = nj=1 f ( j ) [g (uj ) g (uj 1 )] una suma de Riemann-Stieltjes de f con respecto a g, correspondiente a la particion P . Entonces: S (P; f; g) = Por lo tanto: S(P; f; g) P P fj2f1;2;:::;ng:[uj P fx2Dg fj2f1;2;:::;ng:[uj + = + + + 1 ;uj ]2Hg j=1 f ( j ) [g (zj ) fj2f1;2;:::;ng:[uj P1 j=N +1 PN j=1 PN j=1 = f (x) [g(x) PN P P fj2f1;2;:::;ng:[uj j=N +1 PN P1 g (uj 1 )] j=N +1 f (zj ) [g(zj ) P fx2D:x2(uj PN j=1 f ( j ) [g (zj ) 1 ;uj ]g f (xj ) [g(xj ) g(zj )] [g(x) g(x )] g(xj )] [g(x) g(x )] + g(zj )] 1 ;uj ]2Hg f (xj ) [g(xj ) g (uj 1 )] + f ( j) g (yj )]. g(x )] j=1 f ( j) fx2D:x2(yj ;zj )g f (zj ) [g(zj ) P P1 1 ;uj ]2Hg f ( j ) [g (uj ) f ( j ) [g (uj ) g (yj )] f (xj ) [g(xj ) f ( j) 1 ;uj ]2Hg P g(xj )] fx2D:x2(uj PN 1 ;uj ]g j=1 f ( j ) [g(zj ) [g(x) g(x )] g(zj )] g(xj )] 4.5. INTEGRACIÓN DE FUNCIONES DISCONTINUAS + PN j=1 M +M f ( j) P fx2D:x2(yj ;zj )g fj2f1;2;:::;ng:[uj PN P 2M P j=1 P1 fx2D:x2(yj ;zj )g j=N +1 " + < 2M 4M 1 ;uj ]2Hg " 2 [g (xj ) [g(x) P g(x )] + fx2D:x2(uj [g(x) 1 ;uj ]g g(x )] + g (xj )] + PN j=1 [g(x) " 2[g(b) g(a)] " 2[g(b) g(a)] [g (b) f ( j) f (zj ) [g(zj ) g(x )] + M PN j=1 [g(zj ) P1 j=N +1 125 g(zj )] [g (xj ) g (xj )] g(zj )] g (a)] = ". De manera similar, se demuestra el siguiente resultado: Proposición 4.7. Si g : [a; b] ! R es una función no decreciente, continua por la izquierda y que crece únicamente mediante saltos y f : [a; b] ! R es una función acotada y continua por la derecha donde g es discontinua, entonces f es integrable con respecto a R ben los puntos P g y se tiene a f dg = fx2Dg f (x) [g(x+) g(x)], donde D es el conjunto de puntos en el intervalo [a; b) donde g es discontinua. Corolario 4.5. Si f1 : [a; b] ! R es una función no decreciente y continua por la derecha y f2 : [a; b] ! R es una función no decreciente y continua por la izquierda, entonces f1 y f2 son integrables una con respecto a la otra. Demostración Por los corolarios 3.14 y 3.15, f1 = f1d + f1c y f2 = f2i + f2c , donde f1c y f2c son funciones no decrecientes y continuas, f1d es una función no decreciente, continua por la derecha, que crece únicamente mediante saltos, y f2i es una función no decreciente, continua por la izquierda, que crece únicamente mediante saltos. Por la proposición 4.6, f2i + f2c es integrable con respecto a f1d y, por el corolario 4.4, es integrable con respecto a f1c , así que f2 es integrable con respecto a f1 . Finalmente, por el teorema 4.12, f1 es integrable con respecto a f2 . Proposición 4.8. Si g1 : [a; b] ! R y g2 : [a; b] ! R son funciones de variación acotada, sin discontinuidades en común del mismo lado, entonces g1 y g2 son integrables una con respecto a la otra. Demostración Por el teorema 3.4, g1 = f1 h1 y g2 = f2 h2 , donde cada una de las parejas f1 ; h1 y f1 ; h1 está formada por funciones no decrecientes que no tienen discontinuidades en común del mismo lado. Por la proposición 3.8, se tiene: 126 4. LA INTEGRAL DE STIELTJES f1 = f1d + f1i + f1c , h1 = hd1 + hi1 + hc1 , f2 = f2d + f2i + f2c , h2 = hd2 + hi2 + hc2 , donde: f1d , hd1 , f2d y hd2 son funciones no decrecientes, continuas por la derecha y que crecen únicamente mediante saltos. f1i , hi1 , f2i y hi2 son funciones no decrecientes, continuas por la izquierda y quecrecen únicamente mediante saltos. f1c , hc1 , f2c y hc2 son funciones no decrecientes y continuas. Así que: g1 = f1d hd1 + (f1i hi1 ) + (f1c hc1 ), g2 = f2d hd2 + (f2i hi2 ) + (f2c hc2 ). Por la proposición 4.6, f1i y hi1 son integrables con respecto a f2d y hd2 . Por el corolario 4.7, f1d y hd1 son integrables con respecto a f2i y hi2 . Por el corolario 4.4, f1d y hd1 son integrables con respecto a f2c y hc2 , y f1i y hi1 son integrables con respecto a f2c y hc2 . Por el teorema 4.2, f1c y hc1 son integrables con respecto a f2d , hd2 , f2i , hi2 , f2c y hc2 . Además: Para cualquier x 2 R, se tiene: f2d (x) f2d (x ) > 0 ) hd2 (x) hd2 (x ) = 0, hd2 (x) hd2 (x ) > 0 ) f2d (x) f2d (x ) = 0, f2i (x+) f2i (x) > 0 ) hi2 (x+) hi2 (x+) hi2 (x) > 0 ) f2i (x) hi2 (x) = 0, f2i (x ) = 0. Así que: f2d (x) ) g2 (x) f2d (x ) > 0 ) (f2 h2 ) (x) g2 (x ) > 0 ) g1 (x) (f2 h2 ) (x ) > 0 g1 (x ) = 0 ) f1 (x) f1 (x ) = 0 y h1 (x) h1 (x ) = 0 4.5. INTEGRACIÓN DE FUNCIONES DISCONTINUAS f1d hd1 (x ) = 0 ) f1d hd1 (x) hd2 (x) hd2 (x ) > 0 ) (f2 ) g2 (x) ) f1d f2i (x+) (f1i (f1i g1 (x ) = 0 ) f1 (x) h2 ) (x+) f1 (x ) = 0 y h1 (x) (f2 h1 (x ) = 0 h2 ) (x) > 0 g1 (x) = 0 ) f1 (x+) h2 ) (x+) g2 (x) < 0 ) g1 (x+) hi1 ) (x+) h2 ) (x ) < 0 f1 (x) = 0 y h1 (x+) h1 (x) = 0 f1 (x) = 0 y h1 (x+) h1 (x) = 0 hi1 ) (x) = 0 hi2 (x) > 0 ) (f2 ) g2 (x+) (f2 hd1 (x ) = 0 g2 (x) > 0 ) g1 (x+) hi1 ) (x+) hi2 (x+) ) (f1i f1d f2i (x) > 0 ) (f2 ) g2 (x+) ) (f1i h2 ) (x) g2 (x ) < 0 ) g1 (x) hd1 (x) 127 (f2 h2 ) (x) < 0 g1 (x) = 0 ) f1 (x+) hi1 ) (x) = 0. Así que, por la proposición 4.6, f1d hd1 es integrable con respecto a f2d y hd2 , y, por la proposición 4.7, f1i hi1 es integrable con respecto a f2i y hi2 . Por lo tanto, f1d hd1 + (f1i hi1 ) + (f1c hc1 ) es integrable con respecto a f2d , hd2 , f2i , hi2 , f2c y hc2 . Así que g1 es integrable con respecto a g2 . Finalmente, por el teorema 4.12, g2 es integrable con respecto a g1 . CAPÍTULO 5 TEORÍA GENERAL DE LA MEDIDA 5.1. Introducción La teoría de la medida y de la integración desarrollada por Lebesgue en su tesis doctoral causó un gran impacto, e inmediatamente después de su publicación, el mismo Lebesgue y otros investigadores comenzaron a uitilizarla en diferentes áreas, al mismo tiempo que se daban nuevos resultados, ampliando la teoría, y se generalizaban los conceptos de…nidos por Lebesgue. En 1905 Giuseppe Vitali ([91]) demostró que no es posible asignar una medida a todo conjunto acotado de números reales de tal manera que se satisfagan las condiciones que pide Lebesgue. Este resultado planteaba una disyuntiva, o bien se aceptan como razonables las condiciones de Lebesgue y entonces se restringe la familia de conjuntos a los cuales se les puede asignar una medida, o bien se buscan condiciones menos restrictivas para la medida de tal manera que pueda de…nirse para cualquier conjunto acotado de números reales. Se realizaron varios estudios al respecto, pero …nalmente el medio matemático optó por mantener las condiciones de Lebesgue, aunque modi…cadas de tal manera que se pudiera eliminar la invarianza bajo traslaciones. Una cosa interesante del resultado de Vitali es que para demostrar la existencia de conjuntos que no son Lebesgue medibles, utiliza el axioma de elección. Sin la utilización de este axioma y sin agregar algún otro postulado a los axiomas de la matemática, no es posible demostrar la existencia de subconjuntos de números reales que no sean Lebesgue medibles, aunque tampoco es posible demostrar que todos los subconjuntos de números reales lo son ([85], [71]). Después de que Lebesgue desarrolló su teoría de integración en R, se extendió al caso de Rn sin mucha di…cultad. Ya en su libro de 1904, Lebesgue había esbozado el caso de R2 y en 1910 desarrolló el caso general multidimensional. 129 130 5. TEORÍA GENERAL DE LA MEDIDA En 1913, Johann Karl August Radon ([76]) mostró que se puede desarrollar una teoría general en la cual quedan incluidas la integral de Lebesgue en Rn y la integral de Stieltjes. Fue a partir de este trabajo que Fréchet logró desarrollar una formulación aún más general, de la cual surgiría la teoría general de la medida. Radon introdujo el concepto de funcional aditiva sobre una familia de subconjuntos de Rn . Una familia T , sobre la cual se de…niría una funcional aditiva, debía tener las siguientes propiedades: 1. T contiene a todas las celdas acotadas de la forma [a1 ; b1 ) [a2 ; b2 ) 2. Si E1 y E2 pertenecen a T , entonces E1 \ E2 = E1 \ E2 y E1 a T. [an ; bn ). E2 también ´pertenecen 3. Si (En )n2N es una sucesión de elementos de T , ajenos por parejas, entonces la unión de ellos también pertenece a T . Obsérvese que si T es una familia con estas propiedades, entonces Rn pertenece a T . En efecto, Rn es la unión de todas las celdas de la forma [m1 ; m1 + 1) [m2 ; m2 + 1) [mn ; mn + 1), donde m1 ; m2 ; : : : ; mn son números enteros. Así que T constituye lo que ahora se conoce como -álgebra. Además, por la primera propiedad, T contiene a los conjuntos borelianos de Rn . Radon de…nió entonces una funcional aditiva como una función f : T ! R con la propiedad de que, si (En )n2N es una sucesión de elementos de T , ajenos por parejas, entonces: S1 P1 S f( 1 n=1 f ( n=1 En ). n=1 En ) = Aún no se trataba de la de…nición general de una medida ya que Radon se restringió a familias de subconjuntos de Rn que contienen a los conjuntos borelianos. El concepto de funcional aditiva lo tomó Radon de un artículo de Lebesgue del año 1910 titulado L’intégration des fonctions discontinues ([60]), quien lo introdujo en el contexto del estudio del problema de determinar bajo que condiciones una R x función F : [a; b] ! R es una integral inde…nida, es decir una función de la forma x ! a f (y) dy, donde f es una función medible e integrable. Dentro de este estudio, Lebesgue tuvo la idea de considerar una R integral inde…nida como una función F que asigna a cada conjunto medible E la integral f (P ) dP , donde f es una función medible e integrable y P representa un elemento de Rn . E Demostró entonces que, para una función así de…nida, siP (En )n2N es una sucesión de conjuntos S1 medibles, ajenos por parejas, entonces F ( n=1 En ) = 1 n=1 F (En ). A una función con esta propiedad, Lebesgue la denominó aditiva. Siguiendo un procedimiento similar al de Lebesgue, Radon mostró que una función de…nida sobre el conjunto de celdas se puede extender, bajo determinadas condiciones, a una función aditiva. Para el caso de Rn , La función inicial puede estar de…nida por: 5.1. INTRODUCCIÓN f ([a1 ; b1 ) [a2 ; b2 ) [an ; bn )) = Qn k=1 (bk 131 ak ) Para el caso particular de R, la función inicial puede estar de…nida por: f ([a; b)) = G (b) G (a), donde G es una función de variación acotada continua por la izquierda. Finalmente, también siguiendo un procedimiento similar al de Lebesgue, Radon desarrolló una teoría de integración para las funcionales aditivas. Con base en el trabajo de Radon, Maurice René Fréchet extendió la teoría de la medida de Lebesgue a espacios abstractos en un artículo de 1915 titulado Sur l’integrale d’une fonctionnelle ètendue a un ensemble abstrait ([37]). Comenzó este artículo diciendo: “M. R J. Radon publicó recientemente (1913) una de…nición de la integral F (P ) dh (P ) de una función F (P ) de un punto P del espacio de n dimensiones con respecto a una función de P , h (P ), de variación acotada. Esta de…nición resulta de una especie de fusiòn de la integral de Lebesgue y de la integral de Stieltjes. La de…nición de M. J. Radon se reduce a la de M. Lebesgue cuando h es una función lineal y a la de Stieltjes cuando F es una función continua. Por cierto, la integral de Radon puede tambièn escribirse: R F (P ) df (e), E donde f (e) es una función aditiva del subconjunto variable e de E. Pero es bajo esta forma lo que me parece ser la gran ventaja de la de…nición de M. J. Radon, ventaja que no parece que él haya notado. M. J. Radon tenía como meta realizar un progreso en la teoría de funciones, uni…cando las de…niciones de Stieltjes y de M. Lebesgue. Pero, de hecho, se nota que, con algunas ligeras modi…caciones, la de…nición y las propiedades de la integral de M. Radon se extienden mucho màs allá del Cálculo integral clàsico, son casi inmediatamente aplicables al dominio in…nitamente más vasto del Cálculo Funcional.” Recordemos que Fréchet es uno de los precursores del Análisis Funcional. En 1906 presentó su tesis doctoral bajo el tìtulo Sur quelques points du calcul fonctionnelle ([36]), donde de…nió el concepto de métrica para un conjunto cualquiera. En su tesis doctoral y en trabajos posteriores desarrolló la teoría de los espacios métricos y en particular los espacios de funciones donde se puede de…nir una métrica, por ejemplo el conjunto de las funciones de cuadrado integrable con la métrica 1 Rb 2 de…nida por d (f; g) = a [f (x) g (x)]2 dx . 132 5. TEORÍA GENERAL DE LA MEDIDA En su artículo de 1915, Fréchet remarcaba que un conjunto es un conjunto abstracto cuando no conocemos la naturaleza de sus elementos o, lo que es lo mismo, cuando la naturaleza de sus elementos no interviene en los razonamientos que nos proponemos hacer sobre ese conjunto. De…nió una familia aditiva de conjuntos como una familia de conjuntos cerrada bajo diferencias y uniones …nitas o in…nito numerables. Obsérvese que una familia aditiva es cerrada bajo intersecciones …nitas o in…nito numerables. En efecto, si E1 ; E2 ; : : : es una colección …nita o in…nita numerable de elementos de la familia y E es su unión, entonces: T S En ). n En = E n (E La única condición que hace falta para tener una -álgebra es que el conjunto total sea parte de la familia. En seguida de…nió básicamente lo que después se llamaría una medida (incluyendo el caso de las medidas con signo): Si = es una familia aditiva y f es una función con valores reales, de…nida sobre =, se dice que f es aditiva si dada cualquier colección …nita o in…nita numerable, E1 ; E2 ; : : :, de elementos de =, ajenos por parejas, entonces: P S f ( n En ) = n f (En ). Si E1 ; E2 ; : : : es una familia in…nita numerable cualquiera, formada por elementos de = ajenos por parejas, sean F1 ; F2 ; : : : los elementos de esa familia tales que f aplicada a cualquiera de ellos es un número real no negativo, y sean G1 ; G2 ; : : : los elementos de esa familia tales que f aplicada a cualquiera de ellos es un número real negativo. Se tiene entonces: P S f ( n Fn ) = n f (Fn ). S P P f ( n Gn ) = n f (Gn ) = n jf (Gn )j. P P Así que las series n f (Fn ) y n jf (Gn )j son convergentes. P P Por lo tanto, la serie n jf (En )j es convergente; es decir, la serie n f (En ) es absolutamente convergente. Finalmente, Fréchet de…nió la integral con respecto a una funciòn aditiva utilizando el método de Darboux, el cual consiste en de…nir la integral superior y la integral inferior. En su artículo de 1923, al cual le siguió uno de 1924, Fréchet desarrolló aún más su teoría iniciada en 1915, quedando así ya establecido lo esencial de lo que posteriormente se llamaría la teoría de la medida y la teoría de integración con respecto a una medida. 5.1. INTRODUCCIÓN 133 Previamente, en el año 1914, Constantin Carathéodory, en un artículo titulado Über das lineare Mass von Punktmengen - eine Verallgemeinerung des Längenbegri¤s (Sobre la medida lineal de los conjuntos de puntos- una generalización del concepto de longitud) ([16]), estableció un método para de…nir una medida a partir de una medida exterior en Rn , el cual, prácticamente sin modi…caciòn, se puede utilizar para de…nir una medida a partir de una medida exterior de…nida sobre los subconjuntos de un conjunto cualquiera. Una medida exterior me es una función de…nida sobre todos los subconjuntos de un conjunto F , la cual satisface las siguientes propiedades: me (;) = 0, Si AS B, entonces P1me (A) me (B), 1 me ( n=1 An ) n=1 me (An ), Teniendo una medida exterior, se dice que un conjunto E F es medible si satisface la siguiente propiedad: me (A) = me (A \ E) + me (A \ E c ) para cualquier conjunto A F . El método de Carathéodory es el que quedó como estándar para de…nir una medida. Podría decirse que el ciclo de investigación alrededor de los conceptos de medida y de integral con respecto a una medida, así como de sus propiedades básicas, se cerró con el trabajo de Otton Nikodym de 1930 ([73]), donde prácticamente expuso la formulación moderna de la teoría de la medida y de la teoría de la integración con respecto a una medida. El camino seguido para llegar a esta formulación siguió …elmente la metodología de Lebesgue. Recordemos en síntesis como se dió el proceso: El problema central que trató Lebesgue fue el de la integración de funciones; así venía la historia desde que Cauchy formuló la de…nición de la integral para las funciones continuas; después vino el trabajo de Riemann, el cual marcó el camino posterior, siempre en la línea de resolver el problema de la integración de funciones. En las investigaciones alrededor de las condiciones para que una función sea Riemann-integrable surgió el concepto de contenido de un conjunto, lo cual fue ampliamente desarrollado por Jordan, mostrando que la teoría de integración se encuentra estrechamente vinculada con la teoría del contenido. Siguiendo este camino, Lebesgue encontró que, generalizando la teoría del contenido, para tener una familia más grande de subconjuntos de R a los cuales cuales se les puede asignar una medida, se obtiene también una generalización de la integral de Riemann, ampliando así la familia de funciones integrables. Sin embargo, lo anterior es únicamente parte de la historia. No hay que olvidar que el objetivo de Lebesgue era resolver el problema de la integración de funciones. Para ello, se planteó 134 5. TEORÍA GENERAL DE LA MEDIDA el problema de encontrar una de…nición de la integral, la cual cumpliera determinadas condiciones (las 6 que mencionamos en el capítulo 1). Planteado de esta manera, algunos vieron el problema como uno de Análisis Funcional. Esta línea fue desarrollada por Frédéric Riesz ([78], [79], [80]), y, sobre todo, por Perci John Daniell en 4 artículos publicados entre 1918 y 1920 ([21], [22], [23], [24]), donde el problema de la integral lo planteó como un problema de extensión de una funcional lineal, por ejemplo la extensión de la funcional que asigna a cada función continua en un intervalo su integral (de Riemann) en ese intervalo. Con este enfoque logró de…nir el concepto de integral en espacios de dimensión in…nita sin necesidad de construir una medida. En particular, su método fue utilizado por Norbert Wiener para construir un modelo matemático del movimiento browniano, aunque actualmente la manera usual de construir ese modelo es utilizando la teoría de la medida. En este libro seguiremos el primer enfoque, así que a continuación expondremos la formulación moderna de la Teoría de la Medida. 5.2. Medidas sobre álgebras y -álgebras Si analizamos la medida de…nida por Lebesgue, podemos ver que lo que obtuvo fue una función no negativa y -aditiva de…nida sobre una -álgebra de subconjuntos de R. Esta idea queda recogida en la siguiente de…nición, con el agregado de que la medida del vacío es cero, propiedad que tiene la medida de Lebesgue y cualquier función no negativa y -aditiva de…nida sobre una -álgebra de subconjuntos de un conjunto dado para la cual exista un elemento E de la -álgebra tal que (E) < 1. En otras palabras, la condición (;) = 0 es únicamente para excluir como medida a una función que asigne a todo elemento de la -álgebra el valor 1. Definición 5.1. Sea F un conjunto y = una -álgebra de subconjuntos de F. Se dice que una función no negativa : = 7! R es una medida si es -aditiva y (;) = 0. Definición 5.2. Llamaremos espacio de medida a una terna (F; =; ) donde F es un conjunto, = una -álgebra de subconjuntos de F y : = 7! R una medida. Definición 5.3. Sea (F; =; ) un espacio de medida. Diremos que es …nita si (F) < 1. Diremos que Ses -…nita si existe una colección in…nita numerable de conjuntos Ek 2 = tales que F = 1 (Ek ) < 1 para cualquier k. k=1 Ek y S Si es -…nita, los conjuntos Ek 2 = tales que F = 1 (Ek ) < 1 para cualquier k=1 Ek y k, pueden escogerse de tal forma que sean ajenos por parejas. En efecto, los conjuntos Sk 1 0 Ek0 = Ek E (Ek0 ) < 1 para cualquier k, y j=1 j son ajenos por parejas, Ek 2 = y S1 F = k=1 Ek0 . También pueden elegirse los conjuntos Ek de tal forma que la sucesión S (Ek )k2N sea creciente. En efecto, si se tiene una sucesión de conjuntos Ek 2 = tales que F = 1 E Skk=1 k 0 y (Ek ) < 1 para cualquier k, entonces, de…niendo, para cualquier k 2 N, Ek = j=1 Ej , 0 la sucesión Ek k2N es creciente y tiene la misma propiedad. 5.2. MEDIDAS SOBRE ÁLGEBRAS Y -ÁLGEBRAS 135 En general, una medida se obtiene de…niéndola primero para una familia de subconjuntos de un conjunto que no necesariamente forma una -álgebra; después se extiende a una familia más grande siguiendo el método de Lebesgue. Lo más común es buscar de…nirla sobre un álgebra de subconjuntos de un conjunto y después extenderla a la -álgebra generada por esa álgebra. En el caso de la medida de Lebesgue, se puede ver que la propiedad básica que permite la extensión de la medida de…nida sobre los intervalos es el lema 2.1. En el caso general, la propiedad básica que permite extender una medida sobre un álgebra es la -subaditividad de esa medida. Definición 5.4. Sea F un conjunto y A un álgebra de subconjuntos de F. Se dice que una función no negativa : A 7! R es -subaditiva, o que satisface la propiedad de la subaditividad S numerable, si dada cualquier colección in…nita A1 ; A2 ; : : : de elementos de A tales que 1 n=1 An 2 A, entonces: P1 S ( 1 n=1 (An ). n=1 An ) Definición 5.5. Sea F un conjunto y A un álgebra de subconjuntos de F. Diremos que una función no negativa : A 7! R es una quasi medida si es …nitamente aditiva, -subaditiva y (;) = 0. Como lo mencionamos antes, la condición de -subaditividad de una quasi medida de…nida sobre un álgebra A es la propiedad básica que se tiene que demostrar para poder extender esa medida a la -álgebra generada por A. Para ese …n los siguientes dos resultados son útiles pues dan condiciones equivalentes de tal propiedad. Teorema 5.1. Sea F un conjunto, A un álgebra de subconjuntos de F y : A ! R una función no negativa y …nitamente aditiva, entonces las siguientes propiedades son equivalentes: (i) es -subaditiva. (ii) es -aditiva. (iii) Para cualquier colección in…nitaSA1 ; A2 ; : : : de elementos de A tales que A1 S A 2 A, se tiene ( 1 ::: y 1 n=1 n n=1 An ) = l mn 1 (An ). A2 Demostración i () ii Supongamos que es -subaditiva ySsea A1 ; A2 ; : : : una colección numerable de elementos de A, ajenos por parejas y tales que j Aj 2 A. Se tiene: S Pn S P1 ( j Aj ) k=1 (Aj ) para cualquier n 2 N, así que ( j Aj ) k=1 (Aj ). Por lo tanto, es -aditiva. Supongamos ahora A1 ; A2 ; : : : una colección numerable de elementos S que es -aditiva y sea S S S n 1 de A tales que j Aj 2 A. Sea Bn = An j=1 Aj , entonces j Aj = j Bj , así que: 136 5. TEORÍA GENERAL DE LA MEDIDA S S P ( j Aj ) = ( j Bj ) = 1 k=1 (Bj ) ii =) iii P1 k=1 (Aj ). Supongamos que S es -aditiva y sea A1 ; A2 ; : : : una colección de elementos de A tales que A1 A2 : : : y 1 n=1 An 2 A. Si (Ak ) = 1 para alguna k 2 N, el resultado es inmediato. Supongamos entonces que (Ak ) < 1 para cualquier k 2 N. Se tiene entonces: S1 A1 ) [ (A3 A2 ) [ . n=1 An = A1 [ (A2 Así que: S P1 ( 1 n=1 An ) = k=1 (Ak = l mn 1 (An ), Ak 1 ) = l mn 1 Pn k=1 (Ak Ak 1 ) donde A0 = ;. iii =) i S Sea A1 ; A2 ; : : : una colección numerable de elementos de A tales que j Aj 2 A. Para cada S S S n 2 N, de…namos Bn = nj=1 Aj , entonces B1 B2 : : : y j Aj = j Bj , así que: P S S P ( j Aj ) = ( j Bj ) = l mn!1 (Bn ) l mn 1 nj=1 (Aj ) = 1 k=1 (Aj ). En la siguiente proposición, la función es …nita para cualquier elemento del álgebra A; de ahí que se tengan algunas propiedades adicionales a las de la proposición anterior. Teorema 5.2. Sea F un conjunto, A un álgebra de subconjuntos de F y : A ! R una función no negativa y …nitamente aditiva, entonces las siguientes propiedades son equivalentes: (i) es -subaditiva. (ii) es -aditiva. S (iii) Para cualquierS sucesión creciente (An )n2N , de elementos de A tales que 1 n=1 An 2 A, se tiene ( 1 A ) = l m (A ). n 1 n n=1 n T (iv) Para cualquier T sucesión decreciente (An )n2N , de elementos de A tales que 1 n=1 An 2 A, se tiene ( 1 A ) = l m (A ). n 1 n n=1 n T (v) Para cualquier sucesión decreciente (An )n2N , de elementos de A tales que 1 n=1 An = ;, se tiene l mn!1 (An ) = 0. Demostración La equivalencia de i, ii y iii ya se demostró para cualquier función función …nitamente aditiva. : A ! R+ [ f1g 5.2. MEDIDAS SOBRE ÁLGEBRAS Y -ÁLGEBRAS 137 iii =) iv es inmediato tomando complementos. iv =) v es inmediato pues v es un caso particular de iv. v =) ii Sea numerable de elementos de A, ajenos por S A1 ; A2 ; : : : una colección S1 Sn T1 parejas y tales que B2 : : : y n=1 Bn = ;. j Aj 2 A. Sea Bn = j=1 Aj j=1 Aj , entonces B1 Por lo tanto, l mn S ( 1 j=1 Aj ) = l mn 1 1 (Bn ) = 0, así que: S ( nj=1 Aj ) = l mn 1 Pn k=1 (Aj ) = P1 k=1 (Aj ). Teorema 5.3. Sea F un conjunto, A un álgebra de subconjuntos de F y : A ! R una quasi medida. Entonces, para cualquier sucesión T1 decreciente (An )n2N , de elementos de A, tales que (AN ) < 1 para alguna N 2 N y n=1 An 2 A, se tiene: T ( 1 n=1 An ) = l mn 1 (An ). Demostración Sea (An )n2N T1 sucesión decreciente de elementos de A tales que N 2 N y n=1 An 2 A. (AN ) < 1 para alguna Para cada k 2 fN + 1; N + 2; : : :g, de…namos Bk = AN Ak . Entonces la sucesión (BN +n )n2N es creciente y: T1 S1 n=N +1 An 2 A. n=N +1 Bn = AN Así que: T ( 1 n=1 An ) = = (AN ) l mn T1 n=N +1 1 (AN An = (AN ) S1 n=N +1 Bn AN +n ) = (AN ) = l mn!1 (AN +n ) = l mn 1 (An ). Como corolario, se tiene el siguiente resultado: Teorema 5.4. Sea (F; =; ) un espacio de medida. Entonces: (i) es -subaditiva. S (ii) Para cualquier sucesión creciente (An )n2N , de elementos de =, se tiene ( 1 n=1 An ) = l mn 1 (An ). (iii) Para cualquier sucesión decrecienteT(An )n2N , de elementos de = tales que (AN ) < 1 para alguna N 2 N, se tiene ( 1 n=1 An ) = l mn 1 (An ). Las propiedades ii y iii del teorema anterior dan la idea de que una medida es continua en un cierto sentido, aunque rigurosamente, para poder hablar de la continuidad de una medida se 138 5. TEORÍA GENERAL DE LA MEDIDA requiere que en el dominio donde está de…nida, en este caso una -álgebra de subconjuntos de un conjunto, se tenga de…nida una topología que nos permita hablar de vecindades y límites en ese dominio. No la tenemos de…nida; sin embargo, podemos de…nir lo que entendemos por el límite de una sucesión de conjuntos, cuando existe, basándonos en conceptos similares a los de límite superior e inferior de una sucesión de números reales. Definición 5.6. Si E es un conjunto y (An )n2N una sucesión de subconjuntos de E, de…nimos: S T1 l m nf n 1 An = 1 n=1 m=n Am , T S1 l m supn 1 An = 1 n=1 m=n Am , Si l m supn de l m nf n An = l m nf n!1 An , se dice que la sucesión (An )n2N converge y al valor común A 1 n y l m supn 1 An se le denota por l mn!1 An . 1 Obsérvese que el límite inferior de una sucesión (An )n2N de subconjuntos de un conjunto E es el conjunto formado por todos los elementos x 2 E tales que existe N 2 N tal que x 2 An para cualquier n N . Por su parte, el límite superior de una sucesión (An )n2N de subconjuntos de un conjunto E es el conjunto formado por todos los elementos x 2 E tales que x 2 An para una in…nidad de números naturales n. S1 Obsérvese también que si la sucesión (An )n2N es creciente, entonces T1 l mn!1 An = n=1 An ; mientras que si (An )n2N es decreciente, entonces l mn!1 An = n=1 An . Teorema 5.5. Sea (F; =; ) un espacio de medida. Supongamos que es …nita y sea (An )n2N una sucesión de elementos de = tal que l m supn 1 An = l m nf n 1 An , entonces la sucesión ( (An ))n2N es convergente y: (l mn 1 An ) = l mn 1 (An ). Demostración De…namos A = l m An . S T1 Para cada n 2 N de…namos Bn = 1 m=n Am y Cn = m=n Am . Entonces, la sucesión (Bn )n2N es decreciente y la sucesión (Cn )n2N es creciente. Además: S T1 S (l mn 1 An ) = (l m nf n 1 An ) = ( 1 ( 1 n=1 m=n Am ) = n=1 Cn ) = l mn 1 (Cn ), T S1 T (l mn 1 An ) = (l m supn 1 An ) = ( 1 ( 1 n=1 m=n Am ) = n=1 Bn ) = l mn 1 (Bn ). Por otra parte, para cualquier n 2 N, Bn (Cn ) (An ) Por lo tanto: An y Cn (Bn ) para cualquier n 2 N. An , así que: 5.3. CONSTRUCCIÓN DE MEDIDAS (l mn l mn 1 1 An ) = l mn (Bn ) = Así que, l m nf n 1 (Cn ) 1 (l mn 1 l m nf n 1 (An ) 139 l m supn 1 (An ) An ). (An ) = l m supn 1 (An ) = (l mn 1 An ). Por lo tanto, la sucesión ( (An ))n2N es convergente y: l mn 1 (An ) = (l mn 1 An ). 5.3. Construcción de medidas En esta sección F será un conjunto cualquiera …jo, A un álgebra de subconjuntos de F y 0 una quasi medida sobre A. Todos los conjuntos con los que trataremos serán subconjuntos de F. Vamos a ver cómo, siguiendo el método de Lebesgue, se puede extender una quasi medida, de…nida sobre un álgebra A de subconjuntos de un conjunto F, a la -álgebra, (A), generada por el álgebra. Primero de…niremos la medida exterior de cualquier subconjunto de F; después de…niremos la medibilidad de un conjunto utilizando el criterio de Carathéodory. Una vez hecho esto, mostraremos que la familia de conjuntos medibles forma una -álgebra, la cual contiene a los elementos de A y a los conjuntos de medida exterior cero. La medida de un conjunto medible la de…niremos como su medida exterior y mostraremos que la medida así de…nida, restringida a A, coincide con 0 . Definición 5.7. Diremos que una colección …nita oSin…nita numerable A1 ; A2 ; : : : de elementos de A es una cubierta del conjunto A si A n An . Definición 5.8. Se de…ne la medida exterior, e (A), de un conjunto A, mediante la relación nP o e (A) = nf j 0 (Aj ) : A1 ; A2 ; : : : es cubierta de A . Proposición 5.1. Si A y B son dos conjuntos tales que A Gracias a la -subaditividad de 0 B entonces e (A) e (B). se tiene el siguiente resultado: Proposición 5.2. Si A 2 A entonces e (A) = 0 (A). Demostración Sea A S 2 A y A1 ; A2 ; : : : una cubierta de A, entonces An \ A 2 A para cualquier n 2 N y A = n (An \ A); así que, como 0 es -subaditiva: P P 0 (A) n 0 (An \ A) n 0 (An ) Por lo tanto, como esto ocurre para cualquier cubierta de A, 0 (A) e (A). 140 5. TEORÍA GENERAL DE LA MEDIDA Por otra parte, como A es una cubierta de él mismo, se tiene e (A) 0 (A). Proposición 5.3. Si (An )n2N es una sucesión de conjuntos, entonces: S1 P1 e ( n=1 An ) n=1 e (An ). Demostración Si e (An ) = 1 para alguna n el resultado es trivial. Supongamos entonces que e (An ) < 1 para P toda n. Dada " > 0, "para cada conjunto An sea An1 ; An2 ; : : : una cubierta de ASn tal que m 0 (Anm ) < e (An ) + 2n . La familia de conjuntos Anm forman una cubierta de n An , así que: S P P P P " e ( n An ) e (An ) + 2n n m 0 (Anm ) n n e (An ) + "; P S es decir, e ( n An ) n e (An ) + " para cualquier " > 0. Por lo tanto: S P e ( n An ) n e (An ). Definición 5.9. Diremos que un conjunto E es medible si e (A) = e (A \ E) + e (A \ E c ) para cualquier conjunto A. Además, en este caso, se de…ne la medida de E, (E), como la medida exterior de E. Obsérvese que, por la -subaditividad de la medida exterior, se tiene: e (A) e (A \ E) + e (A \ E c) para cualquier par de conjuntos E y A, de manera que para demostrar la medibilidad de un conjunto E únicamente es necesario probar la otra desigualdad. Proposición 5.4. La familia de conjuntos medibles forma un álgebra de subconjuntos de F. Demostración Que el conjunto F es medible, así como que el complemento de un conjunto medible es medible, son resultados obvios. Sean E1 y E2 dos conjuntos medibles y A cualquier conjunto. Se tiene entonces: e = = (A \ (E1 [ E2 )) + e e (A \ (E1 [ E2 )c ) ((A \ E1 ) [ (A \ E1c \ E2 )) + e (A \ E1c \ E2c ) e (A \ E1c \ E2c ) e (A \ E1 ) + e (A \ E1c \ E2 ) + e (A \ E1 ) + e (A \ E1c ) = e (A). 5.3. CONSTRUCCIÓN DE MEDIDAS 141 Así que, E1 [ E2 es medible. Proposición 5.5. La función que asigna a cada conjunto medible E su medida, (E), es una función …nitamente aditiva. Demostración Sean E1 y E2 dos conjuntos medibles ajenos, entonces, como E1 [ E2 es medible, se tiene: (E1 [ E2 )) = = ((E1 [ E2 )) \ E1 ) + ((E1 [ E2 ) \ E1c ) (E1 ) + (E2 ). Proposición 5.6. La familia de conjuntos medibles forma una -álgebra de subconjuntos de F. Demostración Sea E1 ; E2 ; : : : una colección in…nita numerable de conjuntos medibles ajenos por parejas y A cualquier subconjunto de F. Demostremos que e P S A \ ( nj=1 Ej ) = nj=1 e (A \ Ej ) para cualquier n 2 N. Para n = 1 la igualdad es obvia. Supongamos ahora que la igualdad es válida para n = k, entonces, como Ek+1 es medible, se tiene: Sk+1 Sk+1 Sk+1 c e A \ ( j=1 Ej ) = e A \ ( j=1 Ej ) \ Ek+1 + e A \ ( j=1 Ej ) \ Ek+1 = = e (A \ Ek+1 ) + Pk+1 j=1 e (A e \ Ej ). S A \ ( kj=1 Ej ) = e (A \ Ek+1 ) + Pk j=1 e (A \ Ej ) Por lo tanto, la igualdad es válida para n = k + 1, así que, por el principio de inducción, lo es para cualquier n 2 N. Ahora bien, como la familia de S conjuntos medibles forma un álgebra de subconjuntos de F, para cada n 2 N el conjunto nj=1 Ej es medible, así que: e (A) = Pn = j=1 e S A \ ( nj=1 Ej ) + e (A \ Ej ) + e e S A \ ( nj=1 Ej )c S A \ ( nj=1 Ej )c 142 5. TEORÍA GENERAL DE LA MEDIDA Pn j=1 e (A \ Ej ) + e S c A\( 1 j=1 Ej ) . Tomando límite cuando n obtiene entonces: P1 e (A) j=1 e (A \ Ej ) + e S A\( 1 j=1 Ej ) + Por lo tanto, S1 j=1 e 1 y utilizando la e -subaditividad de la medida exterior,se S c A\( 1 j=1 Ej ) S c A\( 1 j=1 Ej ) . Ej es medible. Proposición 5.7. La función que asigna a cada conjunto medible E su medida, (E), es una función -aditiva. Demostración Sea E1 ; E2 ; : : : una colección in…nita numerable de conjuntos ajenos por parejas. P1 S medibles E ) Por la -subaditividad de la medida exterior, se tiene ( 1 j=1 (Ej ). Por otra j=1 j parte, por la aditividad …nita de la función que asigna a cada conjunto medible su medida, se tiene, para cualquier n 2 N: P S S ( nj=1 Ej ) = nj=1 (Ej ). ( 1 j=1 Ej ) Así que tomando límite cuando n P1 S ( 1 j=1 (Ej ). j=1 Ej ) 1, se Aiene: Si denotamos por M a la familia de los conjuntos medibles, sabemos ya que M forma una -álgebra de subconjuntos de F. Además, la función : M 7! R es no negativa, -aditiva y (;) = 0. Así que es un a medida de…nida sobre una -álgegra de subconjuntos de F. Lo que resta probar es que es una extensión de 0 . Vamos a demostrar que efectivamente esto es así y veremos que M es más grande que la -álgebra generada por A. Esto es análogo a lo que ocurre con la medida de Lebesgue, la cual está de…nida no únicamente sobre los subconjuntos borelianos de R, sino también sobre todos los conjuntos de medida cero. Proposición 5.8. Todo conjunto de medida exterior cero es medible. Demostración Sea E un conjunto de medida exterior cero y A cualquier conjunto, entonces A \ E tiene medida exterior cero, así que: e (A) e (A \ E c) = e (A \ E c) + e (A \ E). 5.3. CONSTRUCCIÓN DE MEDIDAS 143 Proposición 5.9. Todo elemento de A es medible. Demostración Sea E 2 A, A cualquier conjunto y A1 ; A2 ; : : : una cubierta de A, entonces, para cada An , los conjuntos An \ E y An \ E c pertenecen a A y se tiene: S S e (A \ E) e (( n An ) \ E) = e ( n (An \ E)) P P n e (An \ E) = n 0 (An \ E), S S c c c e (A \ E ) e (( n An ) \ E ) = e ( n (An \ E )) P P c c n e (An \ E ) = n 0 (An \ E ). Así que: e (A \ E) + e (A \ E c) P n 0 (An \ E) + P n 0 (An \ E c) = P n 0 (An ). Finalmente, como lo anterior es válido para cualquier cubierta de A, se puede concluir que: e (A \ E) + e (A \ E c) e (A). Proposición 5.10. Todo elemento de (A) es medible. Demostración El resultado es inmediato pues la familia de conjuntos medibles forma una -álgebra que contiene a los elementos de A. Los resultados anteriores pueden condensarse en el siguiente: Teorema 5.6 (Teorema de extensión de Carathéodory). Sea F un conjunto, A un álgebra de subconjuntos de F y 0 : A 7! R+ [ f1g una quasi medida. Entonces existe una medida : = 7! R+ [ f1g tal que (A) = 0 (A) para cualquier A 2 A, donde = es una -álgebra que contiene a (A) y a los conjuntos de medida exterior cero. Definición 5.10. Si F es un conjunto, A un álgebra de subconjuntos de F y 0 : A 7! R[f1g una quasi medida, a la medida : = 7! R+ [f1g del teorema anterior la llamaremos la medida generada por la quasi medida 0 . Ahora veremos que la familia de conjuntos medibles =, si bien es más grande que la álgebra generada por A, en general no es más grande que la -álgebra generada por A y los subconjuntos de F que tienen medida exterior cero. 144 5. TEORÍA GENERAL DE LA MEDIDA Obsérvese que si un conjunto B F tiene medida exterior cero, entonces, dada cualquier " >S 0 existe una P1colección in…nita numerable, A1 ; A2 : : :, de elementos de A tales que 1 B A y k=1 k k=1 0 (Ak ) < ". Proposición 5.11. Dado cualquier conjunto medible E, de medida …nita, existe B 2 (A) y un conjunto C, de medida exterior cero, tales que E = B [ C y B \ C = ;. Demostración Sea E un conjunto medible de medida …nita y, dada " > 0, sea A1 ; A2 ; : : : una cubierta de E tal que: P j (Aj ) < (E) + ". S A" = j Aj es entonces un elemento (A) tal que: P (E) < ". (A" E) = (A" ) (E) j (Aj ) Es decir, dada " > 0 existe A" 2 (A) tal que A" E y (A" E) < ". Sea entonces (Bn )n2N una sucesión decreciente de elementos de (A), que contengan a E, T1 tales que (An E) < n1 para cualquier n 2 N. Se tiene entonces E j=1 Aj T 1 (An E) < n1 para cualquier n 2 N, así que E = 0. j=1 Aj Por lo tanto, existe A 2 (A) tal que A E y (A E) = 0. Sea entonces D 2 (A) tal que D E c y (D E c ) = 0. Entonces B = Dc es un elemento de (A) tal que B E y (E B) = (E B c ) = (E \ B) = (B E c ) = 0, de manera que B 2 (A), F = E B es un conjunto de medida exterior cero y se tiene E = B [ F . Finalmente, de…namos C = F B, entonces C tiene medida exterior cero y se tiene E = B[C y B \ C = ;. Corolario 5.1. Si es -…nita, entonces, dado cualquier conjunto medible E existe B 2 (A) y un conjunto C, de medida exterior cero, tales que E = B [ C y B \ C = ;. Demostración Sea (Fk )k2N una sucesión creciente de conjuntos medibles tales que F = para cualquier k 2 N. S1 k=1 Fk y (Fk ) < 1 Para cada k 2 N, de…namos Ek = E \ Fk . Sea Bk 2 (A) y Ck un conjunto de medidaSexterior cero tales que Ek = Bk [Ck y Bk \Ck = ;, S 1 entonces tomando B = 1 B k=1 k y D = k=1 Ck , se tiene que B 2 (A), D tiene medida exterior cero y E = B [ D. 5.3. CONSTRUCCIÓN DE MEDIDAS 145 Finalmente, de…namos C = D B, entonces C tiene medida exterior cero y se tiene E = B[C y B \ C = ;. Corolario 5.2. Si es -…nita, la -álgebra de los conjuntos medibles es la generada por A y los conjuntos de medida exterior cero. -álgebra Proposición 5.12. Todo conjunto de medida exterior cero está contenido en un conjunto B 2 (A) de medida exterior cero. Demostración Sea A un conjunto de medida exterior cero. ParaScada n 2PN, sea fAnk g una colección 1 1 1 n n in…nita de elementos de A tales que A k=1 Ak y k=1 0 (Ak ) < n . De…namos Snumerable T 1 1 Bn = k=1 Ank y B = n=1 Bn . Entonces, B 2 (A), tiene medida exterior cero y A B. Definición 5.11. Sea F un conjunto, = una -álgebra de subconjuntos de F y una medida sobre =. Diremos que = es completa con respecto a si contiene a todos los subconjuntos de los conjuntos de medida igual a cero. Si una -álgebra =0 no es completa con respecto a una medida , se puede completar. En efecto, sea H la familia de conjuntos B 2 =0 tales que (B) = 0, entonces la familia = de conjuntos de la forma A [ E, donde A 2 =0 y E es un subconjunto de un conjunto B 2 H, forma una -álgebra de subconjuntos de F . La prueba de que F 2 = y que = es cerrada bajo uniones numerables es inmediata. Para probar que = es cerrada bajo complementos, sea C = A [ E 2 =, donde A 2 =0 y E es un subconjunto de un conjunto B 2 H. Entonces: C c = (A [ E)c = Ac \ E c = Ac \ [E c \ (B [ B c )] = Ac \ [(E c \ B) [ B c ] = (Ac \ B c ) [ (Ac \ E c \ B). Así que C c 2 =. Obsérvese que = es la -álgebra generada por =0 y los subconjuntos de conjuntos B 2 =0 de medida cero. Extendamos a = de…niendo junto de un conjunto B 2 H. Sea C 2 = tal que Así que: Como (A) = Sea ahora D a . (A [ E) = (A) para cualesquiera A 2 =0 y E un subcon- (C) = 0, entonces C = A [ E, en donde A 2 =0 y E (A [ E) = B, con B 2 H. (C) = 0, entonces A 2 H. C, entonces D A [ B, así que D 2 =. Es decir, = es completa con respecto 146 5. TEORÍA GENERAL DE LA MEDIDA Lo anterior también muestra que si C 2 = y (C) = 0, entonces C A [ B, con A; B 2 H. Por lo tanto, todo conjunto C 2 = de medida cero está contenido en un conjunto G 2 =0 de medida cero. Retomando el enunciado del teorema 5.6, la medida restringida a (A) sigue siendo una medida. La proposición 5.12 muestra entonces que si completamos (A) con respecto a , obtenemos la -álgebra generada por A y los conjuntos de medida exterior cero, es decir, recuperamos la medida de…nida sobre =. 5.4. Teorema de clases monótonas Es muy frecuente encontrar un problema del siguiente tipo: Se tiene un conjunto F, un álgebra A de subconjuntos de F y la -álgebra (A) generada por A y se quiere demostrar que una cierta propiedad es válida para todo elemento de (A). Un método para resolver este problema consiste en demostrar que la familia H de subconjuntos de F que tienen la propiedad deseada es una -álgebra que contiene a todos los elementos de A, de manera que entonces contiene a la -álgebra generada por A. Sin embargo, en ocasiones puede resultar sumamente complicado demostrar que efectivamente H forma una -álgebra, sobre todo la demostración de que H es cerrada bajo uniones o intersecciones …nitas. Para salvar esta di…cultad, se tienen, afortunadamente, los resultados que se exponen en esta sección, los cuales son conocidos como teoremas de clases monótonas, cuyo origen se deben al trabajo de Dynkin. Definición 5.12. Sea F un conjunto y G una familia de subconjuntos de F. Diremos que: (i) G es cerrada bajo complementos si Ac 2 G para cualquier A 2 G. (ii) G es cerrada bajo diferencias propias si B A 2 G para cualquier pareja A; B 2 G tal que A B. S (iii) G es cerrada bajo uniones (resp. intersecciones) …nitas si nj=1 Aj 2 G (resp. Tn de G. j=1 Aj 2 G) para cualquier colección …nita A1 ; A2 ; : : : ; An de elementos S (iv) G es cerrada bajo uniones (resp. intersecciones) monótonas si 1 A 2 G (resp. j=1 j T1 j=1 Aj 2 G) para cualquier sucesión creciente (resp. decreciente) (An )n2N , de elementos de G. Definición 5.13. Sea F un conjunto y M una familia de subconjuntos de F. Se dice que M es una clase monótona si es cerrada bajo uniones e intersecciones monótonas. Definición 5.14. Dado un conjunto F y una familia arbitraria de clases monótonas de subconjuntos de F, se de…ne la intersección de esas clases monótonas como la familia de conjuntos que pertenecen a todas ellas. Se puede ver fácilmente que la intersección de clases monótonas, de subconjuntos de un conjunto F, forma una clase monótona. 5.4. TEOREMA DE CLASES MONÓTONAS 147 Definición 5.15. Dada una colección A de subconjuntos de un conjunto F, se de…ne la clase monótona generada por A como la intersección de todas las clases monótonas que contienen a todos los elementos de A y se le denota por M(A). Obsérvese que la de…nición anterior es consistente pues dada cualquier colección A de subconjuntos de un conjunto F existe por lo menos una clase monótona que contiene a todos los conjuntos de A, a saber, la clase monótona formada por todos los subconjuntos de F. Obsérvese también que la clase monótona generada por una familia A de subconjuntos de un conjunto F es la más pequeña clase monótona de subconjuntos de F que contiene a todos los elementos de A. Teorema 5.7. Sea F un conjunto y A un álgebra de subconjuntos de F, entonces la clase monótona generada por A sigue siendo un álgebra. Demostración Para demostrar que M(A) es cerrada bajo complementos, sea: C = fA 2 M(A) : Ac 2 M(A)g. C es entonces una clase monótona. En efecto, si A1 A2 es una sucesión de S elementos de c C entonces, para cualquier n 2 N, se tiene A 2 M(A) y A 2 M(A), así que n S n n An 2 M(A) T c S c y ( n An ) = n An 2 M(A), por lo tanto, n An 2 C. De la misma manera se demuestra que C es cerrada bajo intersecciones monótonas. Obviamente C contiene a A, de manera que entonces se puede concluir que C contiene a M(A), lo cual prueba que M(A) es cerrada bajo complementos. Para demostrar que M(A) es cerrada bajo intersecciones …nitas, sea: C1 = fA 2 M(A) : A \ B 2 M(A) para cualquier B 2 Ag. C1 es entonces una clase monótona. En efecto, si A1 A2 es una sucesión de elementos de C1Sentonces, para cualquier n 2 N y B 2 A, se tiene A 2 M(A) y An \S B 2 M(A), así n S S que n An 2 M(A) y ( n An ) \ B = n (An \ B) 2 M(A), por lo tanto, n An 2 C1 . De la misma manera se demuestra que C1 es cerrada bajo intersecciones monótonas. Obviamente C1 contiene a A, de manera que entonces se puede concluir que C1 contiene a M(A), es decir, para cualquier A 2 M(A) y B 2 A, se tiene A \ B 2 M(A). Sea ahora: C2 = fA 2 M(A) : A \ B 2 M(A) para cualquier B 2 M(A)g. C2 es entonces una clase monótona. En efecto, si A1 A2 es una sucesión de elementos de C2 entonces, para cualquier n 2 N y B 2 M(A), se tiene An 2 M(A) y An \ B 2 M(A), 148 5. TEORÍA GENERAL DE LA MEDIDA S S S S así que n An 2 M(A) y ( n An ) \ B = n (An \ B) 2 M(A), por lo tanto, n An 2 C2 . De la misma manera se demuestra que C2 es cerrada bajo intersecciones monótonas. Como C1 contiene a M(A) se tiene que C2 contiene a A, de manera que entonces se puede concluir que C2 contiene a M(A), es decir, para cualesquiera A; B 2 M(A), se tiene A \ B 2 M(A). Corolario 5.3 (Teorema de clases monótonas para álgebras). Sea F un conjunto y A un álgebra de subconjuntos de F, entonces (A) = M(A). El teorema 5.7 puede ser insu…ciente pues en ocasiones únicamente se puede demostrar inmediatamente que la propiedad que se quiere probar como válida para cualquier elemento de una -álgebra se cumple para una familia de conjuntos que la generan y que es cerrada sólo bajo intersecciones …nitas (por ejemplo, la familia formada por todos los intervalos de números reales). Definición 5.16. Sea F un conjunto y P una familia de subconjuntos de F. Se dice que P es un -sistema si es cerrada bajo intersecciones …nitas. Definición 5.17. Sea F un conjunto y D una familia de subconjuntos de F. Se dice que D es un d-sistema si F 2 D y es cerrada bajo diferencias propias y uniones monótonas. Definición 5.18. Dado un conjunto F y una familia arbitraria de d-sistemas de subconjuntos de F, se de…ne la intersección de esos d-sistemas como la familia de conjuntos que pertenecen a todas ellas. Se puede ver fácilmente que la intersección de d-sistemas, de subconjuntos de un conjunto F, forma un d-sistema. Definición 5.19. Dada una colección G de subconjuntos de un conjunto F, se de…ne el dsistema generado por G como la intersección de todos los d-sistemas que contienen a todos los elementos de G y se le denota por d(G). Obsérvese que la de…nición anterior es consistente pues dada cualquier colección P de subconjuntos de un conjunto F existe por lo menos un d-sistema que contiene a todos los conjuntos de P, a saber, el d-sistema formada por todos los subconjuntos de F. Obsérvese también que el d-sistema generado por una familia P de subconjuntos de un conjunto F es el más pequeño d-sistema de subconjuntos de F que contiene a todos los elementos de P. Teorema 5.8. Sea F un conjunto y P un d-sistema generado por P es un -sistema. Demostración Sea: -sistema de subconjuntos de F, entonces el 5.5. UNICIDAD DE LA EXTENSIÓN DE UNA MEDIDA 149 C1 = fA 2 d(P) : A \ B 2 d(P) para cualquier B 2 Pg. C1 es entonces un d-sistema. En efecto, si A1 A2 es una sucesión de elementos de C1 entonces, para cualquier n 2 NS y B 2 P, se tiene An 2 d(P) y A S S Sn \ B 2 d(P), así que A 2 d(P) y ( A ) \ B = (A \ B) 2 d(P), por lo tanto, n n n n n n n An 2 C1 . Sean ahora A; C 2 C1 tales que A C, entonces A; C; A \ B; C \ B 2 d(P) y A \ B C \ B para cualquier B 2 P, así que C A 2 d(P) y (C A) \ B = C \ B A \ B 2 d(P), por lo tanto, C A 2 C1 . Finalmente, es obvio que F 2 C1 . Obviamente C1 contiene a P, de manera que entonces se puede concluir que C1 contiene a d(P), es decir, para cualquier A 2 d(P) y B 2 P, se tiene A \ B 2 d(P). Sea ahora: C2 = fA 2 d(P) : A \ B 2 d(P) para cualquier B 2 d(P)g. C2 es entonces un d-sistema. En efecto, si A1 A2 es una sucesión de elementos de C2 entonces, para cualquier n 2 N ySB 2 d(P), se tiene An 2 d(P) y S An \ B 2 d(P), así que S S (A \ B) 2 d(P), por lo tanto, A ) \ B = A 2 d(P) y ( n n An 2 C2 . Sean ahora n n n n n A; C 2 C2 tales que A C, entonces A; C; A \ B; C \ B 2 d(P) y A \ B C \ B para cualquier B 2 d(P), así que C A 2 d(P) y (C A) \ B = C \ B A \ B 2 d(P), por lo tanto, C A 2 C2 . Finalmente, es obvio que 2 C2 . Como C1 contiene a d(P), se tiene que C2 contiene a P, de manera que entonces se puede concluir que C2 contiene a d(P), es decir, para cualesquiera A; B 2 d(P), se tiene A \ B 2 d(P). Corolario 5.4 (Teorema de clases monótonas para pi sistemas). Sea F un conjunto y P un -sistema de subconjuntos de F, entonces d(P) = (P). 5.5. Unicidad de la extensión de una medida Teorema 5.9. Sea F un conjunto, A un álgebra de subconjuntos de F y 1 y 2 dos medidas de…nidas sobre (A), tales que 1 (A) = 2 (A) para cualquier A 2 A . Supongamos además S1 que existe una sucesión creciente (Fn )n2N de elementos de (A) tal que n=1 Fn = F y, para cualquier n 2 N, 1 (Fn ) = 2 (Fn ) < 1 y 1 (A \ Fn ) = 2 (A \ Fn ) para cualquier A 2 A. Entonces 1 (A) = 2 (A) para cualquier A 2 (A). Demostración Para cada n 2 N, de…namos: Hn = fA 2 (A) : 1 (A \ Fn ) = 2 (A \ Fn )g. Por hipótesis, A 2 Hn para cualquier A 2 A. 150 5. TEORÍA GENERAL DE LA MEDIDA Si (Am )m2N es una sucesión creciente de elementos de Hn , entonces: S1 S1 1 (( m=1 Am ) \ Fn ) = 1 ( m=1 (Am \ Fn )) = l mn 1 1 (Am \ Fn ) S S1 = l mn 1 2 (Am \ Fn ) = 2 ( 1 m=1 (Am \ Fn )) = 2 (( m=1 Am ) \ Fn ). S Así que 1 m=1 Am 2 Hn . Si (Am )m2N es una sucesión decreciente de elementos de Hn , entonces: T1 T1 1 (( m=1 Am ) \ Fn ) = 1 ( m=1 (Am \ Fn )) = l mn 1 1 (Am \ Fn ) T T1 = l mn 1 2 (Am \ Fn ) = 2 ( 1 m=1 (Am \ Fn )) = 2 (( m=1 Am ) \ Fn ). T Así que 1 m=1 Am 2 Hn . Hn es entonces una clase monótona que contiene a los elementos de A, así que Hn contiene a (A) = M(A). Finalmente, si A 2 (A), se tiene: 1 (A) = l mn 1 1 (A \ Fn ) = l mn 1 2 (A \ Fn ) = 2 (A). Corolario 5.5. Sea F un conjunto, A un álgebra de subconjuntos de F y 1 y 2 dos medidas …nitas de…nidas sobre (A), tales que 1 (A) = 2 (A) para cualquier A 2 A. Entonces 1 (A) = 2 (A) para cualquier A 2 (A). Corolario 5.6. Sea F un conjunto, A un álgebra de subconjuntos de F y 1 y 2 dos medidas de…nidas sobre (A), tales que 1 (A) = 2 (A) para cualquier A 2 A. Supongamos además que existe una sucesión (Fn )n2N de elementos de (A), ajenos por parejas, tal que S 1 n=1 Fn = F y, para cualquier n 2 N, 1 (Fn ) = 2 (Fn ) < 1 y 1 (A \ Fn ) = 2 (A \ Fn ) para cualquier A 2 A. Entonces 1 (A) = 2 (A) para cualquier A 2 (A). Corolario 5.7. Sea F un conjunto, A un álgebra de subconjuntos de F y 1 y 2 dos medidas de…nidas sobre (A), tales que 1 (A) = 2 (A) para cualquier S1A 2 A . Supongamos además que existe una sucesión (Fn )n2N de elementos de A tal que n=1 Fn = F y 1 (Fn ) = 2 (Fn ) < 1 para cualquier n 2 N. Entonces 1 (A) = 2 (A) para cualquier A 2 (A). Demostración S Para cada n 2 N, de…namos En = nk=1 Fk , entonces P En 2 A, así que 1 (A\Fn ) = 2 (A\Fn ) n para cualquier A 2 A. Además (E ) = (E ) n n 1 2 k=1 2 (Fn ) < 1 para cualquier n 2 N S1 S1 y n=1 En = n=1 Fn = F. Así que, por la proposición anterior, 1 (A) = 2 (A) para cualquier A 2 (A). Teorema 5.10. Sea F un conjunto, P un -sistema de subconjuntos de F y 1 y 2 dos medidas de…nidas sobre (P), tales que 1 (A) = 2 (A) para cualquier A 2 P. Supongamos 5.5. UNICIDAD DE LA EXTENSIÓN DE UNA MEDIDA 151 S1 además que existe una sucesión creciente (Fn )n2N de elementos de (P) tales que n=1 Fn = F y, para cualquier n 2 N, 1 (Fn ) = 2 (Fn ) < 1 y 1 (A \ Fn ) = 2 (A \ Fn ) para cualquier A 2 P. Entonces 1 (A) = 2 (A) para cualquier A 2 (P). Demostración Para cada n 2 N, de…namos: Hn = fA 2 (P) : 1 (A \ Fn ) = 2 (A \ Fn )g. Obviamente, F 2 Hn y, por hipótesis, A 2 Hn para cualquier A 2 P. Si A; B 2 Hn y A 1 ((B = 2 (B B, entonces: A) \ Fn ) = \ Fn ) Así que B 1 (B 2 (A \ Fn \ Fn ) = A \ Fn ) = 2 (B \ Fn 1 (B \ Fn ) A \ Fn ) = 1 (A 2 ((B \ Fn ) A) \ Fn ). A 2 Hn . Si (Am )m2N es una sucesión creciente de elementos de Hn , entonces: S1 S1 1 (( m=1 Am ) \ Fn ) = 1 ( m=1 (Am \ Fn )) = l mn 1 1 (Am \ Fn ). S1 S = l mn 1 2 (Am \ Fn ) = 2 ( 1 m=1 (Am \ Fn )) = 2 (( m=1 Am ) \ Fn ) S Así que 1 m=1 Am 2 Hn . Hn es entonces un d-sistema que contiene a los elementos de P, así que Hn contiene a (P) = d(P). Finalmente, si A 2 (P), se tiene: 1 (A) = l mn 1 1 (A \ Fn ) = l mn 1 2 (A \ Fn ) = 2 (A). Corolario 5.8. Sea F un conjunto, P un -sistema de subconjuntos de F y 1 y 2 dos medidas …nitas de…nidas sobre (P), tales que 1 (F) = 2 (F) y 1 (A) = 2 (A) para cualquier A 2 P. Entonces 1 (A) = 2 (A) para cualquier A 2 (P). Corolario 5.9. Sea F un conjunto, P un -sistema de subconjuntos de F y 1 y 2 dos medidas de…nidas sobre (P), tales que 1 (A) = 2 (A) para cualquier A 2 P. Supongamos además que existe una sucesión (Fn )n2N de elementos de (P), ajenos por parejas, tal que S1 F n=1 n = F y, para cualquier n 2 N, 1 (Fn ) = 2 (Fn ) < 1 y 1 (A \ Fn ) = 2 (A \ Fn ) para cualquier A 2 P. Entonces 1 (A) = 2 (A) para cualquier A 2 (P). Corolario 5.10. Sea F un conjunto, P un -sistema de subconjuntos de F y 1 y 2 dos medidas de…nidas sobre (P), tales que 1 (A) = 2 (A) para cualquier S A 2 P. Supongamos además que existe una sucesión (Fn )n2N de elementos de P tales que 1 n=1 Fn = F y 1 (Fn ) = 2 (Fn ) < 1 , para cualquier n 2 N. Entonces 1 (A) = 2 (A) para cualquier A 2 (P). 152 5. TEORÍA GENERAL DE LA MEDIDA Demostración Para cada n 2 N, de…namos En = Sn k=1 Fk : Por la proposición 2.11, se tiene 1 (En ) = 2 (En ). Pn Además, 1 (En ) = 2 (En ) k=1 2 (Fn ) < 1 para cualquier n 2 N y: S1 S1 n=1 En = n=1 Fn = F. Si A 2 P, nuevamente por proposición 2.11, se tiene: Sn Sn 1 (A \ En ) = 1 (A \ ( k=1 Fk )) = 1 ( k=1 (A \ Fk )) S S = 2 ( nk=1 (A \ Fk )) = 2 (A \ ( nk=1 Fk )) = 2 (A \ En ). Así que, por la proposición anterior, 1 (A) = 2 (A) para cualquier A 2 (P). 5.6. Medidas con signo Definición 5.20. Se dice que una función : = 7! R [ f 1; 1g es -aditiva si toma a lo más uno de los valores +1 y 1, y, dada cualquier familia numerable, A1 ; A2 ; : : :, de 1 S P elementos de = tal que Ai \ Aj = ; para i 6= j, entonces Ak = 1 k=1 (Ak ), donde la serie P1 k=1 (Ak ) converge absolutamente cuando Definición 5.21. e dice que las siguientes condiciones 1 S k=1 k=1 Ak 2 R. : = 7! R [ f 1; 1g es una medida con signo si se cumplen (i) (;) = 0. (ii) es -aditiva. Definición 5.22. Sea una medida con signo y A 2 =. Se dice que A es un conjunto positivo (resp. negativo) con respecto a si (E) 0 (resp. (E) 0) para cualquier conjunto medible E A. Proposición 5.13. La unión de una colección …nita o in…nita numerable de conjuntos positivos es un conjunto positivo. Demostración S Sea fAn g una colección …nita o in…nita numerable de conjuntos positivos, A = n An , E un conjunto medible contenido en ASy En0 = E \ An \ Ac1 \ \ Acn 1 . Entonces los conjuntos En0 son ajenos por parejas, E = n En0 y, como En0 An , (En0 ) 0; así que (E) 0. 5.6. MEDIDAS CON SIGNO 153 Teorema 5.11. Sea una medida con signo y E un conjunto medible tal que 0 < (E) < 1. Entonces existe un conjunto positivo A E tal que 0 < (A) < 1 y C = E A es un conjunto negativo. Demostración La idea consiste en irle quitando al conjunto E conjuntos medibles de medida negativa hasta legar a un conjunto con la propiedad deseada. Obsérvese que si B es un subconjunto de E de medida menor o igual a 0, entonces, como E = B [ (E B), se tiene 0 < (E B) < 1. Por otra parte, E no contiene subconjuntos de medida 1 pues si B fuera un subconjunto medible de E de medida 1, se tendría E = B [ (E B), con (E B) < 1, así que (E) = 1. E tampoco contiene subconjuntos de medida 1 pues si B fuera un subconjunto medible de E de medida 1, se tendría E = B [ (E B), con (E B) > 1, así que (E) = 1. Ahora obsérvese que dada " > 0, existe un conjunto medible B E tal que (B) 0y E B no contiene ningún subconjunto de medida menor que ". En efecto, si no existe un conjunto medible B1 E tal que (B1 ) < ", tomemos B = ;; en otro caso, si no existe un conjunto medible B2 E B1 tal que (B2 ) < ", tomemos B = B1 ; en otro caso, si no existe un conjunto medible B3 E B1 [ B2 tal que (B3 ) < ", tomemos B = B1 [ B2 . Continuando con este procedimiento, se llega, en un número …nito de pasos, a la obtención de un conjunto B con la propiedad deseada, pues si el procedimiento continuara inde…nidamente obtendríamos una colección in…nita de conjuntos medibles contenidos en E, ajenos por parejas, cuya unión sería un subconjunto medible de E de medida 1. Tomemos entonces un conjunto medible B1 E tal que (B1 ) 0 y E B1 no contiene ningún subconjunto de medida menor que 1. Inductivamente podemos obtener una colección in…nita B1 ; B2 ; : : : de conjuntos medibles contenidos en E, ajenos por parejas y tales que E [nk=1 Bk no contiene ningún subconjunto de medida menor que n1 . De…niendo B = [1 0 y A = E B no contiene ningún subconjunto medible k=1 Bk , se tiene que (B) de medida negativa, es decir, es un conjunto positivo tal que 0 < (A) < 1. Hemos demostrado hasta aquí que existe un conjunto positivo A Sea A1 un conjunto positivo cualquiera tal que A1 E tal que 0 < (A) < 1. E y 0 < (A1 ) < 1. Demostremos ahora que dada " > 0, existe un conjunto positivo A E tal que 0 < (A) < 1 y E A no contiene ningún conjunto positivo de medida mayor que ". En efecto, si no existe un conjunto positivo A2 E A1 tal que (A2 ) > 1, tomemos A = A1 ; en otro caso, si no existe un conjunto positivo A3 E A1 [ A2 tal que (A3 ) > 1, tomemos A = A1 [ A2 ; en otro caso, si no existe un conjunto positivo A4 E A1 [ A2 [ A3 tal que (A3 ) > 1, tomemos A = A1 [ A2 [ A3 . Continuando con este procedimiento, se llega, en un número …nito de pasos, a la obtención de un conjunto A con la propiedad deseada, pues si el 154 5. TEORÍA GENERAL DE LA MEDIDA procedimiento continuara inde…nidamente obtendríamos una colección in…nita de conjuntos medibles contenidos en E, ajenos por parejas, cuya unión sería un subconjunto medible de E de medida 1. Tomemos entonces un conjunto positivo A1 E tal que 0 < (A1 ) < 1 y E A1 no contiene ningún conjunto positivo de medida mayor que 1. Inductivamente podemos obtener una colección in…nita A1 ; A2 ; : : : de conjuntos medibles contenidos en E, ajenos por parejas y tales que E [nk=1 Bk no contiene ningún subconjunto de medida menor que n1 . De…niendo 0 y A = E B no contiene ningún subconjunto medible B = [1 k=1 Bk , se tiene que (B) de medida negativa, es decir, es un conjunto positivo tal que 0 < (A) < 1. Si E es un conjunto positivo, de…nimos A = E y termina la demostración. En otro caso, existe un conjunto medible B E tal que (B) < 0. Sea n1 el más pequeño entero positivo para el cual existe un conjunto medible B E tal que (B) < n11 , B1 un conjunto medible con esa propiedad y E1 = E B1 . Entonces se tiene 0 < (E1 ) < 1. Si E1 es un conjunto positivo, de…nimos A = E1 y termina la demostración. En otro caso, existe un conjunto medible B E1 tal que (B) < 0. Sea n2 el más pequeño entero positivo para el cual existe un conjunto medible B E1 tal que (B) < n12 , B2 un conjunto medible con esa propiedad y E2 = E1 B2 . Entonces se tiene 0 < (E2 ) < 1. Continuando con este proceso, o bien se llega al resultado deseado en un número …nito de pasos, o bien se obtiene una sucesión de enteros positivos (nk ) y sucesión (Bk ) de subconjuntos 1 para cualquier medibles de E tales que, para cualquier k 2 N, (Bk ) < n1k y (B) nk 1 S1 Sk subconjunto medible B E j=1 Bj . Entonces j=1 Bj . En este último caso, sea A = E se tiene 0 < (A) < 1. Obsérvese ahora que necesariamente se tiene nk nk+1 . Además, cada término nk se repite, a lo más, un número …nito de veces pues de otra manera la unión de los correspondientes conjuntos Bk sería un conjunto medible de E de medida 1. Por lo tanto, l mk 1 nk = 1. Sk Finalmente, como A E j=1 Bj para cualquier k 2 N, entonces, dado cualquier subcon1 junto medible B A se tiene (B) para cualquier k 2 N. Por lo tanto, tomando nk 1 límite cuando k 1, se tiene (B) 0, así que A es un conjunto positivo. Teorema 5.12 (Teorema de descomposición de Hahn). Sea una medida con signo. Entonces existe un conjunto positivo A y un conjunto negativo B tales que A \ B = ; y F = A [ B. Demostración La idea consiste en lo siguiente: Si no toma el valor +1, se trata de encontrar un conjunto positivo de medida máxima. El complemento de ese conjunto es entonces, necesariamente, un conjunto negativo. 5.6. MEDIDAS CON SIGNO 155 Si no toma el valor 1, se trata de encontrar un conjunto negativo de medida mínima. El complemento de ese conjunto es entonces, necesariamente, un conjunto positivo. Supongamos que Sea no toma el valor +1. = sup f (A) : A es un conjunto positivo con respecto a g. Como el conjunto vacío es positivo, se tiene 0. Sea fAn g una sucesión de conjuntos positivos tales que y B = Ac . = l mn 1 (An ) y sean A = S n An A es un conjunto positivo por ser la unión numerable de conjuntos positivos. Por ser A un conjunto positivo, se tiene (A). Por otra parte, A An A para cualquier n, así que (A An ) 0. Así que, (A) = v(An ) + (A An ) v(An ) para cualquier n. Por lo tanto, tomando límite cuando n ! 1, se tiene (A) . Se concluye entonces que = (A), así que < 1. Para probar que B es un conjunto negativo, supongamos que existe un conjunto medible E B tal que (E) > 0, entonces, por la proposición 5.11, existe un conjunto positivo D E tal que (D) > 0. Por lo tanto, A [ D es un conjunto positivo y como A y D son ajenos, se tiene (A [ D) = (A) + (D) = + (D) > , lo cual es una contradicción. Definición 5.23. Sea una medida con signo. Entonces una pareja de conjuntos medibles (A; B) tales que A es positivo, B es negativo, A \ B = ; y F = A [ B, es llamada una descomposición de Hahn para . Teorema 5.13. Sea : (F; =) 7! R [ f 1; 1g una medida con signo, entonces existen dos medidas + y sobre (F; =) con las siguientes propiedades: (i) Por lo menos una de las dos medidas, + y , es …nita. (ii) = + (iii) Existen dos conjuntos A; B 2 = tales que A \ B = ;, F = A [ B y + (B) = 0: Además, las medidas + y , con estas propiedades, son únicas. Demostración Sea (A; B) una descomposición de Hahn para . Para cada E 2 = de…namos: + (E) = (E \ A), (E) = (E \ B). (A) = 156 + 5. TEORÍA GENERAL DE LA MEDIDA y son entonces medidas sobre (F; =) tales que: + (A) = (B) = 0 y + (E) = (E) para cualquier E 2 =. (E) Como toma a lo más uno de los valores +1 y + y , es …nita. 1, por lo menos una de las dos medidas, Para la unicidad, supongamos que + y + son dos parejas de medidas sobre 1; 1 2; 2 (F; =) que satisfacen las propiedades 1, 2 y 3, y sean A1 ; B1 ; A2 ; B2 2 = tales que: A1 \ B1 = ;, F = A1 [ B1 y 1 (A1 ) = + 1 (B1 ) = 0, A2 \ B2 = ;, F = A2 [ B2 y 2 (A2 ) = + 2 (B2 ) = 0. Se tiene entonces: (A1 \ B2 ) = + 1 (A1 \ B2 ) 1 (A1 \ B2 ) = (A1 \ B2 ) = + 2 (A1 \ B2 ) 2 (A1 \ B2 ) = 2 (A1 \ B2 ) 0, (A2 \ B1 ) = + 1 (A2 \ B1 ) 1 (A2 \ B2 ) = 1 (A2 \ B2 ) 0, (A2 \ B1 ) = + 2 (A2 \ B1 ) 2 (A2 \ B1 ) = Así que, + 1 + 2 (A1 \ B2 ) 0, (A2 \ B1 ) 0. (A1 \ B2 ) = (A2 \ B1 ) = 0. Por lo tanto: + 1 (A1 \ B2 ) = 1 (A1 \ B2 ) = 0, + 2 (A1 \ B2 ) = 2 (A1 \ B2 ) = 0, + 1 (A2 \ B1 ) = 1 (A2 \ B1 ) = 0, + 2 (A2 \ B1 ) = 2 (A2 \ B1 ) = 0. Entonces: Si C 2 = y C A1 , se tiene: (C \ A2 ) = + 1 (C \ A2 ) = + 1 (C \ A2 ) + + 1 (C \ B2 ) = + 1 (C), (C \ A2 ) = + 2 (C \ A2 ) = + 2 (C \ A2 ) + + 2 (C \ B2 ) = + 2 (C). Por lo tanto: + 1 + 2 (C) = Así que Además: + 1 (C). y + 2 son iguales sobre A1 . 5.6. MEDIDAS CON SIGNO + 2 + 2 (B1 ) = + 1 Así que, (B1 \ A2 ) + + 2 y + 1 Por lo tanto, Si D 2 = y D + 2 157 (B1 \ B2 ) = 0. son iguales sobre B1 . y + 2 son iguales sobre F, es decir, + 1 = + 2. B1 , se tiene: (D \ B2 ) = 1 (D \ B2 ) = 1 (D \ B2 ) 1 (D \ A2 ) = 1 (D), (D \ B2 ) = 2 (D \ B2 ) = 2 (D \ B2 ) 2 (D \ A2 ) = 2 (D). Por lo tanto: 1 (D) = Así que (D). 2 1 y 2 son iguales sobre B1 . Además: 2 (A1 ) = Así que, 2 1 y Por lo tanto, (A1 \ A2 ) + 2 1 2 (A1 \ B2 ) = 0. son iguales sobre A1 . y 2 son iguales sobre F, es decir, Corolario 5.11. Sea 1 = 2 . : (F; =) 7! R [ f 1; 1g una medida con signo, Entonces: (i) Para cualquier sucesión creciente (An )n2N de elementos de =, se tiene: S A ) ( 1 n=1 n = l mn 1 (An ). (ii) Para cualquier sucesión decreciente (An )n2N de elementos de =, tales que (A1 ) < 1, se T tiene: ( 1 n=1 An ) = l mn!1 (An ). Demostración Sean + y dos medidas sobre (R; B (R)) tales que: 1. Por lo menos una de las dos medidas, 2. = + y , es …nita. + 3. Existen dos conjuntos A; B 2 = tales que A \ B = ;, F = A [ B y i) Se tiene: S + ( 1 n=1 An ) = l mn!1 S ( 1 n=1 An ) = l mn!1 + (An ) (An ) (A) = + (B) = 0: 158 5. TEORÍA GENERAL DE LA MEDIDA S1 + + Como por lo menos una de las dos medidas, y , es …nita, se tiene que ( n=1 An ) y S1 ( n=1 An ) no pueden ser ambas 1. Así que: S S S + + ( 1 ( 1 ( 1 (An ) (An )) = l mn 1 (An ) n=1 An ) = n=1 An ) n=1 An ) = l mn 1 ( ii) Como por lo menos una de las dos medidas, (A1 ) < 1. Así que: T + + ( 1 (An ) < 1. n=1 An ) = l mn!1 T ( 1 (An ) < 1. n=1 An ) = l mn!1 Por lo tanto: T ( 1 n=1 An ) = + T ( 1 n=1 An ) + T ( 1 n=1 An ) = l mn y 1 , es …nita, se tiene ( + (An ) + (A1 ) < 1 y (An )) = l mn 1 (An ). Los siguientes resultados se demuestran de forma idéntica a la realizada en el caso de las medidas. Proposición 5.14. Sea F un conjunto, A un álgebra de subconjuntos de F y 1 y 2 dos medidas con signo de…nidas sobre (A), tales que 1 (A) = 2 (A) para cualquier A 2 A . Supongamos además que existe una sucesión creciente (Fn )n2N de elementos de (A) tal S1 que n=1 Fn = F y, para cualquier n 2 N, 1 (Fn ) = 2 (Fn ) < 1 y 1 (A \ Fn ) = 2 (A \ Fn ) para cualquier A 2 A. Entonces 1 (A) = 2 (A) para cualquier A 2 (A). Proposición 5.15. Sea F un conjunto, P un -sistema de subconjuntos de F y 1 y 2 dos medidas con signo de…nidas sobre (P), tales que 1 (A) = 2 (A) para cualquier A 2 P. Supongamos además que existe una sucesión creciente (Fn )n2N de elementos de (P) tal S1 que n=1 Fn = F y, para cualquier n 2 N, 1 (Fn ) = 2 (Fn ) < 1 y 1 (A \ Fn ) = 2 (A \ Fn ) para cualquier A 2 P. Entonces 1 (A) = 2 (A) para cualquier A 2 (P). CAPÍTULO 6 MEDIDAS EN (R; B (R)) La de…nición de la integral de Riemann-Stieltjes de una función f con respecto a una función g, ambas de…nidas en un intervalo [a; b], sugiere que se podría obtener una medida, sobre los borelianos de [a; b], partiendo de que la medida de un intervalo de extremos x1 y x2 , ambos en el intervalo [a; b], puede de…nirse como la diferencia g (x2 ) g (x1 ). En general, esa diferencia podría ser positiva o negativa, de manera que estaríamos generando una medida con signo a partir de la función g. Como una medida con signo se puede expresar como la diferencia de dos medidas, podemos analizar primero bajo que condiciones una función h : [a; b] ! R genera una medida partiendo, como se indicó antes, de que la medida de un intervalo es la diferencia de los valores de h en sus extremos. En primer lugar, es evidente que, para que la medida de los intervalos así de…nida sea no negativa, se requiere que h sea una función no decreciente. De manera que, dada una función g, para que se pueda generar una medida partiendo de que la medida de un intervalo es la diferencia de los valores de g en sus extremos, se requiere que g sea de variación acotada. Tomemos entonces una función h : [a; b] ! R no decreciente y supongamos que podemos de…nir una medida h , sobre los borelianos de [a; b], tal que la medida de un intervalo es la diferencia de los valores de h en sus extremos. Si h ((c; d)) = h(d) h(c) para cualquier intervalo (c; d) contenido en (a; b), entonces, dado uno de esos intervalos, si ((cn ; dn ))n2N es una suceción creciente de intervalos cuya unión es el intervalo (c; d), se tiene h(d) h(c) = h ((c; d)) = l mn 1 h ((cn ; dn )) = l mn 1 (h(dn ) h(cn )), así que h tiene que ser continua por la derecha en c y continua por la izquierda en d. Siendo esto válido para cualquier intervalo (c; d) contenido en [a; b], h tiene que ser continua en el intervalo (a; b). En este caso, la medida de un intervalo, de cualquier tipo, de extremos c y d, con c; d 2 (a; b), es igual a h(d) h(c). De la misma manera: Si h ([c; d]) = h(d) h(c) para cualquier intervalo [c; d] contenido en (a; b), entonces h tiene que ser continua en el intervalo (a; b) y la medida de un intervalo, de cualquier tipo, de extremos c y d, con c; d 2 (a; b), es igual a h(d) h(c). 159 160 6. MEDIDAS EN (R; (R)) Si h ([c; d)) = h(d) h(c) para cualquier intervalo [c; d) contenido en (a; b), entonces h tiene que ser continua por la izquierda en el intervalo (a; b). Si h ((c; d]) = h(d) h(c) para cualquier intervalo (c; d] contenido en (a; b), entonces h tiene que ser continua por la derecha en el intervalo (a; b). Vamos a demostrar que, en cualquiera de estos cuatro casos, se puede generar la medida h . Basta con demostrarlo para los dos últimos casos ya que cualquiera de ellos contiene, como casos particulares, a los dos primeros. El método para generar la medida h será el que expusimos en la sección 5.3 del capítulo anterior. Es decir, de…niendo primero una quasi medida sobre el álgebra generada por los intervalos de la forma [c; d) para el caso de una función no decreciente continua por la izquierda o por los intervalos de la forma (c; d] para el caso de una función no decreciente continua por la derecha. Vamos a tratar un caso más general, el de una función F : R 7! R no decreciente, para la cual demostraremos que existe una única medida F , de…nida sobre los conjuntos borelianos de R, tal que, para cualquier pareja de números reales, a y b, tales que a < b, se tiene: F ((a; b]) = F (b+) F (a+), F ([a; b)) = F (b ) F (a ). o equivalentemente: Una medida con esta propiedad es …nita sobre los intervalos acotados. Demostraremos entonces el resultado inverso, es decir, que dada cualquier medida sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita, existe una función no decreciente F : R 7! R tal que, para cualquier pareja de números reales, a y b, tales que a < b, se tiene: ((a; b]) = F (b+) F (a+), ([a; b)) = F (b ) F (a ). Una función no decreciente F con esta propiedad no es única ya que, por ejemplo, si c 2 R, la función F + c es no decreciente y cumple con la misma propiedad. Sin embargo, lo que se puede probar es que si F1 y F2 son dos funciones no decrecientes que satisfacen esta propiedad, entonces las funciones x ! (F1 F2 ) (x+) y x ! (F1 F2 ) (x ), de…nidas sobre R, son constantes. Si nos restringimos a las funciones no decrecientes y continuas por la derecha o a las no decrecientes y continuas por la izquierda, entonces, dadas dos funciones F1 y F2 que satisfacen dicha propiedad, existe c 2 R tal que F2 F1 = c. 6.1. MEDIDAS Y FUNCIONES NO DECRECIENTES 161 Por lo tanto, si identi…camos a las funciones no decrecientes continuas por la derecha (resp. continuas por la izquierda) cuya diferencia es constante, podemos a…rmar que hay una correspondencia uno a uno entre las funciones no decrecientes continuas por la derecha (resp. continuas por la izquierda) y las medidas de…nidas sobre los conjuntos borelianos de R tal que los intervalos acotados tienen medida …nita. De manera más especí…ca, si F1 : R 7! R y F2 : R 7! R son dos funciones no decrecientes continuas por la derecha (resp. continuas por la izquierda), diremos que son equivalentes si existe c 2 R tal que F2 F1 = c. Denotemos por M al conjunto de medidas, de…nidas sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita, y por C + (resp. C ) al conjunto de clases de equivalencia en las cuales queda partido el conjunto de funciones no decrecientes continuas por la derecha (resp. continuas por la izquierda) bajo la relación de equivalencia así de…nida. Entonces, existe una función biyectiva H : C + ! M (resp. H : C ! M) tal que si X = H (X), entonces, para cualquier pareja de números reales, a y b, tales que a < b, se tiene: X ((a; b]) = F (b) F (a) (resp. X ([a; b)) = F (b) F (a)) para cualquier función F 2 X. En otras palabras, toda función no decreciente continua por la derecha (resp. continua por la izquierda) representa una única medida, de…nida sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita. Inversamente, toda medida de…nida sobre los conjuntos borelianos de R tal que los intervalos acotados tienen medida …nita representa una única (módulo la relación de equivalencia de…nida) función no decreciente continua por la derecha (resp. continua por la izquierda). 6.1. Medidas y funciones no decrecientes Sea F : R 7! R una función no decreciente y continua por la derecha y de…namos: F (1) = l mx 1 F ( 1) = l mx! F (x), 1 F (x). Si a; b 2 R [ f 1; 1g y a < b, de…namos (a; bj de la siguiente manera: (a; bj = (a; b] si b 2 R (a; b) si b = 1 Sea I la familia de los intervalos de este tipo, agregando al vacío como parte de la familia. De…namos F (;) = 0 y, para cada intervalo I = (a; bj 2 I; F (I) = F (b) F (a). 162 6. MEDIDAS EN (R; (R)) Se podría tener F (1) = 1 y F ( 1) = 1, lo cual no sería problema para la de…nición de F (( 1; 1)) pues, con las convenciones que hemos hecho, se tendría F (( 1; 1)) = 1 ( 1) = 1 + 1 = 1. El resultado central que se requiere demostrar para poder extender conjuntos borelianos en R es el siguiente: F a la -álgebra de los Sea (a; bj S12 I y (a1 ; b1 j ; (a2 ; b2 j ; : : : una colección in…nita de intervalos en I tales que (a; bj k=1 (ak ; bk j. Entonces: F (b) P1 F (a) k=1 [F (bk ) F (ak )]. Lema 6.1. Sea I = (a; bj 2 I y a(1) ; b(1) ; a(2) ; b(2) ; : : : ; a(m) ; b(m) , una colección …nita de S (j) (j) , entonces: intervalos en I, ajenos por parejas, tal que I = m j=1 a ; b Pm a(j) ; b(j) . F (I) = j=1 F Demostración Como los intervalos a(1) ; b(1) ; a(2) ; b(2) ; : : : ; a(m) ; b(m) son ajenos por parejas y su unión es (a; bj, podemos ordenarlos para obtener una colección de intervalos ajenos por parejas, x(1) ; y (1) ; x(2) ; y (2) ; : : : ; x(m) ; y (m) , de tal forma que: a = x(1) < y (1) = x(2) < y (2) = x(2) < Así que: Pm j=1 a(j) ; b(j) F = F (b) F (a) = = F Pm j=1 (I) F = x(m) < y (m) = b y (j) ; z (j) = Pm j=1 F y (j) F x(j) Lema 6.2. Sea I = (a; bj 2 I y I (1) = a(1) ; b(1) , : : : , I (m) = a(m) ; b(m) una colección …nita Sm (j) de intervalos en I tales que I j=1 I , entonces: Pm (j) . F (I) j=1 F I Demostración Los puntos a; b; a(1) ; b(1) ; : : : ; a(m) ; b(m) constituyen una partición de un intervalo (c; dj que contiene al intervalo (a; bj. Esta partición parte cada intervalo I (j) , con j 2 f1; 2; : : : ; mg, en subintervalos ajenos por (j) (j) parejas, I1 ; : : : ; Inj . Así que: F I (j) = Pnj k=1 (j) F Ik . 6.1. MEDIDAS Y FUNCIONES NO DECRECIENTES 163 La partición de…nida antes también parte el intervalo I en subintervalos ajenos por parejas, I1 ; : : : ; In . Así que: Pn F (I) = k=1 F (Ik ). Sm (j) Por otra parte, como I j=1 I , cada intervalo Ik , con k 2 f1; 2; : : : ; ng, coincide con un (j) intervalo Ik0 para alguna j 2 f1; 2; : : : ; mg y alguna k 0 2 f1; 2; : : : ; nj g, por lo tanto: F (I) = Pn F k=1 Pm Pnj (Ik ) (j) k=1 j=1 F Ik = Pm j=1 F I (j) . Lema 6.3. Sean I1 ; : : : ; Ik y I (1) ; : : : ; I (m) dos colecciones …nitas de intervalos tales que S en I S (j) I1 ; : : : ; Ik son ajenos por parejas, I (1) ; : : : ; I (m) son ajenos por parejas y ki=1 Ii = m j=1 I , entonces: Pm Pk (j) . j=1 F I i=1 F (Ii ) = Demostración (j) Para cada i 2 f1; : : : ; kg y j 2 f1; : : : ; mg, de…namos Ii = Ii \ I (j) . Entonces, como S Sm (j) Sm (j) Sk (j) y I (j) = ki=1 Ii , así que: j=1 Ii j=1 I , se tiene Ii = i=1 Ii = F F (Ii ) = Pm (j) I (j) = Ii F j=1 Pk , (j) i=1 . Ii F Por lo tanto: Pk Pm Pk j=1 i=1 i=1 F (Ii ) = = Pm Pk j=1 i=1 (j) F Ii = (j) F Pm Ii j=1 F I (j) . Teorema 6.1. Sea S (a; bj 2 I y (a1 ; b1 j ; (a2 ; b2 j ; : : : una colección in…nita de intervalos en 1 I tales que (a; bj k=1 (ak ; bk j. Entonces: P1 F (b) F (a) F (ak )]. k=1 [F (bk ) Demostración Tomemos " > 0 y > 0, arbitrarios. Como F es continua por la derecha, para cada cada k 2 N, existe F (dk ) donde: F (bk ) < " , 2k k > 0 tal que: 164 6. MEDIDAS EN (R; dk = bk + bk k (R)) si bk 2 R si bk = 1 De…namos: c = d = a+ 1 si a 2 R si a = 1 b si b 2 R 1 si b = 1 Entonces: lm !0 [F (d ) F (c )] = F (b) F (a). S1 (ak ; bk j Además: (c ; d j [c ; d ] (a; bj k=1 S1 k=1 (ak ; dk ). Así que, por el teorema de Heine-Borel, existe una colección …nita, (ak1 ; dk1 ) ; : : : ; (akm ; dkm ), tal que: Sm [c ; d ] j=1 akj ; dkj Por lo tanto: (c ; d j [c ; d ] Así que: F (d ) F (c ) P1 k=1 [F (bk ) Sm j=1 akj ; dkj Sm j=1 akj ; dkj . Pm P1 F (ak )] F dkj F ak j k=1 [F (dk ) P P1 " F (ak )] + 1 F (ak )] + ". k=1 2k = k=1 [F (bk ) j=1 Y, como " > 0 es arbitraria: P1 F (d ) F (c ) k=1 [F (bk ) F (ak )]. Finalmente, tomando límites cuando ! 0, se obtiene: P1 F (b) F (a) F (ak )]. k=1 [F (bk ) Teorema 6.2. Si F : R 7! R es una función no decreciente y continua por la derecha, existe una única medida F , de…nida sobre los conjuntos borelianos de R, tal que: F ((a; b]) = F (b) F (a), para cualquier pareja de números reales, a y b, tales que a < b. 6.1. MEDIDAS Y FUNCIONES NO DECRECIENTES Además, F 165 F (x ) para cualquier x 2 R. (fxg) = F (x) Demostración Sea A la familia formada por los conjuntos de la forma intervalos en I, ajenos por parejas. S P Para cada A = nj=1 Ij 2 A, de…namos F (A) = nj=1 Por los lemas anteriores, F Sn j=1 Ij donde n 2 N y I1 ; : : : ; In son F (Ij ). está bien de…nida. Obviamente F (I) = F (I) para cualquier I 2 I, A es un álgebra de subconjuntos de R y la función F : A 7! R es no negativa y …nitamente aditiva. Sea A1 ; A2 ; : : : una colección S1 in…nita numerable de elementos de A, ajenos por parejas, no vacíos y tales que A = i=1 Ai 2 A. Como para cada i 2 N, Ai 2 A, Ai es una unión …nita de intervalos en I ajenos por parejas. Además, como A 2 A, A también es una unión …nita de intervalos en I ajenos por parejas. S i S (j) y, para cada i 2 N, Ai = m Sean A = m k=1 I(i;k) . Entonces: j=1 I S1 Smi S Sm (j) =A= 1 i=1 k=1 I(i;k) i=1 Ai = j=1 I Tenemos dos colecciones de intervalos, por un lado la familia I(i;k) : i 2 N; k 2 f1; : : : ; mi g y por el otro la familia I (j) : j 2 f1; : : : ; mg . Tanto los intervalos de la primera familia como los de la segunda son ajenos por parejas y A es igual tanto a la unión de los intervalos de la primera familia como de la segunda. Por otra parte, una pareja de intervalos, uno de la primera familia y otro de la segunda, podrían no ser ajenos. La idea ahora es partir cada intervalo I (j) en intervalos ajenos por parejas, utilizando los intervalos I(i;k) . Para esto, de…namos, para cada j 2 f1; : : : ; mg, i 2 N y k 2 f1; : : : ; mi g: (j) I(i;k) = I(i;k) \ I (j) n o (j) Entonces, los intervalos de la familia I(i;k) : j 2 f1; : : : ; mg ; i 2 N; k 2 f1; : : : ; mi g son ajenos por parejas y: S (j) I(i;k) = m j=1 I(i;k) para cualesquiera i 2 N y k 2 f1; : : : ; mi g. I (j) = S1 Smi i=1 (j) k=1 I(i;k) para cualquier j 2 f1; : : : ; mg. Además, por el teorema 6.1, se tiene: F I (j) Así que: P1 Pmi i=1 k=1 (j) F I(i;k) para cualquier j 2 f1; : : : ; mg. 166 F = = 6. MEDIDAS EN (R; (A) = Pm j=1 P1 Pmi Pm i=1 P1 i=1 k=1 F Pm P1 Pmi I (j) F j=1 (j) j=1 F I(i;k) = (Ai ) Además, P como n (A) F i=1 P1 F (A) i=1 F F i=1 k=1 P1 Pmi i=1 k=1 (R)) (j) F I(i;k) F I(i;k) Sn es …nitamente aditiva y A i=1 Ai para cualquier n 2 N, se tiene (Ai ) para cualquier n 2 N, así que: (Ai ). P Por lo tanto, F (A) = 1 i=1 F (Ai ), así que F es -aditiva y entonces puede ser extendida a una medida F de…nida sobre la -álgebra generada por A, es decir, los borelianos de R. F Si 1 y 2 son dos medidas sobre los borelianos de R tales que 1 ((a; b]) = 2 ((a; b]) = F (b) F (a) para cualquier pareja de S números reales, a y b, tales que a < b, de…namos, para cada n 2 N, Fn = ( n; n]; entonces 1 n=1 Fn = R y 1 (Fn ) = 2 (Fn ) < 1 para cualquier n 2 N. Así que, por el teorema de clases monótonas para -sistemas, 1 (A) = 2 (A) para cualquier conjunto boreliano de R. Para la última parte, sea x 2 R, entonces: T 1 fxg = 1 ;x . n=1 x n Así que: F (fxg) = l mn 1 F x 1 ;x n = F (x) l mn 1 F x 1 n = F (x) F (x ). Corolario 6.1. Si F : R 7! R es una función no decreciente y continua por la izquierda, existe una única medida F , de…nida sobre los conjuntos borelianos de R, tal que: F ([a; b)) = F (b) F (a), para cualquier pareja de números reales, a y b, tales que a < b. Además, F (fxg) = F (x+) F (x) para cualquier x 2 R. Demostración De…namos F d : R ! R de la siguiente manera: F d (x) = F (x+). Entonces, F d es no decreciente y continua por la derecha; además, F d (x) F d (x ) = F (x+) F (x) para cualquier x 2 R, lo cual implica que, si a y b son números reales tales que a < b, entonces: 6.1. MEDIDAS Y FUNCIONES NO DECRECIENTES F d (b ) F d (a ) = F (a+) = F (a+) = F (b) Sea F F, F (a) F (a+) F (a) F d (a) 167 F (b+) + F (b) + F d (b) F (b+) + F (b) + F (b+) F (a). la una única medida, de…nida sobre los conjuntos borelianos de R, tal que: ((a; b]) = F d (b) F d (a), para cualquier pareja de números reales, a y b, tales que a < b. Sean a; b 2 R tales que a < b, (an )n2N una sucesión creciente que converja a a y (bn )n2N una sucesión creciente, de números reales mayores que a, que converja a b; entonces: F ([a; b)) = l mn = F d (b ) 1 F ((an ; bn ]) = l mn!1 F d (bn ) F d (a ) = F (b) l mn 1 F d (an ) F (a). Si 1 y 2 son dos medidas sobre los borelianos de R tales que 1 ([a; b)) = 2 ([a; b)) = F (b) F (a) para cualquier pareja de S números reales, a y b, tales que a < b, de…namos, para cada n 2 N, Fn = [ n; n); entonces 1 n=1 Fn = R y 1 (Fn ) = 2 (Fn ) < 1 para cualquier n 2 N. Así que, por el teorema de clases monótonas para -sistemas, 1 (A) = 2 (A) para cualquier conjunto boreliano de R. Para la última parte, sea x 2 R, entonces: T 1 fxg = 1 n=1 x; x + n . Así que: F (fxg) = l mn 1 F x; x + 1 n = l mn!1 F x + 1 n F (x) = F (x+) F (x). Sea F : R 7! R una función no decreciente, entonces: La función F (d) : R ! R de…nida por F (d) (x) = F (x+) es no decreciente y continua por la derecha, y F (d) (x ) = F (x ) para cualquier x 2 R. La función F (i) : R ! R de…nida por F (i) (x) = F (x ) es no decreciente y continua por la izquierda, y F (i) (x+) = F (x+) para cualquier x 2 R. Así que, de acuerdo con los resultados anteriores, podemos generar 2 medidas sobre los conjuntos borelianos de R, F (d) y F (i) , tales que, para cualquier pareja de números reales, a y b, tales que a < b, se tiene: F (d) ((a; b]) = F (d) (b) F (d) (a), F (i) ([a; b)) = F (i) (b) F (i) (a). 168 6. MEDIDAS EN (R; (R)) En realidad, estas 2 medidas son una sola. En efecto, si a y b son números reales tales que a < b, se tiene: Fi ((a; b]) = l mn!1 = F (i) (b+) 1 F d (a) = = F (d) (b) Así que l mn Fi = a + n1 ; b + Fi 1 n = l mn F (i) (a+) = F (b+) F (d) 1 F (i) b + 1 n F (i) a + 1 n F (a+) ((a; b]). F (d) . Así que, los 2 resultados anteriores se reducen a un único resultado: Teorema 6.3. Si F : R 7! R es una función no decreciente, existe una única medida de…nida sobre los conjuntos borelianos de R, tal que: (i) (ii) (iii) ((a; b]) = F (b+) F ([a; b)) = F (b ) F (fxg) = F (x+) para cualquier x a < b. F F, F (a+), F (a ), F (x ), 2 R y cualquier pareja de números reales, a y b, tales que Definición 6.1. Si F : R 7! R es una función no decreciente, la medida anterior será llamada la medida generada por F . F del teorema Ahora mostraremos que cualquier medida sobre los borelianos de R, tal que los intervalos acotados tienen medida …nita, se puede generar a partir de una función no decreciente ya sea continua por la derecha o continua por la izquierda. Teorema 6.4. Dada cualquier medida sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita, existe una función no decreciente y continua por la derecha F d : R 7! R tal que ((a; b]) = F d (b) F d (a) para cualquier pareja de números reales, a y b, tales que a < b. Además, si F1 y F2 son dos funciones con esta propiedad, entonces F1 F2 es constante. Demostración De…namos la función F d : R ! R de la siguiente manera: d F (x) = 8 < : 0 ((x; 0]) si x 2 ( 1; 0) ((0; x]) si x = 0 si x 2 (0; 1) F d es no decreciente y continua por la derecha y se tiene cualquier pareja de números reales, a y b, tales que a < b. ((a; b]) = F d (b) F d (a) para 6.1. MEDIDAS Y FUNCIONES NO DECRECIENTES 169 Si F1 : R 7! R y F2 : R 7! R son dos funciones que satisfacen el enunciado del teorema, se tiene F1 (b) F1 (a) = F2 (b) F2 (a) para cualquier pareja de números reales a y b tales que a < b, lo cual implica que (F1 F2 ) (b) = (F1 F2 ) (a); es decir, F1 F2 es constante. Corolario 6.2. Para cualquier medida sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita, existe una función no decreciente y continua por la izquierda F i : R 7! R tal que ([a; b)) = F i (b) F i (a) para cualquier pareja de números reales, a y b, tales que a < b. Además, si F1 y F2 son dos funciones con esta propiedad, entonces F1 F2 es constante. Demostración Sea F d una función no decreciente y continua por la derecha F d : R 7! R tal que F d (b) F d (a) para cualquier pareja de números reales, a y b, tales que a < b. ((a; b]) = De…namos F i : R ! R de la siguiente manera: F i (x) = F d (x ). Entonces, F i es no decreciente y continua por la izquierda. Sean a; b 2 R tales que a < b, (an )n2N una sucesión creciente que converja a a y (bn )n2N una sucesión creciente, de números reales mayores que a, que converja a b; entonces: ([a; b)) = l mn = F d (b ) 1 ((an ; bn ]) = l mn F d (a ) = F i (b) 1 F d (bn ) l mn 1 F d (bn ) F i (a). Si F1 : R 7! R y F2 : R 7! R son dos funciones que satisfacen el enunciado del teorema, se tiene F1 (b) F1 (a) = F2 (b) F2 (a) para cualquier pareja de números reales a y b tales que a < b, lo cual implica que (F1 F2 ) (b) = (F1 F2 ) (a); es decir, F1 F2 es constante. Como antes, los 2 resultados anteriores se reducen a un único resultado: Teorema 6.5. Dada cualquier medida sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita, existe una función no decreciente F : R 7! R tal que la medida generada por F es . Es decir, se tiene: (i) (ii) (iii) ((a; b]) = F (b+) ([a; b)) = F (b ) (fxg) = F (x+) para cualquier x a < b. F (a+), F (a ), F (x ), 2 R y cualquier pareja de números reales, a y b, tales que 170 6. MEDIDAS EN (R; (R)) Además, si F1 y F2 son dos funciones no decrecientes con estas propiedades, entonces las funciones x ! (F1 F2 ) (x+) y x ! (F1 F2 ) (x ), de…nidas sobre R, son constantes. Corolario 6.3. Si es una medida sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita, el conjunto fx 2 R : (fxg) > 0g es a lo más in…nito numerable. Se tiene el siguiente resultado que es más general: Proposición 6.1. Si es una medida -…nita sobre los conjuntos borelianos de R, el conjunto fx 2 R : (fxg) > 0g es a lo más in…nito numerable. Demostración Sea E1 ; E2 ; : : : una colección in…nita numerable de conjuntos borelianos de R tal que R y (En ) < 1 para cualquier n 2 N. S1 n=1 En = Para cada pareja n; m 2 N, de…namos: (m) En = x 2 En : Como (fxg) > 1 m . (m) (En ) < 1, En fx 2 En : es un conjunto …nito para cualquier m 2 N. Además: S (m) (fxg) > 0g = 1 m=1 En . Así que el conjunto fx 2 En : (fxg) > 0g es a lo más in…nito numerable. S (fxg) > 0g. Así que el conjunto Finalmente, fx 2 R : (fxg) > 0g = 1 n=1 fx 2 En : fx 2 R : (fxg) > 0g es a lo más in…nito numerable. 6.2. Medidas y funciones no decrecientes que crecen únicamente mediante saltos Como vimos en el capítulo 2, toda función no decreciente se puede expresar como la suma de dos funciones no decrecientes, una que crece únicamente mediante saltos y la otra continua. Por otra parte, una medida sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita, podemos generarla ya sea mediante una función no decreciente y continua por la derecha, o bien mediante una no decreciente y continua por la izquierda. Se hizo costumbre elegir la función continua por la derecha para representar a la medida, pero bien podría elegirse la que es continua por la izquierda. Tomemos una función F : R 7! R, no decreciente y continua por la derecha. F se puede expresar entonces como la suma de una función F c , continua, y una función F d , no decreciente, continua por la derecha, que crece únicamente mediante saltos y tal que F d (x) F d (x ) = 6.2. MEDIDAS Y FUNCIONES NO DECRECIENTES QUE CRECEN ÚNICAMENTE MEDIANTE SALTOS 171 F (x) F d: d F (x ) para cualquier x 2 R. Además, tenemos la de…nición explícita de la función F (x) = P F (0 ) [F (y) F (y )] si x 2 ( 1; 0) P fy2D:x<y<0g F (0) + fy2D:0<y xg [F (y) F (y )] si x 2 [0; 1) Donde D es el conjunto de puntos donde F es discontinua, el cual es a lo más in…nito numerable y lo supondremos no vacío. Si F c es constante, la medida que genera es nula sobre los borelianos. En este caso, la medida generada por F es la generada por F d . Si denotamos por F d a la medida generada por F d , recordemos que se tienen las siguientes relaciones: P F d (z) F d (x) = fy2D:x<y zg F d (y) F d (y ) para cualquier parera (x; z) de números reales tales que x < z. Fd ((a; b]) = F d (b) F d (a) para cualquier pareja de números reales, a y b, tales que a < b. Fd (fxg) = F d (x) F d (x ) para cualquier x 2 R; en particular, Fd (fxg) = 0 si x 2 = D. Así que, si a < b: ((a; b]) = F d (b) F d (a) = y2(a;b] F d (fyg) PF d P fy2D:a<y bg F d (y) F d (y ) = P fy2D:a<y bg Fd (fyg) = Por otra parte, si D es …nito, sea B un conjunto in…nito numerable contenido en R D, de…namos E = D [ B y denotemos por y1 ; y2 ; : : : a los elementos de E. Obviamente se tiene: P F d ((a; b]) = fy2E:a<y bg F d (fyg) Para cada subconjunto A de R, de…namos: P (A) = fy2A\Eg F d (fyg) Por el Corolario 3.9, subconjuntos de R. es una medida de…nida sobre la Además, por el teorema de Clases Monótonas, conjuntos borelianos de R. y Fd -álgebra formada por todos los coinciden sobre la -álgebra de los Resumiento, si F : R 7! R es una función no decreciente, no constante, continua por la derecha y que crece únicamente mediante saltos, entonces existe un conjunto …nito o in…nito numerable E tal que F (fyg) > 0 para cualquier y 2 E y, si B es un subconjunto boreliano de R, entonces: P F (B) = fy2B\Eg F (fyg) 172 6. MEDIDAS EN (R; (R)) En este caso, F puede extenderse a una medida de…nida sobre la -álgebra formada por todos los subconjuntos de R. Como podemos ver, la medida c F (E ) = 0. F se concentra en los elementos de E; en otras palabras, Una medida de este tipo, para la cual existe un conjunto de números reales, …nito o in…nito numerable, E tal que F (fyg) > 0 para cualquier y 2 E y (E c ) = 0 es llamada medida discreta. Esto no implica que los elementos de E estén separados topológicamente en R; es decir, no necesariamente ocurre que para cada y 2 E existe un intervalo abierto que contiene a y y que no contiene a ningún otro elemento de E. Incluso el conjunto E puede ser denso en R; por ejemplo, sea Q = fr1 ; r2 ; : : :g el conjunto formado por todos los números racionales y, para cada subconjunto A de R, de…namos: P (A) = fn2N:rn 2Ag 21n Entonces es una medida discreta concentrada en Q. Una función no decreciente y continua por la derecha F : R 7! R que genera tal medida está dada por: P F (x) = fn2N:rn xg 21n Esta función F crece únicamente mediante saltos y Q es el conjunto de puntos donde es discontinua. 6.3. Medidas y funciones no decrecientes continuas Consideremos ahora una función F : R 7! R, no decreciente, no constante y que no tiene discontinuidades. En este caso, la medida F de cualquier intervalo acotado, con extremos a y b, es igual a F (b) F (a) y F (fxg) = 0 para cualquier x 2 R. Además, como F es no constante, existen a; b 2 R tales que a < b y F (b) F (a) > 0. Por ser F continua, este caso parece más simple que el anterior, donde F es una función que crece únicamente mediante saltos. Sin embargo, en realidad el caso en que F es continua, en general, es más complicado. Esto se puede analizar desde diferentes puntos de vista; por ejemplo, las funciones continuas no siempre son tan "bonitas" como uno las imagina. Las que uno dibuja habitualmente son funciones que no únicamente son continuas, sino que además son derivables en casi todo punto. Pero sabemos que hay funciones continuas f : [0; 1] 7! R que no son derivables en ningún punto x 2 [0; 1]; de hecho, en un sentido, existen muchas más funciones de este tipo que las que son derivables en algún punto (cf. Bachman G. & Narici L., Functional Analysis, Sección 6.3, Ed. Academic Press, 1966). El problema de determinar las propiedades que debe tener una función F , no decreciente y continua, para que la medida F que genera sea más fácil de trabajar lo trató Lebesgue en 6.4. MEDIDAS CON SIGNO Y FUNCIONES DE VARIACIÓN ACOTADA 173 su libro de 1904. Ahí no estudió únicamente el problema de la integración de funciones, sino también el de la búsqueda de primitivas de una función (i.e. dada una función f , encontrar una función cuya derivada sea f ), el cual abordó introduciendo el concepto de integral inde…nida: Si f : [a; b] ! R es una función medible e integrable, la función F : [a; b] ! R Rx de…nida mediante la relación F (x) = a f (y) dy + K, donde K es una constante, es llamada una integral inde…nida de f . Demostró entonces que si F es una integral inde…nida de f , entonces F es continua, de variación acotada y F 0 (x) = f (x) excepto a lo más en un conjunto de medida cero. Probó además que existen funciones continuas y no decrecientes que no son integrales inde…nidas de ninguna otra función (ver la introducción al capítulo 5). Poco tiempo después, Vitali y el mismo Lebesgue demostraron que el concepto de integral inde…nida coincide con el de función absolutamente continua: Una Pn función F : [a; b] ! R es absolutamente continua si, dada " > 0, existe > 0 tal que k=1 jF (bk ) F (ak )j < " para cualquier colección …nita de (a1 ; b1 ), (a2 ; b2 ), . . . , (an ; bn ), contenidos en [a; b], Pintervalos n ajenos por parejas y tales que k=1 (bk ak ) < (cf. Royden, H.L., Real Analysis, second edition, cap. 5, sección 4, Ed. Macmillan, 1968). Estas ideas y resultados condujeron a uno de los teoremas más importantes de la teoría de integración de Lebesgue, el de RadonNikodym (ver capítulo 6). Resumiento, si F : R 7! R es una función no decreciente, no constante y continua, diremos que F es absolutamente continua, con respecto a la medida de Lebesgue, si existe una función f : R 7! R, no negativa e integrable tal que: Rx F (x) = 1 f (y) dy La medida F que genera una tal función está dada por: R F (B) = B f (y) dy para cualquier subconjunto boreliano B de R. Una medida de este tipo no puede extenderse a una medida de…nida sobre todos los subconjuntos de R. Una función no decreciente, no constante y continua F : R ! 7 R que no sea absolutamente continua, es llamada singular. Las medidas generadas por las funciones singulares son las más di…ciles de tratar. 6.4. Medidas con signo y funciones de variación acotada Teorema 6.6. Si g : R 7! R es una función de variación acotada sobre cualquier intervalo compacto la cual se puede expresar como la diferencia de dos funciones no decrecientes, una de las cuales, por lo menos, genera una medida …nita sobre los conjuntos borelianos de R, entonces existe una única medida con signo g sobre los conjuntos borelianos de R tal que: (i) g ((a; b]) = g (b+) g (a+), 174 6. MEDIDAS EN (R; (ii) (iii) (R)) ([a; b)) = g (b ) g (a ), g (x ), g (fxg) = g (x+) para cualquier x 2 R y cualquier pareja de números reales, a y b, tales que a < b. g Demostración Sea g : R ! R una función de variación acotada que satisface las condiciones del enunciado y sean f1 : R ! R y f2 : R ! R dos funciones no decrecientes tales que g = f1 f2 y, por lo menos una de ellas, genera una medida …nita sobre los conjuntos borelianos de R. Sean f1 y f2 la medidas sobre los conjuntos borelianos de R generadas por f1 y f2 , respectivamente. Entonces: f1 ((a; b]) = f1 (b+) f1 (a+), f1 ([a; b)) = f1 (b ) f1 (a ), f2 ((a; b]) = f2 (b+) f2 (a+), f2 ([a; b)) = f2 (b ) f2 (a ), para cualquier pareja de números reales, a y b, tales que a < b. Además, f1 (fxg) = f1 (x+) f1 (x ) y f2 (fxg) = f2 (x+) f2 (x ) para cualquier x 2 R. De…namos para cada E 2 B (R): g (E) = f1 (E) f2 (E). Si x 2 R y a y b son dos números reales tales que a < b, se tiene: g ((a; b]) = g (b+) g (a+), g ([a; b)) = g (b ) g (a ), g (fxg) = g (x+) g (x ). Además g es una medida con signo ya que si A1 ; A2 ; : : :son elementos de B (R) tales que Ai \ Aj = ; para i 6= j, entonces: g 1 S Ak = k=1 = P1 k=1 f1 f1 f2 1 S Ak f2 k=1 (Ak ) = P1 k=1 1 S Ak k=1 g (Ak ). = P1 k=1 f1 (Ak ) f2 (Ak ) 6.4. MEDIDAS CON SIGNO Y FUNCIONES DE VARIACIÓN ACOTADA Si g 1 S y Ak g1 2 R, entonces, como por lo menos una de las dos medidas Ak k=1 1 S k=1 g2 1 S Ak k=1 son …nitas, así que las series P1 k=1 g1 (Ak ) convergentes. Finalmente, se tiene: P1 P1 P1 P1 g (Ak ) = g1 (Ak ) g2 (Ak g1 (Ak ) + k=1 k=1 k=1 k=1 P1 Así que la serie k=1 (Ak ) es absolutamente convergente. Sean 1 y 2 y g1 175 y P1 k=1 g2 (Ak ) g2 es …nita, g2 (Ak ) son . son dos medidas con signo sobre los borelianos de R tales que: 1 ((a; b]) = g (b+) g (a+), 2 ((a; b]) = g (b+) g (a+), para cualquier pareja de números reales, a y b, tales que a < b. S De…namos, para cada n 2 N, Fn = ( n; n]; entonces 1 n=1 Fn = R, y, para cualquier n 2 N, 1 (Fn ) = 2 (Fn ) < 1 y 1 (Fn \ (a; b]) = 2 (Fn \ (a; b]) cualquier pareja de números reales, a y b, tales que a < b. Así que, por el teorema de clases monótonas para -sistemas, 1 (A) = 2 (A) para cualquier conjunto boreliano de R. Definición 6.2. Si g : R 7! R es una función de variación acotada sobre cualquier intervalo compacto la cual se puede expresar como la diferencia de dos funciones no decrecientes, una de las cuales, por lo menos, genera una medida …nita sobre los conjuntos borelianos de R, la medida g del teorema anterior será llamada la medida generada por g. Teorema 6.7. Para cualquier medida con signo sobre los conjuntos borelianos de R, tal que los intervalos acotados tienen medida …nita, existe una función de variación acotada sobre cualquier intervalo compacto g : R 7! R la cual se puede expresar como la diferencia de dos funciones no decrecientes, una de las cuales, por lo menos, genera una medida …nita sobre los conjuntos borelianos de R, y tal que: (i) (ii) (iii) ((a; b]) = g (b+) g (a+), ([a; b)) = g (b ) g (a ), (fxg) = g (x+) g (x ), para cualquier x 2 R y cualquier pareja de números reales, a y b, tales que a < b. Además, si g1 : R 7! R y g2 : R 7! R son dos funciones con estas propiedades, entonces las funciones x ! (g1 g2 ) (x+) y x ! (g1 g2 ) (x ) son constantes. Demostración Sea una medida con signo de…nida sobre los conjuntos borelianos de R. Existen entonces dos medidas + y sobre (R; B (R)) con las siguientes propiedades: 176 6. MEDIDAS EN (R; + 1. Por lo menos una de las dos medidas, 2. = + y (R)) , es …nita. . 3. Existen dos conjuntos A; B 2 = tales que A \ B = ;, F = A [ B y (A) = + (B) = 0. Supongamos que los intervalos acotados tienen medida …nita, entonces + y tienen la misma propiedad. Así que existen dos funciones no decrecientes F + : R 7! R y F : R 7! R, tales que: + ((a; b]) = F + (b+) F + (a+), + ([a; b)) = F + (b ) F + (a ), ((a; b]) = F (b+) F (a+), ([a; b)) = F (b ) F (a ), para cualquier pareja de números reales, a y b, tales que a < b. Si de…nimos g = F + compacto y se tiene: ((a; b]) = = g (b+) ([a; b)) = = g (b ) + F , entonces g es de variación acotada sobre cualquier intervalo ((a; b]) ((a; b]) = (F + F ) (b+) (F + (a ) F ) (a+) ([a; b)) = (F + F ) (b ) (F + (a ) F ) (a ) g (a+), + ([a; b)) g (a ), para cualquier pareja de números reales, a y b, tales que a < b. Además, como la función g d : R ! R de…nida por g d = g (x+) es continua por la derecha, y la función g d : R ! R de…nida por g i = g (x ) es continua por la izquierda, se tiene: (fxg) = l mn = g (x+) 1 x 1 ;x n g d (x ) = g (x+) = l mn 1 g (x+) gd x 1 n g (x ), para cualquier x 2 R. Si g1 y g2 son dos funciones de variación acotada sobre cualquier intervalo compacto con estas propiedades, entonces g1 (b+) g1 (a+) = g2 (b+) g2 (a+) para cualquier pareja de números reales a y b tales que a < b, lo cual implica que (g1 g2 ) (b+) = (g1 g2 ) (a+). Así que (g1 g2 ) (x+) es constante. 6.4. MEDIDAS CON SIGNO Y FUNCIONES DE VARIACIÓN ACOTADA 177 También se tiene g1 (b ) g1 (a ) = g2 (b ) g2 (a ) para cualquier pareja de números reales a y b tales que a < b, lo cual implica que (g1 g2 ) (b ) = (g1 g2 ) (a ). Así que (g1 g2 ) (x ) es constante. CAPÍTULO 7 TEORÍA GENERAL DE INTEGRACIÓN Primera parte 7.1. Introducción Como lo mencionamos con anterioridad, en el surgimiento y desarrollo de la Teoría de la Medida, el problema central que se abordó no fue el de la medida de conjuntos en sí mismo, sino el de la integración de funciones. Tanto Lebesgue como quienes le siguieron buscaron resolver problemas que tenían que ver con la de…nición y las propiedades de la integral. Después que Lebesgue formuló su de…nición de integral, él mismo y otros autores fueron aportando más ideas y resultados, los cuales iban conformando el cuerpo de una teoría para la cual también se iban encontrando aplicaciones. Uno de los grandes promotores de la teoría de integración de Lebesgue fue Pierre Joseph Louis Fatou, quien en el año 1906 obtuvo su doctorado con una tesis titulada Séries trigonométriques et séries de Taylor ([32]), donde utilizó la teoría de Lebesgue para el estudio de la integral de Poisson de una función discontinua en la frontera de la región donde está de…nida y para tratar problemas relativos al desarrollo de una función en serie trigonométrica. En este trabajo demostró el resultado conocido ahora como Lema de Fatou (el cual se demostrará más adelante). Además de aportar los resultados originales que se encuentran en su tesis, Fatou contribuyó de manera importante al desarrollo de la teoría de integración por la in‡uencia que tuvo su trabajo en el mismo Lebesgue y sobre todo en F. Riesz, quien en un artículo de 1949, titulado Lévolution de la notion d’integrale depuis Lebesgue ([82]) dijo: 179 180 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE “Si no me equivoco, es el libro de Lebesgue sobre las series trigonométricas, dentro de la Colección Borel, el que llamó mi atención sobre la noción de integral; después, para penetrar en los detalles, estudié también su Tesis y su libro sobre la integración. Sin embargo, la idea y el coraje para tratar de aplicar esta noción a los problemas de los que yo me ocupaba, me vinieron leyendo, en 1906, la excelente Memoria de Fatou, impresa en las Acta Mathematica y que el autor presentaba también como Tesis. Fue en particular un teorema muy simple, llamado generalmente lema de Fatou y que asegura, en el lenguaje actual, la semicontiuidad inferior de la operación funcional lineal que constituye la integración, el que me ayudó a demostrar, en febrero de 1907, algunas semanas después de la lectura de la Tesis, el teorema descubierto también, de manera independiente y simultáneamente, por Ernest Fischer y que se cita con el nombre de nosotros dos. El teorema sirvió, en primer lugar, de boleto permanente de ida y vuelta entre los dos espacios con una in…nidad de dimensiones cuyo interés se liga con la teoría de las ecuaciones integrales, a saber, el espacio con una in…nidad de coordenadas de Hilbert y el conjunto L2 de las funciones medibles y de cuadrado integrable, dos espacios que, por cierto, actualmente se tratan, con Von Neumann, como dos realizaciones de una noción más general, a saber, el espacio abstracto de Hilbert. Fue quizás la primera aplicación de la teoría de Lebesgue, después, bien entendido, de las que fueron hechas por él mismo y por Fatou, la que atrajo el interés de los matemáticos y que daba luz sobre la importancia de su noción de integral.” Otro de los grandes promotores de la nueva teoría de integración fue precisamente el autor de la frase del párrafo anterior, Frédéric Riesz, quien aplicó la nueva teoría de integración de Lebesgue al Análisis Funcional. Uno de los resultados más importantes de Lebesgue es el que se re…ere a la segunda parte del título de su libro. Recordemos que el libro de Lebesgue de 1904 tiene como título Leçons sur l’intégration et la recherche des fonctions primitives. Hasta el momento, en este texto, hemos hablado de la medida e integral de Lebesgue y hemos dejado de lado el tema de la búsqueda de funciones primitivas, es decir, dada una función f , determinar, si existe, una función cuya derivada sea f . Las investigaciones alrededor de este problema culminaron con un artículo de Otto Nikodym, publicado en 1930 con el título Sur une généralisation des intégrales de M. J. Radon ([73]), en el cual demostró el ahora llamado teorema de Radon-Nikodym, resultado que permitió de…nir de manera general un concepto de importancia central en la teoría de los procesos estocásticos, el de Esperanza Condicional. El tema de la búsqueda de funciones primitivas lo abordó Lebesgue con el estudio de las integrales inde…nidas: 7.1. INTRODUCCIÓN 181 Si f : [a; b] ! R es una función medible e integrable, la función F : Rx [a; b] ! R de…nida mediante la relación F (x) = a f (y) dy + K, donde K es una constante, era llamada por Lebesgue una integral inde…nida de f . Lebesgue demostró que las integrales inde…nidas tienen las siguientes tres propiedades: (i) Son funciones continuas. (ii) Son de variación acotada. (iii) Tienen como derivada a la función de la cual es una integral inde…nida, excepto a lo más en los puntos de un conjunto de medida cero. El estudio que hizo Lebesgue sobre este tema en su libro fue incompleto, se dieron más tarde resultados de otros autores que fueron completando el cuadro. Sin embargo, al …nal del libro Lebesgue introdujo una propiedad que sería clave para tratar el problema de la relación entre la integral y la derivada; propiedad que, además, llevaría a uno de los resultados más importantes de su teoría de integración, el cual, a su vez, sería una de las bases para el estudio de los procesos estocásticos, tema que trataremos más adelante. Después de una serie de razonamientos, concluía Lebesgue: “Queda así demostrado que toda función de variación acotada f (x) tiene una derivada …nita excepto para los valores de x de un conjunto de medida cero [resultado importante en sí mismo]. El razonamiento de la página 122, tal como acaba de ser completado, muestra también que esta derivada es integrable en el conjunto de puntos donde es …nita, pero su función primitiva no necesariamente es f (x), como lo muestra el ejemplo de la función (x) de la página 55. El teorema que acaba de ser demostrado es por consiguiente diferente del que concierne a la derivación de las integrales inde…nidas; en otros términos, existen funciones continuas de variación acotada, (x) por ejemplo, que no son integrales inde…nidas.” El ejemplo al que se refería Lebesgue es el siguiente: Sea C el conjunto de Cantor, entonces cada x 2 C se puede expresar como una serie: x= a1 3 + a2 32 + a3 33 , + donde ak 2 f0; 2g para cualquier k 2 N. Para cada x = (x) = 1 2 a1 2 + a1 3 + a2 32 + a2 22 + a3 23 + a3 33 + . 2 C, de…namos: 182 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE es no decreciente ya que si x; y 2 C y x < y, entonces, si, en los desarrollos en base 3 de x y y, el m-simo es el primero que es distinto, ese término tiene que ser 0 para x y 2 para y ; así que, si a1 ; a2 ; : : : ; am 1 son los m 1términos de los desarrollos de x y y, se tiene: P ak m 1 (x) = 12 a21 + a222 + a233 + + a2m + 21 1 1 k=m+1 2k , P bk m 1 + 21m + 12 1 (y) = 12 a21 + a222 + a233 + + a2m 1 k=m+1 2k . Por lo tanto: (x) = 1 2 a1 2 (y) 1 2 a1 2 + a2 22 + + a2 22 + a3 23 + 1 2 a1 2 + a2 22 + a3 23 + + a3 23 + am 2m + am 2m 1 1 + + am 2m 1 1 + P1 1 2 P1 2 k=m+1 2k 1 k=m+1 2k 1 1 + = 1 2m a1 2 1 2 + a2 22 + a3 23 + + am 2m 1 1 + 1 , 2m (x). Así que, las discontinuidades de únicamente pueden ser de saltos; pero al ser suprayectiva como función de C en el intervalo [0; 1], no puede tener saltos. Por lo tanto, es continua. Para de…nir en todo el intervalo [0; 1], falta de…nirla en los intervalos abiertos que se suprimen del intervalo [0; 1] para formar C. Los desarrollos en base 3 de los extremos de un intervalo que se suprime en el n-simo paso coinciden hasta el término n 1, y el término siguiente del extremo izquierdo del intervalo es cero, mientras que el del extremo derecho es 2. Así que, si (c; d) es uno de los intervalos que se suprimen en el paso n, se tiene: c = 0:a1 a2 an 1 0222 d = 0:a1 a2 an 1 2000 Así que: (c) = = 1 2 a1 2 (d) = 1 2 a1 2 + + a2 22 + 1 2 a1 2 + a2 22 + + a2 22 + + an 2n an 2n 1 1 + + an 2n 1 1 + 1 2 1 , 2n 1 1 + 2 2n P1 2 k=n+1 2k = 1 2 a1 2 = + a2 22 1 2 + a1 2 + a2 22 + + an 2n 1 2 + + an 2n 1 1 + 1 2n+1 1 2 1 . 2n Por lo tanto, (c) = (d). De…namos (x) = (c) para cualquier x 2 (c; d). es entonces una función continua y no decreciente, de…nida sobre el intervalo [0; 1] y con valores en el mismo intervalo. Sean (c1 ; d1 ) ; (c2 ; d2 ) ; : : : los intervalos que se suprimen para formar el conjunto de Cantor, entonces: 7.1. INTRODUCCIÓN 183 S [0; 1] = C [ ( 1 k=1 (ck ; dk )). Supongamos que es una integral inde…nida de una función medible e integrable f : [0; 1] ! R, entonces existe una constante K 2 R tal que: Rx (x) = 0 f (y) dy + K, para cualquier x 2 [0; 1]. es derivable y su derivada es cero en cualquier punto del conjunto D = cual tiene medida de Lebesgue 1. S1 k=1 (ck ; dk ), el Por otra parte, al ser una integral inde…nida de f , su derivada es f , excepto a lo más en los puntos de un conjunto de medida cero. Sean: A = fx 2 (0; 1) : 0 (x) existe y 0 B = fx 2 (0; 1) : 0 (x) no existe o ( 0 (x) existe y (x) 6= f (x)g, 0 (x) = f (x) )g. A tiene entonces medida de Lebesgue cero y B, que es el complemento de A en el intervalo (0; 1), tiene medida de Lebesgue 1. Por lo tanto, B \ D tiene medida de Lebesgue 1. Además: B \ D = fx 2 D : 0 (x) = f (x)g. Así que f (x) = 0 para cualquier x 2 B \ D. Por lo tanto f = 0 excepto a lo más en un conjunto de medida de Lebesgue cero. Se tiene entonces: Rx f (y) dy = 0 para cualquier x 2 [0; 1]. 0 tendría entonces que ser constante, pero no lo es, lo cual es una contradicción. Por lo tanto, no es una integral inde…nida. Al …nal de su libro, Lebesgue agregó una nota después de que a…rma que existen funciones continuas de variación acotada que no son integrales inde…nidas. Lo que a…rma, sin demostración, en esa nota es de una importancia central para el desarrollo de un tema que conduciría al teorema de Radon-Nykodim, del cual hablaremos más adelante y lo expondremos formalmente en este capítulo. La nota de Lebesgue dice: 184 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE “Para que una función sea integral inde…nida, se requiere además que su variación total en una in…nidad numerable de intervalos de longitud total `, tienda hacia cero con `.” En otras palabras, para que F : [a; b] ! R sea una integral inde…nida se requiere que, si (a1 ; b1 ) ; (a2 ; b2 ) ; (a3 ; b3 ) ; : : : son intervalos contenidos en [a; b], ajenos por parejas, entonces: P1 l mP1 F (ak )j = 0. k=1 jF (bk ) k=1 (bk ak )!0 P Es decir, dada " > 0, existe > 0 tal que 1 F (ak )j < " para cualquier sucesión k=1 jF (bk ) P1 de intervalos ajenos por parejas ((ak ; bk ))k2N contenidos en [a; b] y tales que k=1 (bk ak ) < . Esta propiedad es equivalente a la siguiente: P Dada " > 0, existe > 0 tal que nk=1 jF (bk ) F (ak )j < " para cualquier colección …nita de Pnintervalos (a1 ; b1 ), (a2 ; b2 ), . . . , (an ; bn ), contenidos en [a; b], ajenos por parejas y tales que ak ) < . k=1 (bk En efecto, supongamos P1 que se tiene la primera propiedad y, dada " > 0, tomemos 2 (0; b a) tal que k=1 jF (bk ) F (ak )j < "Ppara cualquier sucesión de intervalos ajenos ak ) < . Entonces, dada cualquier ([ak ; bk ])k2N contenidos en [a; b] y tales que 1 k=1 (bk colección …nita de intervalos (a1 ; b1 ), (a2 ; b2 ), . . . , (an ; bn ), contenidos en [a; b], ajenos por P parejas y tales que nk=1 (bk ak ) < , podemos agregar a esa familia una colección in…nita numerables de intervalos (an+1 ; bn+1 ), (an+2 ; bn+2 ), . . . , contenidos en [a; ajenos por paPb], 1 ak ) < rejas, sin puntos en común con los primeros n intervalos y tales que k=n+1 (bk P1 Pn ak ); así que k=1 (bk ak ) < y entonces: k=1 (bk P1 Pn F (ak )j < ". jF (b ) F (a )j k k k=1 jF (bk ) k=1 Inversamente, supongamos que se tiene la segunda propiedad y, dada " > 0, tomemos > 0 P tal que nk=1 jF (bk ) F (ak )j < 21 " para cualquier colección …nita dePintervalos (a1 ; b1 ), (a2 ; b2 ), . . . , (an ; bn ), contenidos en [a; b], ajenos por parejas y tales que nk=1 (bk ak ) < . Consideremos P1 una sucesión de intervalos ajenos por parejas ((ak ; bk ))k2N contenidos en [a; b] y tales que k=1 (bk ak ) < ; entonces, para cualquier n 2 N, losP intervalos (a1 ; b1 ), (a2 ; b2 ), . . . , (anP ; bn ) están contenidos en [a; b], son ajenos por parejas y nk=1 (bk ak ) < ; por lo tanto, nk=1 jF (bk ) F (ak )j < 21 ". Así que: P1 P F (ak )j = l mn 1 nk=1 jF (bk ) F (ak )j 12 " < ". k=1 jF (bk ) La segunda propiedad es la de…nición moderna de una función absolutamente continua. Así que, lo que a…rmó Lebesgue es que, para que una función de variación acotada sea una integral inde…nida se requiere que sea absolutamente continua. Agregó, en la misma nota, también sin demostración, que esta condición no únicamente es necesaria para que una función sea una integral inde…nida, sino que también es su…ciente. 7.1. INTRODUCCIÓN 185 En 1905, Giuseppe Vitali publicó una demostración de la a…rmación de Lebesgue en un artículo titulado Sulle funzioni integrali ([90]), extendiendo el resultado al caso multidimensional. Fue Vitali quien dio el nombre de continuidad absoluta a la propiedad enunciada por Lebesgue. Más tarde, en 1907, Lebesgue publicó su propia demostración en un artículo titulado Sur la recherche des fonctions primitives par l’intégration ([59]). En resumen, los resultados de Lebesgue y Vitali, para el caso unidimensional, son los siguientes: (i) Una función es una integral inde…nida si y sólo si es absolutamente continua. (ii) Toda integral inde…nida es de variación acotada. (iii) Si F : [a; b] ! R es una integral inde…nida de la función f , 0 entonces existe un conjunto A de medida cero tal que F (x) 0 existe para cualquier x 2 = A y F (x) = f (x). (iv) No toda función de variación acotada continua es una integral inde…nida. Existen funciones de variación acotadas continuas, no constantes, cuya derivada es cero excepto a lo más en un conjunto de medida de Lebesgue cero, así que tales funciones no son integrales inde…nidas. En 1910 Lebesgue publicó un artículo, titulado L’intégration des fonctions discontinues ([60]), donde profundizó el estudio de las integrales inde…nidas. En ese artículo analizó las integrales de…nidas para el caso multidimensional, planteando un nuevo enfoque (al parecer, in‡uenciado por un trabajo de Vitali, de 1907-1908, sobre el mismo tema), el cual sería retomado por Johann Radon, en el año 1913, en un artículo que, como ya lo mencionamos en la introducción del capítulo 5, sentó las bases para desarrollar una teoría general de la medida. En ese mismo artículo de 1910, Lebesgue demostró el ahora conocido como el teorema de la convergencia dominada, el cual a…rma que si (fn )n2N es una sucesión de funciones medibles tales l mn 1 fn existe excepto a lo más en un conjunto de medida cero, y jfn j g, donde g es una función medible cuya integral es …nita, entonces: R l mn 1 fn (y) dy = l mn!1 R fn (y) dy. El cambio de enfoque de Lebesgue para tratar el tema de las integrales de…nidas consistió en considerarlas como funciones de…nidas sobre los conjuntos medibles. Especi…camente, consideró unaRintegral inde…nida como una función F que asigna a cada conjunto medible E la integral E f (P ) dP , donde f es una función medible e integrable y P representa un elemento de Rn . Demostró entonces que una función así de…nida tiene las siguientes dos propiedades: (i) Si (En )n2N es una sucesión de conjuntos medibles tales que l mn 1 m (En ) = 0, donde m es la medida de Lebesgue en Rn , entonces l mn 1 F (En ) = 0. 186 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE (ii) Si (En )S de conjuntos medibles, ajenos por parejas, entonces: n2N es una sucesión P1 1 F ( n=1 En ) = n=1 F (En ). En el artículo de Lebesgue, una función que satisface la propiedad 2 es llamada aditiva. En 1913, Johann Radon ([76]) dio un nuevo paso importante alrededor de este problema al plantearlo de una manera más general. Radon retomó el concepto de función aditiva de…nida sobre una familia de subconjuntos de Rn , el cual había sido de…nido por Lebesgue en su artículo de 1910, pero el problema de las integrales de…nidas lo planteó como un problema de la relación entre dos funcionales aditivas de acuerdo con la siguiente de…nición: Sean b y f dos funcionales aditivas de…nidas las familias de subconjuntos de Rn , Tb y Tf , respectivamente. Se dice que f es de base b si b es no negativa y si, para cualquier conjunto E 2 Tb \ Tf , la relación b (E) = 0 implica que f (E) = 0. Bajo una condición adicional mostró que si f es de base b, entonces Tf Tb y demostró el siguiente resultado: Si la funcional aditiva f es de base b, entonces Rexiste una función , integrable con respecto a b, tal que f (E) = E db para cualquier conjunto E 2 Tf . Otton Nikodym, en su artículo de 1930 ([73]), retomó el trabajo de Radon y obtuvo un resultado general, ahora conocido como el teorema de Radon-Nikodym. Nikodym hacía referencia en su artículo a la formulación general que hizo Fréchet de la teoría de la medida de Lebesgue, pero modi…có un poco la terminología. Consideraba una familia no vacía H de subconjuntos de un conjunto H, la cual es cerrada bajo uniones numerables y complementos (en particular H pertenece a la familia); es decir, lo que ahora se denomina -álgebra de subconjuntos de H. Una medida la de…nió entonces como una función (con valores reales), no negativa, de…nida sobre H, la cual es “perfectamente aditiva”, es decir, si E ; E2 ; : : : sonPelementos de la familia, ajenos por parejas, entonces S11 ( n=1 En) = 1 es -aditiva, en la terminología n=1 (En); es decir, moderna. En otras palabras, Nikodym trabajaba con medidas tal y como las hemos de…nido en el capítulo 4 ( (;) = 0 se sigue de la -aditividad). 7.1. INTRODUCCIÓN 187 Dada una medida sobre H, de…nió la -distancia entre dos elementos E y F de H de la siguiente manera: jjE; F jj = (E F ) + (F E). Si es una función con valores reales de…nida sobre H, llamaba a -continua si para cualquier sucesión (En )n2N de elementos de H tales que: l mn 1 jjEn ; Ejj = 0, donde E 2 H, se tiene l mn 1 (En ) = (E). Después de que desarrolló la teoría de integración con respecto a una medida , demostró el resultado central de su artículo: Si es perfectamente aditiva, entonces las 4 condiciones siguientes son equivalentes: (i) es -continua. (ii) Para cualquier conjunto E 2 H, si (E) 6= 0 entonces (E) > 0. (iii) Si (En )n2N es una sucesión de elementos de H tales que l mn 1 (En ) = 0, entonces l mn 1 (En ) = 0. (iv) RExiste una función -integrable f : H ! R tal que (E) = f d , para cualquier conjunto E 2 H. E Con este trabajo de Nikodym quedó formulada la teoría de la medida como se le conoce actualmente y quedaron establecidos los resultados básicos de la teoría de integración con respecto a una medida, los cuales expondremos en este capítulo. Pero antes de esa exposición es necesario mencionar que previamente al trabajo de Nikodym, la solución al problema de la integración de funciones, visto como uno de Análisis Funcional, había sido ya formulada de manera completa por Percy John Daniell en sus 4 artículos publicados entre 1918 y 1920 ([21], [22], [23], [24]). En su primer artículo, A general form of the integral ([21]), publicado en 1918, decía Daniell: “La idea de una integral ha sido extendida por Radon (1913), Young (1914), Riesz (1914) y otros a la integración con respecto a una función de variación acotada. Estas teorías están basadas sobre las propiedades fundamentales de los conjuntos de puntos en un espacio con un número …nito de dimensiones. En este artículo se desarrolla una teoría que es independiente de la naturaleza de sus elementos. Pueden ser puntos en un espacio de una in…nidad numerable de dimensiones, o curvas en general, o clases de eventos que conciernen a la teoría. Se sigue que, aunque muchas de las demostraciones que se dan [en este artículo] son meras traducciones a otro lenguaje de métodos ya clásicos (particularmente los debidos a Young), aquí y ahí, donde las demostraciones previas se basan en la teoría de conjuntos de puntos, nuevos métodos han sido desarrollados.”Mencionaba también que Fréchet consideró una integral general, pero decía que no trató completamente los teoremas de existencia. Para de…nir la integral, asumía que hay una clase inicial T0 de funciones acotadas con valores reales, de…nidas sobre un conjunto H, la cual tiene las siguientes propiedades: 188 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE 1. Si f 2 T0 y c es una constante, entonces cf 2 T0 . 2.Si f1 ; f2 2 T0 , entonces f1 + f2 , max (f1 ; f2 ) y m n (f1 ; f2 ) pertenecen a T0 . Consideraba entonces funciones U de…nidas sobre T0 (las denominaba funcionales), las cuales pueden tener algunas de las siguientes propiedades: (A) U (f1 + f2 ) = U (f1 ) + U (f2 ). (C) U (cf ) = cU (f ), donde c es una constante. (L) Si (fn )n2N es una sucesión decreciente de funciones tales que l mn cualquier p, entonces l mn!1 U (fn ) = 0. 1 fn (p) = 0 para (M) Existe una funcional M , de…nida sobre las funciones no negativas de T0 , tal que si ' , entonces M (') M ( ), y jU (f )j M (jf j). (P) Si f es no negativa, entonces U (f ) 0. Denominaba I-integral a una funcional I que satisfaga (A), (C), (L) y (P) y S-integral a una funcional que satisfaga (A), (C), (L) y (M). Mencionaba que una I-integral puede ser llamada una integral positiva y que una S-integral es una integral de Stieltjes generalizada. Como ejemplo mencionaba que si T0 es el conjunto de funciones continuas de…nidas sobre un intervalo (a; b), entonces la integral de Riemann es una I-integral y la integral de Stieltjes es una S-integral. De…nió la clase T1 como la familia de funciones que son límite de una sucesión no decreciente (fn )n2N de elementos de T0 . Si f 2 T1 y f = l mn sumable. 1 fn , de…ne I (f ) = l mn 1 I (fn ). Si I (f ) < 1 se dirá que f es Si f es cualquier función con valores reales, de…nida sobre H, se de…ne: I (f ) = nf fI (') 2 T1 : ' 2 T1 y ' I (f ) = f g, I ( f ). Si I (f ) = I (f ) < 1 se dirá que f es sumable y se de…ne I (f ) = I (f ). Si S es una S- integral, demostró que las funcionales I2 = I1 S e I = I1 + I2 son Iintegrales y se dice que una función f con valores reales, de…nida sobre H, es sumable (S) si es I-sumable. En este caso, se de…ne S (f ) = I1 (f ) I2 (f ). Demostró entonces los siguientes resultados: (i) I, de…nida sobre T1 , es una I-integral. 7.1. INTRODUCCIÓN 189 (ii) Si f es el límite de una sucesión no decreciente (fn )n2N de elementos de T1 , entonces f 2 T1 e I (f ) = l mn 1 I (fn ). (iii) I, de…nida sobre el conjunto de funciones sumables, es una I-integral. (iv) Si f es el límite de una sucesión no decreciente (fn )n2N de funciones sumables y: l mn!1 I (fn ) < 1, entonces f es sumable e I (f ) = l mn 1 I (fn ). (v) Si f es el límite de una sucesión (fn )n2N de funciones sumables y existe una función sumable ' tal que jfn j ' para cualquier n 2 N, entonces f es sumable e I (f ) = l mn!1 I (fn ). (vi) S, de…nida sobre el conjunto de funciones (S) sumables, es una S-integral. (vii) Si f es el límite de una sucesión no decreciente (fn )n2N de funciones (S) sumables y l mn 1 (I1 + I2 ) (fn ) < 1, entonces f es (S) sumable y S (f ) = l mn 1 S (fn ). (viii) Si f es el límite de una sucesión (fn )n2N de funciones (S) sumables y existe una función (S) sumable ' tal que jfn j ' para cualquier n 2 N, entonces f es (S) sumable y S (f ) = l mn 1 S (fn ). Como puede verse, Daniell realizó un proceso de extensión de una funcional lineal, de…nida sobre un conjunto de funciones T0 , a una funcional lineal de…nida sobre un conjunto de funciones que es cerrado bajo el paso a límites y la funcional extendida es tal que, bajo determinadas condiciones, la funcional de un límite de funciones es igual al límite de la sucesión formada por la aplicación de la funcional a cada una de las funciones. Es lo mismo que había realizado Lebesgue, pero el resultado de Daniell no se restringe a funciones de…nidas sobre Rn ; incluye el caso en que las funciones a integrar estén de…nidas sobre un espacio de dimensión in…nita. El teorema de Carathéodory permitió hacer lo mismo siguiendo el enfoque de Lebesgue, basando la de…nición de la integral en la existencia de una medida. De hecho, el resultado de Carathéodory permite realizar también un proceso de extensión, pero no de una funcional, sino de una función de…nida sobre conjuntos, para así llegar a la construcción de una medida. La aplicación del teorema de Carathéodory a la construcción de medidas en espacios de dimension in…nita tardó algunos años, básicamente se dio con el resultado de Kolmogorov del año 1933. En el año 1920, Daniell publicó su segundo artículo sobre el tema de la integral, bajo el título Integrals in an in…nity number of dimensions ([22]). En ese trabajo dio algunos ejemplos de integrales de funciones de…nidas sobre espacios de dimensión in…nita. En el mismo año publicó otros dos artículos, uno titulado Functions of limited variation in an in…nite number of dimensions ([23]) y el otro Further properties of the general integral ([24]), en los cuales continuó desarrollando su teoría de integración. El trabajo de Daniell tuvo una gran in‡uencia, siendo su principal aplicación la que hizo Norbert Wiener, entre 1921 y 1923 ([96], [97], [98], [99], [102]) al construir un modelo matemático para el movimiento browniano, no basándose en la teoría de la medida que se estaba desarrollando, sino utilizando el teorema de extensión de Daniell. Algunos años más tarde, al completarse el desarrollo de la teoría de la medida y de la teoría de integración con respecto a una medida, el método de Daniell fue reemplazado por el de Carathéodory. 190 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE Sin embargo, no está dicha la última palabra; recientemente se ha retomado el método de Daniell, en particular en el Cálculo Estocástico. A continuamos expondremos la formulación moderna de la teoría de integración con respecto a una medida. 7.2. Funciones medibles En lo que resta de este capítulo, (F; =) será un espacio medible …jo y a los conjuntos E 2 = los llamaremos conjuntos medibles. Recordemos que Lebesgue demostró que si f : [a; b] ! R es una función acotada no negativa, entonces el conjunto: E = f(x; y) 2 R2 : x 2 [a; b] y y 2 [0; f (x)]g, es medible si y sólo si el conjunto fx 2 [a; b] : f (x) > g es medible para cualquier 2 R. De este resultado surgió la de…nición que dio de función medible: Una función acotada f : [a; b] ! R es medible si el conjunto fx 2 [a; b] : f (x) > g es medible para cualquier 2 R. Si de…nimos H = fB 2 B (R) : f 1 (B) 2 B ([a; b])g, se puede ver fácilmente que H es una -algebra de subconjuntos de R; además, si f es medible (de acuerdo con la de…nición de Lebesgue) H contiene a todos los intervalos de la forma ( ; 1). Por lo tanto, contiene contiene a la -álgebra generada por esos intervalos, es decir los borelianos. Así que H = B (R). De manera que una función f : [a; b] ! R es medible si y sólo si f 1 (B) 2 B ([a; b]) para cualquier B 2 B (R). Lo anterior motiva que en un caso general se de…na la medibilidad de una función de la siguiente manera: Definición 7.1. Sea (E; E) un espacio medible. Diremos que una función f : F ! E es medible si f 1 (B) 2 = para cualquier B 2 E. Ahora mostramos que para que una función f : F ! E sea medible basta con que f 1 (B) 2 = para cualquier elemento B de una familia de conjuntos que genere la -álgebra E. Proposición 7.1. Sean (F; =) y (E; E) dos espacios medibles y A una familia de subconjuntos de E tal que E = (A). Entonces una función f : F ! E es medible si y sólo si f 1 (B) 2 = para cualquier B 2 A. Demostración La familia fB E : f 1 (B) 2 =g es una -álgebra de subconjuntos de E la cual contiene a A, por lo tanto contiene a (A). 7.3. FUNCIONES MEDIBLES CON VALORES EN R 191 Proposición 7.2. Sean (E; E) y (G; G) dos espacios medibles y f : F ! E, g : E ! G dos funciones medibles, entonces g f es medible. Demostración Sea B 2 G, entonces g 1 (B) 2 E, así que: (g f ) 1 (B) = (f 1 g 1 ) (B) = f 1 (g 1 (B)) 2 =. 7.3. Funciones medibles con valores en R La medibilidad de una función f : F ! R (resp. f : F ! R) será entendida considerando sobre R (resp. R) la -álgebra de los conjuntos borelianos en R (resp. R). La proposición 2.1 implica el siguiente resultado: Teorema 7.1. Una función f : F ! R es medible si y sólo si se cumple cualquiera de las siguientes propiedades: (i) (ii) (iii) (iv) (v) (vi) fx 2 F : f (x) y]g 2 = para cualquier y 2 R. fx 2 F : f (x) < yg 2 = para cualquier y 2 R. fx 2 F : f (x) 2 (a; b]g 2 = para cualesquiera a; b 2 R. fx 2 F : f (x) 2 [a; b)g 2 = para cualesquiera a; b 2 R. fx 2 F : f (x) 2 (a; b)g 2 = para cualesquiera a; b 2 R. fx 2 F : f (x) 2 [a; b]g 2 = para cualesquiera a; b 2 R. De la misma manera, los resultados del capítulo 2, acerca de los generadores de la -álgebra de Borel en R, implican el siguiente resultado: Teorema 7.2. Una función f : F ! R es medible si y sólo si se cumple cualquiera de las siguientes propiedades: (i) (ii) (iii) (iv) (v) fx 2 F : f (x) 2 ( 1; y]g 2 = para cualquier y 2 R. fx 2 F : f (x) y]g 2 = para cualquier y 2 R. fx 2 F : f (x) < yg 2 = para cualquier y 2 R. fx 2 F : f (x) y]g 2 = para cualquier y 2 R. fx 2 F : f (x) < yg 2 = para cualquier y 2 R. Obsérvese que si una función f : F ! R es medible, entonces los conjuntos fx 2 F : f (x) = 1g y fx 2 F : f (x) = 1g son medibles. Así que también el conjunto fx 2 F : f (x) 2 Rg es medible. P Proposición 7.3. Toda función ' : F ! R de la forma ' = m k=1 bk IEk , donde m 2 N, b1 ; : : : ; bm son números reales y E1 ; : : : ; Em son conjuntos medibles, es medible. 192 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE Demostración Sea E = [m k=1 Ek , T = f1; : : : ; mg y, si A = fi1 ; : : : ; ik g de…namos: EA = E \ Ei1 \ cA = bi1 + 0 \ Eik \ Ejc1 \ T y T A = fj1 ; : : : ; jm k g, \ Ejcm k , + bik si A 6= ; si A = ; Entonces EA es medible para cualquier A T, E = subconjuntos distintos de T , EA y EB son ajenos. S fA T g EA , y, si A y B son dos Además, si x 2 EA y A = fi1 ; : : : ; ik g, '(x) = bi1 + + bik = cA , por lo tanto ' = P c I , de lo cual se sigue inmediatamente que ' es medible. A T A EA Definición 7.2. Diremos que una función medible ' : F ! R es simple si tiene la forma P b I '= m k=1 k Ek , donde b1 ; : : : ; bm son números reales y E1 ; : : : ; Em son conjuntos medibles. El resultado siguiente es la base para la de…nición de la integral de una función medible no negativa y también para demostrar algunas de las propiedades de las funciones medibles, así como de sus integrales. Teorema 7.3. Sea f : F ! R una función medible no negativa, entonces existe una sucesión no decreciente de funciones simples no negativas 'n : F ! R tales que l mn 1 'n (x) = f (x) para cualquier x 2 F. Demostración Para cada n 2 N, de…namos: ( P 'n (x) = n n2n m 1 (x) m=1 2n Ify2F: m2n 1 f (y)< 2m ng si f (x) < n si f (x) n Si f (x) = 1, entonces 'n (x) = n para cualquier n 2 N, así que 'n (x) l mn 1 'n (x) = 1 = f (x). 'n+1 (x) y Si f (x) < n para alguna n 2 N, sea m el único número natural tal que m2n 1 f (x) < 2mn . Entonces, como 'n (x) = m2n 1 , se tiene f (x) 21n < 'n (x) f (x), así que l mn 1 'n (x) = f (x). 1) 2m 2 1 1 Ahora bien, como 2(m f (x) < 22m f (x) < 2m o bien 2m n+1 , se tiene que 2n+1 2n+1 2n+1 2n+1 2m 2 f (x) < 22m = m2n 1 = 'n (x) mientras que n+1 . En el primer caso, se tiene 'n+1 (x) = 2n+1 2m 1 2m 2 en el segundo, se tiene 'n+1 (x) = 2n+1 > 2n+1 = 'n (x). Así que, en cualquier caso, 'n (x) 'n+1 (x). 7.3. FUNCIONES MEDIBLES CON VALORES EN R 193 Así que, 'n es una sucesión no decreciente de funciones simples no negativas tales que l mn!1 'n (x) = f (x) para cualquier x 2 F. Teorema 7.4. Sea f : F ! R una función medible, entonces existe una sucesión de funciones simples 'n tales que l mn 1 'n (x) = f (x) para cualquier x 2 F y j'n j jf j para cualquier n 2 N. Demostración Se tiene: f + = max (f; 0), f = max ( f; 0), f + y f son funciones medibles no negativas, las cuales no pueden tomar el valor 1 en el mismo punto. Así que si f'n gn2N y f n gn2N son sucesiones no decrecientes de funciones simples no negativas tales que l mn 1 'n (x) = f + (x) y l mn 1 n (x) = f (x) para cualquier x 2 F, entonces + 'n n es una función simple para cualquier n 2 N y l mn 1 ['n (x) n (x)] = f (x) + f (x) = f (x) para cualquier x 2 F. Además, como 'n f y n f para cualquier n 2 N, entonces j'n 'n + n = jf j para cualquier n 2 N. nj Pm Si ' = k=1 bk IGk es una función simple entonces el conjunto de los valores que toma es …nito. Sea fa1 ; : : : ; an g el conjunto formado por todos los distintos posibles valores no nulos de ' y, para k 2 f1; : : : ; ng, sea EP k = fx 2 F : '(x) = ak g, entonces los conjuntos E1 ; : : : ; En son ajenos por parejas y ' = nk=1 ak IEk . Esta última sumatoria será llamada la representación canónica de '. Ahora demostraremos las propiedades básicas de las funciones medibles con valores en R. Proposición 7.4. Sea g1 : F ! R, g2 : F ! R , : : : una sucesión de funciones medibles, entonces: (i) Para cualquier n 2 N, las funciones m n fg1 ; : : : ; gn g y max fg1 ; : : : ; gn g son medibles. (ii) Las funciones nf fg1 ; g2 ; : : :g y sup fg1 ; g2 ; : : :g son medibles. Demostración Para cualquier y 2 F, se tiene: fx 2 F : m n fg1 ; : : : ; gn g (x) yg = fx 2 F : max fg1 ; : : : ; gn g (x) yg = Tn k=1 Tn k=1 fx 2 F : gk (x) yg 2 =, fx 2 F : gk (x) yg 2 =, 194 7. TEORÍA GENERAL DE INTEGRACIÓN T1 fx 2 F : nf fg1 ; g2 ; : : :g (x) yg = fx 2 F : sup fg1 ; g2 ; : : :g (x) yg = de lo cual se sigue el resultado. k=1 T1 PRIMERA PARTE fx 2 F : gk (x) yg 2 =, fx 2 F : gk (x) yg 2 =, k=1 Corolario 7.1. Sea f1 : F ! R, f2 : F ! R , : : : una sucesión de funciones medibles, entonces las funciones l m nf fn y l m sup fn son medibles. Demostración La sucesión gn = nf ffj : j l m nf n 1 fn = l mn Así que l m nf n 1 1 ng es no decreciente y: gn = sup fgn : n 2 Ng. fn es medible. La sucesión hn = sup ffj : j l m sup fn = l mn 1 ng es no creciente y: hn = nf fhn : n 2 Ng. Así que l m sup fn es medible. Corolario 7.2. Sea g1 : F ! R, g2 : F ! R , : : : una sucesión de funciones medibles tales que l mn 1 gn (x) existe para cualquier x 2 F, entonces la función g : F ! R de…nida por g(x) = l mn!1 gn (x) es medible. Lema 7.1. Si una función f : F ! R es medible, entonces f + y f son medibles. Demostración La función idénticamente cero es medible, así que entonces f + = max ff; 0g, es medible. Para cualquier y 2 R, se tiene fx 2 F : [ f ] (x) yg = fx 2 F : f (x) f es medible. Por lo tanto, f = max f f; 0g es medible. yg, así que la función Proposición 7.5. Sean f : F ! R y g : F ! R dos funciones medibles y c 2 R. Entonces las funciones f + c, cf y f g son medibles. Demostración Sean 'n , n , n y n sucesiones no decrecientes de funciones simples no negativas tales que l mn!1 'n (x) = f + (x), l mn 1 n (x) = f (x), l mn 1 n (x) = g + (x) y l mn 1 n (x) = g (x), respectivamente, para cualquier x 2 F. Las funciones 'n n + c, c'n c n y 'n n + n n 'n n n n son simples y se tiene: 7.3. FUNCIONES MEDIBLES CON VALORES EN R l mn 1 [c'n l mn ['n c 1 = l mn n n ] (x) ['n 1 n 195 + c] (x) = f (x) + c, = cf (x), + ['n n 'n n n n ] (x) n n ] (x) [ n n ] (x) = [f g] (x). Así que f + c, cf y f g son medibles. El siguiente resultado básicamente expresa que la suma de dos funciones medibles es medible. Sin embargo hay que formularlo bien pues al tratarse de funciones con valores en R, la suma de las dos funciones podría no estar de…nida en algunos puntos. Proposición 7.6. Sean f : F ! R y g : F ! R dos funciones medibles y h : F ! R una función tal que h (x) = f (x) + g (x) en todos los puntos x 2 F para los cuales f (x) + g (x) esté de…nida y h es constante en el conjunto de puntos x 2 F para los cuales f (x) + g (x) no esté de…nida. Entonces h es medible. Demostración Sean 'n , n , n y n sucesiones no decrecientes de funciones simples no negativas tales que l mn!1 'n (x) = f + (x), l mn 1 n (x) = f (x), l mn 1 n (x) = g + (x) y l mn 1 n (x) = g (x), respectivamente, para cualquier x 2 F. Denotemos por al conjunto de puntos x 2 F para los cuales f (x) + g(x) no está de…nida. es medible, las funciones 'n l mn 1 = l mn ['n 1 n ['n Así que hI c + n n + n + n n son simples y, para cualquier x 2 c , se tiene: n ] (x) n n ] (x) = f (x) + g (x) = h (x). es medible. Sea 2 R el valor constante que toma h en el conjunto de puntos x 2 F para los cuales f (x) + g (x) no está de…nida. Si B es un boreliano de R, se tiene: h 1 (B) = (hI c ) 1 (B) (hI c ) 1 [ si si 2 =B 2B Así que h es medible. Recordemos que en el capítulo 2 establecimos la convención de considerar a la suma de dos funciones f : F ! R y g : F ! R como la función h : F !R de…nida de la siguiente manera: 196 7. TEORÍA GENERAL DE INTEGRACIÓN h (x) = f (x) + g (x) si f (x) + g (x) está de…nida 1 si f (x) + g (x) no está de…nida PRIMERA PARTE Así que, de acuerdo con la proposición anterior se tiene el siguiente resultado: Corolario 7.3. Si f : F ! R y g : F ! R son dos funciones medibles, entonces f + g es medible. Teorema 7.5. Supongamos que el espacio de medida (F; =; ) es completo y sean f : F ! R una función medible y g : F ! R una función tal que g = f excepto a lo más en un conjunto de medida cero, entonces g es medible. Demostración Sea E = fx 2 F : g(x) = f (x)g, entonces, para cualquier y 2 R, se tiene. fx 2 F : g(x) yg = (fx 2 F : g(x) yg \ E) [ (fx 2 F : g(x) yg \ E c ) = (fx 2 F : f (x) yg \ E) [ fx 2 E c : g(x) yg. El conjunto fx 2 E c : g(x) yg está contenido en un conjunto de medida cero, por lo tanto es medible. Así que fx 2 F : g(x) yg es medible. En general, cuando se tiene un espacio de medida (F; =; ), los conjuntos de medida cero son considerados pequeños al grado de que pueden ser despreciados. De esta forma, dos funciones medibles que sean iguales excepto en un conjunto de medida cero son esencialmente la misma función. Esta idea puede formalizarse de…niendo una relación de equivalencia dentro del conjunto de las funciones medibles: Definición 7.3. Diremos que dos funciones medibles son equivalentes si el conjunto de puntos donde son distintas tiene medida cero. Se veri…ca inmediatamente que la relación así de…nida es efectivamente una relación de equivalencia, de manera que, mediante ella, el conjunto de las funciones medibles queda partido en clases de equivalencia, cada una de las cuales está formada por funciones medibles que son iguales excepto en un conjunto de medida cero. Si f es una función medible, denotaremos por [f ] a la clase equivalencia que contiene a f . Proposición 7.7. Sea (F; =0 ; ) un espacio de medida y = la completación de =0 con respecto a . Si f : F 7! R es una función =-medible no negativa, entonces existe un conjunto B 2 =0 de medida cero y una función : F 7! R, =0 -medible no negativa, tal que f = IB c + f IB . 7.4. FUNCIONES MEDIBLES CON VALORES EN R n 197 Demostración Para cada n 2 N, sea: ( P n 'n (x) = n n2 1 m m=0 2n Ify2R: 2m n n Ann2 = fy 2 F : f (y) m 2n Am n = y 2 F : (x) f (y)< m+1 2n g si f (x) < n si f (x) n ng, f (y) < m+1 2n , para m 2 f0; : : : ; n2n 1g. Entonces: Sn2n 1 m m=0 An = fy 2 F : f (y) < ng. Para n 2 N y m 2 f0; : : : ; n2n g, sean Bnm 2 =0 y Cnm un conjunto de medida cero tales que Am B m [ C m y B m \ Cnm = ;. Entonces existe un conjunto B 2 =0 de medida cero tal n = P n 1m S1 n Sn2nn m n m + nIB n2n es B y, para cada n 2 N, la función n = n2 que n=1 m=0 Cn m=0 2n IBn n =0 -medible y: P n 1m 1 'n = n2 I m + nIAnn2n m=0 2n An P n 1m 1 P n 1m 1 = n2 I m + nIBnn2n + n2 I m + nICnn2n . m=0 m=0 2n B n 2n Cn Para cualquier n 2 N, si y 2 B c , entonces y 2 Bnm para alguna m 2 f0; : : : ; n2n g. Por lo tanto, n (y) = 'n (y). Así que n IB c = 'n IB c y entonces n converge sobre B c . Sea: (y) = Entonces l mn 0 1 n (y) si y 2 B c si y 2 B es =0 -medible y = f sobre B c . Por lo tanto: f = f IB c + f IB = IB c + f IB . 7.4. Funciones medibles con valores en R n n La medibilidad de una función f : F ! Rn (resp. f : F ! R ) será entendida considerando n n sobre Rn (resp. R ) la -álgebra de los conjuntos borelianos en Rn (resp. R ). Dada una función f : F ! Rn , podemos de…nir, para cada k 2 f1; 2; : : : ; ng, una función fk : F ! R la cual asocia a cada x 2 F, la k-ésima coordenada de la imagen de x bajo f , de 198 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE manera que f se puede escribir como (f1 ; f2 ; : : : ; fn ). Las funciones f1 ; f2 ; : : : ; fn de…nidas de esta manera será llamadas las componentes de la función f . Obviamente, si partimos de n funciones cualesquiera, f1 ; f2 ; : : : ; fn , de F en R, podemos de…nir la función (f1 ; f2 ; : : : ; fn ) : F ! Rn mediante la relación: (f1 ; f2 ; : : : ; fn ) (x) = (f1 (x) ; f2 (x) ; : : : ; fn (x)). Las componentes de esta función así de…nida son f1 ; f2 ; : : : ; fn . n De manera similar, podemos de…nir las componentes de una función f : F ! R . Proposición 7.8. Sea f : F ! Rn y f1 ; f2 ; : : : ; fn las componentes de f . Entonces f es medible si y sólo si se cumple cualquiera de las siguientes propiedades: T (i) Tnk=1 fx 2 F : fk (x) yk ]g 2 = para cualquier vector (y1 ; y2 ; : : : ; yn ) 2 Rn . (ii) Tnk=1 fx 2 F : fk (x) < yk ]g 2 = para cualquier vector (y1 ; y2 ; : : : ; yn ) 2 Rn . (iii) nk=1 fx 2 F : f (x) 2 (ak ; bk ]g 2 = n Tn para cualesquiera (a1 ; a2 ; : : : ; an ) ; (b1 ; b2 ; : : : ; bn ) 2 R . (iv) k=1 fx 2 F : f (x) 2 [ak ; bk )g 2 = n Tn para cualesquiera (a1 ; a2 ; : : : ; an ) ; (b1 ; b2 ; : : : ; bn ) 2 R . (v) k=1 fx 2 F : f (x) 2 (ak ; bk )g 2 = n Tn para cualesquiera (a1 ; a2 ; : : : ; an ) ; (b1 ; b2 ; : : : ; bn ) 2 R . (vi) k=1 fx 2 F : f (x) 2 [ak ; bk ]g 2 = para cualesquiera (a1 ; a2 ; : : : ; an ) ; (b1 ; b2 ; : : : ; bn ) 2 Rn . Teorema 7.6. Sea f : F ! Rn y f1 ; f2 ; : : : ; fn las componentes de f . Entonces f es medible si y sólo si f1 ; f2 ; : : : ; fn son medibles. Demostración Supongamos que f1 ; f2 ; : : : ; fn son medibles, entonces, para cualquier k 2 f1; 2; : : : ; ng, fx 2 F : fk (x) yk ]g 2 = para cualquier yk 2 R. Por lo tanto: Tn yk ]g 2 = para cualquier vector (y1 ; y2 ; : : : ; yn ) 2 Rn . k=1 fx 2 F : fk (x) Inversamente, supongamos que f es medible y sean k 2 f1; 2; : : : ; ng y yk 2 R. Para cada j 2 f1; 2; : : : ; ng, de…namos: Ij = ( 1; yk ] si j = k R si j 6= k Entonces: fx 2 F : fk (x) yk ]g = Tn j=1 fx 2 F : fj (x) 2 Ij g 2 =. n Proposición 7.9. Sea f : F ! R y f1 ; f2 ; : : : ; fn las componentes de f . Entonces f es medible si y sólo si: 7.4. FUNCIONES MEDIBLES CON VALORES EN R Tn k=1 fx 2 F : fk (x) n 199 yk ]g 2 = n para cualquier vector (y1 ; y2 ; : : : ; yn ) 2 R . n Teorema 7.7. Sea f : F ! R y f1 ; f2 ; : : : ; fn las componentes de f . Entonces f es medible si y sólo si f1 ; f2 ; : : : ; fn son medibles. Demostración Supongamos que f1 ; f2 ; : : : ; fn son medibles, entonces, para cualquier k 2 f1; 2; : : : ; ng, fx 2 F : fk (x) yk ]g 2 = para cualquier yk 2 R. Por lo tanto: Tn n yk ]g 2 = para cualquier vector (y1 ; y2 ; : : : ; yn ) 2 R . k=1 fx 2 F : fk (x) Inversamente, supongamos que f es medible y sean k 2 f1; 2; : : : ; ng y yk 2 R. Para cada j 2 f1; 2; : : : ; ng, de…namos: Ij = [ 1; yk ] si j = k R si j 6= k Entonces: fx 2 F : fk (x) yk ]g = Tn j=1 fx 2 F : fj (x) 2 Ij g 2 =. Teorema 7.8. Toda función continua f : Rn 7! Rm es medible. Demostración Sea H = fB Rn : f 1 (B) 2 =g. H es una -álgebra de subconjuntos de F la cual contiene a los conjuntos abiertos ya que f es continua. Por lo tanto, H contiene a la -álgebra generada por los conjuntos abiertos de Rn , es decir, contiene a los borelianos de Rn ya que B (Rn ) está generada por los conjuntos abiertos. Por lo tanto, f es medible. Corolario 7.4. Sea f : F ! R una función medible, entonces las funciones g = f1 Ifx2F:f (x)6=0g y h = jf j , donde 0, son medibles. El siguiente resultado permite realizar el vínculo entre la teoría de la medida y la teoría de integración con un enfoque geométrico. Cuando uno quiere calcular el área de la región comprendida bajo la grá…ca de una función no negativa, se integra tal función . En otras palabras, la integral de Riemann de una función no negativa corresponde al área bajo la grá…ca de esa función. Lo mismo ocurre con la integral de…nida por H. Lebesgue. Para que este resultado adquiera sentido se requiere que, dada una función boreliana no negativa, la 200 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE región comprendida bajo la grá…ca de la función sea un conjunto al cual se le puede asignar área, es decir, que sea Lebesgue medible. Como se muestra a continuación, tal región es un conjunto boreliano de R2 . Proposición 7.10. Sea g : Rn 7! R cualquier función boreliana no negativa. Entonces la función h : Rn+1 7! R de…nida por h(x; y) = I[0;g(x)) (y), donde x 2 Rn y y 2 R, es boreliana. Demostración Para cada m 2 N, sea: ( P m m2 k 1 k=0 2m I[ k2m1 'm (x) = 1 g< 2km ] si g(x) < m si g(x) m De acuerdo con la demostración de la proposición anterior, 'm es una sucesión no decreciente de funciones no negativas tales que l mm 1 'm (x) = g(x) para cualquier x 2 Rn . Por lo tanto: f(x; y) 2 Rn+1 : 0 m m2 = [1 m=1 [k=0 k 1 2m n+1 y < g(x)g = [1 :0 m=1 f(x; y) 2 R g< k 2m 0; k2m1 y < 'm (x)g . Así que el conjunto f(x; y) 2 Rn+1 : h(x; y) = 1g es boreliano. Corolario 7.5. Sea g : Rn 7! R una función boreliana no negativa. Entonces los siguientes conjuntos son borelianos de Rn+1 : (i) (ii) (iii) (iv) (v) f(x1 ; : : : ; xn ; y) 2 Rn+1 f(x1 ; : : : ; xn ; y) 2 Rn+1 f(x1 ; : : : ; xn ; y) 2 Rn+1 f(x1 ; : : : ; xn ; y) 2 Rn+1 f(x1 ; : : : ; xn ; y) 2 Rn+1 : 0 < y < g(x1 ; : : : ; xn )g, : 0 y < g(x1 ; : : : ; xn )g, : 0 < y g(x1 ; : : : ; xn )g, : 0 y g(x1 ; : : : ; xn )g, : g(x) > 0 y 0 y g(x1 ; : : : ; xn )g. 7.5. La integral de funciones medibles simples no negativas En seguida se desarrolla la formulación moderna de la teoría de integración de Lebesgue para el caso de un espacio de medida (F; =; ) cualquiera. La idea es de…nir primero la integral para las funciones simples no negativas, después para cualquier función medible no negativa y …nalmente para cualquier función medible. Como una función simple puede tener varias representaciones, es necesario hacer ver que se puede obtener la integral de la función teniendo cualquiera de sus representaciones. Definición 7.4. Si ' es una función simple no negativa con representación canónica ' = R P n k=1 ak IEk , se de…ne la integral de ', F 'd , de la siguiente manera: 7.5. LA INTEGRAL DE FUNCIONES MEDIBLES SIMPLES NO NEGATIVAS R 'd = F 201 Pn ak m (Ek ). P Lema 7.2. Sea ' = m donde los conjuntos F1 ; : : : ; Fm j=1 bj IFj una función simple no negativa, P Pn son ajenos por parejas, con representación canónica ' = k=1 ak IEk , entonces m j=1 bj m (Fj ) = Pn k=1 ak m (Ek ). k=1 Demostración Para k 2 f1; : : : ; ng, se tiene Ek = [fj2f1;:::;mg:bj =ak g Fj , así que: Pn Pn P k=1 ak m (Ek ) = k=1 ak fj2f1;:::;mg:bj =ak g m (Fj ) P P P = nk=1 fj2f1;:::;mg:bj =ak g bj m (Fj ) = m j=1 bj m (Fj ). P simple, donde los coe…cientes b1 ; : : : ; bm Proposición 7.11. Sea ' = m j=1 bj IFj una función P P son no negativos, con representación canónica ' = nk=1 ak IEk , entonces m j=1 bj m (Fj ) = Pn k=1 ak m (Ek ). Demostración P Los términos de la sumatoria m j=1 bj IFj en los cuales bj = 0 pueden eliminarse, así que podemos asumir que b1 ; : : : ; bm son números reales positivos. Sea F = [m j=1 Fm , T = f1; : : : ; mg y, si A = fi1 ; : : : ; ik g de…namos: FA = F \ Fi1 \ cA = bi1 + \ Fik \ Fjc1 \ T y T A = fj1 ; : : : ; jm k g, \ Fjcm k , + bik . Entonces F = [A T FA , Fi = [fA T :i2Ag FA y, si A y B son dos subconjuntos distintos de T , FA y FB son ajenos. Por lo tanto: P m (Fj ) = fA T :j2Ag m (FA ). Así que: Pm Pm P j=1 bj m (Fj ) = j=1 bj fA T :j2Ag m (FA ) P P P P = m j=1 fA T :j2Ag bj m (FA ) = A T j2A bj m (FA ) P = A T cA m (FA ). Además, si x 2 FA y A = fi1 ; : : : ; ik g, '(x) = bi1 + P c I A FA . A T Así que se tiene: + bik = cA , por lo tanto ' = 202 Pm j=1 bj IFj Pm 7. TEORÍA GENERAL DE INTEGRACIÓN = P j=1 bj m (Fj ) cA IFA , A T = PRIMERA PARTE P cA m (FA ). P Pn P = m j=1 bj IFj , se tiene i=1 ai IEi = A A T P Pero como ni=1 ai IEi anterior: Pm P j=1 bj m (Fj ) = A T cA m (FA ) = Corolario 7.6. Sea ' = son no negativos, entonces: R P 'd = m j=1 bj m (Fj ). F Pm Pn j=1 bj IFj k=1 T cA IEA , así que, por el lema ak m (Ek ). una función simple, donde los coe…cientes b1 ; : : : ; bm Proposición 7.12. Sean ' y dos funciones simples no negativas, entonces: R R R (i) F [a' + b ] d = a F 'd + b F d para cualesquiera números reales a y b no negativos. R R (ii) Si ' , entonces F 'd d . F Demostración P P i. Sean nk=1 ak IEk y m k=1 bk IFk las representaciones canónicas de ' y , respectivamente. Entonces: P P a' + b = nk=1 aak IEk + m k=1 bbk IFk .. Así que: R P P [a' + b ] d = nk=1 aak m (Ek ) + m k=1 bbk m (Fk ) F R R = a F 'd + b F d . ii. Si ' , entonces R R R d = F 'd + F [ F Por lo tanto: R R R d 'd = F [ F F ' es una función simple no negativa y ='+( '), así que: '] d . '] d 0. Teorema 7.9. Sea 'R una función simple no negativa. Entonces, la función m : = ! R, de…nida por m(E) = E 'd , es una medida. Demostración Obviamente, m es no negativa y, por la proposición anterior, es …nitamente aditiva. 7.6. LA INTEGRAL DE FUNCIONES MEDIBLES NO NEGATIVAS 203 P Sea nk=1 ak IEk la representación canónica de ', An una sucesión creciente de conjuntos medibles y A = [1 n=1 An . Entonces: R P 'd = nk=1 ak m (An \ Ek ), An R P 'd = nk=1 ak m (A \ Ek ). A Así que: R P l mn 1 m(An ) = l mn!1 An 'd = l mn!1 nk=1 ak m (An \ Ek ) P P = nk=1 ak l mn 1 m (An \ Ek ) = nk=1 ak m (A \ Ek ) R = A 'd = m(A). 7.6. La integral de funciones medibles no negativas Para de…nir la integral de una función medible no negativa podríamos utilizar el hecho de que se puede aproximar, por abajo, mediante una sucesión no decreciente de funciones simples no negativas y de…niendo entonces la integral de la función como el límite de las integrales de las funciones simples que aproximan a la función. Con este método, sería necesario demostrar que el valor que se obtiene es el mismo para cualquier sucesión de funciones simples no negativas cuyo límite sea la función medible dada. La siguiente de…nición evita tener que hacer eso y es más cómoda de trabajar. R Definición 7.5. Si f es una función medible no negativa, se de…ne la integral de f , F f d , de la siguiente manera: R R 'd : ' es simple y 0 ' f . f d = sup F F Definición 7.6. Si f es una función medible no negativa y E es un conjunto medible, se de…ne: R R f d = I fd . E F E Podemos demostrar inmediatamente el primero de los teoremas de convergencia de la integral, los cuales muestran claramente, para el caso de funciones de…nidas sobre R, la superioridad de la integral de Lebesgue con respecto a la integral de Riemann Teorema 7.10 (Teorema de la convergencia monótona). Sea fn una sucesión no decreciente de funciones medibles no negativas, entonces: R R l mn 1 fn d = l mn!1 F fn d . F 204 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE Demostración Sea f = l mn 1 fn y ' una función simple no negativa tal que ' f , 2 (0; 1) y An = fx 2 F:fn (x) '(x)g. Entonces, la sucesión An es creciente y [An = F. Además, la R función m : = ! R, de…nida por m(E) = E 'd , es una medida, así que: R R l mn 1 An 'd = F 'd . R R R Por otra parte, 'd f d f d para cualquier n 2 N, así que: An An n F n R R R 'd = l m 'd l m f d . n!1 n 1 F An F n Haciendo tender a 1, se obtiene entonces: R R 'd l m f d . n 1 F F n Por lo tanto: R fd l mn F 1 R F fn d . Proposición 7.13. Sean f y g dos funciones medibles no negativas, entonces: R R [af + bg] d = a f d + b gd para cualesquiera números reales a y b no F F F negativos. R R (ii) Si f g entonces F f d gd . F R R (iii) RSi f g sobre un conjunto E 2 =, entonces E f d gd . E (iv) F f d = 0 si y sólo si fx 2 F : f (x) > 0g = 0. (i) R Demostración Para la primera, sean 'n y n dos sucesiones no decrecientes de funciones simples no negativas tales que l mn!1 'n (x) = f (x) y l mn 1 n (x) = g (x) para cualquier x 2 F. Para cada n 2 N, se tiene: R R R [a' + b ] d = a ' d + b n n n F F F nd . Así que, por el teorema de la convergencia monótona, se tiene: R R R [af + bg] d = a f d + b f d . F F F n La segunda propiedad es inmediata de la de…nición. Para la tercera propiedad, si f g sobre un conjunto E 2 =, entonces f IE el resultado se sigue de la segunda propiedad. R Para la cuarta propiedad supongamos que F f d = 0. gIE , así que 7.6. LA INTEGRAL DE FUNCIONES MEDIBLES NO NEGATIVAS 205 Para cada n 2 N, sea En = x 2 F : f (x) > n1 , entonces, para cualquier n 2 N, se tiene: R R 1 f d fd (En ). n F En R Si (En ) fuera positiva, se tendría F f d > 0, por lo tanto (En ) = 0. Finalmente, ([1 n=1 En ) = l mn fx 2 F : f (x) > 0g = 1 (En ) = 0. Inversamente, supongamos que fx 2 F : f (x) > 0g = 0 y sea ' una R función medible simple tal R que 0 ' f , entonces ' = 0 casi en todas partes, así que F 'd = 0; por lo tanto, f d = 0. F Teorema 7.11. Sea f Runa función medible no negativa. Entonces, la función m : = ! R, de…nida por m(E) = E f d , es una medida. Además, si h es una función medible no negativa, entonces: R R hdm = F hf d . F Demostración Obviamente, m es no negativa y, por el inciso 1 de la proposición anterior, es …nitamente aditiva. Sea An una sucesión monótona no decreciente de conjuntos medibles y A = [1 n=1 An . Entonces, la sucesión de funciones (IAn f )n2N es no decreciente y l mn 1 IAn = IA f , así que, por el teorema de la convergenc…a monótona: R R R R m(A) = A f d = F IA f d = l mn!1 F IAn f d = l mn!1 An f d = l mn 1 m(An ). P Si ' := nj=1 bj IFj es una función simple no negativa, entonces: R 'dm = F Pn j=1 bj m IFj = Pn j=1 bj R fd = Fj R Fj Pn j=1 IFj f d = R F 'f d . Sea ('n )n2N una sucesión no decreciente de funciones simples no negativas 'n : F ! R tales que l mn 1 'n (x) = h (x) para cualquier x 2 F. Entonces, aplicando el teorema de la convergencia monótona, se tiene: R R R R R hdm = l m ' dm = l m ' f d = l m ' f d = hf d . n 1 n 1 n 1 n n n F F F F F Teorema 7.12 (Lema de Fatou). Sea ffn gn2N una sucesión de funciones medibles no negativas. Entonces: R R l m nf n 1 fn d l m nf n 1 F fn d F 206 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE Demostración La sucesión gn = nf ffj : j ng es no decreciente y l m nf n el teorema de la convergencia monótona: R R l m nf n 1 fn d = l mn 1 F gn d . F Por otra parte, gn fj para cualquier j R R g d nf F fj d : j n . F n Por lo tanto: R l m nf n 1 fn d = l mn F R l mn 1 nf F fj d : j 1 R F 1 fn = l mn!1 gn , así que, por n, así que: gn d n = l m nf n 1 R F fn d . Llamaremos sucesión doble de números reales a cualquier función x : N sucesión de este tipo será denotada por (xnm )n;m2N , donde xnm = x (n; m). N ! R. Una Diremos que una sucesión doble, (xnm )n;m2N , converge si existe L 2 R tal que, para cualquier " > 0 existe N 2 N tal que jxnm Lj < " para toda pareja de números naturales n y m mayores o iguales a N . Sea (xnm )n;m2N una sucesión doble. Considerando esta sucesión en R, independientemente de su convergencia o no convergencia, …jando n 2 N, la sucesión (sup fxij : i n; j mg)m2N es no creciente, así que el límite l mm 1 sup fxij : i n; j mg existe. Además, si n1; n2 2 N y n1 < n2 , entonces sup fxij : i n1 ; j mg sup fxij : i n2 ; j mg, así que: l mm 1 sup fxij : i n1 ; j mg l mm 1 sup fxij : i Por lo tanto, la sucesión (l mm 1 sup fxij : i n; j límite l mn!1 l mm 1 sup fxij : i n; j mg existe. n2 ; j mg. mg)n2N es no creciente, así que el De la misma manera, …jando n 2 N, la sucesión ( nf fxij : i n; j mg)m2N es no decreciente, así que el límite l mm 1 nf fxij : i n; j mg existe. Además, si n1; n2 2 N y n1 < n2 , entonces nf fxij : i n1 ; j mg nf fxij : i n2 ; j mg, así que: l mm 1 nf fxij : i n1 ; j mg l mm 1 nf fxij : i n2 ; j mg. Por lo tanto, la sucesión (l mm 1 nf fxij : i n; j mg)n2N es no decreciente, así que el límite l mn!1 l mm 1 nf fxij : i n; j mg existe. Proposición 7.14. Una sucesión doble (xnm )n;m2N converge a 0 si y sólo si: l mn 1 l mm 1 sup fjxij j : i n; j mg = 0. 7.6. LA INTEGRAL DE FUNCIONES MEDIBLES NO NEGATIVAS 207 Demostración Supongamos que la sucesión doble (xnm )n;m2N converge a 0. Entonces, dada " > 0, sea N 2 N tal que jxnm j < " para toda pareja de números naturales n y m mayores o iguales a N . Entonces, …jando n N , se tiene l mm 1 sup fjxij j : i n; j mg "; por lo tanto l mn 1 l mm 1 sup fjxij j : i n; j mg ". Como esto se cumple cualquiera que sea " > 0, se tiene l mn 1 l mm 1 sup fjxij j : i n; j mg = 0. Inversamente, supongamos que l mn 1 l mm!1 sup fjxij j : i n; j mg = 0. Entonces, dada " > 0, existe N1 2 N tal que l mm 1 sup fjxij j : i n; j mg < " para cualquier n N1 ; así que, existe N2 tal que sup fjxij j : i N1 ; j mg < " para cualquier m N2 . Por lo tanto, sup fjxij j : i N1 ; j N2 g < " y, entonces, jxij j < " para cualquier i y j mayores o iguales que N = max fN1 ; N2 g. Así que la sucesión doble (xnm )n;m2N converge a 0. Proposición 7.15 (Lema de Fatou para sucesiones dobles). Sea ffnm gn;m2N una sucesión doble de funciones medibles no negativas. Entonces: R l mn 1 l mm 1 nf ffij : i n; j mg d F R l mn 1 l mm 1 nf F fij d : i n; j m . Demostración Fijando n 2 N, la sucesión ( nf ffij : i n; j mg)m2N es no decreciente y la sucesión (l mm 1 nf fxij : i n; j mg)n2N también es no decreciente, así que, por el teorema de la convergencia monótona: R l mn 1 l mm 1 nf ffij : i n; j mg d F R = l mn 1 F l mm!1 nf ffij : i n; j mg d R = l mn 1 l mm 1 F nf ffij : i n; j mg d . Por otra parte, nf ffij : i n; j mg frs para cualesquiera r R R nf ffij : i n; j mg d f d , F F rs para cualesquiera r R nf ffij : i n; j F nys mg d m, por lo tanto: R nf F fij d : i n; j nys m, así que: m . Teorema 7.13. Si f es una función medible no negativa tal que …nita casi en todas partes. R F f d < 1, entonces f es 208 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE Demostración Sea = fx 2 F : f (x) = 1 g, entonces R F fI d R F f d < 1. Supongamos ( ) > 0 y de…namos, para cada n 2 N, ( n si x 2 'n (x) = 0 si x 2 = R f I ; así que F f I d RPara cada n 2 N, 'n es una función simple tal que 0 R'n ' d = n ( ) para cualquier n 2 N. Por lo tanto F f I d = 1, lo cual es una F n contradicción. 7.7. Funciones integrables Definición 7.7. Se dice que una función medible f es integrable sobre un conjunto E 2 = R si E jf j d < 1. Proposición 7.16. Si f es una función integrable sobre F, entonces f es …nita casi en todas partes. Demostración El resultado es un corolario de la proposición 7.13 Proposición 7.17. Una función medible f es integrable sobre un conjunto medible E si y sólo si f + y f son integrables sobre E. Demostración Se tiene f + jf j y f jf j, así que si f es una función medible integrable sobre E, entonces + f y f son también integrables sobre E. R R R Inversamente, si f + y f son integrables sobre E, entonces E jf j d = E f + d + E f d , así que f es también integrable sobre E. Definición 7.8. Si f unaR función medible e integrable sobre un conjunto medible E, se de…ne su integral sobre E, E f d , de la siguiente manera: R R + R f d = f d f d . E E E Proposición 7.18. Sean f y g dos funciones medibles e integrables sobre un conjunto medible E, entonces: 7.7. FUNCIONES INTEGRABLES 209 (i) Para R cualquier número real c, la función cf es integrable sobre E y c E fd . R R (ii) Si f g sobre E, entonces f d gd . E E R R (iii) E f d jf j d E R E cf d = Demostración 1. jcf j jcj jf j, así que Si c < 0, se tiene: R E jcf j d < 1. (cf )+ = jcj f y (cf ) = jcj f + , así que: R R R cf d = E jcj f d jcj f + d E E R R R R = c E f d + c E f +d = c E f d + E f +d R = c E fd . Si c 0, se tiene: (cf )+ = cf + y (af ) = cf , así que: R + R R R + f d cf d = cf d cf d = c E E E E R = c E fd . 2. Si f R gd E g sobre E, entonces g R R f d = E (g f ) d E Por lo tanto: R R f d gd . E E R R 4. E f d = E f + d R E R E f d 0 sobre E, así que: f 0. f d R E f +d + R E f d = R E jf j d . Proposición 7.19. Sean f y g dos funciones medibles e integrables sobre un conjunto medible E y h : F ! R una función medible tal que h (x) = f (x) + g (x) en todos los puntos x 2 E para los cuales f (x) + g (x) esté de…nida, entonces h es integrable sobre E y: R R R hd = E f d + E gd . E Demostración Sea = fx 2 E : f (x) + g (x) está de…nidag. Como f y g son integrables sobre E, (E ) = 0, así que: 210 R E 7. TEORÍA GENERAL DE INTEGRACIÓN jf j IE d = Por otra parte: R E jhI j = jf I + gI j jgj IE d = R E jhj IE jf I j + jgI j, así que Además: (f I + gI )+ d = 0. R E jhj I d < 1. (f I + gI ) = f I + gI = (f I )+ = (f I )+ + (gI )+ PRIMERA PARTE (f I ) + (gI )+ (gI ) (f I ) + (gI ) . Así que: (f I + gI )+ + (f I ) + (gI ) = (f I + gI ) + (f I )+ + (gI )+ . Por lo tanto: R R R (f I + gI )+ d + E (f I ) d + E (gI ) d E R R R = E (f I + gI ) d + E (f I )+ d + E (gI )+ d . De lo cual se sigue: R R R R + hI d = (f I + gI ) d = (f I + gI ) d (f I + gI ) d E E E E R R R R = E (f I )+ d + E (gI )+ d (f I ) d (gI ) d E E R R R R + (gI ) d (gI ) d (f I ) d + = E (f I )+ d E E E R R = E f I d + E gI d . Un razonamiento de inducción permite demostrar el siguiente corolario: Corolario 7.7. Sean f1 ; : : : ; fn n funciones medibles e integrables sobre un conjunto medible P E, a1 ; : : : ; an números reales y h : F ! RP una función medible tal que h (x) = nk=1 ak fk (x) en todos los puntos x 2 E para los cuales nk=1 ak fk (x) esté de…nida, entonces h es integrable sobre E y: R R P hd = nk=1 ak E fk d .. E Proposición 7.20. Sean f y g dos funciones medibles e integrables, entonces: R (i) Si R E gd R 0 para cualquier E 2 =, entonces fx 2 F : g (x) < 0g = 0. (ii) RE f d RE gd para cualquier E 2 =, entonces fx 2 F : f (x) > g (x)g = 0. (iii) E f d = E gd para cualquier E 2 =, entonces fx 2 F : f (x) 6= g (x)g = 0. 7.7. FUNCIONES INTEGRABLES 211 Demostración R Supongamos que E gd 0 para cualquier E 2 = y, para cada n 2 N, sea En = 1 x 2 F : g (x) < n , entonces, para cualquier n 2 N, se tiene: R 1 0 gd (En ). n En Así que (En ) = 0. Finalmente, ([1 n=1 En ) = l mn fx 2 F : g (x) < 0g = 1 (En ) = 0. Las otras dos a…rmaciones se siguen como corolario de la primera. Pasemos ahora a demostrar el segundo de los teoremas de convergencia de la integral. Teorema 7.14. Sea g una función no negativa, integrable sobre un conjunto medible E y (fn )n2N una sucesión de funciones medibles tales que jfn j g y f = l mn 1 fn existe excepto a lo más en un conjunto de medida cero, entonces: R l mn!1 E jfn f j d = 0. Demostración Para cada n 2 N, sea hn = 2g jfn f j, entonces, por el lema de Fatou, se tiene: R R 2 E gd = E l mn 1 hn d R R R l m nf n 1 E hn d = 2 E gd l m supn 1 E jfn f j d . Así que: l m supn 1 R E jfn f j d = 0. Corolario 7.8 (Teorema de la convergencia dominada). Sea g una función no negativa, integrable sobre un conjunto medible E, y ffn gn2N una sucesión de funciones medibles tales que jfn j g y l mn 1 fn existe excepto a lo más en un conjunto de medida cero, entonces: R R l mn 1 fn d = l mn!1 E fn d . E Demostración Sea f = l mn 1 fn . Entonces: R R f d l m f d = l mn n 1 E E n 1 R (fn E f) d l mn!1 R E jfn f j d = 0. 212 7. TEORÍA GENERAL DE INTEGRACIÓN PRIMERA PARTE Proposición 7.21. Sea g una función no negativa, integrable y ffnm gn;m2N una sucesión doble de funciones medibles tales que jfnm j g y queRconverge a 0 excepto a lo más en un conjunto de medida cero, entonces la sucesión doble F jfnm j d n;m2N converge a 0. Demostración Como ffnm gn;m2N converge a 0 excepto a lo más en un conjunto de medida cero, entonces: l mn 1 l mm 1 sup fjfij j : i n; j mg = 0, excepto a lo más en un conjunto de medida cero. Por lo tanto, si de…nimos, para cada pareja n; m 2 N, hnm = 2g jfnm j, se tiene: l mn 1 l mm = l mn = 2g 1 1 l mm l mn 1 nf fhij : i 1 nf f2g l mm 1 n; j mg jfij j : i n; j mg sup fjfij j : i n; j mg = 2g. Entonces, por el lema de Fatou, se tiene: R R 2 E gd = F l mn!1 l mm 1 nf fhij : i n; j mg d R l mn 1 l mm 1 nf F hij d : i n; j m , R l mn 1 l mm 1 nf F (2g jfnm j) d : i n; j m R R = 2 E gd l mn 1 l mm 1 sup F jfnm j d : i n; j m . Así que: R jfnm j d : i n; j R Por lo tanto, la sucesión doble F jfnm j d l mn 1 l mm 1 sup F m = 0. n;m2N converge a 0. Teorema 7.15. Sea f una función medible no negativa, m : = ! R de…nida por m(E) = R f d y h una función medible e integrable con respecto a m, entonces hf es integrable con E respecto a y se tiene: R R hdm = F hf d . F Demostración Se tiene: R + R + h dm = h fd , F F R R h dm = F h f d . F 7.7. FUNCIONES INTEGRABLES 213 Así que h+ f y h f son integrables con respecto a . Por lo tanto jhf j = h+ f + h f es integrable con respecto a . Además: R R hdm = F h+ dm F R F h dm = R F h+ f d R F h fd = R F hf d . CAPÍTULO 8 TEORÍA GENERAL DE INTEGRACIÓN Segunda parte 8.1. Integrabilidad uniforme En esta sección asumiremos que la medida es …nita. Proposición 8.1. Si f es una función medible no negativa, entonces: R R1 fd = 0 (fy 2 F : f (y) > xg) dx. F Demostración Consideremos primero una función simple no negativa ' con representación canónica ' = Pm j=1 bj IEj . En este caso, se tiene: R1 R1P (fy 2 F : ' (y) > xg) dx = fj2f1;:::;mg:bj >xg (Ej ) dx 0 0 R 1 Pm Pm R 1 = 0 j=1 0 I[0;bj ) (x) (Ej ) dx j=1 I[0;bj ) (x) (Ej ) dx = R P = m b (E ) = 'd . j j j=1 F Consideremos ahora una sucesión no decreciente ('n )n2N de funciones simples no negativas tales que l mn 1 'n (x) = f (x) para cualquier x 2 F y, para n 2 N y x 2 [0; 1), de…namos gn (x) = (fy 2 F : 'n (y) > xg). La sucesión (gn )n2N es no decreciente y l mn 1 gn (x) = (fy 2 F : f (y) > xg) para cualquier x 2 [0; 1), así que, por el teorema de la convergencia monótona, se tiene: R1 R1 (fy 2 F : f (y) > xg) dx = 0 l mn 1 (fy 2 F : 'n (y) > xg) dx 0 R1 R R = l mn 1 0 (fy 2 F : 'n (y) > xg) dx = l mn 1 F 'n d = F f d . 215 216 8. TEORÍA GENERAL DE INTEGRACIÓN SEGUNDA PARTE Teorema 8.1. Si f es una función integrable, entonces la serie: P1 kg) k=1 (fy 2 F : jf (y)j converge. Demostración R1 R1 (fy 2 F : jf (y)j > xg) dx = l mn 1 0 I[0;n) (x) (fy 2 F : jf (y)j > xg) dx 0 R 1 Pn = l mn 1 0 k=1 I[k 1;k) (x) (fy 2 F : jf (y)j > xg) dx P R1 = l mn 1 nk=1 0 I[k 1;k) (x) (fy 2 F : jf (y)j > xg) dx. I[k 1;k) (x) (fy 2 F : jf (y)j kg) I[k 1;k) (x) (fy 2 F : jf (y)j > xg). Así que: P R1 Pn kg) = nk=1 0 I[k 1;k) (x) (fy 2 F : jf (y)j k=1 (fy 2 F : jf (y)j Pn R 1 k=1 0 I[k 1;k) (x) (fy 2 F : jf (y)j > xg) dx. kg) dx Por lo tanto, tomando límites, se obtiene: R1 R P1 (fy 2 F : jf (y)j kg) (fy 2 F : jf (y)j > xg) dx = jf j d . k=1 0 F Corolario 8.1. Si f es una función integrable, entonces lm 1 [jf j > ] = 0. Demostración lm 1 [jf j > ] = l mk 1 (fy 2 F : jf (y)j kg) = 0. Teorema 8.2. Si es …nita, una función medible f es integrable si y sólo si: R l m 1 [jf j> ] jf j d = 0. Demostración Supongamos primero que f es integrable. Para cada n 2 N, de…namos: fn = jf j si jf j n 0 en otro caso Se tiene l mn 1 fn = f c.s y jfn j convergencia dominada, se tiene: jf j para cualquier n 2 N, así que, por el teorema de la 8.1. INTEGRABILIDAD UNIFORME R jf j d = l mn!1 F R f d = l mn F n Por lo tanto: R l mn 1 [jf j>n] jf j d = l mn 1 R 1 F R [jf j n] jf j d 217 jf j d R [jf j n] jf j d = 0. R Dada " > 0, sea N 2 N tal que [jf j>n] jf j d < " para cualquier n N , entonces, si N, se tiene: R R jf j d jf j d < ". [jf j> ] [jf j>N ] R Así que, l m 1 [jf j> ] jf j d = 0. R Supongamos ahora que l m 1 [jf j> ] jf j d = 0. Entonces, tomando > 0 tal que R jf j d < 1, se tiene: [jf j> ] R R R jf j d = [jf j ] jf j d + [jf j> ] jf j d ([jf j ]) + 1 < 1. F Teorema 8.3. Una función medible f es integrable si y sólo si dada " > 0 existe R que A jf j d < " para cualquier conjunto A 2 = tal que (A) < . > 0 tal Demostración R Dada " > 0, tomemos > 0 tal que [jf j> ] jf j d < conjunto A 2 = tal que (A) < , se tiene: R R R jf j d = I jf j d + I jf j d A A fjf j g fjf j> g A R R I d + jf j d A fjf j g fjf j> g R R I d + fjf j> g jf j d F A R = (A) + fjf j> g jf j d < ". " 2 y = " 2 . Entonces, para cualquier Definición 8.1 (Integrabilidad uniforme). Se dice que una familia H de funciones medibles es uniformemente integrable si: nR o l m 1 sup [jf j> ] jf j d : f 2 H = 0. Teorema 8.4. RUna familia H de funciones medibles es uniformemente integrable si y sólo Rsi el conjunto F jf j d : f 2 H está acotado y, dada cualquier " > 0, existe > 0 tal que jf j d < " para cualesquiera f 2 H y A 2 = tal que (A) . A Demostración Supongamos primero que la familia H es uniformemente integrable. 218 8. TEORÍA GENERAL DE INTEGRACIÓN SEGUNDA PARTE R Sea > 0 tal que [jf j> ] jf j d < 1 para cualquier f 2 H, se tiene entonces: R R R jf j d = [jf j ] jf j d + [jf j> ] jf j d (F) + 1. F R Así que el conjunto F jf j d : f 2 H está acotado. R Dada " > 0, sea > 0 tal que [jf j> ] jf j d < 2" para cualquier f 2 H, de…namos = 2" y consideremos un conjunto A 2 = tal que (A) . Se tiene entonces: R R R jf j d I jf j d + [jf j> ] jf j d (A) + 2" < ". A [jf j ] A R Inversamente, supongamos Rque el conjunto F jf j d : f 2 H está acotado y, dada cualquier " > 0, existe > 0 tal que A jf j d < " para cualesquiera f 2 H y A 2 = tal que (A) . R Dada " > 0, sea > 0 tal que ARjf j d < 2" para cualesquiera f 2 H y A 2 = tal que (A) . De…namos 0 = 1 sup F jf j d : f 2 H y tomemos f 2 H y 0 . Se tiene entonces: R ([jf j > ]) 1 F jf j d . Por lo tanto: R jf j d < 2" . [jf j> ] Así que: nR o sup [jf j> ] jf j d : f 2 H < ". Es decir: lm 1 sup nR [jf j> o jf j d : f 2 H = 0. ] Proposición 8.2. Sea f una función medible e integrable, ff : 2 g una familia de funciones medibles tales que jf j entonces la familia ff : 2 g es uniformemente integrable. Demostración Para cualquier R jf j d [jf j> ] Así que: lm 1 sup nR 2 , se tiene: R jf j d [jf j> ] [jf j> jf j d : ] R 2 [jf j> ] o jf j d . lm 1 R [jf j> ] jf j d = 0. un conjunto cualquiera y f para cualquier 2 , 8.1. INTEGRABILIDAD UNIFORME 219 Ahora viene el tercer teorema de convergencia de la integral. Es una generalización del teorema de la convergencia dominada ya que, de acuerdo con la proposición anterior, éste es un caso particular del siguiente resultado. Teorema 8.5. Sea ffn gn2N una familia uniformemente integrable de funciones medibles tal que f = l mn!1 fn existe excepto a lo más en un conjunto de medida cero, entonces f es integrable y: R l mn 1 F jfn f j d = 0. Demostración R Sea > 0 tal que [jfn j> ] jfn j d < 1 para cualquier n 2 N. Entonces: R R R jf j d = [jf j ] jfn j d + [jf j> ] jfn j d F n ([jfn j ]) + 1 (F) + 1. Por lo tanto, por el lema de Fatou, se tiene: R R R jf j d = l m jf j d l m nf jf j d n n 1 F F F n (F) + 1 < 1. Así que f es integrable. Para cada ( ) fn f( ) > 0, de…namos: = fn si jfn j 0 en otro caso = f si jf j 0 en otro caso Sea C = fx 2 F : l mn!1 fn (x) = f (x)g. ( ) Si x 2 C es tal que jf (x)j < , entonces l mn 1 fn (x) = f ( ) (x). Así que, si ([jf j = ]) = ( ) ( ) 0, entonces l mn 1 fn = f ( ) c.s y, como fn f( ) 2 , se tiene, por el teorema de la convergencia dominada: R ( ) l mn 1 F fn f ( ) d = 0. Por otra parte: R ( ) fn f( ) d F = R [jfn j ;jf j ] jfn fj d + R [jfn j ;jf j> ] jfn j d + R [jfn j> ;jf j ] jf j d . 220 R F + + + + = + + = 8. TEORÍA GENERAL DE INTEGRACIÓN jfn R fj d = [jfn j> ;jf j R R R R [jfn j ;jf j [jfn j ;jf j> R ( ) [jfn j> ;jf j R ( ) F ] ) fj d + [jfn j> ;jf j> ] R [jfn j jfn ;jf j> ] jf j d ;jf j ] jf j d ;jf j> ] jf j d ;jf j> ] SEGUNDA PARTE jfn fj d fj d d R jfn j d + f( fn ) jf j d + ] ;jf j> [jfn j jfn f( fn fj d + jfn R ] fj d . R jf j d + n ] [jfn j R jf j d + [jfn j> ] n R jf j d + n ] [jfn j> [jfn j> ;jf j> F ;jf j [jfn j jfn ] [jfn j> ;jf j R R ] R d + [jfn j> ;jf j> ] R R jf j d [jfn j> ;jf j> ] [jf j> ] jfn j d jf j d + R [jfn j> ] jfn j d . R R Dada " > 0, sea 0 tal que [jf j> ] jf j d < " y [jfn j> ] jfn j d < ", para cualquier entonces: R R ( ) jf fj d fn f ( ) d + 2", F n F para cualquier 0. Sea ([jf j = ]) = 0, entonces: l mn 0 1 R F tal que jfn fj d 0, 2". Así que, como " > 0 es arbitraria, se tiene: R l mn 1 F jfn f j d = 0. Corolario 8.2 (Teorema de la convergencia uniformemente integrable). Sea ffn gn2N una familia uniformemente integrable de funciones medibles tales que l mn!1 fn existe excepto a lo más en un conjunto de medida cero, entonces f = l mn 1 fn es integrable y: R R l mn 1 fn d = l mn!1 F fn d . F Tenemos un inverso del teorema 8.5: Teorema 8.6. Sean R (fn )n2N una sucesión de funciones integrables y f una función medible tales que l mn!1 F jfn f j d = 0. Entonces la familia ffn : n 2 Ng es uniformemente integrable. 8.1. INTEGRABILIDAD UNIFORME 221 Demostración R Sea N 2 N tal que F jfN f j d < 1, entonces: R R R jf j d jf f j d + jf j d < 1. N F F F N Así que f es integrable. R Dada " > 0, sea N 2 N tal que F jfn f j d < 2" para cualquier n > N , se tiene entonces, para cualquier n 2 N: R R R jf j d jf j d + F jfn f j d F n F R R R < F jf j d + max F jf1 f j d ; : : : ; F jfN f j d ; 2" . R Así que el conjunto F jfn j d : n 2 N está acotado. R R R Tomemos ahora > 0 tal que max A jf j d ; A jf1 j d ; : : : ; A jfN j d < 2" para cualquier conjunto A 2 = tal que (A) < . Entonces, si (A) < y n > N , se tiene: R R R jf j d jf j d + jf f j d < ". n A A F n Teorema 8.7. Sea (fn )n2N una sucesión de funciones integrables no negativas R tal que Rf = l mn 1 fn existe excepto aRlo más en un conjunto de medida cero y l mn!1 F fn d = f d < 1. Entonces l mn 1 F jfn f j d = 0. F Demostración La sucesión fm n (fn ; f )gn2N está acotada por f y converge puntualmente a f excepto a lo más en un conjunto Rde medida cero, asíR que, por el teorema de la convergencia dominada, se tiene que l mn 1 F m n (fn ; f ) d = F f d . Por lo tanto: R R l mn 1 F max (fn ; f ) d = l mn 1 F [fn + f m n (fn ; f )] d R R R R = l mn 1 F fn d + F f d l mn 1 F m n (fn ; f ) d = F f d . Así que: R l mn 1 F jfn f j d = l mn 1 R F [max (fn ; f ) m n (fn ; f )] d = 0. Corolario 8.3. Sea ffn gn2N una sucesión de funciones integrables no negativas R tal que Rf = l mn 1 fn existe excepto a lo más en un conjunto de medida cero y l mn!1 F fn d = f d < 1. Entonces la familia ffn : n 2 Ng es uniformemente integrable. F Combinando los teoremas 8.5, 8.6, y 8.7 y el corolario 8.2, se tiene el siguiente resultado: 222 8. TEORÍA GENERAL DE INTEGRACIÓN SEGUNDA PARTE Teorema 8.8. Sea (fn )n2N una sucesión de funciones integrables tales que f = l mn 1 fn existe excepto a lo más en un conjunto de medida cero, entonces las siguientes tres condiciones son equivalentes: (i) La familia R ffn : n 2 Ng es uniformemente integrable. (ii) l mn 1 RF jfn f j d R = 0 (iii) l mn!1 F jfn j d = F jf j d < 1 Demostración Si la familia R ffn : n 2 Ng es uniformemente integrable, entonces, por el teorema 8.5, se tiene l mn 1 F jfn f j d = 0. Así que la primera condición implica la segunda. R Si l mn 1 F jfn f j d = 0, entonces, por el teorema 8.6, la familia ffn : n 2 Ng es uniformemente integrable. Así que la segunda condición implica la primera. R R Si l mn!1 F jfn j d = F jf j d < 1, entonces, por el teorema 8.7, se tiene: R l mn 1 F jfn f j d = 0. Así que la tercera condición implica la segunda. Si a familia ffn : n 2 Ng es uniformemente integrable, entonces la familia fjfn j : n 2 Ng también es uniformemente integrable, así que, por el corolario 8.2, se tiene: R R l mn!1 F jfn j d = F jf j d < 1. Por lo tanto, la primera condición implica la tercera. Corolario 8.4. Sea ffn gn2N una sucesión de funciones integrables no negativas tales que f = l mn 1 fn existe excepto a lo más en un conjunto de medida cero, entonces las siguientes tres condiciones son equivalentes: (i) La familia R ffn : n 2 Ng es uniformemente integrable. (ii) l mn 1 RF jfn f j Rd = 0 (iii) l mn!1 F fn d = F f d < 1 Teorema 8.9. Sea H una familia de funciones medibles uniformemente integrable. Entonces la familia: n + G = f : F !R : Existe una sucesión (fn )n2N de funciones en H tales que l mn!1 fn = f excepto a lo más en un conjunto de medida cerog es uniformemente integrable. 8.2. TEOREMA DE RADON-NIKODYM 223 Demostración Primero observemos que si A 2 =, entonces la familia de funciones H0 = ff IA : f 2 Hg es uniformemente integrable. R Sea M una cota del conjunto F jf j d : f 2 H . Sea f 2 G y (fn )n2N una sucesión de funciones en H tales que l mn!1 fn = f excepto a lo más en R un conjunto de medida cero, entonces, R por la proposición 8.5, f es integrable y: l mn 1 F jfn f j d = 0. Sea N 2 N tal que F jfN f j d < 1. Entonces: R R R jf j d jf f j d + F jfN j d < 1 + M . F F N R Así que la familia F jf j d : f 2 G está acotada. R Ahora, dada cualquier " > 0, sea > 0 tal que A jf j d < 12 " para cualesquiera f 2 H y A 2 = tal que (A) . Si f 2 G, sea A 2 = tal que (A) y (fn )n2N una sucesión de funciones en H tales que l mn!1 fn = f excepto a lo más en un conjunto de medida cero, entonces l mn!1 fn IA = f IA excepto a lo más en un conjunto de medida cero, así que, por la proposición 8.5: R R l mn 1 A jfn f j d = l mn 1 F jfn IA f IA j d = 0. R Sea N 2 N tal que A jfN f j d < 12 ". Entonces: R R jf j d jf A A N fj d + R A jfN j d < 21 " + 12 " = ". Así que, por la proposición 8.4, G es uniformemente integrable. 8.2. Teorema de Radon-Nikodym Dadas dos medidas y , ambas de…nidas R sobre =, ¿bajo que condiciones existe una función medible no negativa f tal que (E) = E f d para cualquier E 2 =? En esta sección se dará respuesta a esta pregunta. Dada una función medible f : F ! R, la familia de conjuntos medibles B = [f ], con 2 R, es creciente en el sentido de que si < entonces B B . Cabe entonces preguntarse si, dada una familia creciente de conjuntos medibles fB g 2R , existe una función ] para cualquier 2 R. medible f : F ! R tal que B = [f Para de…nir tal función, dado un punto x 2 F, se debe de tener f (x) tal que x 2 B , así que: para cualquier 224 f (x) 8. TEORÍA GENERAL DE INTEGRACIÓN SEGUNDA PARTE nf f 2 R : x 2 B g. Además, si f (x) < nf f 2 R : x 2 B g, entonces podría existir tal que x 2 = B y f (x) < < nf f 2 R : x 2 B g. En este caso se tendría f (x) , pero x 2 = B , así que B 6= [f ]. La de…nición natural de f es entonces f (x) = nf f 2 R : x 2 B g, aunque con esta de…nición f podría no ser medible. El siguiente lema precisa el resultado que se tiene en este sentido. Lema 8.1. Sea D un conjunto numerable de números reales y fB g 2D una familia de conjuntos medibles tales que si < entonces B B . Entonces existe una función medible f : F ! R tal que [f < ] B [f ] para cualquier 2 D. Demostración Para cada x 2 F, sea f (x) = nf f 2 D : x 2 B g. Inmediatamente se tiene la contención B [f ] para cualquier 2 D. Ahora bien, si es cualquier número < tal que S real y f (x) < , entonces existe B . Por otra parte, si x 2 B para alguna 2 D y x 2 B , así que [f < ] f 2D: < g S [f < ]. Por lo 2 D con < , entonces f (x) < , así que f 2D: < g B S tanto, [f < ] = f 2D: < g B , lo cual muestra que f es medible y que [f < ] B para cualquier 2 D. Definición 8.2. Sean y dos medidas. Se dice que es absolutamente continua con respecto a , lo cual será denotado por , si (E) = 0 para cualquier conjunto medible E tal que (E) = 0. Si es una R medida y f una función medible no negativa, entonces : = ! R de…nida por (E) = E f d es una medida absolutamente continua con respecto a . Teorema 8.10 (Radon-Nikodym). Sean y dos medidas. Supongamos que es …nita y que es absolutamente continua con respecto a , entonces existe una función medible no R negativa f tal que (E) = E f d para cualquier conjunto medible E. Demostración Para cada número racional de…namos la medida con signo =v y sea (A ; B ) una descomposición de Hahn para . Para = 0 tomemos A0 = X y B0 = ;. Sea < entonces, como B B = B \ A , se tiene B B A yB B B . Por lo tanto, (B B ) 0 y (B B ) 0, es decir, v(B B ) (B B ) 0 y v(B B ) (B B ) 0, así que (B B ) v(B B ) (B B ), de lo cual se sigue (B B ) = 0. 8.2. TEOREMA DE RADON-NIKODYM S Sea F = f ; 2Q: < g (B B ). Entonces (F ) = 0 y B pareja de racionales y tales que < . 225 F B F para cualquier F y A0 = (B 0 )c para cualquier número racional . Entonces A y De…namos B 0 = B B di…eren de A0 y B 0 , respectivamente, por un conjunto de medida igual a cero, el cual también tiene medida igual a cero ya que es absolutamente continua con respecto a . Esto implica que, para cada racional, la pareja (A0 y B 0 ) es también una descomposición de Hahn para . Obsérvese, además, que se sigue teniendo A00 = X y B00 = ;. Para simpli…car la notación, se puede asumir que esta nueva descomposición de Hahn es la que se toma inicialmente. De esta forma, la familia fB g 2Q es creciente. Por el lema 8.1 existe una función medible f : F ! R tal que, para cualquier número racional , [f < ] B [f ]. Como B0 = ;, [f < 0] = ;, así que f es no negativa. Sean ; 2 Q con < , entonces y E = E \ (B B ), entonces: (8.1) (E ) sobre B f Z fd B = B \ A , así que, si E 2 = (E ). E Por otra parte, como E B \ A , se tiene (E ) (E ) (E ) 0 y (E ) (E ) 0. Así que: (8.2) (E ) (E ) 0 y (E ) 0, es decir, (E ). Combinando las desigualdades 8.1 y 8.2, se obtiene: (8.3) (E ) ( ) (E ) Z fd (E ) + ( ) (E ). E En particular, si, para cada N 2 N, consideramos los conjuntos B0 ; B 1 ; B 2 ; : : : y, para cada N k 2 f0; 1; 2; : : :g, de…nimos Ek = E \ B k+1 N (8.4) (Ek ) 1 (Ek ) N Z Ek N B k , aplicando 8.3 para cada k, se tiene: N fd (Ek ) + 1 (Ek ). N De manera que, como los conjuntos Ek son ajenos por parejas, sumando sobre k cada término de la desigualdad 8.4, se obtiene: 226 8. TEORÍA GENERAL DE INTEGRACIÓN (8.5) ( 1 [ 1 Ek ) k=0 Z 1 [ ( Ek ) N k=0 S1 S1 k=0 SEGUNDA PARTE fd ( Ek 1 [ Ek ) + k=0 1 [ ( Ek ). N k=0 1 Sea ahora E1 = E k . k=0 B N S1 Como [f < 1] k , se tiene f = 1 sobre E1 . Por otra parte, para cualquier k 2 k=0 B N f0; 1; 2; : : :g, se tiene E1 A k , así que (E1 ) Nk (E1 ) 0, es decir, (E1 ) Nk (E1 ). N Por lo tanto, si (E1 ) > 0, entonces (E1 ) = 1. Por otra parte, si (E1 ) = 0, entonces (E1 ) = 0 ya que es absolutamente continua con respecto a . Por lo tanto, en cualquier caso se tiene: (8.6) (E1 ) = Z fd . E1 S S conjuntos E1 y 1 Finalmente, como ES= E1 [ [ R1 k=0 Ek son ajenos, k=0 Ek ] y los R R S1 se tiene S E ) y f d = f d + f d . Además, ( (E) = (E1 ) + ( 1 1 k=0 Ek ) k=0 k E E1 k=0 Ek (E). Así que, combinando 8.5 y 8.6, se obtiene: (E) Siendo Z 1 (E) N fd (E) + E …nita y N 2 N arbitraria, se concluye (E) = R E 1 (E). N fd . Corolario 8.5. Sean y dos medidas. Supongamos que es -…nita y que es absolutamente continua con respecto a , entonces existe una función medible no negativa f tal R que (E) = E f d para cualquier conjunto medible E. Demostración Sea fEk gS k2N una colección in…nita numerable de conjuntos, ajenos por parejas, Ek 2 = tales que F = 1 (Ek ) < 1 para cualquier k. k=1 Ek y Para cada k 2 N, sean (E) = k (E) = (E \ Ek ). y k : = 7! R y k es …nita. k : = 7! R de…nidas por: (E \ Ek ), k k k son medidas y Además, si E 2 = y k (E) = 0, entonces (E \ Ek ), así que k (E) = (E \ Ek ) = 0. 8.3. PRODUCTO DE ESPACIOS DE MEDIDA 227 Por lo tanto, k es absolutamente continua R con respecto a k . Así que existe una función medible no negativa fk tal que k (E) = E fk d k para cualquier conjunto medible E. c c Como k (Ek ) = 0, podemos rede…nir fk de tal forma que sea nula sobre Ek , así que k (E) = R f d . E k P Sea f = 1 k=1 fk , entonces f es una función medible no negativa y, para cualquier conjunto medible E, se tiene: P P1 (E) = 1 k=1 (E \ Ek ) = k=1 k (E) R P1 R P R = 1 k=1 E fk d = E k=1 fk d = E f d . 8.3. Producto de espacios de medida En esta sección, (F1 ; =1 ; 1) y (F2 ; =2 ; 2) serán dos espacios de medida cualesquiera. Definición 8.3. Por un rectángulo medible en F1 F2 se entenderá un conjunto de la forma A B, donde A 2 =1 y B 2 =2 . La -álgebra generada por los rectángulos medibles en F1 F2 será llamada la -álgebra producto de =1 y =2 y será denotada por =1 =2 . S Sea A la familia de conjuntos de la forma nj=1 Rj en donde n 2 N y R1 ; : : : ; Rn son rectángulos medibles en F1 F2 , ajenos por parejas. Obviamente A es un álgebra de subconjuntos de F1 F2 y la -álgebra generada por A es =1 =2 . Si R = A B es un rectángulo medible en F1 (R) = 1 (A) 2 (B). S (j) 2 A, de…namos: Si E = m j=1 R Pm (j) . 0 (E) = j=1 0 R F2 , de…namos: 0 Evidentemente, la función 0 : A 7! R [ f1g es …nitamente aditiva y 0 (;) = 0. Proposición 8.3. Sea R = A B un rectángulo medible en F1 F2 y Ri = Ai Bi una colección S in…nita numerable de rectángulos medibles en F1 F2 , ajenos por parejas, tal que R= 1 k=1 Ri , entonces: P1 0 (R) = i=1 0 (Ri ). Demostración Para cada x 2 A, se tiene: S B = fi:x2Ai g Bi . 228 8. TEORÍA GENERAL DE INTEGRACIÓN Por lo tanto: P 2 (B) = fi:x2Ai g 2 (Bi ) = Así que: 2 (B) IA = P1 i=1 2 P1 2 i=1 (Bi ) IAi (x). (Bi ) IAi . Integrando, se obtiene: R R P1 2 (B) 1 (A) = F1 2 (B) IA d 1 = F1 i=1 2 (Bi ) IAi d P1 P R = 1 i=1 2 (Bi ) 1 (Ai ). i=1 F1 2 (Bi ) IAi d 1 = Teorema 8.11. 0 SEGUNDA PARTE 1 es una quasi medida. Demostración Sea E1 ; ES 2 ; : : : una colección in…nita numerable de elementos de A, ajenos por parejas, tal que E = 1 i=1 Ei 2 A. S Por un lado, como E = 1 i=1 Ei , E es una unión in…nita numerable de rectángulos medibles Rk en F1 F2 , ajenos por parejas. Por otro lado, como E 2 A, E es una unión …nita de rectángulos medibles en F1 por parejas. S (j) Sea E = m j=1 R . (j) Para cada j 2 f1; : : : ; mg y k 2 N, de…namos Rk = Rk \ R(j) . Entonces, como S Sm S1 (j) (j) (j) = 1 k=1 Rk , así que: j=1 Rk y R k=1 Rk , se tiene Rk = 0 = (E) = Pm P1 Pm k=1 0 j=1 j=1 R(j) = (j) 0 Rk = Pm P1 j=1 P1 k=1 k=1 0 F2 , ajenos Sm j=1 R(j) = (j) 0 (Rk ) = Rk P1 i=1 0 (Ei ). De acuerdo con el teorema 5.6, la quasi medida 0 puede extenderse a una medida de…nida sobre la -álgebra (=1 =2 ) generada por A y los conjuntos de medida exterior cero de…nidos por 0 . Denotaremos a esa medida por 1 2 y la llamaremos la medida producto de 1 y . 2 Si E 2 =1 =2 de…namos, para cada x 2 F1 : Ex = fy 2 F2 : (x; y) 2 Eg, 8.3. PRODUCTO DE ESPACIOS DE MEDIDA 229 y, para cada y 2 F2 : E y = fx 2 F1 : (x; y) 2 Eg. Proposición 8.4. Ex 2 =2 para cualquier E 2 =1 = 2 y x 2 F1 . Demostración Sea H = fE 2 =1 =2 : Ex 2 =2 para cualquier x 2 F1 g. H es una -álgebra que contiene a los rectángulos medibles en F1 a =1 =2 . Corolario 8.6. E y 2 =1 para cualquier E 2 =1 = 2 y y 2 F2 . Si E 2 =1 =2 , de…namos las funciones 'E : F1 7! R [ f1g y siguiente manera: 'E (x) = 2 (Ex ), (y) = 1 (E y ). E F2 , así que H contiene : F2 7! R [ f1g, de la E Proposición 8.5. Supongamos R que 1 y R2 son -…nitas, entonces 'E y para cualquier E 2 =1 =2 y F1 'E d 1 = F2 E d 2 . Demostración n o n o (1) (2) Sea Fn (resp. Fn n2N por parejas y tales que 1 n2N (1) Fn (1) < 1 (resp. (2) 2 Fn (2) < 1) para cualquier n 2 N y (1) =2 , denotemos por E nm al conjunto E \ Fn Fijemos n; m 2 N y de…namos: n H = E 2 =1 =2 : 'E nm y son medibles ) una familia de subconjuntos de F1 (resp. F2 ), ajenos 1 F1 = [1 n=1 Fn (resp. F2 = [n=1 Fn ). Si E 2 =1 E E nm son medibles y R (2) Fm ' d F1 E nm 1 = . R F2 E nm d o 2 . Vamos a demostrar que H es una clase monótona que contiene al álgebra A que genera =1 = 2 . Si E = A B es un rectángulo medible en F1 ( (2) (1) si x 2 A \ Fn 2 B \ Fm 'E nm (x) = 0 en otro caso F2 , entonces: 230 8. TEORÍA GENERAL DE INTEGRACIÓN E nm (y) = ( (1) 0 Así que 'E nm y R ' d 1= F1 E nm R F2 Ed 2 Así que R = 1 (2) A \ Fn 1 E nm si y 2 B \ Fm en otro caso son medible. Además: (2) (1) B \ Fm 2 1 (1) A \ Fn ' d F1 E nm 1 SEGUNDA PARTE = R (2) 2 F2 A \ Fn B \ Fm . E nm d 2 . Por lo tanto, H contiene a cualquier rectángulo medible en F1 F2 . Sea E1 ; : : : ; Ek una colección …nita de conjuntos en H,ajenos por parejas y sea E = [kj=1 En , entonces: P 'E nm = kj=1 'Ejnm , E nm = Pk Ejnm . j=1 Así que E 2 H. S Por lo tanto, H contiene a la familia de conjuntos de la forma nj=1 Rj en donde n 2 N y R1 ; : : : ; Rn son rectángulos medibles en F1 F2 , ajenos por parejas. Es decir, A H. Sea fEk gk2N una sucesión no decreciente de elementos de H y sea E = [1 k=1 Ek , entonces: 'E nm = l mk E nm = l mk 1 'Eknm , 1 Eknm . Así que, por el teorema de la convergencia monótona, E 2 H. Sea fEk gk2N una sucesión no creciente de elementos de H y sea E = \1 k=1 Ek , entonces: 'E nm = l mk E nm = l mk 1 'Eknm , 1 Eknm . Así que, por el teorema de la convergencia dominada, E 2 H. Utilizando el teorema de clases monótonas, concluímos entonces que H = =1 1 nm Ahora, si E 2 =1 =2 , entonces E = [1 , así que: n=1 [m=1 E P P1 'E = 1 n=1 m=1 'E nm , =2 . 8.3. PRODUCTO DE ESPACIOS DE MEDIDA E = P1 P1 n=1 m=1 Así que, 'E y R d 2. F2 E 231 E nm . son medibles y, por el teorema de la convergencia monótona, E Proposición 8.6. Supongamos que 1 y R R 1 2 (E) = F1 'E d 1 = F2 E d 2 , para cualquier E 2 =1 2 R F1 'E d 1 = son -…nitas, entonces: =2 . Demostración La función : =1 =2 7! R [ f1g de…nida por: R (E) = F1 'E d 1 es una medida. En efecto, obviamente (;) = 0 y si (En )n2N es una sucesión de elementos de =1 =2 , ajenos por parejas, de…namos E = [1 n=1 En . Entonces, para S1cualquier x 2 F1 , los elementos de la sucesión ((En )x )n2N son ajenos por parejas y Ex = n=1 (En )x . Así que: P1 P 'E (x) = 2 (Ex ) = 1 n=1 'En (x). n=1 2 ((En )x ) = Por lo tanto: R (E) = F1 'E d 1 = Además: Si R = A R P1 F1 n=1 'En d 1 = P1 R n=1 B es un rectángulo medible en F1 F1 'En d 1 = P1 n=1 (En ). F2 , entonces: Rx = B para cualquier x 2 A y Rx = ; para cualquier x 2 = A. Así que: 'R = 2 (B) IA . Por lo tanto: R (R) = F1 'R d 1 = 2 (B) 1 (A) = 1 2 (R). Así que y 1 2 coinciden sobre la familia de rectángulos medibles en F1 forman un -sistema de subconjuntos de F1 F2 . F2 , los cuales Por último, como 1 y 2 son -…nitas, existen una sucesión no decreciente (An )n2N de elementos de =1 y una sucesión no decreciente (Bn )n2N de elementos de =2 tales que: 232 F1 = F2 = 8. TEORÍA GENERAL DE INTEGRACIÓN S1 n=1 S1 n=1 An y 1 (An ) < 1 para cualquier n 2 N, Bn y 2 (Bn ) < 1 para cualquier n 2 N. SEGUNDA PARTE Así S1 que, la sucesión de rectángulos medibles (An Bn )n2N es no decreciente, F1 F2 = Bn y 1 Bn ) < 1 para cualquier n 2 N. Por lo tanto, también se 2 (An n=1 An tiene (An Bn ) < 1 para cualquier n 2 N. Por el teorema de clases monótonas para -sistemas, se concluye entonces que y 1 2 coinciden sobre =1 =2 , que es, por de…nición, la -álgebra generada por los rectángulos medibles en F1 F2 . Como 1 2 es una medida completa, la completación de es la restricción a =1 =2 de 1 2. Sabemos que todo conjunto de medida de medida 1 2 cero. 1 es 1 2. En otras palabras, cero está contenido en un conjunto B 2 =1 =2 2 Sabemos también que si f : F1 F2 7! R es una función (=1 =2 ) -medible no negativa, entonces existe un conjunto B 2 =1 =2 de medida 1 : F1 F2 7! 2 cero y una función R, =1 =2 -medible no negativa, tales que f = IB c + f IB . Sea C 2 (=1 =2 ) de medida 1 tal que C B. Entonces: R R R B (y) d 2 (y) d 1 (x) = F1 F1 F2 x Así que si de…nimos: E1 = fx 2 F1 : Si x 2 = E1 , entonces 2 2 cero y tomemos B 2 =1 F2 2 =2 de medida 1 2 cero IB d = 0. (Bx ) > 0g, entonces E1 2 =1 y (Bx ) = 0. Además, Cx Por lo tanto, para casi toda x, Cx 2 =1 y 2 Bx , así que Cx 2 =2 y 1 (E1 ) = 0. 2 (Cx ) = 0. (Cx ) = 0. De la misma manera, para casi toda y, C y 2 =2 y 1 (C y ) = 0. Si f : F1 F2 7! R[ f1g es una función =1 =2 -medible no negativa, de…namos, para cada x 2 F1 , la función fx : F2 7! R[ f1g, de la siguiente manera: fx (y) = f (x; y) y, para cada y 2 F2 , la función f y : F1 7! R[ f1g, de la siguiente manera: f y (x) = f (x; y). Proposición 8.7. Para cualquier función =1 =2 -medible no negativa, f : F1 R[ f1g, y cualquier x 2 F1 , la función fx es =2 -medible. F2 7! 8.3. PRODUCTO DE ESPACIOS DE MEDIDA 233 Demostración 1 Sea B un conjunto boreliano en R[ f1g y E = f (B). Entonces: fx 1 (B) = fy 2 F2 : f (x; y) 2 Bg = fy 2 F2 : (x; y) 2 Eg = Ex . Corolario 8.7. Para cualquier función =1 =2 -medible no negativa, f : F1 F2 7! R[ f1g, y cualquier y 2 F2 , la función f y es =1 -medible. Proposición 8.8. RSupongamos que 1 y 2 son -…nitas, entonces las funciones x 7! R f d (y) y y 7! F1 f y d 1 (x) son medibles para cualquier función no negativa =1 =2 2 F2 x medible, f : F1 F2 7! R[ f1g, y: R F1 R F2 fx d 2 (y) d 1 (x) = Demostración R R F2 F1 f yd 1 (x) d 2 Si f = IE , con E 2 =1 =2 , entonces las funciones x 7! R y 7! F1 f y d 1 (x) = 1 (E y ) = E (y) son medibles y: R F1 R F2 R F1 R F2 R F1 R F2 fx d 2 (y) d 1 (x) = f yd 1 (x) d 2 (y) = R F1 R 'E d F2 R (y) = 1 = 1 2 (E) = Ed 2 = 1 2 (E) = R R F1 F2 F2 fx d F1 F2 R fd ( 2 2 ). 1 (y) = 2 (Ex ) = 'E (x) y fd ( 1 2 ), fd ( 1 2 ). F 1 F2 Pm Si f es una función medible simple no negativa, digamos R Pfm = k=1 bk IEk , donde b1 ; : : : ; bm 2 R y E1 ; : : : ; Em 2 =1 =2 , entonces F2 fx d 2 (y) = k=1 bk 2 ((Ek )x ), así que la función R x 7! F2 fx d 2 (y) es medible. Además: = Pm fx d 2 R F1 k=1 bk (y) d 'Ek d 1 1 (x) = = Pm R F1 P ( m k=1 bk k=1 bk 1 De la misma manera, se tiene R F2 2 R 2 ((Ek )x )) d (Ek ) = f yd F1 1 R F1 F2 (x) d 2 1 (x) fd ( (y) = 2 ). 1 R F1 F2 fd ( 1 2 ). Si f es cualquier medible, sea ('n )n2N una sucesión no decreciente de funciones medibles simples no negativas tal que f = l mn 1 'n . Entonces: R R R f d 2 (y) = F2 l mn 1 ('n )x d 2 (y) = l mn 1 F2 ('n )x d 2 (y). F2 x R Así que la función x 7! F2 fx d 2 (y) es medible. Además: R F1 R F2 fx d 2 (y) d 1 (x) = R F1 l mn 1 R F2 ('n )x d 2 (y) d 1 (x) 234 8. TEORÍA GENERAL DE INTEGRACIÓN = l mn 1 = l mn 1 R R R F1 F1 F2 ('n )x d ' d( F2 n 2 (y) d 2) 1 De la misma manera, se tiene R = R 1 (x) F1 F2 F2 R SEGUNDA PARTE F1 fd ( f yd 2 ). 1 (x) d 1 2 R (y) = F 1 F2 fd ( 1 2 ). Teorema 8.12 (Teorema de Tonelli). Supongamos que 1 y 2 son medidas completas y -…nitas. Sea f : F1 F2 7! R[ f1g una función (=1 =2 ) -medible no negativa y de…namos C1 = fx 2 F1 : fx es =2 -medibleg, C2 = fy 2 F2 : f y es =1 -medibleg. Entonces: (i) C1c y C2c tienen medida cero. R R (ii) Las funciones x ! IC1 (x) F2 fx d 2 y y ! IC2 (y) F1 f y d R R R R (iii) C1 F2 fx d 2 (y) d 1 (x) = C2 F1 f y d 1 (x) d 2 (y) R = F1 F2 f d ( 1 2) . 1 son medibles. Demostración : F1 F2 7! R una función =1 =2 -medible no negativa y B 2 =1 2 ) cero tales que f = IB c + f IB . Sean ( 1 De…namos E1 = fx 2 F1 : 1 2 =2 de medida (Bx ) > 0g. Entonces E1 2 =1 y: (E1 ) = 0. Si x 2 = E1 , entonces =2 -medible y . Así que E1c 2 (Bx ) = 0. Así que fx = C1 y entonces C1c x para casi toda y 2 F2 . Por lo tanto, fx es E1 . Así que C1c 2 =1 y 1 (C1c ) = 0. También, como E1c C1 , entonces C1 = E1c [ (C1 \ E1 ), así que, para cualquier x 2 C1 , se tiene: R R R f d 2 = IE1c (x) F2 fx d 2 + IC1 \E1 (x) F2 fx d 2 F2 x R R = IE1c (x) F2 x d 2 + IC1 \E1 (x) F2 fx d 2 . R R Por lo tanto, IC1 (x) F2 fx d 2 = IE1c (x) F2 x d 2 para casi toda x 2 F1 . Así que la función R x ! IC1 (x) F2 fx d 2 es medible y: R C1 = = R R R F2 fx d I c (x) F1 E1 F1 F2 d( 2 (y) d R 1 F2 1 (x) = xd 2 2) = R (y) d R F1 F2 F1 1 IC1 (x) (x) = fd ( 1 R R F2 F1 2) fx d R . F2 2 (y) d xd 2 1 (x) (y) d 1 (x) 8.3. PRODUCTO DE ESPACIOS DE MEDIDA 235 De la misma manera, si de…nimos E2 = fy 2 F2 : 1 (B y ) > 0g, R seytiene E2 2 =2 , R 2 (Ey2 ) = 0, c c c E2 C2 , C2 2 =2 y 2 (C2 ) = 0, la función y ! IC2 (y) F1 f d 1 = IE2c (y) F1 d 1 es medible y: R R R R f y d 1 (x) d 2 (y) = F2 IC2 (y) F1 f y d 1 (x) d 2 (y) C2 F1 = = R R F2 IE2c (x) F1 F2 d( R y F1 1 d 1 2) = (x) d R 2 F1 F 2 (y) = fd ( 1 R R F2 2) y F1 d 1 (x) d 2 (y) . Teorema 8.13 (Teorema de Fubini). Supongamos que 1 y 2 son medidas completas y …nitas, sea f : F1 F2 7! R[ f 1; 1g una función =1 =2 -medible (o (=1 =2 ) -medible) e integrable y de…namos C1 = fx 2 F1 : fx es 2 -integrableg, C2 = fy 2 F2 : f y es 1 -integrableg. Entonces: (i) C1c y C2c tienen medida cero. R R (ii) Las funciones x ! IC1 (x) F2 fx d 2 y y ! IC2 (y) F1 f y d R R R R (iii) C1 F2 fx d 2 (y) d 1 (x) = C2 F1 f y d 1 (x) d 2 (y) R = F1 F2 f d ( 1 2) . 1 son integrables. Demostración Como f es integrable, entonces f + es también integrable, así que: R R R + f (x; y) d (y) d (x) = f +d ( 1 2 1 2 ) < 1. F1 F2 F1 F2 R f + (x; y) d 2 (y) < 1 para casi toda x 2 F1 . R De la misma manera, F2 f (x; y) d 2 (y) < 1 para casi toda x 2 F1 . Por lo tanto, F2 Por lo tanto, fx es Además: R R f + (x; y) d C1 F2 R C1 R f (x; y) d F2 2 -integrable para casi toda x 2 F1 . 2 (y) d 1 (x) = 2 (y) d 1 (x) = Así que la función: R x ! IC1 (x) F2 fx d 2 R = IC1 (x) F2 f + (x; y) d 2 (y) R R F1 F1 IC1 (x) R R R F2 F2 F2 f + (x; y) d 2 (y) d 1 (x) < 1, f (x; y) d 2 (y) d 1 (x) < 1. f (x; y) d 2 (y) 236 8. TEORÍA GENERAL DE INTEGRACIÓN SEGUNDA PARTE es integrable. Por último: R R f d F2 x C1 = = R R C1 F1 R 2 d 1 f + (x; y) d F2 f +d ( F2 1 2 2) (y) d R F1 1 (x) R C1 f: d ( F2 1 R F2 f (x; y) d 2) = R F1 F2 2 (y) d f :d ( 1 1 (x) 2) . 8.4. Proyección de medidas Teorema 8.14. Sean (G; G) un espacio medible y h : (F; =; ) 7! (G; G) una función medible. Entonces la función : G 7! R de…nida por (B) = (fy 2 F : h (y) 2 Bg) es una medida. Demostración Obviamente es no negativa y (;) = 0. Para demostrar que es -aditiva, sea B1 ; B2 ; : : : una familia numerable de elementos de G tal que Bi \Bj = ; para i 6= j, entonces, de…niendo, para cada i 2 N, Ai = fy 2 F : h (y) 2 Bi g, los conjuntos A1 ; A2 ; : : : son ajenos por parejas, así que: 1 S Bi = i=1 y 2 F : h (y) 2 Definición 8.4. A la medida de bajo la función h. 1 S i=1 Bi = 1 S i=1 Ai = P1 i=1 (Ai ) = P1 i=1 (Bi ). de…nida como en el teorema anterior se le llama la proyección Teorema 8.15. Sea h : (F; =; ) 7! (G; G) una función medible. Entonces si : G 7! R es la proyección de bajo h y f : G 7! R es una función medible no negativa, se tiene: R R f d = F f hd . G Demostración Consideremos P primero una función simple no negativa ' : G 7! R, con representación canónica ' = m j=1 bj IEj . Entonces: P P ' h= m h= m j=1 bj IEj j=1 bj Ih 1 (Ej ) , R R Pm Pm 1 'd = b (E ) = b (h (E )) = ' hd . j j j j j=1 j=1 G F 8.4. PROYECCIÓN DE MEDIDAS 237 Consideremos ahora una sucesión no decreciente ('n )n2N de funciones simples no negativas tales que l mn 1 'n (y) = f (y) para cualquier y 2 G. Entonces, para cualquier n 2 N la función 'n h es no negativa, la sucesión ('n h)n2N es no decreciente y l mn 1 'n h (x) = f h (x) para cualquier x 2 F.; así que: R R R R f d = l mn 1 G 'n d = l mn 1 F 'n hd = F f hd . G Corolario 8.8. Sea h : (F; =; ) 7! (G; G) una función medible. Entonces si la proyección de bajo h y f : G 7! R es una función integrable, se tiene: R R f d = F f hd . G : G 7! R es Demostración Por la proposición anterior, se tiene: R + R f hd = G f + d < 1, F R R f hd = G f d < 1. F Así que: R R f d = G f +d G R G f d = R F f + hd R F f hd = R F f hd . A continuación vamos a presentar un caso particular de los resultados anteriores y que es de especial importancia ya que muestra que, para cualquier cualquier medida , sobre (R; B (R)), que asigne un valor …nito a cualquier conjunto boreliano acotado, existe una función c que proyecta la medida de Lebesgue en , lo cual tiene como corolario que las integrales con respecto a se pueden expresar como integrales con respecto a la medida de Lebesgue. Sea 0 una medida, no idénticamente cero, sobre (R; B (R)) tal que los intervalos acotados tienen medida …nita y sea F 0 : R 7! R una función no decreciente y continua por la derecha tal que 0 ((a; b]) = F 0 (b) F 0 (a) para cualquier pareja de números reales, a y b, tales que a < b. F 0 puede ser constante en uno o más intervalosde la forma [a0 ; b0 ), donde a0 ; b0 2 R, tales que F 0 (x) < F 0 (a0 ) para cualquier x < a0 y F 0 (x) > F 0 (a0 ) para cualquier x > b0 . El conjunto de intervalos de este tipo es a lo más in…nito numerable, así que los podemos denotar por I1 = [a1 ; b1 ) ; I2 = [a2 ; b2 ) ; : : :. También puede ser constante en un intervalo I0 = (a0 ; b0 ), donde a0 = 1 y b0 2 R, tal que F 0 (x) > F 0 (b0 ) para cualquier x > b0 , o en un intervalo I1 = [a1 ; b1 ), donde a1 2 R y b1 = 1, tal que F 0 (x) < F 0 (a1 ) para cualquier x < a0 . Denotaremos por H a la familia formada por todos los intervalos de los tipos mencionados y por K a la unión de todos ellos. También, denotaremos por sk al valor que toma F 0 en el intervalo Ik . 238 8. TEORÍA GENERAL DE INTEGRACIÓN SEGUNDA PARTE F 0 puede ser continua en uno o varios puntos que no pertenecen a K. Denotaremos por C a ese conjunto de puntos. F 0 puede ser discontinua en uno o varios puntos que no pertenecen a K, los cuales forman un conjunto a lo más in…nito numerable. Denotaremos por D a ese conjunto de puntos. Obviamente los conjuntos K, C y D son ajenos por parejas y su unión en R. Sean m = l mx! 1 F 0 (x) y M = l mx 1 F 0 (x) y de…namos la función c : (m; M ) 7! R mediante la relación c(t) = nf fx 2 R : F 0 (x) > tg. Evidentemente, c es una función no decreciente y, para cualquier intervalo Ik 2 H, no existe t 2 (m; M ) tal que c (t) 2 (ak ; bk ). Además, considerando a c como función de ((m; M ) ; B ((m; M ))) en (R; B (R)), c es medible ya que es no decreciente. Se tienen las siguientes 5 situaciones: 1. Si x0 2 Ik 2 H, donde k 2 = f0; 1g, se tiene: c(sk ) = ak y c(sk ) = bk . Por lo tanto: fy 2 (m; M ) : c (y) x0 g = fy 2 (m; M ) : c (y) ak g = (m; sk ), fy 2 (m; M ) : c (y) > x0 g = fy 2 (m; M ) : c (y) bk g = [sk ; M ). 2. Si x0 2 ( 1; b0 ) 2 H, entonces s0 = m 2 R y c(s0 +) = b0 . Por lo tanto: fy 2 (m; M ) : c (y) x0 g = ;, fy 2 (m; M ) : c (y) > x0 g = fy 2 (m; M ) : c (y) b0 g = (m; M ). 3. Si x0 2 [a1 ; 1) 2 H, entonces s1 = M 2 R y c(s1 ) = a1 . Por lo tanto: fy 2 (m; M ) : c (y) x0 g = fy 2 (m; M ) : c (y) a1 g = (m; M ), fy 2 (m; M ) : c (y) > x0 g = ;. 4. Si x0 2 C y F 0 (x0 ) = t0 , entonces c (t0 ) = x0 , c (t) < x0 para cualquier t < t0 y c (t) > x0 para cualquier t > t0 . Por lo tanto: fy 2 (m; M ) : c (y) x0 g = (m; t0 ], fy 2 (m; M ) : c (y) > x0 g = (t0 ; M ). 5. Si x0 2 D, sea t1 = F 0 (x0 ) y t2 = F 0 (x0 ); entonces c (t) = x0 para cualquier t 2 [t1 ; t2 ], c (t) < x0 para cualquier t < t1 y c (t) > x0 para cualquier t > t2 . Por lo tanto: fy 2 (m; M ) : c (y) x0 g = (m; t2 ], fy 2 (m; M ) : c (y) > x0 g = (t2 ; M ). 8.4. PROYECCIÓN DE MEDIDAS 239 Teorema 1. Sean 0 una medida sobre (R; B (R)) tal que los intervalos acotados tienen medida …nita, F 0 : R 7! R una función no decreciente y continua por la derecha tal que F 0 (a) para cualquier pareja de números reales, a y b, tales que a < b, 0 ((a; b]) = F 0 (b) m = l mx! 1 F 0 (x), M = l mx 1 F 0 (x), la medida de Lebesgue en el intervalo (m; M ) y c : (m; M ) 7! R de…nida por c(t) = nf fx 2 R : F 0 (x) > tg. Entonces, considerando a c como función de ((m; M ) ; B ((m; M ))) en (R; B (R)), la proyección de bajo c es 0 . Demostración Sea la proyección de (B) = (c 1 bajo c, es decir: (B)) para cualquier conjunto B 2 B (R). En particular: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) para cualquier pareja de números reales, a y b, tales que a < b. Sean a; b 2 R tales que a < b. Tenemos entonces varias posibilidades: 1. a y b pertenecen a algún intervalo I 2 H. En este caso, si J es el interior de I, no existe t 2 (m; M ) tal que c (t) 2 J. Entonces, como (a; b] J, se tiene: fy 2 (m; M ) : c (y) 2 (a; b]g = ;. Por lo tanto: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) = 0 = F 0 (b) F 0 (a) = 0 ((a; b]). 2. a pertenece a algún intervalo Ik 2 H y b 2 C. En este caso, k 6= 1, ya que b > a, y fy 2 (m; M ) : c (y) bg = (m; t0 ], donde t0 = F 0 (b). Si k 6= 0, fy 2 (m; M ) : c (y) > ag = [sk ; M ), así que: fy 2 (m; M ) : c (y) 2 (a; b]g = [sk ; t0 ]. Si k = 0, fy 2 (m; M ) : c (y) > ag = (m; M ), así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (sk ; t0 ]. Por lo tanto: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) = t0 sk = F 0 (b) F 0 (a) = 0 ((a; b]). 3. a pertenece a algún intervalo Ik y b 2 D. En este caso, k 6= 1, ya que b > a, y fy 2 (m; M ) : c (y) bg = (m; t2 ], donde t2 = F 0 (b). 240 8. TEORÍA GENERAL DE INTEGRACIÓN SEGUNDA PARTE Si k 6= 0, fy 2 (m; M ) : c (y) > ag = [sk ; M ), así que: fy 2 (m; M ) : c (y) 2 (a; b]g = [sk ; t2 ]. Si k = 0, fy 2 (m; M ) : c (y) > ag = (m; M ), así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (sk ; t2 ]. Por lo tanto: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) = t2 sk = F 0 (b) F 0 (a) = 0 ((a; b]). 4. a 2 C y b pertenece a algún intervalo Ik . En este caso, k 6= 0, ya que a < b, y fy 2 (m; M ) : c (y) > ag = (t0 ; M ), donde t0 = F 0 (a). Si k 6= 1, fy 2 (m; M ) : c (y) bg = (m; sk ), así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (t0 ; sk ). Si k = 1, fy 2 (m; M ) : c (y) bg = (m; M ), así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (t0 ; sk ). Por lo tanto: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) = sk t0 = F 0 (b) F 0 (a) = 0 ((a; b]). F 0 (a) = 0 ((a; b]). 5. a; b 2 C. En este caso: fy 2 (m; M ) : c (y) > ag = (t1 ; M ), donde t1 = F 0 (a), fy 2 (m; M ) : c (y) bg = (m; t2 ], donde t2 = F 0 (b). Así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (t1 ; t2 ]. Por lo tanto: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) = t2 t1 = F 0 (b) 6. a 2 C y b 2 D. En este caso: fy 2 (m; M ) : c (y) > ag = (t0 ; M ), donde t0 = F 0 (x0 ), fy 2 (m; M ) : c (y) bg = (m; t2 ], donde t2 = F 0 (b). 8.4. PROYECCIÓN DE MEDIDAS 241 Así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (t0 ; t2 ]. Por lo tanto: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) = t2 t0 = F 0 (b) F 0 (a) = 0 ((a; b]). 7. a 2 D y b pertenece a algún intervalo Ik . En este caso, k 6= 0 ya que a < b, y fy 2 (m; M ) : c (y) > ag = (t2 ; M ), donde t2 = F 0 (a). Si k 6= 1, fy 2 (m; M ) : c (y) bg = (m; sk ), así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (t2 ; sk ). Si k = 1, fy 2 (m; M ) : c (y) bg = (m; M ), así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (t2 ; sk ). Por lo tanto: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) = sk t2 = F 0 (b) F 0 (a) = 0 ((a; b]). F 0 (a) = 0 ((a; b]). 8. a 2 D y b 2 C. En este caso: fy 2 (m; M ) : c (y) > ag = (t2 ; M ), donde t2 = F 0 (a), fy 2 (m; M ) : c (y) bg = (m; t0 ], donde t0 = F 0 (b). Así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (t2 ; t0 ]. Por lo tanto: ((a; b]) = (fy 2 (m; M ) : c (y) 2 (a; b]g) = t0 t2 = F 0 (b) 9. a; b 2 D. En este caso: fy 2 (m; M ) : c (y) > ag = (t2 ; M ), donde t2 = F 0 (a), fy 2 (m; M ) : c (y) bg = (m; t02 ], donde t02 = F 0 (b). Así que: fy 2 (m; M ) : c (y) 2 (a; b]g = (t2 ; t02 ]. 242 8. TEORÍA GENERAL DE INTEGRACIÓN SEGUNDA PARTE Por lo tanto: ((a; b]) = (fy 2 R : c (y) 2 (a; b]g) = t02 Así que, en cualquier caso, y b, tales que a < b. ((a; b]) = 0 t2 = F 0 (b) F 0 (a) = 0 ((a; b]). ((a; b]) para cualquier pareja de números reales, a Aplicando el teorema de clases monótonas, concluimos que conjunto B 2 B (R). (B) = 0 (B) para cualquier Corolario 8.9. Sean una medida sobre (R; B (R)) tal que los intervalos acotados tienen medida …nita, F : R 7! R una función no decreciente y continua por la derecha tal que ((a; b]) = F (b) F (a) para cualquier pareja de números reales, a y b, tales que a < b, m = l mx! 1 F (x), M = l mx 1 F (x), la medida de Lebesgue en el intervalo (m; M ) y c : (m; M ) 7! R de…nida por c(t) = nf fx 2 R : F (x) > tg. Entonces, si f : (R; B (R) ; ) 7! R; B R es una función medible, no negativa o integrable, se tiene: R RM f d = m (f c) d . R CAPÍTULO 9 LA INTEGRAL DE LEBESGUE STIELTJES La integral de Lebesgue-Stieltjes es la que se se obtiene al considerar la integral con respecto a una medida generada por una función de variación acotada de…nida sobre los borelianos de R. Así que tiene las propiedades de la integral expuestas en el capítulo 6. Además, es una de las componentes de la integral estocástica, cuya de…nición y estudio es el objetivo de este trabajo. De aquí la importancia de estudiar con detalle las propiedades particulares de una integral de este tipo. Para los …nes que requerimos en el estudio de la integración estocástica, una función de variación acotada será una función del tiempo; es por eso que en este capítulo vamos a considerar funciones no decrecientes o de variación acotada de…nidas sobre R+ . Sea F : R ! R una función no decreciente. De acuerdo con el teorema 6.3, F genera una medida F de…nida sobre B (R). Completemos el espacio de medida (R; B (R) ; F ) y denotemos por BF (R) a la -álgebra de los borelianos completada. Definición 9.1. Si f : (R; BF (R) ; F ) ! R es una función medibleR e integrable, diremos que f es Lebesgue-Stieltjes integrable con respecto a F y a la integral R f d F la llamaremos la de f con respecto a F . Si B 2 BF (R), denotaremos por R integral de Lebesgue-Stieltjes R f d F a la integral R IB f d F . B Obviamente, la integral de Lebesgue-Stieltjes tiene las propiedades de cualquier integral con respecto a una medida, las cuales fueron expuestas y demostradas en este capítulo 6. Si F : [a; b] ! R es una función no decreciente, la vamos a considerar extendida a todo R, de…niendo F (x) = F (a) para cualquier x < a y F (x) = F (b) para cualquier x > b. Si f : [a; b] ! R es una función acotada y F : [a; b] ! R una función no decreciente, la función f podría integrarse con respecto a F en dos sentidos. Por un lado, f podría ser integrable con respecto a F como integral de Riemann-Stieltjes (Capítulo 3). Por otro lado, f podría ser integrable con respecto a F como integral de Lebesgue (Capítulo 6), para lo cual bastaría que f fuera BF (R)-medible ya que es acotada. 243 244 9. LA INTEGRAL DE LEBESGUE STIELTJES Para evitar cualquier confusión, en lo sucesivo, cuando nos re…ramos a la integral de RiemannStieltjes de una función f : [a; b] ! R con respecto a una función g : [a; b] ! R, utilizaremos Rb la notación (RS) a f dg. Vamos a mostrar que la integral de Lebesgue-Stieltjes es una extensión de la integral de Riemann-Stieltjes. Para ello, probaremos que si f es Riemann-Stieltjes integrable con respecto a F , entonces también esRLebesgue-Stieltjes integrable con respecto a F y que se tiene R b la igualdad [a;b] f d F = (RS) a f dF . Además, mostraremos que la integral de LebesgueStieltjes extiende la familia de funciones integrables, para lo cual daremos ejemplos de funciones que son Lebesgue-Stieltjes integrables pero no Riemann-Stieltjes integrables. Como caso particular, tomando F (x) = x para cualquier x 2 [a; b], tendremos que la integral de Lebesgue es una extensión de la integral de Riemann. Teorema 9.1. Si F es no decreciente y continua y f es Riemann-Stieltjes integrable con respecto a F en el intervalo [a; b], entonces f es medible e integrable y: R Rb f d = (RS) f dF . F [a;b] a Demostración Como f y F no tienen discontinuidades en común, f es *integrable con respecto a F . Sea P1 ; P2 ; : : : una sucesión de particiones del intervalo [a; b] tales que, para cualquier n 2 N, Pn+1 es un re…namiento de Pn y la norma de Pn tiende a cero cuando n tiende a in…nito. n o (n) (n) (n) Sea Pn = x0 ; x1 ; ; xmn y de…namos: (n) Mi (n) mi (n) (n) io n (n) (n) , para i 2 f1; 2; : : : ; mn g, = sup f (x) : x 2 xi 1 ; xi io n (n) (n) , para i 2 f1; 2; : : : ; mn g, = nf f (x) : x 2 xi 1 ; xi = f (a) Ifag + = f (a) Ifag + Pmn i=1 Pmn i=1 (n) Mi I (n) (n) 1 ;xi xi (n) mi I (n) (n) 1 ;xi xi i, i. Como f es *integrable con respecto a F , se tiene: i P n (n) h Pmn (n) h (n) (n) (n) l mn 1 m M F x F x = l m F xi n!1 i i i 1 i=1 i=1 mi = (RS) Rb a (n) 1 F xi i f dF . Obviamente, (n) y (n) son funciones medibles para cualquier n 2 N y están acotadas por (n) la misma constante ya que f es acotada. Además, la sucesión de funciones es n2N 9. LA INTEGRAL DE LEBESGUE STIELTJES (n) decreciente y la sucesión es creciente; así que n2N son también medibles y acotadas. Además: R Pmn (n) h (n) (n) F xi d F = f (a) F (fag) + i=1 Mi [a;b] = R Pmn (n) [a;b] = h (n) i=1 Mi d Pmn F (n) i=1 mi (n) F = f (a) h F F (n) xi 1 (fag) + (n) F xi i (n) i=1 mi i (n) xi 1 i (n) 1 i (n) y = l mn!1 (n) , Pmn (n) 1 F xi (n) f (n) xi F = l mn!1 245 h (n) F xi F xi , para cualquier n 2 N, de lo cual se sigue que f . Por el teorema de la convergencia dominada, se tiene: R R d F = l mn 1 [a;b] (n) d F [a;b] i Rb P n (n) h (n) (n) = (RS) a f dF F x F x M = l mn 1 m i 1 i i i=1 R [a;b] d = l mn Así que, F F = l mn 1 Pmn R 1 (n) i=1 Mi [a;b] ( fx 2 [a; b] : R (n) [a;b] h (x) (n) F xi )d d F F (n) 1 F xi i = 0. Por lo tanto: = (RS) Rb a f dF . (x) > 0g = 0. Por lo tanto, = f = excepto a lo más en un los puntos de un conjunto de medida F cero. Así que f es medible y, como está acotada y F ([a; b]) < 1, es integrable y se tiene: R R R d F = [a;b] f d F = [a;b] d F . [a;b] Se concluye entonces que: R Rb f d F = (RS) a f dF . [a;b] Corolario 9.1. Si F es no decreciente y f es Riemann-Stieltjes integrable con respecto a F en el intervalo [a; b], entonces f es medible e integrable y: R Rb f d F = (RS) a f dF . [a;b] 246 9. LA INTEGRAL DE LEBESGUE STIELTJES Demostración Como f es Riemann-Stieltjes integrable con respecto a F , no tienen discontinuidades en común del mismo lado. Expresemos F como la suma F d + F i + F c , donde F d es una función no decreciente, continua por la derecha, que crece únicamente mediante saltos y tal que F d (x) F d (x ) = F (x) F (x ) para cualquier x 2 R, F i es una función no decreciente, continua por la izquierda, que crece únicamente mediante saltos y tal que F i (x+) F i (x) = F (x+) F (x) para cualquier x 2 R, y F c es una función no decreciente y continua. Obsérvese que F = F d + F i + F c y que, si D = fx1 ; x2 ; : : :g es el conjunto donde F es discontinua, entonces F (A) > 0 para cualquier subconjunto A D y F d (Dc ) = c Dc y F (B) = 0, F i (D ) = 0, así que la familia de conjuntos B 2 B (R) tales que B c coincide con la familia de conjuntos B 2 B (R) tales que B D y F c (B) = 0. Por lo tanto, la -álgebra completada BF (R) coincide con la -álgebra completada BF c (R). Como F d es una función no decreciente, continua por la derecha y crece únicamente mediante saltos y f es una función acotada y continua por la izquierda en los puntos donde F d es discontinua, entonces, por la proposición 4.6, f es integrable con respecto a F d y se tiene Rb P d (RS) a f dF = fx2Dg f (x) F d (x) F d (x ) : De la misma manera, como F i es una función no decreciente, continua por la izquierda y crece únicamente mediante saltos y f es una función acotada y continua por la derecha en los puntos donde F d es discontinua, entonces, por la proposición 4.7, f es integrable con Rb P d i respecto a F y se tiene (RS) a f dF = fx2Dg f (x) [F i (x+) F i (x)] : Además, como f es integrable con respecto a F d , con respecto a F i y con respecto a F , también es integrable con respecto a F c . Así que, por la proposición anterior, f es BF (R)medible y F c -integrable, y se tiene: R Rb f d = (RS) f dF c . c F [a;b] a Además, como f está acotada, es F d -integrable F i -integrable y y se tiene: R P P f d F d = fx2Dg f (x) F d (fxg) = fx2Dg f (x) F d (x) F d (x ) , [a;b] R P P f d F i = fx2Dg f (x) F i (fxg) = fx2Dg f (x) [F i (x+) F i (x)]. [a;b] Por lo tanto: R R f d F = [a;b] f d [a;b] = (RS) Rb a Fd f dF d + (RS) + R Rb a [a;b] fd Fi + R f dF i + (RS) [a;b] Rb a fd Fc f dF c = (RS) Rb a f dF . 9.1. PROPIEDADES DE LA INTEGRAL DE LEBESGUE STIELTJES 247 9.1. Propiedades de la integral de Lebesgue Stieltjes Ejemplos de funciones Lebesgue-Stieltjes integrables que no son Riemann-Stieltjes integrables, con respecto a una función no decreciente, hay muchos. Por ejemplo, toda función de variación acotada f : (R; B ([a; b])) ! R es medible ya que se puede expresar como la diferencia de dos funciones no decrecientes, así que, cualquiera que sea la función no decreciente F , f es Lebesgue-Stieltjes integrable con respecto a F . En cambio, para que f sea RiemannStieltjes integrable con respecto a F se requiere que f y F no tengan discontinuidades en común del mismo lado. Otro ejemplo se obtiene si de…nimos f = IB , donde B 2 B ([a; b]). Una función de este tipo es Lebesgue-Stieltjes integrable con respecto a cualquier función F no decreciente y su integral está dada por F (B). Por otra parte, si B es el conjunto de números racionales en el intervalo [a; b], entonces IB no es Riemann-Stieltjes integrable con respecto a cualquier función no constante F no decreciente y continua. Por otra parte, si la función F no es de variación acotada, no genera una medida F sobre (R; B ([a; b])), así que la integral de Lebesgue-Stieltjes, con respecto a F , de cualquier función acotada f : [a; b] ! R no está de…nida, pero f podría ser Riemann-Stieltjes integrable con respecto a F . Tal es el caso si F es una función continua que no es de variación acotada y f una función de variación acotada. Restringiéndonos a funciones F que son de variación acotada, se tienen algunos resultados interesantes. Uno es una extensión de uno de los ejemplos anteriores: Toda función de variación acotada f : [a; b] ! R es Lebesgue-Stieltjes integrable con respecto a cualquier función de variación acotada F : [a; b] ! R. Por otra parte, algunos de los resultados que obtuvimos para la integral de Riemann-Stieltjes podemos ahora formularlos de una manera más general. Nos vamos a restringir a considerar la integral de Lebesgue-Stieltjes de una función f con respecto a una función no decreciente F para el caso de funciones no decrecientes y continuas por la derecha de…nidas sobre el intervalo [0; 1), el cual, como ya lo mencionamos con anterioridad, también lo denotamos por R+ . Sin embargo, para evitar nuevos enunciados, si F : [0; 1) ! R es una función no decreciente, la vamos a considerar extendida a todo R, de…niendo F (x) = F (0) para cualquier x < 0. Así que la medida F generada por F la consideraremos de…nida sobre el espacio (R; BF (R)) de…nido al inicio de la sección anterior. Teorema 9.2. Sea F : [0; 1) ! R una función no decreciente continua por la derecha y f : R ! R una función integrable con respecto a F sobre cualquier conjunto boreliano acotado, entonces la función H : [0; 1) ! R de…nida por: R H (t) = [0;t] f d F es continua por la derecha. Además, si F es continua, entonces H es continua. 248 9. LA INTEGRAL DE LEBESGUE STIELTJES Demostración Primero observemos que, como R R f d F = (0;t] f d F . [0;t] (f0g) = 0, se tiene: F Sea u 2 [0; 1) y (un )n2N una sucesión decreciente de números reales tal que l mn Entonces: I(u;un ] jf j l mn 1 jf j y l mn jH (un ) l mn 1 R 1 I(u;un ] F un = u. jf j = 0. Así que, por el teorema de la convergencia dominada: H (u)j = l mn jf j d (u;un ] 1 = l mn 1 1 R R (u;un ] fd I R (u;un ] F jf j d F = 0. Por lo tanto, H es continua por la derecha en u. Si F es continua, sea u 2 (0; 1) y (un )n2N una sucesión creciente de números reales positivos tal que l mn 1 un = u. Entonces: I(un ;u] jf j jf j y l mn dominada: l mn 1 jH (u) l mn 1 R 1 I(un ;u] jf j = Ifug jf j. Así que, por el teorema de la convergencia H (un )j = l mn (un ;u] jf j d F = R I R fug 1 R (un ;u] jf j d F fd = F F (fug) jf j (u) = 0. Por lo tanto, H es continua por la izquierda en u. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto y f : R ! R una función acotada sobre los conjuntos acotados. Entonces, 0 0 si F1 : [0; 1) ! R, F2 : [0; 1) ! R, F1 : [0; 1) ! R y F2 : [0; 1) ! R son funciones no 0 0 decrecientes continuas por la derecha tales que g = F1 F2 = F1 F2 , de…namos: 0 G1 = F1 + F2 , 0 G2 = F1 + F2 . Entonces, para cualquier intervalo (a; b], se tiene: G1 ((a; b]) = G2 ((a; b]). Así R que, GR1 (B) = f d G1 = B f d G2 . B Por lo tanto: G2 (B) para cualquier conjunto acotado B 2 B (R) y, entonces, 9.1. PROPIEDADES DE LA INTEGRAL DE LEBESGUE STIELTJES R fd B R F1 fd B F2 = R fd B R 0 F1 B fd 249 F2 . 0 La situación es distinta cuando f no es acotada ya que si F : [0; 1) ! R es cualquier función no decreciente continua por la derecha, G1 = F1 + F y G2 = F2 + F entonces G1 y G2 son funciones continuas y g = G1 G2 . Así que, para R no decrecientes R R por la derecha R tener la igualdad B f d F1 f d = f d f d F2 G1 G2 , por lo menos f tendría que B B B ser integrable, sobre B, con respecto a F . Consideremos, como ejemplo, el caso siguiente: Sean g : [0; 1) ! R, F1 : [0; 1) ! R y F2 : [0; 1) ! R de…nidas de la siguiente manera: si s 2 ( 1; 1) si s 2 [1; 1) 0 g (s) = s 1 s2 F1 (s) = 0 1 1 s2 F2 (s) = 0 1 1 s si s 2 ( 1; 1) si s 2 [1; 1) si s 2 ( 1; 1) si s 2 [1; 1) Entonces g : [0; 1) ! R es una función continua, de variación acotada sobre cualquier intervalo compacto, F1 y F2 son funciones no decrecientes continuas y g = F1 F2 . De…namos f : R ! R de la siguiente manera: 8 < 0 si s 2 ( 1; 1) k f (s) = 2 2 si s 2 n 2k1 1 ; n 21k , donde k 2 N y n 2 f2; 3; : : :g : 0 si s 2 N f es entonces una función escalonada la cual tiende a in…nito, cuando k tiende a in…nito, en cada intervalo (n; n + 1), donde n 2 N. Para cualquier n 2 N, se tiene: R n+1 P1 k 1 2 f (s) ds = k=1 2 2k 1 n = P1 R n+1 n R n+1 n 1 k = fd F1 = fd F2 = k=1 22 1 p1 2 1 p 2 R n+1 n R n+1 n = 1 2k = p1 , 2 1 2 f s3 (s) ds 1 f s2 (s) ds 2 R n+1 n R n+1 n P1 k=1 k 2 2 21k f (s) ds = f (s) ds = p2 , 2 1 p1 . 2 1 250 9. LA INTEGRAL DE LEBESGUE STIELTJES Si F : [0; 1) ! R es cualquier función no decreciente continua por la derecha, entonces: g = (F1 + F ) (F2 + F ). De…namos F : [0; 1) ! R de tal forma que: 1. n F 1 2k 1 1 2k ;n = 1 k 1 23 para cualesquiera k 2 N y n 2 f2; 3; : : :g. 2. F (( 1; 1)) = 0 y F (fng) = 0 para cualquier n 2 N. 1 2k 3. La medida total de cada intervalo n ese intervalo. 1 ;n 1 2k queda repartida uniformemente en Se tiene, para cualquier n 2 N: F ((n; n + 1]) = Así que: P1 k=1 1 1 23 k 1 1 23 = 1 1 1 23 = 1 1 23 1 = 1 p . 3 2 1 F (s) = 0 para cualquier s 2 [0; 1). F (s) = n 1 p + 3 2 1 Pk 1 1 j=1 j 23 + s 1 1 23 k (n 1 2k 1 1 2k ) = 1 p 2 3 2 1 k 1 3 2 k 1 3 2 1 + 23 k s n 1 2k 1 9.1. PROPIEDADES DE LA INTEGRAL DE LEBESGUE STIELTJES para cualesquiera k 2 N, n 2 f2; 3; : : :g y s 2 n F (n) = n 1 p 3 2 1 1 2k 1 ;n 1 2k 251 . para cualquier n 2 N. Para cualquier n 2 N, se tiene: R n+1 n fd Así que: R n+1 fd n F = P1 (F1 +F ) k 22 k=1 = k 23 R n+1 n = P1 fd k=1 k 2 6 = 1. (F2 +F ) = 1. Definición 9.2. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto. Si f : R ! R es una función acotada sobre los conjuntos acotados y B 2 B (R) es un conjunto acotado, de…nimos la integral de f con respecto a g, sobre el conjunto B, de la siguiente manera: R R R f dg = B f d F1 f d F2 , B B donde F1 : [0; 1) ! R y F2 : [0; 1) ! R es cualquier par de funciones no decrecientes continuas por la derecha tales que g = F1 F2 . Rb Si a y b son dos números reales tales que a < b, también denotaremos por f dg a la integral a R f dg. De igual forma, si F : [0; 1) ! R es una función no decreciente continua por (a;b] Rb Rb R la derecha, también denotaremos por a f d F , o por a f dF , a la integral (a;b] f d F y por R R f dF a la integral B f d F . B 252 9. LA INTEGRAL DE LEBESGUE STIELTJES R 0 La integral B f dg está bien de…nida ya que, como lo mencionamos antes, si F1 : [0; 1) ! R 0 y F2 : [0; 1) ! R es otro par de funciones no decrecientes continuas por la derecha tales 0 0 que g = F1 F2 entonces: R R R R f d F1 f d F2 = B f d F 0 fd F0. B B B 1 2 R R Por otra parte, la notación B f dF para la integral B f d F es consistente con la de…nición anterior ya que si g es no decreciente, entonces, de acuerdo con la de…nición 9.2, se tiene: R R f dg = B f d g . B El siguiente resultado es inmediato: Proposición 9.1. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, f : R ! R y h : R ! R dos funciones acotadas sobre los conjuntos acotados, a; b 2 R y B 2 B (R) un conjunto acotado, entonces: R R R (af + bh) dg = a f dg + b hdg. B B B Proposición 9.2. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, y h : R ! R una función acotada sobre los conjuntos acotados. Si (fn )n2N es una sucesión de funciones medibles tales que jfn j jhj y f es una función medible tal que f = l mn 1 fn excepto a lo más en un conjunto de medida cero, entonces f y fn , para cualquier n 2 N, son funciones acotadas sobre los conjuntos acotados, y se tiene: R R f dg = l mn 1 B fn dg B para cualquier conjunto acotado B 2 B (R). Demostración Sean F1 : [0; 1) ! R y F2 : [0; 1) ! R dos funciones no decrecientes continuas por la derecha, tales que g = F1 F2 : Se tiene jf j jhj, así que, f y fn , para cualquier n 2 N, y cualquier conjunto acotado B 2 B (R), se tiene: Así que f y fn , para cualquier n 2 N, son funciones acotadas sobre los conjuntos acotados. Además, por el teorema de la convergencia dominada, se tiene: R R R R R f dg = f d f d = l m f d l m f d n 1 n n 1 F F F 1 2 1 B B B B B n R R R = l mn 1 B fn d F1 f d F2 = l mn!1 B fn dg. B n F2 9.1. PROPIEDADES DE LA INTEGRAL DE LEBESGUE STIELTJES 253 Teorema 9.3. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, y f : R ! R una función acotada sobre los conjuntos acotados, entonces la función G : [0; 1) ! R de…nida por: R G (t) = [0;t] f dg es continua por la derecha y de variación acotada sobre cualquier intervalo compacto. Además, si g es continua, entonces G es continua. Demostración Sean F1 : [0; 1) ! R y F2 : [0; 1) ! R dos funciones no decrecientes continuas por la derecha, tales que g = F1 F2 : Sea t 2 (0; 1) y P = fx0 ; x1 ; : : : ; xn g una partición del intervalo [0; t]. Entonces: Pn k=1 Pn jG(xk ) k=1 Así que: R (xk G(xk 1 )j = 1 ;xk ] jf j d F1 + Pn R k=1 Pn k=1 R (xk (xk 1 ;xk ] 1 ;xk ] fd jf j d F1 F2 R = VG [a; b] = sup fVG (P ) : P es una partición de [a; b]g (xk R 1 ;xk ] (0;t] R fd jf j d F2 F1 jf j d (0;t] + F1 R (0;t] + R jf j d (0;t] F2 . jf j d F2 < 1. Así que G es de variación acotada sobre cualquier intervalo compacto. Por otra parte, se tiene: R R R f dg = [0;t] f d F1 fd [0;t] [0;t] F2 . Además, si g es continua, podemos tomar F1 y F2 continuas. Así que, por el teorema 9.2, G es continua por la derecha y, si g es continua, G también lo es. En el capítulo 3 estudiamos la parte continua y la parte de saltos de una función no decreciente, así como de una función de variación acotada, de…nida sobre R. Ahora estamos trabajando con ese mismo tipo de funciones, pero de…nidas sobre R+ . En este caso la de…nición de la parte continua y de la parte de saltos de la función es más simple, así que las vamos a de…nir directamente. Si F : [0; 1) ! R es una función no decreciente continua por la derecha, la función F d : [0; 1) ! R de…nida por: P F d (t) = s2[0;t] [F (s) F (s )], 254 9. LA INTEGRAL DE LEBESGUE STIELTJES entonces F es no decreciente y continua por la derecha. Además, la función F c = F F d es no decreciente y continua. Así que, si g : [0; 1) ! R es una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, entonces la …unción g d : [0; 1) ! R de…nida por: P g d (t) = s2[0;t] [g (s) g (s )] es continua por la derecha y de variación acotada sobre cualquier intervalo compacto y la función g c = g g d es continua y de variación acotada sobre cualquier intervalo compacto. Además, si F1 : [0; 1) ! R y F2 : [0; 1) ! R son dos funciones no decrecientes continuas por la derecha tales que g = F1 F2 , entonces: g d = F1d F2d , g c = F1c F2c . Definición 9.3. Si h : [0; 1) ! R es una función continua por la derecha, no decreciente o de variación acotada sobre cualquier intervalo compacto, las funciones hd y hc serán llamadas la parte discreta y la parte continua, respectivamente, de h. Proposición 9.3. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, y f : R ! R una función acotada sobre los conjuntos acotados, entonces la serie: P g (s )] s2[0;t] f (s) [g (s) es absolutamente convergente para cualquier t 2 [0; 1). Demostración Sean F1 : [0; 1) ! R y F2 : [0; 1) ! R dos funciones no decrecientes continuas por la derecha, tales que g = F1 F2 : Como f es integrable con respecto a F1d y con respecto a acotados, las series: Rt P F1 (s )] = 0 jf j d F1d , s2[0;t] jf (s)j [F1 (s) P s2[0;t] jf (s)j [F2 (s) F2 (s )] = Rt 0 jf j d F2d sobre los conjuntos borelianos F2d , son convergentes para cualquier t 2 [0; 1). Además: P s2[0;t] jf (s)j jg (s) g (s )j = P s2[0;t] jf (s)j jF1 (s) F1 (s ) [F2 (s) F2 (s )]j 9.1. PROPIEDADES DE LA INTEGRAL DE LEBESGUE STIELTJES P s2[0;t] jf (s)j jF1 (s) F1 (s )j + para cualquier t 2 [0; 1). P jf (s)j jF2 (s) s2[0;t] 255 F2 (s )j < 1 Teorema 9.4. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, y f : R ! R una función acotada sobre los conjuntos acotados, entonces: Rt Rt P f dg = 0 f dg c + s2[0;t] f (s) [g (s) g (s )] 0 para cualquier t 2 [0; 1). Demostración Sean F1 : [0; 1) ! R y F2 : [0; 1) ! R dos funciones no decrecientes continuas por la derecha, tales que g = F1 F2 : Entonces: Rt Rt f dg = 0 f dF1 0 = = = = = Rt 0 Rt 0 Rt 0 Rt 0 Rt 0 f dF1c Rt 0 f dg c + f dg c + f dg c + f dg c + Rt Rt 0 f dF2c + f dF1d 0 f dF2 = P s2[0;t] P s2[0;t] P s2[0;t] Rt 0 Rt 0 Rt 0 f dF1c + Rt f dF1d 0 f dF2d Rt 0 0 f dF2d f (s) [F1 (s) F1 (s )] f (s) fF1 (s) F2 (s) f (s) [g (s) Rt f dF1d P s2[0;t] f dF2c + Rt f (s) [F2 (s) [F1 (s ) 0 f dF2d F2 (s )] F2 (s )]g g (s )]. Sean g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, F1 : [0; 1) ! R y F2 : [0; 1) ! R dos funciones no decrecientes continuas por la derecha, tales que g = F1 F2 , f : R ! RR una función acotada sobre los t conjuntos acotados, y G : [0; 1) ! R de…nida por G (t) = 0 f dg. Se tiene entonces: G (t) = = Rt 0 Rt 0 f +d f dg = F1 + Rt 0 Rt 0 fd f d F1 F2 Rt 0 fd Rt 0 F2 f d = F1 Rt 0 + f +d Rt 0 F1 f +d F2 Rt 0 . f d F1 Rt De…namos G1 [0; 1) ! R y G2 : [0; 1) ! R de la siguiente manera: Rt Rt G1 (t) = 0 f + d F1 + 0 f d F2 , 0 f +d F2 Rt 0 f d F2 256 G2 (t) = 9. LA INTEGRAL DE LEBESGUE STIELTJES Rt 0 f d F1 + Rt 0 f +d F2 . Entonces G1 y G2 son funciones no decrecientes continuas por la derecha y G = G1 G2 . Así que, si B 2 B (R) es un conjunto acotado y h : R ! R es una función acotada sobre los conjuntos acotados, se tiene: R R R hdG = B hd G1 hd G2 . B B Teorema 9.5. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, f : R ! RR una función acotada sobre los conjuntos t acotados y G : [0; 1) ! R de…nida por G (t) = 0 f dg: Si h : R ! R es una función acotada sobre los conjuntos acotados, entonces: R R hdG = hf dg B B para cualquier conjunto acotado B 2 B (R). Demostración Sean F1 : [0; 1) ! R y F2 : [0; 1) ! R dos funciones no decrecientes continuas por la derecha, tales que g = F1 F2 : De…namos G1 : [0; 1) ! R, G2 : [0; 1) ! R y las medidas de la siguiente manera: Rt Rt G1 (t) = 0 f + d F1 + 0 f d F2 , Rt Rt G2 (t) = 0 f d F1 + 0 f + d F2 , R + + 1 (B) = B f d F1 , R + + 2 (B) = B f d F2 , R 1 (B) = B f d F1 , R 2 (B) = B f d F2 . + 1, + 2, 1 y 2 , sobre B (R), Entonces G1 y G2 son funciones no decrecientes continuas por la derecha y G = G1 Además: R R R R R R R hd 1 hd + hdG = B hd G1 hd G2 = B hd + 2 1 + B hd 2 B B B B R R R + + R R + = Bh d 1 h d + h d 2 h+ d 1 1 + Bh d 2 B B B R R + + R + Bh d 1 h d 2 + Bh d + 2 B R R R R R + = B h+ f + d F1 h f + d F1 + B h+ f d F2 h f d F2 h f d B B B F1 G2 . 9.2. FÓRMULA DE INTEGRACIÓN POR PARTES + = + = = R B R R R F1 h+ f + d B B R h f d B B h+ f d h+ f d hf d R F1 F2 F1 R F1 R R + R B B F2 h+ f d B B B h+ f + d hf d F2 F2 F1 = R B B R B R F1 h f +d h fd + R R B h f +d F2 h f +d B F1 h f d F2 h+ f d F2 hf dg. + R + B R h f d B h fd R F1 B 257 h+ f + d F2 F2 9.2. Fórmula de integración por partes Teorema 9.6. Sean F : [0; 1) ! R y G : [0; 1) ! R dos funciones no decrecientes continuas por la derecha, entonces: Rt Rt P F (t) G (t) = F (0) G (0) + 0 F dG + 0 GdF F (s )] [G (s) G (s )] s2[0;t] [F (s) para cualquier t 2 [0; 1). Demostración 2 2 Sea la medida producto F G , de…nida sobre (R ; B (R )), t 2 (0; 1) y Ct = [0; t] [0; t]. Entonces, aplicando el teorema de Fubini, se tiene: [F (t) = = = = R R R F (0)] [G (t) (f(u; v) 2 R2 : 0 R [0;t] [0;v) u<v dF (u) dG (v) + [0;t] [F (v ) [0;t] F (v ) dG (v) Así que: G (0)] = R (Ct ) tg) + (f(u; v) 2 R2 : 0 [0;t] F (0)] dG (v) + R R [0;t] F (0) [G (t) [0;u] v u tg) dG (v) dF (u) [G (u) G (0)] dF (u) R G (0)] + [0;t] G (u) dF (u) G (0) [F (t) F (0)]. Rt Rt F (t) G (t) = F (0) G (0) + 0 F (v ) dG (v) + 0 G (u) dF (u) Rt Rt Rt = F (0) G (0) + 0 F (v) dG (v) + 0 G (u) dF (u) [F (v) F (v )] dG (v) 0 Rt Rt P = F (0) G (0) + 0 F dG + 0 GdF F (v )] [G (v) G (v )]. v2[0;t] [F (v) Teorema 9.7. Sean g : [0; 1) ! R y h : [0; 1) ! R dos funciones continua por la derecha, de variación acotada sobre cualquier intervalo compacto, entonces: 258 9. LA INTEGRAL DE LEBESGUE STIELTJES g (t) h (t) = g (0) h (0) + Rt gdh + 0 para cualquier t 2 [0; 1). Rt 0 hdg P s2[0;t] [g (s) g (s )] [h (s) h (s )] Demostración Sean F1 : [0; 1) ! R, F2 : [0; 1) ! R, G1 : [0; 1) ! R y G2 : [0; 1) ! R funciones no decrecientes continuas por la derecha, tales que g = F1 F2 y h = G1 G2 . Entonces, para cualesquiera s; t 2 [0; 1), se tiene: Rt Rt Rt Rt Rt Rt Rt gdh = 0 gdG1 gdG2 = 0 F1 dG1 F dG1 F dG2 + 0 F2 dG2 , 0 0 0 2 0 1 Rt Rt Rt Rt Rt Rt Rt hdg = hdF hdF = G dF G dF G dF + G2 dF2 , 1 2 1 1 2 1 1 2 0 0 0 0 0 0 0 [g (s) g (s )] [h (s) h (s )] = [F1 (s) F2 (s) F1 (s ) + F2 (s )] [G1 (s) = [F1 (s) F1 (s )] [G1 (s) G1 (s )] + [F2 (s) F2 (s )] [G2 (s) G2 (s )] [F1 (s) F1 (s )] [G2 (s) G2 (s )] F2 (s )] [G1 (s) G1 (s )]. [F2 (s) G2 (s) G1 (s ) + G2 (s )] Así que: g (t) h (t) = [F1 (t) F2 (t)] [G1 (t) G2 (t)] = F1 (t) G1 (t) + F2 (t) G2 (t) F1 (t) G2 (t) F2 (t) G1 (t) Rt Rt P F1 (s )] [G1 (s) = F1 (0) G1 (0) + 0 F1 dG1 + 0 G1 dF1 s2[0;t] [F1 (s) +F2 (0) G1 (0) + 0 Rt F1 (0) G2 (0) 0 Rt F2 (0) G1 (0) = g (0) h (0) + Rt 0 Rt 0 F2 dG2 + F1 dG2 F2 dG1 gdh + Rt 0 Rt 0 Rt 0 Rt 0 hdg G2 dF2 G2 dF1 + G1 dF2 + P s2[0;t] P s2[0;t] P s2[0;t] P s2[0;t] [g (s) G1 (s )] [F2 (s) F2 (s )] [G2 (s) G2 (s )] [F1 (s) F1 (s )] [G2 (s) G2 (s )] [F2 (s) F2 (s )] [G1 (s) G1 (s )] g (s )] [h (s) h (s )]. 9.3. Fórmula de cambio de variable Teorema 9.8. Sea g : [0; 1) ! R una función continua por la derecha, de variación acotada sobre cualquier intervalo compacto, y F : R ! R una función de clase C 1 , entonces F g es de variación acotada sobre cualquier intervalo compacto y: Rt P F (g (t)) = F (g (0)) + 0 F 0 (g (s))dg c (s) + s2[0;t] [F (g (s)) F (g (s ))] 9.3. FÓRMULA DE CAMBIO DE VARIABLE 259 para cualquier t 2 [0; 1). Demostración Para cualquier t 2 [0; 1) ;se tiene: Rt Rt P g (t) = g (0) + 0 dg (s) = g (0) + 0 dg c (s) + s2[0;t] [g (s) g (s )]. Supongamos que: g k (t) = g k (0) + k Rt 0 gk 1 (s) dg c (s) + P s2[0;t] g k (s) g k (s ) para cualquier t 2 [0; 1), donde k 2 N. Entonces, utilizando la fórmula de integración por partes: Rt Rt P k g k+1 (t) = g k+1 (0) + 0 g k dg + 0 gdg k g k (s ) [g (s) s2[0;t] g (s) = g k+1 (0) + +k Rt 0 Rt g k dg c + 0 g k dg c + P s2[0;t] P s2[0;t] g k (s) [g (s) g (s) g k (s) g (s )] g k (s ) P g k (s) s2[0;t] Rt Rt P = g k+1 (0) + 0 g k dg c + k 0 g k dg c + s2[0;t] g k (s) [g (s) P + s2[0;t] g k (s) g k (s ) g (s ) + P s2[0;t] [g (s) = g k+1 (0) + (k + 1) + P s2[0;t] [g (s) + s2[0;t] [g (s) g (s )] Rt Rt g k dg c n hP k 1 j k k g (s )] g (s) + j=0 g (s) g = g k+1 (0) + (k + 1) P g k (s ) [g (s) P k k c g (s )] g dg + s2[0;t] g (s) [g (s) 0 i hP k 1 j k 1 j g (s) g (s ) g (s ) g (s )] j=0 = g k+1 (0) + (k + 1) 0 Rt g k dg c h P g (s )] g k (s) + kj=01 g j (s) g k = g k+1 (0) + (k + 1) 1 j i o (s ) g (s ) 0 Rt = g k+1 (0) + (k + 1) 0 g k dg c P P + s2[0;t] [g (s) g (s )] kj=0 g j (s) g k Rt 0 g k dg c + para cualquier t 2 [0; 1). P s2[0;t] j g (s )] j i (s ) (s ) g k+1 (s) g k+1 (s ) g (s )] 260 9. LA INTEGRAL DE LEBESGUE STIELTJES Así que, por el principio de inducción matemática: Rt P g n (t) = g n (0) + n 0 g n 1 (s) dg c (s) + s2[0;t] [g n (s) g n (s )] para cualquier n 2 N y cualquier t 2 [0; 1). P Sea p : R ! R un polinomio dado por p (x) = nk=0 ak xk , donde n 2 N. Entonces, por la linealidad de la integral: P p(g (t)) = nk=0 ak g k (t) o n Rt P P = a0 + nk=1 ak g k (0) + k 0 g k 1 (s) dg c (s) + s2[0;t] g k (s) g k (s ) Pn ak g k (t) P Rt P = a0 + nk=1 ak g k (0) + nk=1 0 kak g k = k=0 = p(g (0)) + Rt 0 p0 (g (s))dg c (s) + P 1 s2[0;t] (s) dg c (s) + [p(g (s)) Pn k=1 P s2[0;t] ak g k (s) ak g k (s ) p(g (s ))]. Sea M = sup fmax (jg (s)j ; jg (s )j) : s 2 [0; t]g, tomemos c > M y de…namos las funciones G1 : R ! R, G2 : R ! R y G : R ! R de la siguiente manera: h i F ( M) (M c)F 0 ( M )+2F ( M ) G1 (s) = (M c)2 + (s + M ) (s + c)2 , (M c)3 G2 (s) = h F (M ) (c M )2 + 8 G (x) > > < 1 F (x) G(x) = G2 (x) > > : 0 (c M )F 0 (M )+2F (M ) (c M )3 si x 2 [ c; M ) si x 2 [ M; M ] si x 2 (M; c] en otro caso (s i M ) (s c)2 , Entonces: G1 ( c) = 0, G1 ( M ) = F ( M ), G01 ( c) = 0, G01 ( M ) = F 0 ( M ), G2 (c) = 0, G2 (M ) = F (M ), G02 (c) = 0, G02 (M ) = F 0 (M ), G (x) = F (x) y G0 (x) = F 0 (x) para cualquier x 2 [ M; M ]. Además, G es de clase C 1 y nula fuera del intervalo ( c; c), así que existe una sucesión (pn )n2N de polinomios pn : R ! R tales que (pn )n2N y (p0n )n2N convergen uniformente a G y G0 , respectivamente, en el intervalo ( c; c). Para cada n 2 N, se tiene: Rt P pn (g (t)) = pn (g (0)) + 0 p0n (g (s))dg c (s) + s2[0;t] [pn (g (s)) pn (g (s ))]. 9.3. FÓRMULA DE CAMBIO DE VARIABLE 261 En particular, pn g es de variación acotada sobre cualquier intervalo compacto. Restringidas al intervalo [ M; M ], p0n g está acotada para cualquier n 2 N. Sea entonces C 2 R tal que jp0n gj C para cualquier n 2 N. Si F1 : [0; 1) ! R y F2 : [0; 1) ! R son dos funciones no decrecientes continuas tales que g c = F1 F2 , entonces F1 y F2 restringidas al intervalo [0; t] son medidas …nitas, así que, para cualquier n 2 N, p0n g es integrable con respecto a F1 y F2 . Por lo tanto, aplicando el teorema de la convergencia dominada: Rt Rt l mn 1 0 p0n (g (s))dg c (s) = 0 F 0 (g (s))dg c (s). (n) (n) Para cada n 2 N, sean F1 : [0; 1) ! R y F2 : [0; 1) ! R dos funciones no decrecientes (n) (n) continuas por la derecha tales que pn g = F1 F2 . h i P h i P (n) (n) (n) (n) Las series s2[0;t] F1 (s) F1 (s ) y s2[0;t] F2 (s) F2 (s ) son absolutamente convergentes ya que sus términos son no negativos y: h i P (n) (n) (n) (n) F (s) F (s ) F1 (t) F1 (0), 1 1 s2[0;t] P s2[0;t] h (n) F2 (s) Así que la serie: i (n) F2 (s ) (n) F2 (t) (n) F2 (0). nh (n) pn (g (s )] = s2[0;t] F1 (s) s2[0;t] [pn (g (s) absolutamente convergente ya que: h i h i (n) (n) (n) (n) F1 (s) F1 (s ) F2 (s) F2 (s ) P h P (n) F1 (s) i h (n) (n) F1 (s ) + F2 (s) (n) F1 i (s ) h (n) F2 (s) (n) F2 io (s ) es i (n) F2 (s ) . P (0) (0) También la serie s2[0;t] jg (s) g (s )j es convergente ya que si F1 : [0; 1) ! R y F2 : [0; 1) ! R son dos funciones no decrecientes continuas por la derecha tales que g = F1 F2 , entonces: P P g (s )j = s2[0;t] jF1 (s) F1 (s ) [F2 (s) F2 (s )]j s2[0;t] jg (s) P P F1 (s )j+ s2[0;t] jF2 (s) F2 (s )j F1 (t) F1 (0)+F2 (t) F2 (0) < 1. s2[0;t] jF1 (s) Además, como, para cualquier n 2 N, pn y F son funciones continuas en el intervalo [ c; c] y derivables con derivada continua en el intervalo ( c; c), para cualquier s 2 [0; t] tal que g (s ) 6= g (s), se tiene: (pn F ) (g (s)) (pn F ) (g (s )) = (p0n F 0) (n) s [g (s)) g (s )] 262 9. LA INTEGRAL DE LEBESGUE STIELTJES donde (n) s 2 (m n (g (s) ; g (s )) ; max (g (s) ; g (s ))). Por lo tanto: P F ) (g (s)) s2[0;t] [(pn P s2[0;t] (n) s F 0) (p0n (pn jg (s) F ) (g (s ))] = g (s )j. P s2[0;t] (p0n F 0) (n) s [g (s) g (s )] Como la sucesión (p0n F 0 )n2N converge uniformemente a cero, dada " > 0 existe N 2 N tal 1 que j(p0n F 0 ) (x)j < P " para cualquier x 2 ( c; c) y n N , así que: s2[0;t] P s2[0;t] (p0n F 0) para cualquier n (n) s jg(s) g(s )j jg (s)) g (s )j < " N. Por lo tanto: P l mn 1 s2[0;t] [(pn F ) (g (s)) (pn F ) (g (s ))] = 0. Así que, tomando límites cuando n 1 en la expresión: Rt 0 P pn (g (t)) = pn (g (0)) + 0 pn (g (s))dg c (s) + s2[0;t] [pn (g (s)) pn (g (s ))], se obtiene: F (g (t)) = F (g (0)) + Rt 0 F 0 (g (s))dg c (s) + para cualquier t 2 [0; 1). P s2[0;t] [F (g (s)) F (g (s ))] CAPÍTULO 10 CONVERGENCIA 10.1. Introducción En este capítulo analizaremos diferentes tipos de convergencia de una sucesión de funciones medibles de…nidas sobre un espacio de medida (F; =; ) y con valores en R. En todo el capítulo, (F; =; ) será un espacio de medida completo. La medibilidad de una función f : F ! R (resp. f : F ! R) será entendida considerando sobre R (resp. R) la -álgebra de los conjuntos borelianos en R (resp. R). Desde los inicios del Cálculo Diferencial e Integral se planteó el problema de expresar una función como una serie de funciones simples (recordemos, por ejemplo, el desarrollo de una función en serie de Taylor). Más adelante, se planteó el problema de expresar una función como una serie trigonométrica. En particular, recordemos que Fourier, en el año 1822, a…rmó que una función arbitraria f , de…nida y acotada en el intervalo [ L; L], puede representarse mediante la siguiente serie trigonométrica: f (x) = 12 a0 + donde a0 = an = 1 L bn = 1 L RL L RL L 1 2L RL L P1 n=1 an cos nLx + bn sen nLx , f (x)dx y, para cada n 2 N: f (x) cos nLx dx, f (x)sen nLx dx. Esta a…rmación de Fourier condujo a investigar a fondo cuándo la serie: 1 a 2 0 + P1 n=1 an cos nLx + bn sen nLx , con los valores de los coe…cientes dados por Fourier, converge efectivamente a la función f . Las investigaciones alrededor del problema de la convergencia de una serie de funciones condujeron a la necesidad de profundizar, en general, en el problema de la convergencia de 263 264 10. CONVERGENCIA una sucesión de funciones. Surgió en este proceso la de…nición de la convergencia uniforme; esto a raíz de que Cauchy a…rmaba que si los términos de una serie son funciones continuas y la serie converge, entonces la función a la cual converge es continua. N. H. Abel hizo ver que esta a…rmación no es válida en general y Weierstrass, introduciendo el concepto de convergencia uniforme, demostró que la a…rmación de Cauchy es válida si la convergencia de la serie es uniforme. Otro problema relacionado con las series de funciones era el determinar bajo que condiciones se puede integrar término a término una serie convergente de funciones para obtener la integral de la función a la cual converge. Al desarrollar Lebesgue su teoría de integración, uno de los aspectos centrales de su planteamiento fue el obtener una de…nición de integral con la propiedad de que si se tiene una sucesión convergente de funciones integrables, la función límite sea integrable y su integral sea igual al límite de la sucesión formada por las integrales de las funciones que componen la sucesión dada. Como vimos en el capítulo anterior, la integral que de…nió satisface esta propiedad bajo condiciones bastante generales. La integral que de…nió Lebesgue tiene la característica de que al modi…car los valores de una función integrable en los puntos de un conjunto de medida cero, la función sigue siendo integrable y la integral de la función modi…cada es igual a la integral de la función original. Es decir, para …nes de la integración de funciones, los conjuntos de medida cero son despreciables. En particular, en lo que respecta a la convergencia de una sucesión de funciones, esto lleva a que no es necesario tratar con sucesiones de funciones que converjan en todos los puntos, puede uno limitarse a la convergencia fuera de un conjunto de medida cero. Surgió así el concepto de convergencia casi en todas partes. De esta forma, en el desarrollo de la teoría de integración, incluyendo los trabajos anteriores al de Lebesgue, se fueron encontrando diferentes tipos de convergencia de una sucesión de funciones. Un tipo de convergencia que surgió en este contexto es la convergencia en medida. Dentro de la teoría de integración la idea surgió del problema de la integración término a término de una serie de funciones, buscando condiciones menos restrictivas que la convergencia uniforme de la serie para asegurar que se puede integrar término a término una serie convergente de funciones para obtener la integral de la función a la cual converge. Sin de…nirla explicitamente, este tipo de convergencia se encuentra formulada en un artículo de L. Kronecker del año 1878, obviamente sin referirse al concepto de medida, que aún no se había formulado, sino al de contenido. La de…nición explícita fue dada en el año 1909 por F. Riesz en un artículo titulado Sur les suites des fonctions mesurables ([81]), donde, entre otras cosas, demostró que si una sucesión de funciones medibles converge en medida a una función medible, entonces existe una subsucesión que converge casi en todas partes. Sin embargo, la convergencia en medida tiene una historia más antigua; sin de…nirse explicitamente, era utilizada en el CálculoTeoría de Probabilidades desde la publicación del teorema 10.1. INTRODUCCIÓN 265 de Bernoulli en el año 1713 ([4]), el cual establece la convergencia, que hoy se denomina en medida, de una determinada sucesión de variables aleatorias. Este resultado de Bernoulli marcó la pauta para el desarrollo del CálculoTeoría de Probabilidades hasta principios del siglo XX, cuando se llegó a la formulación general de los llamados teoremas límite, entre los cuales se encuentra la ley débil de los grandes números, la cual es una generalización del resultado de Bernoulli. También en el contexto de la Teoría de la Probabilidad surgió otro tipo de convergencia llamada en distribución, la cual proviene del teorema que demostró de Moivre en el año 1733 ([28]) y que en su forma general se le conoce como Teorema Central del Límite. En 1906, Hilbert el espacio l2 , el cual está formado por las sucesiones (xn )n2N tales P1 introdujo 2 que la serie n=1 xn es convergente, y de…nió la distancia entre dos elementos x = (xn )n2N y y = (yn )n2N de l2 de la siguiente manera: d (x; y) = P1 n=1 (xn yn )2 1 2 . En 1907 ([78]), Riesz demostró que existe un isomor…smo entre el espacio l2 y el espacio de funciones medibles f : [a; b] ! R tales que f 2 es integrable. Previamente, en el año 1906, Hilbert había introducido el concepto de funciones ortogonales: dos funciones continuas f y g, Rb de…nidas sobre el intervalo [a; b], son ortogonales si a f (x) g (x) dx = 0; un sistema ortogonal es una familia de funciones ortogonales por parejas y tales que la integral del cuadrado de cada una de ellas es igual a 1 (actualmente, cuando se agrega la segunda condición, se le llama sistema ortonormal). Riesz estableció el isomor…smo mencionado con el siguiente resultado: Sea ('k )k2N un conjunto ortogonal de funciones y (ck )k2N una sucesión de números reales, entonces, existe una función medible f , de cuadrado integrable, tal que Rb P 2 ck = a f (x) 'k (x) dx para cualquier k 2 N si y sólo si la serie 1 k=1 ck converge. En el mismo año, Ernst Fischer ([34]) demostró que el conjunto de funciones medibles de 1 Rb 2 cuadrado integrable es completo con la métrica dada por d (f; g) = a (f (x) g (x))2 dx . Más tarde Riesz daría su propia demostración de este resultado. El concepto de espacio métrico había sido introducido por Fréchet en 1906 en su tesis doctoral ([36]). También en 1907 ([79]), Riesz demostró que si U es una función lineal y continua, de…nida sobre el conjunto de funciones medibles de cuadrado Rintegrable, entonces existe una función b medible g, de cuadrado integrable, tal que U (f ) = a f (x) g (x) dx para cualquier función f medible de cuadrado integrable. El mismo resultado fue demostrado en el mismo año, de manera independiente, por Maurice Fréchet. 266 10. CONVERGENCIA Unos años después, en 1909 ([81]), Riesz de…nió el espacio Lp ([a; b]), para p 2 (1; 1), como Rb el conjunto de funciones f : [a; b] ! R tales que a jf (x)jp dx < 1 (identi…cando aquellas que son iguales excepto en un conjunto de medida cero) y demostró que dicho espacio es 1 Rb p completo con la métrica dada por d (f; g) = a jf (x) g (x)jp dx . Surgió así otro tipo de convergencia de una sucesión de funciones medibles: la convergencia en Lp . 10.2. Convergencia casi en todas partes Definición 10.1. Diremos que una sucesión de funciones medibles ffn gn2N converge casi en todas partes a una función medible f si l mn 1 fn = f excepto a lo más en un conjunto c:t:p: de medida cero. Si éste es el caso, se escribirá fn ! f . Las siguientes propiedades se siguen inmediatamente de las correspondientes propiedades para las sucesiones de números reales: (i) Si una sucesión (fn )n2N converge casi en todas partes a f , entonces cualquier subsucesión de (fn )n2N también converge casi en todas partes a f . c:t:p: c:t:p: (ii) Si ffn g es una sucesión de funciones medibles tal que fn ! f y fn ! g, entonces f = g casi en todas partes. c:t:p: (iii) Si c es una constante y (fn )n2N una sucesión de funciones medibles tal que fn ! f , c:t:p: entonces cfn ! cf . c:t:p: (iv) Si (fn )n2N y (gn )n2N son dos sucesiones de funciones medibles tales que fn ! f y c:t:p: c:t:p: c:t:p: gn ! g, entonces fn + gn ! f + g y fn gn ! f g. Los resultados que siguen, con relación a la convergencia casi en todas partes, se entienden mejor si se tienen en mente los siguientes conceptos: Dada una sucesión A1 ; A2 ; : : : de subconjuntos de un conjunto , se de…ne el límite inferior (l m nf) y el límite superior (l m sup) de esa sucesión de la siguiente manera: l m nf An = l m sup An = S1 T1 n=1 m=n T1 S1 n=1 m=n Am , Am . Obsérvese que l m nf An está formado por todos los elementos x 2 F para los cuales existe n 2 N tal que x 2 Am para cualquier m n, mientras que l m sup An está formado por todos los elementos x 2 F que pertenecen a una in…nidad de conjuntos de la sucesión. Así que se tiene siempre l m nf An l m sup An . Si l m nf An = l m sup An , se dice que la sucesión (An )n2N converge y al valor común de l m nf An y l m sup An se le llama l m An . 10.2. CONVERGENCIA CASI EN TODAS PARTES Por ejemplo, si (An )n2N es una sucesión creciente (resp. decreciente) de subconjuntos de 1 entonces converge y l m An = [1 n=1 An (resp. l m An = \n=1 An ). Teorema 10.1. Supongamos que 267 , es …nita y sea (fn )n2N una sucesión de funciones medi- c:t:p: bles. Entonces fn ! 0 si y sólo si para cualquier " > 0, se tiene: (l m sup fy 2 F : jfn (y)j > "g) = 0. Demostración Supongamos primero que l mn 1 fn = 0 casi en todas partes. Entonces existe un conjunto E0 F de medida 0 tal que si x 2 E0c entonces l mn 1 fn (x) = 0. Así que, dado x 2 c " para cualquier n N; esto signi…ca que x 2 E T01y " > 0, existe N tal que jfn (x)j "g. n=N fy 2 F : jfn (y)j Dicho de otra forma, si x 2 E0c , entonces, dada cualquier " > 0: T1 S "g]. x2 1 m=1 [ n=m fy 2 F : jfn (y)j Así que: S1 T1 E0c m=1 [ n=m fx 2 F : jfn (x)j "g]. Por lo tanto: S1 T [ ( 1 n=m fy 2 F : jfn (y)j > "g]) = 0. m=1 Inversamente, supongamos que, para cualquier " > 0, se tiene: S1 T [ ( 1 n=m fy 2 F : jfn (y)j > "g]) = 0. m=1 Para cada r 2 N, sea: T S1 Br = 1 m=1 n=m y 2 F : jfn (y)j > 1 r . Se tiene (Br ) = 0 para cualquier r 2 N y la sucesión de eventos B1 ; B2 ; : : : es creciente, así que: S ( 1 r=1 Br ) = l mr 1 (Br ) = 0. Pero, Brc = x 2 F : Existe N (x) tal que jfn (x)j 1r para cualquier n N (x) . De manera T 1 c que si x 2 1 para r=1 Br , entonces para cualquier r 2 N existe N (x) tal que jfn (x)j r 1 cualquier n N (x). En particular, dada " > 0 sea r 2 N tal que r < " y N (x) tal que jfn (x)j 1r para cualquier n N (x), entonces jfn (x)j < " para cualquier n N (x), lo cual signi…ca que l mn 1 fn (x) = 0. Es decir: T1 c [l mn 1 fn = 0]. r=1 Br 268 10. CONVERGENCIA S T c Sea E0 = 1 (E0 ) = 0 y si x 2 E0c = 1 r=1 Br . Entonces r=1 Br , entonces l mn Así que l mn!1 fn = 0 casi en todas partes. Corolario 10.1. Supongamos que 1 fn (x) = 0. es …nita y sea (fn )n2N una sucesión de funciones c:t:p: medibles. Entonces fn ! f si y sólo si para cualquier " > 0, se tiene: (l m sup fy 2 F : jfn (y) f (y)j > "g) = 0. TeoremaP10.2 (Lema de Borel-Cantelli). Sea E1 ; E2 ; : : : una sucesión de conjuntos medibles tales que 1 n=1 (En ) < 1, entonces: (l m sup En ) = 0. Demostración Sea B = l m sup En . Para T cada m 2 N, sea Bm = B= 1 m=1 Bm , así que: T (B) = [ 1 m=1 Bm ] = l mm S1 n=m 1 [ En . Entonces la sucesión de eventos Bm es decreciente y S1 n=m En ] l mm 1 P1 n=m (En ) = 0. Corolario 10.2. Sea (fn )n2N una sucesión de funciones medibles tales que: P1 n=1 [jfn j > "] < 1 para cualquier " > 0. c:t:p: Entonces fn ! 0. Demostración Dada " > 0, sea A(") = l m sup fy 2 F : jfn (y)j > "g. Por la proposición 10.2, [A(")] = 0 para cualquier " > 0. Así que el resultado se sigue aplicando el corolario 10.1. Corolario 10.3. Sea f una función medible y (fn )n2N una sucesión de funciones medibles P c:t:p: tales que 1 f j > "] < 1 para cualquier " > 0. Entonces fn ! f . n=1 [jfn 10.3. Convergencia en medida Definición 10.2. Diremos que una sucesión de funciones medibles (fn )n2N converge en medida si existe una función medible f tal que: l mn 1 (fy 2 F : jfn (y) f (y)j > "g) = 0 10.3. CONVERGENCIA EN MEDIDA 269 para cualquier " > 0. Si éste es el caso, se escribirá fn ! f . Obviamente si una sucesión (fn )n2N converge en medida a f , entonces cualquier subsucesión de (fn )n2N también converge en medida a f . Proposición 10.1. Sea ffn g una sucesión de funciones medibles tal que fn ! f y fn ! g, entonces f = g casi en todas partes. Demostración Como jf [jf jfn f j + jfn gj, entonces: [jfn f j + jfn gj > "]. gj gj > "] Además, para cualquier " > 0, se tiene: [jfn f j + jfn gj > "] jfn fj > " 2 + jfn [ jfn gj > " 2 . Por lo tanto: [jf jfn gj > "] fj > " 2 " 2 gj > . Así que, tomando límites, se obtiene [jf gj > "] = 0 para cualquier " > 0. S Finalmente, [jf gj > 0] = 1 gj > n1 , así que: n=1 jf P1 jf gj > n1 = 0. [jf gj > 0] n=1 Proposición 10.2. Sea c una constante y (fn )n2N una sucesión de funciones medibles tal que fn ! f , entonces cfn ! cf . Demostración l mn 1 cf j > "] = l mn [jcfn 1 h jfn fj > " jcj i = 0. Proposición 10.3. Sean (fn )n2N y (gn )n2N dos sucesiones de funciones medibles tales que fn ! f y gn ! g, entonces fn + gn ! f + g. Demostración Como jfn [jfn f + gn f + gn gj gj > "] jfn f j + jgn jfn fj > Así que: l mn 1 [jfn + gn f gj > "] " 2 gj, se tiene: [ jgn gj > " 2 . 270 l mn 10. CONVERGENCIA jfn 1 fj > " 2 + l mn jgn 1 " 2 gj > = 0. Proposición 10.4. Sean f una función medible, (fn )n2N una sucesión de funciones medibles tales que fn ! f y g : R ! R una función uniformemente continua, entonces g fn ! g f . Demostración Como g es uniformemente continua en R, dada " > 0 existe para cualesquiera u; v 2 R tales que jv uj < . Así que: jg fn (x) > 0 tal que jg (u) g (v)j < " g f (x)j < " para cualquier x 2 F tal que jfn (x) f (x)j < . Por lo tanto: l m supn 1 l m supn l m supn l mn 1 (fy 2 F : jg fn (y) g f (y)j > "g) 1 (fy 2 F : jg fn (y) 1 (fy 2 F : jfn (y) y 2 F : jfn (y) g f (y)j f (y)j f (y)j > 1 2 "g) g) = 0. Así que g fn ! g f . Corolario 10.4. Sean f una función medible, (fn )n2N una sucesión de funciones medibles tales que fn ! f y g : R ! R una función continua nula fuera de un intervalo [a; b], entonces g fn ! g f . Demostración Como g es uniformemente continua en [a; b] y nula fuera de ese intervalo, es uniformemente continua en R. Teorema 10.3. Supongamos que es …nita y sean f una función medible, (fn )n2N una sucesión de funciones medibles tal que fn ! f y g : R ! R una función continua, entonces g fn ! g f . Demostración P Como 1 k=0 [k [jf j > M ] jf j < k + 1] = (F) < 1, entonces dada > 0 existe M tal que: P [jf j M ] = 1 jf j < k + 1] < 21 . k=M P [k 10.3. CONVERGENCIA EN MEDIDA También, como fn ! f , existe N tal que, si n fj > M] < [jfn 1 2 271 N , entonces: . Sea Dn = fy 2 F : jf (y)j M g \ fy 2 F : jfn (y) f (y)j M g. Entonces: Dnc = fy 2 F : jf (y)j > M g [ fy 2 F : jfn (y) f (y)j > M g. Así que: (Dnc ) < . Si y 2 Dn , entonces: jfn (y)j jfn (y) f (y)j + jf (y)j 2M . De…namos: 8 si juj < 2M < g(u) (M ) g(2M ) si u 2M g (u) = : g( 2M ) si u 2M g (M ) es uniformemente continua en R, así que, dada " > 0 existe g (M ) (u) > 0 tal que: g (M ) (v) < " para cualesquiera u; v 2 R tales que jv uj < . Así que: g (M ) fn (x) g (M ) f (x) < " para cualquier x 2 F tal que jfn (x) Por lo tanto, si n N , se tiene: (fy 2 F : jg fn (y) = f (x)j < . g f (y)j > "g) g f (y)j > "g)+ (Dnc \ fy 2 F : jg fn (y) (Dn \ fy 2 F : jg fn (y) Dn \ y 2 F : g (M ) fn (y) y 2 F : g (M ) fn (y) (fy 2 F : jfn (y) y 2 F : jfn (y) g (M ) f (y) g (M ) f (y) f (y)j f (y)j > g) + (Dnc ) 1 2 + . " " + (Dnc ) + (Dnc ) g f (y)j > "g) 272 10. CONVERGENCIA Así que: l m supn l mn 1 (fy 2 F : jg fn (y) y 2 F : jfn (y) 1 g f (y)j > "g) f (y)j > 1 2 Como lo anterior es válido para cualquier l mn 1 (fy 2 F : jg fn (y) + = . > 0, se concluye que: g f (y)j > "g) = 0. Por lo tanto, g fn ! g f . Corolario 10.5. Supongamos que es …nita y sean f y g dos funciones medibles, y (fn )n2N y (gn )n2N dos sucesiones de funciones medibles tales que fn ! f y gn ! g, entonces fn gn ! f g. Demostración Como fn gn = 14 [(fn + gn )2 fn gn ! 41 [(f + g)2 (f (fn gn )2 ], entonces: g)2 ] = f g. Teorema 10.4. Supongamos que es …nita y sea (fn )n2N una sucesión de funciones medibles c:t:p: tal que fn ! 0, entonces fn ! 0. Demostración S Sea Bm (") = 1 n=m fy 2 F : jfn (y)j > "g, entonces la sucesión de eventos B1 ("); B2 ("); : : : es decreciente, así que: T l mm 1 [Bm (")] = ( 1 m=1 Bm (")) = 0. Pero [jfm j > "] l mm 1 Bm ("). Por lo tanto: [jfm j > "] l mm 1 [Bm (")] = 0. Corolario 10.6. Supongamos que es …nita y sea (fn )n2N una sucesión de funciones c:t:p: medibles tal que fn ! f , entonces fn ! f . Si no es …nita, el corolario anterior no es válido en general. En efecto consideremos el ejemplo siguiente: Ejemplo 10.1. Sea F = R, la medida de Lebesgue sobre R y (fn )n2N la sucesión de de…nidas por fn = I(n;n+1) para cualquier n 2 N. Entonces la sucesión (fn (x))n2N converge a 0 para cualquier x 2 R, pero dada " 2 (0; 1), se tiene: 10.3. CONVERGENCIA EN MEDIDA 273 (fy 2 R : jfn (y)j > "g) = 1 para cualquier n 2 N. Así que (fn )n2N no converge en medida a la función identicamente cero. Más aún, (fn )n2N no converge en medida. En efecto, supongamos que (fn )n2N converge en medida a la función medible f , entonces existe una subsucesión que converge casi en todas partes, así que f es la función identicamente cero. Como se muestra en el siguiente ejemplo, el inverso del corolario 10.6 no es válido en general. Ejemplo 10.2. Sea F = (0; 1], la medida de Lebesgue sobre F e (In )n2N la sucesión de intervalos J1 = (0; 1], J2 = (0; 21 ], J3 = ( 21 ; 21 ], J4 = (0; 212 ], J5 = ( 212 ; 222 ], J6 = ( 222 ; 232 ], J7 = ( 232 ; 242 ], . . . ; es decir, para n 2 f0; 1; 2; : : :g y j 2 f0; 1; 2; : : : ; 2n 1g, ]. Para cada n 2 N, de…namos fn = IJn ; es decir, para n 2 f0; 1; 2; : : :g y J2n +j = ( 2jn ; j+1 2n j 2 f0; 1; 2; : : : ; 2n 1g, f2n +j = I( jn ; j+1 . n ] 2 2 Si x 2 F y n 2 f0; 1; 2; : : :g, entonces existe un único elemento j0 2 f0; 1; 2; : : : ; 2n 1g tal ], así que f2n +j0 (x) = 1 y f2n +j (x) = 0 para cualquier j 2 f0; 1; 2; : : : ; 2n 1g que x 2 ( 2jn ; j+1 2n fj0 g. Por lo tanto, fn (x) = 1 para una in…nidad de valores de n y fn (x) = 0 para una in…nidad de valores de n. Así que la sucesión (fn (x))n2N no converge para ninguna x 2 F. Sin embargo, para cualquier n 2 f0; 1; 2; : : :g y j 2 f0; 1; 2; : : : ; 2n 1g, f2n +j toma únicamente los valores 0 y 1, y (fy 2 F : f2n +j (y) = 1g) = 21n . Así que l mn 1 [jfn j > "] = 0 para cualquier " > 0. Por lo tanto, fn ! 0. De la de…nición de convergencia en medida podemos ver que, en un sentido, las funciones fn , para n su…cientemente grande, están cercanas a la función límite f . En efecto, si fn ! f , dada cualquier " > 0, por pequeña que sea, y dada > 0, por pequeña que sea, existe N 2 N tal que: (fy 2 F : jfn (y) para cualquier n f (y)j > "g) < N. Es decir, denotando por An al conjunto fy 2 F : jfn (y) f (y)j > "g, entonces, para cualquier n N , jfn (y) f (y)j " para cualquier y 2 Acn y (An ) < . Lo anterior podría dar la idea de que, fuera de un conjunto de medida pequeña, se tiene convergencia uniforme de la sucesión (fn )n2N . Sin embargo, esto no es así ya que el conjunto de medida pequeña (An ) no es …jo, depende de n. Esto se ve claro en el ejemplo 10.2 ya que, dada " 2 (0; 1) y > 0, digamos = 2n10 , con n0 grande para asegurar que es pequeña, se tiene que, para n 2n0 +1 , (An ) < , pero: A2n0 +1 = I( 0 ; 1 ] 2n0 +1 2n0 +1 , 274 10. CONVERGENCIA A2n0 +1 +1 = I( A2n0 +2 1 1 ; 2 ] 2n0 +1 2n0 +1 = I( 2n0 +1 2n0 +1 A2n0 +2 = I( 1 2n0 +1 ; n +1 ] 2 0 0 ; 1 ] 2n0 +2 2n0 +2 A2n0 +2 +1 = I( , , , 1 ; 2 ] 2n0 +2 2n0 +2 , ::: A2n0 +3 1 = I( 2n0 +2 2n0 +2 1 2n0 +2 ; n +1 ] 2 0 , ::: Se tiene la convergencia uniforme fuera de un conjunto …jo de medida pequeña, pero únicamente para alguna subsucesión de (fn )n2N , lo cual demostramos más adelante. Definición 10.3. Diremos que una sucesión de funciones medibles (fn )n2N es de Cauchy en medida si, para cualquier " > 0 y cualquier > 0 existe N 2 N tal que: (fy 2 F : jfn (y) fm (y)j > "g) < para cualquier par de números naturales n y m mayores o iguales a N . Teorema 10.5. Sea (fn )n2N una sucesión de funciones medibles que converge en medida, entonces (fn )n2N es de Cauchy en medida. Demostración Sea f el límite ne medida de la sucesión (fn )n2N . Dadas " > 0 y jfn : > 0, sea N 2 N tal que: f j > 21 " < 1 2 para cualquier número natural n N. Entonces, si n y m son dos números naturales mayores o iguales que N , se tiene: [jfn : fm j > "] jfn : f j > 21 " + jfm : f j > 12 " < . Por lo tanto, (fn )n2N es de Cauchy en medida. Teorema 10.6. Sea (fn )n2N una sucesión de funciones medibles y supongamos que (fn )n2N es de Cauchy en medida, entonces (fn )n2N contiene una subsucesión (fnk )k2N que converge casi en todas partes a una función medible f y tal que, dada > 0, existe un conjunto medible A tal que (A) < y la sucesión (fnk )k2N converge uniformemente a f sobre Ac . 10.3. CONVERGENCIA EN MEDIDA 275 Demostración Para cada k 2 N, de…namos "k = (fy 2 F : jfn (y) k = fm (y)j > "k g) < k 1 . 2k Sabemos que existe Nk 2 N tal que: para cualquier par de números naturales n y m mayores o iguales a Nk . Existe entonces una sucesión creciente de números naturales (mk )k2N tal que: fmk+1 : Sea B = P1 k=1 fmk > T1 j=1 fmk+1 : 1 2k S1 i=j < 1 2k para cualquier k 2 N. fmi+1 : fmk > 1 2k fmi > 1 2i , entonces, como: < 1, por el lema de Borel-Cantelli, se tiene que (B) = 0. S Para cada j 2 N, de…namos Bj = 1 fmi > i=j fmi+1 : Para cualquier i 2 N tal que i fmi+1 (y) : fmi (y) 1 2i . j, se tiene: 1 2i para cualquier y 2 Bjc . P 1 Dada " > 0, sea i0 2 N tal que i0 N y 1 i=i0 2i < ". Entonces, si r > s Pr 1 fmi (y) jfmr (y) : fms (y)j i=s fmi+1 (y) : Pr 1 1 P1 1 < i i=s 2 i=i0 2i < " i0 , se tiene: para cualquier y 2 Bjc . Así que la sucesión (fmk )k2N es uniformemente de Cauchy en Bjc . Por lo tanto, converge uniformemente en Bjc . S T1 Si y 2 B c = 1 fmi j=1 i=j fmi+1 : la sucesión (fmk (y))k2N es convergente. 1 2i , entonces existe j 2 N tal que y 2 Bjc , así que c:t:p: Sea f (y) = l mk!1 fmk (y) :Entonces fmk ! f ya que (B) = 0. Además, para cualquier j 2 N, (fmk )k2N converge uniformemente a f en Bjc . Finalmente, como l mj 1 (Bj ) = 0, dada > 0, existe N 2 N tal que (BN ) < . 276 10. CONVERGENCIA Corolario 10.7. Sea (fn )n2N una sucesión de funciones medibles que converge en medida, entonces (fn )n2N contiene una subsucesión (fnk )k2N que converge casi en todas partes a una función medible f y tal que, dada > 0, existe un conjunto medible A tal que (A) < y la sucesión (fnk )k2N converge uniformemente a f sobre Ac . Teorema 10.7. Supongamos que es …nita y sea (fn )n2N una sucesión de funciones medibles, de Cauchy en medida, entonces (fn )n2N converge en medida.. Demostración Sea (fmk )k2N una subsucesión que converge casi en todas partes a la función f , entonces fmk ! f . Dadas " > 0 y > 0, sea N 2 N tal que: jfn : fm j > 21 " < 1 2 , jfmk : f j > 12 " < 1 2 , para cualquier terna de números naturales, n, m y k, mayores o iguales que N . Sean n y k números naturales mayores o iguales que N , entonces: [jfn : f j > "] fmk j > 12 " + jfn : jfmk : f j > 21 " < . Por lo tanto fn ! f . Si es …nita y (fn )n2N es una sucesión de funciones medibles que converge casi en todas partes a la función medible f , entonces se tiene convergencia uniforme, fuera de un conjunto …jo de medida pequeña, para toda la sucesión (fn )n2N : Teorema 10.8. Si es …nita y (fn )n2N es una sucesión de funciones medibles que converge casi en todas a la función medible f , entonces, dada > 0, existe un conjunto medible A tal que (A) < y la sucesión (fn )n2N converge uniformemente a f sobre Ac . Demostración Para cualquier " > 0, se tiene: (l m sup fy 2 F : jfn (y) f (y)j > "g) = 0. Para cada i 2 N, sea B (i) = T1 j=1 (i) Para cada j 2 N, de…namos Bj = Como l mj (i) 1 Bj = 0, dada S1 k=j S1 k=j jfk : fj > 1 2i jfk : fj > 1 2i B (i) = 0. , entonces . > 0, existe Ni 2 N tal que (i) BNi < 2i . 10.4. CONVERGENCIA DÉBIL De…namos B = S1 i=1 (i) BNi , entonces Para cualquier k 2 N tal que k jfk (y) : f (y)j (B) < . Ni , se tiene: 1 2i (i) c Bc. para cualquier y 2 BNi Dada " > 0, sea i 2 N tal que jfk (y) : 277 1 2i < ". Entonces, para cualquier k Ni , se tiene: f (y)j < " para cualquier y 2 B c . Por lo tanto, (fn )n2N converge uniformemente en B c . Teorema 10.9. Sean g una función no negativa e integrable, f una función medible y (fn )n2N una sucesión de funciones medibles tales que jfn j g para cualquier n 2 N y fn ! f , R entonces l mn 1 F jfn f j d = 0. Demostración Para cada n 2 N, de…namos: R sn = F jfn f j d . Se tiene entonces: R sn = F jfn f j d R jf j d + F n R jf j d F Así que la sucesión (sn )n2N está acotada. 2 R F gd < 1. Sea (snk )k2N una subsucesión convergente. Como fn ! f , existe una subsucesión snkj de (snk )k2N tal que fnkj j2N c:t:p: ! f . Por el teorema de la convergencia dominada, la sucesión snkj converge a cero, así que (snk )k2N converge a cero. Por lo tanto, la sucesión (sn )n2N j2N converge a cero. 10.4. Convergencia débil En esta sección asumiremos que la medida es …nita. Si f : F ! R es una función medible denotaremos por f la proyección de otras palabras, f es la medida sobre los borelianos de R de…nida por: bajo f . En 278 f 10. CONVERGENCIA (B) = (fy 2 F : f (y) 2 Bg). Como sabemos, está medida queda únicamente determinada por sus valores en los intervalos de la forma ( 1; x], donde x 2 R. Definición 10.4. Diremos que una sucesión ( n )n2N de medidas …nitas, de…nidas sobre (R; B (R)), converge débilmente a la medida …nita , de…nida sobre (R; B (R)), si se cumplen las siguientes dos condiciones: (i) l mn (ii) l mn 1 1 (R) = (R). (( 1; x]) = (( 1; x]) para todo elemento x 2 R tal que n n Si éste es el caso, se escribirá (fxg) = 0. d n ! . Obsérvese que se tiene: (fxg) = (( 1; x]) Así que, (( 1; x)). (fxg) = 0 si y sólo si (( 1; x)) = (( 1; x]). Además: (( 1; x)) = l m"!0+ (( 1; x "]). Así que, (fxg) = 0 si y sólo si la función x ! (( 1; x]), de…nida sobre R, es continua por la izquierda. Esta función siempre es continua por la derecha, así que: (fxg) = 0 si y sólo si la función x ! (( 1; x]), de…nida sobre R, es continua. Además, como es …nita, el conjunto fx 2 R : (fxg) > 0g es a lo más in…nito numerable. Definición 10.5. Si es una medida sobre (R; B (R)), diremos que x 2 R es punto de continuidad de si (fxg) = 0. 1 y 1 serán considerados puntos de continuidad de P . Si I es un intervalo en R, diremos que I es un intervalo de continuidad de si sus extremos son puntos de continuidad de . Definición 10.6. Diremos que una función g : R 7! R se anula en el in…nito si dada cualquier " > 0 existe un conjunto compacto K R tal que jg(x)j < " para cualquier x 2 = K. Definición 10.7. Diremos que una función g : R 7! R tiene soporte compacto si existe un conjunto compacto K R tal que g(x) = 0 para cualquier x 2 = K. Proposición 10.5. Sea ( 0 , entonces = 0 . n )n2N una sucesión de medidas …nitas tales que d n ! y d n ! Demostración Si x es un número real tal que (fxg) = 0 y 0 (fxg) = 0, entonces (( 1; x]) = 0 (( 1; x]). Pero como los conjuntos fx 2 R : (fxg) > 0g y fx 2 R : 0 (fxg) > 0g son a lo más in…nito 10.4. CONVERGENCIA DÉBIL 279 numerables, el conjunto fx 2 R : (fxg) = 0 y 0 (fxg) =g es denso en R. Así que, siendo continuas por la derecha las funciones x ! (( 1; x]) y x ! 0 (( 1; x]), se sigue que (( 1; x]) = 0 (( 1; x]) para cualquier x 2 R. Por lo tanto (B) = 0 (B) para cualquier conjunto boreliano de R. Proposición 10.6. Sea una medida …nita sobre (R; B (R)) y x 2 R un punto de continuidad de . Entonces, dada " > 0, existe un intervalo de continuidad de , …nito, (a; b), tal que x 2 (a; b) y [(a; b)] < ". Demostración Como el conjunto fx 2 R : (fxg) > 0g es a lo más in…nito numerable, el conjunto de puntos de continuidad de es denso en R. Sea (an )n2N una sucesión creciente de puntos de continuidad de y (bn )n2N una sucesión decreciente de puntos de continuidad de Entonces: l mn 1 tal que l mn tal que l mn an = x, 1 bn = x. 1 [(an ; bn )] = [\1 n=1 (an ; bn )] = P (fxg) = 0, de lo cual se sigue el resultado. Teorema 10.10. Si ( n )n2N es una sucesión de medidas …nitas sobre (R; B (R)) tales que l mn 1 n (R) = (R), donde es una medida …nita sobre (R; B (R)), entonces las siguientes condiciones son equivalentes: (i) (ii) (iii) (iv) (v) d n ! . l mn 1 n (I) = (I) para todo intervalo de continuidad, I, de . l mn 1 n (I) = (I) para todo intervalo de continuidad, I, de , abierto y …nito. l mn 1 R n (I) = (I) R para todo intervalo de continuidad, I, de , …nito. l mn 1 R gd n = R gd para cualquier función continua g : R 7! R que se anula en el in…nito. R R (vi) l mn 1 R gd n = R gd para cualquier función continua g : R 7! R con soporte compacto. R R (vii) l mn 1 R gd n = R gd para cualquier función g : R 7! R continua y acotada. Demostración Vamos a demostrar primero que i, ii y iii son equivalentes. i ) ii Sea x 2 R un punto de continuidad de y, dada " > 0, sea (a; b) un intervalo de continuidad de , …nito, tal que x 2 (a; b) y [(a; b)] < ". Entonces: l m supn 1 n (fxg) l m supn 1 n [(a; b]] 280 10. CONVERGENCIA = l mn 1 [( 1; b]] n = [( 1; b]] l mn n 1 [( 1; a]] [( 1; a]] = [(a; b]] = [(a; b)] < ". Por lo tanto, l mn 1 n (fxg) = 0. Así que, l mn 1 n (I) = (I) para todo intervalo de continuidad, I, de I = ( 1; x), donde x 2 R. de la forma Además, como l mn 1 n (R) = (R), entonces l mn 1 n (I) = (I) para todo intervalo de continuidad, I, de de la forma I = (x; 1) o I = [x; 1), donde x 2 R. Finalmente, si I es un intervalo de continuidad de , …nito, con extremos a y b, entonces: l mn 1 n (I) = l mn = [( 1; b]] 1 n [( 1; b]] l mn 1 n [( 1; a]] [( 1; a]] = [(a; b]] = (I). ii ) iii es inmediato ya que iii es un caso particular de ii. iii ) i Sea C el conjunto de puntos de continuidad de , x 2 C. Dada " > 0, sea b 2 C tal que b > jxj, que: j n (( b; x)) (( b; x))j < ", j n (( b; b)) (( b; b))j < ", j n (R) N. Entonces, para n N , se tiene: n =j [( 1; x)] n ((b; 1)) < ", y sea N 2 N tal (R)j < ", para cualquier n j (( 1; b)) < " y [( 1; x)]j [( 1; b)] + n [( 1; b)] [( b; x)] n [( 1; b)] + [( 1; b)] + j n (R) n n [( b; x)] [( b; b)] + [( 1; b)] + j n [( b; x)]j [( b; x)]j [( b; x)] [( b; x)]j j n (R) (R)j + (R) =j n (R) (R)j + [( 1; b)] + [( b; b)] + [(b; 1)] + [( 1; b)] n n [( b; b)] + j [( b; b)] + [( 1; b)] + j n [( b; x)] [( b; x)]j n [( b; x)] [( b; x)]j 10.4. CONVERGENCIA DÉBIL j n (R) (R)j + j +j n [( b; b)] n [( b; x)] 281 [( b; x)]j [( b; b)]j + 2 [( 1; b)] + [(b; 1)] < 6". Así que: l mn 1 n (( 1; x)) = (( 1; x)). Queda entonces demostrado que i, ii y iii son equivalentes. Ahora vamos a demostrar que iii, iv, v y vi son equivalentes. iii ) iv Sea x 2 R un punto de continuidad de . Dada " > 0, sea (a; b) un intervalo de continuidad de , …nito, tal que x 2 (a; b) y [(a; b)] < ". Se tiene: l mn 1 n ((a; b)) = ((a; b)). Así que existe N 2 N tal que: n (fxg) n ((a; b)) < ((a; b)) + " < 2" para cualquier n Por lo tanto, l mn N. 1 n (fxg) = 0. Así que, si I es un intervalo de continuidad, I, de , …nito, con extremos c y d, entonces: l mn 1 n (I) = l mn 1 n ((c; d)) = ((c; d)) = (I). iv ) v Sea g : R 7! R una función continua que se anula en el in…nito y, dada " > 0, sea [ a; a] un intervalo de continuidad de tal que jg (x)j < " para cualquier x 2 = [ a; a]. Se tiene entonces: R jgj d n " n ([ a; a]c ) " (R), [ a;a]c R jgj d " ([ a; a]c ) " (R). [ a;a]c Como g es uniformemente continua sobre el intervalo [ a; a], existe una partición de [ a; a] en intervalos ajenos, I1 ; : : : ; Ir , todos intervalos de continuidad de , en cada uno de los cuales la oscilación de g es menor que ". 282 10. CONVERGENCIA Para cada j 2 f1; : : : ; rg tomemos xj 2 Ij , y de…namos T (x) = g (xj ) para cualquier x 2 Ij . Se tiene entonces: Ra Ra Ra gd Td jg T j d " ([ a; a]) " (R), a a a Ra a gd Ra n a Td Ra n a jg Tjd " n ([ a; a]) n " n (R). Por otra parte, como l mn 1 n (Ij ) = (Ij ) para cualquier j 2 f1; : : : ; rg, se tiene: Ra Ra P P l mn 1 a T d n = l mn 1 nj=1 xj n (Ij ) = nj=1 xj (Ij ) = a T d . Así que, existe N 2 N tal que Ra Td a Ra n Por lo tanto, para cualquier n N , se tiene: Ra R R R gd n + [ a;a]c gd n gd n gd = a R R + R [ a;a]c Ra a jgj d Td n Así que, l mn n + Ra a 1 R [ a;a]c Td R gd R jgj d + + Ra n a R R gd gd Ra a gd Ra a n Td < " para cualquier n Td a Ra a Ra a gd Td R [ a;a]c N. gd n < 5" ( (R) + 1). = 0. v ) vi es inmediato ya que toda función continua con soporte compacto se anula en el in…nito. vi ) iii Sea (a; b) un intervalo de continuidad de , abierto y …nito. Dada " > 0, sea > 0 tal que < 21 (b a), a , a+ , b continuidad de y [(a ; a + )] + [(b ; b + )] < ". Sea g1 : R 7! R la función de…nida como sigue: 8 1 si x 2 [a; b] > > < 1 1 (a x) si x 2 (a ; a) g1 (x) = 1 1 (x b) si x 2 (b; b + ) > > : 0 en otro caso y b+ g1 es no negativa, continua, tiene soporte compacto y está acotada por 1. Se tiene entonces: R R l mn 1 R g1 d n = R g1 d . son puntos de 10.4. CONVERGENCIA DÉBIL 283 Así que, dada " > 0, existe N1 2 N tal que: R R g d n < R g1 d + " R 1 para cualquier n N1 . Además, se tiene: R R b+ g d = g1 d 1 n R a R gd = R 1 R b+ a n g1 d Rb a g1 d [(a = [(a; b)] + [(a n = n [(a; b)], ; b + )] ; a + )] + [(b ; b + )] < [(a; b)] + ". Así que, para n N1 , se tiene: R R g d < g d +" n [(a; b)] 1 n R R 1 [(a ; b + )] + " < [(a; b)] + 2". De…namos ahora g2 : R 7! R de la siguiente manera: 8 1 si x 2 [a + ; b ] > > < 1 (x a) si x 2 (a; a + ) g2 (x) = 1 (b x) si x 2 (b ; b) > > : 0 en otro caso g2 es no negativa, continua, tiene soporte compacto y está acotada por 1. Se tiene entonces: R R l mn 1 R g2 d n = R g1 d . Así que, dada " > 0, existe N2 2 N tal que: R R g d n > R g2 d " R 2 para cualquier n Además, se tiene: R Rb g d = gd 2 n R a 2 R Rb g d = a g2 d R 2 = [(a; b)] [(a Así que, para n N2 . n n Rb a+ [(a; b)] g2 d = [(a + ; b ; a + )] N2 , se tiene: [(b )] ; b + )] > [(a; b)] ". 284 n 10. CONVERGENCIA R [(a; b)] gd R 2 [(a + ; b n )] > 2" < Así que, l mn 1 n R g2 d " " > [(a; b)] Por lo tanto, para n [(a; b)] R 2". max fN1 ; N2 g, se tiene: [(a; b)] < [(a; b)] + 2". n [(a; b)] = [(a; b)]. Queda entonces demostrado que iii, iv, v y vi son equivalentes. Siendo equivalentes i, ii y iii, hasta aquí tenemos demostrado que i, ii, iii, iv, v y vi son equivalentes. Para completar la demostración vamos a probar que vii se sigue de ii y que vi se sigue de vii. ii ) vii Sea g : R 7! R una función continua y acotada y M una cota de jgj. Como el conjunto de puntos de continuidad de l mx 1 [( 1; x)] = l mx 1 es denso en R y: [(x; 1)] = 0, dada " > 0, existe a > 0, punto de continuidad de , tal que: [( 1; a]] + [[a; 1)] < ". Como se tiene: l mn l mn 1 n [( 1; a]] = [( 1; a]], 1 n [[a; 1)] = [[a; 1)], existe N1 2 N tal que: n [( 1; a]] + para cualquier n n [[a; 1)] < [( 1; a]] + [[a; 1)] + " < 2" N1 . También, como se tiene: l mn 1 n (R) = (R), existe una constante K tal que (R) < K y n (R) < K para cualquier n 2 N. 10.4. CONVERGENCIA DÉBIL 285 Como g es uniformemente continua sobre el intervalo [ a; a], existe una partición de [ a; a] en intervalos ajenos, I1 ; : : : ; Ir , todos intervalos de continuidad de , en cada uno de los cuales la oscilación de g es menor que ". Para cada j 2 f1; : : : ; rg tomemos xj 2 Ij , y de…namos T (x) = g (xj ) para cualquier x 2 Ij . Se tiene entonces, para cualquier n N1 : Ra Ra Ra gd Td jg T j d < " ([ a; a]) a a a Ra a " R R gd n a 1 Ra n Td a Ra n a (R) < "K, gd + R1 a R gd a 1 jg Tjd R1 jgj d + a M ( [( 1; a]] + [[a; 1)]) < "M , a 1 gd M( n n + R1 a gd n [( 1; a]] + n R a 1 jgj d n <" n + " (R) < "K, ([ a; a]) n jgj d R1 a jgj d n [[a; 1)]) < 2"M , Por otra parte, como l mn 1 n (Ij ) = (Ij ) para cualquier j 2 f1; : : : ; rg, se tiene: Ra Ra P P l mn 1 a T d n = l mn 1 nj=1 xj n (Ij ) = nj=1 xj (Ij ) = a T d . Ra Así que, existe N2 2 N tal que a Por lo tanto, para cualquier n R R gd n gd R R Ra gd a Ra gd a + Ra n n gd a Así que, l mn Ra gd a Ra Ra a 1 + R Ra n a < " para cualquier n Td a 1 gd Ra n R1 a gd Ra n R a 1 gd + + 3"M < 3" + 3"M = 3 (M + 1) ". n R R gd n a Td + Td gd Td a + n R N2 . max fN1 ; N2 g, se tiene: Td a R + Td R1 a gd = 0. vii ) vi es inmediato ya que toda función continua con soporte compacto es acotada. 286 10. CONVERGENCIA 10.5. Convergencia en distribución En esta sección asumiremos que la medida es …nita. Definición 10.8. Sean (fn )n2N una sucesión de funciones medibles fn : F ! R y f : F ! R una función medible . Diremos que la sucesión (fn )n2N converge en distribución a f si d fn ! f. D Se éste es el caso, escribiremos fn ! f . Teorema 10.11. Sean (fn )n2N una sucesión de funciones medibles y f : F ! R una función D medible tales que fn ! f , entonces fn ! f . Demostración Se tiene (F) y (R) = n (F), así que l mn (R) = 1 n (R) = (R). Para " > 0, n 2 N y t 2 R, se tiene: (( 1; t "]) = fy 2 F : f (y) t "g fy 2 F : f (y) t " y jf (y) fn (y)j > "g + fy 2 F : f (y) t " y jf (y) fn (y)j fy 2 F : f (y) t " y jf (y) fn (y)j > "g + fy 2 F : f (y) t " y f (y) = = = " "g fn (y) f (y) + "g fy 2 F : jf (y) fn (y)j > "g + fy 2 F : fn (y) fy 2 F : jf (y) fn (y)j > "g + n tg (( 1; t]). Así que: (( 1; t fy 2 F : jf (y) "]) fn (y)j > "g n (( 1; t]). Además: n (( 1; t]) = fy 2 F : fn (y) tg fy 2 F : f (y) t y jf (y) fn (y)j > "g + fy 2 F : f (y) t y jf (y) fn (y)j fy 2 F : f (y) t y jf (y) fn (y)j > "g = = + fy 2 F : f (y) = t y fn (y) " f (y) "g fn (y) + "g fy 2 F : jf (y) fn (y)j > "g + fy 2 F : f (y) fy 2 F : jf (y) fn (y)j > "g + (( 1; t + "]). t + "g 10.5. CONVERGENCIA EN DISTRIBUCIÓN 287 Por lo tanto: (( 1; t fy 2 F : jf (y) "]) fy 2 F : jf (y) "]) l m inf n l m inf n!1 Así que l mn n 1 (( 1; t]) 1 y utilizando el hecho de que fn ! f , se obtiene: 1 n (( 1; t]) Ahora, si t es un punto tal que obtiene: (( 1; t]) n fn (y)j > "g + (( 1; t + "]). Tomando límites cuando n (( 1; t fn (y)j > "g n l m supn 1 n (( 1; t]) (( 1; t + "]). (ftg) = 0, entonces, tomando límites cuando " ! 0, se (( 1; t]) l m supn 1 (( 1; t]) = (( 1; t]), es decir, n (( 1; t]) n ! . (( 1; t]). d Como se muestra en el siguiente ejemplo, el inverso del resultado anterior no es válido en general. Ejemplo 10.3. Sea F = (0; 1] y la medida de Lebesgue sobre F. Para cada n 2 f0; 1; 2; : : :g, de…namos fn : F ! R de la siguiente manera: fn (y) = 2y 1 si n = 0 o si n es impar 1 2y si n es par Para n 2 f0; 1; 3; 5; : : :g y t 2 R, se tiene: fy 2 F : fn (y) tg = y2F:y 1 2 Para n 2 f2; 4; 6; : : :g y t 2 R, se tiene: fy 2 F : fn (y) = tg = y2F:y 1 2 si t < 1 (1 + t) si t 2 [ 1; 1) (1 + t) = : 1 si t 1 1 2 (1 8 < 0 si t < 1 (1 + t) si t 2 [ 1; 1) : 1 si t 1 1 2 Así que: f0 (( 1; t]) = 8 < 0 si t < 1 (1 + t) si t 2 [ 1; 1) : 1 si t 1 1 2 8 < 0 8 < 0 1 t) = : 1 1 2 (1 si t < 1 t) si t 2 [ 1; 1) si t 1 288 10. CONVERGENCIA fn (( 1; t]) = Por lo tanto, 8 < 0 si t < 1 (1 + t) si t 2 [ 1; 1) : 1 si t 1 1 2 d ! fn f0 . Por otra parte, jf2n fy 2 F : jf2n (y) y2F:y> = f0 j = 2 jf0 j para cualquier n 2 N, así que, dada " 2 (0; 1), se tiene: f0 (y)j > "g = 1 2 + " 4 y 2 F : jf0 (y)j > y2F:y< + 1 2 " 4 =1 " 2 " . 2 Por lo tanto: l mn fy 2 F : jf2n 1 f0 j > "g = 1 " 2 > 0. Así que la sucesión (fn )n2N no converge a f0 en medida. Además, para cualquier n 2 N, f2n 1 (y) = f0 (y) para cualquier y 2 F. Por lo tanto, la sucesión (f2n 1 )n2N converge en medida a f0. Ahora bien, si la sucesión (fn )n2N convergiera en medida a una función medible g : F ! R, entonces la sucesión (f2n 1 )n2N convergería en medida a g. Así que se tendría f0 = g casi en todas partes. Pero entonces se tendría que la sucesión (fn )n2N converge en medida a f0 , lo cual es falso. Podemos concluir entonces que la sucesión (fn )n2N no converge en medida. Se tiene el siguiente resultado parcial: Teorema 10.12. Sean (fn )n2N una sucesión de funciones medibles fn : F ! R. Supongamos d que fn ! 0, donde 0 es una medida …nita concentrada en cero. Entonces fn ! 0. Demostración La hipótesis nos dice que: l mn 1 fn (( 1; x]) = 0 si x < 0 (f0g) si x > 0 0 Además, para cualquier " > 0, se tiene: (fy 2 F : jfn (y)j > "g) = (fy 2 F : fn (y) > "g) + (fy 2 F : fn (y) < (fy 2 F : fn (y) > "g) + (fy 2 F : fn (y) = fn (R) fn (( 1; "]) + Así que, l m supn 1 fn (( 1; "]). (fy 2 F : jfn (y)j > "g) "g) "g) 10.5. CONVERGENCIA EN DISTRIBUCIÓN l mn = 0 1 fn (R) 0 (R) l mn 1 fn (( 1; "]) + l mn 1 fn 289 (( 1; "]) (f0g) = 0. Por lo tanto, fn ! 0. Corolario 10.8. Sean (fn )n2N y (fn0 )n2N dos sucesiones de funciones medibles. Supongamos D D D D que fn ! 0 y fn0 ! 0, entonces fn + fn0 ! 0 y .fn fn0 ! 0. Demostración D D d d Como fn ! 0 y fn0 ! 0, se tiene que fn ! 0 y fn0 ! 0 , donde 0 es una medida …nita concentrada en cero. Así que, fn ! 0 y fn0 ! 0. Por lo tanto, fn + fn0 ! 0 y D D .fn fn0 ! 0, lo cual implica que fn + fn0 ! 0 y .fn fn0 ! 0. CAPÍTULO 11 ESPACIOS Lp 11.1. Espacios Lp Para p 2 (0; 1), denotaremos por Lp al conjunto de funciones medibles f tales que R p jf j d < 1. También, denotaremos por L1 al conjunto de funciones medibles y acoF tadas excepto a lo más en un conjunto de medida cero. Obsérvese que si f 2 Lp , entonces f es …nita casi en todas partes. Para p 2 (0; 1], el conjunto de clases de equivalencia en las cuales queda partido Lp , mediante la relación de equivalencia de…nida por la igualdad casi en todas partes, será denotado por Lp . Cada elemento de Lp es un conjunto de funciones con la propiedad de que cualquier par de ellas son iguales casi en todas partes. Si f : F !R, la notación f 2 Lp signi…cará que la clase de equivalencia de la cual forma parte f , pertenece a Lp , de manera que cualquier propiedad que se demuestre para f será en realidad una propiedad de la clase de equivalencia de la cual forma parte. Si f 2 L1 , diremos que M 2 R es cota esencial de f si jf j M casi en todas partes. Además, de…nimos el supremo esencial de f , sup es (f ), de la siguiente manera: sup es (f ) = nf fM 2 R : M es cota esencial de f g Obsérvese que si f 2 L1 , entonces jf j sup es (f ) casi en todas partes. Además, no hay ningún número real M menor que sup es (f ) y tal que jf j M casi en todas partes. Es decir, si jf j M casi en todas partes, entonces sup es (f ) M . Si p 2 [1; 1) y f 2 Lp , de…nimos jjf jjp = R jf jp d F Si f 2 L1 , de…nimos jjf jj1 = sup es (jf j). Obsérvese que se tienen las siguientes relaciones: 291 1 p . 11. ESPACIOS Lp 292 Si p 2 (0; 1], entonces y < y p si y 2 (0; 1) y y > y p si y 2 (1; 1). Si p 2 (1; 1), entonces y > y p si y 2 (0; 1) y y < y p si y 2 (1; 1). Para cualquier p 2 (0; 1), la función y 7! y p es creciente en el intervalo [0; 1). Si r > p > 0, entonces y r < y p para cualquier y 2 (0; 1) y y r > y p para cualquier y 2 (1; 1). También y p < 1 + y r para cualquier y 2 [0; 1). Lema 11.1. Sean a; b 2 R y p 2 [0; 1), entonces: ja + bjp 2p (jajp + jbjp ). Demostración ja + bjp (jaj + jbj)p (2 max fjaj ; jbjg)p = 2p max fjajp ; jbjp g 2p (jajp + jbjp ). Proposición 11.1. Para cualquier p 2 (0; 1], Lp es un espacio vectorial sobre R. Demostración Si c 2 R, es inmediato que si f 2 Lp , entonces cf 2 Lp . Supongamos que f; g 2 Lp , entonces, si p 2 [0; 1), por el lema anterior, se tiene: R R R jf + gjp d 2p F jf jp d + F jgjp d < 1. F Así que f + g 2 Lp . Si f; g 2 L1 , entonces, f y g son medibles y acotadas excepto a lo más en un conjunto de medida cero; por lo tanto, f + g tiene la misma propiedad, así que f + g 2 L1 . Por lo tanto, en cualquier caso, Lp es un espacio vectorial sobre R. Lema 11.2. Sea t 2 (0; 1) [ (1; 1) y t < t + (1 2 (0; 1), entonces: ). Demostración Para t 2 (0; 1), de…namos f (t) = t + (1 ) t . Se tiene f 0 (t) = 1 t 1 para cualquier t 2 (0; 1). Así que f 0 (t) 0 para t 2 (0; 1] 0 y f (t) 0 para t 2 [1; 1). Por lo tanto, f es decreciente en el intervalo (0; 1] y creciente en el intervalo [1; 1). Se concluye entonces que, para cualquier t 2 (0; 1) [ (1; 1), f (t) > f (1) = 0, es decir, t + (1 )>t . 11.1. ESPACIOS Lp Corolario 11.1. Sean p; q 2 (1; 1) tales que 1 p p q 1 q + 1 p + 1 q =1y ; 293 2 [0; 1). Entonces: : La iguadad se cumple si y sólo si p = q . Demostración p q Aplicando el lema anterior con t = q p < p q 1 p = p1 , se tiene: y + 1q . Así que: < p 1 p + q p 1 q = < p 1 p + 1 q q (1 1 q ). Por lo tanto: < 1 p p 1 q + q . Teorema 11.1 (Desigualdad de Hölder). Sean p; q 2 [1; 1] tales que y g 2 Lq , entonces f g 2 L1 y: jjf gjj1 1 p + 1 q = 1, f 2 Lp jjf jjp jjgjjq . Demostración Si p; q 2 (1; 1), de…namos f g jjf jjp jjgjjq = 1 p p Integrando, se obtiene: R 1 1 jf gj d + jjf jj jjgjj p F p q 1 q + 1 q = q = jf j jjf jjp y p 1 jf j p (jjf jj )p p = + jgj . jjgjjq Entonces: q 1 jgj . q (jjgjj )q q = 1. Si f 2 L1 y g 2 L1 , entonces: R R jf gj d sup es (f ) jf j d = jjf jj1 jjgjj1 . F F Teorema 11.2 (Desigualdad de Minkowski). Sea p 2 [1; 1] y f; g 2 Lp , entonces: jjf + gjjp jjf jjp + jjgjjp . Demostración Para p = 1 se tiene: 11. ESPACIOS Lp 294 jf + gj jf j + jgj. Así que: R jf + gj d F R F R F q = (f + g)p . jf j d + Si p 2 (1; 1), se tiene: (f + g)p 1 q = (f + g)pq Así que (f + g)p 1 jgj d . 2 Lq . Por lo tanto: (f + g)p R 1 q = jf + gjp d = F R 1 q jf + gjp d F jf + gjp F jjf jjp (f + g)p = jjf jjp + jjgjjp R 1 q 1 = jjf + gjjp jf + gj d + jjgjjp (f + g)p jjf + gjjp p q 1 R p q , jf j jf + gjp F q 1 d + R F jgj jf + gjp 1 d . Por lo tanto: jjf + gjjp jjf jjp + jjgjjp 1 p jjf + gjjp 1 q . Así que: jjf + gjjp 1 p 1 = jjf + gjjp Si p = 1, se tiene jf + gj jjf + gjj1 = sup es (f + g) 1 q jjf jjp + jjgjjp jf j + jgj 1 p . sup es (f ) + sup es (g) casi en todas partes, así que: sup es (f ) + sup es (g) = jjf jj1 + jjgjj1 . Corolario 11.2. Para cualquier p 2 [1; 1], la función jjjjp , de…nida sobre Lp , es una norma. Obsérvese que sobre Lp , la función jjjjp no es una norma, pero es únicamente una propiedad de la norma la que no se cumple, a saber, que si jjf jjp = 0 entonces f = 0. Si jjf jjp = 0, únicamente se puede a…rmar que f = 0 casi en todas partes. 1 R Si p 2 (0; 1), la función f 7! F jf jp d p no es una norma. Ni siquiera lo es la función 1 P x 7! ( nk=1 jxk jp ) p , de…nida sobre Rn . Por ejemplo, en R2 , si x = (1; 0) y y = (0; 1), se tiene: 11.1. ESPACIOS Lp Pn 1 2 2 k=1 jxk + yk j Pn k=1 1 2 1 2 jxk j 2 Pn 295 = 4, = 1, 2 k=1 jyk j = 1. Así que: Pn 1 2 k=1 jxk + yk j 2 > Pn 1 2 2 k=1 jxk j + Pn 1 2 k=1 jxk + yk j 2 . Por lo tanto, no se satisface la desigualdad del triángulo. R Si p 2 (0; 1) y f 2 Lp , de…nimos jjf jjp = F jf jp d . Lema 11.3. Sean a; b 2 [0; 1) y p 2 (0; 1), entonces: (a + b)p ap + b p . Demostración Si ab = 0, o a = b, la desigualdad es obvia. Supongamos a; b 2 (0; 1). De…namos f : [0; 1) 7! R de la siguiente manera: f (t) = 1 + tp (1 + t)p . p Entonces, como (1 + t)1 f 0 (t) = ptp 1 p (1 + t)p > t1 1 p para cualquier t > 0, >0 para cualquier t > 0. Así que f es creciente en el intervalo (0; 1) y, siendo continua en el intervalo [0; 1), se tiene: f (t) f (0) = 0. Es decir: (1 + t)p 1 + tp para cualquier t > 0. Por lo tanto: (a + b)p = ap 1 + b p a ap 1 + b p a = ap + b p . 11. ESPACIOS Lp 296 Teorema 11.3. Para cualquier p 2 (0; 1), la función jjjjp , de…nida sobre Lp , es una norma. Demostración R jjf + gjjp = F jf + gjp d = jjf jjp + jjgjjp . R (jf j + jgj)p d F R jf jp d + F R F jgjp d Proposición 11.2. Supongamos que la medida es …nita, entonces, para cualquier r 2 (0; 1], si f 2 Lr , entonces f 2 Lp para cualquier p 2 (0; r). Demostración Para r 2 (0; 1), se tiene y p < 1 + y r para cualquier x 2 [0; 1) y cualquier p 2 (0; r), así que: R R jf jp d (F) + F jf jr d . F Si f 2 L1 , se tiene jf j jjf jj1 < 1 casi en todas partes. Así que R jf jp d jjf jjp1 (F) < 1 para cualquier p 2 (0; 1). F Si no es …nita, el resultado anterior podría no ser válido. Por ejemplo, si F = [1; 1), = es la -álgebra formada por los conjuntos Lebesgue medibles y es la medida de Lebesgue, de…namos f : [1; 1) 7! R mediante la relación f (x) = x1 . Entonces f 2 L2 , pero f 2 = L1 . Proposición 11.3. Supongamos que existe una colección in…nita numerable de conjuntos ajenos An de medida …nita y positiva. Entonces, la dimensión de Lp es in…nita. Demostración Obviamente las funciones IAn pertenecen a Lp y son linealmente independientes. 11.2. Convergencia en Lp Definición 11.1. Para p 2 (0; 1], se dice que una sucesión (fn )n2N de funciones medibles converge en Lp a la función medible f si f; fn 2 Lp para cualquier n 2 N y l mn 1 jjfn f jjp = 0. Lp Si éste es el caso, se escribirá fn ! f . 11.2. CONVERGENCIA EN Lp 297 La convergencia en Lp tiene las propiedades comunes a la convergencia en cualquier espacio vectorial normado. En particular, si X es un espacio vectorial normado, sobre R, con norma kk, se tiene lo siguiente: (i) Si (xn )n2N es una sucesión que converge x, entonces cualquier subsucesión de (xn )n2N también converge a x. (ii) Si (xn )n2N es una sucesión de elementos de X tales que xn ! x y xn ! y, entonces x = y. (iii) Si c 2 R y (xn )n2N es una sucesión de elementos de X tales que xn ! x, entonces cxn ! cx. (iv) Si (xn )n2N y (yn )n2N son dos sucesiones de elementos de X tales que xn ! x y yn ! y, entonces xn + yn ! x + y. P1 (v) Si (xn )n2N es una sucesión de elementos de X tales Pnque la serie n=1 kxn k converge, entonces la sucesión (yn )n2N de…nida por yn = k=1 xk es de Cauchy. P (vi) Si para cualquier sucesión (xn )n2N de elementos P de X tales que la serie 1 n=1 kxn k n converge, la sucesión (yn )n2N , de…nida por yn = k=1 yk , converge. Entonces X es completo. Teorema 11.4. Para cualquier p 2 (0; 1], Lp , con la norma jjjjp es un espacio normado completo. Demostración Sea (fn )n2N una sucesión de funciones en Lp tales que la serie P cada n 2 N, de…namos hn = nk=1 fk . De…namos: P1 P1 fk (x) si k=1 jfk (x)j < 1 k=1 f (x) = 0 en otro caso P y, para cada n 2 N, gn = nk=1 jfk j. P1 n=1 jjfn jjp converge y, para Para cada x 2 F, (gn (x))n2N es una sucesión no decreciente. Sea g (x) = l mn Por el lema de Fatou, se tiene: 1 R p R p p g d l m g d n 1 F F n P = l mn 1 jj nk=1 jfk jjjp l mn 1 p 1 para p 2 [1; 1). R p R g d l mn 1 F gnp d = l mn F P l mn 1 nk=1 jjfk jjp < 1 para p 2 (0; 1). Pn k=1 1 jjfk jjp < 1 P jj nk=1 jfk jjjp 1 gn (x). 11. ESPACIOS Lp 298 Así que, para cualquier p 2 (0; 1), g 2 Lp . Además: P j nk=1 fk j Así que jf j Pn k=1 jfk j g. g. En particular f 2 Lp . Por otra parte: P p j nk=1 fk f j P p (j nk=1 fk j + jf j) (2g)p . Así que, por el teorema de la convergencia dominada: R P R P p p l mn 1 F j nk=1 fk f j = F l mn 1 j nk=1 fk f j = 0. Si p = 1, se tiene: P jf j = l mn 1 j nk=1 fk j P = 1 k=1 jjfk jj1 < 1 l mn 1 Pn k=1 jfk j l mn 1 Pn k=1 jjfk jj1 casi en todas partes. Así que f 2 L1 . P Dada " > 0, tomemos N 2 N tal que 1 k=N jjfk jj1 < ". Entonces, para cualquier n tiene: Pm Pm Pn f (x) l m f j = l m jf k m 1 k m 1 k=n+1 jfk (x)j k=n+1 k=1 P1 k=n+1 jjfk jjp N , se casi en todas partes. Así que: P jj nk=1 fk f jj1 P1 k=n+1 jjfk jj1 < ". Por lo tanto, en cualquier caso, la sucesión (hn )n2N converge en Lp . Así que Lp es completo. Lp Teorema 11.5. Sea p 2 (0; 1] y (fn )n2N una sucesión de funciones medibles tal que fn ! f , entonces fn ! f . Demostración Sea p 2 (0; 1). Para cualquier " > 0, se tiene: 11.2. CONVERGENCIA EN Lp R jf F n R f jp d = [jfn : f j > "] jfn fjfn f j>"g R f jp d + jf f j>"g n fjfn f jp d "p [jfn : R f jp d jfn fjfn f j "g 299 f j > "]. Así que: 1 "p Por lo tanto, l mn 1 R jfn F [jfn : f jp d . f j > "] = 0 para cualquier " > 0. L1 Supongamos que fn ! f , entonces l mn jfn : f j kfn : f k1 casi en todas partes. 1 kfn : f k1 = 0 y, para cualquier n 2 N, Dada " > 0, sea N tal que kfn : f k1 < " para cualquier n N . Entonces , para cualquier n N , jfn : f j kfn : f k1 < " casi en todas partes. Así que [jfn : f j > "] = 0 para cualquier n N . Por lo tanto, l mn 1 [jfn : f j > "] = 0 para cualquier " > 0. Como se muestra en el siguiente ejemplo, el inverso del resultado anterior no es válido en general. Ejemplo 11.1. Sea F = (0; 1], f0; 1; 2; : : :g y j 2 f0; 1; 2; : : : ; 2n la medida de Lebesgue sobre F, p 2 (0; 1) y, para n 2 1 1g, f2n +j = (2n ) p I( jn ; j+1 . n ] 2 Para cualquier n n 2 f0; 1; 2; : : :g y j 2 f0; 1;o2; : : : ; 2n 1 p 0 y (2n ) , y y 2 F : f2n +j (y) = (2n ) 1 p = 2 1g, f2n +j toma únicamente los valores 1 . 2n Así que l mn 1 [jfn j > "] = 0 para cualquier " > 0. Por lo tanto, fn ! 0. Por otra parte, para cualquier n 2 f0; 1; 2; : : :g, se tiene: R F = jf2n+1 R R R f2n jp d = 1 ( 1 ; 1 ] 2n+1 2n (2n+1 ) p I(0; 1 2n (2n ) p I(0; 1 2n+1 (2n+1 ) p I(0; (2n ) p I(0; p 1 ] 2n = 21 . d = R (2n ) p I(0; 1 ] 2n d p 1 ] 2n d p 1 F p 1 1 ] 2n+1 1 1 ] 2n+1 1 1 ; 21n ] ( n+1 2 = 2n 1 F (2n ) p I( 1 ; 1 ] 2n+1 2n d Así que la sucesión (fn )n2N no es de Cauchy en Lp y, por lo tanto, no converge en Lp . Para p = 1 tomemos f2n +j = I( j j+1 ; ] 2n 2n , entonces, como se mostró en el ejemplo 10.2 , se tiene fn ! 0. Por otra parte, para cualquier n 2 f0; 1; 2; : : :g, se tiene: jjf2n+1 f2n jj1 = 1. 11. ESPACIOS Lp 300 Así que la sucesión (fn )n2N no es de Cauchy en L1 y, por lo tanto, no converge en L1 . Teorema 11.6. Sean p 2 (0; 1), ffn gn2N una sucesión en Lp y f una función medible. Si es una medida …nita, las siguientes propiedades son equivalentes: (i) fn ! f y la familia fjfn jp : n 2 Ng es uniformemente integrable. Lp (ii) ii) f 2 Lp y fn ! f . R R (iii) iii) f 2 Lp , fn ! f y l mn 1 F jfn jp d = F jf jp d . Demostración i ) ii Por la proposición 10.6 existe una subsucesión (fnk )k2N tal que fnk proposición 8.5, jf jp es integrable. c:t:p: ! f . Así que, por la Por otra parte: jfn f jp 2p (jfn jp + jf jp ). f jp gn2N también es uniformemente integrable. Así que la familia fjfn Para cada > 0, se tiene: R R R jf f jp d = fjfn f jp > g jfn f jp d + fjfn F n R jf f jp d + (F). fjfn f jp > g n h p Pero, l mn 1 [jfn f j > ] = l mn 1 jfn es uniformemente integrable, así que: R R l mn 1 F jfn f jp d l mn 1 fjfn f jp > g jfn f jp g fj > ii ) iii Para todo espacio vectorial normado (X; jjjj), se tiene: jjyjjj jjx yjj. Así que, si una sucesión (xn )n2N converge a x, entonces: jjjxn jj jjxjjj Por lo tanto: jjxn xjj. 1 p i f jp d + Así que, como > 0 es arbitraria, se tiene: R l mn 1 F jfn f jp d = 0. jjjxjj f jp d jfn = 0 y la familia fjfn (F) = (F). f jp gn2N 11.2. CONVERGENCIA EN Lp l mn 1 (jjjxn jj jjxjjj) l mn 1 jjxn 301 xjj = 0. Se concluye entonces que: l mn 1 jjxn jj = jjxjj. Lp Si f 2 Lp y fn ! f , entonces: 1 1 R R l mn 1 F jfn jp d p = F jf jp d p si p 2 [1; 1), R R l mn 1 F jfn jp d = F jf jp d si p 2 (0; 1). Así que, en cualquier caso: R R l mn 1 F jfn jp d = F jf jp d . iii ) i Para > 0 y x 2 R, de…namos: 8 > jxjp > > 1 > > < x (2 ) p 1 1 p (2 ) p f (x) = 1 > x + (2 ) p > 1 1 > p > (2 ) p > : 0 si x > 0 y si x < 0 y si jxj f es una función continua, así que f Además, f (x) Se tiene jf fn j R l mn 1 F jf fn jxjp y 0 yf f 1 p si jxj 1 1 p < jxj < (2 ) p 1 1 p 1 < jxj < (2 ) p (2 ) p fn ! f f. para cualquier x 2 R. f (x) fn ! f f , así que, por la proposición 10.9: f j d = 0. Por lo tanto: R R l mn 1 F f fn d = F f fd . Se tiene: l m nf n 1 Así que: R jfn jp d R fy2F:jfn (y)jp 2 g R p jf j d l m f n 1 n fy2F:jfn (y)j 2 g F R f f d = fy2F:jf (y)jp g jf jp d . fy2F:jf (y)jp g l m nf n R 1 R fy2F:jfn (y)jp 2 g p f fn d = fn d = R F f R F f fd fn d . 11. ESPACIOS Lp 302 Además, por hipótesis: R R l mn 1 F jfn jp d = F jf jp d . Por lo tanto: R l m supn 1 fy2F:jfn (y)jp >2 g jfn jp d = l m supn = l mn 1 R jf jp d F R jf jp d F n R l m nf n 1 R 1 fy2F:jfn (y)jp 2 g R jf jp d F n jfn jp d R fy2F:jfn (y)jp 2 g jfn jp d R jf jp d = fy2F:jf (y)jp > g jf jp d . R Dada " > 0, tomemos 0 tal que fy2F:jf (y)jp > g jf jp d < ". Entonces: 0 nR o l mn 1 sup fy2F:jfj (y)jp >2 g jfj jp d : j n fy2F:jf (y)jp g 0 = l m supn 1 R p fy2F:jfn (y)j >2 0 jf jp d g n Así que existe N 2 N tal que: nR sup fy2F:jfj (y)jp >2 g jfj jp d : j 0 para cualquier n N. R fy2F:jf (y)jp > 0g jf jp d < ". o n <" Para cada j 2 f1; 2; : : : ; N 1g tomemos R p fy2F:jfj (y)jp >2 j g jfj j d < " j tal que: De…niendo = max 2 0 ; 2 1 ; : : : ; 2 N 1 , se tiene: o nR sup fy2F:jfj (y)jp > g jfj jp d : j 2 N < " Por lo tanto: nR l m 1 sup fy2F:jfj (y)jp > o p jf j d : j 2 N = 0. g j Así que la familia fjfn jp : n 2 Ng es uniformemente integrable. Proposición 11.4. Supongamos que la medida es …nita, entonces, para cualquier r 2 Lr Lp (0; 1], si fn ! f , entonces fn ! f para cualquier p 2 (0; r]. 11.2. CONVERGENCIA EN Lp 303 Demostración L1 Si fn ! f , entonces l mn 1 sup es fjfn f jg = 0. Así que, dado " > 0, existe N tal que sup es fjfn f jgR < " para cualquier n N . Por consiguiente, jfn f j < " casi en todas p p partes. Así que F jfn f j d " (F) para cualquier n N y p 2 (0; 1). Por lo tanto: R l mn 1 F jfn f jp d = 0. Si r 2 (0; 1) y fn integrable. Lr ! f , entonces fn ! f y la familia fjfn jr gn2N es uniformemente Además, jyjp 1 + jyjr para cualquier y 2 R y cualquier p 2 (0; r]. Por lo tanto, para se tiene: R R R r p (1 + jf j ) d 2 jf jr d . d jf j r p n n f1+jfn j > g fjfn jr > 1g n fjfn j > g > 2, Así que: lm 1 nR sup 2l m 1 p fjfn j > sup nR jf jp d : n 2 N g n r fjfn j > o o r jf j d : n 2 N = 0. n 1g Por lo tanto, la familia fjfn jp gn2N es uniformemente integrable. Lp Finalmente, como también se tiene fn ! f , entonces f 2 Lp y fn ! f . Como se muestra en el siguiente ejemplo, en general, para p 2 (0; 1), la convergencia en Lp no implica convergencia casi en todas partes. Ejemplo 11.2. Consideremos la sucesión de funciones (fn )n2N del ejemplo 10.2. Para cualquier p 2 (0; 1), n 2 f0; 1; 2; : : :g y j 2 f0; 1; 2; : : : ; 2n 1g, se tiene: R jf n jp d = F 2 +j Así que, fn converge. Lp R p F I( j j+1 ; ] 2n 2n d = 1 . 2n ! 0, pero, como vimos, para cualquier x 2 F, la sucesión (fn (x))n2N no Proposición 11.5. Sea (fn )n2N una sucesión de funciones medibles tal que fn c:t:p tonces fn ! f . Demostración Para cada n 2 N, de…namos: cn = jjfn f jj1 . L1 ! f , en- 11. ESPACIOS Lp 304 Por la de…nición de la norma jjjj1 , para cada n 2 N existe un conjunto An 2 = tal que (An ) = 0 y: jfn (x) f (x)j cn para cualquier x 2 = An . S De…namos A = 1 n=1 An , entonces jfn (x) f (x)j (A) = 0 y: cn para cualquier x 2 = A y cualquier n 2 N. L1 Como fn ! f , la sucesión (cn )n2N converge a cero. Así que, para cualquier x 2 = A, se tiene: l m supn 1 jfn (x) Por lo tanto, l mn f (x)j 1 jfn (x) l mn 1 cn = 0. c:t:p f (x)j. Así que fn ! f . Como se muestra en el siguiente ejemplo, en general, para p 2 (0; 1], la convergencia casi en todas partes no implica la convergencia en Lp . Ejemplo 11.3. Sea F = (0; 1], la medida de Lebesgue sobre F y p 2 (0; 1). Para cada n 2 N, de…namos fn : F ! R de la siguiente manera: 1 fn (x) = (2n ) p si x 2 0; 21n 0 en otro caso Para cualquier x 2 F se tiene l mn!1 fn (x) = 0. Por otra parte, para cualquier n 2 N, se tiene: R R R p p jf f j d f j d = 1 1 jfn+1 n+1 n n F ( ; n] ( 2n+1 2 1 ; 1 ] 2n+1 2n jfn jp d = 2n 1 2n 1 2n+1 = 12 . Así que la sucesión (fn )n2N no es de Cauchy en Lp y, por lo tanto, no converge en Lp . Si p = 1 tomemos: fn (x) = 1 si x 2 0; 21n 0 en otro caso Para cualquier x 2 F se tiene l mn!1 fn (x) = 0. Por otra parte, para cualquier n 2 N, se tiene: jjfn+1 fn jj1 = 1. Así que la sucesión (fn )n2N no es de Cauchy en L1 y, por lo tanto, no converge en L1 . 11.3. DENSIDAD DE LAS FUNCIONES SIMPLES EN Lp 305 11.3. Densidad de las funciones simples en Lp Lema 11.4. Sea p 2 (0; 1). Una función simple no negativa ' pertenece a Lp si sólo si ' es nula fuera de un conjunto de medida …nita. Demostración Sea ' una función simple no negativa con representación canónica ' = tonces, para p 2 (0; 1), se tiene: R p Pn p ' d = k=1 ak (Ek ). F S P Así que ' 2 Lp si y sólo si ( nk=1 Ek ) = nk=1 (Ek ) < 1. Pn k=1 ak IEk . En- Además: fx 2 F : '(x) > 0g = Sn k=1 IEk . Por lo tanto, ' 2 Lp si y sólo si (fx 2 F : '(x) > 0g) < 1. Teorema 11.7. Sea p 2 (0; 1). El conjunto de las funciones simples nulas fuera de un conjunto de medida …nita es denso en Lp . Demostración Sea f 2 Lp y ('n )n2N y ( n )n2N dos sucesiones no decrecientes de funciones simples no negativas tales que l mn!1 'n (x) = f + (x) y l mn 1 n (x) = f (x) para cualquier x 2 F. Sea A = fy 2: jf (y)j < 1g. Entonces, para cualquier n 2 N, 'n IA y n IA siguen siendo simples. Para cualquier n 2 N se tiene 'n IA f + y n IA f , así que 'n IA 2 Lp y lo tanto, 'n IA y n IA son nulas fuera de un conjunto de medida …nita. Además, como (Ac ) = 0, l mn!1 'n IA = f + y l mn Para cada n 2 N de…namos sn = 'n IA l mn l mn 1 1 sn = f + Además: jsn j = j'n IA n IA j 'n + n = jf j Así que: jf sn jp Entonces: f = f casi en todas partes. Así que: sn jp = 0 casi en todas partes. jf n IA . 1 2p (jf jp + jsn jp ) 2p+1 jf jp . n IA =f n IA 2 Lp . Por casi en todas partes. 306 11. ESPACIOS Lp Por lo tanto, aplicando el teorema de la convergencia dominada, se tiene: R l mn 1 F jf sn jp d = 0. Así que la sucesión (sn )n2N converge a f en Lp . CAPÍTULO 12 TEORÍA DE LA PROBABILIDAD Desarrollo histórico El Cálculo de Probabilidades tuvo su origen en el estudio de algunos problemas relacionados con juegos de dados. La di…cultad y al mismo tiempo lo interesante de estos juegos consiste en que al lanzar uno o varios dados, de la manera usual en que esto se realiza, el resultado que se obtiene no está únicamente determinado, sino que es uno de un conjunto de posibles resultados. La teoría se fue desarrollando con la solución de problemas cada vez más complejos y de diversa índole, no únicamente en el ámbito de los juegos con dados, sino abarcando incluso fenómenos naturales. En situaciones como la del lanzamiento de varios dados, donde existen diferentes posibles resultados, el resultado es únicamente uno de ellos, pero, a priori, no se sabe cuál; de ahí que podemos hacer aseveraciones acerca del resultado que obtendremos, las cuales tienen la característica de que pueden resultar ser verdaderas o falsas una vez que observamos el resultado obtenido. Por ejemplo, al lanzar tres dados, la aseveración " la suma de los números que muestran las caras superiores de los dados, una vez lanzados, es mayor que 10" puede resultar verdadera o falsa cuando se realiza el lanzamiento. A cada una de esas aseveraciones que se pueden hacer acerca del resultado que se obtiene se le llama un evento; cuando la aseveración resulta ser verdadera, decimos que el evento ocurre; cuando resulta falsa, decimos que no ocurre. Considerando que un evento puede ocurrir o no ocurrir, lo que se busca es asignar un número real no negativo a cada evento, el cual indique que tanto se puede esperar que el evento ocurra. A ese número se le llama la probabilidad del evento. De esta forma, la probabilidad la podemos ver como una función no negativa de…nida sobre la familia de eventos, a la cual llamaremos función de probabilidad. Para …nes de aplicar el Cálculo de Probabilidades se introduce el concepto de experimento aleatorio, donde un experimento se considera como cualquier proceso que conduzca a un resultado. Algunos experimentos pueden consistir simplemente en la observación de un determinado fenómeno natural y en ir anotando algunas de las características que observamos; 307 308 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO por ejemplo, la medición día con día del crecimiento de una planta. En otros experimentos están involucradas acciones nuestras, además de la observación, como en el caso del lanzamiento de un dado. Un experimento consta de dos partes, por un lado tenemos la descripción del proceso que estamos considerando, especi…cando las condiciones bajo las cuales se realiza, y por otro lado tenemos lo que consideramos como su resultado. Se dice que un experimento es aleatorio cuando al realizarse, bajo las condiciones que se indiquen, su resultado puede ser cualquiera de un conjunto de resultados posibles. Cabe aclarar que la posibilidad de distintos resultados puede provenir de que las condiciones que se especi…can para la realización del experimento incluyen cierta arbitrariedad. En la formulación moderna, para modelar matematicamente un experimento aleatorio se busca construir un espacio de medida ( ; =; P ), donde , llamado el espacio muestral del experimento, es el conjunto de sus posibles resultados, = es una -álgebra de subconjuntos de , los cuales representan a los eventos, y la medida P , de…nida sobre =, tiene la característica de asignarle a el valor 1. Cada elemento de = es entonces un subconjunto del total de posibles resultados del experimento aleatorio en consideración y lo que nos interesa obtener es la probabilidad de que ocurra alguno de los posibles resultados que pertenecen a ese subconjunto. En general, la medida P se construye mediante un proceso de extensión: se comienza por asignar probabilidades a algunos eventos y después, utilizando las propiedades de P , se busca extenderla hasta abarcar el mayor número posible de subconjuntos de . De esta forma, el modelo matemático para el estudio del experimento consta de 3 elementos, el primero es el conjunto , el segundo una familia de subconjuntos de y el tercero una medida, que llamaremos medida de probabilidad, la cual asocia a cada elemento A de = un número real que designa la probabilidad de que ocurra alguno de los posibles resultados que pertenecen a A. Este modelo se fue construyendo durante los primeros 33 años del siglo XX, buscando axiomatizar el Cálculo de Probabilidades. Durante esos 33 años se estableció y consolidó su vínculo con la Teoría de la Medida, la cual surgió en los primeros años del siglo con los trabajos de Émile Borel y Henri Lebesgue. Es con su formulación axiomática que podemos hablar de una teoría matemática de la probabilidad, ya que de esta forma se tiene un cuerpo teórico, independiente de los problemas reales especí…cos que se tratan con el Cálculo de Probabilidades. La identi…cación de una función de probabilidad con una medida no surgió de manera automática como algo general aplicable a cualquier fenómeno aleatorio, sino que requirió de un proceso, que llevó varios años, en el cual se mostró que es una alternativa adecuada. En el centro de este proceso se encuentra el planteamiento de problemas donde se trata de calcular probabilidades de eventos cuya ocurrencia o no ocurrencia depende de una in…nidad de observaciones y la aceptación de la -aditividad como una propiedad de cualquier función de probabilidad, la cual permite atacar ese tipo de problemas. 12.1. ORIGEN DEL CÁLCULO DE PROBABILIDADES 309 12.1. Origen del Cálculo de Probabilidades Los juegos donde se utilizan dados o algo similar se inventaron hace miles de años; el dado más antiguo que se conoce fue encontrado en Irak y tiene una antigüedad de alrededor de 5 mil años. El astragalo, también conocido como tali o taba, es un precursor del dado. Se trata de un hueso del pie de un animal, el cual presenta cuatro caras, cada una con un nombre que más tarde se convirtió en un número. Las más utilizadas son las del carnero. Los juegos con tabas son tan antiguos como los juegos con dados; se han encontrado tabas en las tumbas de los faraones egipcios. Incluso hoy en día hay lugares, incluyendo algunas regiones de México, donde se juega con una taba. En la antigua Grecia y en Roma se volvió muy popular un juego que consistía en lanzar 4 tabas; en las caras de cada una de ellas estaban marcados los números 1, 3, 4 y 6, respectivamente. Las diferentes combinaciones tenían diferentes valores, siendo considerada la más alta la que consiste en 4 números distintos, la cual era llamada Venus. Los aztecas y otros pueblos originarios de América utilizaban algo que puede considerarse equivalente a los dados; se trata de unos granos rojos parecidos al frijol, cada uno de los cuales se pintaba de un lado. Esos granos son semillas de un árbol que era conocido como tzité y a los granos mismos se les llamaba tzité. Actualmente se les conoce como colorines. Los granos eran utilizados para …nes adivinatorios y para jugar un juego que llamaban patolli, el cual se jugaba sobre un tablero en forma de cruz diagonal, dividida en 52 casillas y se utilizaban 5 colorines marcados cada uno de un lado. Cada jugador colocaba una apuesta (había quienes apostaban incluso su persona y si perdían quedaban sometidos a la condición de esclavos). Ganaba el juego quien lograra primero recorrer las 52 casillas, avanzando según el número de caras marcadas que se obtienen al lanzar los 5 colorines. Durante la Edad media los juegos con dados se extendieron por toda Europa y se fue adquiriendo un conocimiento empírico acerca de ellos. Fue en esa época cuando se acuñó el término azar, el cual es de origen árabe y surgió a …nes del siglo XI. En una de las caras de los dados que se utilizaban para jugar, estaba dibujada una ‡or, representando un resultado desfavorable para quien lo obtenía. La expresión árabe es az-zahr, la cual signi…ca la ‡or. Por extensión se llamaba también az-zahr al dado y también se entendía por az-zahr el lanzar los dados. La experiencia fue indicando que algunas combinaciones que se obtenían al lanzar los dados eran menos frecuentes que otras y quienes jugaban las conocían. Sin embargo, hasta la Edad Media, nadie intentó desarrollar una teoría matemática de los juegos con dados. No fue sino hasta el Renacimiento cuando se comenzó a teorizar acerca de ese tema. El primer estudio sistemático de problemas relacionados con el lanzamiento de varios dados y los diferentes resultados que pueden obtenerse lo realizó Gerolamo Cardano (1501-1576), en su libro Liber de ludo aleae (Libro de los juegos de azar), sin embargo su trabajo tuvo poca in‡uencia, pues si bien fue escrito en 1564, se publicó en 1663. Para ese entonces Blaise Pascal (1623-1662), Pierre de Fermat (1601-1665) y Christiaan Huygens (1629-1695) ([33], 310 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO [49]) habían ya resuelto algunos problemas de probabilidad, los cuales se consideran como los que sirvieron de base para desarrollar el Cálculo de Probabilidades. Uno de los primeros problemas matemáticos que se planteó al considerar los juegos con dados fue el de determinar cuántos resultados distintos pueden obtenerse al lanzar n dados. La primera solución correcta conocida de este problema se encuentra en un poema titulado “De Vetula” y escrito por Richard de Fournival (1200-1250). Ahí se a…rma que 3 dados pueden caer en un total de 216 caminos ([65]). La primera referencia conocida a una relación entre las diferentes posibilidades de ocurrencia de un evento y la frecuencia con que éste se observa, se encuentra en los comentarios a una publicación de “La Divina Comedia” que en el año 1477 hizo Benvenuto d’Imola (13201388). Dice ahí: “Concerniente a estos lanzamientos (de dados) debe observarse que los dados son cuadrados y cualquier cara puede caer, así que un número que pueda aparecer en más caminos debe ocurrir más frecuentemente, como en el siguiente ejemplo: con tres dados, tres es el más pequeño número que puede obtenerse y sólo se obtiene con tres ases; cuatro puede obtenerse sólo en un camino, con un dos y dos ases”([65]). Fue en el año 1654 cuando se plantearon algunos problemas cuyas soluciones condujeron al establecimiento de reglas generales para calcular probabilidades. Pareciera, por la referencias que hay, que en esa época los juegos con dados eran muy populares y se conocían algunas reglas que permitían a los jugadores conocer, de manera aproximada y siempre con incertidumbre, que posibilidades tenían de ganar al realizar una apuesta. Antoine Gombaud (1607-1684), conocido como el chevalier de Méré, jugó un papel importante para que se desarrollara un Cálculo de Probabilidades, no por aportaciones que hubiera hecho, sino porque fue él quien, en el año 1654, le planteó a Pascal dos problemas que, al ser resueltos de manera independiente por Pascal y Fermat en el mismo año, y por Huygens 3 años más tarde, marcaron la pauta para poder dar solución a una diversidad de problemas de probabilidad, lo cual condujo a una formulación general de las reglas que se requerían para el desarrollo de un Cálculo de Probabilidades. Era del conocimiento del Chevalier de Méré que al lanzar un dado 4 veces consecutivas, había más posibilidades de obtener el número 6 por lo menos en uno de los lanzamientos que no obtener ninguno: sin embargo tenía duda acerca de cuántos lanzamientos de un par de dados se requieren para que haya más posibilidades de obtener par de seises por lo menos en uno de los lanzamientos del par de dados, que no obtener ninguno. Pensaba que la solución era tal vez 24 lanzamientos ya que argumentaba: Al lanzar un dado se tienen 6 posibles resultados y en ese caso se requieren 4 lanzamientos para apostar, con ventaja, que se obtiene el número 6 por lo menos en una ocasión; al lanzar un par de dados se tienen 36 posibles resultados y como 6 es a 4 como 36 a 24, entonces se requieren 24 lanzamientos del par de dados para apostar, con ventaja, que se obtiene par de seises por lo menos en una ocasión. Al tener duda acerca de este resultado, le planteó el problema a Pascal, quien encontró que se requieren no 24, sino 25 lanzamientos del par de dados para que sea más favorable obtener 12.1. ORIGEN DEL CÁLCULO DE PROBABILIDADES 311 por lo menos un par de seises que no obtener ninguno. Pascal a su vez le planteó el problema a Fermat, quien, sin conocer el método empleado por Pascal, llegó a la misma conclusión. Se desconocen los métodos que utilizaron Pascal y Fermat para resolver el problema de los dados planteado por de Mére; sin embargo, en una carta dirigida a Pascal, Fermat desarrolló la solución de un problema con dados y de ahí podría inferirse que el método utilizado por Fermat para resolver el problema del lanzamiento de un par de dados fue como sigue: Si trato de hacer un par de seises en n lanzamientos de un par de dados y, después que el dinero está en juego, convenimos en que no haré el primer lanzamiento, entonces es necesario 1 que saque del juego 36 del total, el cual denotaremos por A. Si después de eso, convenimos 1 en que no haré el segundo lanzamiento, entonces debo sacar 36 de lo restante, es decir de 1 35 35 A 36 A = 36 A, con lo cual se obtiene 1296 A; y si después de eso convenimos en que no haré 1 35 35 el tercer lanzamiento, entonces debo sacar 36 de lo restante, es decir de 36 A 1296 A = 1225 A, 1296 1225 A; si todavía se conviene en que no haga el cuarto lanzamiento con lo cual se obtiene 46656 1 1225 1225 debo sacar 36 de lo restante, es decir de 1296 A 46656 A = 42875 A, con lo cual se obtiene 46656 42875 A. Este proceso continuaría hasta que la suma de lo que le corresponde al jugador, 1679616 desde el primer paso hasta el último, sea mayor que 12 A. Como puede verse, así planteada, la solución de Fermat parece demasiado laboriosa, con números demasiado grandes; sin embargo, se puede simpli…car el proceso de una manera que parece obvia, pero se desconoce si Fermat lo hizo. En efecto, el razonamiento anterior se´puede escribir de la siguiente manera: Si trato de hacer un par de seises en n lanzamientos de un par de dados y, después que el dinero está en juego, convenimos en que no haré el primer lanzamiento, entonces es necesario 1 que saque del juego 36 del total, el cual denotaremos por A. Si después de eso, convenimos 1 en que no haré el segundo lanzamiento, entonces debo sacar 36 de lo restante, es decir de 1 35 A 36 A = 35 A, con lo cual se obtiene A; y si después de eso convenimos en que no haré 36 (36)2 el tercer lanzamiento, entonces debo sacar con lo cual se obtiene debo sacar 1 36 (35)2 A. (36)3 1 36 de lo restante, es decir de 35 A 36 35 A (36)2 de lo restante, es decir de (35)2 A (36)2 (35)2 A (36)3 = (35)3 A, (36)3 con lo cual se obtiene (35) A. (36)4 De aquí ya puede verse que, en el n-simo paso, le corresponde al jugador lo tanto, la no realización de los n lanzamientos le vale al jugador la suma: + 35 A (36)2 + (35)2 A (36)3 + (35)3 A (36)4 (35)2 A, (36)2 si todavía se conviene en que no haga el cuarto lanzamiento 3 1 A 36 = + + (35)n 1 A (36)n = 1 36 (35)n (36)n+1 1 35 36 A= 1 Así que se trata de obtener el más pequeño valor de n para el cual 1 1 , cuya solución es n = 25. 2 35 n 36 (35)n 1 . (36)n Por A 35 n 36 sea mayor que 312 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO Las soluciones de Huygens a los problemas resueltos por Pascal y Fermat las expuso en su libro De ratiociniis in ludo aleae (Del razonamiento en los juegos de azar), publicado en el año 1657. En ese libro encontramos la primera teorización del Cálculo de Probabilidades. Huygens tomó como punto de partida la siguiente hipótesis, la cual es básicamente una de…nición: En un juego, la posibilidad que se tiene de ganar alguna cosa tiene un valor tal que, si se pose ese valor, se puede uno procurar la misma posibilidad en un juego equitativo. Por un juego equitativo, Huygens entendía un juego que no va en detrimento de ninguno de los jugadores. Incluye el caso de un juego entre un número cualquiera de jugadores en el cual, o bien todos los jugadores tienen la misma posibilidad de ganar cierta cantidad, o bien cada uno de los jugadores tiene la misma posibilidad de ganar cierta cantidad que de perderla. De su hipótesis, Huygens dedujo tres proposiciones, de las cuales, las dos primeras son un caso particular de la siguiente: Proposición 12.1. Tener iguales posibilidades de obtener a1 , a2 , a3 , . . . , an tiene un valor de a1 +a2 +an3 + +an . Demostración Llamemos P a quien tiene iguales posibilidades de obtener a1 , a2 , a3 , . . . , an . Consideremos entonces un juego entre P y otros n 1 jugadores, que llamaremos Q2 , Q3 , Q4 , . . . , Qn , en el cual los n tienen las mismas posibilidades de ganar y cada uno apuesta a1 +a2 +an3 + +an . Quien gane se lleva todas las apuestas, es decir, a1 + a2 + a3 + + an . Evidentemente, éste es un juego equitativo. Si, además, para cada k 2 f2; 3; : : : ; ng, P acuerda con Qk que, si alguno de los dos gana el juego, el ganador le dará al otro la cantidad ak . Cada uno de estos acuerdos es equitativo y no va en detrimento de ninguno de los otros jugadores; así que el juego continúa siendo equitativo. Si P gana el juego, una vez que entrega lo acordado con cada uno de los otros jugadores, obtiene a1 :Si el juego lo gana Qk , P obtiene ak . Así que P tiene iguales posibilidades de obtener a1 , a2 , a3 , . . . , an , en un juego equitativo. Proposición 12.2. Tener r posibilidades de obtener a y s posibilidades de obtener b, las posibilidades siendo equivalentes, tiene un valor de ra+sb . r+s Demostración Llamemos P a quien tiene r posibilidades de obtener a y s posibilidades de obtener b. Consideremos entonces un juego entre P y otros r + s 1 jugadores, en el cual los r + s tienen las mismas posibilidades de ganar y cada uno apuesta ra+sb . Quien gane se lleva todas r+s las apuestas, es decir, ra + sb. Evidentemente, éste es un juego equitativo. Supongamos, además, que P acuerda con cada uno de s jugadores que, si alguno de los dos gana el juego, 12.1. ORIGEN DEL CÁLCULO DE PROBABILIDADES 313 el ganador le dará al otro la cantidad b; llamaremos a este conjunto de s jugadores, el grupo 1. Finalmente, supongamos también que, con cada uno del resto de los jugadores, P acuerda que, si alguno de los dos gana el juego, el ganador le dará al otro la cantidad a; llamaremos a este conjunto de r 1 jugadores, el grupo 2. Cada uno de estos acuerdos es equitativo y no va en detrimento de ninguno de los otros jugadores; así que el juego continúa siendo equitativo. Si P gana el juego, una vez que entrega lo acordado con cada uno de los otros jugadores, obtiene a. Si el juego lo gana algún jugador del grupo 1, P obtiene b, mientras que si lo gana alguno del grupo 2, obtiene a. Como los r + s jugadores tienen las mismas posibilidades de ganar, P tiene entonces r posibilidades de obtener a y s posibilidades de obtener b, en un juego equitativo. Podemos ver que la hipótesis de Huygens es básicamente la de…nición del concepto de esperanza de lo que se obtiene sobre lo que está en juego; es decir, la esperanza de una variable aleatoria de…nida como lo que obtiene el jugador. La solución que dio Huygens al problema planteado por el Chevalier de Méré, concerniente al lanzamiento de un par de dados, es la siguiente: Llamemos A a la cantidad que está en juego. Quien juega a un solo lanzamiento tiene 1 posibilidad de obtener A y 35 posibilidades de no obtener nada, así que el valor que tiene 1 este juego para ese jugador es 36 A. Quien juega a dos lanzamientos, en su primer lanzamiento tiene 1 posibilidad de obtener A 1 y 35 posibilidades de obtener 36 A (por el primer paso), así que el valor que tiene este juego 1 A) A+35( 36 71 para ese jugador es = (36) 2 A. 36 Quien a cuatro lanzamientos, obtiene A si sale par de seises en alguno de los primeros dos 71 lanzamientos, si no, por el segundo paso, obtiene (36) 2 A; pero, también por el segundo paso, hay 71 posibilidades de obtener par de seises en alguno de los dos primeros lanzamientos y (36)2 71 = 1225 posibilidades de no obtenerlo; por lo tanto, el valor que tiene este juego para ese jugador es 71A+1225 71 A (36)2 2 (36) = 178991 A. (36)4 Quien a ocho lanzamientos, obtiene A si obtiene par de seises en alguno de los primeros cuatro lanzamientos, si no, por el paso anterior, obtiene 178991 A; pero, también por el paso (36)4 anterior, hay 178991 posibilidades de obtener par de seises en alguno de los cuatro primeros lanzamientos y (36)4 178991 = 1500625 posibilidades de no obtenerlo; por lo tanto, el valor que tiene este juego para ese jugador es 178991A+1500625 (36)4 178991 A (36)4 = 569234516831 A. (36)8 Quien juega a 16 lanzamientos, obtiene A si sale par de seises en alguno de los primeros ocho lanzamientos; si no, por el paso anterior, obtiene 569234516831 A; ; pero, también por el (36)8 314 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO paso anterior, hay 569234516831 posibilidades de obtener par de seises en alguno de los ocho primeros lanzamientos y (36)8 569234516831 = 2251875390625 posibilidades de no obtenerlo; por lo tanto, el valor que tiene este juego para ese jugador es igual a 569234516831A+2251875390625 569234516831 A (36)8 (36)8 = 2887718335043904546501311 A. (36)16 Quien juega a 24 lanzamientos, obtiene A si sale par de seises en alguno de los primeros ocho lanzamientos; si no, por el paso anterior, obtiene 2887718335043904546501311 A; (36)16 pero, por el paso previo al anterior, hay 569234516831 posibilidades de obtener par de seises en alguno de los ocho primeros lanzamientos y (36)8 569234516831 = 2251875390625 posibilidades de no obtenerlo; por lo tanto, el valor que tiene este juego para ese jugador es igual a 569234516831A+2251875390625 2887718335043904546501311 A (36)16 (36)8 = 11033126465283976852912127963392284191 A. (36)24 Quien juega a 25 lanzamientos, obtiene A si sale par de seises en su primer lanzamiento; si no, por el paso anterior, obtiene 11033126465283976852912127963392284191 A; (36)24 por lo tanto, el valor que tiene este juego para ese jugador es igual a A+35 11033126465283976852912127963392284191 A (36)24 36 = 408611683992293747092011689842522621501 A. (36)25 Ahora bien: 11033126465283976852912127963392284191 (36)24 408611683992293747092011689842522621501 (36)25 0:491 4 0:5055 Por lo tanto, quien juega a 24 lanzamientos tiene más posibilidades de perder que de ganar, mientras que quien juega a 25 lanzamientos tiene más posibilidades de ganar que de perder. Huygens resolvió el problema del lanzamiento de un par de dados como se describió arriba, con los números que aparecen en los numeradores, sin buscar alguna simpli…cación; incluso, únicamente escribe los cocientes hasta el caso de quien juega a 4 lanzamientos y después sólo describe los pasos siguientes; pero llega a la misma conclusión que Pascal y Fermat; a saber, 12.1. ORIGEN DEL CÁLCULO DE PROBABILIDADES 315 que se requieren por lo menos 25 lanzamientos para tener más posibilidades de ganar que de perder. Más allá de los cálculos que realiza Huygens, los cuales pueden simpli…carse, podemos observar que en sus soluciones utiliza valores condicionales de un juego, lo cual, en terminología moderna, corresponden a esperanzas condicionales. El otro problema que el Chevalier de Méré planteó a Pascal es el siguiente: ¿Cómo deben repartirse las apuestas en un juego que se interrumpe? Por ejemplo, suponiendo que dos jugadores, A y B, apuestan 32 pesos cada uno en un juego que consiste de partidas consecutivas, en cada una de las cuales cada jugador tiene la misma posibilidad de ganarla, de tal manera que quien gane una partida acumula un punto y el juego es ganado por quien obtenga primero cuatro puntos, ¿cómo deben de repartirse las apuestas en caso de que el juego se interrumpa cuando el jugador A ha ganado dos puntos y B un punto? Este problema fue el que más interés provocó debido a que pocos lograron encontrar la solución correcta. La solución que dieron Pascal, Fermat y Huygens consistió en encontrar la probabilidad que cada jugador tiene de ganar el juego, partiendo de la situación en la cual se interrumpe. La solución de Fermat fue básicamente la siguiente: Al jugador A le faltan 2 partidas para ganar y al jugador B, 3 partidas, entonces el juego termina en a lo más 4 partidas adicionales. Denotando por la letra a el que A gane una partida y por la letra b el que gane B, los posibles resultados de 4 partidas son los siguientes: (a; a; a; a); (a; a; a; b); (a; a; b; a); (a; a; b; b); (a; b; a; a); (a; b; a; b); (a; b; b; a); (b; a; a; a); (b; a; a; b); (b; a; b; a); (b; b; a; a); (b; b; b; b); (b; b; b; a); (b; b; a; b); (a; b; b; b); (b; a; b; b) donde, por ejemplo, (b; b; a; b) signi…ca que A gana sólo la tercera partida y B las otras 3. De estos 16 posibles resultados, hay 11 que hacen ganar al jugador A, a saber, (a; a; a; a), (a; a; a; b), (a; a; b; a), (a; a; b; b), (a; b; a; a), (a; b; a; b), (a; b; b; a), (b; a; a; a), (b; a; a; b), (b; a; b; a) y (b; b; a; a). Los 5 restantes, (b; b; b; b), (b; b; b; a), (b; b; a; b), (a; b; b; b) y (b; a; b; b), hacen ganar al jugador B. Por lo tanto, las apuestas se deben repartir en la proporción 11 : 5. Podemos observar que en la solución de Fermat parece haber un problema, pues, para contar los casos en que gana cada jugador, considera que se juegan las 4 partidas y en algunos de esos casos el juego se termina antes de llegar a la cuarta. En realidad eso no representa problema ya que, por ejemplo, si A gana las dos primeras partidas (de las 4), en cuyo caso se acabaría ahí el juego, lo que hace Fermat es descomponer ese caso, es decir (a; a) en 4 casos, a saber, (a; a; a; a), (a; a; a; b), (a; a; b; a) y (a; a; b; b); el caso (a; a) tiene 1 posibilidad de 4; los cuatro casos juntos (a; a; a; a), (a; a; a; b), (a; a; b; a) y (a; b; a; a) tienen 4 posibilidades de 16; así que las proporciones son ambas iguales a 41 . Algo similar puede argumentarse en las otras situaciones. El caso (a; b; a) se descompone en (a; b; a; a) y (a; b; a; b); el caso (b; a; a) se descompone en (b; a; a; a) y (b; a; a; b); el caso (b; b; b) se descompone en (b; b; b; b) 316 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO y (b; b; b; a). El objetivo de esas descomposiciones es, como lo decía Fermat, "hacer todos los azares iguales", es decir, en lenguaje moderno, todos los casos igualmente probables. La solución de Fermat al problema de la división de apuestas deja ver que Fermat utilizaba ya lo que más tarde se llamaría la de…nición clásica de probabilidad, la cual se puede aplicar siempre que los posibles resultados se puedan considerar equiprobables: P (A) = # de posibles resultados que producen la ocurrencia de A # total de posibles resultados 12.2. Jacques Bernoulli En el año 1713 se publicó un libro de Jacques Bernoulli (1654-1705), titulado Ars Conjectandi (El arte de conjeturar) ([4]). En ese libro, Bernoulli sentó las bases para el desarrollo posterior del Cálculo de Probabilidades. Formuló métodos generales para resolver problemas de probabilidad, dando así una formulación teórica más sólida que la de Huygens. Esto además de enfrentar el problema de probar que la frecuencia relativa con la que se presenta un evento se aproxima a la probabilidad del mismo a medida que el número de observaciones se hace más grande; en esta búsqueda demostró el primero de los teoremas límite del Cálculo de Probabilidades, el cual daría la pauta para una investigación que se prolongó por más de 200 años, hasta llegar a una formulación general que culminaría hacia el año 1930. Bernoulli comenzó su libro con un análisis de los problemas resueltos por Huygens en su obra De ratiociniis in ludo aleae. Para esto tomó como base la hipótesis de Huygens, a la cual consideró como el principio fundamental del arte de conjeturar. Con respecto al problema planteado por el Chevalier de Méré, concerniente al lanzamiento de un par de dados, Bernoulli planteó el uso de letras, en lugar de números, con el objeto de obtener una solución general de ese problema: Consideremos el lanzamiento de uno o muchos dados, llamemos b al número de casos en los cuales, en cada lanzamiento, se obtiene éxito en lo que se propone, c al número de casos en los cuales no se obtiene éxito y a = b + c. Si P juega a ganar en un lanzamiento, tiene a c casos en los cuales tiene éxito, obteniendo entonces el total en juego, el cual considera igual a 1 para simpli…car; en cualquiera de los otros c casos, no obtiene nada, de manera que el valor del juego para P es igual a a a c . Si juega a dos lanzamientos, en el primero tiene a c casos en los cuales obtiene 1 = aa y c casos en los cuales regresa a la situación precedente; así (a c) a +c a c 2 2 a a que el valor del juego para P es igual a = a a2c . Si juega a tres lanzamientos, en a 2 el primero tiene a c casos en los cuales obtiene 1 = aa2 y c casos en los cuales regresa a la 2 2 (a c) a +c a c2 a2 a2 situación precedente; así que el valor del juego para P es igual a an n general, si juega a n lanzamientos, el valor del juego para P es igual a a anc . = a 3 c3 . a3 En Bernoulli agregó otro método para resolver este problema: Si P juega a obtener éxito en el primer lanzamiento, el valor del juego es igual a a a c = ab . Si juega a obtener éxito en el segundo lanzamiento, fallando en el primero, tiene c casos en los cuales regresa a la situación 12.2. JACQUES BERNOULLI 317 cb del inicio; así que el valor del juego es igual a aa = abc2 . Si juega a obtener éxito en el tercer lanzamiento, fallando en los dos primeros, tiene c casos en los cuales regresa a la situación precedente; así que el valor del juego es igual a éxito en el k-ésimo lanzamiento, fallando en los k c bc2 a a c bc2 a a 2 = bca3 . En general, si juega a obtener 1 primeros, el valor del juego es igual a k 1 = bcak . Por lo tanto, si juega a obtener éxito en por lo menos uno de n lanzamientos, el valor del juego es la suma de los n casos particulares descritos antes; es decir: b a + bc a2 + bc2 a3 + + bcn an 1 = b a bcn 1 c an a 1 ac = a n cn an Bernoulli agregó un tercer método: El lanzamiento de un dado n veces es equivalente a lanzar una vez n dados. Consideremos entonces n dados, cada uno con a caras, de las cuales hay c en las que no se obtiene éxito. El número de casos que se pueden obtener al lanzar los n dados es igual a an , de los cuales hay cn casos en que no se obtiene éxito con ninguno de ellos; así que hay an cn casos en los cuales se obtiene éxito por lo menos con uno de los dados, en cuyo caso P obtiene 1, y cn casos en los cuales obtiene 0; por lo tanto, el valor del n n juego es igual a a anc . En el tercer método de Bernoulli, aunque, al igual que Huygens, utiliza esperanzas, se puede ver claramente la de…nición clásica de probabilidad, además de que resuelve el problema de la manera más simple, razonando sobre los casos en que no se obtiene éxito. Este hecho muestra que no siempre la solución más simple es la primera que se ocurre e incluso puede no ser evidente; ni Pascal, ni Fermat, ni Huygens encontraron esta forma simple de resolver el problema planteado. Lo inmediato o simple de una solución a un problema requiere, a veces, de ensayos de solución y de maduración de determinados conceptos. En el segundo método vemos el uso de la propiedad de la aditividad …nita de la función de probabilidad. Huygens consideró otro problema con dados, el cual, al ser generalizado por Bernoulli, adquiriría una importancia central en el desarrollo del Cálculo de Probabilidades: ¿Cuántos dados se requieren lanzar para que sea más favorable obtener por lo menos dos seises? Con relación a este problema, Bernoulli encontró que la probabilidad de obtener exactamente k 5 n k k seises en n lanzamientos de un dado es igual a nk 16 . Este resultado es de 6 fundamental importancia en su trabajo pues con él se puede calcular la probabilidad de obtener una frecuencia de seises igual a nk en n lanzamientos de un dado y de aquí encontrar una relación entre la frecuencia de ocurrencia de un evento y su probabilidad, para obtener lo que se llama el Teorema de Bernoulli. Otro problema de gran importancia que planteó y resolvió Huygens en su libro es el siguiente: Dos jugadores, P y Q, juegan a lanzar alternadamente un par de dados. El juego comienza lanzando P el par de dados, con la condición de que si obtiene una suma igual a 6, gana el 318 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO juego; en caso contrario, el juego continúa lanzando Q el par de dados, con la condición de que si obtiene una suma igual a 7, gana el juego; en caso contrario el juego continúa lanzando P el par de dados bajo las condiciones iniciales. ¿Cuáles son las respectivas probabilidades que cada jugador tiene de ganar el juego? La importancia de ese problema radica en que se re…ere a un experimento el cual admite una in…nidad de posibles resultados, rebasando el marco de la de…nición clásica de probabilidad. La solución de Huygens fue como sigue: Sea x el valor del juego para Q y a el total de las apuestas. El valor del juego para P es entonces a x. Sea además y el valor del juego para Q cuando sea su turno de lanzar los dados. Al iniciarse el juego, Q tiene 5 posibilidades de obtener 0 (cuando P obtiene una suma igual a 6) y 31 posibilidades de obtener y, por lo tanto, x = 31y . Por otra parte, cada 36 vez que Q tenga el turno para lanzar los dados, tiene 6 posibilidades de obtener a y 30 de 31 obtener x, por lo tanto, y = 6a+30x . Resolviendo el sistema de ecuaciones se obtiene x = 61 a, 36 de manera que los valores del juego para P y Q, respectivamente, están en la proporción 30 : 31. Obsérvese que la solución de Huygens se basa en que si P y Q no ganan el juego en su primera oportunidad, se vuelve a la situación inicial. Bernoulli resolvió este problema estableciendo una progresión geométrica para la probabilidad que cada jugador tiene de ganar el juego: En lugar de dos jugadores, supongamos que hay una in…nidad, cada uno de los cuales tiene una oportunidad para ganar, lanzando consecutivamente el par de dados, con la condición de que el primer jugador de orden impar que obtenga 6 puntos, o el primer jugador de orden par que obtenga 7 puntos, gana el juego. Denotemos por b y c al número de casos favorables y desfavorables, respectivamente, a la obtención de 6 puntos al lanzar el par de dados; por e y f al número de casos favorables y desfavorables, respectivamente, a la obtención de 7 puntos y por a al total de casos. Las posibilidades que tiene cada jugador de ganar el juego están dadas por: Jugador 1: b casos de un total de a casos. Jugador 2: ce casos de un total de a2 casos. Jugador 3: cf b casos de un total de a3 casos. Jugador 4: cf ce casos de un total de a4 casos. Jugador 5: cf cf b casos de un total de a5 casos. .. . 12.2. JACQUES BERNOULLI 319 Si suponemos ahora que todos los jugadores de orden impar son sustituidos por P y todos los jugadores de orden par son sustituidos por Q, las suertes de P y Q están dadas, respectivamente, por: b a ce a2 + cf b a3 + + cf ce a4 c2 f 2 b a5 + + c2 f 2 ce a6 c3 f 3 b a7 + + c3 f 3 ce a8 = + 1 b a cf a2 = 1 = ce a2 cf a2 ab a2 cf = ce a2 cf Por lo tanto, la suerte de P es a la de Q como ab es a ce; es decir, como (36) (5) es a (31) (6); o, de manera equivalente, como 30 es a 31. Bernoulli estaba estableciendo entonces que la probabilidad de que un jugador gane el juego es igual a la suma de las probabilidades de que gane en cada uno de los posibles turnos que tiene, los cuales son una in…nidad. En otras palabras, está implícita en el resultado la propiedad de - aditividad de la función de probabilidad. El método de Bernoulli fue retomado un poco más adelante, en el año 1718, por Abraham de Moivre en su libro ([29]), sin embargo, aunque aparentemente era conocido, no se utilizó durante el resto del siglo XVIII y todo el XIX, de manera que la propiedad de -aditividad de la función de probabilidad quedó relegada en la sistematización de Laplace, la cual perduró hasta principios del siglo XX. El poco interés que atrajo el método de Bernoulli puede no haber sido circunstancial, sino que parece obedecer a la concepción de la probabilidad que está implícita en su formulación clásica, la cual está basada en la equiprobabilidad de los diferentes resultados de un experimento aleatorio, cuyo número debe entonces ser …nito, de manera que los problemas donde se realizan repeticiones inde…nidas de experimentos aleatorios únicamente pueden tratarse mediante aproximaciones a través de sus correspondientes límites. Los problemas considerados arriba, donde el número de casos posibles es in…nito, sin ser de probabilidades continuas, caen dentro de esta categoría de problemas, que no rebasan el marco clásico. En efecto, la solución de Bernoulli al problema planteado por Huygens, por ejemplo, puede plantearse como una distribución límite considerando las probabilidades que cada jugador tiene de ganar en los primeros 2n lanzamientos y haciendo tender luego n a 1. Si llamamos Pn (A) y Pn (B) a estas probabilidades se obtiene, utilizando la notación mencionada más arriba: P P 31 k 1 30 k 1 5 31 n 30 n ) ( 36 ) 36 = 30 1 ( 36 ) ( 36 ) Pn (A) = nk=1 p(! 2k 1 ) = nk=1 ( 36 61 P P 31 k 30 k 1 6 Pn (B) = nk=1 p(! 2k ) = nk=1 ( 36 ) ( 36 ) 36 = 31 1 ( 31 )n ( 30 )n 61 36 36 Veremos más adelante que efectivamente, incluso todavía en los 20’s del siglo XX se daba esa interpretación a la solución de Bernoulli. Las soluciones de Bernoulli a los problemas resueltos por Huygens representaron un avance signi…cativo en el camino de dotar al Cálculo de Probabilidades de una teoría que permitiera ir resolviendo problemas cada vez más complejos. Sin embargo, la aportación central de 320 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO Bernoulli la encontramos en la última parte de su libro, donde planteó un problema de singular importancia, el cual sería la base para el desarrollo posterior de la teoría durante un periodo de más de 200 años. Fue a partir de ese resultado que el Cálculo de Probabilidades comenzó a ganarse un lugar importante dentro de la Matemática. Escribió Bernoulli en su libro: “Parece que, para hacer una hipótesis correcta sobre un hecho cualquiera, sólo es necesario calcular exactamente el número de casos posibles y, entonces, determinar las veces que puede posiblemente ocurrir un caso más que otro. Pero aquí, inmediatamente, surge nuestra mayor di…cultad, porque este procedimiento se puede aplicar únicamente a muy pocos fenómenos; de hecho, casi exclusivamente a los relacionados con los juegos de azar ... pero hay otro camino que nos conduce a lo que buscamos, y nos permite, por lo menos, hallar a posteriori lo que no podemos determinar a priori, o sea, averiguando a partir de los resultados observados en numerosos casos similares. Ha de suponerse, a este respecto, que, bajo condiciones similares, la ocurrencia (o no ocurrencia) de un suceso en el futuro seguirá la misma pauta que se ha observado para sucesos iguales en el pasado ... Lo que aún tiene que ser averiguado es si, cuando se aumenta el número de observaciones, también se sigue aumentando la probabilidad de que la proporción registrada de casos favorables y desfavorables se aproxime a la verdadera relación ... Este es el problema que he decidido publicar aquí, después de haber trabajado sobre él durante veinte años.” ([72]) Obsérvese que, en su razonamiento, Bernoulli supone que en los fenómenos aleatorios existe una regularidad, a saber, que la frecuencia relativa con la que se observa que ocurre un evento, se mantiene en el futuro como se observó en el pasado. A esta propiedad la llamaremos principio de regularidad de la frecuencia relativa con la que ocurre un evento. El resultado al que hace referencia Bernoulli en su libro es el ahora llamado teorema de Bernoulli, el cual, utilizando terminología moderna, se puede enunciar como sigue: Sea E un experimento aleatorio que admite t posibles resultados equiprobables y A un evento relativo a ese experimento, para el cual hay r resultados que favorecen su ocurrencia. Consideremos un nuevo experimento aleatorio consistente en la repetición inde…nida del experimento E, de tal manera que cada repetición es independiente de las otras. Sea Xnt el número de veces que ocurre el evento A en las primeras nt repeticiones del experimento, entonces: l mn 1 P Xntnt rt > 1t = 0. 12.2. JACQUES BERNOULLI 321 Sin modi…car lo esencial del razonamiento de Bernoulli para demostrar este resultado, se puede enunciar de la siguiente manera: Sea E un experimento aleatorio que admite t posibles resultados equiprobables y A un evento relativo a ese experimento, para el cual hay r resultados que favorecen su ocurrencia. Consideremos un nuevo experimento aleatorio consistente en la repetición inde…nida del experimento E, de tal manera que cada repetición es independiente de las otras. Sean Xn el número de veces que ocurre el evento A en las primeras n repeticiones del experimento y " un número positivo arbitrario, entonces: l mn 1 P Xnn rt > " = 0. El resultado de Bernoulli hizo patente que en el modelo teórico que se estaba desarrollando se da efectivamente una correspondencia entre las probabilidades y las frecuencias con que se observan los posibles resultados de un suceso azaroso. Este resultado y otros del mismo tipo que le siguieron sentaron las bases teóricas para aplicar el Cálculo de Probabilidades al estudio de datos estadísticos. Muy pronto esta teoría comenzó a aplicarse al tratamiento de datos como los acumulados en tablas de mortalidad y natalidad. La idea de la demostración de Bernoulli es la siguiente: En primer lugar demostró que, para cualquier k 2 f0; 1; 2; : : : ; ng, se tiene: P [Xn = k] = n r k sn k tn k = n k r k t s n k . t k n k s Después demostró que los términos tk = nk rt tienen la propiedad de que crecen t r con k hasta alcanzar su máximo valor cuando (n + 1) t 1 k (n + 1) rt (si (n + 1) rt es un número entero, el valor máximo se alcanza en dos valores de k), después de lo cual decrecen con k. Finalmente, demostró que, para cualquier " > 0, se tiene la siguiente relación: l mn P fk2N:k2[n rt 1 P fk2N:k2[0;n rt k n k (nk)( rt ) ( st ) k n (n)( rt ) ( st ) n")[(n r t +n";n]g k n";n r t +n"]g k =1 Es decir, la suma de los términos que se encuentran alrededor del término máximo (en un intervalo de radio aproximadamente igual a n") es mucho mayor que la suma de los términos que están fuera de ese rango, a tal grado que esta última suma es despreciable. Esto se puede ver claramente con un ejemplo: Consideremos el caso en que t = 20 y r = 5. 1 Tomando " = 20 , estaremos cerca del límite de la sumatoria tomando n = 1000, en cuyo caso el término máximo se obtiene cuando k = 250, y se tiene: 322 P = 12. TEORÍA DE LA PROBABILIDAD Xn n r t P300 k=200 " = 1000 k P 1 k 4 fk2N:k2[250 1000";250+1000"]g ( 34 )1000 k DESARROLLO HISTÓRICO n k r k t s n k t = 0:99977. 1 Tomando " = 100 , estaremos cerca del límite de la sumatoria tomando n = 10000, en cuyo caso el término máximo se obtiene cuando k = 2500, y se tiene: P k s n k " = fk2N:k2[2500 10000";2500+10000"]g nk rt P Xnn p t = P2600 k=2400 10000 k 1 k 4 ( 34 )10000 k = 0:979 72. En la siguiente …gura se encuentran gra…cados los valores de los términos tk para el caso 1 " = 20 y n = 1000. n = 1000, p = 41 , " = 1 20 Así que, como puede verse, el teorema de Bernoulli es un resultado de Cálculo Combinatorio. Escrito en términos de probabilidades, el resultado de Bernoulli se puede escribir como sigue: l mn P [j Xnn 1 P Xn [j n r t r t j "] =1 j>"] Considerando que la suma del numerador y el denominador de la expresión anterior es igual a 1, se sigue que: l mn 1 P Xn n r t >" =0 12.3. TEOREMA DE DE MOIVRE-LAPLACE 323 12.3. Teorema de de Moivre-Laplace La publicación del teorema de Bernoulli hizo renacer el interés por el Cálculo de Probabilidades, el cual, después de la publicación del trabajo de Christiaan Huygens, había quedado relegado, siendo visto únicamente como una curiosidad que tenía que ver exclusivamente con los juegos de azar. En la búsqueda de mejorar el resultado de Bernoulli, Abraham de Moivre (1667-1754), demostró en 1733 un resultado que también sería de gran importancia en el desarrollo del Cálculo de Probabilidades. En ese año se publicó su artículo titulado Approximatio ad Summam Terminorum Binomii (a + b)n in Seriem expansi ([28]), en el cual expone un resultado que conduciría a lo que ahora se conoce como el Teorema Central del Límite. El artículo fue publicado en latín y circuló en forma privada. En el año 1738 ese artículo fue incluido en la segunda edición de su libro The Doctrine of Chances ([29]) con el título A Method of approximating the Sum of the Terms of the Binomial (a + b)n expanded into a Series, from whence are deduced some practical Rules to estimate the Degree of Assent which is to be given to Experiments. Con terminología y notación moderna, el resultado de de Moivre puede enunciarse de la siguiente manera ([42]): Teorema de de Moivre. Si d es un número real positivo del orden de p n y, para cada n 2 N, Xn es una variable aleatoria con distribución binomial de parámetros n y p = 12 , entonces, para n grande, se tiene: R pdn 2y2 p4 P d Xn 12 n d e dy. 0 2 p Tomando d = 12 x n, donde x es un número real positivo, la aproximación de de Moivrei toma la siguiente forma: h R 1 x 2y2 R x 1 z2 Xn 12 n 2 p4 p2 e 2 dz. P x x e dy = 1p 0 0 n 2 2 2 Así que podemos expresar eliresultado como sigue: h Rx 1 2 Xn 12 n l mn 1 P x x = p22 0 e 2 z dz. 1p n 2 Mencionaba de Moivre que su resultado se puede generalizar facilmente para cualquier valor de p. Esta generalización fue expuesta por Pierre Simon Laplace (1749-1827) en su libro Théorie Analytique des Probabilités, publicado en el año 1812 ([54], [55]). En notación moderna, el resultado de Laplace puede escribirse de la siguiente manera ([42]): Teorema depde Moivre-Laplace. Si d es un número real positivo del orden de n y, para cada n 2 N, Xn es una variable aleatoria con distribución binomial de parámetros n y p, entonces, para n grande, se tiene: d R p2np(1 2 p) P [ d Xn np d] p2 0 e y dy. 324 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO p Tomando d = x np (1 p), donde x es un número real positivo, la aproximación de Laplace toma la siguiente forma: R px2 y2 Rx 1 2 p2 P x pXn np e dy = p22 0 e 2 z dz. x 0 np(1 p) Así que podemos expresar el resultado como sigue: Rx 1 2 l mn 1 P x pXn np x = p22 0 e 2 z dz. np(1 p) En su libro Laplace realizó una síntesis del estado del Cálculo de Probabilidades en su época, agregando sus aportaciones. Expuso ahí de manera explícita la de…nición clásica de probabilidad: “Se ha visto en la introducción que la probabilidad de un evento es el cociente del número de casos que le son favorables entre el número de todos los casos posibles, cuando nada hace pensar que alguno de esos casos debe ocurrir en lugar de los otros, lo cual los hace, para nosotros, igualmente posibles. La justa apreciación de esos casos diversos es uno de los puntos más delicados del Análisis de los azares.” En seguida enunció y demostró lo que ahora se denomina la propiedad de la aditividad …nita de la función de probabilidad: “Si todos los casos no son igualmente posibles, se determinará sus posibilidades respectivas, y entonces la probabilidad del evento será la suma de las probabilidades de cada caso favorable.” Después consideró el caso en que se tienen varios eventos independientes y mostró que la probabilidad de ocurrencia de todos ellos juntos es igual al producto de sus probabilidades. Finalmente, en cuanto al cálculo de probabilidades de eventos, enunció y demostró lo que se conoce ahora como la regla del producto: “Si los eventos simples están relacionados entre ellos de manera que la suposición de la ocurrencia del primero in‡uye en la probabilidad de ocurrencia del segundo, se tendrá la probabilidad del evento compuesto, determinando primero la probabilidad del primer evento y después la probabilidad de que el segundo ocurra dado que el primer evento ha ocurrido.” A pesar de este desarrollo, el azar parecía un concepto que en algún momento perdería importancia pues, para los pensadores de la época, sólo era producto de nuestra ignorancia. Laplace mismo formuló esta idea de manera muy clara, en su libro Ensayo …losó…co sobre las probabilidades, publicado en el año 1814 ([56]). Dice ahí que: 12.4. EL CÁLCULO DE PROBABILIDADES DURANTE LA SEGUNDA MITAD DEL SIGLO XIX 325 “Todos los acontecimientos, aun aquellos que por su insigni…cancia parecen no depender de las grandes leyes de la naturaleza, constituyen una sucesión tan necesaria como las revoluciones del Sol. Ignorando los vínculos que los ligan al sistema entero del universo, se los ha hecho depender de causas …nales o del azar, según que ocurrieran y se sucedieran con regularidad o sin orden aparente; pero esas causas imaginarias han retrocedido gradualmente con los límites de nuestros conocimientos y desaparecen por completo frente a la sana …losofía que no ve en ellas más que la expresión de nuestra ignorancia respecto de las verdaderas causas ... una inteligencia que en un determinado instante pudiera conocer todas las fuerzas que impulsan la naturaleza y la respectiva posición de los seres que la componen y que, además tuviera la su…ciente amplitud para someter esos datos al análisis, incluiría en una sola fórmula los movimientos de los mayores cuerpos del universo y del más ligero átomo; nada le sería incierto y tanto el pasado como el futuro estarían en su presencia.” 12.4. El Cálculo de Probabilidades durante la segunda mitad del siglo XIX La teoría matemática de la probabilidad continuó desarrollándose y fue surgiendo un nuevo concepto, de gran importancia, el de variable aleatoria: Una variable aleatoria es una variable cuyo valor es aleatorio, depende del resultado del experimento aleatorio en consideración. Lo que interesa calcular de una variable aleatoria X es la probabilidad con la que toma cada uno de sus posibles valores o la probabilidad de que tome valores en un determinado intervalo. A ese conjunto de probabilidades se le llama la distribución de la variable aleatoria. Dos cantidades de interés para el estudio de una variable aleatoria son su esperanza y su varianza. La primera expresa el valor teórico del promedio de los valores que toma la variable aleatoria cuando el experimento aleatorio correspondiente se repite muchas veces. La segunda mide la dispersión de los valores que toma la variable aleatoria, es decir, mide el alejamiento de los valores de la variable aleatoria con respecto a su esperanza. Si una variable aleatoria X toma valores únicamente en un conjunto …nito o in…nito numerable, su esperanza se de…ne de la siguiente manera: P E [X] = x xP [X = x]. La varianza de X se suele denotar por 2 (X) = E (X E [X])2 . 2 (X) y se de…ne de la siguiente manera: 326 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO Continuando con el estudio de los teoremas de Bernoulli y de de Moivre, se obtuvieron generalizaciones de esos resultados. En particular, la “escuela rusa” hizo grandes aportes a partir de la segunda mitad del siglo XIX: En el año 1867, Pafnuty Lvovich Chebyshev (1821-1894) demostró una forma general del teorema de Bernoulli (Ley débil de los grandes números) ([18]): Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas, de varianza …nita. Entonces, para cualquier " > 0, se tiene: n l mn 1 P X1 +:::+X > " = 0, n donde es la esperanza común de X1 ; X2 ; : : :. En el año 1900, Aleksandr Mikhailovich Lyapunov (1857-1918) demostró una forma general del teorema de de Moivre (Teorema Central del Límite) ([63]): Si X1 ; X2 ; : : : es una sucesión de variables aleatorias independientes e idénticamente …nito), entonces: h distribuidas (con itercer momento R b 1 y2 X1 + +X n 1 n p < b = p2 a e 2 dy, l mn 1 P a < n donde y X1 ; X2 ; : : :. 2 son la esperanza y varianza común, respectivamente, de Chebyshev y Lyapunov demostraron estos resultados asumiendo que las variables aleatorias son discretas, es decir, que toman valores únicamente en un conjunto …nito o in…nito numerable. Además, durante la segunda mitad del siglo XIX surgió la Mecánica Estadística con los trabajos de Krönig, Clausius, Maxwell y Boltzmann, donde la Teoría de la Probabilidad se constituyó como la herramienta fundamental para el estudio de sistemas con muchas partículas. También fue en ese periodo cuando surgió la teoría de Mendel sobre la herencia y la teoría de Darwin sobre la evolución de las especies, la primera fundada en un modelo probabilístico y la segunda planteando que el surgimiento de nuevas especies se realiza al azar. Más aún, los estudios de datos crecieron a un ritmo acelerado con los trabajos de Bienaymé, Quetelet y Galton, entre otros. De esta forma, a …nales del siglo XIX el azar y la Teoría de la Probabilidad eran ya parte inseparable del cuerpo cientí…co de la época. 12.5. El Cálculo de Probabilidades durante los primeros 30 años del siglo XX A pesar del desarrollo que tenía el Cálculo de Probabilidades a …nales del siglo XIX, no había una de…nición satisfactoria de la probabilidad. Eso es lo que a…rmaba Henri Poincaré 12.5. EL CÁLCULO DE PROBABILIDADES DURANTE LOS PRIMEROS 30 AÑOS DEL SIGLO XX 327 (1854-1912) en la primera frase del capítulo I de su libro de probabilidad, publicado en 1896 ([75]): “No se puede dar una de…nición satisfactoria de la probabilidad.” En su libro, enunció la de…nición clásica de probabilidad: “La probabilidad de un evento es el cociente de los casos favorables a un evento y el número total de casos posibles”, aclarando mediante algunos ejemplos que se debe agregar a dicha de…nición la condición de que todos los casos sean igualmente probables. Comentó entonces que: “La de…nición completa de la probabilidad es una especie de petición de principio: ¿cómo reconocer que todos los casos son igualmente probables? Aquí, una de…nición matemática no es posible; deberemos, en cada aplicación, hacer convenciones, decir que consideramos tal y tal caso como igualmente probables. Esas convenciones no son completamente arbitrarias, pero escapan al espíritu del matemático que no tendrá más que examinarlas, una vez que son admitidas. Así, todo problema de probabilidad ofrece dos periodos de estudio: el primero, metafísico por así decirlo, el cual legitima tal o cual convención; el segundo, matemático, que aplica a esas convenciones las reglas del cálculo.” En cuanto al azar, de ser pensado únicamente un producto de nuestra ignorancia pasó a conceptualizarse como algo objetivo. En el mismo libro, Poincaré expresó claramente este cambio: “... en la teoría cinética de los gases, se encuentran las conocidas leyes de Mariotte y de Gay-Lussac, gracias a la hipótesis de que las velocidades de las moléculas gaseosas varían irregularmente, es decir, al azar. Las leyes observables serían mucho menos simples, dirían los físicos, si las velocidades estuvieran arregladas por alguna ley elemental simple, si las moléculas estuvieran, como se dice, organizadas, si obedecieran a alguna disciplina. 328 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO Es gracias al azar, es decir, gracias a nuestra ignorancia, que podemos concluir; y entonces, si la palabra azar es simplemente un sinónimo de ignorancia, ¿qué querría decir eso? ¿Se traduciría entonces como sigue? Me pide usted que le prediga los fenómenos que van a producirse. Si, por desgracia, conociera las leyes de esos fenómenos, podría lograrlo únicamente mediante cálculos inextricables y debería renunciar a responderle; pero, como tengo la suerte de ignorarlas, le voy a responder en seguida. Y, lo más extraordinario, es que mi respuesta será correcta. Se requiere entonces que el azar sea más que el nombre que le damos a nuestra ignorancia.” Agregó Poincaré en su libro básicamente lo que ya había formulado Laplace como las bases del Cálculo de Probabilidades. Decía Poincaré que el Cálculo de Probabilidades tiene como base dos teoremas: el teorema de las probabilidades totales y el teorema de las probabilidades compuestas. P (A _ B) = P (A) + P (B) P (A ^ B). P (A ^ B) = P (B j A) P (A). Donde A _ B representa la ocurrencia de alguno de los dos eventos A y B (incluyendo la ocurrencia de ambos), A ^ B representa la ocurrencia simultánea de los eventos A y B y P (B j A) es la probabilidad de ocurrencia del evento B dado que el evento A ocurre. En particular, si A y B no pueden ocurrir simultáneamente, entonces: P (A _ B) = P (A) + P (B). De manera más general, si A1 ; A2 ; : : : ; An son eventos tales que ningún par de ellos puede ocurrir simultánemente, entonces: P (A1 _ A2 _ : : : _ An ) = P (A1 ) + P (A2 ) + + P (An ). Como lo mencionamos antes, a esta propiedad se le conoce como la propiedad de la aditividad …nita. Poincaré recogió en su libro las inquietudes de su época acerca del Cálculo de Probabilidades: No estaba bien fundamentada. Esta era una inquietud que había no únicamente en relación a la Probabilidad. En el Congreso Internacional de Matemáticas de 1900, David Hilbert (1862-1943) expresó esas inquietudes de la siguiente manera ([48]): 12.5. EL CÁLCULO DE PROBABILIDADES DURANTE LOS PRIMEROS 30 AÑOS DEL SIGLO XX 329 “Pienso que en cualquier lugar en donde se presenten ideas matemáticas, sea en Filosofía, sea en Geometría, sea en Física, se plantea el problema de la discusión de los principios fundamentales, base de esas ideas, y del establecimiento de un sistema simple y completo de axiomas.” “Las investigaciones sobre los principios fundamentales de la geometría nos conducen a plantear este problema: Tratar con base en ese modelo las ramas de la Física donde las Matemáticas juegan actualmente un papel preponderante; esas ramas de la ciencia son, antes que cualesquiera otras, el Cálculo de Probabilidades y la Mecánica.” La invención de la Teoría de la Medida a principios del siglo XX vino a resolver el problema de la fundamentación del Cálculo de Probabilidades, surgiendo así un cuerpo teórico, puramente matemático, el cual constituye que ahora podemos llamar la Teoría de la Probabilidad. Inmediatamente después del surgimiento de la teoría de la medida de Lebesgue, se dio una relación con el Cálculo de Probabilidades. En 1904 ([8]), Émile Borel (1871-1956) planteó que la integral clásica (de Riemann) es insu…ciente para tratar algunos problemas de probabilidad : Si se sabe que un número x está comprendido entre 0 y 1, ¿cuál es la probabilidad de que x sea un número racional? Utilizando la integral de Riemann, el problema no tiene solución. Utilizando la integral de Lebesgue, la respuesta es 0. En un inicio la identi…cación de la probabilidad con una medida se hizo únicamente en los problemas que caían dentro de un esquema geométrico. En el año 1909, se publicó un articulo de Borel el cual abrió una polémica acerca de las propiedades que debían pedirse a la función probabilidad en una formulación axiomática.En ese artículo, titulado Les probabilités dénombrables et leurs applications arithmétiques, decía Borel ([9]): 330 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO “Se distinguen generalmente, en los problemas de probabilidad, dos categorías principales, dependiendo de que el número de casos posibles sea …nito o in…nito: la primera categoría constituye lo que se llama las probabilidades discontinuas, o probabilidades en el dominio del discontinuo, mientras que la segunda categoría comprende las probabilidades continuas o probabilidades geométricas. Tal clasi…cación aparece como incompleta cuando se consideran los resultados de la Teoría de Conjuntos; entre la potencia de los conjuntos …nitos y la potencia del continuo se encuentra la potencia de los conjuntos numerables; me propongo mostrar brevemente el interés respecto a las cuestiones de probabilidad en cuyo enunciado intervienen tales conjuntos; las llamaré, para abreviar, probabilidades numerables.” Enunciaremos el teorema de Borel utilizando el concepto de ensayo de Bernoulli, el cual se de…ne como un experimento aleatorio que admite únicamente dos posibles resultados: éxito y fracaso. Teorema de Borel. Consideremos una sucesión in…nita numerable de ensayos de Bernoulli y sea pn la probabilidad de éxito en el ensayo n. Denotemos por A1 al evento: A1 : Se obtiene una in…nidad de éxitos. Entonces: P Si la serie 1 n=1 pn es convergente, P (A1 ) = 0. P Si los ensayos de Bernoulli son independientes y la serie 1 n=1 pn es divergente, P (A1 ) = 1. En su razonamiento, Borel utilizó algunas de las propiedades que son equivalentes a la aditividad; sin embargo él consideraba que la -aditividad no podía considerarse como una propiedad de cualquier función de probabilidad. Para fundamentar su a…rmación, daba el siguiente ejemplo: “Supongamos, por ejemplo, que existe una manera de elegir de entre la colección in…nita de números enteros, uno de ellos al azar, de manera que cada uno de ellos tenga la misma probabilidad, esta probabilidad deberá entonces ser nula, pero su suma debe ser igual a 1.” El teorema de Borel tiene ahora una formulación más general, conocida como lema de BorelCantelli. Obsérvese que el teorema de Borel rebasó el marco clásico ya que planteó el cálculo de la probabilidad de eventos cuya ocurrencia o no ocurrencia depende de los resultados de una in…ninidad de ensayos de Bernoulli. El artículo de Borel causó un gran impacto en su época sobre todo por una aplicación de sus resultados para deducir una propiedad importante de los números reales. 12.5. EL CÁLCULO DE PROBABILIDADES DURANTE LOS PRIMEROS 30 AÑOS DEL SIGLO XX 331 Sea q es un número natural mayor que 1 y, dado x 2 (0; 1), expresemos x en la base q: x= P1 bj j=1 q j , donde cada bj es un entero no negativo menor que q. Dado un número b 2 f0; 1; 2; : : : ; q 1g denotemos por fn (b) a la fracción que resulta de dividir entre n el número de veces que aparece b en los primeros n términos del desarrollo de x en base q. Cuando l mn 1 fn (b) existe, llamemos a ese límite frecuencia total de b en x. P1 bj Se dice que x = j=1 q j es normal con respecto a la base q si dado cualquier número b 2 f0; : : : ; q 1g, la frecuencia total de b en x existe y su valor es igual a 1q . Se dice que x 2 (0; 1) es absolutamente normal si es normal con respecto a cualquier base q 2 f2; 3; : : :g. Borel demostró entonces el siguiente resultado: Para cada j 2 N, seleccionemos al azar un elemento del conjunto f0; : : : ; q 1g y de…namos P bj x como la serie 1 j=1 q j . Entonces, la probabilidad de que x sea normal con respecto a la base q es igual a 1. El resultado de Borel puede expresarse en la forma siguiente: Sea E un experimento aleatorio y A un evento relativo a ese experimento, de probabilidad igual a p. Consideremos un nuevo experimento aleatorio consistente en la repetición inde…nida del experimento E, de tal manera que cada repetición es independiente de las otras. Sea Xn el número de veces que ocurre el evento A en las primeras n repeticiones del experimento, entonces P l mn 1 Xnn = p = 1. La forma general de este resultado se conoce como Ley Fuerte de los Grandes Números. Más tarde, Hausdor¤ formuló y demostró el resultado de Borel,acerca de los números normales, utilizando La Teoría de la Medida: Sea q es un número natural mayor que 1, entonces la medida del conjunto de puntos en el intervalo (0; 1) que son normales con respecto a la base q, es igual a 1: Como corolario se tiene que la medida del conjunto de puntos en el intervalo (0; 1) que son absolutamente normales es igual a 1. Sin embargo, hacia el año 1914 todavía no se identi…caba a cualquier función de probabilidad con una medida pues ni siquiera estaba desarrollada la teoría general de la medida en espacios abstractos. En ese momento se contaba ya con la teoría de integración de Lebesgue y la correspondiente teoría de la medida en Rn y eran entonces éstas las únicas medidas que al 332 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO normalizarlas se consideraban probabilidades. Esto es lo que hizo Felix Hausdor¤ en su libro, publicado en 1914 ([?]). Ahí consideró que si A y B son dos conjuntos medibles de medida …nita y A B, entonces la medida de A dividida entre la medida de B puede considerarse como la probabilidad de que un punto que se selecciona en el conjunto B pertenezca al conjunto A. También en ese libro Hausdor¤ demostró el teorema de Borel sobre los números normales dentro del marco de la teoría de la medida. En el libro de Hausdor¤ de 1914 se considera a la probabilidad como un ejemplo y una aplicación de la teoría de la medida. Hausdor¤ no identi…caba a una probabilidad con una medida, pero mostró que una medida normalizada tiene todas las propiedades de una probabilidad. El libro de Hausdor¤ fue durante mucho tiempo la referencia estándar para la teoría de conjuntos; entonces la conexión entre la probabilidad y la teoría de la medida puede considerarse como bien establecida en la literatura matemática desde 1914. Por otra parte, en 1913, Johann Radon había ya desarrollado una teoría general de la medida en Rn ([76]) y en 1915, con base en el trabajo de Radon, Maurice René Fréchet extendió la teoría de la medida a espacios abstractos, de…niendo las funcionales aditivas ([36]). De esta manera, se puede decir que, en ese momento, aunque posteriormente todavía se demostrarían algunos resultados importantes, ya se contaba con lo básico de una teoría general de la medida. Sin embargo, hacia 1915, aunque Frechet ya había desarrollado una teoría de la medida en espacios abstractos, no podía hacerse una identi…cación automática de una función de probabilidad con una medida mientras no se resolviera el problema de la existencia de una medida asociada a cada problema de probabilidad. En 1914, Carathéodory ([16]) dio un método para construir medidas en Rn vía una medida exterior y este método puede extenderse al caso de medidas en espacios abstractos. Sin embargo, la de…nición de medidas en espacios de dimensión in…nita no es un problema que se haya resuelto inmediatamente después del trabajo de Fréchet sobre la de…nición general de una medida. Fue P.J. Daniell quien entre 1918 y 1920 desarrolló una teoría de integración en espacios de dimensión in…nita ([21], [22], [23], [24]). Daniell no se basó para esto en el resultado de Carathéodory sino que desarrolló su propio método. Básicamente el método de Carathéodory para de…nir una medida consiste en partir de una medida de…nida sobre un álgebra de subconjuntos de un conjunto dado y en extender esta medida a una -álgebra que contiene a los conjuntos del álgebra de la que se partió. En cambio, el método de Daniel consiste en partir de una integral. de…nida para una cierta familia de funciones y en extender esta integral a una familia su…cientemente grande de funciones. Los dos métodos son equivalentes en el sentido de que una vez teniendo una medida se puede de…nir una integral e inversamente, una vez teniendo una integral se puede de…nir una medida. 12.5. EL CÁLCULO DE PROBABILIDADES DURANTE LOS PRIMEROS 30 AÑOS DEL SIGLO XX 333 Por otra parte, el estudio de los teoremas límite había puesto en el centro de la atención de los probabilistas a las variables aleatorias. El estudio de las variables aleatorias condujo a Richard Edler Von Mises (1883-1953) a identi…car, en el año 1919, una ley de probabilidad con la función de distribución ([94], [95]). Esta misma identi…cación la hizo Paul Pierre Lévy (1886-1971) en su libro Calcul des Probabilités, publicado en 1925 ([62]), donde, además, identi…caba a una función de distribución con una medida sobre R y a una función de distribución conjunta con una medida sobre Rn . De esta forma, dada una sola variable aleatoria, se puede asociar a ésta una medida sobre R; dado un número …nito de variables aleatorias, se puede asociar a esa familia una medida sobre Rn , para alguna n. Pero, ¿cómo asociarle una medida a una familia in…nita de variables aleatorias? Algunos resultados parciales consistentes en asociar una medida a una familia in…nita de variables aleatorias se encuentran en los trabajos de Hugo Dyonizy Steinhaus (1887-1972) ([86]) y de Norbert Wiener (1894-1964) ([96], [97], [98], [99], [100], [101], [102]). En 1923, Steinhaus consideró una sucesión in…nita de ensayos de Bernoulli, en cada uno de los cuales la probabilidad de éxito es 21 , y las variables aleatorias, X1 ; X2 ; : : : ; son tales que: Xj = 1 si hay éxito en el ensayo j 0 si no lo hay El conjunto de posibles resultados del experimento aleatorio así de…nido consiste entonces del conjunto de sucesiones de 0’s y 1’s, el cual se puede poner en correspondencia, excepto por un conjunto numerable, con el intervalo [0; 1]. De…nió la axiomática para el juego de cara o cruz dándole a la función de probabilidad la propiedad de -aditividad. Mostró entonces que comenzando por asignar probabilidades a eventos que dependen únicamente de un número …nito de ensayos, las propiedades que dio a la función de probabilidad permiten de…nirla (extenderla) para todos los subconjuntos Lebesque-medibles y que la medida que se obtiene es precisamente la medida de Lebesgue. Steinhaus consideró también el problema de la convergencia de series aleatorias de la forma P1 n=1 cn , en donde cada cn es un número real y el signo de cn se elige al azar. Su modelo nuevamente consiste en identi…car una sucesión in…nita de signos como un punto del intervalo [0; 1] y entonces nuevamente asumiendo que la función de probabilidad es aditiva, mostró que la función de probabilidad es la medida de Lebesgue sobre los conjuntos Lebesgue-medibles. Con base en esto demostró que la probabilidad de convergencia de una serie así de…nida necesariamente es 0 ó 1. En 1924, Norbert. Wiener consideró también el problema de la convergencia de series aleatorias, pero su método fue distinto al de Steinhaus. 334 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO Wiener trabajaba con funcionales lineales sobre espacios de funciones y seguía el método de Daniell para extender tales funcionales: Sea es el conjunto de todas las sucesiones posibles de signos. Si ' es una función de…nida sobre cuyos valores dependen únicamente de los primeros n signos para alguna n; Wiener de…nió I(') como el promedio de los 2n valores que toma ' dependiendo de los primeros n signos de la sucesión. Demostró entonces que esa funcional así de…nida satisface las propiedades del teorema de extensión de Daniell, de manera que dicha funcional se puede extender de manera única al conjunto de todas las funciones medibles. Con el mismo método, entre 1921 y 1923, construyó un modelo matemático para el movimiento browniano, para lo cual de…nió una medida de probabilidad aditiva sobre el espacio de las funciones continuas. Es este trabajo el que marcó la pauta para poder de…nir una medida asociada a cualquier problema de probabilidad. El movimiento browniano consiste en el movimiento de un grano de polen que se coloca sobre agua. En el año 1827, al estudiar el proceso de fertilización de las ‡ores de varias plantas, Robert Brown observó que los granos de polen se movían. Lo que hizo Wiener fue construir una medida de probabilidad sobre el conjunto de las posibles trayectorias que puede seguir una de esas partículas colocadas sobre un ‡uido. Así que, pesar de la objeción de Borel, se volvió cada vez más frecuente asumir como válida ya sea la propiedad de -aditividad de la función de probabilidad o bien alguna de sus formas equivalentes. Para el año 1925 algunos autores aceptaban ya a la -aditividad como una propiedad general de la función de probabilidad y entonces consideraban a la probabilidad como una medida. Esto queda claro en el libro de Paul Pierre Lévy de 1925, donde, además, se de…ne a la probabilidad en forma axiomática. Un año antes se publicó un artículo de Lévy titulado Les lois de probabilité dans les ensembles abstraits, en el cual dice ([61]): Una ley de probabilidad será naturalmente bien de…nida en un conjunto abstracto E si se conoce la probabilidad de todo subconjunto de E. Esta probabilidad deberá gozar de las propiedades siguientes: (i) A dos conjuntos V1 y V2 sin elementos comunes y al conjunto V constituido por su unión, corresponden números 1 , 2 y tales que = 1 + 2 . (ii) Un enunciado análogo es verdadero si se considera una in…nidad numerable de conjuntos V1 ; V2 ; : : :, sin puntos comunes dos a dos. (iii) Los valores de son siempre positivos o nulos y al conjunto E completo corresponde un valor igual a la unidad. 12.5. EL CÁLCULO DE PROBABILIDADES DURANTE LOS PRIMEROS 30 AÑOS DEL SIGLO XX 335 Decía Lévy que, utilizando el lenguaje del Cálculo Funcional, es una funcional aditiva en el sentido de Fréchet (es decir, una medida). Agregaba después que en la práctica se considera una ley de probabilidad como de…nida sin que la probabilidad esté de…nida para todos los subconjuntos de E. Cita para esto el caso en que la probabilidad de un subconjunto del intervalo [0; 1] está dada por su medida de Lebesgue, en cuyo caso la probabilidad únicamente está de…nida para los conjuntos medibles. Como puede verse, Lévy formuló aquí la Teoría de la Probabilidad en su forma axiomática moderna. Sin embargo, aunque en ese artículo Lévy formuló un método para construir medidas en espacios de dimensión in…nita, éste no era lo su…cientemente general. Sin lugar a dudas, Lévy fue el más grande probabilista del siglo XX. Publicó más de 100 artículos acerca del Cálculo de Probabilidades y los Procesos Estocásticos. Su trabajo lo sistematizó en 3 libros: 1. El ya mencionado libro de 1925, Calcul des Probabilités, donde, además de lo que ya dijimos antes, realizó una gran sistematización del Cálculo de Probabilidades e hizo ver toda la fuerza que tiene la función característica para tratar los teoremas límite. 2. Théorie de l’addition des variables aleatoires, publicado en 1937, el cual contiene una amplia discusión sobre el concepto de probabilidad y el primer estudio sistemático sobre las distribuciones in…nitamente divisibles. 3. Processus Stochastiques et Mouvement Brownien, publicado en 1948, donde introdujo los procesos con incrementos independientes e hizo un estudio minucioso del movimiento browniano, probando resultados que sólo pudieron ser demostrados formalmente años más tarde, utilizando el Cálculo Estocástico. Se mantuvo publicando artículos acerca de estos temas hasta 1970, un año antes de su fallecimiento, a los 85 años de edad. Paralelamente a lo anterior, el Cálculo de Probabilidades tuvo una gran difusión tanto por parte de la escuela francesa como de la escuela rusa. En particular, bajo la dirección de Émile Borel, se publicó una colección de libros acerca del Cálculo de Probabilidades y sus aplicaciones, la cual consta de 4 tomos: I. Les principes de la théorie des probabilités. II. Les applications de la théorie des probabilités aux sciences mathématiques et aux sciences physiques. III. Les applications de la théorie des probabilités aux sciences économiques et aux sciences biologiques. IV. Applications diverses et conclusion. Esta colección está compuesta por 19 libros, los cuales fueron publicados entre 1924 y 1939: Tome III, Fascicule 1. Assurances sur la vie. Calcul des primes, par Henri Galbrun (1924). Tome I, Fascicule 1. Principes et formules classiques du calcul des probabilités, par Émile Borel et rédigé par René Lagrange (1925). Tome II, Fascicule 3. Mécanique statistique classique, par Émile Borel et rédigé par Francis Perrin, (1925). Tome II, Fascicule 1. Applications à l’arithmétique et à la théorie des fonctions, par Émile Borel et rédigé par Paul Dubreil (1926). 336 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO Tome II, Fascicule 2. Probabilités géométriques, par Robert Deltheil (1926). Tome IV, Fascicule 1. Applications au tir, par Jules Haag (1926). Tome III, Fascicule 2. Assurances sur la vie. Calcul des réserves, par Henri Galbrun (1927). Tome I, Fascicule 2. Erreurs et moindres carrés, par René Deltheil (1930). Tome II, Fascicule 4. Applications de la théorie des probabilités à l’astronomie, par Carl V. L. Charlier (1931). Tome III, Fascicule 3. Applications de la statistique à la démographie et à la biologie, par René Risser (1932). Tome I, Fascicule 4. Les principes de la statistique mathématique, par René Risser et Claude-Émile Traynard (1933). Tome III, Fascicule 4. Théorie mathématique de l’assurance invalidité et de l’assurance nuptialité. Dé…nitions et relations fondamentale, par Henri Galbrun (1933). Tome III, Fascicule 5. Théorie mathématique de l ’assurance invalidité et de l’assurance nuptialités. Calcul des primes et des réserves, par Henri Galbrun (1933). Tome III, Fascicule 6. Théorie mathématique de l’assurance maladie, par Henri Galbrun (1934). Tome I, Fascicule 3. Recherches théoriques modernes sur la théorie des probabilités, par Maurice Fréchet. Premier Livre: Généralités sur les Probabilités. Variables aléatoires (avec une note de Paul Lévy) (1937). Tome I, Fascicule 3. Recherches théoriques modernes sur la théorie des probabilités, par Maurice Fréchet. Deuxième Livre : Méthode des fonctions arbitraires, théorie des événements en chaîne dans le cas d’un nombre …ni d’états possibles (1938). Tome IV, Fascicule 2. Applications au jeux de hasard, par Émile Borel et rédigé par Jean Ville (1938). Tome II, Fascicule 5. Mécanique statistique quantique, par Francis Perrin, (1939). Tome IV, Fascicule 3. Valeur pratique et philosophie des probabilités, par Émile Borel (1939). 12.6. La axiomática Como lo mencionamos anteriormente, Lévy, en su libro de 1925, asumía como válida la aditividad para cualquier función de probabilidad. Algunos años después, se utilizaba ya para demostrar formas generales de los teoremas límite. 12.6. LA AXIOMÁTICA 337 En el año 1930, para probar la ley fuerte de los grandes números, Andrey Nikolaevich Kolmogorov (1903-1987) ([52]) utilizó la propiedad de -subaditividad de la función de probabilidad, la cual es equivalente a la -aditividad. Además, Kolmogorov utilizó el hecho de que la unión numerable de eventos de probabilidad cero tiene también probabilidad cero, la cual también es consecuencia de la -subaditividad. Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas, de esperanza …nita . Entonces: P l mn 1 X1 + n +Xn = = 1. Sin embargo, la polémica sobre la propiedad de aditividad de la función de probabilidad continuaba. Resalta en esta polémica una serie de artículos que publicaron Maurice Fréchet y Bruno de Finetti en el año 1930 ([25], [26], [27], [40], [41]). De Finetti consideraba que se llega a contradicciones cuando se admite la extensión del teorema sobre las probabilidades totales al caso de una sucesión in…nita de eventos mutuamente excluyentes. Como ejemplo consideraba una variable aleatoria X la cual únicamente puede tomar valores en el conjunto in…nito f"1 ; "2 ; : : :g de tal forma que todos ellos son igualmente probables. Los eventos [X = "i ] tienen entonces probabilidad cero, pero su unión tiene probabilidad 1. Fréchet argumentaba que él ya había señalado, en sus cursos y en una memoria que se encontraba en prensa, que efectivamente la extensión del teorema sobre las probabilidades totales al caso de una sucesión in…nita de eventos no es una consecuencia inevitable de los principios generales admitidos en las bases del Cálculo de Probabilidades. Pero agregaba que de Finetti únicamente había visto una de las dos alternativas: “si sus ejemplos tienen sentido, entonces tal extensión no es posible. pero la otra alternativa es que si tal extensión es posible entonces los ejemplos no tienen sentido.”Fréchet prefería entonces asumir que los ejemplos de de Fineti no tienen sentido, en particular consideraba, con relación al mencionado ejemplo de de Fineti, que es imposible suponer que los posibles valores de X son igualmente probables. Continuaba argumentando que la misma alternativa se presenta en la teoría de la medida de Lebesgue, donde se tiene que restringir la familia de conjuntos a los cuales se les puede asignar una medida pues no todos los conjuntos resultan ser medibles. De la misma manera, en el ejemplo de de Fineti no es posible asignarle una probabilidad a los conjuntos [X = "i ] de tal manera que todas ellas sean iguales. De Fineti respondió con nuevas objeciones. Se preguntaba si los eventos que se tienen que excluir de aquellos a los cuales se asigna una probabilidad no son tan interesantes como éstos últimos. Para él Fréchet únicamente evitaba formalmente la di…cultad y se seguía preguntando: ¿Es admisible excluir la concepción de una in…nidad de eventos mutuamente excluyentes que sean igualmente probables? Fréchet contraargumentó que las contradicciones a que hace referencia de Fineti son familiares para todos aquellos al corriente en la teoría de la medida. En cuanto al interés que 338 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO pueden tener los conjuntos no medibles responde que en realidad no se presentan en las aplicaciones. En cuanto a la necesidad de excluir algunas medidas como posibles, consideraba, por ejemplo, que se puede pensar en asignar una medida igual a 1 a toda la recta real, una medida igual a 12 a toda semirecta, una medida igual a 31 a todos los conjuntos formados por la unión de una sucesión in…nita de intervalos de longitud , de tal manera que cada par de ellos esté separado por un intervalo de longitud 2 , etc. En ese caso, toda la recta real sería la unión de una sucesión de intervalos consecutivos cuyas medidas tendrían que ser nulas, de manera que su suma no podría ser igual a 1. Por lo tanto, se debe de excluir la concepción de medidas iguales de esos intervalos o bien se deben de considerar como no medibles. Resulta aquí claro que para Fréchet la probabilidad era siempre una medida, aún a costa de tener que excluir algunos experimentos aleatorios que pueden ser de…nidos formalmente, aunque también resultaba claro para él que ésta es únicamente una alternativa que se puede elegir, pero que no era aceptada por todos en ese momento. Esta posición resulta todavía más evidente al argumentar en contra de otra objeción que hace de Fineti en su segundo artículo. Decía de Fineti que no se debe eludir una di…cultad de principio mediante una convención y que una vez puesta la de…nición de probabilidad, de una manera conforme a nuestra intuición, si esta de…nición permite atribuir un valor a la probabilidad de uno de los eventos clasi…cados como no probabilizables, no se tiene el derecho de excluir ese evento. Fréchet respondió entonces que la principal di…cultad en el argumento de de Fineti reside en el hecho de que, hasta ese momento, ninguna de…nición de la probabilidad había obtenido una adhesión general. Agregaba que si se adopta el punto de vista axiomático, la solución es inmediata y consiste en poner como postulado el principio de las probabilidades totales en su forma completa (es decir, la propiedad de aditividad numerable). Finalmente, en el año 1933, Kolmogorov publicó un artículo titulado Foundations of the Theory of Probability ([53]) en el cual estableció la formulación de la Teoría de la Probabilidad que prevalece hasta nuestros días. Dice ahí: “Después de las publicaciones de las investigaciones de Lebesgue, las analogías entre medida de un conjunto y probabilidad de un evento y entre la integral de una función y la esperanza matemática de una variable aleatoria se hicieron evidentes. Pero para que la teoría de la probabilidad pudiera basarse en tales analogías era todavía necesario hacer las teorías de la medida y de la integración independientes de los elementos geométricos los cuales estaban en el trasfondo con Lebesgue. Esto ha sido hecho por Fréchet. Mientras que una concepción de la teoría de la probabilidad basada sobre el punto de vista general citado antes se ha dado durante algún tiempo entre ciertos matemáticos, estaba faltando una exposición completa de todo el sistema, libre de extrañas complicaciones.” Estableció entonces como modelo matemático de un fenómeno probabilístico una terna ( ; =; P ), donde es un conjunto, = una álgebra de subconjuntos y P una medida de probabilidad de…nida sobre =. 12.7. ACERCA DE LA PROPIEDAD DE -ADITIVIDAD DE LA FUNCIÓN DE PROBABILIDAD 339 Con este modelo Kolmogorov logró entonces articular los diferentes conceptos de la teoría de la probabilidad, como el de probabilidad condicional y la independencia de eventos y de variables aleatorias. Mostró además como los resultados fundamentales de la teoría de la probabilidad se articulan en un enfoque axiomático, exponiendo, dentro de este nuevo contexto, las leyes débil y fuerte de los grandes números. En su monografía, Kolmogorov introdujo el concepto de esperanza condicional, con lo cual mostró como el enfoque axiomático basado en la Teoría de la Medida aporta a la Teoría de la Probabilidad poderosas herramientas. Finalmente, Kolmogorov, utilizando el método de Carathéodory, dio un método general, además de simple, para construir medidas de probabilidad en espacios de dimensión in…nita: Dada cualquier familia de variables aleatorias, partiendo de sus distribuciones …nito dimensionales, es posible construir un espacio de probabilidad ( ; =; P ) de tal manera que la medida P restringida a los eventos que dependen únicamente de un número …nito de las variables aleatorias dadas coincide con la determinada por la distribución …nito-dimensional correspondiente. Después del trabajo de Kolmogorov la aceptación de probabilidad como una medida fue unánime. 12.7. Acerca de la propiedad de -aditividad de la función de probabilidad El considerar a la probabilidad como una medida ( -aditiva) constituye únicamente una elección; bien podría elegirse de…nir un espacio de probabilidad como una terna ( ; =; P ), donde = es un álgebra de subconjuntos de y P una función …nitamente aditiva de…nida sobre =. Tendríamos así un modelo matemático similar al de la terna de Kolmogorov y la teoría se podría desarrollar con base en ese modelo. En cualquiera de los dos casos, con una función de probabilidad -aditiva o con una únicamente …nitamente aditiva, la teoría que se desarrolle es puramente matemática y los resultados que se obtengan son válidos, matemáticamente, dentro de esa teoría. En los dos casos se trata únicamente de un modelo matemático de los fenómenos aleatorios. El fenómeno aleatorio en sí mismo no no es matemático, ni contiene matemática alguna. En Cambio, el modelo matemático es una abstracción producto del pensamiento humano; es parte del simbolismo que el ser humano ha creado para tratar de entender los fenómenos naturales. El preguntarse si una función de probabilidad es o no -aditiva no tiene sentido, o si se quiere, es una trivialidad. Si en el modelo que estamos utilizando tomamos a la probabilidad como -aditiva, entonces lo es; de otra forma, no lo es. Lo que hizo Kolmogorov no fue demostrar que toda función de probabilidad es -aditiva. Recapitulemos el proceso: 340 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO Primero, a una variable aleatoria se le asocia (de hecho se le identi…ca) con una función (llamada función de distribución) no decreciente, la cual resulta ser continua por la derecha, gracias a que se asume que la función de probabilidad es -aditiva; dicho de otra forma, la -aditividad es parte de los axiomas, de manera se asume a priori como válida. De ahí, como decíamos, la función de distribución resulta ser continua por la derecha. De ahí que podamos de…nir una medida ( -adtiva) a partir de esa función de distribución y, de hecho, se identi…ca a la función de distribución con la medida que genera. De esta forma, asociada con una variable aleatoria real X se construye una medida sobre los subconjuntos borelianos de R, la cual representa a la variable aleatoria. Pero, reiteramos, esto puede hacerse gracias a que de inicio se asume como válida la -aditividad de la función de probabilidad. Después se trata el caso de un número …nito de variables aleatorias, X1 , X2 , . . . , Xn , a las cuales se les asocia una función de distribución conjunta, a partir de la cual se puede de…nir una medida sobre los subconjuntos borelianos de Rn . Nuevamente esto es posible ya que se asume que la función de probabilidad es -aditiva. El siguiente paso consiste en considerar una in…nidad (numerable o no numerable) de variables aleatorias y Kolmogorov demostró que, partiendo de que cada subconjunto …nito, de esa in…nidad de variables aleatorias, tiene asociada una función de distribución y, por lo tanto, una medida sobre los subconjuntos borelianos de Rn , para alguna n 2 N, es posible de…nir una medida sobre algún espacio medible, la cual representa a la in…nidad de variables aleatorias. Lo que dice entonces el teorema de Kolmogorov es que la propiedad de -aditividad es consistente en el sentido de que si se asume como valida para el caso …nito, entonces la -aditividad se puede extender al caso in…nito. De hecho, el problema de tomar o no la -aditividad para la función de probabilidad es el mismo que el que se plantea en la teoría de la medida desarrollada por Lebesgue Recordemos que Lebesgue planteó el problema de encontrar una función m de…nida sobre todos los subconjuntos acotados de números reales y satisfaciendo las siguientes condiciones: (i) (ii) (iii) (iv) m es no negativa. m es -aditiva. m([0; 1]) = 1 m es invariante bajo traslaciones. Lebesgue logró de…nir una función m, única, de…nida sobre una -álgebra de subconjuntos de R, la cual asigna a cada intervalo su longitud; sin embargo, Vitali demostró que esa -algebra no está formada por todos los subconjuntos de los números reales. Stefan Banach y Kazimierz Kuratowski se plantearon en 1929 el problema de encontrar una función m de…nida sobre todos los subconjuntos el intervalo [0; 1] y satisfaciendo las siguientes condiciones: 12.7. ACERCA DE LA PROPIEDAD DE -ADITIVIDAD DE LA FUNCIÓN DE PROBABILIDAD 341 (i) m es no negativa. (ii) m es -aditiva. (iii) Si I es un intervalo, entonces m(I) es igual a la longitud de I. El resultado de Banach y Kuratowski fue que tal problema no tiene solución ([?]). Esto sorprendió a muchos, por ejemplo a Paul Pierre Lévy quien pensaba que, al quitar a la medida la condición de ser invariante bajo traslaciones, es posible asignar una medida a todos los subconjuntos de números reales ([?]). Alfred Tarski atacó en 1930 el problema de la medida en sentido amplio planteándose el problema de encontrar una función m de…nida sobre todos los subconjuntos del intervalo [0; 1] y satisfaciendo las siguientes condiciones: (i) m es no negativa. (ii) m es …nitamente aditiva. (iii) Si I es un intervalo, entonces m(I) es igual a la longitud de I. Tarski mostró que tal problema, así como el análogo en dos o más dimensiones, sí tiene solución. Sin embargo, mostró también que la solución no es única ([?]). El resultado de Tarski se puede extender al caso de una función …nitamente aditiva de…nida sobre un álgebra: Sean A y B dos álgebras de subconjuntos de un conjunto tales que A B propiamente, y P : A 7! [0; 1] una función …nitamente aditiva tal que P ( ) = 1. Entonces existe una función …nitamente aditiva P : B 7! [0:1], la cual es una extensión de P . Tal extensión no necesariamente es única. ([?]) Por otra parte, el teorema de Caratheodory permite extender, una quasi medida de probabilidad de…nida sobre un álgebra de subconjuntos de un conjunto a una medida de…nida sobre la -álgebra generada por el álgebra, y tal extensión es única. Recordemos que cuando se tiene un fenómeno aleatorio, el proceso para asignar probabilidades a los subconjuntos del espacio muestral consiste en partir de la asignación de probabilidades a una determinada familia de subconjuntos y después en extender la función de probabilidad a una familia de subconjuntos del espacio muestral tan grande como sea posible. La -aditividad nos permite realizar esa extensión, de manera única, a una familia su…cientemente grande de subconjuntos del espacio muestral. Con base en lo anterior, podemos decir que elegir la -aditividad como propiedad de cualquier función de probabilidad nos permite de…nir, de manera única, la probabilidad de cada evento, a costa de que la familia de eventos tal vez no esté formada por todos los subconjuntos del espacio muestral , mientras que eligiendo únicamente la aditividad …nita, podemos de…nir la probabilidad de cualquier subconjunto del espacio muestral, pero de diferentes maneras. 342 12. TEORÍA DE LA PROBABILIDAD DESARROLLO HISTÓRICO Cabe decir que si = f! 1 ; ! 2 ; : : :g es un conjunto in…nito numerable, = conjunto potenPel 1 cia de y P : = 7! [0; 1] es una función …nitamente aditiva tal que k=1 P (f! k g) = 1, entonces P necesariamente es -aditiva. En efecto; sea A = f! j1 ; ! j2 ; : : :g cualquier subconjunto de in…nito numerable y Ac = f! i1 ; ! i2 ; : : :g. En vista de que Pn P es no negativa y …nitamente aditiva, es monótona no P decreciente, así que P (A) k=1 P (f! jk g) para 1 toda n 2PN. Por lo tanto, P (A) jk g). De la misma manera, se obtiene k=1 P (f! P1 c P (A ) P (f! g). Además, como la serie ik k k=1 P (f! k g) converge a 1, las dos series P P1 y k P (f! ik g) son también convergentes y su suma es igual a 1. Ahora k=1 P (f! jk g) P bien, si P (A) > 1 k=1 P (f! jk g), entonces tendríamos: P P 1 P ( ) = P (A) + P (Ac ) > 1 k P (f! ik g) = 1 k=1 P (f! jk g) + P lo cual es una contradicción. Por lo tanto, podemos concluir que P (A) = 1 k=1 P (f! jk g). Sea ahora A1 ; A2 ; : : : una colección in…nita numerable de subconjuntos no vacíos de tales que Ai \ Aj = ; para i 6= j. Si A = [1 = f! k1 ; ! k2 ; : : :g, entonces, como P es no n=1 An P n0 negativa y …nitamente aditiva, se tiene P (A) n=1 P (An ) para toda n0 2 N. Así que: P1 P (A) n=1 P (An ) 0 Por otro lado, dada N 2 N, existe n0 2 N tal que f! kj : j N g [nn=1 An , así que: P1 P 0 S 0 PN P (An ) An ) = nn=1 ! kj = P (f! kj : j N g) P ( nn=1 n=1 P (An ) j=1 P P1 P P ! Es decir, N k j n=1 P (An ) para toda N 2 N. Por lo tanto: j=1 P1 P ! kj P (A) = 1 n=1 P (An ) j=1 P P Así que, P (A) = 1 n=1 P (An ), lo cual prueba la -aditividad. Por otra parte, debe de observarse que, en general, la -aditividad no es una consecuencia de la aditividad …nita. Consideremos, por ejemplo, el álgebra A formada por los subconjuntos de los números naturales que son …nitos o de complemento …nito y de…namos la función P : A 7! [0; 1] por P (A) = 0 si A es …nito y P (A) = 1 si Ac es …nito. Tal función es …nitamente aditiva pero no -aditiva. Más aún, por el resultado 12.7, enunciado con anterioridad, P puede extenderse (no de manera única) a una función …nitamente aditiva de…nida sobre la familia de todos los subconjuntos de los números naturales. Tal extensión, la cual está de…nida sobre una -álgebra, resulta entonces ser …nitamente aditiva, pero no -aditiva. CAPÍTULO 13 FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD 13.1. Espacios de Probabilidad Como ya lo mencionamos, la Teoría de la Probabilidad se utiliza para modelar y estudiar fenómenos aleatorios, los cuales tienen la característica de evolucionar de una manera azaroza o que, aún no siendo azarozo su desarrollo, su estudio puede realizarse pensándolo como si lo fuera. Sin embargo, una vez que se formula la Teoría de la Probabilidad en forma axiomática, los elementos que la componen no requieren de una interpretación práctica. La teoría matemática puede desarrollarse a partir de los axiomas, sin hacer referencia a algún fenómeno aleatorio. Se investiga acerca de las propiedades del modelo matemático y se van introduciendo de…niciones de nuevos conceptos, dentro del modelo, enriqueciendo así el modelo mismo y demostrando nuevas propiedades. Nos referiremos a este proceso como el desarrollo formal de la teoría. Los nuevos conceptos que se van introduciendo provienen en general de problemas que se plantean en el estudio de algún fenómeno natural y las propiedades que se van encontrando del modelo se utilizan para estudiar el fenómeno en consideración; sin embargo el desarrollo formal de la teoría se va dando sin aludir a los problemas que motivan las de…niciones de nuevos conceptos. En lo que sigue vamos a exponer el desarrollo formal de la Teoría de la Probabilidad, así que comenzaremos con las de…niciones de los conceptos básicos. Definición 13.1. Llamaremos espacio de probabilidad a una terna ( ; =; P ), donde es un conjunto, = una -álgebra de subconjuntos de y P una medida sobre = tal que P ( ) = 1, a la cual llamaremos medida de probabilidad. A lo llamaremos el espacio muestral, a los elementos de = eventos y a la medida P de un evento A la probabilidad de A. Considerando que cualquier espacio de medida se puede completar, asumiremos que cualquier medida de probabilidad con la que trabajemos es completa. En el resto de este capítulo asumiremos que tenemos de…nido un espacio de probabilidad ( ; =; P ). 343 344 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD Recordemos que, antes de su formulación axiomática, el Cáculo de Probabilidades tenía como base dos reglas, la de la probabilidad total y la de las probabilidades compuestas. La primera de ellas queda comprendida en las propiedades de la medida de probabilidad. La segunda, en cambio, no queda contemplada debido a que había un problema en su formulación: se hablaba de probabilidades condicionales sin haber de…nido lo que eso signi…caba matemáticamente, de manera que se utilizaba únicamente cuando las probabilidades condicionales con las que se trataba tenían un sentido intuitivo. Lo que se hizo entonces fue formular una de…nición, en lugar de un teorema o una regla. Definición 13.2 (Probabilidad condicional). Sean A y B dos eventos y supongamos P (A) > 0, se de…ne la probabilidad condicional de B, dada la ocurrencia de A, P (BjA), mediante la fórmula: P (BjA) = P (A \ B) . P (A) La probabilidad condicional dado un evento A es una nueva medida de probabilidad, la cual asigna el valor 1 a A y el valor 0 a Ac ; es decir, se trata de una medida de probabilidad concentrada en A. Se puede decir que al tomar probabilidades condicionales dado un evento A, el espacio muestral se reduce, convirtiéndose A en un nuevo espacio muestral. Definición 13.3 (Independencia de eventos). Diremos que los eventos de una familia no vacía cualquiera fA g, …nita o in…nita, son estocásticamente independientes si dada cualquier subcolección …nita de ellos, A 1 ; : : : ; A n , donde n 2 N, se tiene: P (A 1 \ \A m ) = P (A 1 ) P (A m ). Definición 13.4 (Eventos mutuamente excluyentes). Diremos que los eventos de una familia no vacía cualquiera fA g, …nita o in…nita, son mutuamente excluyentes si cualquier par de ellos son conjuntos ajenos. Ahora, algunas propiedades simples: Proposición 13.1. Si los eventos de una familia no vacía fA g 2 son mutuamente excluyentes y 0 es cualquier subconjunto no vacío de , entonces los eventos de la familia fA g 2 0 son mutuamente excluyentes. Proposición 13.2. Si los eventos de una familia no vacía fA g 2 son independientes y 0 es cualquier subconjunto no vacío de , entonces los eventos de la familia fA g 2 0 son independientes. Proposición 13.3. Sea fA1 ; ; : : : ; An g una familia de eventos independientes, donde n 2, y reemplacemos uno de ellos, cualquiera, por su complemento, entonces los eventos de la nueva familia siguen siendo independientes. 13.1. ESPACIOS DE PROBABILIDAD 345 Demostración Reordenemos los eventos A1 ; ; : : : ; An de tal manera que el evento que reemplazamos por su complemento sea An . Sea fn1 ; : : : ; nk g cualquier subconjunto no vacío del conjunto f1; : : : ; ng, donde los elementos n1 ; : : : ; nk están ordenados del menor al mayor y k 2. Entonces: Si n 2 = fn1 ; : : : ; nk g, como los eventos de la familia fA1 ; ; : : : ; An g son independientes, se tiene: P An1 \ \ Anj = P (An1 ) P Anj . Si n 2 fn1 ; : : : ; nk g, entonces nk = n y se tiene: P An1 \ \ Ank 1 \ Acn = P An1 \ \ Ank 1 = P An1 \ \ Ank 1 = P (An1 ) P Ank 1 = P (An1 ) P Ank 1 An1 \ \ Ank P An1 \ P (An1 ) [1 1 \ An \ Ank 1 \ An P (Ank 1 ) P (An ) P (An )] = P (An1 ) P Ank 1 P (Acn ). Así que los eventos de la familia fA1 ; ; : : : ; An 1 ; Acn g son independientes. Corolario 13.1. Sea fA1 ; ; : : : ; An g una familia de eventos independientes y U un subconjunto del conjunto f1; : : : ; ng Para cada j 2 f1; : : : ; ng, de…namos: Bj = Aj si j 2 U =U Acj si j 2 Entonces, los eventos de la familia fB1 ; : : : ; Bn g son independientes. Corolario 13.2. Sean fA g 2 una familia de eventos independientes y T un subconjunto de . Para cada 2 , de…namos: B = A si Ac si 2T 2 =T Entonces, los eventos de la familia fB g 2 son independientes. Teorema 13.1. Dado un evento A de probabilidad positiva, la función que asigna a cada evento B el número real P (B j A), de acuerdo con la de…nición, es una medida de probabilidad. 346 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD Demostración La función así de…nida es claramente no negativa, además: P ( j A) = P (A\ ) P (A) = P (A) P (A) = 1. Finalmente, si fBn gn2N es una familia de eventos eventos mutuamente excluyentes, entonces: P ([1 n=1 Bn j A) = = P1 n=1 P (A\Bn ) P (A) P [A\([1 n=1 Bn )] P (A) = P1 n=1 = P [[ 1 n=1 (A\Bn )] P (A) = P1 P (A\Bn ) P (A) n=1 P (Bn j A). La de…nición de probabilidad condicional implica inmediatamente el siguiente resultado: Proposición 13.4 (Regla del producto). Sean A1 ; : : : ; An n eventos tales que P (A1 \ : : : \ An 1 ) > 0, entonces: P (\nk=1 Ak ) = P (An jA1 \ : : : \ An 1 ) P (A2 jA1 )P (A1 ). Combinando la -aditividad y la regla del producto se obtiene el siguiente resultado: Proposición 13.5 (Regla de la probabilidad total). Sean B un evento cualquiera y A1 ; A2 : : : una colección …nita o in…nita S numerable de eventos de probabilidad positiva, mutuamente excluyentes y tales que P ( n An ) = 1, entonces: P P (B) = n P (B j An )P (An ). El lema de Borel-Cantelli es un resultado básico en la Teoría de la Probabilidad. Lo vamos a utilizar frecuentemente. Lema reales en el intervalo [0; 1] tal que la serie Qn P1 13.1. Sea fpn g una sucesión de números (1 pj ) = 0. p es divergente, entonces l m n!1 j=1 n=1 n Por el teorema del valor medio, se tiene, para cada x 2 [0; 1): ln(1 x) = x 1 x , donde 2 (0; 1). De manera que, para cualquier x 2 [0; 1), ln(1 x) x, es decir, 1 x que también es válido para x = 1. Pn Q Q En particular, nj=1 (1 pj ) < e j=1 pn , así que l mn1 nj=1 (1 pj ) = 0. e x , resultado Teorema 13.2 (Lema P1 de Borel-Cantelli-1a. parte). Sea A1 ; A2 ; : : : una sucesión de eventos tales que n=1 P (An ) < 1 y sea: 13.1. ESPACIOS DE PROBABILIDAD A = f! 2 347 : ! 2 An para una in…nidad de valores de ng. Entonces P (A) = 0. Demostración Para T cada m 2 N, sea Bm = A= 1 m=1 Bm , así que: T P (A) = P [ 1 m=1 Bm ] = l mm S Pero, P (Bm ) = P ( 1 n=m An ) Por lo tanto, P (A) l mm S1 n=m An . Entonces la sucesión de eventos Bm es decreciente y P [Bm ]. P1 n=m P (An ). P1 1 n=m P (An ) = 0. 1 Teorema 13.3 (Lema de Borel-Cantelli-2a. parte). Sea A1 ; A2 ; : : : una sucesión de P1 eventos independientes tales que n=1 P (An ) = 1 y sea: A = f! 2 : ! 2 An para una in…nidad de valores de ng. Entonces P (A) = 1. Demostración T c Para cada m 2 N, sea Bm = 1 n=m An . Entonces la sucesión de eventos Bm es creciente y S 1 c A = m=1 Bm , así que: S P (Ac ) = P [ 1 m=1 Bm ] = l mm!1 P [Bm ]. Qm+k Tm+k c P (An )] para Pero, Bm n=m [1 n=m An para cualquier k 2 N, así que, P (Bm ) cualquier k 2 N. Por lo tanto: Q P (Bm ) l mk 1 m+k P (An )] = 0. n=m [1 Se concluye entonces que P (A) = 1 P (Ac ) = 1. 13.1.1. Algunos ejemplos de espacios de probabilidad. Cualquier espacio de medida tal que la medida del total es 1 es un espacio de probabilidad, pero conviene explicitar algunos que son útiles en el desarrollo de la teoría y que nos servirán en algunos ejemplos. Ejemplo 13.1. Si A R es un conjunto Lebesgue medible y su medida es igual a 1, entonces, de…niendo = A, = = fB \ A : B R es un conjunto Lebesgue medibleg y P la medida de Lebesgue restringida a =, entonces ( ; =; P ) es un espacio de probabilidad. Ejemplo 13.2. Si A entonces, de…niendo Rn es un conjunto Lebesgue medible en Rn y su medida es igual a 1, = A, = = fB \ A : B R es un conjunto Lebesgue medible en Rn g 348 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD y P la medida de Lebesgue en Rn restringida a =, entonces ( ; =; P ) es un espacio de probabilidad. Ejemplo 13.3. De acuerdo con los resultados del capítulo 5, si F : R 7! R es una función no decreciente y continua por la derecha, existe una única medida F de…nida sobre B (R) tal que F ((a; b]) = F (b) F (a) para cualquier pareja de números reales, a y b, tales que a < b. Por construcción, la medida F está de…nida sobre una -álgebra más grande que B (R), a saber, la -álgebra generada por B (R) y los subconjuntos de R contenidos en algún conjunto boreliano de medida F cero. Denotaremos a esta -álgebra por B F (R). Supongamos ahora que: l mx 1 F (x) l mx! Entonces, de…niendo 1 F (x) = 1. = R, = = B F (R) y P = F, ( ; =; P ) es un espacio de probabilidad. Ejemplo 13.4. De la misma manera, si F : R 7! R es una función no decreciente y continua por la izquierda, existe una única medida F de…nida sobre B (R) tal que F ([a; b)) = F (b) F (a) para cualquier pareja de números reales, a y b, tales que a < b. Nuevamente, denotaremos por B F a la -álgebra generada por B (R) y los subconjuntos de R contenidos en algún conjunto boreliano de medida F cero. Así que, si se cumple que: l mx 1 F (x) l mx! Entonces, de…niendo 1 F (x) = 1. = R, = = B F (R) y P = F, ( ; =; P ) es un espacio de probabilidad. Ejemplo 13.5. De la proposición 3.2 se sigue que si = f! 1 ; ! 2 ; : : :g es un conjunto in…nito P1 numerable y (pn )n2N una sucesión de números reales no negativos tales que n=1 pn = 1, y para cada n 2 N, de…nimos p (! n ) = pn y, para cualquier subconjunto A de , de…nimos: P P (A) = f!2Ag p (!). Entonces P es una medida de probabilidad de…nida sobre el conjunto potencia de . Ejemplo 13.6. Un ejemplo muy simple es el siguiente: Sea = f! 1 ; ! 2 ; : : : ; ! N g un conjunto …nito y, p1 ; p2 ; : : : ; pN números reales no negativos P tales que N n=1 pn = 1. Para cada n 2 f1; 2; : : : ; N g, de…namos p (! n ) = pn y, para cualquier subconjunto A de , de…namos: P P (A) = f!2Ag p (!). Entonces P es una medida de probabilidad de…nida sobre el conjunto potencia de Ejemplo 13.7. Un caso particular del ejemplo anterior es el siguiente: Sea F = fx1 ; x2 ; : : : ; xN g un conjunto …nito, n = f(y1 ; y2 ; : : : ; yn ) : yj 2 fx1 ; x2 ; : : : ; xN g para cualquier j 2 f1; 2; : : : ; ngg, . 13.1. ESPACIOS DE PROBABILIDAD (j) (j) 349 (j) donde n 2 N, y, para cada j 2 f1; 2; : : : ; ng, p1 ; p2 ; : : : ; pN números reales no negativos P (j) tales que N k=1 pk = 1. Para cada pareja j 2 f1; 2; : : : ; ng y k 2 f1; 2; : : : ; N g, de…namos (j) qj (xk ) = pk . De…namos también pn : n ! R de la siguiente manera: Q pn (y1 ; y2 ; : : : ; yn ) = nj=1 qj (yj ). Finalmente, para cualquier subconjunto A de P P (A) = f!2Ag pn (!). n, de…namos: Entonces P es una medida de probabilidad de…nida sobre el conjunto potencia de P La condición f!2 n g pn (!) = 1 que se requiere, se demuestra a continuación. n. Lema 13.2. Sea F = fx1 ; x2 ; : : : ; xN g un conjunto …nito, n = f(y1 ; y2 ; : : : ; yn ) : yj 2 fx1 ; x2 ; : : : ; xN g para cualquier j 2 f1; 2; : : : ; ngg, (j) (j) (j) donde n 2 N, y, para cada j 2 f1; 2; : : : ; ng, p1 ; p2 ; : : : ; pN números reales no negativos P (j) tales que N k=1 pk = 1. Para cada pareja j 2 f1; 2; : : : ; ng y k 2 f1; 2; : : : ; N g, de…namos: (j) qj (xk ) = pk . Finalmente, de…namos pn : n ! R de la siguiente manera: Q pn (y1 ; y2 ; : : : ; yn ) = nj=1 qj (yj ). Entonces: P f!2 n g pn (!) = 1. Demostración P PN Para cada n 2 N, de…namos S(n) = f!2 n g pn (!). Entonces, S(1) = k=1 q1 (xk ) = PN (1) PN PN (n+1) = 1 y S(n + 1) = = S(n) para toda k=1 pk k=1 qn+1 (xk ) S(n) = S(n) k=1 pk n 2 N. Así que, por el principio de inducción matemática, S(n) = 1 para cualquier n 2 N. Corolario 13.3. Sea n = f(s1 ; s2 ; : : : ; sn ) : sj 2 f0; 1g para cualquier j 2 f1; 2; : : : ; ngg, donde n 2 N. Sea p 2 [0; 1] y, para cada ! = (s1 ; : : : ; sn ) 2 n , de…namos: Q pn (!) = nj=1 [psj + (1 p) (1 sj )]. P Entonces, f!2 n g pn (!) = 1. 350 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD 13.2. Variables Aleatorias Desde el inicio del Cálculo de Probabilidades se trataba ya con cantidades que podían tomar diferentes valores, cada uno con una determinada probabilidad. En un principio se referían a la ganancia que un jugador podía obtener en un juego de azar. Más tarde se trataron otro tipo de problemas donde también intervenían cantidades que podían tomar distintos valores. A principios del siglo XX se hablaba simplemente de cantidades o variables. En su libro de 1925, Paul Lévy se refería a esas cantidades como variables eventuales. Markov se refería a ellas como variables aleatorias. Una vez que se formula axiomaticamente la Teoría de la Probabilidad, las variables aleatorias quedan identi…cadas con las funciones medibles. Definición 13.5. Llamaremos variable aleatoria real a cualquier función medible de ( ; =) en (R; B (R)). Una variable aleatoria con valores en el conjunto de números reales extendido será una función medible de ( ; =) en R; B R . Un vector aleatorio real será cualquier función medible de ( ; =) en (Rn ; B (Rn )). Obviamente, una variable aleatoria real puede considerarse también como una función de ( ; =) en R; B R , y esta función es medible. n Dado un conjunto …nito de variables aleatorias, X1 ; X2 ; : : : ; Xn , con valores en R , por la n proposición 7.7, la función (X1 ; X2 ; : : : ; Xn ) : ! R de…nida por: (X1 ; X2 ; : : : ; Xn ) (!) = (X1 (!) ; X2 (!) ; : : : ; Xn (!)) n es medible. A una función así de…nida la llamaremos vector aleatorio con valores en R . También usaremos la notación X para un vector aleatorio (X1 ; X2 ; : : : ; Xn ). A menos que se indique otra cosa, una variable aleatoria (resp. vector aleatorio con n n componentes) será considerada con valores en R (resp. con valores en R ). En lo que se re…ere a la convergencia de una sucesión de variables aleatorias, hay algunos cambios en la terminología. En el contexto de la Teoría de la Probabilidad, la convergencia casi en todas partes será denominada convergencia casi segura y a la convergencia en medida la llamaremos convergencia en probabilidad. Dada una variable aleatoria X : ! R y B 2 B R , la notación [X 2 B] será una manera abreviada de representar al conjunto f! 2 : X (!) 2 Bg. Si a; b 2 R, las notaciones [a < X < b], [a X b], [a X < b], [a < X b], [X < b], [X b], [X > a] y [X a] se entenderán en un sentido similar. Para el caso de un vector aleatorio utilizaremos una notación análoga. n Si (X1 ; X2 ; : : : ; Xn ) es un vector aleatorio con valores en R y B1 ; B2 ; : : : ; Bn T son conjuntos borelianos en R, denotaremos por [X1 2 B; X2 2 B2 ; : : : ; Xn 2 Bn ] al conjunto nk=1 [Xk 2 Bn ]. Definición 13.6. Sea X una variable aleatoria con valores en R. La proyección de P bajo X será denotada por X y la llamaremos la distribución de la variable aleatoria X. Si 13.2. VARIABLES ALEATORIAS 351 (X1 ; X2 ; : : : ; Xn ) es un vector aleatorio, la proyección de P bajo (X1 ; X2 ; : : : ; Xn ) será denotada por X1 ;X2 ;:::;Xn y la llamaremos la distribución del vector aleatorio (X1 ; X2 ; : : : ; Xn ). De acuerdo con la proposición 8.15 y el corolario 8.8, si X es una variable aleatoria con valores en R, X su distribución y f : R; B R ; X 7! R; B R una función medible, no negativa o integrable, se tiene: R R f (X) dP = R f d X . Si X es una variable aleatoria real y la consideramos como una función de ( ; =) en R; B R , entonces X es una variable aleatoria con valores en el conjunto de números reales extendido y su distribución X , aunque está de…nida sobre B R , está concentrada en R ya que X (f 1; 1g) = 0. n De la misma manera, si (X1 ; X2 ; : : : ; Xn ) es una vector aleatorio con valores en R , X1 ;X2 ;:::;Xn n n su distribución y f : R ; B R ; X1 ;X2 ;:::;Xn 7! R; B R una función medible, no negativa o integrable, se tiene: R R f (X1 ; X2 ; : : : ; Xn ) dP = R f d X1 ;X2 ;:::;Xn . De manera general, lo que nos interesa de una variable aleatoria, o de un vector aleatorio, es su distribución ya que ésta nos da todas las probabilidades de la forma P [X 2 B] (resp. n P [(X1 ; X2 ; : : : ; Xn ) 2 B] , donde B es cualquier conjunto boreliano de R (resp. R ). Definición 13.7 ( álgebra generada por una familia de funciones). Sea (E; E) un espacio medible y F un conjunto cualquiera. Dada una colección de funciones: H = ff : F ! (E; E) : 2 g, donde es un conjunto de índices cualquiera, se de…ne la -álgebra generada por H como la más pequeña -álgebra de subconjuntos de F tal que toda función f 2 H es medible. Denotaremos a esta -álgebra por por (H) o por (ff : 2 g). Obsérvese que si f : F ! (E; E) es cualquier función, la familia de conjuntos ff 1 (B) : B 2 Eg es una -álgebra de subconjuntos de F. Sin embargo, si ff : F ! (E; E) : 2 g es una colección de funciones, la familia de conjuntos f 1 (B) : 2 y B 2 E no es, en general, una -álgebra, pero la -álgebra generada por esa familia de conjuntos es la -álgebra generada por la familia de funciones ff : F ! (E; E) : 2 g. Por otra parte, si f1 ; f2 ; : : : ; fn son funciones de F en (R; B (R)) y de…nimos f : F ! R; B R mediante la relación: n f (x) = (f1 (x) ; f2 (x) ; : : : ; fn (x)), sabemos que si = es una -álgebra de subconjuntos de F, entonces f es =-medible si y sólo si fk es =-medible para cualquier k 2 f1; 2; : : : ; ng. Por lo tanto: 352 f 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD 1 (B) : B 2 B R n = (f ) = (ff1 ; f2 ; : : : ; fn g). Proposición 13.6. Sean Y1 ; : : : ; Yn n variables aleatorias con valores en R y Z : 7! R n 7 R tal una función (Y1 ; : : : ; Yn )-medible. Entonces, existe una función boreliana h : R ! que Z = h (Y1 ; : : : ; Yn ). Demostración n Si Z = IE , donde E 2 (Y1 ; : : : ; Yn ), entonces existe un boreliano B R tal que Z = IB (Y1 ; : : : ; Yn ). Por lo tanto, se tiene el resultado para el caso de una función simple Z (Y1 ; : : : ; Yn )-medible. Si Z es una variable aleatoria no negativa, sea (Zn )n2N una sucesión no decreciente de n funciones simples no negativas tales que Z = l mn 1 Zn y, para cada n 2 N, sea hn : R 7! R una función boreliana no negativa tal que Zn = hn (Y1 ; : : : ; Yn ). n n Sea D = x 2 R : l mn 1 hn (x) existe . Entonces D es un conjunto boreliano de R y n contiene a la imagen de bajo la función (Y1 ; : : : ; Yn ). De…namos la función h : R 7! R de la siguiente manera: h (x) = l mn 0 1 hn (x) si x 2 D en otro caso h es entonces una función boreliana y Z = h (Y1 ; : : : ; Yn ). Corolario 13.4. Sean Y1 ; : : : ; Yn n variables aleatorias con valores en R y Z : 7! R una función (Y1 ; : : : ; Yn )-medible. Entonces, existe una función boreliana h : Rn 7! R tal que Z = h (Y1 ; : : : ; Yn ). 13.3. Independencia de variables aleatorias Definición 13.8 (Independencia de variables aleatorias). Diremos que las variables aleatorias de una familia no vacía cualquiera fX g, …nita o in…nita, son independientes, si dada cualquier subcolección …nita de ellas, X 1 ; : : : ; X n y cualquier colección de subconjuntos borelianos de R, A1 ; : : : ; An , donde n 2 N, se tiene: P X 1 2 A1 ; : : : ; Xn 2 X n =P X 1 2 A1 P X n 2 An . Proposición 13.7. n variables aleatorias X1 ; : : : ; Xn , son independientes si y sólo si para cualquier colección de subconjuntos borelianos de R, A1 ; : : : ; An , se tiene: P [X1 2 A1 ; : : : ; Xn 2 An ] = P [X1 2 A1 ] P [Xn 2 An ]. Demostración Si las n variables aleatorias son independientes, la relación se sigue de la de…nición. 13.3. INDEPENDENCIA DE VARIABLES ALEATORIAS 353 Supongamos ahora que para cualquier colección de subconjuntos borelianos de R, A1 ; : : : ; An , se tiene: P [X1 2 A1 ; : : : ; Xn 2 An ] = P [X1 2 A1 ] P [Xn 2 An ]. Sean fXi1 ; : : : ; Xik g un subconjunto de la familia fX1 ; : : : ; Xn g y Ai1 ; : : : ; Aik subconjuntos borelianos de R. Para j 2 f1; : : : ; ng fi1 ; : : : ; ik g, de…namos Aj = R, entonces: P [Xi1 2 Ai1 ; : : : ; Xik 2 Aik ] = P [X1 2 A1 ; : : : ; Xn 2 An ] = P [X1 2 A1 ] P [Xn 2 An ] = P [Xi1 2 Ai1 ] P [Xik 2 Aik ]. Así que X1 ; : : : ; Xn son independientes. Corolario 13.5. Las variables aleatorias de una familia in…nita numerable, fX1 ; X2 ; : : :g, son independientes si y sólo si para cualquier n 2 N y cualquier colección de subconjuntos borelianos en R, A1 ; : : : ; An , se tiene: P [X1 2 A1 ; : : : ; Xn 2 An ] = P [X1 2 A1 ] P [Xn 2 An ]. Teorema 13.4. Sean X1 ; : : : ; Xn n variables aleatorias independientes y f1 ; : : : ; fn n funciones borelianas de R en R. Entonces las variables aleatorias f1 (X1 ); : : : ; fn (Xn ) son independientes. Demostración Sean A1 ; : : : ; An subconjuntos borelianos de R, entonces f1 1 (A1 ); : : : ; fn 1 (An ) son también subconjuntos borelianos de R, así que: P [f1 (X1 ) 2 A1 ; : : : ; fn (Xn ) 2 An ] = P X1 2 f1 1 (A1 ); : : : ; Xn 2 fn 1 (An ) = P X1 2 f1 1 (A1 ) P [Xn 2 fn 1 (An )] = P [f1 (X1 ) 2 A1 ] P [fn (Xn ) 2 An ]. Teorema 13.5. Sean X1 ; : : : ; Xn ; Xn+1 ; : : : ; Xn+m n + m variables aleatorias independientes n m y f : R 7! R y g : R 7! R dos funciones borelianas. Entonces, las variables aleatorias f (X1 ; : : : ; Xn ) y g(Xn+1 ; : : : ; Xn+m ) son independientes. Demostración Sea G la familia de subconjuntos B P [(X1 ; : : : ; Xn ) 2 A1 = P [(X1 ; : : : ; Xn ) 2 A1 A2 A2 ::: ::: m R tales que: An ; (Xn+1 ; : : : ; Xn+m ) 2 B] An ] P [(Xn+1 ; : : : ; Xn+m ) 2 B] para cualquier colección A1 ; : : : ; An de boreliano de R. 354 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD m G es entonces un d-sistema que contiene a los borelianos de R de la forma B1 B2 : : : Bn , donde B1 ; : : : ; Bn son borelianos de R, así que, por el teorema de clases monótonas para pim sistemas, G contiene a todos los borelianos de R . Sea H la familia de subconjuntos A n R tales que: P [(X1 ; : : : ; Xn ) 2 A; (Xn+1 ; : : : ; Xn+m ) 2 B] = P [(X1 ; : : : ; Xn ) 2 A] P [(Xn+1 ; : : : ; Xn+m ) 2 B] m para cualquier boreliano B de R . m H es entonces un d-sistema que contiene a los borelianos de R de la forma A1 A2 : : : An , donde A1 ; : : : ; An son borelianos de R, así que, por el teorema de clases monótonas para pin sistemas, H contiene a todos los borelianos de R . Por lo tanto: P [(X1 ; : : : ; Xn ) 2 A; (Xn+1 ; : : : ; Xn+m ) 2 B] = P [(X1 ; : : : ; Xn ) 2 A] P [(Xn+1 ; : : : ; Xn+m ) 2 B] n m para cualquier pareja de borelianos A y B de R y R , respectivamente. Sean C y D subconjuntos borelianos de R, entonces f n m borelianos de R y R , respectivamente. Por lo tanto: 1 (C) y g 1 (D) son subconjuntos P [f (X1 ; : : : ; Xn ) 2 C; g(Xn+1 ; : : : ; Xn+m ) 2 D] = P [(X1 ; : : : ; Xn ) 2 f 1 (C); (Xn+1 ; : : : ; Xn+m ) 2 g 1 (D)] = P [(X1 ; : : : ; Xn ) 2 f 1 (C)] P [(Xn+1 ; : : : ; Xn+m ) 2 g 1 (D)] = P [f (X1 ; : : : ; Xn ) 2 C] P [g(Xn+1 ; : : : ; Xn+m ) 2 D]. 13.4. Funciones de distribución Definición 13.9 (Función de distribución). Si X es una variable aleatoria real, la función FX : R 7! R, de…nida por FX (x) = P [X x], es llamada la función de distribución de X. Proposición 13.8. Sea X una variable aleatoria real y FX su función de distribución, entonces: (i) FX es una función no decreciente y continua por la derecha. (ii) l mx 1 FX (x) = 1 13.4. FUNCIONES DE DISTRIBUCIÓN 355 (iii) l mx! 1 FX (x) = 0 (iv) FX (x ) = P [X < x] para cualquier x 2 R. Demostración i. Sea (xn )n2N una sucesión decreciente tal que l mn FX (x+) = l mn = P [X 1 FX (xn ) = l mn!1 P [X x] = FX (x). xn = x, entonces: T xn ] = P ( 1 xn ]) n=1 [X 1 ii. Sea (xn ) una sucesión creciente tal que l mn 1 xn = 1, entonces: S l mn 1 FX (xn ) = l mn 1 P [X xn ] = P ( 1 xn ]) n=1 [X = P [ ] = 1. iii. Sea (xn ) una sucesión decreciente tal que l mn 1 xn = 1, entonces: T xn ]) = P [;] = 0. l mn 1 FX (xn ) = l mn 1 P [X xn ] = P ( 1 n=1 [X iv. Sea x 2 R y (xn ) una sucesión creciente tal que l mn 1 xn = x, entonces: S xn ]) = P [X < x]. FX (x ) = l mn 1 FX (xn ) = l mn!1 P [X xn ] = P ( 1 n=1 [X Obsérvese que si X es una variable aleatoria real y FX su función de distribución, entonces X es la medida generada por FX . Sea X una variable aleatoria real y de…namos: D = fx 2 R : P [X = x] > 0g, C = fx 2 R : P [X = x] = 0g, p = P [X 2 D]. Clasi…caremos a las variables aleatorias de acuerdo al valor de p. Si p = 0, diremos que la variable aleatoria es continua, si p = 1 diremos que es discreta. Cuando 0 < p < 1, se tiene P [X 2 D] > 0 y P [X 2 C] > 0, de manera que se puede decir que, en ese caso, la variable aleatoria tiene una parte discreta (la que corresponde al conjunto D) y una parte continua (la que corresponde al conjunto C). Un subconjunto importante del conjunto de variables aleatorias continuas está formado por las variables aleatorias reales X cuya distribución X es absolutamente continua con respecto a la medida de Lebesgue restringida a B R . En este caso X se puede extender de manera única a L R ya que si E 2 L (R), consideremos B 2 B (R) y C 2 L (R), de medida de Lebesgue cero, tales que E = B [ C; tomemos entonces F 2 B (R) de medida de Lebesgue 356 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD cero tal que C F . Como X es absolutamente continua con respecto a la medida de Lebesgue restringida a B R , entonces, X (F ) = 0. Así que podemos extender, de manera única, X a L R de…niendo X (G) = 0 para cualquier conjunto G 2 L R de medida de Lebesgue cero. Diremos que una variable aleatoria de este tipo es absolutamente continua. Definición 13.10. Si X es una variable aleatoria discreta, llamaremos función de densidad de X, y la denotaremos por fX , a la función fX : R ! [0; 1] de…nida mediante la relación: fX (x) = P [X = x]. Definición 13.11. Si X es una variable aleatoria absolutamente continua, llamaremos función de densidad de X, y la denotaremos por fX , a cualquier función medible f : (R; L (R)) ! R+ tal que: R X (B) = B f d para cualquier conjunto B 2 L R . 13.4.1. Algunos ejemplos de distribuciones. Cualquier medida de probabilidad sobre R; B R es una distribución de probabilidad, es decir, una distribución de alguna variable aleatoria. La demostración de esta a…rmación es inmediata, ya que si es una medida de probabilidad sobre R; B R , entonces podemos tomar como espacio de probabilidad a la terna R; B R , . Entonces la variable aleatoria X : ! R de…nida por X (!) = ! tiene como distribución a la medida . Sin embargo, es importante explicitar algunas de ellas, ya sea por su interés histórico o por presentarse con frecuencia en diferentes problemas. Así que a continuación haremos un listado de algunas distribuciones discretas y algunas absolutamente continuas, dando el nombre de la distribución y la función de densidad que la determina. Distribución Bernoulli con parámetro p, donde p 2 [0; 1]. 8 si x = 1 < p 1 p si x = 0 f (x) = : 0 en otro caso Distribución binomial con parámetros n y p, donde n 2 N y p 2 [0; 1]. f (x) = n x 0 px (1 p)n x si x 2 f0; 1; : : : ; ng en otro caso Distribución geométrica con parámetro p, donde p 2 [0; 1]. f (x) = p(1 0 p)x si x 2 f0; 1; : : :g en otro caso Distribución binomial negativa con parámetros n y p, donde n 2 N y p 2 [0; 1]. 13.4. FUNCIONES DE DISTRIBUCIÓN n+x 1 x f (x) = pn (1 0 p)x si x 2 f0; 1; : : :g en otro caso Distribución Poisson con parámetro , donde x f (x) = 0 e x! 357 es un número real positivo. si x 2 f0; 1; : : :g en otro caso Distribución hipergeométrica con parámetros r, s y n, donde r; s; n 2 N y n ( r s (x)(n x) si x 2 f0; 1; : : : ; ng (r+s f (x) = n ) 0 en otro caso r + s. Distribución uniforme discreta en el conjunto A, donde A es un conjunto …nito de números reales. 1 N fX (x) = si x 2 A en otro caso 0 donde N es el número de elementos de A. Distribución uniforme en el conjunto A, donde A es un conjunto Lebesgue medible de medida positiva. 1 (A) fX (x) = si x 2 A en otro caso 0 Distribución normal con parámetros p1 2 f (x) = 1 (x 2 2 e y 2 , donde ; 2Ry > 0. )2 Distribución normal estándar. f (x) = p1 2 e 1 2 x 2 Distribución exponencial con parámetro , donde f (x) = x e 0 si x > 0 en otro caso distribución gama con parámetros x fX (x) = donde 0 es un número real positivo. 1e ( ) x y , donde y son números reales positivos. si x > 0 en otro caso : (0; 1) ! R es la función gama, la cual está de…nida por: ( )= R1 0 t 1 e t dt. 358 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD Si X es una variable aleatoria real, X su distribución y FX su función de distribución, entonces, de acuerdo con el teorema 1, si de…nimos cX : (0; 1) 7! R mediante la relación cX (t) = nf fx 2 R : FX (x) > tg, se tiene: X (B) = cX1 (B) para cualquier conjunto B 2 B (R), donde es la medida de Lebesgue en el intervalo (0; 1). Sea U : ( ; =) ! R; B R una variable aleatoria con distribución uniforme en el intervalo (0; 1), entonces U coincide con la medida de Lebesgue en el intervalo (0; 1) y (0; 1) = 0. Así que, si f : R; B R ; U ! 7 R; B R es una función mediU R ble, no negativa o integrable, se tiene: R R1 R f (U ) dP = R f d U = 0 f (t) dt. Por lo tanto, si B 2 B (R), se tiene: R1 R cX1 (B) = 0 (IB cX ) (t) dt = (IB cX ) (U ) dP X (B) = R = IB (cX (U )) dP = P [cX (U ) 2 B] = cX (U ) (B). Así que la distribución de cX (U ) coincide con la distribución de X. Este resultado se puede demostrar directamente sin mucha di…cultad ya que P es una medida …nita. De…namos dX : (0; 1) 7! R mediante la relación dX (t) = nf fx 2 R : FX (x) tg. Lema 13.3. Sea X una variable aleatoria real. Entonces el conjunto ft 2 (0; 1) : cX (t) 6= dX (t)g es, a lo más, in…nito numerable. Demostración De…namos C como el conjunto de puntos t 2 (0; 1) para los cuales existe un intervalo de longitud positiva en el cual FX es constante e igual a t. Si t 2 (0; 1) y t 2 C, entonces dX es discontinua en t, así que C está contenido en el conjunto de puntos donde dX es discontinua. Por otra parte, al ser dX una función no decreciente, el conjunto de puntos en los cuales dX es discontinua es …nito o in…nito numerable. Por lo tanto, C es un conjunto …nito o in…nito numerable. Si t 2 (0; 1) y t 2 = C, entonces cX (t) = dX (t), así que, si cX (t) 6= dX (t), entonces t 2 C. Por lo tanto: ft 2 (0; 1) : cX (t) 6= dX (t)g lo cual prueba el resultado. C. 13.5. FUNCIONES DE DISTRIBUCIÓN CONJUNTAS 359 Teorema 13.6. Sean X una variable aleatoria real con función de distribución FX y U una variable aleatoria con distribución uniforme en el intervalo (0; 1). Entonces la función de distribución de la variable aleatoria dX (U ) es FX . Demostración Como FX es continua por la derecha, se tiene FX (dX (t)) t. Tomemos z 2 R. Si dX (U (!)) Si U (!) z, entonces U (!) FX (dX (U (!))) FX (z). FX (z), entonces dX (U (!)) = nf fs 2 R : FX (s) U (!)g z Por lo tanto, se tiene: P [dX (U ) z] = P [U FX (z)] = FX (z). Corolario 13.6. Sea X una variable aleatoria con función de distribución FX y U una variable aleatoria con distribución uniforme en el intervalo (0; 1). Entonces la función de distribución de la variable aleatoria cX (U ) es FX . Demostración Como el conjunto B = ft 2 (0; 1) : cX (t) 6= dX (t)g es, a lo más, in…nito numerable, P [U 2 B] = 0, así que P [cX (U ) = dX (U )] = 1. Por lo tanto: P [cX (U ) z] = P [dX (U ) z] = FX (z) para cualquier z 2 R. 13.5. Funciones de distribución conjuntas Definición 13.12 (Función de distribución conjunta). Sean X1 ; : : : ; Xn n variables aleatorias reales. La función FX1 ;:::;Xn : Rn 7! R, de…nida por: FX1 ;:::;Xn (x1 ; : : : ; xn ) = P [X1 x1 ; : : : ; Xn xn ] será llamada la función de distribución conjunta de X1 ; : : : ; Xn . Teorema 13.7. Sean X1 ; : : : ; Xn n variables aleatorias y sea FX1 ;:::;Xn su función de distribución conjunta, entonces, para cada: (x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ) 2 Rn 1 , se tiene: 360 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD (i) La función x 7! FX1 ;:::;Xn (x1 ; : : : ; xj 1 ; x; xj+1 ; : : : ; xn ), de…nida sobre R, es no decreciente y continua por la derecha. (ii) l mx 1 FX1 ;:::;Xn (x1 ; : : : ; xj 1 ; x; xj+1 ; : : : ; xn ) = FX1 ;;:::;Xj 1 ;Xj+1 ;:::;Xn (x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ). (iii) l mx! 1 FX1 ;:::;Xn (x1 ; : : : ; xj 1 ; x; xj+1 ; : : : ; xn ) = 0. Demostración i. Sean x 2 R y (ym )m2N una sucesión monótona decreciente tal que l mn entonces: l mm 1 1 ym = x, FX1 ;:::;Xn (x1 ; : : : ; xj 1 ; ym ; xj+1 ; : : : ; xn ) = l mm!1 P [X1 x1 ; : : : ; Xj T x1 ; : : : ; Xj 1 =P( 1 m=1 [X1 = P [X1 x1 ; : : : ; Xj 1 xj 1 ; Xj 1 xj 1 ; Xj xj 1 ; Xj ym ; Xj+1 ym ; Xj+1 x; Xj+1 xj+1 ; : : : ; Xn xj+1 ; : : : ; Xn xj+1 ; : : : ; Xn xn ] xn ]) xn ] = FX1 ;:::;Xn (x1 ; : : : ; xj 1 ; x; xj+1 ; : : : ; xn ). ii. Sea (ym )m2N una sucesión creciente tal que l mn l mm!1 P [X1 x1 ; : : : ; Xj 1 xj 1 ; Xj S x1 ; : : : ; Xj 1 xj 1 ; Xj =P( 1 m=1 [X1 = P [X1 x1 ; : : : ; Xj = FX1 ;;:::;Xj 1 ;Xj+1 ;:::;Xn 1 1 ym ; Xj+1 ym ; Xj+1 xj 1 ; Xj 2 R; Xj+1 ym = 1, entonces: xj+1 ; : : : ; Xn xj+1 ; : : : ; Xn xj+1 ; : : : ; Xn xn ] xn ]) xn ] (x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ). iii. Sea (ym )m2N una sucesión decreciente tal que l mn l mm!1 P [X1 x1 ; : : : ; Xj 1 xj 1 ; Xj T =P( 1 x1 ; : : : ; Xj 1 xj 1 ; Xj m=1 [X1 ym ; Xj+1 ym ; Xj+1 1 ym = 1, entonces: xj+1 ; : : : ; Xn xj+1 ; : : : ; Xn xn ] xn ]) = P [;] = 0. Las condiciones de la proposición anterior no son su…cientes para que una función F sea una función de distribución conjunta. En efecto, consideremos, por ejemplo, la siguiente función: 8 si x < 0 ó y < 0 < 0 x + y si x + y < 1; x 0; y 0 F (x; y) = : 1 si x + y 1; x 0; y 0 Esta función tiene las propiedades siguientes: 13.5. FUNCIONES DE DISTRIBUCIÓN CONJUNTAS 361 (i) Para cada y 2 R, la función x 7! F (x; y) es no decreciente y continua por la derecha y l mx 1 F (x; y) = 0. (ii) Para cada x 2 R, la función y 7! F (x; y) es no decreciente y continua por la derecha y l my 1 F (x; y) = 0. (iii) Las funciones G : R 7! [0; 1] y H : R 7! [0; 1], de…nidas por G(y) = l mx 1 F (x; y) y H(x) = l my 1 F (x; y), respectivamente, son funciones de distribución en una variable. Sin embargo, F no es una función de distribución conjunta de alguna pareja de variables aleatorias X; Y . En efecto, si lo fuera, se tendría: P [X x] = l my P [Y y] = l mx 1 1 FX;Y (x; y) = 0 si x < 0 1 si x 0 FX;Y (x; y) = 0 si y < 0 1 si y 0 Así que, P [X = 0] = P [Y = 0] = 1. Por lo tanto, se tendría P [X = 0; Y = 0] = 1. Pero, P [X = 0; Y = 0] F (0; 0) = 0, lo cual es una contradicción. Una familia de variables aleatorias X1 ; : : : ; Xn puede verse como la función de en Rn que asigna a cada ! 2 el vector (X1 (!); : : : ; Xn (!)); de esta forma, podemos decir que las variables aleatorias forman un vector aleatorio (X1 ; : : : ; Xn ). Recordemos que un rectángulo en Rn es un conjunto de la forma I1 I1 ; ; In son intervalos en R. In , en donde Si R = I1 In es un rectángulo en Rn y a1 ; b1 ; : : : ; an ; bn son los extremos de I1 ; ; In , respectivamente, los intervalos Ik serán llamados los lados del rectángulo y los puntos del conjunto V(a1 ;b1 ;:::;an ;bn ) = f(x1 ; : : : ; xn ) : xk 2 fak ; bk g para toda kg serán llamados los vértices del rectángulo. El rectángulo (a1 ; b1 ] al conjunto: (k) (an ; bn ] será denotado por R(a1 ;b1 ;:::;an ;bn ) y S(a1 ;b1 ;:::;an ;bn ) denotará f(x1 ; ; xn ) : xi = ai para k índices i y xi = bi para el resto de índicesg. S (k) Obviamente, V(a1 ;b1 ;:::;an ;bn ) = nk=0 S(a1 ;b1 ;:::;an ;bn ) . Teorema 13.8. Sean X1 ; : : : ; Xn n variables aleatorias y (a1 ; b1 ] de Rn . Entonces, para cualquier evento A se tiene: P ([a1 < X1 b1 ; ; an < Xn bn ] \ A) (an ; bn ] un rectángulo 362 = 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD Pn k=0 ( Pn 1)k (k) (x1 ; ;xn )2S(a 1 ;b1 ;:::;an ;bn ) o P ([X1 x1 ; ; Xn xn ] \ A). Demostración Para n = 1 se tiene: b1 ] \ A) = P ([X1 P ([a1 < X1 b1 ] \ A) P ([X1 a1 ] \ A). Así que la relación se cumple en este caso. Supongamos que la relación se cumple para cualquier rectángulo (a1 ; b1 ] (ak ; bk ] y cualquier evento A. Entonces, dado cualquier rectángulo (a1 ; b1 ] (ak+1 ; bk+1 ] y cualquier evento A se tiene: P ([a1 < X1 b1 ; bn+1 ] \ A) ; an+1 < Xn+1 = P ([a1 < X1 b1 ; ; an < Xn bn ; Xn+1 bn+1 ] \ A) P ([a1 < X1 b1 ; ; an < Xn bn ; Xn+1 an+1 ] \ A) = (P [a1 < X1 b1 ; ; an < Xn bn ] \ A \ [Xn+1 bn+1 ]) ; an < Xn bn ] \ A \ [Xn+1 an+1 ]) (P [a1 < X1 b1 ; P P = nk=0 ( 1)k n(x ; Pn k=0 ( = Pn+1 k=0 ( 1)k 1)k Pn ;xn )2S(a (x1 ; ;xn )2S(a (x1 ; ;xn+1 )2S P o P ([X1 x1 ; ; Xn xn ] \ A \ [Xn+1 bn+1 ]) o P ([X1 x1 ; ; Xn xn ] \ A \ [Xn+1 an+1 ]) (k) 1 1 ;b1 ;:::;an ;bn ) (k) 1 ;b1 ;:::;an ;bn ) P ([X1 (k) x1 ; ; Xn+1 (a1 ;b1 ;:::;an+1 ;bn+1 ) xn+1 ] \ A). Así que, por el principio de inducción matemática, la relación se cumple para cualquier n 2 N, cualquier rectángulo (a1 ; b1 ] (an ; bn ] y cualquier evento A. Corolario 13.7. Sean X1 ; : : : ; Xn n variables aleatorias y (a1 ; b1 ] tángulo de Rn . Entonces: P ([a1 < X1 b1 ; ; an < Xn P P = nk=0 ( 1)k n(x ; ;x )2S (k) n 1 (an ; bn ] un rec- bn ]) (a1 ;b1 ;:::;an ;bn ) o FX1 ;:::;Xn (x1 ; ; xn ). Corolario 13.8. Sean X1 ; : : : ; Xn n variables aleatorias y FX1 ;:::;Xn su función de distribución conjunta, entonces: Pn Pn k oF ; xn ) 0 (k) X1 ;:::;Xn (x1 ; k=0 ( 1) (x ; ;x )2S 1 n (a1 ;b1 ;:::;an ;bn ) para cualquier rectángulo (a1 ; b1 ] (an ; bn ]. 13.5. FUNCIONES DE DISTRIBUCIÓN CONJUNTAS 363 Para la continuidad por la derecha, se tiene el siguiente resultado, más general que el enunciado en la proposición 13.7: Teorema 13.9. Sean X1 ; : : : ; Xn n variables aleatorias y FX1 ;:::;Xn su función de distribución conjunta, entonces: l mm 0 (m) 1 ; FX1 ;:::;Xn x1 + ; xn + (m) n = FX1 ;:::;Xn (x1 ; ; xn ) ; xn ) 2 Rn y cualquier sucesión para cualquier vector (x1 ; converja al vector 0 2 Rn y tal que (m) 1 ; ; (m) n (m) 1 ; ; (m) n que m2N sean números reales positivos. Demostración (m) 1 ; Sea ; (m) n m2N una sucesión que converge al vector 0 2 Rn y tal que (m) 1 ; ; (m) n son números reales positivos. Entonces, para cualquier k 2 f1; 2; : : : ; ng, se tiene: l mm 0 (m) k = 0. Así que, para cada k 2 f1; 2; : : : ; ng, existe una subsucesión (m) k (mj ) k , de la sucesión j2N , la cual es decreciente. m2N Por lo tanto: l mm 1 = l mj = l mj =P FX1 ;:::;Xn x1 + 1 1 FX1 ;:::;Xn x1 + h P T1 h j=1 = P ([X1 (m) 1 ; X1 X1 x1 + x1 + x1 ; : : : ; Xn = FX1 ;:::;Xn (x1 ; (mj ) ; 1 ; xn + (m) n ; xn + (mj ) ; : : : ; Xn 1 (mj ) ; : : : ; Xn 1 (mj ) n xn + xn + (mj ) n (mj ) n xn ]) i i ; xn ). Teorema 13.10. n variables aleatorias reales, X1 ; : : : ; Xn , son independientes si y sólo si: FX1 ;:::;Xn (x1 ; ; xn ) = FX1 (x1 ) FX2 (x2 ) FXn (xn ) para cualquier vector (x1 ; x2 ; : : : ; xn ) 2 Rn . Demostración Si X1 ; : : : ; Xn , son independientes , la relación 364 13. FORMULACIÓN AXIOMÁTICA DE LA TEORÍA DE LA PROBABILIDAD FX1 ;:::;Xn (x1 ; ; xn ) = FX1 (x1 ) FX2 (x2 ) FXn (xn ) para cualquier vector (x1 ; x2 ; : : : ; xn ) 2 Rn , se sigue inmediatamente de la de…nición. Inversamente, supongamos que FX1 ;:::;Xn (x1 ; cualquier vector (x1 ; x2 ; : : : ; xn ) 2 Rn . De…namos: 8 > > < H1 = A R : > > : FXn (xn ), para ; xn ) = FX1 (x1 ) FX2 (x2 ) A es boreliano y P [X1 2 A; X2 x2 ; : : : ; Xn xn ] = P [X1 2 A] P [X2 x2 ] P [Xn xn ] para cualquier vector (x2 ; : : : ; xn ) 2 Rn 1 9 > > = > > ; H1 es entonces un d-sistema que contiene a todos los intervalos de la forma ( 1; x], los cuales forman un -sistema que genera a los borelianos. Con base en el teorema de clases monótonas se concluye entonces que H1 contiene a todos los borelianos. Es decir: P [X1 2 A; X2 x2 ; : : : ; Xn para cualquier boreliano A xn ] = P [X1 2 A] P [X2 x2 ] P [Xn xn ] R y cualquier vector (x2 ; : : : ; xn ) 2 Rn 1 . Sea j 2 f1; 2; : : : ; ng y supongamos que A1 ; A2 ; : : : ; Aj son j conjuntos borelianos de R tales que: P [X1 2 A1 ; X2 2 A2 ; : : : ; Xj 2 Aj ; Xj+1 = P [X1 2 A1 ] P [X2 2 A2 ] xj+1 ; Xj+2 P [Xj 2 Aj ] P [Xj+1 xj+2 ; : : : ; Xn xj+1 ] P [Xj+2 xn ] xj+2 ] P [Xn xn ] para cualquier vector (xj+1 ; xj+2 ; : : : ; xn ) 2 Rn j . De…namos: 8 > > > > < H= B R: > > > > : B es boreliano y P [X1 2 A1 ; X2 2 A2 ; : : : ; Xj 2 Aj ; Xj+1 2 B; Xj+2 = P [X1 2 A1 ] P [X2 2 A2 ] P [Xj 2 Aj ] P [Xj+1 2 B] P [Xj+2 xj+2 ] P [Xn n (j+1) para cualquier vector (xj+2 ; : : : ; xn ) 2 R xj+2 ; : : : ; Xn 9 > > > xn ] > = > > > > ; xn ] H es entonces un d-sistema que contiene a todos los intervalos de la forma ( 1; y], los cuales forman un -sistema que genera a los borelianos. Con base en el teorema de clases monótonas, se concluye entonces que H contiene a todos los borelianos. Es decir: P [X1 2 A1 ; X2 2 A2 ; : : : ; Xj 2 Aj ; Xj+1 2 B; Xj+2 xj+2 ; : : : ; Xn xn ] = P [X1 2 A1 ] P [X2 2 A2 ] P [Xj 2 Aj ] P [Xj+1 2 B] P [Xj+2 para cualquier boreliano B R y cualquier vector (xj+2 ; : : : ; xn ) 2 Rn xj+2 ] P [Xn (j+1) . xn ] 13.5. FUNCIONES DE DISTRIBUCIÓN CONJUNTAS 365 Partiendo de que H1 contiene a todos los borelianos de R y aplicando el resultado anterior n veces, se obtiene que: P [X1 2 A1 ; X2 2 A2 ; : : : ; Xn 2 An ] = P [X1 2 A1 ] P [X2 2 A2 ] P [Xn 2 An ] para cualquier colección A1 ; A2 ; : : : ; An de n conjuntos borelianos de R. Por lo tanto, X1 ; : : : ; Xn , son independientes. CAPÍTULO 14 Esperanza y leyes de los grandes números 14.1. Esperanza de una variable aleatoria Uno de los conceptos básicos de la teoría de la probabilidad es el de esperanza de una variable aleatoria. Su importancia es comparable con la del concepto mismo de probabilidad de un evento. De hecho, el concepto de esperanza y el de probabilidad surgieron en forma paralela cuando, a mediados del siglo XV II, se inicia el Cálculo de Probabilidades. Fue Christiaan Huygens quien introdujo este concepto en su libro Du calcul dans les jeux de hasard, publicado en el año 1657 ([49]). En esa época, Blaise Pascal y Pierre de Fermat habían resuelto algunos problemas de probabilidad, con métodos que sentarían las bases para el desarrollo de una nueva disciplina matemática, el Cálculo de Probabilidades. Huygens resolvió, con sus propios métodos, los problemas que antes habían resuelto Pascal y Fermat y algunos otros más. Uno de los aspectos interesantes de la metodología utilizada por Huygens es que en ningún momento se consideran ahí probabilidades de eventos, todas las soluciones están basadas en el cálculo de esperanzas, lo cual hacía ver ya que este concepto podía tomarse como primario, previo incluso al de probabilidad de un evento, y a partir de él desarrollar la nueva disciplina. La historia no fue de ese modo pues el concepto que prevaleció como primario fue el de probabilidad. Sin embargo, la historia misma mostraría más adelante que esta dualidad de importancia, entre el concepto de esperanza y el de probabilidad, que se dio al inicio del desarrollo de la teoría de la probabilidad como disciplina matemática, tenía fuertes raíces pues al evolucionar el concepto de probabilidad, hasta fusionarse con el de medida en los primeros años de este siglo, resultó palpable la estrecha relación entre ambos conceptos, de tal manera que, efectivamente, cualquiera de los dos puede tomarse como punto de partida, quedando inmersos uno dentro del otro. Esto último ya no únicamente dentro del contexto de la teoría de la probabilidad, sino dentro del contexto más amplio de la teoría de la medida, donde el concepto de probabilidad corresponde al de medida y el de esperanza al de integral. Definición 14.1. Si X es una variable aleatoria no negativa, de…nimos la esperanza de X, E [X], de la siguiente manera: R E [X] = XdP . 367 368 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS Definición 14.2. Diremos que la variable aleatoria X tiene esperanza …nita si E [jXj] < 1. En ese caso de…nimos su esperanza de la siguiente manera: E [X] = E [X + ] E [X ]. La Esperanza de una variable aleatoria tiene las mismas propiedades que la integral, es decir, se tiene la linealidad, el teorema de la convergencia monótona, el lema de Fatou, etcétera. Además, algunas propiedades útiles son las siguientes: Teorema 14.1. Si X es una variable aleatoria real no negativa, entonces E [f (X)] = R1 + + f (x) dFX (x) para cualquier función boreliana f : R 7! R . 0 Demostración + X es una función de…nida sobre con valores en R , así que, de acuerdo con la proposi+ + ción 8.14, genera una medida X sobre R ; R , la cual está de…nida por X (B) = + + P [X 2 B]; además, si f : R 7! R es una función medible, se tiene: R R + fd = f XdP . X R Pero X es la medida generada por la función de distribución de X, así que se tiene: R R + f dFX = f XdP . R Proposición 14.1. Sea X una variable aleatoria real no negativa, entonces: R1 E [X] = 0 [1 FX (x)] dx. Demostración hR i R R R1R X 1 E [X] = E 0 dx = I[0;X] (x) dxdP = 0 I[0;X] (x) dP dx 0 = R1 0 P [X x] dx = R1 0 P [X > x] dx = Corolario 14.1. E [X + ] = R1 0 R1 0 [1 FX (x)] dx. P [X > x] dx y E [X ] = R0 1 P [X < x] dx. Demostración R1 R1 E [X + ] = 0 P [X + > x] dx = 0 P [X > x] dx. R1 R1 R0 E [X ] = 0 P [X > x] dx = 0 P [X < x] dx = 1 P [X < x] dx. Corolario 14.2. Una variable aleatoria real X tiene esperanza …nita si y sólo si las inteR1 R0 grales 0 P [X > x] dx y 1 P [X < x] dx convergen. 14.1. ESPERANZA DE UNA VARIABLE ALEATORIA 369 Corolario 14.3. Si X es una variable aleatoria real de esperanza …nita, entonces: R0 R1 E [X] = 0 P [X > x] dx P [X < x] dx. 1 Obsérvese que, como FX (x ) = P [X < x] y el conjunto de discontinuidades de FX es a lo más Rin…nbito numerable,RP [X < x] = FX (x) excepto a lo más en un conjunto numerable, así 0 0 que 1 P [X < x] dx = 1 FX (x)dx. Además, P [X > x] = 1 FX (x), así que entonces se tiene el siguiente resultado: Teorema R 1 14.2. Sea X una variable R 0 aleatoria real, entonces X tiene esperanza …nita si y sólo si 0 [1 FX (x)] dx < 1 y 1 FX (x)dx < 1 y, en ese caso, se tiene: R1 R0 E [X] = 0 [1 FX (x)] dx F (x)dx. 1 X R0 R1 Cuando se tiene 0 P [X > x] dx = 1 y 1 P [X < x] dx < 1, se de…ne E [X] = 1, R1 R0 mientras que cuando 0 P [X > x] dx < 1 y 1 P [X < x] dx = 1, se de…ne E [X] = 1. Cuando ambas integrales sean divergentes, entonces la esperanza de X no está de…nida. Proposición 14.2. Sea X una variable aleatoria real no negativa y no decreciente, continua por la derecha y nula en x = 0, entonces: R1 E [ (X)] = 0 P [X x] d (x). : R+ ! R una función Demostración R R R1 E [ (X)] = (X (!)) dP (!) = I[0;X(!)] (x) d (x) dP 0 R1 R R1 = 0 I[0;X(!)] (x) dP d (x) = 0 P [X x] d (x). Teorema 14.3. Sean X y Y dos variables aleatorias independientes de esperanza …nita, entonces XY también tiene esperanza …nita y E [XY ] = E [X] E [Y ]. Demostración P '= m k=1 bk IEk , en donde b1 ; : : : ; bm son números reales y E1 ; : : : ; Em son conjuntos medibles. Supongamos primero que X y Y son variables aleatorias discretas no negativas. Sea VX el conjunto de posibles valores de X, entonces: R1 E [XY ] = 0 P [XY > z] dz R1P = 0 x2VX P [XY > z; X = x] dz R1 P = fx2VX :x>0g 0 P Y > xz ; X = x dz R1 P = fx2VX :x>0g 0 xP [Y > y; X = x] dy 370 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS P R1 xP [X = x] P [Y > y] dy R1 P = fx2VX :x>0g xP [X = x] 0 P [Y > y] dy = fx2VX :x>0g 0 = E [X] E [Y ]. Sean ahora X y Y dos variables aleatorias independientes no negativas. De acuerdo con el teorema 7.3, existen dos sucesiones (Xn )n2N y (Yn )n2N de variables aleatorias discretas no negativas tales que Xn Xn+1 y Yn Yn+1 para cualquier n 2 N y l mn 1 Xn (!) = X(!) y l mn 1 Yn (!) = Y (!) para cualquier ! 2 , lo cual implica Xn Yn Xn+1 Yn+1 para cualquier n 2 N y l mn 1 (Xn Yn ) (!) = (XY ) (!) para cualquier ! 2 . Además, de acuerdo con la demostración del teorema, para cada n 2 N, existe una función medible fn : R 7! R tal que Xn = fn (X) y Yn = fn (Y ), de manera que, por la proposición 13.4, Xn y Yn son independientes. De manera que, por el teorema de la convergencia monótona, se tiene: E [XY ] = l mn = l mn 1 1 E [Xn Yn ] E [Xn ] l mn 1 E [Yn ] = E [X] E [Y ]. Finalmente, si X y Y dos variables aleatorias independientes cualesquiera de esperanza …nita, se tiene: jXY j = j(X + X ) (Y + Y )j (X + + X ) (Y + + Y ). Pero, siendo X + + X y Y + + Y variables aleatorias no negativas de esperanza …nita, su producto también lo es, de manera que XY tiene esperanza …nita. Además, por la proposición 13.4, X + = max(X; 0) y Y + = max(Y; 0) son independientes y, de la misma manera, lo son X + y Y , X y Y + y X y Y . Por lo tanto: E [XY ] = E [(X + X ) (Y + = E [X + Y + ] + E [X Y ] Y )] = E [X + Y + + X Y E [X + Y ] = E [X + ] E [Y + ] + E [X ] E [Y ] = (E [X + ] E [X ]) (E [Y + ] X +Y X Y +] E [X Y + ] E [X + ] E [Y ] E [X ] E [Y + ] E [Y ]) = E [X] E [Y ]. Un razonamiento de inducción permite demostrar el siguiente corolario: Corolario de esperanza …nita, Q 14.4. Sean X1 ; : : : ; Xn n variables aleatorias Q independientes Q entonces nk=1 Xk también tiene esperanza …nita y E [ nk=1 Xk ] = nk=1 E [Xk ]. 14.2. VARIANZA Y COVARIANZA 371 14.2. Varianza y covarianza Definición 14.3 (Varianza). Sea X una variable aleatoria de esperanza …nita. Se de…ne la varianza de X; V ar(X), mediante la relación: V ar(X) = E (X E(X))2 . A la raíz cuadrada no negativa de la varianza se le llama la desviación estándar de X. La varianza de una variable aleatoria mide entonces el alejamiento de los valores de X de su esperanza. También se acostumbra decir que la varianza es una medida de la dispersión de los valores de la variable aleatoria. Definición 14.4 (Varianza …nita). Diremos que una variable aleatoria X tiene varianza …nita si se cumplen las siguientes dos condiciones: (i) X tiene esperanza …nita. (ii) (X E [X])2 tiene esperanza …nita. Proposición 14.3. Una variable aleatoria X tiene varianza …nita si y sólo si X 2 tiene esperanza …nita. Demostración Se tiene X 2 = (X E [X])2 +2XE [X] (E [X])2 , así que si X tiene varianza …nita, entonces X 2 tiene esperanza …nita. Supongamos ahora que X 2 tiene esperanza …nita. Se tiene jXj 1 + X 2 y (X E [X])2 = X 2 2XE [X] (E [X])2 . De manera que tanto X como (X E [X])2 tienen esperanza …nita. Es decir, X tiene varianza …nita. Proposición 14.4. Sea X una variable aleatoria de esperanza …nita, entonces: V ar(X) = E [X 2 ] (E [X])2 . Demostración Si X no tiene varianza …nita entonces X 2 no tiene esperanza …nita, así que se cumple la igualdad. Si X tiene varianza …nita, entonces X 2 tiene esperanza …nita y se tiene: V ar(X) = E (X E(X))2 = E X 2 = E [X 2 ] 2 (E [X])2 + (E [X])2 = E [X 2 ] (E [X])2 . 2XE(X) + (E [X])2 372 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS Proposición 14.5. Sean X y Y dos variables aleatorias de varianza …nita. Entonces, XY tiene esperanza …nita. Demostración Para cualquier par de números reales x y y, se tiene jxyj 1 2 X + 21 Y 2 . 2 1 2 (x2 + y 2 ). Así que, jXY j Por lo tanto, XY tiene esperanza …nita. Corolario 14.5. Si X y Y son dos variables aleatorias de varianza …nita y a y b son dos números reales cualesquiera, entonces aX + bY tiene varianza …nita. Demostración (aX + bY )2 = a2 X 2 + 2abXY + b2 Y 2 , así que, por las proposiciones 14.5 y 14.3, aX + bY tiene varianza …nita. Definición 14.5 (Covarianza). Sean X y Y dos variables aleatorias de varianza …nita. Se de…ne la covarianza de X y Y , Cov(X; Y ), mediante la relación: Cov(X; Y ) = E [(X E [X]) (Y E [Y ])] = E [XY ] E [X] E [Y ]. Proposición 14.6. Sean X y Y dos variables aleatorias independientes de varianza …nita, entonces Cov(X; Y ) = 0. Demostración El resultado es inmediato pues X y Y son independientes y tienen esperanza …nita, así que E [XY ] = E [X] E [Y ]. El siguiente ejemplo muestra que la covarianza entre dos variables aleatorias puede ser cero sin que éstas sean independientes. Ejemplo 14.1. Sea X una variable aleatoria con función de densidad dada por: 8 1 < 4 si x 2 f 1; 1g 1 si x = 0 f (x) = 2 : 0 en otro caso y sea Z una variable aleatoria, independiente de X, con distribución uniforme en el conjunto f 1; 1g. De…namos la variable aleatoria Y de la siguiente manera: Y = Z si X = 0 0 en otro caso Se tiene entonces: 14.2. VARIANZA Y COVARIANZA 373 fY (y) = P [Y = y] = P [Y = y; X = 0] + P [Y = y; X 6= 0] = P [Z = y; X = 0] + P [Y = y; X 6= 0] = P [Z = y] P [X = 0] + If0g (y)P [X 6= 0] 8 1 < 4 si y 2 f 1; 1g 1 si y = 0 = 41 If 1;1g (y) + 12 If0g (y) = : 2 0 en otro caso fX;Y (x; y) = P [X = x; Y = y] = P [X = x; Y = y; X = 0] + P [X = x; Y = y; X 6= 0] = If0g (x)P [Z = y; X = 0] + If0g (y)If 1;1g (x)P = If0g (x)P [Z = y] P [X = 0] + If0g (y)If = 41 If0g (x)If = 1;1g (y) + 14 If0g (y)If [X = x] 1;1g (x)P [X = x] 1;1g (x) 1 4 si x = 0; y 2 f 1; 1g ó y = 0; x 2 f 1; 1g 0 en otro caso Así que, por ejemplo, P [X = 1; Y = 1] 6= P [X = 1] P [Y = 1], de manera que X y Y no son independientes. Por otro lado, E [X] = E [Y ] = E [XY ] = 0, de manera que Cov(X; Y ) = 0. Proposición 14.7. Sean X y Y dos variables aleatorias de varianza …nita y a y b dos números reales cualesquiera. Entonces Cov(aX; bY ) = abCov(X; Y ). Demostración Cov(aX; bY ) = E [aXbY ] E [aX] E [bY ] = ab (E [XY ] E [X] E [Y ]) = abCov(X; Y ). Teorema 14.4. Sean X; X1 ; : : : ; Xn n+1 variables aleatorias de esperanza …nita. Entonces: (i) V ar(X) = 0 si y sólo si existe una constante c tal que P [X = c] = 1. (ii) V ar(aX + b) = a2 V ar(X) para cualesquiera constantes Pn a y b. (iii) Si X1 ; : : : ; Xn tienen varianza …nita, entonces i=1 Xi también tiene varianza …nita y: P P P V ar( ni=1 Xi ) = ni=1 V ar(Xi ) + 2 fi;j2f1;:::;ng:i<jg Cov(Xi ; Yj ). Demostración 1. V ar(X) = 0 si y sólo si E (X E(X))2 = 0, lo cual, por la proposición 7.13, ocurre si y sólo si P (X E(X))2 = 0 = 1, es decir, P [X = E(X)] = 1. 374 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS 2. V ar(aX + b) = E (aX aE [X])2 = a2 E (X E [X])2 = a2 V ar(X). P 3. Que ni=1 Xi tiene varianza …nita se sigue del corolario 14.5 y un razonamiento de inducción. Además: hP i hP i P Pn 2 2 n V ar( ni=1 Xi ) = E ( ni=1 Xi E [X ]) = E ( (X E [X ])) i i i i=1 i=1 P E [Xi ])2 + 2 fi;j2f1;:::;ng:i<jg E [(Xi E [Xi ]) (Xj E [Xj ])] P P = ni=1 V ar(Xi ) + 2 fi;j2f1;:::;ng:i<jg Cov(Xi ; Yj ). Corolario Pn 14.6. Sean X1 ; : : : ; Xn n variables aleatorias Pindependientes Pn y de varianza …nita, n entonces i=1 Xi también tiene varianza …nita y V ar( i=1 Xi ) = i=1 V ar(Xi ). = Pn i=1 E (Xi Teorema 14.5 (Desigualdad de Cauchy-Schwarz). Sean X y Y dos variables aleatorias cualesquiera, entonces: p p E [jXY j] E [X 2 ] E [Y 2 ]. p p E [X 2 ] E [Y 2 ] si y Además, si X y Y tienen varianza …nita, entonces jE [XY ]j = sólo si existen constantes a y b tales que por lo menos una de ellas es distinta de cero y P [aX + bY = 0] = 1. Demostración Si E [X 2 ] = 1 o E [Y 2 ] = 1 la desigualdad es obvia. Supongamos ahora que E [X 2 ] < 1 y E [Y 2 ] < 1, es decir, que tanto X como Y tienen varianza …nita. Sea Si 1 = (E [Y 2 ]) 2 y 1 = (E [X 2 ]) 2 . = 0, se tiene E [X 2 ] = 0, de manera que: P [jXY j = 0] P [X = 0] = P [X 2 = 0] = 1 Por lo tanto, E [jXY j] = 0. Así que se cumple la desigualdad. De la misma manera, si = 0, entonces E [jXY j] = 0. Así que se cumple la desigualdad. Supongamos ahora que >0y Sabemos que 0 E ( jXj Así que, jXj jY j tiene varianza …nita y se tiene: jY j)2 = E [jXY j] > 0. 2 E [X 2 ] + 2 E [Y 2 ] 0. Es decir, E [jXY j] E [jXY j] = 2 2 2 2 2 E [jXY j]. . Para parte, supongamos primero que X y Y tienen varianza …nita y que jE [XY ]j = p la segunda p 2 2 E [X ] E [Y ]. 14.2. VARIANZA Y COVARIANZA De…niendo, como antes, 1 = (E [Y 2 ]) 2 y 375 1 = (E [X 2 ]) 2 , se tiene: Si = 0 y = 0, entonces P [X = 0] = P [Y = 0] = 1. Por lo tanto P [X = 0; Y = 0] = 1. De manera que, tomando en consideración que P [X = 0; Y = 0] P [X + Y = 0], se tiene P [X + Y = 0] = 1. Es decir, se tiene el resultado deseado con a = b = 1. Si 6= 0 ó 6= 0 se tienen los siguientes dos casos: Si E [XY ] > 0, entonces: 0 E ( X Y )2 = 2 Así que, E ( X 2 2 2 E [XY ] = 0. Y )2 = 0, de lo cual se sigue P [ X Es decir, se tiene el resultado deseado con a = yb= Y = 0] = 1. . Si E [XY ] < 0, entonces: 0 E ( X + Y )2 = 2 2 2 +2 E [XY ] = 0. Así que, E ( X + Y )2 = 0, de lo cual se sigue P [ X + Y = 0] = 1. Es decir, se tiene el resultado deseado con a = yb= . Finalmente, supongamos que existen constantes a y b tales que por lo menos una de ellas es distinta de cero y P [aX + bY = 0] = 1. Supongamos, por ejemplo, que a 6= 0, entonces P X = ab Y = 1. Así que: i h 2 2 2 b (E [XY ])2 = ab 2 (E [Y 2 ]) = E E [Y 2 ] = E [X 2 ] E [Y 2 ]. Y a Corolario 14.7. Sean X y Y dos variables aleatorias de varianza …nita. Entonces: p p jCov(X; Y )j V ar(X) V ar(Y ). Además, la igualdad se cumple si y sólo si existen constantes a, b y c tales que a y b no son ambas cero y P [aX + bY = c] = 1. Demostración Utilizando la proposición 14.5, se tiene: jCov(X; Y )j = jE [(X E [X]) (Y E [Y ])]j E [jX E [X]j jY E [Y ]j] q q p p E (X E [X])2 E (Y E [Y ])2 = V ar(X) V ar(Y ). Si la igualdad se cumple, entonces se tiene 376 jE [(X 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS E [X]) (Y q E [Y ])]j = E (X 2 E [X]) q E (Y E [Y ])2 . De manera que, nuevamente por la proposición 14.5, existen constantes a y b tales que no son ambas cero y P [a (X E [X]) + b (Y E [Y ]) = 0] = 1. Es decir: P [aX + bY = c] = 1, donde c = aE [X] + bE [Y ]. Supongamos ahora que existen constantes a, b y c tales que a y b no son ambas cero y P [aX + bY = c] = 1. Entonces E [aX + bY De manera que se tiene: P [a (X E [X]) + b (Y c] = 0, de lo cual se sigue c = E [aX + bY ]. E [Y ]) = 0] = 1. Así que, por la proposición 14.5, se tiene: jCov(X; Y )j = jE [(X E [X]) (Y E [Y ])]j = p p V ar(X) V ar(Y ). 14.3. Desigualdad de Chebyshev El gran impulso para el desarrollo de una teoría de la probabilidad, que le haría ganar un lugar dentro de las matemáticas, proviene de los llamados teoremas límite, los cuales se re…eren al comportamiento a largo plazo de sucesiones de variables aleatorias. El primero de estos resultados, que para algunos autores marca verdaderamente el inicio de la historia de la teoría de la probabilidad, se debe a Jacques Bernoulli, quien dedicó 20 años de su vida a la búsqueda de una prueba matemática de la relación que existe entre la probabilidad de un evento y la frecuencia relativa con la que éste ocurre en una serie grande de repeticiones del correspondiente experimento aleatorio. El resultado, conocido como teorema de Bernoulli, se publicó en el año 1713, ocho años después de la muerte de su autor. Puede decirse que, a partir de la publicación del teorema de Bernoulli, el motor de desarrollo de la teoría de la probabilidad fue la búsqueda de resultados que permitieran mejorar y generalizar ese teorema. Vendrían después los teoremas de de Moivre y de Poisson, relativos a la aproximación de una distribución binomial mediante una distribución normal y una distribución Poisson, respectivamente, los cuales fueron publicados en los años 1730 y 1800, respectivamente. Este proceso continuaría desarrollándose y recibiría un gran impulso, entre 1870 y 1900, con los trabajos de la llamada escuela rusa, representada por Pafnuty Lvovich Chebyshev ([18], [19], [20]), Andrei Andreyevich Markov ([66], [67], [68], [69]) y Aleksandr Mikhailovich Lyapunov ([63], [64]), entre otros, los cuales conducirían a la forma general que se dio a los teoremas límite, entre 1900 y 1930, con la formulación de las leyes de los grandes números 14.4. LÉY DÉBIL DE LOS GRANDES NÚMEROS 377 y el teorema central del límite, tanto en su forma clásica, relativa a la convergencia a la distribución normal, como en su forma moderna, relativa a la convergencia a cualquier otro tipo de distribución, sobresaliendo en este periodo los trabajos de Aleksandr Yakovlevich Khintchine, Andrey Nikolaevich Kolmogorov, J. W. Lindeberg, William Feller y Paul Pierre Lévy, entre otros. Como puede verse, fueron más de 200 años de historia de la teoría de la probabilidad guiada por el estudio de los teoremas límite. Proposición 14.8. Sea X cualquier variable aleatoria y " cualquier número real positivo, entonces: P [jXj 1 E " "] [jXj]. Demostración R1 R" R1 E [jXj] = 0 1 FjXj (x) dx = 0 1 FjXj (x) dx + " 1 FjXj (x) dx R" R" R" 1 F (x) dx = P [jXj > x] dx P [jXj "] dx = "P [jXj "]. jXj 0 0 0 Corolario 14.8. Sea X cualquier variable aleatoria y " cualquier número real positivo, entonces: P [jXj 1 E "2 "] [X 2 ]. Demostración "] = P [X 2 P [jXj "2 ] 1 E "2 [X 2 ]. Corolario 14.9 (Desigualdad de Chebyshev). Sea X cualquier variable aleatoria de esperanza …nita y " cualquier número real positivo, entonces: P [jX E [X]j "] 1 V "2 ar [X]. 14.4. Léy débil de los grandes números Teorema 14.6 (Ley débil de los grandes números de Chebyshev). Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas, de varianza …nita. Entonces: X1 +:::+Xn n donde P ! , es la esperanza común de X1 ; X2 ; : : :. 378 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS Demostración Para cada n 2 N, sea Yn = X1 + n +Xn . Entonces Yn es una variable aleatoria de varianza …nita y esperanza . De manera que, por la desigualdad de Chebyshev, se tiene: 1 V "2 j > "] P [jYn ar [Yn ] = 2 n"2 , donde 2 es la varianza común de X1 ; X2 ; : : :. Tomando límites cuando n entonces el resultado. 1 se tiene R1 Lema 14.1. Si f : [0; 1) 7! R es una función decreciente y no negativa tal que 0 f (x)dx < 1 y (an ) una sucesión creciente de números reales positivos tal que l mn 1 an = 1, entonces l mn 1 an f (an ) = 0. Demostración La sucesión (sn ), en donde sn = P sn = fk2N:k R an f (x)dx 0 an g Rk k 1 R1 0 P P f (k)dx fk2N:k an g fk2N:k an g f (x)dx. f (k), es no decreciente y se tiene: Rk k 1 f (x)dx Así que (sn ) converge y es, por lo tanto, una sucesión de Cauchy. Entonces, dada natural M tal que si n P " > 0 existe un número " " , es decir f (k) < . fk2N:am <k an g 2 2 m M entonces sn sm < Sea ahora N tal que an > 2(aM + 1) para cualquier n > N , se tiene entonces, para n > N , P " an 2(aM + 1) > 0 y (an aM 1)f (an ) fk2N:aM <k an g f (k) < 2 . Así que: an f (an ) < 2(an aM 1)f (an ) < ", lo cual prueba el resultado. Proposición 14.9. Si X es una variable aleatoria de esperanza …nita y (an ) una sucesión creciente de números reales positivos tal que l mn 1 an = 1, entonces: l mn 1 an P [X > an ] = l mn 1 an P [X < an ] = 0. Demostración Como X tiene esperanza …nita, se tiene: R1 R1 P [X > x] dx = [1 FX (x)] dx < 1, 0 0 R1 R1 R1 P [X < x] dx P [X x] dx = 0 FX ( x) < 1. 0 0 14.4. LÉY DÉBIL DE LOS GRANDES NÚMEROS Además, las funciones x 7! P [X > x] y x 7! P [X < el intervalo [0; 1). 379 x] son no negativas y decrecientes en El resultado se sigue entonces del lema 14.1. Lema 14.2. Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas, de esperanza …nita y (an ) una sucesión creciente de números reales positivos tal que l mn 1 an = 1. Para n; k 2 N, de…namos: Ykn = Xk si jXk j an . 0 en otro caso Entonces, …jando n, las variables aleatorias Y1n ; Y2n ; : : : tienen la misma distribución. Además,si n n n es la esperanza común de Y1 ; Y2 ; : : :, entonces l mn 1 n = . Demostración FYkn (x) = P [Ykn = P [Xk x; jXk j 8 0 > > < P [ an Xk = P [ an Xk > > : 1 x] = P [Ykn an ] + P [Ykn x; jXk j an ] + P [Ykn x; jXk j > an ] x; jXk j > an ] si x < an x] si an x < 0 x] + P [jXk j > an ] si 0 x an si x > an 8 0 si x < an > > < P [ an Xk x] si an x < 0 = P [Xk x] + P [Xk > an ] si 0 x an > > : 1 si x > an 8 0 si x < an > > < FXk (x) P [Xk < an ] si an x < 0 = F (x) + P [X > a ] si 0 x an > X k n > : 1 k si x > a n De manera que, …jando n, las variables aleatorias Y1n ; Y2n ; : : : tienen la misma distribución. Además: R1 R1 n 1 FY1n (x) dx FY1n ( x)dx n = E [Y1 ] = 0 0 Ra R an = 0 n 1 FY1n (x) dx FY1n ( x)dx 0 Ra R an = 0 n [1 FX1 (x) P [X1 > an ]] dx [FX1 ( x) P [X1 < an ]] dx 0 Ra R an = 0 n [1 FX1 (x)] dx an P [X1 > an ] FX1 ( x)dx + an P [X1 < an ] 0 380 = 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS R an 0 [1 R an FX1 (x)] dx 0 FX1 ( x)dx + an P [X1 < Así que, utilizando la proposición 14.9, l mn 1 n an ] an P [X1 > an ]. = E [X1 ] = . El siguiente resultado fue demostrado por Aleksandr Yakovlevich Khintchine en el año 1928 ([51]): Teorema 14.7 (Ley débil de los grandes números de Khintchine). Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas, de esperanza …nita . Entonces: X1 + +Xn n P ! . Demostración Sea es el valor común de E [jX1 j], E [jX2 j] ; : : :. Si entonces que > 0. Dada = 0, el resultado es trivial. Supongamos > 0, de…namos, para n; k 2 N: "2 n 8 an = Xk si jXk j an 0 en otro caso y Ykn = Por el lema 14.2, …jando n, las variables aleatorias Y1n ; Y2n ; : : : tienen la misma distribución y si n es la esperanza común de Y1n ; Y2n ; : : :, entonces l mn 1 n = . Por otra parte, para cualesquiera n; k 2 N, se tiene (Ykn )2 …nita. Además, jYkn j E (Ykn )2 2 n jXk j y jYkn j an , así que, si E [an jXk j] = an E [jXk j] = 2 n a2n , así que Ykn tiene varianza es la varianza común de Y1n ; Y2n ; : : :, se tiene: "2 nE 8 n"2 . 8 [jXk j] = Ahora bien, como l mn 1 n = y l mn 1 an P [X1 > an ] = 0, existe N tal que j 2 y an P [X1 > an ] < 2 para cualquier n > N . Entonces, para n > N , se tiene: X1 + +Xn n P P P h h >" i > " + P [Ykn 6= Xk para alguna k Y1n + +Ynn n Y1n + +Ynn n n > " 2 i + P [Ykn 6= Xk para alguna k Pero, por la desigualdad de Chebyshev, se tiene: n] n]. n j< " 2 14.5. LEY FUERTE DE LOS GRANDES NÚMEROS P h Y1n + +Ynn n n > Además: " 2 i 4 2n n"2 2 381 . Pn n P [Ykn 6= Xk para alguna k n] k=1 P [Yk 6= Xk ] P = nk=1 P [jXk j > an ] = nP [X1 > an ] = n a P an n [X1 > an ] = 1 an P [X1 > an ] < 2 . Así que: P X1 + +Xn n >" 2 + 2 = , lo cual prueba el resultado. El método utilizado por Khintchine en la proposición anterior es conocido como el método de truncación. Fue introducido por Markov en el año 1913 con relación a un teorema de Aleksandr Mikhailovich Lyapunov, el cual generaliza el teorema de de Moivre. 14.5. Ley fuerte de los grandes números Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas, de varianza …nita y esperanza común . La ley débil de los grandes números P establece que X1 + n +Xn ! . En el año 1930 Andrey Nikolaevich Kolmogorov mostró que este resultado puede mejorarse demostrando que la convergencia a se da no sólo en probabilidad sino también con probabilidad 1, la cual, como ya vimos, es un tipo de convergencia más fuerte. Como vimos antes, la demostración de que la sucesión Yn = X1 + n +Xn converge a en probabilidad está basada en la desigualdad de Chebyshev, de la cual se obtiene que P [jYn j > "] K , en donde K es una constante. De la proposición 10.3 puede verse, que P para demostrar que n j > "] < la sucesión Yn converge a con probabilidad 1 bastaría con demostrar que 1 n=1 P [jYn 1 para cualquier " > 0. Para probar esto no basta con aplicar la desigualdad P de Cheby1 shev puesto que ésta únicamente establece que P [jYn j > "] Kn y la serie 1 n=1 n no es convergente. El resultado de Kolmogorov tiene su origen en el teorema de Borel, publicado en el año 1909, el cual se enuncia y demuestra a continuación (la demostración no es la original de Borel, sino la de Hausdor¤): Teorema 14.8 (Teorema de Borel). Sea E un experimento aleatorio y A un evento relativo a ese experimento, de probabilidad igual a p. Consideremos un nuevo experimento aleatorio consistente en la repetición inde…nida del experimento E, de tal manera que cada repetición es independiente de las otras. Sea Xn el número de veces que ocurre el evento A en las c:s: primeras n repeticiones del experimento, entonces Xnn ! p. 382 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS Demostración Sabemos que Xn tiene distribución binomial de parámetros n y p. Así que: E [Xn ] = np, E [Xn2 ] = np + n(n 1)p2 , E [Xn3 ] = np + 3n(n 1)p2 + n(n E [Xn4 ] = np + 7n(n 1)p2 + 6n(n Por lo tanto: h i E X4 4 [ ] E Xnn p = n4n = 1 p (1 n3 p) [3np(1 4 p) 1)(n E [Xn3 ] p n3 6p(1 2)p3 , 1)(n +6 2)p3 + n(n E [Xn2 ] 2 p n2 p) + 1] < 1)(n 2)(n 3)p4 . n] 3 4 E[X p + p4 n 1 4n3 3n 4 +n < 1 . n2 Sabemos además que si X es cualquier variable aleatoria y " cualquier número real positivo, entonces P [jXj "] 1" E [jXj], así que: P E Xn n p >" P La serie 1 n=1 P el corolario 10.3, Xn n Xn n h ( Xn "4 4 p) i < 1 . n2 "4 p > " es entonces convergente para cualquier " > 0. Así que, por c:s: c:s: p ! 0, es decir, Xnn ! p. El teorema de Borel equivale a decir que si X1 ; X2 ; : : : es una sucesión de variables aleatorias c:s: independientes, todas con distribución Bernoulli de parámetro p, entonces X1 + n +Xn ! p. El método de Kolmogorov para probar la convergencia con probabilidad 1 de la sucesión n Yn = X1 +:::+X está basado en una desigualdad más general que la de Chebyshev y que él n mismo demuestra, por lo cual es llamada la desigualdad de Kolmogorov. Aquí daremos una versión ligeramente modi…cada de la demostración original. Teorema 14.9 (Desigualdad de Kolmogorov). Sean X1 ; : : : ; Xn n variables aleatorias independientes de varianza …nita y " cualquier número real positivo, entonces: P max jSj 1 j n E [Sj ]j > " 1 V "2 donde, para j 2 f1; : : : ; ng, Sj = Demostración ar [Sn ], Pj i=1 Xi . Supongamos primero que E [Xk ] = 0 para cualquier k 2 f1; : : : ; ng. Entonces también se tiene E [Sk ] = 0 para cualquier k 2 f1; : : : ; ng. 14.5. LEY FUERTE DE LOS GRANDES NÚMEROS Sea A = Ak = !2 : max jSk (!)j > " 1 k n ! 2 A : max jSj (!)j 1 j k 1 donde max jSj (!)j 383 y, para k 2 f1; : : : ; ng: "; jSk (!)j > " , 0. 1 j 0 S Entonces, los eventos A1 ; : : : ; An son mutuamente excluyentes y A = nk=1 Ak . Así que: P P P E [Sn2 IA ] = E [Sn2 nk=1 IAk ] = nk=1 E [Sn2 IAk ] = nk=1 E (Sk + Sn Sk )2 IAk P = nk=1 E Sk2 + 2Sk (Sn Sk ) + (Sn Sk )2 IAk P P P = nk=1 E [Sk2 IAk ] + 2 nk=1 E [Sk (Sn Sk ) IAk ] + nk=1 E (Sn Sk )2 IAk . Pero, por la proposición 13.5 y el corolario 7.7, Sk IAk y Sn Sk son independientes y tienen esperanza …nita, de manera que, por la proposición 14.4, se tiene: Sk )] = E [Sk IAk ] E [Sn E [Sk IAk (Sn = E [Sk IAk ] E [Sn Sk ] Sk ] = 0. Por lo tanto: V ar [Sn ] = E [Sn2 ] Pn 2 k=1 E [Sk IAk ] = "2 P max jSj 1 j n P P E [Sn2 IA ] = nk=1 E [Sk2 IAk ] + nk=1 E (Sn Sk )2 IAk Pn Pn 2 2 2 k=1 P (Ak ) = " P (A) k=1 " E [IAk ] = " E [Sj ]j > " , de lo cual se sigue el resultado. Para el caso general, sea Yk = Xk E [Xk ] para k 2 f1; : : : ; ng. Entonces, las variables aleatoP P rias Y1 ; : : : ; Yn son independientes, tienen varianza …nita, ji=1 Yi = ji=1 (Xi E [Xi ]) y E [Yj ] = 0 para cualquier j 2 f1; : : : ; ng. De manera que si " es cualquier número real P positivo y Sj = ji=1 Xi para cualquier j 2 f1; : : : ; ng, entonces: P max jSj E [Sj ]j > " = P 1 j n 1 V "2 ar hP j i=1 i Yi = 1 V "2 ar [Sn ]. max 1 j n Pj i=1 Yi > " 384 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS Teorema 14.10 (Ley fuerte de los grandes números (1) de Kolmogorov). Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes, de varianza …nita, esperanza P 2 2 n nula y tales que 1 n=1 n2 < 1, donde n es la varianza de Xn . Entonces: X1 + +Xn n c:s: ! . Demostración P Para cada n 2 N sea Sn = nk=1 Xk y, para cada " > 0, sea: n o A" = ! 2 : Snn(!) > " para una in…nidad de valores de n . Por la proposición 10.1, para probar el resultado basta con demostrar que P (A" ) = 0 para cualquier " > 0. Para esto de…namos: o n Bn;" = ! 2 : Skk(!) > " para alguna k 2 N tal que 2n 1 < k 2n . Evidentemente se tiene: A" = f! 2 : ! 2 Bn;" para una in…nidad de valores de ng. De manera que, por el lema de Borel-Cantelli, para probar que P (A" ) = 0 para cualquier P P (B ) < 1 para cualquier " > 0. Pero, utilizando " > 0, basta con demostrar que 1 n;" n=1 la desigualdad de Kolmogorov, se tiene: P (Bn;" ) = P P max 1 2n 1 "2 22n <k 2n 2 max 2n 1 <k 2n Sk k jSk j > "2n V ar [S2n ] = Así que: P1 n=1 P (Bn;" ) 4 "2 4 "2 22n >" =P 1 k=1 P1 1 n=1 22n max 1 <k 2n jSk j > k" max jSk j > "2n P P2n 2n 1 1 k 2n 2 k. P2n k=1 2 k = 4 "2 P1 k=1 2 k P 1 fn2N:k 2n g 22n . Sea ahora n0 el más pequeño número natural tal que k P P1 1 1 4 4 . fn2N:k 2n g 22n = n=n0 22n = 22n0 k2 Así que: P1 2 P k=1 k fn2N:k Por lo tanto: 2n g 1 22n 4 P1 k=1 2 k 2 k < 1. 2n0 , entonces: 14.5. LEY FUERTE DE LOS GRANDES NÚMEROS P1 n=1 P (Bn;" ) 4 "2 P1 k=1 P 2 k 1 fn2N:k 2n g 22n 385 < 1. Corolario 14.10. Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes, de P 2 2 n varianza …nita y tales que 1 n=1 n2 < 1, donde n es la varianza de Xn . Entonces: P P l mn 1 n1 nk=1 (Xk E [Xk ]) = 0 = 1. Para el caso en que las variables aleatorias X1 ; X2 ; : : : sean idénticamente distribuidas se cumple la ley fuerte con la única condición de que la esperanza común de X1 ; X2 ; : : : sea …nita. La demostración de este resultado se debe también a Kolmogorov y el método de demostración es el de truncación, el cual fue utilizado en la demostración de la ley débil. Se requieren además algunos resultados previos, los cuales se exponen a continuación: Lema 14.3. Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas de esperanza …nita . Para n 2 N, de…namos: Yn = Xn si jXn j n 0 en otro caso Entonces: (i) (ii) (iii) (iv) l mn 1 E [Yn ] = . Yn tiene varianza …nita para cualquier n 2 N. P1 2n 2 n=1 n2 < 1, en donde n es la varianza de Yn . P [f! 2 : existe N (!) tal que Yn (!) = Xn (!) para cualquier n Demostración 1. Se tiene: 8 > > < FY n (x) = > > : 0 P [ n Xn x] P [jXn j > n] + P [ n 1 Xn 8 0 si x < n > > < P [ n Xn x] si n x<0 = 1 P [x < Xn n] si 0 x n > > : 1 si x > n si x < n si n x<0 x] si 0 x n si x > n Así que: R1 Rn E [Yn ] = 0 [1 FY n (x)] dx FY n ( x)dx 0 Rn Rn = 0 P [x < Xn n] dx P [ n Xn x] dx 0 Rn Rn = 0 P [x < X1 n] dx P [ n X1 x] dx 0 N (!)g] = 1. 386 = = 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS Rn 0 Rn 0 [1 FX1 (x)] dx [1 FX1 (x)] dx Rn 0 Rn 0 Rn P [X1 > n] dx FX1 ( x)dx 0 FX1 ( x)dx: + = E X12 I[j 1<jX1 j j] + 1 22 E X12 I[j 0 P [X1 < nP [X1 > n] + nP [X1 < Por lo tanto, utilizando la proposición 14.9, l mn 2. Para cualquier n 2 N, se tiene jYn j P P1 1 P1 2 2 n 3. 1 n=1 n2 n=1 n2 E [Yn ] = n=1 P1 1 Pn = n=1 n2 j=1 E Xn2 I[j 1<jXn j j] Rn 1 n] dx n]. E [Yn ] = E [X1 ] = . n, así que Yn tiene varianza …nita. 1 E n2 Xn2 I[jXn j 1<jX1 j j] n] + E X22 I[j 1<jX2 j j] +::: = E X12 I[j 1+ 1<jX1 j j] 1 22 + E X22 I[j + 1<jX2 j j] 1 22 + 1 32 + + = P1 j=1 E Xj2 I[j 1<jXj j j] P1 1 n=j n2 . Pero, para cualquier j 2 f2; 3; : : :g, se tiene: R1 1 P1 1 2 = j 11 . n=j n2 j j 1 x2 P1 1 P 1 2. Además, 1 n=2 n2 n=1 n2 = 1 + P 1 2 Así que, 1 para cualquier j 2 N. n=j n2 j Además, tomando en cuenta que X1 ; X2 ; : : : tienen la misma distribución: E Xj2 I[j 1<jXj j j] jE jXj j I[j 1<jXj j j] = jE jX1 j I[j 1<jX1 j j] . Por lo tanto: P1 P1 P1 1 4 2 j=1 jE jX1 j I[j 1<jX1 j j] j j=1 E Xj I[j 1<jXj j j] n=j n2 P =4 1 j=1 E jX1 j I[j 1<jX1 j j] . P Sea ahora Zn = nj=1 jX1 j I[j 1<jX1 j j] , entonces la sucesión de variables aleatorias Z1 ; Z2 ; : : : es no decreciente y l mn 1 Zn (!) = jX1 (!)j para cualquier ! 2 , así que por el teorema de la convergencia monótona: P1 j=1 E jX1 j I[j 1<jX1 j j] = l mn 1 E [Zn ] = E [jX1 j] < 1, de lo cual se sigue que P1 2 n n=1 n2 < 1. 4. P [Yn 6= Xn ] = P [jXn j > n] = P [jX1 j > n]. 14.5. LEY FUERTE DE LOS GRANDES NÚMEROS De manera que, utilizando la proposición 8.1: P1 P1 P1 n=1 P [Yn 6= Xn ] = n=1 P [jX1 j > n] n=1 P [jX1 j 387 n] < 1. Así que, por el lema de Borel-Cantelli, si: A = f! 2 : Yn (!) 6= Xn (!) para una in…nidad de valores de ng, entonces P (A) = 0. Sea ahora: B = f! 2 : existe N (!) talque Yn (!) = Xn (!) para cualquier n Entonces, B Ac , así que, P (B) N (!)g. P (A) = 1. Corolario 14.11. Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas de esperanza …nita. Para n 2 N, de…namos: Yn = Xn si jXn j n . 0 en otro caso Entonces: P !2 : l mn 1 1 n Demostración Pn k=1 [Xk (!) Yk (!)] = 0 = 1. Por la parte iv del lema 14.3, si: B = f! 2 : existe N (!) talque Yn (!) = Xn (!) para cualquier n N (!)g, entonces P (B) = 1. Pero si ! 2 B, entonces existe N (!) tal que Xn (!) así que: P l mn 1 n1 nk=1 [Xk (!) Yk (!)] = 0. Yn (!) = 0 para cualquier n Lema 14.4. Sea (xn ) una sucesión convergente de números reales y sea x = l mn Pn 1 Entonces la sucesión zn = n k=1 xk es convergente y l mn 1 zn = x. Demostración Sea M > 0 tal que jx xn j M para cualquier n 2 N. Dada " > 0, sea m 2 N tal que jx xn j < " 2 Entonces, para n > max m; 2mM , se tiene: " para cualquier n m. N (!), 1 xn . 388 14. ESPERANZA Y LEYES DE LOS GRANDES NÚMEROS jzn = 1 n xj = Pm k=1 mM n + 1 n jxk Pn k=1 xk xj + (n m)" 2n " 2 1 n + x = Pn 1 n k=m+1 " 2 Pn k=1 jxk (xk x) xj 1 n Pn k=1 jxk xj = "; lo cual signi…ca que l mn 1 zn = x. Teorema 14.11 (Ley fuerte de los grandes números (2) de Kolmogorov). Sea X1 ; X2 ; : : : una sucesión de variables aleatorias, independientes e idénticamente distribuidas, de esperanza …nita . Entonces: X1 + +Xn n c:s: ! . Demostración Para cada n 2 N, sea: Yn = Xn si jXn j n 0 en otro caso Por el lema 14.3, las variables aleatorias Y1 ; Y2 ; : : : tienen esperanza …nita, l mn 1 E [Yn ] = P 2 2 n y 1 n=1 n2 < 1, donde n es la varianza de Yn . De manera que, por el lema 14.4 y el corolario 14.10, se tiene: P l m n1 nk=1 E [Yk ] = P P ! 2 : l mn 1 n1 nk=1 (Yk (!) E [Yk ]) = 0 = 1, de lo cual se obtiene: P !2 : l mn 1 1 n Pn k=1 Yk (!) = Además, por el corolario 14.11: P P ! 2 : l mn 1 n1 nk=1 [Xk (!) de lo cual se obtiene el resultado. = 1. Yk (!)] = 0 = 1, CAPÍTULO 15 CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD 15.1. Introducción La Teoría de la Probabilidad surgió del planteamiento de problemas teóricos, los cuales provenían de algún problema práctico. El problema de la división de apuestas, por ejemplo, surgió al buscar determinar cómo deberían de repartirse las apuestas en un juego de azar que se interrumpe antes de que alguno de los participantes gane el juego de acuerdo con las reglas establecidas. Sin embargo, como lo mencionamos en el capítulo anterior, una vez que la Teoría de la Probabilidad se formula en forma axiomática, los elementos que la componen no requieren de una interpretación práctica. Más aún, en la formulación axiomática, no es admisible de…nir un concepto en términos de un determinado fenómeno aleatorio, o demostrar algún teorema utilizando propiedades de un fenómeno aleatorio. Es posible que se utilice la Teoría de la Probabilidad para modelar algún fenómeno aleatorio y que los conceptos que se introduzcan o las propiedades que se demuestren provengan de las características de dicho fenómeno, o que estemos interesados en estudiar las propiedades del fenómeno en consideración basándonos en el modelo matemático, pero, si bien éste puede ser el caso, los elementos mismos del fenómeno o sus propiedades no forman parte del cuerpo teórico; lo que se observa del fenómeno podría motivar introducir algún concepto o buscar algún resultado dentro del modelo matemático que nos ayude a entender el fenómeno o darnos una idea de sus propiedades, pero las observaciones mismas no forman parte del modelo. Por ejemplo, el lanzamiento de un dado n veces consecutivas lo podemos modelar utilizando como espacio muestral al conjunto de todos los posibles resultados de los n lanzamientos, es decir, al conjunto formado por todas las colecciones ordenadas de n números naturales que pertenecen al conjunto f1; 2; 3; 4; 5; 6g; la familia de eventos la podemos considerar como el conjunto potencia de , es decir la familia formada por todos los subconjuntos de ; …nalmente, como medida de probabilidad podemos tomar la que asigna a cada subconjunto de el cociente que resulta de dividir el número de elementos de ese subconjunto entre 6n , el cual es el número de elementos de . Tendríamos así de…nido nuestro espacio de probabilidad, el cual podemos pensarlo como modelo matemático del lanzamiento de n dados en forma consecutiva, pero el modelo mismo es una abstracción, no requerimos de referirnos al lanzamiento del dado para de…nirlo. Podríamos decir: un ejemplo de espacio de probabilidad es el siguiente: De…namos = f1; 2; 3; 4; 5; 6g, = como la familia de todos los subconjuntos 389 390 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD de y como medida de probabilidad P tomemos a la función P : = ! R de…nida, para cada B 2 =, mediante la relación P (B) = f!2Bg p (!), donde p (!) = 61n para cualquier ! 2 . El espacio de probabilidad ( ; =; P ) así de…nido está formado por elementos matemáticos abstractos que se tendrían que tratar como independientes de cualquier fenómeno aleatorio. Como ya lo mencionamos, en algunos problemas de probabilidad se hace referencia al concepto de experimento aleatorio y se construye un espacio de probabilidad ad hoc para ese experimento, de manera similar a como lo hicimos con el lanzamiento del dado, pero nuevamente, el espacio de probabilidad que se construye tiene que tratarse como independiente de cualquier fenómeno aleatorio. Un caso particular de experimento aleatorio es lo que se conoce como ensayo de Bernoulli, el cual se de…ne como un experimento aleatorio que admite únicamente dos posibles resultados, a uno de los cuales se le llama éxito y al otro fracaso. Utilizando este concepto, podemos, por ejemplo, de…nir algunas variables aleatorias de interés o plantearnos algunos problemas de probabilidad que historicamente fueron importantes para el desarrollo de la Teoría de la Probabilidad. Por, ejemplo, podemos considerar al experimento aleatorio que consiste en la realización consecutiva de n ensayos de Bernoulli, cada uno de ellos independiente de los demás y tal que la probabilidad de obtener éxito es igual a un número p 2 [0; 1], el cual es el mismo para cada uno de los ensayos. Si de…nimos X como el número de éxitos que se obtienen al realizar los n ensayos, X resulta ser una variable aleatoria con distribución binomial de parámetros n y p, lo cual podemos mostrar sin necesidad de de…nir formalmente algún espacio de probabilidad. Como otro ejemplo, podemos considerar al experimento aleatorio que consiste en la realización consecutiva de una in…nidad de ensayos de Bernoulli, cada uno de ellos independiente de los demás y tal que la probabilidad de obtener éxito es igual a un número p 2 [0; 1], el cual es el mismo para cada uno de los ensayos. Si de…nimos Y como el número de fracasos que se obtienen antes de obtener éxito por primera vez al realizar el experimento, X resulta ser una variable aleatoria con distribución geométrica de parámetro p, lo cual, como en el caso anterior, podemos mostrar sin necesidad de de…nir formalmente algún espacio de probabilidad. Como tercer ejemplo, podemos, nuevamente, considerar al experimento aleatorio que consiste en la realización consecutiva de una in…nidad de ensayos de Bernoulli, cada uno de ellos independiente de los demás y tal que la probabilidad de obtener éxito es igual a un número p 2 [0; 1], el cual es el mismo para cada uno de los ensayos. Pero esta vez podemos preguntarnos por la probabilidad de obtener un número …nito de éxitos al realizar el experimento. En el caso del primer ejemplo, no hay problema para tratarlo sin necesidad de recurrir a la formulación axiomática que tratamos en el capítulo anterior. Pero, en el segundo ejemplo, y sobre todo en el tercero, podemos observar un problema si no se recurre a una formulación matemática (abstracta). El problema consiste en que la realización de una in…nidad de 15.1. INTRODUCCIÓN 391 ensayos de Bernoulli es imposible. En el segundo ejemplo podría argumentarse que no hay tal problema ya que casi con seguridad se obtendría el primer éxito en un número …nito de ensayos; sin embargo, sí hay problema, ya que siendo independiente cada ensayo de los demás, en cualquiera de ellos es posible que el resultado sea fracaso; de manera que es posible que no podamos determinar el número de fracasos que se obtienen antes de obtener éxito por primera vez. Podríamos obtener la distribución de X imaginando que es posible la realización del experimento, pero estaríamos partiendo de algo que es falso. En el tercer ejemplo es completamente claro que no es posible determinar si se obtiene un número …nito de éxitos al realizar el experimento ya que para determinarlo es necesario conocer la in…nidad de resultados que se obtienen, lo cual no es posible. Lo anterior muestra uno de los problemas a los que se enfrenta uno al no contar con un modelo matemático abstracto que permita formular los problemas de una manera distinta, dentro de un marco teórico donde no haya necesidad de realizar experimentos. Esto tiene relación con el planteamiento de Poincaré cuando, en el año 1896, decía: “No se puede dar una de…nición satisfactoria de la probabilidad.” y agregaba: “La de…nición completa de la probabilidad es una especie de petición de principio... deberemos, en cada aplicación, hacer convenciones.”Obsérvese que Poincaré incluye la frase “en cada aplicación”, lo cual nos dice que un problema de probabilidad lo pensaba vinculado a un determinado problema práctico. Es decir, la teoría y la aplicación estaban mezcladas en una sola cosa. Esto ilustra una de las razones por las cuales el Cálculo de Probabilidades no era considerado en esa época como una rama de las Matemáticas, sino de la Física, tal como lo expresó Hilbert en el año 1900: “Las investigaciones sobre los principios fundamentales de la geometría nos conducen a plantear este problema: Tratar con base en ese modelo las ramas de la Física donde las Matemáticas juegan actualmente un papel preponderante; esas ramas de la ciencia son, antes que cualesquiera otras, el Cálculo de Probabilidades y la Mecánica.” Con la formulación axiomática de la Teoría de la Probabilidad, la teoría y las aplicaciones quedan separadas, aunque entrelazadas de alguna manera. La teoría puede ser desarrollada independientemente de las aplicaciones que se hagan de ella, sin quedar éstas por fuera completamente ya que son las aplicaciones las que hacen surgir y alimentan las teorías, complementándose unas con la otras. Pasemos a ver de qué manera se resuelve el problema que planteamos en los ejemplos anteriores al formularlos dentro del marco teórico que tenemos desarrollado. En primer lugar, en lugar de hablar de un ensayo de Bernoulli, lo que se hace es introducir lo que se conoce como distribución Bernoulli. Para esto se representa un éxito con el número 1 y un fracaso con el número 0. Entonces decimos que una variable aleatoria X tiene distribución Bernoulli, con parámetro p 2 [0; 1], si P [X = 1] = p y P [X = 1] = 1 p. En lugar de considerar al experimento aleatorio que consiste en la realización consecutiva de n ensayos de Bernoulli, cada uno de ellos independiente de los demás y tal que la probabilidad de obtener éxito es igual a un número p 2 [0; 1], lo que se hace es construir un espacio de probabilidad ( ; =; P ) en el cual se puedan de…nir n variables aleatorias independientes, cada 392 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD una con distribución Bernoulli de parámetro p. Este espacio ya lo de…nimos en el capítulo anterior: Sea n = f(s1 ; s2 ; : : : ; sn ) : sj 2 f0; 1g para cualquier j 2 f1; 2; : : : ; ngg y, para cada ! = (s1 ; : : : ; sn ) 2 n y cada subconjunto A de , de…namos: Q pn (!) = nj=1 [psj + (1 p) (1 sj )], P P (A) = f!2Ag pn (!). P Como f!2 n g pn (!) = 1, P es una medida de probabilidad de…nida sobre el conjunto potencia de . De…namos ahora, para cada j 2 f1; 2; : : : ; ng, Xj : n ! R mediante la relación: Xj ((s1 ; s2 ; : : : ; sn )) = sj . Entonces, para cualquier k 2 f1; 2; : : : ; ng, dados r1 ; r2 ; : : : ; rk 2 f0; 1g, se tiene: P = Tk j=1 Qk [Xj = rj ] = j=1 P [prj + (1 P n :sj =rj para cualquier j2f1;:::;kgg f(s1 ;s2 ;:::;sn )2 rj )] . p) (1 f(sk+1 ;:::;sn ):sj 2f0;1g para cualquier j2fk+1;:::;ngg = Qk j=1 [prj + (1 p) (1 rj )]. Qn j=k+1 [psj + (1 Qn j=1 p) (1 [psj + (1 p) (1 sj )] sj )] Así que, si r 2 f0; 1g, se tiene: P [Xk = r] P = f(s1 ;s2 ;:::;sk = P f(s1 ;s2 ;:::;sk 1 ):sj 2f0;1g para cualquier j2f1;:::;k 1gg 1 ):sj 2f0;1g para cualquier j2f1;:::;k 1gg = [pr + (1 p) (1 r)] = pr + (1 p) (1 r). P f(s1 ;s2 ;:::;sk P [X1 = s1 ; X2 = s2 ; : : : ; Xk [pr + (1 p) (1 r)] 1 ):sj 2f0;1g para cualquier j2f1;:::;k 1gg Qk 1 j=1 Qk 1 j=1 1 = sj 1 ; Xk = r] [prj + (1 p) (1 rj )] [prj + (1 p) (1 rj )] Por lo tanto, para cualquier k 2 f1; 2; : : : ; ng, Xk tiene distribución Bernoulli con parámetro p. Además, para cualquier (s1 ; s2; : : : ; sn ) 2 P Tn j=1 [Xj = sj ] = Qn j=1 [psj + (1 n, p) (1 se tiene: sj )] = Qn j=1 P [Xj = sj ]. 15.2. FUNCIONES DE DISTRIBUCIÓN COMO MEDIDAS 393 Así que las variables aleatorias X1 ; X2 ; : : : ; Xn son independientes. P Ahora, si de…nimos X : n ! R mediante la relación X = nj=1 Xj , X tiene distribución binomial con parámetros n y p. 15.2. Funciones de distribución como medidas En este capítulo veremos cómo, partiendo de la función de distribución conjunta de un vector aleatorio (X1 ; : : : ; Xn ) con valores en Rn podemos obtener la medida de probabilidad X1 ;:::;Xn asociada con el vector aleatorio. Definición 15.1. Diremos que una función F : R 7! R es una función de distribución …nita en 1 variable si satisface las siguientes propiedades: (i) F es una función no decreciente y continua por la derecha. (ii) l mx 1 FX (x) < 1 (iii) l mx 1 FX (x) = 0 Definición 15.2. Para n 2 f2; 3; : : :g, diremos que una función F : Rn 7! R es una función de distribución …nita en n variables si satisface las siguientes propiedades: (i) Pn k=0 ( 1)k Pn (x1 ; (k) ;xn )2S(a 1 ;b1 ;:::;an ;bn ) o F (x1 ; ; xn ) 0 para cualquier rectángulo (a1 ; b1 ] (an ; bn ]. (m) (m) = F (x1 ; ; xn ) (ii) l mm 0 F x1 + 1 ; ; xn + n para cualquier vector (x1 ; n ; xn ) 2 Rn y cualquier sucesión (m) 1 ; (m) 1 ; ; (m) n m2N (m) n que converja al vector 0 2 R y tal que ; sean números reales positivos. (iii) l mx 1 F (x1 ; : : : ; xj 1 ; x; xj+1 ; : : : ; xn ) = 0 para cualquier (x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ) 2 Rn 1 . (iv) Para cada (x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ) 2 Rn 1 , el límite l mx 1 F (x1 ; : : : ; xj 1 ; x; xj+1 ; : : : ; xn ) existe y la función G : Rn 1 7! R de…nida por: G(x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ) = l mx 1 F (x1 ; : : : ; xj 1 ; x; xj+1 ; : : : ; xn ) es una función de distribución …nita en n 1 variables. Cuando l m(x1 ; ;xn ) (1;:::;1) F (x1 ; de distribución en n variables. Si a; b 2 R y a (a; bj = ; xn ) = 1, diremos simplemente que F es una función b, entonces de…nimos (a; bj de la siguiente manera: (a; b] si b 2 R (a; b) si b = 1 Si F : Rn 7! R es una función de distribución …nita y 394 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD (x1 ; : : : ; xj 1 ; xj+1 ; : : : ; xn ) 2 Rn 1 , de…nimos: F (x1 ; : : : ; xj 1 ; 1; xj+1 ; : : : ; xn ) = l mx 1 F (x1 ; : : : ; xj 1 ; x; xj+1 ; : : : ; xn ). F (x1 ; : : : ; xj 1 ; 1; xj+1 ; : : : ; xn ) = 0. Con estas convenciones, se tiene que: Pn Pn k oF (k) X1 ;:::;Xn (x1 ; k=0 ( 1) (x ; ;x )2S n 1 ; xn ) 0 (a1 ;b1 ;:::;an ;bn ) para cualquier rectángulo (a1 ; b1 j (an ; bn j. n Definición 15.3. Si F : R 7! R es una función de distribución …nita y R = (a1 ; b1 j (an ; bn j es un rectángulo en Rn , de…nimos F (R) de la siguiente manera: Pn Pn k o F (x ; ; xn ). (k) 1 F (R) = k=0 ( 1) (x ; ;x )2S n 1 (a1 ;b1 ;:::;an ;bn ) n Lema 15.1. Sea F : R 7! R una función de distribución …nita y R = (a1 ; b1 j un rectángulo en Rn . Para cada intervalo (ai ; bi j consideremos una partición: n o (i) (i) (i) P i = ai = c 0 < c 1 < < cmi = bi . (an ; bn j Entonces: (R) = F P F ji 2f1;:::;mi g R (1) (1) (n) (n) ;c ;:::;cjn 1 ;cjn 1 1 j1 cj . Demostración (1) Las particiones Pi parten el rectángulo R en m1 (n) (n) cjn 1 ; cjn y se tiene: (a1 ; b1 j Denotemos por V (n) (1) mn rectángulos de la forma cj1 1 ; cj1 S (n) (1) (n) (1) cjn 1 ; cjn . (an ; bn j = ji 2f1;:::;mi g cj1 1 ; cj1 (1) (1) (1) (n) (n) ;c ;:::;cjn 1 ;cjn 1 1 j1 cj (1) al conjunto de vértices del rectángulo cj1 1 ; cj1 (n) cjn 1 ; cjn , por S a la sumatoria: P ji 2f1;:::;mi g 2 P 6Pn 4 k=0 ( 1)k 8 < y por S 0 a la sumatoria: Pn Pn k (k) k=0 ( 1) (x ; ;x )2S 1 Sea (x1 ; ; xn ) 2 V partición Pi . n : (x1 ; ;xn )2S (a1 ;b1 ;:::;an ;bn ) o (k) (1) (n) (n) ; ;c ;c ;:::;c (c(1) j1 1 j1 jn 1 jn ) F (x1 ; (1) (1) (n) (n) ;c ;:::;cjn 1 ;cjn 1 1 j1 cj 9 = F (x1 ; 3 7 ; xn )5, ; xn ). , entonces cada coordenada xi es un elemento de la 15.2. FUNCIONES DE DISTRIBUCIÓN COMO MEDIDAS (i) Si xi = cj 2 Pi fai ; bi g, entonces (x1 ; (i) (i) c j 1 ; cj 395 ; xn ) es vértice de un rectángulo cuyo i-ésimo (i) (i) lado es y también es vértice de un rectángulo cuyo i-ésimo lado es cj ; cj+1 , de manera que F (x1 ; ; xn ) aparecerá en la sumatoria S dos veces, una con signo positivo y otra con signo negativo, cancelándose. Por lo tanto, los únicos términos de la sumatoria S, que no se anulan, son aquellos para los cuales xi 2 fai ; bi g para toda i 2 f1; : : : ; ng, es decir, (x1 ; ; xn ) 2 Sk para alguna k 2 f0; : : : ; ng. Cuando xi = ai , entonces el punto (x1 ; ; xn ) es vértice de un rectángulo cuyo i-ésimo (i) lado es ai ; c1 , mientras que cuando xi = bi , entonces el punto (x1 ; ; xn ) es vértice de (i) un rectángulo cuyo i-ésimo lado es cmi 1 ; bi . Por lo tanto, si (x1 ; (x1 ; ; xn ) 2 S (k) (1) (1) (n) (n) ;c ;:::;cjn 1 ;cjn 1 1 j1 cj ; xn ) 2 Sk , entonces para alguna colección (j1 ; : : : ; jn ), así que F (x1 ; ; xn ) aparece en la sumatoria S y en la sumatoria S 0 con el mismo signo. Es decir, S = S 0 . Proposición 15.1. Sea F : Rn 7! R una función de distribución …nita, R = (a1 ; b1 j (j) (j) (j) (j) an ; bn una colección …nita de (an ; bn j un rectángulo en Rn y R(j) = a1 ; b1 S (j) rectángulos en Rn , ajenos por parejas, tal que R = m j=1 R , entonces: Pm (j) . F (R) = j=1 F R Demostración (1) (1) (m) (m) Para cada i 2 f1; : : : ; ng, los puntos ai ; bi ; : : : ; ai ; bi intervalo (ai ; bi j. constituyen una partición del (j) (j) Este conjunto de particiones parte cada rectángulo R(j) en subrectángulos R1 ; : : : ; Rij . Por el lema anterior, se tiene: F R(j) = Pij (j) Además, R = Rk F k=1 Sm Sij j=1 . (j) k=1 Rk . Así que, nuevamente, por el lema: F (R) = Pm Pij j=1 k=1 (j) F Rk = Pm j=1 F R(j) . Corolario 15.1. Sea F : Rn 7! R es una función de distribución …nita, R = (a1 ; b1 j (j) (j) (j) (j) (an ; bn j un rectángulo en Rn y R(j) = a1 ; b1 an ; bn una colección …nita Sm (j) de rectángulos en Rn tal que R j=1 R , entonces: 396 F 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD Pm (R) F j=1 R(j) . Demostración (1) (1) (m) (m) Para cada i 2 f1; : : : ; ng, los puntos ai ; bi ; ai ; bi ; : : : ; ai ; bi de un intervalo (ci ; di j. constituyen una partición (j) (j) Este conjunto de particiones parte cada rectángulo R(j) en subrectángulos R1 ; : : : ; Rij . Por el lema anterior, se tiene: F R(j) = Pij (j) k=1 Rk F . El conjunto de particiones de…nido antes también parte el rectángulo R en subrectángulos R1 ; : : : ; Ri , así que, nuevamente por el lema, se tiene: Pi F (R) = k=1 F (Rk ). Sm (j) (j) Por otra parte, como R j=1 R , cada rectángulo Rk coincide con un rectángulo Rk0 para alguna j y alguna k 0 , por lo tanto: Pi F (R) = k=1 F (Rk ) Pm Pij j=1 (j) = Rk F k=1 Pm j=1 F R(j) . Proposición 15.2. Sea F : Rn 7! R una función de distribución …nita y: R1 ; : : : ; Rk y R(1) ; : : : ; R(m) dos colecciones …nitas de rectángulos en Rn , todos de la forma: (1) (1) (1) (1) an ; bn a1 ; b1 yStales que R1 ; : : : ; Rk son ajenos por parejas, R(1) ; : : : ; R(m) son ajenos por parejas y m (j) j=1 R . Entonces: Pk Pm i=1 F (Ri ) = j=1 F Sk i=1 Ri = R(j) . Demostración (j) Para cada i 2 f1; : : : ; kg y j 2 f1; : : : ; mg, de…namos Ri = Ri \ R(j) . Entonces, como Sk Sm Sm S (j) (j) (j) y R(j) = ki=1 Ri , así que: i=1 Ri = j=1 R , se tiene Ri = j=1 Ri F F (Ri ) = Pm R(j) = (j) j=1 Pk i=1 Ri F , (j) F Ri . 15.2. FUNCIONES DE DISTRIBUCIÓN COMO MEDIDAS Por lo tanto: Pk Pk Pm (R ) = i F i=1 i=1 j=1 = Pm Pk j=1 Pm = Pm = j=1 P1 Pm k=1 (j) (j) Rk F j=1 Ri F j=1 Pm P1 R(j) F j=1 (j) Ri F i=1 R(j) . F (j) F k=1 = 397 P1 k=1 Rk F (Rk ) = P1 i=1 F (Ai ). Teorema 15.1. Sea F : Rn 7! R una función de distribución …nita, R = (a1 ; b1 j (i) (i) (i) (i) (an ; bn j un rectángulo en Rn y R(i) = a1 ; b1 an ; bn una colección in…nita de S1 (i) rectángulos en Rn tal que R i=1 R , entonces: P1 (i) . F (R) i=1 F R Demostración Para cada i 2 N y cada i > 0, de…namos, para k 2 f1; : : : ; ng: ( (i) (i) bk + i si bk 2 R dki = (i) (i) bk si bk = 1 Consideremos el rectángulo: (i) (i) an ; dni , R i = a1 ; d1i el cual contiene a R(i) . Se tiene entonces: lm 0 i =lm = i Pn (R i ) Pn P8 k 0 < k=0 ( 1) k=0 ( F 1)k Pn : (x1 ; (x1 ; ;xn )2S 1 ;b1 ;:::;an ;bn ) Dada " > 0, existe entonces F (R i ) F R(i) < Por otra parte, si ck; = ak + 1 (a1 ;d1i ;:::;an ;dni ) ; (k) ;xn )2S(a i 9 = (k) o F (x1 ; F (x1 ; ; xn ) = > 0 tal que: " . 2i > 0, de…namos, para k 2 f1; : : : ; ng: si ak 2 R si ak = 1 ; xn ) F R(i) . 398 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD bk si bk 2 R 1 si bk = 1 dk; = Consideremos el rectángulo: R = (c1; ; d1; j (cn; ; dn; j. Entonces: lm 0 F =lm = 0 Pn (R ) Pn k=0 ( 1)k k=0 ( Tomemos R 1)k Pn P( (x1 ; (x1 ; ;xn )2S (k) (c1; (k) ;xn )2S(a 1 ;b1 ;:::;an ;) ;d1; ;:::;cn; ;dn; o F (x1 ; ) ) F (x1 ; ; xn ) = F ; xn ) (R). > 0 arbitraria, entonces: [c1; ; d1; ] S1 [cn; ; dn; ] (i) (i) a1 ; d1 i=1 (i) (i) an ; dn . Así que, por el teorema de Heine-Borel, existe una colección …nita, (i ) (i ) (i ) R [c1; ; d1; ] Sm j=1 (i ) (i ) ; : : : ; a1 m ; d1 m an 1 ; dn 1 (i ) (i ) Sm j=1 (i ) (i ) an j ; dn j = Así que: F (R ) P1 i=1 Pm j=1 F F R(i) + R " 2i = P1 i=1 ij P1 Y, como " > 0 es arbitraria: P1 (i) . F (R ) i=1 F R (i ) (i ) an m ; dn m , tal que: [cn; ; dn; ] a1 j ; d1 j (i ) a1 1 ; d1 1 i=1 F F Finalmente, tomando límites cuando P1 (i) . F (R) i=1 F R (i ) (i ) a1 j ; d1 j Sm j=1 (i ) (i ) an j ; dn j R ij . (R i ) R(i) + ". 0, se obtiene: Teorema 15.2. Sea F : Rn 7! R una función de distribución …nita. Entonces existe una única medida …nita F , de…nida sobre los conjuntos borelianos de Rn , tal que: 15.2. FUNCIONES DE DISTRIBUCIÓN COMO MEDIDAS F (( 1; x1 ] 399 ( 1; xn ]) = F (x1 ; : : : ; xn ) para cualquier (x1 ; : : : ; xn ) 2 Rn . Demostración Sea I la familia (an ; bn j y A la familia de conjuntos Sn de rectángulos de la forma (a1 ; b1 j de la forma j=1 Rj en donde n 2 N y R1 ; : : : ; Rn son rectángulos en I, ajenos por parejas. Para cada rectángulo R = (a1 ; b1 j (an ; bn j 2 I; de…namos: Pn Pn k o F (x ; ; xn ). (k) 1 F (R) = k=0 ( 1) (x ; ;x )2S 1 Y, para cada A = Sn j=1 n (a1 ;b1 ;:::;an ;bn ) Rj 2 A, de…namos F (A) = Pn j=1 F (Rj ). Por la proposición 15.2, F está bien de…nida. Además, A es un álgebra de subconjuntos de Rn y la función F : A 7! R es no negativa y …nitamente aditiva, es decir, es una medida sobre A. Sea A1 ; AS 2 ; : : : una colección in…nita numerable de elementos de A, ajenos por parejas y tales que A = 1 i=1 Ai 2 A. S Por un lado, como A = 1 i=1 Ai , A es una unión in…nita numerable de rectángulos Rk de la forma (a1 ; b1 j (an ; bn j. Por otro lado, como A 2 A, A es una unión …nita de rectángulos de la forma (a1 ; b1 j (an ; bn j. Sea A = Sn (j) j=1 (j) (j) R(j) , en donde R(j) = a1 ; b1 (j) an ; b n . (j) Para cada j 2 f1; : : : ; mg y k 2 N, de…namos Rk = Rk \ R(j) . Entonces, como S Sm S1 (j) (j) (j) = 1 j=1 Rk y R k=1 Rk , así que: k=1 Rk , se tiene Rk = F = (A) = Pm P1 Pm k=1 F j=1 j=1 Además, como Pk F (A) i=1 P1 F (A) i=1 P1 F (A) = i=1 R(j) (j) Rk F F F Pm P1 j=1 = P1 k=1 k=1 F Sn j=1 R(j) = (j) F (Rk ) = Rk P1 i=1 F (Ai ). Sk es …nitamente aditiva y A i=1 Ai para cualquier k 2 N, se tiene (Ai ) para cualquier k 2 N, así que: F (Ai ) T; F (Ai ). Por lo tanto, F es -aditiva y entonces puede ser extendida de manera única a una medida n F de…nida sobre la -álgebra generada por A, es decir, los borelianos de R . 400 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD Definición 15.4. Si F : Rn 7! R es una función distribución …nita, la medida teorema anterior será llamada la medida generada por F . F del Corolario 15.2. Sea F : Rn 7! R una función de distribución. Entonces existe un espacio de probabilidad ( ; F; P ) y una familia X1 ; : : : ; Xn de variables aleatorias reales de…nidas sobre tal que F es la función de distribución conjunta de X1 ; : : : ; Xn . Demostración Sea = Rn , F la -álgebra de los conjuntos borelianos de Rn y P la única medida de probabilidad F , de…nida sobre los conjuntos borelianos de Rn , tal que F (( 1; x1 ] ( 1; xn ]) = F (x1 ; : : : ; xn ) para cualquier (x1 ; : : : ; xn ) 2 Rn . Para cada k 2 f1; : : : ; g de…namos Xk : 7! R de la siguiente manera: Xk (x1 ; : : : ; xn ) = xk . Entonces: [Xk x] = ( 1; x]. Así que Xk es una variable aleatoria. Además: P [X1 x1 ; : : : ; Xn xn ] = F (( 1; x1 ] ( 1; xn ]) = F (x1 ; : : : ; xn ). Así que FX1 ;:::;Xn (x1 ; : : : ; xn ) = F (x1 ; : : : ; xn ). Si es una medida …nita de…nida sobre los conjuntos borelianos de Rn , la función F : Rn 7! R de…nida por: F (x1 ; : : : ; xn ) = (( 1; x1 ] ( 1; xn ]) es una función de distribución …nita y la medida F que genera sobre los borelianos, por ser única, coincide con . De esta forma, toda medida …nita de…nida sobre los conjuntos borelianos de Rn está generada por una función de distribución …nita en n variables. 15.3. REGULARIDAD DE LAS MEDIDAS FINITAS SOBRE LOS BORELIANOS DE Rn 401 15.3. Regularidad de las medidas …nitas sobre los borelianos de Rn Proposición 15.3. Sea una medida …nita, de…nida sobre los conjuntos borelianos de Rn , Entonces, para cualquier rectángulo R = (a1 ; b1 j (an ; bn j en Rn y " > 0, existe > 0 tal que, si R es el rectángulo (a1 ; d1 ) (an ; dn ), donde: si bk 2 R si bk = 1 bk + bk dk = entonces (R) (R ) < (R) + " Demostración Sea F : Rn 7! R la función de distribución …nita de…nida por: (( 1; x1 ] F (x1 ; : : : ; xn ) = Para cualquier > 0 de…namos: si bk 2 R si bk = 1 bk + bk ( ) dk = ( 1; xn ]). ( ) ( ) R( ) = a1 ; d1 an ; dn Se tiene entonces: lm 0 =lm = i Pn 0 k=0 ( R( ) Pn k=0 ( 1)k Pn 1)k P( (x1 ; (x1 ; ) (a1 ;d1 ;:::;an ;dn ) 1 ;b1 ;:::;an ;bn ) o F (x1 ; ) F (x1 ; ; xn ) = ; xn ) (R). > 0 tal que: (R) < ". Finalmente, como R (R) (k) (k) ;xn )2S(a Dada " > 0, existe entonces R( ;xn )2S (R ) R( ) , se tiene: R R( ) < (R) + ". Teorema 15.3. Sea una medida …nita, de…nida sobre los conjuntos borelianos de Rn , Entonces, para cualquier conjunto boreliano B de Rn se tiene: (B) = nf f (O) : B O y O es un abierto de Rn g. 402 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD Demostración Sea F : Rn 7! R la función de distribución …nita de…nida por: (( 1; x1 ] F (x1 ; : : : ; xn ) = ( 1; xn ]). Sea I la familia (an ; bn j y A la familia de conjuntos Sn de rectángulos de la forma (a1 ; b1 j de la forma j=1 Rj en donde n 2 N y R1 ; : : : ; Rn son rectángulos en I, ajenos por parejas. A es un álgebra de subconjuntos de Rn y la -álgebra generada por A es la -álgebra de conjuntos borelianos en Rn . Como es la medida generada por F , se tiene: P S (B) = nf f i (Ai ) : A1 ; A2 ; : : : 2 A y B i Ai g. para cualquier conjunto boreliano B de Rn . Sea B un conjunto boreliano de Rn . Dada " > 0, consideremos una colección, A1 ; A2 ; : : :, de elementos de A tal que: S B i Ai , P " i (Ai ) < (B) + 2 . Cada Ai es de la forma: S i R(i;j) , Ai = nj=1 donde ni 2 N y R(i;1) ; : : : ; R(i;ni ) son rectángulos en I ajenos por parejas. (i;j) Para cada rectángulo R(i;j) = a1 (i;j) el rectángulo a1 (i;j) dk = ( (i;j) bk bk Entonces R + (i;j) (i;j) (i;j) (i;j) (i;j) an ; dn ; d1 (i;j) an ; bn ; b1 sea , donde: (i;j) si bk 2 R (i;j) si bk = 1 ij (i;j) ij " . 2i+j+1 R(i;j) + < De…namos: S S i (i;j) O" = i nj=1 R ij . Entonces O" es un abierto de Rn que contiene a B y se tiene: (O" ) P Pni i j=1 R (i;j) ij < P i Pni j=1 R(i;j) + Pni " j=1 2i+j+1 ij > 0 tal que, si R (i;j) ij es 15.4. SUCESIONES DE VARIABLES ALEATORIAS INDEPENDIENTES P i (Ai ) + P " 2i+1 i < (B) + ". (Ai ) + 403 " 2 Teorema 15.4. Sea una medida …nita, de…nida sobre los conjuntos borelianos de Rn , Entonces, para cualquier conjunto boreliano B de Rn se tiene: B y K es un compacto de Rn g. (B) = sup f (K) : K Demostración Sean B un S boreliano de Rn y K1 ; K2 ; : : : una sucesión creciente de conjuntos compactos de n Rn tal que 1 i=1 Ki = R . Dada " > 0, para cada i 2 N, sea Oi un abierto de Rn tal que Ki \ B c (Ki \ B c ) + 2" . Entonces Ki \ Oic es un compacto de Rn y se tiene: (Oi ) < Ki \ (Ki \ B c )c = Ki \ (Kic [ B) = Ki \ B. Ki \ Oic Ki \ B Oi y Ki \ Oic = (Ki \ B) \ (Ki \ Oic )c = (Ki \ B) \ (Kic [ Oi ) = Oi \ (Ki \ B) = (Oi Ki \ B c ) \ (Ki \ B) Oi Ki \ B c . Así que: (Oi ) (Ki \ B c ) < 2" . (Ki \ Oic ) S Por otra parte, B = 1 i=1 (Ki \ B), así que: (Ki \ B) (B) = supi2N (Ki \ B). Sea N 2 N tal que en B y se tiene: (B) < (B) < (KN \ B) + " 2 < c (KN \ B) + 2" , entonces KN \ ON es un compacto contenido c (KN \ ON ) + ". 15.4. Sucesiones de variables aleatorias independientes Para formular los otros dos ejemplos dentro del marco teórico expuesto en el capítulo anterior, requerimos construir un espacio de probabilidad ( ; =; P ) en el cual se pueda de…nir una in…nidad numerable de variables aleatorias independientes, cada una con distribución Bernoulli de parámetro p. Vamos a mostrar esta construcción para el caso p = 21 . En el caso general la construcción es similar, pero requiere de algunos pasos adicionales, 404 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD Primero un resultado que usaremos más adelante: Teorema 15.5. Sea ( ; A; P ) un espacio de probabilidad y X1 ; X2 ; : : : una sucesión de variables aleatorias independientes, de…nidas sobre ese espacio, cada una de ellas con distribución P1 Xk Bernoulli de parámetro 12 . De…namos X : 7! R mediante la relación X = k=1 2k . Entonces, X es una variable aleatoria con distribución uniforme en el intervalo [0; 1]. Demostración X es el límite de la sucesión no decreciente de variables aleatorias Xn = es ella misma una variable aleatoria. Pn Xk k=1 2k , así que Obsérvese que si vemos cada sucesión (Xk (!)) como el desarrollo en base 2 de un número real en el intervalo [0; 1], X(!) es precisamente ese número real. Si (sn )n2N es una sucesión de 0’s y 1’s, se tiene P [Xk = sk para toda k 2 N] = 0 y si x 2 (0; 1] es un racional diádico, x tiene exactamente dos desarrollos en base 2, así que P [X 2 x] = 0. Además, x = 0 tiene únicamente un desarrollo en base 2, así que, también, P [X = 0] = 0. Por lo tanto, P [X 2 x] = 0 para cualquier racional diádico x 2 [0; 1]. Por otra parte, para cada n 2 N, consideremos un intervalo de la forma j2n1 ; 2jn , con j 2 f1; : : : ; 2n g. Asociada a tal intervalo existe una única colección de 0’s y 1’s, (s1 ; s2 ; : : : ; sn ), tal que un punto x pertenece al intervalo j2n1 ; 2jn si y sólo si tiene un desarrollo en base 2 de la forma x = 0:s1 s2 : : : sn : : :. Por lo tanto: P X2 j 1 j ; 2n 2n = P [X1 = s1 ; X2 = s2 ; : : : ; Xn = sn ] = Así que, si k 2 f1; : : : ; 2n g, se tiene: P P X 2 0; 2kn = kj=1 P X 2 j2n1 ; 2jn = Pk 1 j=1 2n Es decir, si x 2 (0; 1] es un racional diádico, se tiene: P [X 2 (0; x)] = x. Combinando este resultado con el anterior, se tiene: P [X 2 (0; x]] = x para cualquier racional diádico x 2 (0; 1]. Además, la función FX : [0; 1] ! R, de…nida por: FX (x) = P [X 2 (0; x]], es continua por la derecha. Por lo tanto: = 1 . 2n k . 2n 15.4. SUCESIONES DE VARIABLES ALEATORIAS INDEPENDIENTES 405 FX (x) = x para cualquier x 2 [0; 1]. Así que X tiene distribución uniforme en el intervalo [0; 1]. En lo que sigue vamos a tomar como espacio de probabilidad a la terna ([0; 1] ; L; P ), donde P es la medida de Lebesgue en el intervalo [0; 1]. Para cada n 2 N, de…namos: Bn = f(s1 ; s2 ; : : : ; sn ) : sj 2 f0; 1g para cualquier j 2 f1; 2; : : : ; ngg, donde n 2 N. Sabemos que cada x 2 [0; 1] tiene un desarrollo en base 2, es decir, se puede expresar de la siguiente manera: P sk x= 1 k=1 2k , donde sk 2 f0; 1g para cualquier k 2 N. Para los números reales x 2 (0; 1) de la forma x = 2jn , donde n 2 N y j 2 f1; 2; : : : ; 2n 1g, es decir, para los racionales diádicos, el desarrollo en base 2 no es único. Para cada uno de estos puntos, elijamos como desarrollo en base 2 a la sucesión s1 ; s2 ; : : : para la cual existe N 2 N tal que sk = 1 para cualquier k 2 fN + 1; N + 2; : : :g. Para x = 0, el desarrollo en base 2 es la sucesión (sn )n2N idénticamente cero, mientras que para x = 1 es la sucesión (sn )n2N idénticamente uno. De esta forma, el desarrollo en base 2 de un número real x 2 [0; 1] es único y, si x 2 (0; 1], consiste de una sucesión (sn )n2N tal que sk = 1 para una in…nidad de índices k. Obsérvese que si (s1 ; s2; : : : ; sn ) 2 Bn y x 2 (0; 1], entonces, s2; : : : ; sn son los primeros n Pn ssi1 ; P n si 1 términos del desarrollo de x en base 2 si y sólo si x 2 ; i=1 2i i=1 2i + 2n . Además cada P P n n si si 1 uno de los 2n intervalos de la forma i=1 2i ; i=1 2i + 2n , donde (s1 ; s2; : : : ; sn ) 2 Bn , es alguno de los intervalos de la forma k2n1 ; 2kn , donde k 2 f1; 2; : : : ; 2n g, los cuales constituyen una partición del intervalo (0; 1]. Teorema 15.6. Para cada n 2 N de…namos Xn : [0; 1] ! R mediante la relación Xn (x) = sn , donde sn es el n-simo término del desarrollo en base 2 de x. Entonces, las variables aleatorias de la familia fXn : n 2 Ng son independientes y cada una de ellas tiene distribución Bernoulli con parámetro p = 21 . Demostración Si r 2 f0; 1g, se tiene: P P [Xn = r] = f(r1 ;r2; :::;rn = P f(r1 ;r2; :::;rn 1 )2Bn 1g P 1 )2Bn 1 g Pn P [X1 = r1 ; X2 = r2 ; : : : ; Xn 1 rk k=1 2k + r ; 2n Pn 1 rk k=1 2k + r 2n + 1 2n 1 = rn 1 ; Xn = r] 406 = 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD P f(r1 ;r2; :::;rn 1 )2Bn 1 g 1 2n = 21 . Por lo tanto, para cualquier n 2 N, Xn tiene distribución Bernoulli con parámetro p = 12 . Además, para cualquier m 2 N y (r1 ; r2; : : : ; rm ) 2 Bm , se tiene: P Tm j=1 [Xj = rj ] = P Pm rk Pm rk k=1 2k ; k=1 2k + 1 2m = 1 2m = Qm j=1 P [Xj = rj ]. Así que las variables aleatorias X1 ; X2 ; : : : ; Xm son independientes. Por lo tanto, las variables aleatorias de la familia fXn : n 2 Ng son independientes y cada una de ellas tiene distribución Bernoulli con parámetro p = 12 . Teorema 15.7. Se puede de…nir, sobre ([0; 1] ; L; P ), una sucesión de variables aleatorias independientes, cada una de ellas con distribución uniforme en el intervalo (0; 1). Demostración Consideremos una sucesión X1 ; X2 ; : : : de variables aleatorias independientes, de…nidas sobre ([0; 1] ; L; P ), cada una de ellas con distribución Bernoulli de parámetro 12 . De acuerdo con la primera proposición, si (Xnk )k2N es cualquier subsucesión de la sucesión P Yk (Xn )n2N y de…nimos Y : [0; 1] ! R mediante la relación Y = 1 k=1 2k , entonces Y es una variable aleatoria con distribución uniforme en el intervalo (0; 1). Para de…nir una sucesión de variables aleatorias independientes, de…nidas sobre ([0; 1] ; L; P ), cada una de ellas con distribución uniforme en el intervalo (0; 1), basta con mostrar que existe una in…nidad numerable de subsucesiones de (Xn )n2N de tal manera que cualquier par de ellas no tengan elementos en común. Una vez mostrado esto, cada una de esas subsucesiones genera una distribución uniforme en el intervalo (0; 1). Existen diferentes maneras de tomar las subsucesiones de (Xn )n2N con la propiedad mencionada. Por ejemplo, si fp1 ; p2 ; : : :g es el conjunto de números primos mayores que 1 y, para cada n 2 N, de…nimos An = fpn ; p2n ; p3n ; : : :g, entonces los conjuntos An son ajenos por parejas, así que las subsucesiones Xpk1 ; Xpk2 ; Xpk3 ; : : : cumplen con la propiedad requerida. k2N k2N k2N También podemos ordenar los elementos de la sucesión (Xn )n2N de la siguiente manera: X1 ; X2 ; X4 ; X7 ; X11 ; X16 ; X22 ; : : : X3 ; X5 ; X8 ; X12 ; X17 ; X23 ; : : : X6 ; X9 ; X13 ; X18 ; X24 ; : : : X10 ; X14 ; X19 ; X25 ; : : : 15.4. SUCESIONES DE VARIABLES ALEATORIAS INDEPENDIENTES 407 X15 ; X20 ; X26 ; : : : X21 ; X27 ; : : : X28 ; : : : .. . Cada renglón forma una subsucesión de (Xn )n2N y las subsucesiones de dos renglones diferentes no tienen elementos en común. El n-simo renglón está dado por: X 1 n(n+1) ; X 1 n(n+1)+n ; X 1 n(n+1)+n+(n+1) ; X 1 n(n+1)+n+(n+1)+(n+2) ; 2 2 2 2 : : : ; X 1 n(n+1)+n+(n+1)+(n+2)+ 2 +(n+k 1) ; : : :. Es decir, el k-ésimo elemento del n-simo renglón está dado por: X 1 n(n+1)+Pk 1 j=1 (n+j 2 1) = X 1 n(n+1)+n(k 2 Así que, las sucesiones X1+(k X6+3(k 1)+ 21 (k 1)(k 2) 1)+ 12 (k 1)(k 2) . 1)+ 12 (k 1)(k 2) k2N ; X3+2(k 1)+ 12 (k 1)(k 2) ; k2N ; : : : cumplen con las propiedades requeridas. k2N (3) (2) (n) De manera general, si las sucesiones Xk k2N ; Xk k2N ; Xk ; : : : son subsucesiones k2N de (Xn )n2N tales que cualquier par de ellas no tienen elementos en común, de…namos, para cada n 2 N: (n) P Xk Un = 1 k=1 2k . Entonces, para cada n 2 N, Un tiene distribución uniforme en el intervalo (0; 1). (2) P (3) (1) P P Xk m Xk m Xk Para cada m 2 N, las sumas parciales m k=1 2k ; k=1 2k ; : : : forman una fak=1 2k ; milia de variables aleatorias independientes, así que, para cualquier n 2 N y cualquier (x1 ; : : : ; xn ) 2 Rn , se tiene: P Pm k=1 (1) Xk 2k x1 ; : : : ; Pm k=1 (n) Xk 2k xn = P Pm k=1 (1) Xk 2k x1 P Pm k=1 (n) Xk 2k xn . 408 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD Como, para cada j 2 N, la sucesión Pm (1) Xk k=1 2k x1 ; : : : ; P P1 = =P (1) k=1 P1 Xk 2k l mm 1 P1 P Xk 2k Pm k=1 x1 (n) Xk k=1 2k x1 ; : : : ; x1 ; : : : ; (1) k=1 (1) Xk k=1 2k es el evento Pm P1 (n) k=1 Pm (j) Xk k=1 2k es decreciente y la intersección de todos ellos xn P1 Xk 2k es no decreciente, la sucesión de eventos m2N m2N (n) Xk k=1 2k xn ; así que: x n = l mm (1) Xk 2k x1 P l mm P1 k=1 1 (n) Xk 2k P 1 P Pm k=1 Pm k=1 (1) Xk 2k x1 ; : : : ; (n) Xk 2k Pm k=1 (n) Xk 2k xn xn xn . Así que las variables aleatorias U1 ; U2 ; : : : son independientes. Teorema 15.8. Sea ( ; L; ) el espacio de probabilidad formado por = (0; 1), L la álgebra de los conjuntos Lebesgue medibles en el intervalo (0; 1) y la medida de Lebesgue el intervalo (0; 1). Sea, además, ( n )n2N una sucesión de medidas de probabilidad sobre (R; B (R)). Existe entonces una sucesión de variables aleatorias reales independientes (Xn )n2N , de…nidas sobre ( ; L; ), tales que, para cualquier n 2 N, la distribución de Xn es n . Demostración Consideremos una sucesión de variables aleatorias independientes (Un )n2N , de…nidas sobre ( ; B; ), cada una de ellas con distribución uniforme en el intervalo (0; 1). Para cada n 2 N, de…namos las funciones Fn : R 7! R y cn : (0; 1) 7! R mediante las siguientes relaciones; Fn (x) = n (( 1; x]), cn (t) = nf fx 2 R : Fn (x) > tg. Para cada n 2 N, de…namos Xn = cn (Un ). Por la proposición ...., la función de distribución de Xn es Fn . Además, generada por Fn , así que la distribución de Xn es n . n es la medida Finalmente, como las variables aleatorias U1 ; U2 ; : : : son independientes, también lo son X1 ; X2 ; : : :. 15.5. SUCESIONES DE VARIABLES ALEATORIAS CON DISTRIBUCIONES FINITO DIMENSIONALES CONOCIDAS 409 15.5. Sucesiones de variables aleatorias con distribuciones …nito dimensionales conocidas Sea ( ; B; ) el espacio de probabilidad formado por = (0; 1), B la -álgebra de los conjuntos borelianos del intervalo (0; 1) y la medida de Lebesgue el intervalo (0; 1). Sea U1 ; U2 ; : : : una sucesión de variables aleatorias independientes, de…nidas sobre ese espacio, cada una de ellas con distribución uniforme en el intervalo (0; 1). Sea T = ft1 ; t2 ; : : :g un conjunto in…nito numerable y supongamos que para cada subconjunto …nito de T , u = fu1 ; : : : ; un g, se tiene una función de distribución conjunta Fu : Rn ! R de tal forma que si u = fu1 ; : : : ; un g y v = fv1 ; : : : ; vm g son dos subconjuntos …nitos de T tales que u v, entonces la función de distribución conjunta Fu coincide con la distribución conjunta marginal que se obtiene de Fv restringiéndola a los elementos de u. Para cada n 2 N, denotemos por Bn a la -álgebra de Borel en Rn , por Fn a la función de distribución conjunta Fft1 ;:::;tn g y por n a la medida, de…nida sobre (Rn ; Bn ), generada por Fn . Vamos a demostrar que existe una sucesión de variables aleatorias X1 ; X2 ; : : :, de…nidas sobre ( ; B; ), tal que, para cada n 2 N, la función de distribución conjunta del vector aleatorio (X1 ; : : : ; Xn ) es Fn y existe una función medible dn : (Rn ; Bn ) 7! R tal que Xn = dn (Un ; X1 ; : : : ; Xn 1 ). De…namos: d1 (t) = nf fs 2 R : F1 (s) tg, X1 = d1 (U1 ). Sabemos que la función de distribución de X1 es F1 . Supongamos que tenemos de…nidas, sobre ( ; B; ), n 1 variables aleatorias X1 ; : : : ; Xn 1 cuya función de distribución conjunta es Fn 1 y tales que, para cada k 2 f1; : : : ; n 1g, existe una función medible dk : Rk ; Bk 7! R tal que Xk = dk (Uk ; X1 ; : : : ; Xk 1 ). Para cada k 2 f1; : : : ; ng, sea Yk la proyección de Rn sobre la k-ésima coordenada. La función de distribución conjunta de Y1 ; : : : ; Yn es Fn . De…namos: Gn (Y1 ; : : : ; Yn 1 ; y) = n [Yn y j Y1 ; : : : ; Yn 1 ]. Si A 2 Bn 1 , se tiene: P [(Y1 ; : : : ; Yn 1 ) 2 A; Yn y] = E [IA (Y1 ; : : : ; Yn 1 ) Gn (Y1 ; : : : ; Yn 1 ; y)] R = A Gn (y1 ; : : : ; yn 1 ; y) dFn 1 (y1 ; : : : ; yn 1 ). 410 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD De…namos: dn (t; y1 ; : : : ; yn 1 ) = nf fs 2 R : Fn (s; y1 ; : : : ; yn 1 ) tg Xn = dn (Un ; X1 ; : : : ; Xn 1 ). Si A 2 Bn 1 , se tiene: P [(X1 ; : : : ; Xn 1 ) 2 A; Xn x] = E [IA (X1 ; : : : ; Xn 1 ) ; dn (Un ; X1 ; : : : ; Xn 1 ) x] = E [IA (X1 ; : : : ; Xn 1 ) ; Un Gn (X1 ; : : : ; Xn 1 ; x)] R R G (x ;:::;x ;x) = A 0 n 1 n 1 dFU (u)dFn 1 (x1 ; : : : ; xn 1 ) R = A Gn (x1 ; : : : ; xn 1 ; x) dFn 1 (x1 ; : : : ; xn 1 ) = P [(Y1 ; : : : ; Yn 1 ) 2 A; Yn x]. Así que la distribución del vector aleatorio (X1 ; : : : ; Xn ) es la misma que la del vector aleatorio (Y1 ; : : : ; Yn ). 15.6. Teorema de Kolmogorov En esta sección demostraremos el teorema de Kolmogorov, el cual asegura la existencia de un espacio de probabilidad asociado a una familia cualquiera de variables aleatorias con distribuciones …nito dimensionales conocidas. La idea de la demostración es la siguiente: Para cada subconjunto …nito, de un conjunto in…nito , se tiene una función de distribución …nito dimensional, de tal manera que se satisface la condición de consistencia que se formula en el enunciado del teorema. Se considera entonces el producto cartesiano de tantas copias de R como elementos tenga , es decir R . Para cada subconjunto …nito u de se expresa R como el producto cartesiano Ru R u y se genera, sobre Ru , una medida de probabilidad a partir de la distribución …nito dimensional correspondiente al conjunto u (es decir, se genera una medida sobre los borelianos de Ru ). De lo que se trata entonces es de obtener una medida sobre R juntando todas las medidas que se obtienen sobre los conjuntos Ru , donde u corre sobre todos los subconjuntos …nitos de . Esto se logra de…niendo primero una cuasi medida sobre el álgebra de subconjuntos de R formada por la familia de todos los conjuntos que pertenecen a B (Ru ) R u para algún subconjunto …nito u de . Después se aplica el teorema de extensión de Carathéodory para obtener una medida sobre la -álgebra generada por esa álgebra. Teorema 15.9 (Teorema de Kolmogorov). Sea un conjunto in…nito y supongamos que para cada subconjunto …nito de , u = ft1 ; : : : ; tn g, se tiene una función de distribución conjunta Fu : Rn ! R de tal forma que si u = ft1 ; : : : ; tn g y v = fs1 ; : : : ; sm g son dos subconjuntos …nitos de T tales que u v, entonces la función de distribución conjunta Fu 15.6. TEOREMA DE KOLMOGOROV 411 coincide con la distribución conjunta marginal que se obtiene de Fv restringiéndola a las coordenadas en u. Entonces, existe un espacio de probabilidad ( ; =; P ) y una familia de variables aleatorias reales fXt gt2T de…nidas sobre tal que si u = ft1 ; : : : ; tn g es cualquier subconjunto …nito de , entonces la función de distribución conjunta de Xt1 ; : : : ; Xtn es Fu . Demostración Denotemos por U a la familia de subconjuntos …nitos de . Sean = R = ff : 7! Rgy, para cada u 2 U , Ru = ff : u 7! Rg. Por de…nición, un elemento ! 2 es una función de en R, sin embargo podemos también imaginar a ! como un vector el cual tiene una coordenada para cada t 2 . Por la proposición 15.2, sabemos que, para cada u 2 U , existe una única medida de probabilidad Pu de…nida sobre los conjuntos borelianos de Ru tal que: Pu (( 1; x1 ] ( 1; xn ]) = Fu (x1 ; : : : ; xn ) para cualquier (x1 ; : : : ; xn ) 2 Ru . Para cada u = fu1 ; : : : ; un g 2 U , denotemos por u a la función u : 7! Ru de…nida por v, denotemos por vu a la u (!) = (!(u1 ); : : : ; !(un )) y, para pareja u; v 2 U tal que u función vu : Rv 7! Ru de…nida por vu (f ) = fu , donde fu : u 7! R es la restricción de f : v 7! R a u. Obsérvese que u y vu son simplemente proyecciones sobre un espacio de menos coordenadas al del dominio. Sabemos que si u; v 2 U y u v, entonces la función de distribución conjunta Fu coincide con la distribución conjunta marginal que se obtiene de Fv restringiéndola a las coordenadas de u. Esto se traduce en la relación Pu (Bu ) = Pv ( vu1 (Bu )) para cualquier conjunto boreliano Bu de Ru . Para cada u 2 U , denotemos por Bu a la de…namos: =0 = f u 1 -álgebra de los conjuntos borelianos de Ru y (Bu ) : u 2 U y Bu 2 Bu g. Cada elemento de =0 es un subconjunto de , es decir está formado por vectores cada uno de los cuales tiene una coordenada para cada t 2 ; lo que caracteriza a esos vectores es que restringiéndonos a las coordenadas que corresponden a los elementos de u, se obtiene un elemento de Bu . También puede pensarse u 1 (Bu ) como Bu R u ; es decir, restringiéndonos a las coordenadas correspondientes a u, u 1 (Bu ) es Bu , mientras que restringiéndonos a las coordenadas correspondientes a u es R u . Obviamente, 2 =0 y si E 2 =0 entonces E c 2 =0 . Por otra parte, si E = u 1 (Au ) 2 =0 y F = v 1 (Bv ) 2 =0 , sea w = u [ v, Aw = wu1 (Au ) y Bw = wv1 (Bv ), entonces: E[F = w 1 (Aw [ Bw ) 2 =0 . 412 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD Por lo tanto, =0 es un álgebra de subconjuntos de . De…namos P : =0 7! [0; 1] de la siguiente manera: P( u 1 (Bu )) = Pu (Bu ). Observemos en primer lugar que P está bien de…nida. En efecto, supongamos que 1 1 1 1 v (Av ), entonces, de…niendo w = u [ v, se tiene u (Bu ) = w ( wu (Bu )) y 1 1 1 1 wv (Av ). Por lo tanto: wu (Bu ) = w ( wv (Av )), así que Pu (Bu ) = Pw ( 1 wu (Bu )) = Pw ( 1 wv u v 1 1 (Bu ) = (Av ) = (Av )) = Pv (Av ). Evidentemente P ( ) = 1. Mostremos que P es …nitamente aditiva. En efecto, Si E = u 1 (Au ) y F = v 1 (Bv ) son elementos de =0 , ajenos, sea w = u [ v, Aw = wu1 (Au ) y Bw = wv1 (Bv ), entonces Aw y Bw son ajenos y E [ F = w 1 (Aw [ Bw ), así que: P (E [ F ) = Pw (Aw [ Bw ) = Pw (Aw ) + Pw (Bw ) = Pu (Au ) + Pv (Bv ) = P (E) + P (F ). Mostremos ahora que P es -subaditiva. Para esto, por el teorema 5.2, basta con T1demostrar que si tenemos una sucesión decreciente (Ei )i2N , de elementos de =0 , tal que i=1 Ei = ;, entonces l mi 1 P (Ei ) = 0. S Para cada i 2 N, sea vi 2 U y Ai 2 Bvi tales que Ei = vi1 (Ai ), y de…namos ui = ij=1 vj y Bi = ui1vi (Ai ). Entonces Bi 2 Bui , Ei = ui1 (Bi ) y la sucesión de conjuntos (un )n2N es creciente. Supongamos que " = l mi 1 P (Ei ) > 0 . Por el teorema 15.4, para cada i 2 N, Pui (Bi ) puede ser aproximada por medidas de compactos contenidos en Bi , en particular existe un subconjunto compacto de Rui , contenido en Bi , tal que: Pui (Bi ) Pui (Ki ) < Sea Fi = 1 ui " . 2i+1 (Ki ). T Obviamente se tiene Fi ETi para cualquier i 2 N, así que si demostramos que 1 i=1 Fi 6= ;, habremos demostrado que 1 E = 6 ;, llegando así a una contradicción. i=1 i T Tj Para cada j 2 N de…namos Hj = ji=1 Fi . Entonces Hj i=1 Ei = Ej y se tiene: P (Ej ) Pj i=1 P (Hj ) = P (Ej ) P (Ej Fi ) Pj i=1 P Tj P (Ei i=1 Fi = P Fi ) = Pj Sj i=1 i=1 (Ej [P (Ei ) Fi ) P (Fi )] 15.6. TEOREMA DE KOLMOGOROV = Pj i=1 [Pui (Bi ) Pui (Ki )] < Así que: " 2 P (Hj ) > P (Ej ) " 2 Pj " i=1 2i+1 413 < 2" . > 0. Por lo tanto Hj 6= ; para cualquier j 2 N. Para cada j 2 N, sea x(j) 2 Hj , entonces x(j) 2 Fi = (j) tanto, xui = ui x(j) 2 Ki para i 2 f1; : : : ; jg. 1 ui (Ki ) para i 2 f1; : : : ; jg. Por lo (j) Visto de otra manera, …jando i 2 N se tiene xui 2 Ki para cualquier j 2 fi; i + 1; : : :g. (j) En particular, xu1 (m convergente xu1 1;j (m A su vez, xu2 1;j convergente (m j2N ) j2N ) es una sucesión en K1 , así que tiene por lo menos una subsucesión , donde se puede asumir que m1;j > 1. es una sucesión en K2 , así que tiene por lo menos una subsucesión j2N (m2;j ) x u2 , j2N donde se puede asumir que m2;j > 2. Además, ) xu1 1;j , así que, si xu1 = l mj (m 1 ) xu1 1;j y xu2 = l mj (m 1 ) xu2 2;j , entonces (m2;j ) ) u2 u1 (xu2 u2 u1 (xu2 ) = = x u1 . Continuando de la misma forma, obtenemos, para cada i 2 N, una sucesión convergente (m ) (m ) en Ki , de tal manera que, si xui = l mj 1 xui i;j , entonces ui+1 ui (xui+1 ) = xui . xui i;j j2N Hemos obtenido entonces una sucesión (xui )i2N tal que xui 2 Ki para cualquier i 2 N y si i; j 2 N, con i < j, entonces uj ui (xuj ) = xui . Hablando informalmente, si pegamos los elementos xui de esta sucesión obtenemos un punto 1 y en R[i=1 ui ; este punto es una función de [1 i=1 ui en R la cual está de…nida por: y(t) = xui (t) si t 2 ui . 1 Denotando, para cada j 2 N, por (uj ) a la proyección de R[i=1 ui sobre Ruj , este elemento y así de…nido tiene la siguiente propiedad: (uj ) (y) = xuj 2 Kj . T Para tener de…nido un punto en 1 i=1 Fi únicamente resta completar y de…niendo arbitrariamente las coordenadas que corresponden a [1 de la i=1 ui ; por ejemplo de…namos x 2 siguiente manera: x(t) = y(t) si t 2 [1 i=1 ui 0 en otro caso 414 15. CONSTRUCCIÓN DE ESPACIOS DE PROBABILIDAD Entonces ui (x) = xui 2 Ki para cualquier i 2 N, así que x 2 i 2 N, es decir: T T1 x2 1 i=1 Fi i=1 Ei . 1 ui (Ki ) = Fi para cualquier lo cual establece la contradicción mencionada. Por lo tanto l mi 1 P (Ei ) = 0, así que P es -subaditiva. De acuerdo con el teorema de extensión de Carathéodory, existe una única medida de probabilidad P de…nida sobre = = (=0 ) tal que P ( u 1 (Bu )) = Pu (Bu ) para cualquier u 2 U y Bu 2 Bu . Para t 2 , sea Xt : 7! R de…nida por Xt (!) = !(t). Entonces [Xt x] = ftg1 (( 1; x]) 2 =0 para cualquier t 2 y x 2 R, así que Xt es =-medible para cualquier t 2 . Además, para cualquier u = ft1 ; : : : ; tn g 2 U y (x1 ; : : : ; xn ) 2 Ru , se tiene: P [Xt1 x1 ; : : : ; Xtn = Pu (( 1; x1 ] xn ] = P ( u 1 (( 1; x1 ] ( 1; xn ])) ( 1; xn ]) = Fu (x1 ; : : : ; xn ). Así que Fu es la función de distribución conjunta de Xt1 ; : : : ; Xtn . APÉNDICES A.1. Teorema de Heine Borel En el año 1895, Émile Borel encontró una propiedad de los intervalos cerrados y acotados en R, la cual generó un concepto muy importante en el Análisis Matemático, el de conjunto compacto. Borel estaba atacando un problema de continuación analítica de una función de variable compleja y, como parte de su razonamiento, demostró un resultado, el cual, simpli…cado para el caso de un intervalo [a; b] de números reales, se puede enunciar como sigue: Si I1 ; I2 ; : : : es una familia in…nita numerable de intervalos abiertos tales que la suma de sus longitudes es menor que la longitud del intervalo [a; b], entonces la unión de todos los intervalos In no cubre al intervalo [a; b]. Para probar lo anterior, Borel demostró que si la unión de los intervalos In cubriera al intervalo [a; b], entonces existiría un subcolección …nita In1 ; In2 ; : : : ; Inm , de esos intervalos, cuya unión cubriría a [a; b] y entonces se tendría: Pm P1 b a. k=1 l (Ink ) n=1 l(In ) Años más tarde, se encontraría un resultado más general, al cual ahora se le conoce como teorema de Heine-Borel. Su demostración se encuentra un poco más adelante en esta sección. Definición A.5. Diremos que un subconjunto A de Rn está acotado si existe una bola abierta tal que A está contenido en ella. Definición A.6. Llamaremos celda de Rn a un conjunto de la forma I1 I2 In , donde I1 = [a1 ; b1 ] ; I2 = [a2 ; b2 ] ; ; In = [an ; bn ] son intervalos cerrados y acotados de números reales tales que, para cualquier j 2 f1; 2; : : : ; ng, aj < bj . Definición A.7. Si (Cm )m2N es una sucesión de celdas de Rn , diremos que éstas están anidadas si Ck+1 Ck para cualquier k 2 N. Proposición A.4. Sea (Cm )m2N una sucesión de celdas anidadas de Rn , entonces \1 m=1 Cm 6= ;. 415 416 APÉNDICES Demostración (m) (m) (m) Sea I1 I2 In la celda Cm ; entonces, para cada j 2 f1; 2; : : : ; ng, los intervalos (1) (2) (3) Ij , Ij , Ij , . . . forman una sucesión anidada de intervalos cerrados y acotados; por lo tanto, existe un número real xj en la intersección de todos ellos. Evidentemente, para cualquier m 2 N, el vector (x1 ; x2 ; : : : ; xn ) perternece a la celda Cm . Teorema A.1. Si K es un subconjunto de Rn , cerrado y acotado, entonces,Spara cualquier familia in…nita fG : 2 g de subconjuntos abiertos de Rn tales que K 2 G , existe S un subconjunto U de , …nito, tal que K u2U Gu . Demostración S Sea fG : 2 g una familia de subconjuntos abiertos de Rn tales que K denotemos por U a la familia de todos los subconjuntos …nitos . S Supongamos que no existe algún conjunto U 2 U tal que K u2U Gu . (1) (1) 2 G y (1) Como K es acotado, existe una celda I1 I2 In que lo contiene, a la cual llamaremos C1 . Podemos tomarla de tal forma que los intervalos I1 ; I2 ; : : : ; In tengan la misma longitud, la cual denotaremos por L. Vamos a construir, inductivamente, una sucesión (Cm )m2f2;3;:::g de celdas tales que, para cualquier m 2 f2; 3; : : :g: i) Cm Cm 1 . ii) K \ Cm 6= ; y no existe algún conjunto U 2 U tal que K \ Cm (m) iii) Si Cm = I1 1 2(m 2) L. (m) I2 (m) S u2U Gu . (m) In , entonces, para cualquier j 2 f1; 2; : : : ; ng, l Ij = De…niendo C2 = C1 , C2 cumple con las condiciones i ii y iii. h i (k) (k) Tomemos ahora k 2 f2; 3; : : :g y supongamos que tenemos de…nida una celda Ck = a1 ; b1 h i h i (k) (k) (k) (k) a2 ; b2 an ; bn satisfaciendo las propiedades i ii y iii. Para cada j 2 f1; 2; : : : ; ng, denotemos por (k) cj h (k) (k) aj ; bj i al punto medio del intervalo . De h i h i (k) (k) (k) (k) esta forma, en cada coordenada j tenemos los intervalos aj ; cj y cj ; bj . Tomando en cada coordenada uno de esos dos intervalos y considerando el producto cartesiano de ellos, formamos una celda. El total de celdas que podemos formar de esa manera es igual a 2n y si C = I1 I2 In es cualquiera de esas celdas, se tiene C Ck y, para cualquier j 2 f1; 2; : : : ; ng, se tiene: A.1. TEOREMA DE HEINE BOREL l (Ij ) = 12 l h (k) (k) aj ; b j i = 1 1 2 2(k 2) L= 1 2(k 1) 417 L. S Sabemos que no existe algún conjunto U 2 U tal que K \ Ck u2U Gu , así que, por lo n menos para una de las 2 celdas queSformamos, llamémosla C, se tiene que no existe algún n conjunto U 2 U tal que K \ C u2U Gu , porque si para cualquiera de las S 2 celdas se tuviera la propiedad contraria, existiría un conjunto U 2 U tal que K \ Ck u2U Gu . Para esa celda C se tiene K \ C 6= ; ya que de otra forma se tendría K \ C G para cualquier 2 , lo cual contradice la propiedad con la que elegimos a C. De…namos entonces Ck+1 como una cualquiera de esas celdas C, entre las 2n celdas que S formamos, con la propiedad de que no existe algún conjunto U 2 U tal que K \C G u. u2U La celda Ck+1 así de…nida satisface entonces las propiedades i, ii y iii. Así que, por el principio de inducción matemática, para cada m 2 f2; 3; : : :g, queda de…nida cada una de las celdas Cm satisfaciendo las propiedades i, ii y iii. Denotemos por L(m) a la longitud común, igual a que componen la celda Cm . 1 2(m (m) 2) L, de cada uno de los intervalos Ij Por la propiedad i, las celdas de la sucesión (Cm )m2N que hemos construido están anidadas, así que \1 m=1 Cm 6= ;. Esta intersección es un conjunto formado por un único punto, ya que si x = (x1 ; x2 ; : : : ; xn ) y y = (y1 ; y2 ; : : : ; yn ) pertenecen a esa intersección, entonces, para (m) cada j 2 f1; 2; : : : ; ng y cualquier m 2 f2; 3; : : :g, xj y yj pertenecen al intervalo Ij cuya longitud es igual a L(m) ; así que jyj xj j L(m) = 2(m1 2) L para cualquier m 2 f2; 3; : : :g y, entonces, xj = yj . Sea z = (z1 ; z2 ; : : : ; zn ) el único punto en la intersección \1 m=1 Cm . (m) (m) (m) Para cada m 2 f2; 3; : : :g, tomemos un elemento z (m) = z1 ; z2 ; : : : ; zn 2 K \ Cm , entonces tanto z como z (m) pertenecen a la celda Cm , así que, para cualquier j 2 f1; 2; : : : ; ng, se tiene: (m) zj zj L(m) . Por lo tanto: d z (m) ; z = p L(m) n = r (m) z1 1 2(m 2) 2 z1 (m) + z2 2 z2 + p L n. Así que la sucesión z (m) m2f2;3;:::g converge a z. (m) + zn 2 zn 418 APÉNDICES Además, z (m) 2 K para cualquier m 2 f2; 3; : : :g, así que, como K es cerrado, z = l mm!1 z (m) 2 K. S Por hipótesis, K 2 G , así que, teniendo z 2 K, existe algún conjunto G 0 tal que z 2 G 0 . Siendo G 0 un conjunto abierto, existe una bola abierta, Br (z), con centro z y un radio positivo r tal que Br (z) G 0 . Por otra parte, como z es el centro de la bola Br (z), tomando h = 2pr n , la celda [z1 [z2 h; z2 + h] [zn h; zn + h] está contenida en Br (z). En efecto, si: x = (x1 ; x2 ; : : : ; xn ) 2 [z1 h; z1 + h] [z2 h; z2 + h] [zn h; z1 + h] h; zn + h], entonces, para cada j 2 f1; 2; : : : ; ng, se tiene jxj zj j h, así que: q p d (x; z) = (x1 z1 )2 + (x2 z2 )2 + + (xn zn )2 h n = 2r . Tomemos m0 2 f2; 3; : : :g tal que L(m0 ) = i i h h (m) (m) (m) (m) z 2 Cm0 = a1 ; b1 a2 ; b 2 1 2(m L < h, entonces, como: i h (m) (m) an ; bn , 2) si y = (y1 ; y2 ; : : : ; yn ) es cualquier elemento de Cm0 se tiene, para cualquier j 2 f1; 2; : : : ; ng: jyj zj j L(m0 ) . Así que: d (y; z) = q (y1 z1 )2 + (y2 z2 )2 + + (yn zn )2 p p L(m0 ) n < h n = 2r . Por lo tanto, la celda Cm0 está contenida en la bola Br (z), la cual a su vez está contenida en G 0 . En particular, se tiene K \ Cm0 G 0 . Hemos llegado a una contradicción ya que construimos la sucesión (Cm )m2f2;3;:::g de tal forma que, S para cualquier m 2 f2; 3; : : :g, no existe algún conjunto U 2 U tal que K \ Cm u2U Gu . Por lo tanto,Sla hipótesis de la que partimos, a saber, que no existe algún conjunto U 2 U tal que K u2U Gu , es falsa. S Así que existe algún conjunto U 2 U tal que K u2U Gu , lo cual prueba el resultado. Demostraremos ahora el inverso del teorema A.1. Teorema A.2. Sea K un subconjunto de Rn con la propiedad Sde que, para cualquier familia fG : 2 g de subconjuntos abiertos de Rn tales que K 2 G , existe un subconjunto S U de , …nito, tal que K u2U Gu , entonces K es cerrado y acotado. A.1. TEOREMA DE HEINE BOREL 419 Demostración Tomemos un elemento cualquiera z 2 Rn . La familia de bolas abiertas fBm (z) : m 2 Ng forman una cubierta de K, así que existe un subconjunto S S …nito U de números naturales tales que K B (z). Si m = max U , entonces m 0 m2U m2U Bm (z) = Bm0 (z), así que K Bm0 (z) y, por lo tanto, está acotado. Para demostar que K es cerrado, tomemos un elemento cualquiera y 2 K c y para cada m 2 N, denotemos por Gm al complemento de la bola cerrada B 1 (y), de centro y y radio m 1 . Se tiene entonces: m S m2N Gm = S c m2N B 1 (y) = m T c m2N B 1 (y) Así que, como y 2 = K, entonces K m S m2N = (fyg)c = Rn fyg. Gm . Como los conjuntos …nito U de números naturales S S Gm son abiertos, existe un subconjunto G G . Si m = max U , entonces Gm0 . tales que K m = Gm0 , así que K m 0 m2U m2U c c Por lo tanto, B 1 (y) B 1 (y) = Gm0 K . m0 m0 Así que, dado y 2 K c , existe una bola abierta de centro y, contenida en K c ; es decir, todos los puntos de K c son interiores a K c , así que K c es cerrado y, por lo tanto, K es cerrado. Combinando los teoremas A.1 y A.2, se tiene el siguiente resultado: Teorema A.3 (Teorema de Heine Borel). Un subconjunto K de Rn es cerrado y acotado si y sólo si, S para cualquier familia in…nita fG : 2 g de subconjuntosSabiertos de Rn tales que K 2 G , existe un subconjunto U de , …nito, tal que K u2U Gu . La propiedad que tienen los conjuntos cerrados y acotados en Rn , enunciada en el teorema de Heine Borel, es llamada compacidad. Es decir decimos que un subconjunto K de Rn es compactoS si para cualquier familia in…nita fG : 2 g de subconjuntos S abiertos de X tales que K 2 G , existe un conjunto …nito U de , …nito, tal que K u2U Gu . En el caso de cualquier espacio métrico, no siempre los conjuntos cerrados y acotados son compactos. Por ejemplo consideremos el conjunto F = ff : [c; d] 7! R : f es acotadag, donde c y d son dos números reales tales que c < d; si f 2 F, de…namos kf ks = sup fjf (x)j : x 2 [a; b]g y si f; g 2 F, de…namos ds (f; g) = kg f ks . Sabemos que (F; ds ) es un espacio métrico (completo). Sea (xn )n2N una sucesión de puntos distintos en [c; d] y, para cada n 2 N, de…namos fn : [c; d] ! R de la siguiente manera: fn (x) = 1 si x = xn 0 en otro caso 420 APÉNDICES Se tiene kfn ks = 1 para cualquier n 2 N y ds (fn ; fm ) = 1 para cualquier pareja de números naturales, m y n, tales que n 6= m. Evidentemente, el conjunto K = ff1 ; f2 ; : : :g es acotado. Además, K no tiene puntos de acumulación. En efecto, ninguna de las funciones fn puede ser punto de acumulación de K, ya que, dada cualquiera de ellas, la bola con centro en esa función y radio 21 no contiene alguna otra función en K. Ahora, si una función f en F, que no pertenece a K, fuera punto de acumulación de K, entonces existirían dos funciones fn1 y fn2 en K tales que: 0 < ds (fn1 ; f ) < 14 , 0 < ds (fn2 ; f ) < ds (fn1 ; f ). Por la última desigualdad, se tendría fn1 6= fn2 , así que ds (fn1 ; fn2 ) = 1: Por otra parte, se tendría: ds (fn1 ; fn2 ) ds (fn1 ; f ) + ds (f; fn2 ) < 2ds (fn1 ; f ) < 12 , llegando así a una contradicción. Siendo vacío el conjunto de puntos de acumulación de K, podemos concluir que K es cerrado. Tenemos entonces que el conjunto K es cerrado y acotado. Ahora bien, consideremos, para cada n 2 N, la bola abierta de radio 41 y centro fn . La unión de esas bolas contiene a K, pero la unión de cualquier colección …nita de esas bolas únicamente contiene un número …nito de elementos de K, a saber, los centros de ellas. Por lo tanto, K es un conjunto cerrado y acotado que no es compacto. A.2. Conjuntos compactos En esta sección (X; d) será un espacio métrico. Definición A.8. Diremos que K X es compacto S si para cualquier familia in…nita fG : 2 g de subconjuntos abiertos de X tales que K tal 2 G , existe un conjunto …nito T S que K 2T G . Definición A.9. Diremos que K X es numerablemente S compacto si para cualquier familia fGn : n 2 Ng de subconjuntos abiertos de X tales que K n2N Gn , existe un conjunto …nito S T N tal que K n2T Gn . Definición A.10. Diremos que K X es secuencialmente compacto si para toda sucesión (xn )n2N de elementos de K existe una subsucesión que converge a algún elemento de K. A.2. CONJUNTOS COMPACTOS 421 Definición A.11. Diremos que una familia de subconjuntos de X, fF : 2 g, tiene la propiedad de la intersección …nita si dado cualquier subconjunto …nito T , se tiene T F = 6 ;. 2T Definición A.12. Diremos que A X es acotado si existe una bola abierta que lo contiene. Definición A.13. Diremos que A X es totalmente acotado si para cualquier " > 0, existe un conjunto …nito de bolas cerradas de radio " cuya unión cubre A. Obviamente, todo conjunto totalmente acotado es acotado, sin embargo, el inverso no siempre es verdadero. Por ejemplo, consideremos nuevamente el conjunto: F = ff : [c; d] 7! R : f es acotadag, donde c y d son dos números reales tales que c < d; y tomemos en F la norma de la convergencia uniforme kks . Consideremos el subconjunto de F formado por las funciones fn (n 2 N) tales que el conjunto K = ff1 ; f2 ; : : :g es cerrado y acotado pero no compacto. El conjunto K no es totalmente acotado; en efecto, como kfn ks = 1 para cualquier n 2 N y ds (fn ; fm ) = 1 para cualquier pareja de números naturales, m y n, tales que n 6= m, entonces para " = 41 , cualquier bola cerrada de radio " contiene a lo más un elemento de K, ya que si f y g pertenecen a esa bola y h es su centro, entonces: d (f; g) d (f; h) + d (h; g) 1 . 2 Por lo tanto, no existe un conjunto …nito de bolas cerradas de radio " = K. 1 4 cuya unión cubra En Rn , si un subconjunto A es acotado, entonces es totalmente acotado. En efecto, siendo A acotado existe una bola abierta B que lo contiene; por lo tanto, la bola cerrada B también lo contiene. Ahora bien, siendo la bola cerrada un conjunto compacto, es totalmente acotado; de manera que entonces A también es totalmente acotado. La demostración de la proposición A.2 no utiliza propiedades particulares de Rn y se aplica tanto a los conjuntos compactos como a los numerablemente compactos; así que se tienen los siguientes resultados: Proposición A.5. Si K X es un conjunto compacto, entonces es cerrado y acotado. Proposición A.6. Si K y acotado. X es un conjunto numerablemente compacto, entonces es cerrado Proposición A.7. Si K y acotado. X es un conjunto secuencialmente compacto, entonces es cerrado 422 APÉNDICES Demostración Si K no fuera acotado, dada cualquier bola abierta Br (x), de centro x 2 X y radio r 2 (0; 1), existiría algún elemento de K que no pertenecería a esa bola. Suponiendo entonces que K no es acotado, de…namos, inductivamente, una sucesión (xi )i2N de elementos de K y una sucesión (ri )i2N de números reales positivos tales que : i) xi 2 K Bri 0 . i) ri = d xi 1 ; 0 + 1. donde tomamos x0 = 0. De…namos r1 = 1 y x1 como cualquiera de los elementos de K que no pertenecen a la bola Br1 0 . Obviamente, x1 y r1 satisfacen las propiedades i y ii. Tomemos ahora k 2 N y supongamos que tenemos de…nidos xk propiedades i y ii. y rk satisfaciendo las De…namos rk+1 = d xk ; 0 + 1 y xk+1 como cualquiera de los elementos de K que no pertenecen a la bola Brk+1 0 . Obviamente, xk+1 y rk+1 satisfacen las propiedades i y ii. Así que, por el principio de inducción matemática, quedan de…nidas las sucesiones (xi )i2N y (ri )i2N satisfaciendo las propiedades i y ii. Para cualquier j 2 N, se tiene: d xj+1 ; 0 rj+1 = d xj ; 0 + 1. Así que, si xj y xj+k son dos elementos cualesquiera de la sucesión (xi )i2N , donde j y k son números naturales, se tiene: d xj+k ; 0 d xj+k 1 ; 0 + 1 d xj+k 2 ; 0 + 2 d xj ; 0 + k. Además: d xj+k ; 0 d (xj+k ; xj ) + d xj ; 0 . Así que: d (xj+k ; xj ) d xj+k ; 0 d xj ; 0 d xj ; 0 + k d xj ; 0 = k. Por lo tanto, la distancia entre dos elementos cualesquiera de la sucesión (xi )i2N es mayor o igual a 1, así que no existe alguna subsucesión convergente de esa sucesión. Por otra parte, si K no tiene puntos de acumulación, entonces es cerrado. A.2. CONJUNTOS COMPACTOS 423 Si el conjunto de puntos de acumulación de K es no vacío, sea x cualquiera de esos puntos, entonces existe una sucesión (xi )i2N de elementos de K que converge a x; por lo tanto cualquier subsucesión de (xi )i2N converge también a x. Pero, por la hipótesis de la proposición, existe una subsucesión de (xi )i2N que converge a algún elemento que pertenece a K; por lo tanto x 2 K. Así que, también en este caso, K es un conjunto cerrado. Proposición A.8. Sea fKn gn2N una familia de subconjuntos numerablemente compactos T1 con la propiedad de la intersección …nita, entonces n=1 Kn 6= ;. Demostración T S1 S1 c c Supongamos 1 n=1 Kn = ;, entonces n=1 Kn = X. Así que Kn0 n=1 Kn para cualquier n0 2 N. Sea n0 2 entonces, existen n1 : : : ; nm 2 N Tm como Kn0 es compacto, Sm SmN arbitraria, c c c = ;, lo cual es una tales que Kn0 k=0 Knk = Kn0 \ k=1 Knk k=1 Knk . Entonces contradicción. Proposición A.9. Sea fK g 2 una familia de subconjuntos compactos con la propiedad de T la intersección …nita, entonces 2 K 6= ;. Demostración T S S c c Supongamos 2 K = ;, entonces 2 K = X. Así que K 0 2 K para cualquier . Sea 0 2 arbitraria, entonces, como K 0 es compacto, existen 1 : : : ; n 2 0 2 c Sn Tn Sn c c = ;, lo cual es una tales que K 0 k=1 K k k=0 K k = K 0 \ k=1 K k . Entonces contradicción. Proposición A.10. Sea K X cerrado. Supongamos que cualquier familia de subconjuntos cerrados de K con la propiedad de la intersección …nita tiene una intersección no vacía. Entonces K es compacto. Demostración Sea fG g 2 una familia de subconjuntos abiertos tales que K los subconjuntos …nitos de . S Para cada T 2 S, de…namos ET = 2T G . S 2 G y S la familia de Si K \ ETc 6= ; para cualquier T 2 S, entonces la familia de conjuntos cerrados fK \ ETc gT 2S; c S T c tiene la propiedad de la intersección …nita. Por lo tanto, K \ = 2 G 2 (K \ ET ) 6= ;, lo cual es una contradicción. S Por lo tanto, K \ ETc = ; para algún T 2 S, así que K 2T G para algún T 2 S. Así que K es compacto. 424 APÉNDICES Proposición A.11. Sea K X cerrado. Supongamos que cualquier familia numerable de subconjuntos cerrados de K con la propiedad de la intersección …nita tiene una intersección no vacía. Entonces K es numerablemente compacto. Demostración S1 Sea fGn gn2N una familia Snde subconjuntos abiertos tales que K n 2 N, de…namos En = k=1 Gk . n=1 Gn y, para cada c Si K \ Enc 6= ; para cualquier n 2 N, entonces la familia de conjuntos cerrados S1 T1 fK \ En gc n2N c tiene la propiedad de la intersección …nita. Por lo tanto, K \ ( n=1 Gn ) = n=1 (K \ En ) 6= ;, lo cual es una contradicción. Sn Por lo tanto, K \ Enc = ; para alguna n 2 N, así que K k=1 Gk para alguna n 2 N. Así que K es numerablemente compacto. Corolario A.3. Un conjunto cerrado K X es compacto si y sólo si cualquier familia de subconjuntos cerrados de K con la propiedad de la intersección …nita tiene una intersección no vacía. Corolario A.4. Un conjunto cerrado K X es numerablemente compacto si y sólo si cualquier familia numerable de subconjuntos cerrados de K con la propiedad de la intersección …nita tiene una intersección no vacía. Teorema A.4. Un conjunto K blemente compacto. X es secuencialmente compacto si y sólo si es numera- Demostración Supongamos que K es secuencialmente compacto y sea fFn gn2N familia de subconjuntos cerrados de K con la propiedad de la intersección …nita. T Para cada n 2 N, de…namos Hn = nk=1 Fk y tomemos xn 2 Hn . Obsérvese que, para cualquier j 2 N, xn 2 Fj para cualquier n j. Como K es secuencialmente compacto, existe una subsucesión convergente, (xnk )k2N , de (xn )n2N . Sea x = l mk!1 xnk . Si j 2 N y k j, entonces nk j, así que xnk 2 Fj . Por lo tanto, x 2 Así que K es numerablemente compacto. T1 k=1 Fk . Inversamente, supongamos que K es numerablemente compacto y sea (xn )n2N una sucesión de elementos de K. A.2. CONJUNTOS COMPACTOS 425 Para cada n 2 N, de…namos Cn = fxn ; xn+1 ; : : :g. Entonces, la familia T1de conjuntos cerrados Cn n2N tiene la propiedad de la intersección …nita. Por lo tanto, n=1 Cn 6= ;. T 1 Sea x 2 1 n=1 Cn , entonces, para cada n 2 N, existe xm 2 Cn tal que d (xm ; x) < n . Podemos de…nir entonces inductivamente una subsucesión (xnk )k2N de (xn )n2N tal que d (xnk ; x) < n1k para cualquier k 2 N. Así que (xnk )k2N converge a x. Por lo tanto, K es secuencialmente compacto. Proposición A.12. Sea K X un conjunto secuencialmente S compacto. Entonces, para cualquier " > 0, existe un conjunto …nito T K tal que K x2T B" (x). Demostración S c 6= ; para cualquier Supongamos que para alguna " > 0 se tiene que K \ x2T B" (x) conjunto …nito T K. Sea x1 2 K arbitrario T y de…namos inductivamente una sucesión " para (xn )n2N de elementos de K tal que xk+1 2 kj=1 B"c (xj ), es decir, d (xk+1 ; xj ) cualquier j 2 f1; : : : ; kg. Se tiene entonces d (xn ; xm ) " para cualesquiera n; m 2 N distintas. Así que no existe ninguna subsucesión convergente de (xn )n2N , lo cual es una contradicción ya que K es secuencialmente compacto. Corolario A.5. Si K X es un conjunto secuencialmente compacto, entonces es totalmente acotado. Corolario A.6. Sea K X un conjunto secuencialmente compacto. Entonces K contiene un subconjunto denso numerable. Demostración Para cada n 2 N, sea Tn un subconjunto …nito de K tal que K S T = 1 n=1 Tn . Si x 2 K entonces, para cada n 2 N, existe xn 2 Tn x 2 T , es decir, K = T . T S x2Tn B 1 (x). De…namos n K tal que d (xn ; x) < n1 . Así que Proposición A.13. Si A X es totalmente acotado y H = fG : 2 g es una familia de subconjuntos abiertos de X cuya unión cubre A, entonces existe una colección numerable de conjuntos G 2 H cuya unión sigue cubriendo A. Demostración Si A es vacío el resultado es trivial; así que asumiremos que A 6= ;. Para cada n 2 N, sea Bn un subconjunto …nito de X tal que la unión de las bolas cerradas de centro cada uno de los puntos de Bn y radio n1 cubre A y sea B = [1 n=1 Bn . 426 APÉNDICES De…namos: n M = (n; y) : n 2 N, y 2 Bn y existe 2 S o G . tal que B 1 (y) n Como A 2 tal que x 2 G . Siendo G abierto, existe 2T G , dado x 2 A, existe una bola Br (x) contenida en G . Tomemos n 2 N tal que n1 < 2r . S 1 (y), existe y 2 Bn tal que x 2 B 1 (y). Entonces, si z 2 B 1 (y), se Como A y2Bn B n n n tiene: d (z; x) d (z; y) + d (y; x) 1 n + 1 n = 2 n < r. Así que z 2 Br (x); por lo tanto: B 1 (y) Br (x) n G . Hemos demostrado entonces que, dado x 2 A, existen n 2 N y y 2 Bn tales que (n; y) 2 M y x 2 B 1 (y). n En particular, lo anterior demuestra que el conjunto M es no vacío y, obviamente, es un conjunto numerable. Denotemos por (r1 ; s1 ), (r2 ; s2 ), . . . los elementos de M . Para cada (rk ; sk ) 2 M , tomemos un elemento elemento por k . 2 tal que B 1 (sk ) rk G y denotemos ese Con esta notación, podemos enunciar el resultado anterior de la siguiente manera: Para cada x 2 A, existe un elemento (rk ; sk ) tal que x 2 B 1 (sk ) rk Por lo tanto, A S k G k. G k , lo cual demuestra el resultado Corolario A.7. Un conjunto K X es secuencialmente compacto si y sólo si es compacto. Demostración Si K es compacto, entonces es numerablemente compacto, así que, por el teorema A.4, es secuencialmente compacto. Inversamente, si K es secuencialmente compacto, entonces, por el teorema A.4, es numerablemente compacto. Además, por el corolario A.5, también es totalmente acotado, así que, por la proposición A.13, si H = fG : 2 g es una familia de subconjuntos abiertos S de X cuya unión cubre A, entonces existe un conjunto numerable tal que K 2 G . Por loStanto, siendo K numerablemente compacto, existe un conjunto …nito T tal que K 2T Gn . Lo cual demuestra que K es compacto. A.3. CARACTERIZACIÓN DE LOS CONJUNTOS COMPACTOS 427 También como corolario, se tiene el siguiente resultado: Teorema A.5. Si K es un subconjunto de X, las siguientes condiciones son equivalentes: (i) K es compacto. (ii) K es numerablemente compacto. (iii) K es secuencialmente compacto. A.3. Caracterización de los conjuntos compactos Definición A.14. Diremos que A X es relativamente compacto si A es compacto. Por la proposición A.5, el corolario A.7 y el corolario A.5, se tiene el siguiente resultado: Proposición A.14. Si K acotado. X es un conjunto compacto, entonces es cerrado y totalmente Proposición A.15. Un conjunto B X es totalmente acotado si y sólo si para toda sucesión (xn )n2N de elementos de B contiene una subsucesión de Cauchy. Demostración Supongamos que B es totalmente acotado y sea (yn )n2N una sucesión de elementos de B. S Tomemos un conjunto …nito T1 X tal que K x2T1 B1 (x). Siendo T1 …nito, por lo menos una de las bolas B1 (x), con x 2 T1 , contiene una in…nidad de elementos de la sucesión (yn )n2N . Sea B1 (x1 ) una de esas bolas. S Tomemos ahora un conjunto …nito T2 X tal que K x2T2 B 12 (x). Siendo T2 …nito, por lo menos una de las bolas B 1 (x), con x 2 T2 , es tal que B1 (x1 ) \ B 1 (x) contiene una 2 2 in…nidad de elementos de la sucesión (yn )n2N . Sea B 1 (x2 ) una de esas bolas. 2 o n 1 Mediante ese proceso podemos de…nir inductivamente una sucesión de bolas B (xn ) n n2N T tales que, para cualquier n 2 N, el conjunto nk=1 B 1 (xk ) contiene una in…nidad de elementos k de la sucesión (yn )n2N . Tomemos yn1 2 B1 (x1 ) y de…namos inductivamente una subsucesión (ynk )k2N tal que, para T cualquier k 2 N, ynk 2 kj=1 B 1 (xj ). Se tiene entonces d (ynk ; xj ) < 1j para cualquier j j 2 f1; : : : ; kg; así que, …jando j 2 N, se tiene d (ynk ; xj ) < Por lo tanto, …jando j 2 N, se tiene d (ynk ; ynk ) < sucesión (ynk )k2N es de Cauchy. 2 j 1 j para cualquier k para cualesquiera k; m j. j. Así que la Supongamos ahora que B no es totalmente acotado. Entonces, existe " > 0 tal que K \ S c 6= ; para cualquier conjunto …nito T X (en particular, para cualquier x2T B" (x) 428 APÉNDICES conjunto …nito T K). Sea x1 2 K arbitrario y de…namos inductivamente una sucesión T (xn )n2N de elementos de K tal que xk+1 2 kj=1 B"c (xj ), es decir, d (xk+1 ; xj ) " para cualquier j 2 f1; : : : ; kg. Se tiene entonces d (xn ; xm ) " para cualesquiera n; m 2 N distintas. Así que no existe ninguna subsucesión de (xn )n2N que sea de Cauchy. Proposición A.16. Un conjunto B X es relativamente compacto si y sólo si para toda sucesión (xn )n2N de elementos de B existe una subsucesión convergente. Demostración Si B es relativamente compacto, entonces B es secuencialmente compacto, así que toda sucesión (yn )n2N de elementos de B contiene una subsucesión convergente (a algún punto de B). Inversamente, supongamos que para toda sucesión (xn )n2N de elementos de B existe una subsucesión convergente y sea (yn )n2N una sucesión de elementos de B. Para cada n 2 N, sea zn 2 B tal que d (yn ; zn ) < n1 . Tal zn existe pues si yn 2 B podemos tomar zn = yn y si yn 2 = B entonces yn es punto de acumulación de B. Sea ahora (znk )k2N una subsucesión convergente de (zn )n2N y z = l mk como: d (ynk ; z) d (ynk ; znk ) + d (znk ; z) < d (znk ; z) + se tiene z = l mk 1 1 znk . Entonces, 1 , nk ynk . Además, como B es cerrado, z 2 B. Por lo tanto, para toda sucesión (yn )n2N de elementos de B existe una subsucesión convergente a algún elemento de B. Es decir, B es secuencialmente compacto y, por lo tanto, compacto. Corolario A.8. Si X es completo, entonces un conjunto K si y sólo si es totalmente acotado. X es relativamente compacto Demostración Supongamos que K es relativamente compacto y tomemos una sucesión (xn )n2N cualquiera de elementos de K; entonces, por la proposición A.16, existe una subsucesión de (xn )n2N que es convergente y, por lo tanto, de Cauchy; así que por la proposición A.15, K es totalmente acotado. Inversamente, supongamos que K es totalmente acotado y tomemos una sucesión (xn )n2N cualquiera de elementos de K ; entonces, por la proposición A.15, existe una subsucesión de A.4. ESPACIOS VECTORIALES NORMADOS 429 (xn )n2N que es de Cauchy. Siendo X completo, esa subsucesión es convergente; así que, por la proposición A.16, K es relativamente compacto. Corolario A.9. Si X es completo, entonces cualquier conjunto K mente acotado, es compacto. X cerrado y total- Demostración Si K X es un conjunto cerrado y totalmente acotado, entonces, por el corolario A.8, es relativamente compacto; así que K = K es compacto. Por la proposición A.14 y el corolario A.9 se tiene entonces el siguiente resultado: Teorema A.6. Si X es completo, un conjunto K y totalmente acotado. X es compacto si y sólo si es cerrado Si X no es completo, es posible que haya subconjuntos cerrrados y totalmente acotados que no sean compactos. Por ejemplo, tomemos X = Q con la distancia usual entre números reales; entonces el conjunto A = fx 2 Q : 2 < x2 < 3g es cerrado y totalmente acotado, pero no compacto. A.4. Espacios vectoriales normados Asumimos que el lector está familiarizado con las propiedades básicas de los espacios vectoriales sobre un campo. Definición A.15. Sea X un espacio vectorial sobre R. Diremos que una función x ! kxk, de…nida sobre X y con valores en R, es una norma si satisface las siguientes propiedades: (i) (ii) (iii) (iv) kxk 0 para cualquier x 2 X. kxk = 0 si y sólo si x = 0. k xk = j j kxk para cualesquiera = F y x 2 X. kx + yk kxk + kyk para cualesquiera x; y 2 X. Recordemos que a partir de una norma se puede de…nir una métrica de la siguiente manera: d (x; y) = ky xk. Definición A.16. Si X es un espacio vectorial en donde está de…nida una norma, diremos que X es un espacio vectorial normado. Definición A.17. Sea X espacio vectorial de dimensión …nita sobre R y B = fx1 ; : : : ; xn g Pun n una base de X. Si x = k=1 k xk , de…nimos kxk0;B = max fj k j : k 2 f1; : : : ; ngg. 430 APÉNDICES Se prueba inmediatamente que la función x 7! kxk0;B es una norma sobre X. Definición A.18. La norma kxk0;B será llamada la norma del máximo en la base B. Además si kk es cualquier otra norma de…nida sobre X y x = P Pn Pn kxk = k nk=1 k xk k j j kx k kxk k k k=1 0;B k=1 kxk k. Pn k=1 k xk , entonces: Proposición A.17. Sea X un espacio vectorial de dimensión …nita sobre R y B = fx1 ; : : : ; xn g una base de X. Entonces X es completo con respecto a la norma kxk0;B . Demostración Sea (ym )m2N una sucesión de Cauchy con respecto a kk0;B . Si ym = como (i) k (j) k kyi Pn k=1 yj k0;B para cualesquiera i; j 2 N, la sucesión Cauchy para cualquier k 2 f1; : : : ; ng. Sea P de…namos y = nk=1 k xk . Dada " > 0, sea N tal que kyi k = l mm 1 (m) k , (m) k xk , entonces, (m) es de k m2N para k 2 f1; : : : ; ng, y yj k0;B < " para cualesquiera i; j 2 N mayores o iguales a (i) (j) N . Entonces, también se tiene k < " para cualesquiera i; j 2 N mayores o iguales k a N y cualquier k 2 f1; : : : ; ng. Fijando i N , se tiene, para cualquier k 2 f1; : : : ; ng: (i) k k = l mj Por lo tanto: kyi yk0;B = max 1 n (i) k (i) k (j) k k ". : k 2 f1; : : : ; ng Así que la sucesión (ym )m2N converge a y. o ". Proposición A.18. Sea X un espacio vectorial de dimensión …nita sobre R, B = fx1 ; : : : ; xn g una base de X y kk una norma de…nida sobre X. Entonces existe una constante positiva c tal que kxk c kxk0;B para cualquier x 2 X. Demostración La demostración se hará por inducción sobre la dimensión de X. Supongamos que el resultado es válido para cualquier espacio vectorial de dimensión k, cualquier base de ese espacio y cualquier norma de…nida sobre él. Sea ahora Y un espacio vectorial de dimensión k + 1, BY = fy1 ; : : : ; yk+1 g una base de Y y kk una norma de…nida sobre Y . A.4. ESPACIOS VECTORIALES NORMADOS 431 Tomemos cualquier yi 2 BY y sea M el subespacio vectorial generado por A = BY fyi g. Por la hipótesis de inducción, sabemos que existe una constante positiva cM tal que kyk cM kyk0;A para cualquier y 2 M . Sea (zm )m2N una sucesión de Cauchy, en M , con respecto a la norma kk. Entonces, como 1 kyk0;A kyk para cualquier y 2 M , (zm )m2N es también una sucesión de Cauchy con cM respecto a la norma kk0;A . Sea z el límite de la sucesión con respecto a kk0;A . Entonces, Pk+1 como kzm zk kzm zk0;A kyi k para cualquier m 2 N, (zm )m2N también j=1 kyj k converge a z con respecto a la norma kk. Así que M es completo y, por lo tanto, es un subconjunto cerrado de X. Como los vectores y1 ; : : : ; yk+1 son linealmente independientes, yi 2 M c . Así que existe una bola abierta de radio i > 0 y centro yi , completamente contenida en M c . Por tanto, ky yi k i para cualquier y 2 M . P Tomemos y = k+1 j=1 j yj 2 Y . Si i Pk+1 6= 0, entonces yi kyk = Pk+1 j=1 j yj j=1 j yj 2 M , así que i j ij i. Obviamente también se tiene kyk j ij i cuando Pk+1 j=1 i j i yj i. Por lo tanto: = 0. De…namos cY = m n f i : i 2 f1; : : : ; k + 1gg. Entonces cY > 0 y se tiene kyk cualquier i 2 f1; : : : ; k + 1g. Así que: kyk cY max fj i j : f i j i j cY para : i 2 f1; : : : ; k + 1ggg = cY kyk0;BY . Corolario A.10. Sea X un espacio vectorial de dimensión …nita sobre F y kk1 y kk2 dos normas de…nidas sobre X. Entonces existen dos constantes positivas a y b tales que a kxk1 kxk2 b kxk1 para cualquier x 2 X. Corolario A.11. Sea X un espacio vectorial de dimensión …nita sobre F. Entonces X es completo con respecto a cualquier norma de…nida sobre él. Corolario A.12. Sea X un espacio vectorial normado. Entonces cualquier subespacio de X de dimensión …nita es cerrado. Demostración Todo subespacio vectorial de dimensión …nita es completo. Por lo tanto, es un subconjunto cerrado de X. 432 APÉNDICES Proposición A.19. Sea X un espacio vectorial normado de dimensión …nita. Entonces todo subconjunto de X, cerrado y acotado, es compacto. Demostración Sea B = fx1 ; : : : ; xm g una base de X y a; b dos constantes positivas tales que kxk0;B y kxk b kxk0;B para cualquier x 2 X, en donde kk es la norma en X. Sea K X un conjunto cerrado y acotado, M tal que kxk (yn )n2N una sucesión de elementos en K. P Si, para cada n 2 N, yn = m i=1 ni xi , entonces: max fj a kyn k aM . Así que, para cada i 2 f1; : : : ; ng, la sucesión ( ni )n2N Sean ni j : i 2 f1; : : : ; ngg = kyn k0;B (1) nk 1 k2N convergente de una subsucesión convergente de ( (1) nk 2 k2N n1 )n2N , l mk 1 = b l mk kynk 1 yk max fj l mk nk i (2) nk 2 k2N una subsucesión , . . . . Obtenemos de esta forma una subsucesión (ynk )k2N de = l mk i M para cualquier x 2 K y está acotada. (yn )n2N tal que, para cualquier i 2 f1; : : : ; ng, la sucesión ( Para i 2 f1; : : : ; ng, sea a kxk 1 nk i y de…namos y = 1 b kynk ij : i 2 f1; : : : ; ngg = 0. yk0;B nk i )k2N Pm i=1 es convergente. i xi . Entonces: Por lo tanto, la subsucesión (ynk )k2N es convergente. Además, como K es cerrado, y 2 K. K es entonces secuencialmente compacto y, por lo tanto, compacto. Lema A.2. Sea X un espacio vectorial normado, M un subespacio vectorial cerrado, contenido propiamente en X, y " 2 (0; 1) arbitraria. Entonces existe un vector x" 2 X de norma 1 y tal que kx" xk > 1 " para cualquier x 2 M . Demostración Sea y 2 X M y de…namos: d = nf fky xk : x 2 M g. d es positiva pues si d fuera igual a cero entonces existiría una sucesión de elementos de M que converge a y, así que, como M es cerrado, se tendría y 2 M . Ahora bien, como d < d , 1 " existe z 2 M tal que d ky zk < d . 1 " A.4. ESPACIOS VECTORIALES NORMADOS De…namos x" = kx" = xk = 1 ky zk ky y z . ky zk y z ky zk (z + ky 433 Entonces kx" k = 1 y, si x 2 M , se tiene: x = 1 ky zk zk x)k k(y d ky zk z) >1 ky zk xk ". Proposición A.20. Sea X un espacio vectorial normado de dimensión in…nita. Entonces la bola cerrada de radio 1 y centro 0 no es un conjunto compacto. Demostración Sea x1 2 X un vector arbitrario de norma 1. Utilizando el lema A.2, podemos de…nir inductivamente una sucesión de vectores xn 2 X tales que, para cualquier n 2 N, kxn k = 1 y ky xn+1 k > 21 para cualquier y en el espacio vectorial generado por fx1 ; : : : ; xn g, el cual es cerrado por ser de dimensión …nita. En particular, se tiene kxn xm k > 12 para cualesquiera n; m 2 N distintos. Supongamos que existe una subsucesión (xnk )k2N convergente. Tal sucesión sería de Cauchy, así que existiría N tal que xnj xnk < 12 para cualesquiera j; k 2 N mayores que N , lo cual es imposible. Por lo tanto, la bola cerrada de radio 1 y centro 0 no es un conjunto secuencialmente compacto. Así que no es compacto. Corolario A.13. Sea X un espacio vectorial normado. Entonces X tiene dimensión …nita si y sólo si todo subconjunto de X, cerrado y acotado, es compacto. Definición A.19. Sea X un espacio vectorial normado. Diremos que X es un espacio de Banach si es completo con respecto a la métrica de…nida por la norma. Proposición A.21. No existe ningún espacio de Banach con una base in…nita numerable. Demostración Sea X un espacio de Banach y supongamos que B = fx1 ; x2 ; : : :g es una base in…nita numerable de X. Para cada n 2 N, de…namos Bn = fx1 ; : : : ; xn g y denotemos por Xn al espacio vectorial generado por Bn . Cada espacio vectorial Xn tiene dimensión …nita, así que es completo. Por lo tanto, Xn es un subconjunto cerrado de X. Sea x 2 Xn , > 0, y 2 B Bn y N 2 N tal que tiene z 2 = Xn y kz yk = N1 kyk < . 1 N kyk < . Entonces, si z = x + 1 y, N se 434 APÉNDICES Así que cualquier bola con centro x contiene elementos de Xnc . Por lo tanto, el interior de Xn es vacío. Xn es entonces un conjunto denso en ninguna parte. Además, como S B es una base de X, cualquier x 2 X pertenece a Xn para alguna n 2 N. Así que X = 1 n=1 Xn . X es entonces de categoría I, lo cual nos conduce a una contradicción pues todo espacio métrico completo es de categoría II. Proposición A.22. Sea X P un espacio vectorial normado y (xn )n2N una sucesión de ele1 mentos de X tal que la serie n=1 kxn k converge. Entonces la sucesión (sn )n2N de…nida por Pn sn = k=1 xk es de Cauchy. Demostración Dada " > 0, sea N tal que se tiene: Pm ksm sn k = k=n+1 xk P1 k=n Pm kxk k < " para cualquier n k=n+1 kxk k P1 k=n+1 N . Entonces, si m > n N, kxk k < ". Proposición A.23. Sea X un espacio vectorial normado. Supongamos que, para cualquier P1 kx sucesión (xn )n2N de elementos de X tal que la serie n k converge, la sucesión (sn )n2N n=1 Pn de…nida por sn = k=1 xk converge. Entonces X es completo. Demostración Sea (xn )n2N una sucesión de Cauchy en X. De…namos m0 = 0 y, para cada k 2 N, tomemos mk 2 N tal que mk > mk 1 y jjxn xm jj < 1 para cualesquiera n; m mk . Entonces, en particular se tiene xmk+1 xmk < 21k para 2k P cualquier k 2 N. Así que la serie 1 xmk+1 xmk converge. Por lo tanto, la sucesión k=1 P (sn )n2N de…nida por sn = xmn+1 xm1 = nk=1 xmk+1 xmk converge. Así que la sucesión (xmn )n2N también converge. Finalmente, tratándose de una sucesión de Cauchy, es su…ciente la convergencia de una subsucesión para que la sucesión original converja. A.5. Convergencia uniforme Definición A.20. Si E es cualquier conjunto, D E y (fn )n2N es una sucesión de funciones fn : E ! R, diremos que (fn )n2N converge uniformemente a la función f : E ! R, sobre el conjunto D, si dada cualquier " > 0, existe N 2 N tal que: A.5. CONVERGENCIA UNIFORME jfn (x) 435 f (x)j < " para cualquier n N y x 2 D. Un caso que de especial importancia es cuando D es un intervalo Sean a y b dos números reales tales que a < b y G = ff : [c; d] 7! R : f es acotadag. Si f 2 G, de…nimos: kf ks = sup fjf (x)j : x 2 [a; b]g. Proposición A.24. La función que asocia a cada f 2 G el número real kf ks , es una norma sobre G. Demostración Obviamente kf ks es un número real no negativo para cualquier f 2 G. Si kf ks = 0, entonces sup fjf (x)j : x 2 [a; b]g = 0, así que jf (x)j = 0 para cualquier x 2 [a; b]; es decir, f es idénticamente 0. Si f y g son elementos de G, entonces: jf (x) + g (x)j jf (x)j + jg (x)j kf ks + kgks , para cualquier x 2 [a; b]; así que: kf + gks = sup fjf (x) + g (x)j : x 2 [a; b]g Si f; g 2 G y de…nimos ds (f; g) = kg kf ks + kgks . f ks , entonces ds es una métrica sobre G. Proposición A.25. (G; ds ) es un espacio métrico completo. Demostración Sea (fn )n2N una sucesión de Cauchy en G. Dada " > 0, tomemos N 2 N tal que kfn n N y m N. Como kfn fm ks = sup fjfn (x) fm ks < " para cualesquiera n; m 2 N tales que fm (x)j : x 2 [a; b]g, se tiene: jfn (x) fm (x)j < " para cualquier x 2 [a; b] y cualesquiera n; m 2 N tales que n m N. N y Así que, para cualquier x 2 [a; b], (fn (x))n2N es una una sucesión de Cauchy de números reales; por lo tanto converge. De…namos f : [a; b] 7! R de la siguiente manera: f (x) = l mn!1 fn (x). 436 APÉNDICES Como la sucesión (fn )n2N es de Cauchy, está acotada, así que existe un número real M tal que kfn ks M para cualquier n 2 N. Por lo tanto: jfn (x)j M para cualquier x 2 [a; b] y cualquier n 2 N. Así que, jf (x)j M para cualquier x 2 [a; b]; es decir, f es acotada. Dada " > 0, tomemos N 2 N tal que kfn n N y m N . Entonces: fm ks < " para cualesquiera n; m 2 N tales que jfn (x) fm (x)j < " para cualquier x 2 [a; b] y cualesquiera n; m 2 N tales que n m N . O bien: N y fm (x) " < fn (x) < fm (x) + " para cualquier x 2 [a; b] y cualesquiera n; m 2 N tales que n N y m N. Por lo tanto, tomando límites cuando m tiende a in…nito, se obtiene: f (x) " jfn (x) fn (x) f (x)j f (x) + " para cualquier x 2 [a; b] y cualquier n " para cualquier x 2 [a; b] y cualquier n N . Es decir: N. Por lo tanto: kfn f ks " para cualquier n N. Así que, la sucesión (fn )n2N converge a f en el espacio métrico (F; ds ). Definición A.21. Diremos que una función f 2 G es lineal por pedazos si existe una partición fx0 ; x1 ; : : : ; xn g del intervalo [a; b] tal que, para cualquier j 2 f1; 2; : : : ; ng, la función f es lineal en el intervalo (xj 1 ; xj ). Proposición A.26. El conjunto L, de funciones continuas y lineales por pedazos en F, es denso en el conjunto C, de funciones continuas en F. Demostración Si f : [a; b] 7! R es una función continua, entonces es uniformemente continua, así que, dada " > 0, existe > 0 tal que, si x; y 2 [a; b] y jy xj < , entonces jf (y) f (x)j < 12 ". Consideremos una partición fx0 ; x1 ; : : : ; xn g una partición del intervalo [a; b] tal que xi xi 1 < para cualquier i 2 f1; 2; : : : ; ng y de…namos la función f" : [a; b] 7! R de la siguiente manera: f" (x) = f (xi 1 ) + f (x) f (xi ) f (xi xi xi 1 Si x 2 (xi 1 ; xi ), se tiene: 1) (x xi 1 ) si x 2 (xi 1 ; xi ) para alguna i 2 f1; 2; : : : ; ng si x 2 fx0 ; x1 ; : : : ; xn g A.6. LOS RACIONALES DIÁDICOS jf" (x) f (xi ) f (xi xi xi 1 = jf" (x) f (x)j jf (xi ) 1) (x xi 1 ) + jf (xi 1 ) f (xi 1 )j + jf (xi 1 ) Además, jf" (x) jf" (x) f (xi 1 )j + jf (xi 1 ) 437 f (x)j f (x)j = jf (xi ) f (xi 1 )j xxi xi xi 1 1 + jf (xi 1 ) f (x)j f (x)j < . f (x)j = 0 para cualquier x 2 fx0 ; x1 ; : : : ; xn g. Así que: f (x)j < para cualquier x 2 [a; b]. Por lo tanto: kf" f ks ". Se puede concluir entonces que, en particular, la sucesión de funciones f 1 n converge a n2N f en el espacio métrico (F; ds ). A.6. Los racionales diádicos Recordemos que los racionales diádicos son los números racionales de la forma 2jn , donde n 2 f0; 1; : : :g y j es un número entero. Recordemos también que el conjunto de racionales diádicos en un intervalo (a; b), es denso en [a; b]. Definición A.22. Denotaremos por B al conjunto: (sk )k2N : sk 2 f0; 1g y sk = 1 para una in…nidad de índices k , por Bn al conjunto f(s1 ; s2 ; : : : ; sn ) : sj 2 f0; 1g para cualquier j 2 f1; 2; : : : ; ngg, donde n 2 N, y, para cada elemento (s1 ; s2 ; : : : ; sn ) 2 Bn , denotaremos por I(s1 ;s2 ;:::;sn ) al intervalo Pn sk Pn sk 1 k=1 2k ; k=1 2k + 2n . Obsérvese que I(s1 ;s2 ;:::;sn ) (0; 1] para cualquier (s1 ; s2 ; : : : ; sn ) 2 Bn . En efecto, para cualquier (s1 ; s2 ; : : : ; sn ) 2 Bn , se tiene: Pn sk Pn 1 1 0 k=1 2k k=1 2k = 1 2n Proposición A.27. 1. Si (s1 ; s2; : : : sn ) y (r1 ; r2; : : : rn ) son dos elementos de Bn , distintos, entonces los intervalos I(s1 ;s2 ;:::;sn ) y I(r1 ;r2 ;:::;rn ) son ajenos. S 2. f(r1 ;r2; :::;rn )2Bn g I(r1 ;r2 ;:::;rn ) = (0; 1]. 3. La función f : B ! (0; 1] de…nida por: P sk f (sk )k2N = 1 k=1 2k es biyectiva. 438 APÉNDICES 4. Para cualquier n 2 N, si (r1 ; r2; : : : ; rn ) 2 Bn , entonces: f 1 I(s1 ;s2 ;:::;sn ) = (sk )k2N 2 B : sk = rk para cualquier k 2 f1; 2; : : : ; ng Demostración Cada punto x 2 (0; 1], tiene un desarrollo único en base 2, el cual se obtiene de la siguiente manera: Para iniciar el desarrollo, expresamos el intervalo (0; 1] como la unión de los intervalos ajenos 0; 21 y 12 ; 1 . Si x 2 0; 21 , tomamos 0 como primer elemento de su desarrollo, mientras que si x 2 12 ; 1 , tomamos 1 como primer elemento de su desarrollo. Para cada n 2 N, expresemos el intervalo (0; 1] como la unión de los intervalos ajenos n n 0; 21n ; 21n ; 22n ; ; 2 2n 1 ; 22n . El punto x pertenece a uno y sólo uno de esos intervalos. Sea 2kn ; k+1 el intervalo al cual pertenece x. Si k + 1 es un número impar, tomamos 0 2n como n-simo elemento de su desarrollo; si no lo es, tomamos 1 como n-simo elemento de su desarrollo. Por la forma en que se de…ne el desarrollo de x, si s1 ; s2; : : : son los términos de su desarrollo, se tiene: P si x= 1 i=1 2i Hecho el desarrollo de esta manera, ningún punto x 2 (0; 1] tiene un desarrollo 0:s1 s2 para el cual exista N 2 N tal que sk = 0 para cualquier k 2 fN + 1; N + 2; : : :g. En efecto, si lo hubiera, entonces x pertenecería a un intervalo de la forma 2Nk+1 ; 2k+1 N +1 , donde k + 1 es un número impar, digamos k + 1 = 2j 1, con j 2 N; así que tendríamos x 2 22jN +12 ; 22jN +11 ; por lo tanto, o bien x 2 24jN +24 ; 24jN +23 o x 2 24jN +23 ; 24jN +22 ; pero, como término N + 2 del desarrollo de x es 0, entonces x 2 24jN +24 ; 24jN +23 . Repitiendo el razonamiento, llegaríamos a que x 2 28jN +38 ; 28jN +37 . Y continuando con este procedimiento llegaríamos a que: i i i 1)+1 1 = j2N1 ; 2jN +i + 2N1+i x 2 2 2(jN +i1) ; 2 (j2N +i para cualquier i 2 N. Así que: T x2 1 i=1 j 1 j 1 ; 2N 2N + 1 2N +i =; lo cual es una contradicción. Como corolario se tiene que el desarrollo de cualquier número x 2 (0; 1] contiene una in…nidad de 1’s. Además, por lo anterior, f es una función suprayectiva de B en el intervalo (0; 1]. A.6. LOS RACIONALES DIÁDICOS 439 Por otra parte, para cualquier n 2 N, si s1 ; s2; : : : sn son los primeros n términos del desarrollo de x 2 (0; 1], entonces, como el desarrollo de x tiene una in…nidad de 1’s, se tiene: P x > ni=1 2sii Además: Pn x i=1 si 2i + P1 1 i=n+1 2i Por lo tanto: Pn si Pn x2 i=1 2i ; i=1 si 2i + Pn si i=1 2i = + 1 2n 1 2n Sea ahora (r1 ; r2; : : : rn ) un elemento de Bn , distinto de (s1 ; s2; : : : sn ), y sea y 2 (0; 1] tal que los primeros n términos de su desarrollo son r1 ; r2; : : : rn . De…namos: k0 = m n fk 2 f1; 2; : : : ; ng : rk 6= sk g Entonces: Pk0 x2 i=1 Pk0 si ; 2i ri i=1 2i ; y2 Pk0 i=1 2i si i=1 2i Pk0 si i=1 2i = Pk0 si i=1 2i Por lo tanto: Pk0 ri Pk0 i=1 2i ; i=1 + ri i=1 2i Pk0 ri i=1 2i Así que: Pk0 ri Pk0 ri 2i + ri i=1 2i ; Pk0 ri i=1 2i 2k0 1 2k0 rk0 2k0 + rk0 sk0 2k0 + 1 2k0 + 1 2k0 i i i sk0 2k0 = Así que: Pk0 i 1 = = si 2i + 1 2n rk0 sk0 2k0 Pk0 si i=1 2i 8 < : En cualquiera de los dos casos Además: Pn si Pn i=1 i=1 2i ; = rk0 sk0 Pk0 si ; i=1 2i 2k0 + Pk0 si i=1 2i Pk0 si i=1 2i Pk0 ri i=1 2i ; Pk0 si i=1 2i ; + Pk0 si 2 i=1 2i + 2k0 i Pk0 si 1 ; k i=1 2i 0 2 1 ; 2k0 Pk0 Pk0 + rk0 sk0 2k0 ri i=1 2i si i=1 2i + + 1 2k0 1 2k0 i i y i Pk0 + 1 2k0 i si rk0 s k0 = 1 si rk0 s k0 = si i=1 2i ; Pk0 si i=1 2i + 1 1 2k0 i son ajenos. 440 APÉNDICES Pn ri i=1 2i ; Pn ri i=1 2i En efecto: Pk0 si Pn si i=1 2i i=1 2i Pk0 si i=1 2i = + Pk0 si i=1 2i + + Pn Pk0 ri i=1 2i ; 1 2n < Pn 1 i=k0 +1 2i 1 1 2n 2k0 si i=1 2i + + 1 2n = 1 2n = + 1 2n Pk0 ri i=1 2i = Pk0 Pk0 si i=1 2i si i=1 2i Pk0 si i=1 2i + + + 1 2k0 + 1 2k0 +1 1 2 i Pn si i=k0 +1 2i 1 1 2n 2 + + 1 2n 1 2n 1 2k0 Y, haciendo un desarrollo similar: Pk0 ri Pk0 ri Pn ri Pn ri 1 1 < + i i i n i=1 2 i=1 2 i=1 2i + 2k0 i=1 2 2 Pn si Pn si Pn ri Pn 1 Por lo tanto, i=1 2i ; i=1 2i + 2n y i=1 2i ; i=1 ri 2i + 1 2n son ajenos. Mostremos ahora que f es inyectiva: Sean (sk )k2N y (rk )k2N dos elementos distintos de B, x = k0 = m n fk 2 N : rk 6= sk g Entonces: Pk0 x2 i=1 y2 si ; 2i Pk0 ri i=1 2i ; Pk0 si i=1 2i Pk0 ri i=1 2i Y, por lo anterior, + + 1 2k0 1 2k0 Pk0 P1 sk k=1 2k yy = P1 rk k=1 2k , y de…namos: i i si i=1 2i ; Pk0 si i=1 2i + 1 2k0 i y Por lo tanto, x 6= y. Así que f es inyectiva. Pk0 ri i=1 2i ; Pk0 ri i=1 2i + 1 2k0 i son ajenos. Entonces la función f que asocia a cada sucesión (sk )k2N en B el número x = una biyección de B en el intervalo (0; 1]. Para cada (r1 ; r2; : : : ; rn ) 2 Bn , de…namos: Br1 ;r2; :::;rn = (sk )k2N 2 B : sk = rk para cualquier k 2 f1; 2; : : : ; ng S Entonces, f(r1 ;r2; :::;rn )2Bn g Br1 ;r2; :::;rn = B y, por lo anterior: Pn ri Pn ri 1 f Br1 ;r2; :::;rn i=1 2i + 2n i=1 2i ; Por lo tanto, S f(r1 ;r2; :::;rn )2Bn g Pn ri i=1 2i ; Pn ri i=1 2i + 1 2n = (0; 1] P1 sk k=1 2k es A.6. LOS RACIONALES DIÁDICOS 441 Así que: f Br1 ;r2; :::;rn = Pn ri i=1 2i ; Pn ri i=1 2i + 1 2n Corolario A.14. 1. Si (s1 ; s2; : : : ; sn ) 2 Bn y x 2 (0; 1], entonces, : : : ; sn son los Pn s1 ;sis2;P n si 1 primeros n términos del desarrollo de x en base 2 si y sólo si x 2 ; i=1 2i i=1 2i + 2n . 2. Para cada n 2 N y cada intervalo elemento (s1 ; s2 ; : : : ; sn ) 2 Bn tal que: I(r1 ;r2 ;:::;rn ) = k 1 k ; 2n 2n , donde k 2 f1; 2; : : : ; 2n g, existe un y sólo un k 1 k ; 2n 2n n 3. La función fn : Bn ! 20n ; 21n ; 22n ; : : : ; 2 2n 1 P fn ((s1 ; s2 ; : : : ; sn )) = nk=1 2skk de…nida por: establece una relación uno a uno entre Bn y el conjunto n 0 ; 1 ; 2 ; : : : ; 2 2n 1 2 n 2n 2n . Referencias para la parte de historia [1] Aristóteles; Física, Versión de Ute Schmidt Osmanczik, Biblioteca Scriptorum Graecorum et Romanorum Mexicana, Universidad Nacional Autónoma de México, México, 2005. [2] Aristóteles; Metafísica, Traducción de Alex Sbantytown, Andrómeda Ediciones, Buenos Aires, 2003. [3] Banach, S.; Sur le problème de la mesure, Fundamenta Mathematicae, 4, p. 7-33, 1923. [4] Bernoulli, J.; The Art of Conjecturing, Traducción de Sylla, E. D., University Press, 2006. Traducción de Ars Conjectandi, Basileae, 1713. [5] Borel, F. E. J. E.; Sur quelques points de la Théorie des Fonctions, C. R. Acad. Sci., t. 118, p. 340-342, 1894. Oeuvres de Émile Borel, Tome I, Centre National de la Recherche Scienti…que, p. 235-237, 1972. [6] Borel, F. E. J. E.; Sur quelques points de la Théorie des Fonctions, Thèse doctoral, Ann. Ec. Norm. Sup., 3em. série, t. 12, p. 9-55, 1895. Oeuvres de Émile Borel, Tome I, Centre National de la Recherche Scienti…que, p. 239-285, 1972. [7] Borel, F. E. J. E.; Leçons sur la Théorie des Fonctions, Gauthier-Villars, 1898. [8] Borel, F. E. J. E.; Remarques sur certains questions de Probabilité, Bull. Soc. Math. Fr., T. 32, p. 123128, 1904. Oeuvres de Émile Borel, Tome II, Centre National de la Recherche Scienti…que, p. 985-990, 1972. [9] Borel, F. E. J. E.; Les probabilités dénombrables et leurs applications arithmétiques, Rendiconti del Circolo Matematico di Palermo, T. 27, p. 247-270, 1909. Oeuvres de Émile Borel, Tome II, Centre National de la Recherche Scienti…que, p. 1055-1079, 1972. [10] Cantelli, F. P.; Sulla probabilità comme limite della frequenza, Rend. Acad. Lincei, Vol. 26, p. 39-45, 1917. [11] Cantor, G. F. L. P.; Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 1, Math. Ann., 15, p. 1-7, 1879. [12] Cantor, G. F. L. P.; Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 2, Math. Ann., 17, p. 355-358, 1880. [13] Cantor, G. F. L. P.; Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 3, Math. Ann., 20, p. 113-121, 1882. [14] Cantor, G. F. L. P.; Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 4, Math. Ann., 21, p. 51-58 y 545-591, 1883. [15] Cantor, G. F. L. P.; Ueber unendliche, lineare Punktmannichfaltigkeiten, Pt. 5, Math. Ann., 23, p. 453-488, 1884. [16] Carathéodory, C.; Über das lineare Mass von Punktmengen - eine Verallgemeinerung des Längenbegri¤ s, Nachrichten von der Königlichen Gesellchaft der Wiss zu Göttingen, p. 404-426, 1914. [17] Cauchy, A. L.; Résume des leçons données a l’Ëcole Royale Polytechnique sur le Calcul In…nitésimal, Imprimerie Royale, 1823. [18] Chebyshev, P. L.; Des valeurs moyennes, Matematicheskii Sbornik, 127, p. 1-9, 1867, también publicado en Liouville’s Journal de Mathématiques Pures et Appliquées, 88, p.177-184, 1867. [19] Chebyshev, P. L.; Démonstration élémentaire d’une proposition générale de la théorie des probabilités. [20] Chebyshev, P. L.; Sur deux théorèmes relatifs aux probabilités. [21] Daniell, P. J.; A general form of integral, Annals of Mathematics, Vol. 19, 1918. [22] Daniell, P. J.; Functions of limited variation in an in…nite number of dimensions, Annals of Mathematics, serie II, Vol. 21, p. 30-38, 1920. 443 444 REFERENCIAS PARA LA PARTE DE HISTORIA [23] Daniell, P. J.; Further properties of the general integral, Annals of Mathematics, Serie II, Vol. 21, p. 203-220, 1920. [24] Daniell, P. J.; Integrals in an in…nite number of dimensions, Annals of Mathematics. [25] de Finetti, B.; Sui passaggi al limite nel Calcolo delle Probabilità, (Reale) Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p. 155-166, 1930. [26] de Finetti, B.; A proposito dell’estensione del teorema delle probabilità totali alle classi numerabili, (Reale) Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p. 901-905, 1930. [27] de Finetti, B.; Ancora sull’estensione alle classi numerabili del teorema delle probabilità totali, (Reale) Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p. 1063-1069, 1930. n [28] de Moivre, A.; Approximatio ad Summam Terminorum Binomii (a + b) in Seriem expansi, 1733. [29] de Moivre, A.; The doctrine of chances, A. Millar, London, 1718 (third edition - 1756). Reimpreso por Chelsea, New York, 1967. [30] du Bois-Reymond, P. D. G.; Über die Integration der trigonometrischen Reihe, Math. Ann., 22, p. 260-268, 1883. [31] du Bois Reymond, P. D. G.; Über die Integration der Reihen, berlin Ak. Sber., p. 359-371, 1886. [32] Fatou, P.; Séries trigonométriques et séries de Taylor, Acta. Mat., 30, 1906. [33] Fermat, P. & Pascal, B.; Correspondance-1654, Oeuvres de Pascal, t. III, p. 369-430. [34] Fischer, E.; Sur la convergence en moyenne, Comptes-rendus de l’Académie des Sciences de Paris, 144, 1907. [35] Fourier, J. B. J.; T héorie analytique de la chaleur, Ed. Didot, 1822. [36] Fréchet, M. J.; Sur quelques points du Calcul Fonctionnel, Rendiconti del Circolo Matematico di Palermo, 22, p. 1-74, 1906. [37] Fréchet, M. R.; Sur l’intégrale d’une fonctionnelle étendue à un ensemble abstrait, Bull. Soc. Mat. de France, 43, 1915. [38] Fréchet, M. R.; Des familles et fonctions additives d’ensembles abstraits, Fundamenta Mathematicae, t. 4, 1923. [39] Fréchet, M. R.; Des familles et fonctions additives d’ensembles abstraits (Suite), Fundamenta Mathematicae, t. 5, 1924. [40] Fréchet, M. R.; Sur l’extension du théorème des probabilités totales au cas d’une suite in…nie d’événements, (Reale) Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p. 899-900, Milano, 1930. [41] Fréchet, M. R.; Sur l’extension du théorème des probabilités totales au cas d’une suite in…nie d’événements (seconde note), (Reale) Istituto Lombardo de Science e Lettere, Rendiconti, Vol. 63, p. 1059-1062, 1930. [42] Hald, A.; A History of Probability and Statistics and Their Applications before 1750, John Wiley, 1990. [43] Hankel, H.; Untersuchungen über die unendlich oft oszillierenden und unstetigen Functionen, University of Tübingen, 1870, reproducido en Math. Ann., 20, 1882. [44] Harnack, A.; Die elemente der Di¤ erential und Integralrechnung, B. G. Teubner, Leipzig, 1881. [45] Harnack, A.; Lehrbuch der Di¤ erential und Integralrechnung, 2 Vols., B. G. Teubner, Leipzig, 18841885. [46] Harnack, A.; Über den Inhalt von Punktmengen, Math. Ann. 25, p. 241-250, 1885. [47] Hausdor¤, F.; Grundzüge der Mengenlehre, Chelsea Publishing Company, 1914. [48] Hilbert, D.; Sur les problèmes futures des Mathématiques, Comptes Rendus du Deuxième Congrès International des mathematiciens, Paris, p. 58-114, 1900. [49] Huygens, C.; Du calcul dans les jeux de hasard, Oeuvres Complètes de Christiaan Huygens, Vol. XIV, Martinus Nijho¤, 1920. Traducción de De Ratiociniis in Aleae Ludo, 1657. [50] Jordan, M. E. C;, Cours d’Analyse de l’École Polytéchnique, 3 Vols., Gauthier-Villars, 1882-1887. (Second edition, 1893-1896; Third edition, 1909). [51] Khintchine, A.Ya.; Sur la loi forte des grands nombres, C. R. Ac. Sc. Paris, Vol. 186, p. 285-287, 1928. [52] Kolmogorov, A. N.; Sur la loi forte des grands nombres, C. R. Ac. Sc. Paris, Vol. 191, p. 910-912, 1930. REFERENCIAS PARA LA PARTE DE HISTORIA 445 [53] Kolmogorov, A. N.; Foundations of the Theory of Probability, Chelsea, 1950. Traducción de Grundbegri¤ e der Wahrscheinlichkeitsrechnung, Erg Mat. 2, No. 3, 1933. [54] Laplace, P. S.; Théorie Analytique des Probabilités, Livre I. Calcul des fonctions génératrices, Troisième edition, Courcier, Paris, 1820. Oeuvres complètes de Laplace, Tome septième, Gauthier-Villars, 1886. [55] Laplace, P. S.; Théorie Analytique des Probabilités, Livre II. Théorie générale des probabilités, Troisième edition, Courcier, Paris, 1820. Oeuvres complètes de Laplace, Tome septième, GauthierVillars, 1886. [56] Laplace, P. S.; Essai philosophique sur les Probabilités (1814), Gauthier-Villars, 1921. [57] Lebesgue, H. L.; Intégrale, longueur, aire, Thèse doctoral, Ann. Math. Pur. Appl., 7 (3), p. 231-359, 1902. [58] Lebesgue, H. L.; Leçons sur l’intégration et la recherche des fonctions primitives, Gauthier-Villars, 1904. [59] Lebesgue, H. L.; Sur la recherche des fonctions primitives par l’intégration, R. Acc. Lincei Rend., (5), 1907. [60] Lebesgue, H. L.; L’intégration des fonctions discontinues, Ann. Éc. Norm., 27 (3), 1910. [61] Lévy, P. P.; Les lois de probabilité dans les ensembles abstraits, Revue de Métaphysique et Morale, 1924. Reproducido en Calcul des Probabilités, Gauthier Villars, 1925. [62] Lévy, P. P.; Calcul des Probabilités, Gauthier Villars, Paris, 1925. [63] Lyapunov, A. M.; Sur une proposition de la Théorie des Probabilités, Izv. Akad. Nauk., Ser. 5, 13, p. 359-386, 1900. [64] Lyapunov, A. M.; Nouvelle forme du théorème sur la limite des probabilités, Notes Acad. Sci. Phys. Math. Sect., Ser. 8, 2, p. 1-24, 1901. [65] Maistrov, L. E.; Probability Theory - A historical sketch, Academic press, 1974. [66] Markov, A. A.; The law of large numbers and the method of least squares, Izd. Fiz. Mat. Ob.va Pri Kazan, Ser. 2, 8, p. 110-128, 1898. [67] Markov, A. A.; Extensión de la ley de los grandes números a variables dependientes, Notices (Izvestiya) of the Physical Mathematical Society al Kazan University, Ser. 2, 15 (no.4), p. 155-156, 1907. [68] Markov, A. A.; Teorema Central del Límite para variables aleatorias dependientes, 1908, 1910, 1911, 1912. [69] Markov, A. A.; Ischislenie Veroyatnostei (El Cálculo de Probabilidades), Moscow, 1913 (Cuarta edición, 1924). [70] Michel, A.; Constitution de la théorie moderne de l’intégration, Librairie Philosophique J. Vrin, 1992. [71] Moore, G. H., Lebesgue’s measure problem and Zermelo’s Axiom of Choice: the mathematical e¤ ects of a philosophical dispute, Ann. N. Y. Acad. Sci., 412, p. 129-154, 1983. [72] Newman, J. R.; Sigma, el mundo de las matemáticas, Vol. 3, 1997. [73] Nikodym, O.; Sur une généralisation des intégrales de M. J. Radon, Fundamenta Mathematicae, XV, p. 131-179, 1930. [74] Peano, G., Applicatione geometriche del Calcolo In…nitesimale, Torino, 1887. [75] Poincaré, J. H.; Calcul des Probabilités, Gauthier-Villars, París, 1896. [76] Radon, J.; Theorie une Anwendungen der absolut additiven Mengenfunktionen, Sitzber der Math Naturwiss, Klasse der Kais, Akademie der Wiss, 122 (II.1), 1913. [77] Riemann, G. F. B.; Sur la possibilité de représenter une fonction par une série trigonométrique, Mémoires de la Societé Royale des Sciences de Göttingue, t. XIII, 1867, traducción al francés reproducida en Oeuvres Mathématiques de Riemann, A. Blanchard, Paris, 1968. [78] Riesz, F.; Sur les systèmes orthogonaux de fonctions, C. R. Ac. Sc., 144, 1907. [79] Riesz, F.; Sur une espèce de Géométrie analytique des systèmes de fonctions sommables, C.R. 144, 1907. [80] Riesz, F.; Sur les opérations fonctionnelles linéaires, C. R. Ac. Sc., 149, 1909. [81] Riesz, F.; Sur les suites des fonctions mesurables, C. R. Ac. Sc., 148, 1909. [82] Riesz, F.; Sur quelques points de la théorie des fonctions sommables, C. R. Ac. Sc., 154, 1912. [83] Riesz, F.; L’évolutionde la notion d’intégrale depuis Lebesgue, Ann. Inst. Fourier, 1, 1949. 446 REFERENCIAS PARA LA PARTE DE HISTORIA [84] Smith, H. J. S.; On the integration of discontinuous functions, London Math. Soc. Proc., 6, 1875. [85] Solovay, R. M.; A model of Set Theory in which every set of reals is Lebesgue measurable, Ann. Math., 92, p. 1-56, 1970. [86] Steinhaus, H. D.; Les probabilités dénombrables et leur rapport à la Théorie de la Mesure, Fundamenta Mathematicae, t. 4, p. 286-310, 1923. [87] Stieltjes, T. J.; Recherches sur les fractions continues, Ann. Fac. Sc. Toul., t. VIII, 1894. [88] Stolz, O.; Über einen zu einer unendlichen Punktmenge gehörigen Grenzwerth, Math. Ann., 23, p. 152-156, 1884. [89] Stolz, O.; Grundzüge der Di¤ erential und Integralrechnung, 3 Vols., B. G. Teubner, Leipzig, 1893-99. [90] Vitali, G.; Sulle funzioni integrali, Torino Acc. Sci. Atti, 40, 1904-1905. [91] Vitali, G.; Sul problema della misura dei gruppi di punti di una retta, Tip. Bamberini et Parmeggiani, Bologna, 1905. [92] Volterra, V., Alcune osservazioni sulle funzioni punteggiate discontinue, Giorn. Mat., 19, p. 76-86, 1881. [93] Volterra, V.; Sui principii del Calcolo Integrale, Giorn. Mat., 19, p. 333-372, 1881. [94] Von Mises, R.; Grundlagen der Wahrscheinlichkeitsrechnung, Math. Zeitsch, Vol. 5, p. 52-99, 1919. [95] Von Mises, R.; Mathematical Theory of Probability and Statistics, 1919. [96] Wiener, N.; The mean of a functional of arbitrary elements, Ann. of Math., (2) 22, p. 66-72, 1920. [97] Wiener, N.; The average of an analytic functional, Proc. Nat. Acad. Sci. U.S.A., Vol. 7, No. 9, p. 253-260, 1921. [98] Wiener, N.; The average of an analytic functional and the Brownian Movement, Proc. Nat. Acad. Sci. U.S.A., Vol. 7, No. 10, p. 294-298, 1921. [99] Wiener, N.; Di¤ erential space, J. and Physics, 2, p. 131-174, 1923. PMath. 1 , Bull. Acad. Polon. Ser. A, 13, p. 83-90, 1923. [100] Wiener, N.; Note on the series n [101] Wiener, N.; Un problème de probabilités dénombrables, Bull. Soc. Math. France 11, p. 569-578, 1924. [102] Wiener, N.; The average value of a functional, Proc. London Math. Soc., 22, p. 454-467, 1924. Referencias para la formulación moderna [1] Ash, R. B.; Probability and Measure Theory, second edition, Academic Press, 2000. [2] Bachman, G. y Narici, L.; Functional Analysis, Academic Press, 1966. [3] Bartle, R. G.; Introducción al Análisis Matemático, Limusa, 1982. Traducción de The elements of Real Analysis, 2a. edición, John Wiley, 1976. [4] Billingsley, P.; Probability and Measure, John Wiley, 1979. [5] Chung, K.L.; A course in Probability Theory, Second edition, Academic Press, 1974. [6] García Álvarez, M. A.; Introducción a la teoría de la probabilidad, primer curso, FCE, 2005. [7] García Álvarez, M. A.; Introducción a la teoría de la probabilidad, segundo curso, FCE, 2005. [8] Royden, H. L.; Real Analysis, Second edition, Macmillan, 1968. 447 Índice Álgebra de conjuntos de…nición, 53 relativamente compacto de…nición, 427 propiedades, 428 secuencialmente compacto de…nición, 420 propiedades, 421, 424, 425 totalmente acotado de…nición, 421 propiedades, 425, 427 Conjuntos compactos, 420 Conjuntos compactos, numerablemente compactos y secuencialmente compactos equivalencia, 427 Construcción de espacios de probabilidad, 389, 393 Construcción de medidas, 139 Construcción de sucesiones de variables aleatorias con distribuciones …nito dimensionales conocidas, 409 Construcción de sucesiones de variables aleatorias independientes, 403 Contenido de un conjunto, 30 exterior, 30 interior, 30 Convergencia casi en todas partes, 266 caracterización, 267, 268 de…nición, 266 propiedades, 276 casi segura, 350 débil, 277 caracterización, 279 de…nición, 278 propiedades, 278 en Lp , 296 caracterización, 300 de…nición, 296 propiedades, 297, 298, 302, 303 Abel, N. H., 264 Banach, S., 38, 340 Bernoulli, J., 265, 317 Borel, F. E. J. E., 32–36, 42, 44 Cantor, G. F. L. P., 25 Carathéodory, C., 42, 43, 133, 189 Cauchy, A. L., 20, 21, 133, 264 Clase monótona de…nición, 146 generada por una familia de conjuntos, 147 Conjunto acotado de…nición, 421 compacto, 419 caracterización, 427, 429 de…nición, 420 propiedades, 421, 423, 424, 426, 427, 429 de Cantor, 25 de contenido cero, 30, 31 de…nición, 25 de medida cero, 34, 35 de…nición, 32 de medida cero en los reales, 74 de primera especie, 24 denso en ninguna parte, 21 Jordan medible, 30, 31, 36, 42 Lebesgue medible, 42, 74 de…nición, 41, 69 medible de…nición, 140 numerablemente compacto de…nición, 420 propiedades, 421, 423, 424 positivo de…nición, 152 449 450 ÍNDICE en distribución, 277, 286 de…nición, 286 propiedades, 286, 288, 289 en medida, 268 de…nición, 268 propiedades, 269, 270, 272, 274–277 en probabilidad, 350 uniforme, 434 de…nición, 434 propiedades, 435 Convergencia de funciones medibles, 263, 291 historia, 263 Covarianza de…nición, 372 propiedades, 372, 373, 375 Criterio de Cauchy para la integral de Riemann-Stieltjes, 100 de…nición, 100 Cubierta de un conjunto de…nición, 67, 139 ejemplos, 347 Espacio vectorial normado, 429 de dimensión …nita propiedades, 431–433 de…nición, 429 propiedades, 432, 434 Espacios Lp , 291 propiedades, 292, 294, 296 Espacios de probabilidad, 343 Esperanza de una variable aleatoria, 367 de…nición, 367 propiedades, 368–370 Esperanza …nita de…nición, 368 Evento de…nición, 307 Eventos mutuamente excluyentes de…nición, 344 propiedades, 344 Experimento aleatorio, 307 d-sistema de…nición, 148 generado por una familia de conjuntos, 148 Daniell, P. J., 134, 187, 189, 190 de Moivre, A., 265, 319 Densidad de las funciones simples en Lp , 305 Desigualdad de Cauchy-Schwarz, 374 de Chebyshev, 377 de Hölder, 293 de Kolmogorov, 382 de Minkowski, 293 Desviación estándar de…nición, 371 Dirichlet, J. P. G. L., 21 Drach, J. J., 35 du Bois Reymond, P., 25, 27 Fórmula de cambio de variable para la integral de Lebesgue-Stieltjes, 258 para la integral de Riemann-Stieltjes, 121 Fórmula de integración por partes para la integral de Lebesgue-Stieltjes, 257 para la integral de Riemann-Stieltjes, 119 Familia uniformemente integrable propiedades, 218, 222 Familia uniformemente integrable de…nición, 217 propiedades, 217, 219, 222 Fatou, P. J. L., 179, 180 Fischer, E., 180, 265 Fourier, J. J., 19, 20, 263 Fréchet, M. R., 131, 132, 186, 265, 332 Función con soporte compacto de…nición, 278 de densidad absolutamente continua de…nición, 356 de densidad discreta de…nición, 356 de distribución, 354 de…nición, 354 ejemplos, 356 propiedades, 354, 359 de distribución conjunta, 359 como medida en Rn , 393 de…nición, 359 Ensayo de Bernoulli, 330, 333, 390 Espacio de medida de…nición, 134 propiedades, 137, 138 medible de…nición, 53 Espacio de Banach de…nición, 433 propiedades, 433 Espacio de probabilidad de…nición, 343 ÍNDICE propiedades, 359, 362, 363 de distribución …nita en n variables de…nición, 393 propiedades, 394–397 de variación acotada, 77, 81, 90 como diferencia de dos funciones no decrecientes, 80, 81, 88 continua por la derecha, 95 continua por la izquierda, 97 de…nición, 77 discontinuidades, 81 en un punto, 113 localmente, 113, 114 propiedades, 77–81, 84, 88, 90, 95, 97, 114, 118, 119, 254 …nitamente aditiva de…nición, 64 propiedades, 135, 136 integrable, 208 de…nición, 208 propiedades, 208–210, 212, 216, 217, 221 lineal por pedazos de…nición, 436 propiedades, 436 medible, 45, 47, 190 de…nición, 190 equivalencia, 196 propiedades, 190–196, 198–200, 204, 205, 207 medible no negativa propiedades, 215 no decreciente continua por la derecha, 93 continua por la izquierda, 94 parte continua y parte de saltos, 90, 97 parte continua y parte discreta, 254 propiedades, 83–85, 90, 93, 94, 97 nula en el in…nito de…nición, 278 Riemann-integrable, 22, 23, 29, 31, 32, 36, 37 sigma-aditiva, 65 de…nición, 65 sigma-subaditiva de…nición, 135 simple, 200 de…nición, 192 propiedades, 201, 202 representación canónica, 193 función de probabilidad de…nición, 307 Funciones de variación acotada y la integral de Riemann-Stieltjes 451 historia, 75 Funciones medibles en Rn , 197 Funciones medibles en los reales, 191 Hankel, H., 24 Harnack, H., 30 Hausdor¤, F., 332 Independencia de eventos de…nición, 344 propiedades, 344, 345 de variables aleatorias, 352 de…nición, 352 propiedades, 352, 353 Integrabilidad uniforme, 215 Integral de Lebesgue, 44, 131 de Lebesgue-Stieltjes de…nición, 243 propiedades, 244, 245, 247, 252, 255, 256 de Riemann, 22 propiedades, 112 de Riemann-Stieltjes, 99, 112 de…nición, 99 para funciones continuas, 101, 113 para funciones discontinuas, 122, 123, 125 propiedades, 100–103, 106, 108, 110, 112, 113, 120 de Stieltjes, 75, 76, 131 de una función medible no negativa, 203 de una función simple, 200 Integral de Riemann-Stieltjes, 99 Integrales de funciones medibles no negativas, 203 Integrales de funciones simples no negativas, 200 Jordan, M. E. C., 30, 36, 42, 76 Kolmogorov, A. N., 189, 338 Kuratowski, K., 340 Lévy, P. P., 341 Lebesgue, H. L., 34, 36–45, 47, 48, 51, 75, 76, 129–131, 133, 134, 179–181, 183, 185, 186, 189, 190, 264 Lema de Fatou para sucesiones dobles, 207 propiedades, 205 Lema de Borel-Cantelli, 268 primera parte, 346 segunda parte, 347 452 ÍNDICE Ley débil de los grandes números, 326 de Chebyshev, 377 de Khintchine, 380 Ley fuerte de los grandes números, 331 de Borel, 381 de Kolmogorov, 383, 388 Leyes de los grandes números, 376 Método de truncación, 381 Medida completa de…nición, 145 con signo de…nición, 152 de Lebesgue, 74 exterior, 40, 41 de…nición, 68, 139 propiedades, 139, 140 …nita de…nición, 134 generada por una función de distribución …nita de…nición, 400 generada por una función de variación acotada, 175 generada por una función no decreciente de…nición, 168 generada por una quasi medida, 143 interior, 40, 41 sigma-…nita de…nición, 134 sobre una sigma-álgebra de…nición, 134 uniformemente continua, 224 Medida de Lebesgue en el plano, 47 Medida de Lebesgue en los reales, 53, 67 Medida e integral de Lebesgue Desarrollo histórico, 19 Medidas con signo, 152 Medidas con signo y funciones de variación acotada, 173 Medidas en los reales, 159 Medidas sobre álgebras y sigma-álgebras, 134 Medidas y funciones no decrecientes, 161 Nikodym, O., 133, 180, 186, 187 Norma del máximo de…nición, 430 propiedades, 430 Oscilación de una función en un intervalo de…nición, 22 en un punto de…nición, 24 Peano, G., 30, 48 Pi-sistema de…nición, 148 Probabilidad condicional de…nición, 344 propiedades, 345 Problema de la integral, 37 de la medida, 38, 41 Producto de espacios de medida, 227 Propiedad de la aditividad …nita, 328 Propiedad de la intersección …nita de…nición, 421 Proyección de medidas, 236 propiedades, 236–238, 242 Punto de continuidad de una medida de…nición, 278 Quasi medida de…nición, 135 propiedades, 137 Radon, J., 332 Radon, J. K. A., 130, 131, 185–187 Regla de la probabilidad total, 346 Regla del producto, 346 Regularidad de las medidas sobre los borelianos de Rn , 401 Riemann, G. F. B., 21–24, 28, 31, 133 Riesz, F., 76, 134, 179, 180, 187, 264–266 Sigma álgebra de Borel en Rn , 58 Sigma subaditividad de…nición, 69 Sigma-Álgebra de Borel de…nición, 55, 57, 58, 62 generada por una familia de conjuntos, 54 generada por una familia de funciones, 351 Sigma-Álgebra de conjuntos de…nición, 53 Smith, J. S., 25 Stieltjes, T. J., 75, 131 Stolz, O., 30 Sucesión convergente de conjuntos de…nición, 138 de Cauchy en medida ÍNDICE de…nición, 274 Suma de Riemann-Stieltjes de…nición, 99 Tarski, A., 341 Teoría de la medida de Borel, 32 Teoría de la medida de Lebesgue, 36 Teoría de la probabilidad, 307 Teoría general de integración, 179, 215 historia, 179 Teoría general de la medida, 129 historia, 129 Teorema de clases monótonas, 146 para álgebras, 147, 148 para pi-sistemas, 148, 149 de descomposición de Hahn, 154 de Fubini, 235 de Heine-Borel, 415, 419 de Kolmogorov, 410 de la convergencia dominada, 211 de la convergencia monótona, 203 de la convergencia uniformemente acotada, 47 de la convergencia uniformemente integrable, 220 de Radon-Nikodym, 223 propiedades, 224 de Tonelli, 234 Teorema Central del Límite, 326 Unicidad de la extensión de una medida, 149 Variables aleatorias de…nición, 350 distribución, 350 Varianza de…nición, 371 propiedades, 371–374 Varianza …nita de…nición, 371 Vectores aleatorios de…nición, 350 distribución, 350 propiedades, 352 Vitali, G., 129, 185 Volterra, V., 25 Weierstrass, 264 Wiener, N., 134, 189 453