Probabilités - Variables aléatoires discrètes 18 mars 2024 Table des matières 1 Préliminaires techniques et rappels 4 1.1 Dénombrabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Séries numériques et familles sommables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Espaces probabilisés 7 2.1 Vocabulaire probabiliste de base : Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Notion de tribu sur un ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.2 Tribu engendrée par une partie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.3 Tribus boréliennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Probabilité sur un espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.2 Propriétés de continuité monotone. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.3 Construction d’une probabilité sur des espaces probabilisés discrets . . . . . . . . . . . . . . . 20 2.3 3 Conditionnement 23 3.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Propriétés des probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.1 Formules des probabilités composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.2 Formule des probabilités totales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2.3 Formule de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4 Indépendance d’événements 29 4.1 Cas de deux événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2 Cas d’une famille d’événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1 5 Variables aléatoires réelles : généralités 34 5.1 Premières notions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.2 Opérations sur les variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.3 Fonction d’une ou plusieurs v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.4 Loi de probabilité d’une v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.5 Fonction de répartition d’une variable aléatoire réelle. . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.6 Indépendance des variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.6.1 Cas de deux v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.6.2 Cas d’une famille de v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6 Variables aléatoires réelles discrètes 6.1 6.2 6.3 49 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6.1.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6.1.2 Loi et fonction de répartition d’une v.a.r.d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.1.3 Indépendance des v.a.r.d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Espérance d’une v.a.r.d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.2.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.2.2 Théorèmes de transfert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 6.2.3 Autre propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Moments d’une v.a.r.d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.3.2 Moments d’ordre 2 et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7 Lois discrètes usuelles : rappels 7.1 7.2 70 Lois discrètes usuelles finies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 7.1.1 Loi uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 7.1.2 Loi de Bernoulli. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 7.1.3 Loi binomiale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Lois discrètes infinies usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 7.2.1 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 7.2.2 Loi de Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 8 Couples aléatoires discrètes 74 8.1 Loi conjointe, lois marginales d’un couple aléatoire discret. . . . . . . . . . . . . . . . . . . . . . . . . 75 8.2 Loi d’une fonction réelle d’un couple aléatoire discret. . . . . . . . . . . . . . . . . . . . . . . . . . . 77 8.3 Covariance, coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 9 Stabilité de quelques familles de lois discrètes 84 2 10 Fonction génératrice d’une v.a.r à valeurs dans N 86 10.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 10.2 Fonction génératrice et lois discrètes usuelles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 10.3 Fonction génératrice et moments d’ordres 1 et 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 11 Variables aléatoires continues à densité 94 11.1 V.a continues, v.a absolument continues, densité de probabilité . . . . . . . . . . . . . . . . . . . . . 94 11.1.1 V.a continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 11.1.2 V.a.r absolument continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 11.2 Espérance, moments et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 11.2.1 Espérance d’une v.a.r continue à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 11.2.2 Théorème de transfert à une variable continue à densité . . . . . . . . . . . . . . . . . . . . . 109 11.2.3 Moments d’ordres supérieurs d’une v.a.r à densité . . . . . . . . . . . . . . . . . . . . . . . . 110 11.2.4 Moments d’ordre 2 et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 11.3 Lois continues à densité usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 11.3.1 Loi uniforme sur un segment. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 11.3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 11.3.3 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 11.3.4 Loi gamma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 12 Introduction à la notion de convergence d’une suite de v.a.r 123 12.1 Inégalités de concentration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 12.1.1 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 12.1.2 Inégalité de Bienaymé - Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 12.1.3 Inégalité de Jensen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 12.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 12.2.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 12.2.2 Opérations sur la convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 12.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 12.3.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 12.3.2 Lien avec la convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 12.3.3 Opérations sur la convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 12.4 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 12.4.1 Loi faible des grands nombres (LFGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 12.4.2 Théorème central limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 3 1 Préliminaires techniques et rappels 1.1 Dénombrabilité a) Ensembles dénombrables Définition 1.1 Un ensemble D est dit dénombrable si et seulement si il existe une bijection de N sur D (on dit qu’il est équipotent à N) Exemple 1.1 1. L’ensemble N, lui-même, est dénombrable ainsi que ses parties N∗ = N ∖ {0}, N ∖ {0, 1}, P (ensemble des nombres entiers naturels pairs) et I(ensemble des nombres entiers naturels impairs). 2. L’ensemble Z est également dénombrable car en posant, pour tout n ∈ N, f (2n) = n et f (2n + 1) = −n − 1, on définit une bijection de N sur Z. Propriétés • Tout ensemble équipotent à un ensemble dénombrable est, lui-même, dénombrable. • Toute partie infinie de N, ou d’un ensemble dénombrable, est dénombrable. • Un ensemble D est dénombrable si et seulement si il peut s’écrire D = {xn / n ∈ N} ; où les xn sont deux à deux distincts. b) Ensembles au plus dénombrables Définition 1.2 Un ensemble D est dit au plus dénombrable si et seulement si il existe une bijection d’une partie de N sur D. Exemple 1.2 1. Tout ensemble dénombrable est au plus dénombrable. 2. Tout ensemble fini est au plus dénombrable. Propriétés • Tout ensemble équipotent à un ensemble au plus dénombrable est au plus dénombrable. • Un ensemble est au plus dénombrable si et seulement si il est fini ou dénombrable. • Un ensemble D est au plus dénombrable si et seulement si il peut s’écrire D = {xn / n ∈ N} . • Un ensemble D est au plus dénombrable si et seulement si il existe une application injective de D dans un ensemble dénombrable. • Un ensemble D est au plus dénombrable si et seulement si il existe une application surjective d’un ensemble dénombrable sur D. 4 • Le produit cartésien D1 × ... × Dr d’ensembles au plus dénombrables est au plus dénombrable ; de plus, il est dénombrable si les Di sont tous non vides et l’un au moins d’eux est dénombrable. S • L’union au plus dénombrable Di d’ensemble au plus dénombrable est au plus dénombrable ; de plus, elle est i∈I dénombrable si l’un au moins des Di est dénombrable. • Un ensemble D est au plus dénombrable si et seulement si il existe une suite (Jn )n∈N de parties finies de D S Jn = D. croissante pour l’inclusion telle que n∈N exemple 1.3 1. Pour tout r ∈ N∗ , Nr est dénombrable. 2. L’ensemble Q des nombres rationnels est dénombrable. 3. L’ensemble Np × Zq × Qr est dénombrable, pour tout (p, q, r) ∈ N∗3 . 4. L’ensemble {−1, 2, 5} × ({−2, −1} ∪ N) × Z∗ est dénombrable. Exemples d’ensembles infinis non dénombrables Il importe de se rappeler que l’ensemble P (N) des parties de N est infini non dénombrable, que tous les intervalles de R non vides et non réduits à un point le sont également, y compris R lui-même. On en déduit que l’ensemble R ∖ Q des nombres irrationnels est forcément infini non dénombrable. Exercice 1.1 Pour tout A ∈ P (N) on note φA sa fonction caractéristique. On rappelle qu’elle est l’application : φA : N −→ n 7−→ {0, 1} 1 ; si n ∈ A 0 ; si n ∈ /A N Montrer que l’application A 7−→ φA est une bijection de P (N) sur l’ensemble {0, 1} des applications de N dans {0, 1}. Qu’en déduit-on ? 1.2 Séries numériques et familles sommables a) Absolue convergence d’une série, sommabilité d’une suite, permutation des termes On rappelle les résultats suivants : • Soit (an )n∈N une suite de nombres réels ou complexes. Alors les p.s.s.e : 1. La suite (an )n∈N est sommable. P 2. la série an est absolument convergente. n≥0 De plus, dans ce cas, +∞ P an = n=0 P an et +∞ P n=0 n∈N an ≤ +∞ P n=0 |an | et P n∈N an ≤ P n∈N |an |. • Soit (an )n∈N une suite positive et σ une permutation de N. Alors les p.s.s.e : P 1. la série an est convergente. n≥0 P aσ(n) est convergente. 2. la série n≥0 De plus, dans ce cas, on a : +∞ P n=0 an = +∞ P n=0 aσ(n) • Soit (an )n∈N une suite de nombres réels ou complexes et σ une permutation de N. Alors les p.s.s.e : 5 1. la série P an est absolument convergente. P aσ(n) est absolument convergente. 2. la série n≥0 n≥0 De plus, dans ce cas, on a : +∞ P an = n=0 +∞ P n=0 aσ(n) b) Sommation par paquets On rappelle les résultats suivants : • Soit (ap )p∈I une famille positive au plus dénombrable et (Iλ )λ∈Λ un partage au plus dénombrable de I tel que pour tout λ ∈ Λ, la famille (ap )p∈Iλ est sommable. Alors la famille (ap )p∈I est sommable si et seulement si la famille ! ! P P P P ap est sommable. De plus, dans ce cas, on a : ap = ap p∈Iλ p∈I λ∈Λ λ∈Λ p∈Iλ [découle immédiatement du théorème de sommation par paquets - version étroite)] • Soit (ap )p∈I une famille de nombre réels ou complexes au plus dénombrable et (Iλ )λ∈Λ un partage au plus dénombrable de I tels que la famille (ap )p∈I est sommable. Alors on a : 1. la famille (ap )p∈Iλ est sommable. ! P 2. la famille ap est sommable. p∈Iλ 3. P ap = p∈I P λ∈Λ P λ∈Λ ! ap . p∈Iλ [c’est le théorème de sommation par paquets - version large] • Soit (ap,q )(p,q)∈I×J une famille double au plus dénombrable positive. Alors : 1. Si pour tout p ∈ I, la famille (ap,q )q∈J est sommable alors la famille (ap,q )(p,q)∈I×J est sommable si et ! ! P P P P ap,q est sommable et on a : ap,q = ap,q seulement si la famille q∈J (p,q)∈I×J p∈I p∈I q∈J 2. Si pour tout q ∈ J, la famille (ap,q )p∈I est sommable alors la famille (ap,q )(p,q)∈I×J est sommable si et ! ! P P P P ap,q est sommable et on a : ap,q = ap,q seulement si la famille q∈I (p,q)∈I×J q∈J q∈J p∈I [découle du théorème de Fubini pour les familles doubles positives] • Soit (ap,q )(p,q)∈I×J une famille double au plus dénombrable de nombres réels ou complexes. Alors : ! P ap,q est sommable. 1. Pour tout p ∈ I la famille (ap,q )q∈J est sommable et la famille q∈J 2. pour tout q ∈ J la famille (ap,q )p∈I est sommable et la famille P 3. (p,q)∈I×J ap,q = P p∈I P q∈J ap,q ! = P q∈J P p∈I ap,q ! P q∈I ap,q ! p∈I est sommable. q∈J c) Conventions (propres au cours de probabilité) • Soit P n≥0 an une série à termes positifs. On sait que la suite réelle (Sn )n∈N de ses sommes partielles est croissante ; donc, selon le théorème de limite monotone séquentiel, soit que cette suite est convergente dans R vers la somme de la série (et c’est le cas de convergence de cette série) soit qu’elle tend vers +∞ en +∞ (et c’est le cas de la divergence de cette série). 6 On pose +∞ P an = lim n P n→+∞ k=0 n=0 ak en sorte que : +∞ P an ∈ R n=0 +∞ P ; en cas de convergence de la série an = +∞ ; en cas de sa divergence n=0 Ainsi, avec cette convention, on a : +∞ P 1. La quantité an existe toujours dans R+ ∪ {+∞} n=0 2. P an converge si et seulement si +∞ P an < +∞ n=0 n≥0 • Soit (ap )p∈I une famille positive au plus dénombrable. On sait qu’étant donnée une suite exhaustive (Jn )n∈N de ! P I, la suite ap est croissante ; donc, soit qu’elle converge dans R vers la somme de la famille (et le cas de p∈Jn n∈N sommabilité de cette famille) soit qu’elle tend vers +∞ en +∞ (et ! c’est le cas de non sommabilité de cette famille). P P On convient de poser, dans tous les cas ap = lim ap , en sorte que : 1. P p∈I p∈I n→+∞ ap est un élément de R+ ∪ {+∞}. 2. la famille (ap )p∈I est sommable si et seulement si p∈Jn P ap < +∞ p∈I N.B Ces conventions ne valent pas pour les séries et familles scalaires non positives. 2 Espaces probabilisés À l’inverse des phénomènes déterministes, où les conditions initiales permettent d’en prédire avec exactitude la ou les issues, l’évolution des phénomènes aléatoires est totalement imprévisible. Le cours de probabilité a pour objet de fournir des outils mathématiques permettant l’étude des phénomènes aléatoires afin d’améliorer au mieux les prévisions relatives à leur évolution et interpréter rationnellement toutes les données qui leur sont liés. Le point de départ est la notion d’espace probabilisé qu’on développe dans ce paragraphe 2.1 Vocabulaire probabiliste de base : Rappels Expériences aléatoire On appelle expérience aléatoire toute épreuve dont on ne peut prévoir l’issue et cela, même si on la répète dans les mêmes conditions. Comme exemples, on peut citer le lancer d’un ou de plusieurs dés, le lancer d’une ou de plusieurs pièces de monnaie, le tirage d’une ou de plusieurs boules dans une urne, le lancer d’une fléchette sur une cible, la mesure de la durée de vie d’ampoules électriques ou de la taille des personnes d’une population...etc. Univers associé à une expérience Étant donné une expérience aléatoire (E), l’ensemble de toutes ses issues (ou résultats) possibles est appelé l’univers de l’expérience (E). On l’appelle également l’ensemble fondamental de (E). Traditionnellement, on désigne l’univers en utilisant la lettre Ω. Reprenons quelques uns des exemples précédent, afin de leur associer des univers : 7 1. Si on lance un dé cubique dont les faces sont numérotées de 1 à 6, le résultat est la face supérieure après que le dé se stabilise. On convient de la confondre avec le numéro qu’elle porte. On peut donc associer à cette expérience l’univers Ω = {1, 2, 3, 4, 5, 6} = J1, 6K. 2 En lançant deux dé discernables (par leur couleur par exemple), l’univers choisi peut être Ω = J1, 6K , c’est à dire l’ensemble des couples (a, b) où a est le résultat de l’un des dé et b est le résultat de l’autre. 2. Si on lance une pièce de monnaie, le résultat est soit « pile » soit « face ». En notant respectivement P et F ces deux résultats, on peut prendre comme univers Ω = {P, F }. Si on lance cette pièce trois fois, les résultats possible sont des 3- listes d’éléments de {P, F }, c’est à dire des triplets dont les projections sont dans {P, F }. On peut prendre comme univers : Ω = (P, P, P ), (P, P, F ) , (P, F, P ) , (F, P, P ),(P, F, F ) , (F, P, F ) , (F, F, P ), (F, F, F ) , ou en notation plus | {z } | {z }| {z } | {z } 0 faces 1 face 2 faces 3 faces simple Ω = {P P P, P P F, P F P, F P P, P F F, F P F, F F P, F F F } 3. On tire simultanément trois boules d’une urne contenant n boules numérotées de 1 à n ; où n ≥ 4 chaque résultat possible est un lot de 3 boules prise parmi l’ensemble des boules de l’urne. Si on confond chaque boule et le numéro qu’elle porte, on peut convenir que l’univers de cette expérience aléatoire est Ω = {A ∈ P (J1, nK) / card (A) = 3} ; c’est l’ensemble de toutes les 3 - combinaisons de J1, nK. 4. Finalement, considérons l’expérience aléatoire qui consiste à mesurer la durée de vie d’une marque d’ampoule électrique. Il est clair que toutes les durées de vie qu’on peut mesurer peuvent décrire un intervalle I non vide et non réduit à un point inclus dans R∗+ qu’on peut estimer empiriquement. Alors on peut prendre Ω = I. Remarque 2.1 Le choix de l’univers dépend de l’observateur. Ainsi dans l’expérience de lancer de deux dés discernables, on a vu 2 qu’on peut choisir Ω = J1, 6K . Mais un joueurs qui s’intéresse à miser sur la somme des deux numéros obtenus peut avoir intérêt à prendre Ω = J2, 12K (ensemble de toutes les sommes possible de deux éléments de J1, 6K. Prenons un autre exemple : On lance une fléchette sur une cible circulaire de centre un point O et de rayon R > 0 (on suppose que tous les joueurs sont assez adroits pour atteindre la cible à chaque tentative). Dans cette expérience, on peut choisir comme univers l’ensemble des points de la cible qu’on peut confondre avec le disque D (O, R) limité par le cercle C (O, R) et poser Ω = D (O, R). Mais un joueur autre qui ne s’intéresse qu’à la distance du point d’impact au centre O peut prendre comme univers le segment Ω = [0, R]. Le modèle mathématique probabiliste qu’on va développer propose des outils de prévision viables quelque soit le choix de l’univers. Événements liés à une expérience aléatoire Au cours d’une expérience aléatoire (E) à laquelle on a associé l’univers Ω, nombre de séquences peuvent arriver. Par exemple, dans l’épreuve de lancer un dé cubique dont les faces sont numérotées de 1 à 6, il peut arriver que le résultat de l’expérience soit un nombre pair, ou impair, ou qu’il soit plus petit que 5, ou qu’il soit un nombre premier, ou qu’il divise 18...etc. Il s’agit de ce qu’on appelle communément « événements » Mathématiquement parlant, on convient d’appeler « événement » lié à l’expérience aléatoire (E) toute partie de son univers Ω. Un événement A (où A ⊂ Ω) est dit « réalisé » si le résultat de l’expérience (E) appartient à A. Exemple 1.4 Reprenons l’exemple du dé cubique, où Ω = J1, 6K. On a : 1. L’événement A : « obtenir un nombre pair » est réalisé si le lancer du dé amène 2 ou 4 ou 6. Il est représenté par la partie A = {2, 4, 6} de Ω. 8 2. L’événement B : « obtenir un nombre impair » est réalisé si le lancer du dé amène 1 ou 3 ou 5. Il est désigné par la partie B = {1, 3, 5}. 3. L’événement C : « obtenir un nombre premier » est réalisé si le lancer du dé amène 2 ou 3 ou 5. Il est la partie C = {2, 3, 5}. 4. De même, l’événement D : « obtenir un diviseur de 18 » n’est rien d’autre que D = {1, 2, 3, 6} Voici quelques vocabulaires liés à la notion d’événement : 1. Les singletons {ω} (où ω ∈ Ω) sont dits les événements élémentaires. 2. L’événement Ω (partie pleine de Ω) est certainement réalisé ; on l’appelle l’événement certain (ou sûr). 3. L’événement Ø (partie vide de Ω) est impossible à réaliser ; on l’appelle l’événement impossible. 4. Un événement A est réalisé si et seulement si son complémentaire A dans Ω n’est pas réalisé. A est appelé l’événement contraire de A. 5. Soit A et B deux événements liée à l’expérience (E). L’événement A ∩ B est réalisé si et seulement si les deux événements A et B le sont simultanément ; on l’appelle l’événement « A et B ». Si A ∩ B = Ø (c’est à dire que A et B ne peuvent se réaliser simultanément), on dit que les deux événements A et B sont incompatibles. 6. Soit A et B deux événements liée à l’expérience (E). L’événement A ∪ B est réalisé si et seulement si l’un au moins des deux est réalisé ; on l’appelle l’événement « A ou B ». 7. Soit A et B deux événements liée à l’expérience (E). L’événement A ∖ B est réalisé si et seulement si A est réalisé et B non ; on l’appelle l’événement « A sans B ». Exercice 2.1 On lance indéfiniment une pièce de monnaie et on note, pour tout n ∈ N∗ , Fn l’événement : « obtenir face au nième lancer » T T T T T S Fn , Décrire avec des phrases du langage courant les événements suivants :F1 F2 F3 , F1 F2 ... Fn Fn+1 , n∈N∗ T T T T T T T T T S S S S S S T Fn , F 2 F 3 F1 F2 F 3 , Ak et Ak F2 F3 , F 1 F 2 F 3 F1 F2 F3 n∈N∗ n≥0k≥n n≥0k≥n Remarque 2.2 Dans une expérience aléatoire à univers Ω infini non dénombrable, certains événements sont impossibles à « mesurer », dans ce sens qu’il est hors de portée d’évaluer leur chances de réalisation, ou ne sont simplement pas intéressants pour l’observateur pour différentes raisons. Comme exemple reprenons l’épreuve de la fléchette où l’univers est le segment Ω = [0, R] des distances possibles entre le point d’impact de la fléchette au centre O de la cible. L’événement : « la dite distance est irrationnelle » est impossible à mesurer. Afin de modéliser efficacement le cadre mathématique des événements, il est utile d’exclure ce type d’événements de l’étude et ne retenir qu’un ensemble d’événements suffisamment représentatif pour obtenir des prévisions correctes et des interprétation fiables du déroulement de l’épreuve. L’outil mathématique correspondant est la notion de tribu étudiée dans le paragraphe suivant. 2.2 Notion de tribu sur un ensemble Ω désigne un ensemble quelconque qui peut être, en particulier, l’univers associé à une expérience aléatoire. 9 2.2.1 Généralités Définition 2.1 On appelle tribu (ou σ- algèbre) sur l’ensemble Ω toute partie A de P (Ω) vérifiant les conditions suivantes : 1. Ω ∈ A. 2. Pour tout A ∈ A, A ∈ A. 3. Pour toute suite (An )n∈N d’éléments de A, S n∈N An ∈ A. Remarque 2.3 Si A est une tribu sur Ω alors Ø ∈ A. En effet, d’après la condition 1, Ω ∈ A ; et d’après la condition 2, Ø = A ∈ A. Vocabulaire Si Ω est l’univers associé à une expérience aléatoire et A est une tribu sur Ω, le couple (Ω, A) est dit un espace probabilisable et les éléments de la tribu A sont dits les événements (mesurables) de cet espace. Exemple 2.1 1. P (Ω) est une tribu sur Ω. On l’appelle la tribu grossière de Ω. 2. {Ø, Ω} est une tribu sur Ω. On l’appelle la tribu triviale Exercice 2.2 Soit A ∈ P (Ω). Montrer que Ø, A, A, Ω est une tribu sur Ω. Proposition 2.1 Soit A une partie de P (Ω). Alors les p.s.s.e : 1. Pour toute suite (An )n∈N d’éléments de A, S n∈N An ∈ A. 2. Pour toute famille dénombrable (Ai )i∈I d’éléments de A, S i∈I Ai ∈ A Preuve Il est clair que la proposition 2 entraîne la proposition 1 en l’appliquant à I = N. Réciproquement, supposons la proposition 1 vérifiée et montrons que la proposition 2 l’est également . Soit I un ensemble dénombrable et (Ai )i∈I une famille d’éléments de A indexée par I. En se donnant une bijection σ de N sur I, on S S S S Ai = Aσ(n) . Et comme par hypothèse Aσ(n) ∈ A, on a : Ai ∈ A. CQFD. vérifie aisément par double inclusion que i∈I n∈N n∈N Vocabulaire La condition 2 de la définition 2.1 est dite la stabilité de A par passage au complémentaire. La condition 3 de la définition 2.1 est dite la stabilité de A par union dénombrable. 10 i∈I Théorème 2.1 Soit A une tribu sur l’ensemble Ω. Alors : 1. A est stable par union finie : ∀ n ∈ N, ∀ (A1 , ..., An ) ∈ An , n S Ak ∈ A. k=1 S N 2. A est stable par intersection dénombrable : ∀ (An )n∈N ∈ A , n∈N 3. A est stable par intersection finie : ∀ n ∈ N, ∀ (A1 , ..., An ) ∈ An , An ∈ A. n T k=1 Ak ∈ A. Preuve Elle est laissée en exercice. Remarque 2.4 On déduit des propriétés précédentes qu’une tribu est stable par toutes les opérations ensemblistes (intersection, union, et complémentaire) à condition que ces opérations fassent intervenir un nombre fini ou dénombrable d’éléments de cette tribu. En particulier, une tribu A est stable par différence et par différence symétrique : Proposition 2.2 A ∖ B = A T B ∈ A ∀ (A, B) ∈ A2 , A∆B = (A ∖ B) S (B ∖ A) = (A S B) ∖ (A T B) ∈ A Toute intersection de tribus sur Ω est une tribu sur Ω. Preuve Elle est laissée en exercice. N.B Il s’agit d’intersection quelconque : finie, infinie dénombrable ou infinie non dénombrable. Vocabulaire Soit (Ω, A) un espace probabilisable. Toute famille au plus dénombrable (Ai )i∈I d’événements de cet espace deux à deux incompatibles telle que est dite un système complet d’événements de (Ω, A). S Ai = Ω i∈I Deux exemples classiques : Exemple 1 : Étant donné un événement quelconque A d’un espace probabilisable (Ω, A), la famille A, A formé par l’événement A et son événement contraire est clairement un système complet de (Ω, A). Exemple 2 : Soit Ω un univers au plus dénombrable. On le munit de sa tribu grossière P (Ω) (ce choix est conventionnel et il sera partiellement expliqué par un exercice du paragraphe suivant). La famille ({ω})ω∈Ω de tous les événements élémentaire (notons qu’elle est une famille au plus dénombrable) est un système complet d’événements de l’espace probabilisé (Ω, P (Ω)). 11 2.2.2 Tribu engendrée par une partie Étant donnée une partie S de P (Ω), on note T (S ) l’ensemble des tribus sur Ω qui contiennent S . Notons que cet ensemble T (S ) est non vide car il compte la tribu grossière P (Ω) parmi ses éléments. Définition 2.2 Soit S une partie de P (Ω). Avec les notations précédentes, on appelle tribu engendrée par la partie S la tribu sur Ω notée σ (S ) définie par : \ σ (S ) = A∈T (S ) A N.B telle qu’elle est définie, σ (S ) est bien une tribu sur Ω ; et cela, en vertu de la proposition 2.2. Remarques 2.5 ▷ On a : S ⊂ σ (S ) ▷ σ (S ) = S si et seulement si S est une tribu ▷ Si S ⊂ S ′ alors σ (S ) ⊂ σ (S ′ ) ▷ Pour toute tribu A sur Ω, on a :S ⊂ A =⇒ σ (S ) ⊂ A Ainsi, σ (S ) est, au sens de l’inclusion, la plus petite tribu sur Ω contenant S . Exercice 2.3 Soit S = {{ω} / ω ∈ Ω} l’ensemble de tous les singletons de Ω. Montrer que si Ω est au plus dénombrable alors σ (S ) = P (Ω). Commentaire Pour un univers fini ou dénombrable, les événements élémentaires {ω}, ω ∈ Ω, sont intuitivement mesurables, dans ce sens qu’un observateur peut estimer leurs chances de réalisation. Donc, dans ce cas, et pour une modélisation mathématique de l’expérience aléatoire, la tribu d’événements mesurables à choisir doit contenir tous ces événements élémentaires ; selon l’exercice, la plus petite possible de ces tribus est la tribu grossière P (Ω). Cela constitue la principale raison qui pousse à postuler que pour une expérience aléatoire à univers au plus dénombrable, on choisit A = P (Ω) comme tribu d’événements mesurables et on considère l’espace probabilisable (Ω, P (Ω)) comme un base convenable pour l’étude probabiliste de l’expérience. Vocabulaire Les espaces probabilisés (Ω, P (Ω)), où Ω est au plus dénombrable, seront dits les espaces probabilisés discrets. 2.2.3 Tribus boréliennes a) Tribu borélienne de R. On s’intéresse ici au cas Ω = R et on note I l’ensemble de tous les intervalles de R. La tribu σ (I ) engendrée par I est appelée la tribu borélienne de R ; on la note B (R). B (R) est une tribu sur R. 12 Vocabulaire Les parties de R éléments de la tribu borélienne B (R) sont dits les boréliens de R. Théorème 2.2 La tribu borélienne de R est aussi la tribu engendrée par l’ensemble I − des intervalles de la forme ]−∞, x] , x ∈ R. Les intervalles de la forme ]−∞, x] suffisent pour engendrer la tribu borélienne B (R). Preuve Il s’agit de montrer que B (R) = σ I − On a I − ⊂ I . Alors, d’après la remarque 2.5, σ I − ⊂ σ (I ) = B (R) Montrons que, réciproquement, B (R) ⊂ σ I − Comme σ I − est une tribu sur R et B (R) = σ (I ), il suffit (en vertu encore de la remarque 2.5) de montrer que I ⊂ σ I − . Soit I ∈ I un intervalle de R. Montrons que I ∈ σ I − . Écartons les cas triviaux I = Ø et I = R car la nature de σ I − en tant que tribu fait qu’elle contient la partie vide et la partie pleine de R. Traitons tous les autres cas possibles pour l’intervalle I : (i) I est de la forme ]−∞, x] , x ∈ R. Dans ce cas on a : I ∈ I − et I − ⊂ σ I − donc I ∈ σ I − . (ii) I est de la forme ]−∞, x[ , x ∈ R. S 1 −∞, x − Dans ce cas, on vérifie aisément par double inclusion que I = ]−∞, x[ = n n∈N∗ 1 − − ∈σ I Comme d’après le cas (i) chaque −∞, x − et σ I est stable par union dénombrable, on a : I ∈ σ I − . n (iii) I est de la forme ]x, +∞[ , x ∈ R. Dans ce cas, on écrit : I = ]−∞, x]. Alors sachant, d’après le cas (i), que ]−∞, x] ∈ σ I − et σ I − est stable par passage au − complémentaire, on a : I ∈ σ I . (iv) I est de la forme [x, +∞[ , x ∈ R. Dans ce cas, on écrit : I = ]−∞, x[ et d’après (ii), ]−∞, x[ ∈ σ I − . Donc I ∈ σ I − par stabilité de cette tribu par passage au complémentaire. (v) I est de la forme [x, y[ , (x, y) ∈ R2 , x < y. Dans ce cas, on a : I = ]−∞, y[ ∖ ]−∞, x[ et, selon le cas (ii), les deux intervalles ]−∞, x[ et ]−∞, y[ sont dans σ I − . Alors, par stabilité de celle-ci par différence d’ensembles, I ∈ σ I − . (vi) I est de la forme ]x, y[ , (x, y) ∈ R2 , x < y. Là aussi on observe que : I = ]−∞, y[ ∖ ]−∞, x]. Puisque d’après le cas (ii) ]−∞, y[ ∈ σ I − et d’après le cas (i) ]−∞, x] ∈ σ I − , on a comme avant, I ∈ σ I − . (vii) I est de la forme ]x, y] , (x, y) ∈ R2 , x < y. Dans ce cas, on a : I = ]−∞, y] ∖ ]−∞, x] et, selon le cas (i), ces deux intervalles sont dans σ I − . Alors, par stabilité de σ I − par différence d’ensembles, I ∈ σ I − . (viii) I est de la forme [x, y] , (x, y) ∈ R2 , x < y. Dans ce cas I = ]−∞, y] ∖ ]−∞, x[ et on conclut grâce aux cas (i) et (ii) et grâce à la stabilité de σ I − par différence d’ensembles que I ∈ σ I− . Dans tous les cas I ∈ σ I − . CQFD. Exercice 2.4 1. On note On note I −∗ [resp. I + , resp. I +∗ ] l’ensemble de tous les intervalles de R de la forme ]−∞, x[ [resp. [x, +∞[, resp. ]x, +∞[], où x ∈ R. Montrer que I − ⊂ σ (I −∗ ), I − ⊂ σ (I + ) et I − ⊂ σ (I +∗ ) et en déduire que B (R) = σ (I −∗ ) = σ (I + ) = σ (I +∗ ). 2. Montrer aussi que la tribu borélienne B (R) est la tribu engendrée par chacune des quatre classes d’intervalles bornés de R (les ouverts ]x, y[, les fermés [x, y], les semi-ouverts à droite [x, y[ et les semi-ouverts à gauche ]x, y], où (x, y) ∈ R2 et x < y). 13 Remarque 2.6 On ne sait pas décrire tous les boréliens de R mais on en connaît maintenant une bonne quantité : d’abord, bien sûr, tous les intervalles de R, ensuite, tous les singletons de R (car on peut les voir comme des segments [x, x] ou les T voir comme intersection d’intervalles ]−∞, x] [x, +∞[), puis toutes les parties de R au plus dénombrables comme les parties finies, N, Z ou Q par exemple (car elles sont unions au plus dénombrables de leurs singletons) et enfin tous les ouverts et fermés de R (en effet un exercice proposé en topologie montre que tout ouvert de R est union au plus dénombrable d’intervalles ouverts et les fermés sont leur complémentaires). Tout ce monde sont des exemples de boréliens. Dans l’histoire (qui est assez récente datant seulement de la fin du siècle 19 et début du siècle 20), des mathématiciens dont Borel, Lebesgue et autres ont construit des boréliens tout bizarres différents des précédents. D’autres ont cherché et ont trouvé des propriétés caractéristiques bizarres des boréliens ; en voici une : Soit S la plus petite sous R-algèbre de RR contenant les fonctions continues de R dans R et ayant la propriété de stabilité suivante : si une suite (fn ) d’éléments de cette algèbre S est croissante (c’est à dire ∀ n ∈ N, ∀ x ∈ R, fn (x) ≤ fn+1 (x)) et converge simplement sur R vers une fonction f alors f ∈ S. Eh bien étant donnée cette algèbre S (tout sauf évidente ! !), on a : pour toute partie A de R : A ∈ B (R) ⇐⇒ φA ∈ S (où φA est la fonction caractéristique de A).... ! ! ! Jugez vous même de la bizarrerie. b) Tribu borélienne de Rd Ici, on prend Ω = Rd , où d ∈ N∗ . On note P l’ensemble de tous les pavés I1 × ... × Id ; où I1 , ..., Id sont des intervalles de R. La tribu σ (P) engendrée par l’ensemble P est appelée la tribu borélienne de Rd ; on la note B Rd . On admet le théorème suivant : Théorème 2.3 La tribu borélienne B Rd est aussi la tribu engendrée par l’ensemble P − des pavés de la forme ]−∞, x1 ] × ... × ]−∞, xd ] ; où (x1 , ..., xd ) ∈ Rd . Autrement dit : B Rd = σ (P − ) Les pavés de la forme ]−∞, x1 ] × ... × ]−∞, xd ] suffisent pour engendrer la tribu borélienne B Rd . 2.3 Probabilité sur un espace probabilisable Dans ce paragraphe, (Ω, A) est un espace probabilisable. 14 2.3.1 Généralités Définition 2.3 On appelle probabilité (ou mesure de probabilité) sur l’espace probabilisable (Ω, A) toute application P de A dans le segment [0, 1] vérifiant les deux conditions suivantes (dites axiomes de Kolmogorov ) : 1. P charge l′ univers : P (Ω) = 1 2. P est σ − additive : Pour toute suite (An )n∈N d’événements deux à deux incompatibles, on a : +∞ X [ P (An ) = P n=0 An n∈N ! (2.1) Vocabulaire • Si P est une probabilité sur (Ω, A) alors le triplet (Ω, A, P ) est dit un espace probabilisé : c’est la base mathématique pour une modélisation d’une expérience aléatoire. • Soit (Ω, A, P ) un espace probabilisé. 1. On appelle événement presque impossible [resp. presque certain] de l’espace probabilisé (Ω, A, P ) tout événement A de l’espace probabilisable (Ω, A) tel que P (A) = 0 [resp. P (A) = 1]. On constate que A est presque impossible si et seulement si A est presque certain, et vis-vers-ça. Un événement presque impossible est dit aussi négligeable. 2. Une proposition P (ω), portant sur ω ∈ Ω, est dite vraie presque sûrement relativement à l’espace proba- bilisé (Ω, A, P ), si et seulement si l’ensemble {ω ∈ Ω / P (ω) est vraie} est un événement presque certain de (Ω, A, P ), ou, ce qui revient au même, {ω ∈ Ω / P (ω) est fausse} est négligeable. Ainsi, par exemple, une application définie sur un événement Ω′ presque certain de A sera dite définie presque sûrement sur Ω ; Une application de Ω dans R positive sur un événement Ω′′ presque certain de A sera dite positive presque sûrement ; deux parties A et B de Ω telles que A∆B = (A ∖ B) ∪ (B ∖ A) est un événement négligeable seront dites égales presque sûrement...etc. Proposition 2.3 Pour une application P : A −→ [0, 1]. Alors les p.s.s.e : 1. P est σ- additive 2. Pour toute famille dénombrable (Ai )i∈I d’événements deux à deux incompatibles de (Ω, A), on a : X P (Ai ) = P i∈I [ i∈I Ai ! (2.2) Preuve Il est clair que la proposition 2 entraîne la proposition 1 ; il suffit en effet l’appliquer à I = N. Réciproquement, supposons que P est σ- additive et montrons que la proposition 2. Soit I un ensemble dénombrable et (Ai )i∈I une ! S Ai . famille d’éléments de (Ω, A) deux à deux incompatibles. Montrons que la famille positive (P (Ai ))i∈I est sommable de somme P i∈I 2 Soit σ : N −→ I une bijection. Aσ(n) n∈N est une suite d’événements deux à deux incompatibles (car pour (n, m) ∈ N tel que n ̸= m, 15 σ (n) et σ (m) sont deux élément distinct de I). Par hypothèse, la série P n≥0 P Aσ(n) converge de somme P un critère de sommabilité pour les familles positives, la famille (P (Ai ))i∈I est sommable et on : X P (Ai ) = D’où : P P (Ai ) = P i∈I S n∈N Aσ(n) S =P ! P Aσ(n) n=0 i∈I ! +∞ X S n∈N ! Aσ(n) . Alors, d’après Ai . CQFD. i∈I N.B Selon les conventions du paragraphe 1.2.c, on a : P S La relation (2.1) traduit que la série positive P (An ) converge de somme P An n≥0 n∈N La relation (2.2) traduit que la famille dénombrable positive (P (Ai ))i∈I est sommable de somme P S i∈I Ai Proposition 2.4 Soit P une probabilité sur (Ω, A). Alors : 1. P(Ø) = 0 2. P est additive : Pour tout N ∈ N∗ , pour toute famille finie (An )1≤n≤n d’événements deux à deux incompatibles de (Ω, A), on a : N X P (An ) = P n=1 N [ An n=1 ! Preuve 1. Pour tout n ∈ N, posons An = Ø. La suite (An )n∈N ainsi définie est une suite d’événements de (Ω, A) deux à deux incompatibles. P Par σ- additivité de P la série P (An ) est convergente dans R. D’où P (An ) −→ 0 n→+∞ n≥0 Or : ∀ n ∈ N,P (An ) = P (Ø). On en déduit, par unicité de la limite P (Ø) = 0. 2. Soit N ∈ N et (A1 , ..., AN ) ∈ AN tel que les An sont deux à deux incompatibles. Pour tout n ∈ N ∖ J1, N K, posons An = Ø. La suite (An )n∈N ainsi définie est une suite d’événements deux à deux incompatibles de (Ω, A). On en déduit par σ- additivité de P que ! +∞ P S P P (An ) est convergente et que P (An ) = P An . la série n=0 n≥0 n∈N Or en utilisant la définition des événements An , on a : +∞ N P P P (An ) = P (A0 ) + P (An ) + n=0 N S S An = An n∈N D’où : N P P (An ) = P n=1 CQFD. N S n=1 n=1 +∞ P n=N +1 P (An ) = N P P (An ) n=1 n=1 ! An . Corollaire 2.1 Pour tout système complet d’événements (Ai )i∈I de l’espace probabilisé (Ω, A), on a : 16 P i∈I P (Ai ) = 1 Preuve Soit (Ai )i∈I un système complet d’événements de (Ω, A). On sait qu’il est une famille au plus dénombrable, que les Ai sont deux à deux S Ai = Ω. incompatibles et que i∈I P P (Ai ) = Alors en appliquant la σ- additivité, dans le cas où I est dénombrable, et l’additivité, dans le cas où I est fini, on obtient : i∈I P (Ω) = 1 Proposition 2.5 Soit P une probabilité sur (Ω, A). Alors : 1. Pour tout A ∈ A, on a P A = 1 − P (A). 2. Pour tout (A, B) ∈ A2 , on a : P (A ∖ B) = P (A) − P (A 3. Croissance : T B). Pour tout (A, B) ∈ A2 tel que A ⊂ B, on a : P (A) ≤ P (B) S T 4. Pour tout (A, B) ∈ A2 , on a : P (A B) = P (A) + P (B) − P (A B) Preuve S T 1. Soit A ∈ A. On sait que A A = Ø et A A = Ω. S D’où par additivité de P : P (A) + P A = P A A = P (Ω) = 1 On en déduit la relation P A = 1 − P (A). S T 2. Soit (A, B) ∈ A2 . On sait que (A ∖ B) (A B) = A (il suffit de distribuer l’union par rapport à l’intersection). T Et comme A ∖ B et A B sont deux événements incompatibles de (Ω, A), on a par additivité de P : \ P (A ∖ B) + P A B = P (A) D’où P (A ∖ B) = P (A) − P (A T B). 3. Soit (A, B) ∈ A2 tel que A ⊂ B. T D’après le résultat du 2, on a : P (B) − P (B A) = P (B ∖ A) T D’où, sachant que B A = A et P (B ∖ A) ≥ 0 : P (B) − P (A) ≥ 0. Donc : P (B) ≥ P (A). S S 4. Soit (A, B) ∈ A2 . On sait que A B = (A ∖ B) B. D’où, par additivité de P et sachant que A ∖ B et B sont deux événements S incompatibles de (Ω, A) : P (A B) = P (A ∖ B) + P (B) S T Alors en utilisant le résultat du 2 : P (A B) = P (A) − P (A B) + P (B). CQFD. Vocabulaire La formule P (A S B) = P (A) + P (B) − P (A le théorème suivants : T B) est dite la formule du Poincaré d’ordre 2. Elle se généralise dans Théorème 2.4 (de Poincaré) Soit P une probabilité sur (Ω, A) et n ∈ N∗ . Alors pour tout (A1 , ..., An ) ∈ An , on a : P n [ k=1 Ak ! X k−1 = (−1) k=1 Preuve Elle est admise. 17 X J⊂J1,nK card(J)=k P \ i∈J ! Ai (2.3) Vocabulaire La formule (2.3) est dite la formule de Poincaré d’ordre n. Exercice 2.5 1. Écrire explicitement la formule de Poincaré d’ordre 3. 2. Démontrer le théorème de Poincaré par récurrence sur n. Remarque 2.7 : à propos de P (A ∖ B) Attention : La propriété s’écrit : P (A ∖ B) = P (A) − P (A T n’est valable que si B ⊂ A, cas dans lequel A B = B. T B) et non P (A ∖ B) = P (A) − P (B) ; cette dernière Proposition 2.6 (propriété de sous additivité) Soit P une probabilité sur (Ω, A) Pour tout n ∈ N∗ et pour tout (A1 , ..., An ) ∈ An , on a : P n S Ak k=1 ≤ n P P (Ak ) k=1 Preuve On raisonne par récurrence sur n ∈ N∗ Pour n = 0, la relation s’écrit : ∀ A1 ∈ A, P (A1 ) ≤ P (A1 ) et cela est vrai. n n S P Ak ≤ P (Ak ). Soit n ∈ N∗ . Supposons que : ∀ (A1 , ..., An ) ∈ An , P k=1 k=1 n+1 n+1 S P Montrons que : ∀ (A1 , ..., An+1 ) ∈ An+1 , P Ak ≤ P (Ak ). k=1 k=1 n n+1 S S S An+1 Ak = Ak Soit (A1 , ..., An+1 ) ∈ An+1 ; on a : k=1 k=1 D’où en utilisant la formule de Poincaré d’ordre 2 : ! n+1 [ Ak = P P k=1 Donc : P n+1 S ≤P n S n [ k=1 Ak ! + P (An+1 ) − P | " n [ k=1 Ak # {z ≥0 \ An+1 ! } + P (An+1 ) n+1 n S P Ak ≤ P (Ak ) + P (An+1 ) Il vient par hypothèse de récurrence : P k=1 k=1 n+1 n+1 S P Soit : P Ak ≤ P (Ak ) k=1 k=1 Ak k=1 Ak k=1 CQFD. 2.3.2 Propriétés de continuité monotone. Dans ce paragraphe, (Ω, A, P ) est un espace probabilisé donné. Théorème 2.5 (propriété de continuité monotone croissante) Soit (An )n∈N une suite d’événements de (Ω, A) telle que pourtout n ∈ N, An ⊂ An+1 . S Alors la suite réelle (P (An ))n∈N est convergente de limite P An . n∈N 18 Preuve Posons B0 = A0 et pour tout n ∈ N∗ , Bn = An ∖ An−1 . Observons d’abord que chaque Bn est un événement de A. Ensuite, montrons les deux résultats suivants, concernant ces événements Bn : 1. Montrons que les Bn sont deux à deux incompatibles. Soit (n, m) ∈ N2 tel que n < m. On a n ≤ m − 1. alors, par croissance de la suite (An )n∈N pour l’inclusion : An ⊂ Am−1 . Et comme Bn = An ∖ An−1 ⊂ An , on en déduit que Bn ⊂ Am−1 . D’autre part, on a Bm = Am ∖ Am−1 ⊂ Am−1 , d’où T Bn Bm = Ø S S 2. Montrons que Bn = An . n∈N n∈N On a : B0 = A0 et pour tout n ∈ N∗ , Bn = An ∖ An−1 ⊂ An . S S Bn ⊂ An . On en déduit que n∈N n∈N S An . Il existe, par conséquent, au moins un entier n ∈ N tel que ω ∈ An . L’ensemble de tel entiers Réciproquement, soit ω ∈ n∈N est donc une partie non vide de N. Notons no le minimum de cet ensemble et distinguons deux cas : 1ier cas : n0 = 0 S Bn . Dans ce cas, ω ∈ A0 = B0 , donc ω ∈ n∈N 2ième cas : n0 ≥ 1. / An0 −1 , c’est à dire ω ∈ An0 ∖ An0 −1 . En d’autres termes ω ∈ Bn0 .On Dans ce cas, et par minimalité de n0 , ω ∈ An0 et ω ∈ S Bn . déduit que ω ∈ n∈N S S S S An ⊂ Bn , ce qui achève de montrer que An = Bn . On a ainsi montré que n∈N Il vient, par σ- additivité, que la série n∈N P n∈N P (Bn ) est convergente et que : P S An n∈N n≥0 n∈N ! S =P n∈N Bn ! = +∞ P P (Bn ) n=0 Mais, pour tout n ∈ N∗ , on a P (Bn ) = P (An ∖ An−1 ) = P (An ) − P (An−1 ) ; et cela car An−1 ⊂ An . La série convergente est donc télescopique associée à la suite (P (An ))n∈N ; celle-ci est donc une suite convergente. De plus : +∞ [ X An = P (A0 ) + P (Bn ) = P (A0 ) + lim P (An ) − P (A0 ) = lim P (An ) P n→+∞ n=1 n∈N P P (Bn ) n≥1 n→+∞ CQFD. Corollaire 2.2 (propriété de sous σ−additivité) Soit (An )n∈N une suite quelconque d’événements de l’espace probabilisé (Ω, A). +∞ P S An ≤ P (An ) . Alors : P n∈N n=0 Preuve Il n’y a rien à démontrer si la série positive P P (An )est divergente, car dans ce cas +∞ P P (An ) = +∞ n=0 n≥0 Supposons dans la suite que cette série est convergente. n S Ak . Posons pour tout n ∈ N, Bn = k=0 Il est clair que les Bn sont tous des événements de (Ω, A) et que la suite (Bn )n∈N est croissante au sens de l’inclusion. Alors, d’après ! S S S la propriété de continuité monotone croissante, P (Bn ) −→ P Bn . Mais par simple double inclusion, on a Bn = An ; n→+∞ n∈N n∈N n∈N ! S An . d’où P (Bn ) −→ P n→+∞ n∈N n n S P Ak ≤ P (Ak ) D’autre part, d’après la propriété de sous additivité, on a : ∀ n ∈ N, P (Bn ) = P k=0 D’où : ∀ n ∈ N, P (Bn ) ≤ +∞ P P (An ). n=0 On en déduit par passage à la limite : P S n∈N An ! ≤ +∞ P P (An ). CQFD n=0 19 k=0 Théorème 2.6 (propriété de continuité monotone décroissante) Soit (An )n∈N une suite d’événements de (Ω, A) telle que pourtout n ∈ N, An+1 ⊂ An . T Alors la suite réelle (P (An ))n∈N est convergente de limite P An . n∈N Preuve Pour tout n ∈ N,on pose : Cn = A0 ∖ An , en sorte que les Cn sont tous des événements de (Ω, A). On constate, sachant An+1 ⊂ An , que Cn ⊂ Cn+1 . Cela montre que la suite (Cn )n∈N est croissante au sens de l’inclusion. D’après le théorème 2.4, la suite réelle (P (Cn ))n∈N est convergente et on a : [ lim P (Cn ) = P Cn n→+∞ n∈N Mais d’une part, avec An ⊂ A0 , on a ; Et d’autre part, on a : S Cn = n∈N S n∈N P (Cn ) = P (A0 ∖ An ) = P (A0 ) − P (An ) ! T T S T T A n = A0 A n = A0 ∖ A 0 A n = A0 P [ n∈N n∈N n∈N Cn = P (A0 ) − P On en déduit que P (An ) = P (A0 ) − P (Cn ) −→ P (A0 ) − P n→+∞ ! T C’est à dire : P (An ) −→ P An . CQFD n→+∞ 2.3.3 S Cn n∈N \ n∈N ! T n∈N An ! ; ce qui permet d’écrire : An n∈N Construction d’une probabilité sur des espaces probabilisés discrets Dans ce sous paragraphe, Ω est un univers fini ou dénombrable auquel on associe l’espace probabilisé (Ω, P (Ω)). a) Un procédé classique de construction de probabilité Théorème 2.7 Soit (qω )ω∈Ω une famille de réels appartenant au segment [0, 1] tels que de somme 1). P qω = 1 (c’est à dire sommable ω∈Ω Alors il existe une unique probabilité P sur l’espace probabilisé discret (Ω, P (Ω)) tel que : ∀ ω ∈ Ω, P ({ω}) = qω Cette probabilité est définie par : ∀ A ∈ P (Ω) , P (A) = P qω ω∈A Preuve Vérifions d’abord que la relation : ∀ A ∈ P (Ω) , P (A) = X qω ω∈A définit une application P de P (Ω) dans le segment [0, 1]. Pour tout A ∈ P (Ω), (qω )ω∈A est une sous famille de la famille positive (qω )ω∈Ω ; elle donc sommable et on a : X X 0≤ qω ≤ qω = 1 ω∈A ω∈Ω 20 Cela montre que P est bien définie comme application de P (Ω) dans [0, 1]. (i) Montrons qu’elle est une probabilité sur l’espace probabilisé (Ω, P (Ω)). P qω = 1 ; donc P charge donc l’univers Ω. On a P(Ω) = ω∈Ω Soit (An )n∈N une suite d’éléments de P (Ω) deux à deux disjoints. Posons A = S n∈N An , en sorte que la suite (An )n∈N est un partage dénombrable de A. Alors, sachant que la famille (qω )ω∈A est sommable, on a par sommation par paquets : +∞ +∞ [ X X X X X An = P (A) = qω = qω = P (An ) P n∈N n∈N ω∈An n=0 ω∈An n=0 P est donc σ- additive. En conclusion, P est une probabilité sur (Ω, P (Ω)). (ii) Ensuite, la probabilité P définie ci-dessus vérifie la condition requise, car : ∀ ω0 ∈ Ω, P ({ω0 }) = P ω∈{ω0 } qω = qω0 . (iii) Montrons que la probabilité P précédente est la seule à vérifier la condition : ∀ ω ∈ Ω, P ({ω}) = qω . Soit Q une probabilité sur (Ω, P (Ω)) telle que ! : ∀ ω ∈ Ω, Q ({ω}) = qω . S P P Soit A ∈ P (Ω). On a Q (A) = Q {ω} ; alors, par σ- additivité de la probabilité Q, on a Q (A) = Q ({ω}) = qω . ω∈A ω∈A ω∈A Ainsi, on a : ∀ A ∈ P (Ω) , Q (A) = P (A). D’où Q = P . CQFD. Commentaire Pour définir un modèle de probabilité sur un espace probabilisé discret, il suffit d’associer à chaque événement P qω = 1 est satisfaite. Dans le cas particulier où Ω élémentaire {ω} un réel qω ≥ 0, et de s’assurer que la condition ω∈Ω est fini, L’observateur avisé peut estimer ces nombres qω à travers une étude statistique d’observation de fréquences d’apparition de chacun des événements élémentaire {ω}, ω ∈ Ω. Dans le cas où Ω est dénombrable les notions de séries et de familles sommables offrent des solutions pour estimer les qω . b) Cas d’un univers fini Ici, l’univers Ω est supposé fini de cardinal n ≥ 1. On pose Ω = {ω1 , ..., ωn } ; où les ωi sont deux à deux distincts. La méthode du a) de construction de probabilité s’applique : En se donnant des nombres réels positifs (au sens n P qi = 1, on a un modèle de probabilité P sur l’espace probabilisé (Ω, P (Ω)) tel que : large) qi , 1 ≤ i ≤ n, tels que ∀ i ∈ J1, nK , P ({ωi }) = qi i=1 Exemple 2.2 On dispose d’un dé à six faces numérotées de 1 à 6 tel que pour tout k ∈ J1, 6K, P ({k}) = qk = ak ; où a est un réel constant strictement positif donné. la famille ({k})1≤k≤6 est classiquement un système complet d’événements de l’espace probabilisé (Ω, P (Ω)). Donc 6 6 P P 1 6×7 = 1 et donc a = . P ({k}) = 1. D’où a k = 1, c’est à dire a on a nécessairement : 2 21 k=1 k=1 k . Ainsi : ∀ k ∈ J1, 6K , P ({k}) = qk = 21 On lance le dé. Calculons la probabilité des événements suivants : A : ”obtenir un nombre pair”, B : ”obtenir un nombre impair”, C : ”obtenir un diviseur de 18” On a : A = {2, 4, 6} , B = {1, 3, 5} et C = {1, 2, 3, 6} 4 6 12 3 5 9 2 1 + + = , P (B) = q1 + q3 + q5 = + + = 21 21 21 21 21 21 21 21 2 4 6 13 1 + + + = et P (C) = q1 + q2 + q3 + q6 = 21 21 21 21 21 On en déduit : P (A) = q2 + q4 + q6 = 21 c) Hypothèse d’équiprobabilité Reprenons l’univers fini Ω = {ω1 , ..., ωn } et les nombres qi = P ({ωi }) tel que n P qi = 1. i=1 Dans le cas où tous les qi ont la même valeur q, on dit que les événements élémentaire {ω1 } , ..., {ωn } sont équipron P 1 1 . bables. La relation qi = 1 s’écrit dans ce cas nq = 1 et détermine donc la valeur de q : q = = n card (Ω) i=1 D’après le théorème 2.7, la probabilité P est définie par : ∀ A ∈ P (Ω) , P (A) = C’est à dire : ∀ A ∈ P (Ω) , P (A) = n X qi = i=1 ωi ∈A n X q = q.card (A) i=1 ωi ∈A card (A) card (Ω) Cette probabilité porte le nom de probabilité uniforme. Elle modélise les cas d’univers finis où l’hypothèse d’équiprobabilité est vérifiée. Observons que dans l’exemple 2.2, les différentes face du dé ne sont pas équiprobables et les événement « le dé amène un nombre pair » et « le dé amène un nombre impair » n’ont pas la même probabilité de se réaliser. Remarque 2.8 Intuitivement, les termes « dé équilibré, dé non truqué, dé non pipé » dans un jeu de dé renvoient à l’hypothèse d’équiprobabilité. De même en remplaçant le dé par une pièce de monnaie. Il en est de même du terme « boules indiscernables au toucher » dans un tirage de boules dans une urne, ou le terme « on tire au hasard » (ou « on tire aléatoirement ») dans les jeux de cartes, de boules ou jetons. Remarque 2.9 Il n’est pas possible d’envisager l’hypothèse d’équiprobabilité dans le cas d’un univers infini dénombrable Ω = {ω0 , ..., ωn , ...} ; où les ωn sont deux à deux distincts. En effet si l’on associe à chaque {ωn } , n ∈ N, une probabilité +∞ P P qn = 1, alors la convergence de la série qn et vers 1 qn = P ({ωn }) en exigeant évidemment la condition n=0 n≥0 empêche la suite (qn )n∈N d’être constante (si elle est constante elle doit être nulle, donc 1 = +∞ P qn = 0 ! ! !). n=0 Remarque 2.10 Pour les expériences aléatoires à univers infinis non dénombrable, ce procédé de construction de probabilité exprimé par le théorème 2.7 sur un espace probabilisé (Ω, A) ne peut marcher. dans ce cas, il ne sera jamais demandé de construire de tribus ou de probabilités, on décrira souvent une telle expérience aléatoire et on dira qu’il lui est associé un espace probabilisé (Ω, A, P ) dont la tribu et la probabilité (et parfois même l’univers) sont implicites. Mais les outils et techniques antérieurs et ultérieurs (d’indépendance et conditionnement entre autres), permettent de faire du calcul probabiliste corrects dans plusieurs de ces situations. L’exemple suivant est représentatif : Exemple 2.3 : répéter une infinité de fois une expérience de Bernoulli On qualifie d’expérience de Bernoulli toute expérience aléatoire dont l’univers est une paire (c’est à dire un ensemble fini de cardinal 2) ; l’un de ces deux résultat est dit « succès » et l’autre est dit « échec ». Le cas typique est celui du lancer d’une pièce de monnaie, où l’univers est {pile, face} qu’on note {P, F }. Mais de nombreux contextes variés correspondent à ce modèle sans en avoir l’air ; par exemple le lancer d’un dé cubique, en tant que tel, est à univers formé de six résultats possibles. Mais pour un joueur qui mise sur la face n°6, l’univers peut être 6, 6 et l’expérience du dé devient pour lui une expérience de Bernoulli. 22 (i) Pour revenir au cas typique d’une pièce de monnaie qu’on lance une fois. L’univers Ω = {P, F } est fini et le modèle probabiliste du sous paragraphe b) s’applique : on choisit comme tribu P (Ω) = {Ø, {P } , {F } , {P, F }} et on définit une probabilité sur (Ω, P (Ω)) dès qu’on fixe la probabilité p de « pile » (et donc la probabilité q = 1 − p de « face »). Notons que concrètement 0 < p < 1 et, à fortiori aussi, 0 < q < 1 n (ii) Si on lance la pièce n fois (où n ∈ N∗ ), on reste encore dans le cas d’un univers fini, en l’occurrence Ω = {P, F } , qu’on peut formellement modéliser comme dans le paragraphe b) : tribu P (Ω) et probabilité définie à partir de celles des événements élémentaires (R1 , ..., Rn ) ; où Ri ∈ {P, F }. À ce titre, et tenant compte de l’indépendance des lancers, n−k (le on postule à juste titre, que les résultats à k piles et n − k face exactement ont chacun la probabilité pk (1 − p) n cours d’indépendance confirmera ultérieurement ce choix) , et ces résultats sont au nombre de k (nombre de façon de placer les k pile parmi n places possibles). Ainsi, par exemple, l’événement A : ”obtenir pile à tous les n lancers” n−n = pn et l’événement B : ”obtenir face exactement une fois” est de est de probabilité P (A) = nn pn (1 − p) n−n+1 n = npn−1 (1 − p). probabilité P (B) = n−1 pn−1 (1 − p) (iii) Supposons qu’on puisse lancer cette pièce une infinité de fois (ce n’est bien sûr qu’une expérience virtuelle, même N pour une infinité dénombrable ! !). L’univers pour cette expérience est Ω = {P, F } ; où l’on numérote les lancers 1, N 2, ... À une bijection près, Ω peut être assimilé à {0, 1} , et, selon l’exercice 1.1, il est infini non dénombrable. On associe à cet expérience un espace probabilisé (Ω, A, P ) implicite. On peut, cependant, faire des calculs probabilistes corrects sur des événements « raisonnables ». Par exemple, soit à calculer la probabilité de l’événement A : « obtenir pile à tous les lancers ». notons pour tout n ∈ N∗ , An l’événement : « obtenir pile à tous les lancers de 1 à n » et faisons l’hypothèse que A et tous les An sont des éléments de la tribu A. Il est clair que (An )n∈N∗ est une suite décroissante pour l’inclusion et que A = T n∈N∗ An D’où par la propriété de continuité monotone décroissante : P (A) = lim P (An ). n→+∞ Maintenant, d’après les considération du (ii), on a : ∀ n ∈ N∗ , P (An ) = n−n n n = pn n p (1 − p) Comme 0 < p < 1, P (A) = 0. L’événement A est négligeable. Autrement dit l’événement contraire B = A : ”obtenir face au moins une fois” est un événement presque sûr (on s’en doutait fort bien ! !). 3 Conditionnement Au cours d’une expérience aléatoire la réalisation de certains événements peut influence celle d’autres. Il s’agit d’étudier mathématiquement cette influence pour améliorer les outils probabilistes. Dans ce paragraphe, (Ω, A, P ) est un espace probabilisé et tous les événements évoqués dedans sont des événements de cet espace. 3.1 Probabilité conditionnelle définition 3.1 Soit A et B deux événements tel que P (B) > 0 (c’est à dire que B est un événement non négligeable. P (A ∩ B) On appelle probabilité de A sachant B le réel noté P (A|B) défini par : P (A|B) = P (B) Commentaire Cette définition se justifie justement bien sous l’hypothèse d’équiprobabilité ; en effet, en réalisant N fois l’expérience, nA∩B nA∩B P (A ∩ B) . ≈ nNA ≈ la fréquence de réalisation de A sachant que B est réalisé est : nB P (B) N 23 Exemple 3.1 Dans un jeu de 32 cartes, on tire au hasard et simultanément deux cartes. L’univers pour cette expérience est l’ensemble fini Ω formé des paires de cartes parmi les 32 du jeux et la tribu d’événements (mesurables) est la tribu grossière P (Ω). De plus, les tirage se faisant par hasard, on munit l’espace probabilisable (Ω, P (Ω)) de la probabilité card (A) uniforme (on est bien sous l’hypothèse d’équiprobabilité) définie par : ∀ A ∈ P (Ω) , P (A) = card (Ω) On note A, B les événements tels que A : ”obtenir deux figures” On a : card (Ω) = 32 2 = et B : ”obtenir deux cartes rouges” 32 × 31 = 496. 2 La moitié des 32 cartes du jeux son rouges ; donc card (B) = 16 2 = 16 × 15 = 120. 2 120 15 = >0 496 62 Les figures (valets, dames et rois) sont au nombre de 3×4 = 12 dont la moitié sont rouges et l’autre moitié sont noires. 15 card (A ∩ B) 15 1 6 × 5 15 Il vient : card (A ∩ B) = 62 = = 15 et P (A ∩ B) = = . D’où : P (A|B) = 496 = = 120 2 card (Ω) 596 120 8 496 Donc P (B) = Exemple 3.2 On lance deux dés cubiques équilibrés en les maintenant cachés. L’univers pour cette expérience aléatoire est Ω = 2 J1, 6K . On a dévoilé un dé et on trouvé qu’il affiche un nombre premier. Calculons la probabilité que l’autre affiche un diviseur de 18. Notons d’abord qu’avec des dés équilibrés, on est sous l’hypothèse d’équiprobabilité. Soit B : ”obtenir un nombre premier”. Les nombres premiers appartenant à J1, 6K sont 2, 3 et 5 ; donc : B = ({1, 4, 6} × {2, 3, 5}) et card (B) = 9 + 9 + 9 = 27 card (B) 27 3 Alors P (B) = = = > 0. card (Ω) 36 4 Soit A : ”obtenir un diviseur de 18”. [ ({2, 3, 5} × {1, 4, 6}) [ ({2, 3, 5} × {2, 3, 5}) Les diviseurs de 18 dans J1, 6K sont 1, 2, 3 et 6 ; donc en traitant les quatre cas « diviseur de 18 et non premier », « premier et non diviseur de 18 », « diviseur de 18 et premier » et « ni diviseur de 18 ni premier » pour le résultat du premier dé, on trouve : A ∩ B = ({1, 6} × {2, 3, 5}) [ ({5} × {1, 2, 3, 6}) [ ({2, 3} × {1, 2, 3, 4, 5, 6}) 24 2 d’où card (A ∩ B) = 6 + 4 + 12 + 2 = 24 et, de là : P (A ∩ B) = = . 36 3 2 P (A ∩ B) 8 Il vient : PB (A) = = 3 = 3 P (B) 9 4 24 [ ({4} × {2, 3}) ; Théorème et définition 3.2 Soit B un événement non négligeable. Alors l’application PB qui à tout événement A associe P (A|B) est une autre probabilité sur l’espace probabilisable (Ω, A) ; on l’appelle la probabilité conditionnée (ou conditionnelle) à A. Preuve • On a : ∀ A ∈ A, A ∩ B ⊂ B. D’où, par croissance de P : ∀ A ∈ A, P (A ∩ B) ≤ P (B). P (A ∩ B) ∈ [0, 1]. On en déduit que ∀ A ∈ A, PB (A) = P (A|B) = P (B) PB est une application de A dans [0, 1] bien définie. P (Ω ∩ B) P (B) • On a : PB (Ω) = P (Ω|B) = = = 1. P (B) P (B) PB charge l’univers. • Soit (An )n∈N une suite d’événements deux deux incompatibles de (Ω, A). ! T S T S B= An (An B). On a, par distributivité : n∈N n∈N T Et comme les An B sont aussi deux à deux incompatibles, on a par σ- additivité de P : +∞ [ \ X \ B = B P P An An n=0 n∈N D’où : PB S An n∈N ! P = S n∈N An ! P (B) T B ! = T +∞ +∞ P T P P (An B) +∞ P 1 P (An B) = PB (An ) = P (B) n=0 P (B) n=0 n=0 PB est σ- additive ; ce qui achève la démonstration. Convention importante : Dans toute la suite, on convient que P (A|B) .P (B) = 0 si P (B) = 0 (alors que P (A|B) n’a pas de sens, dans cas, à priori). 3.2 Propriétés des probabilités conditionnelles 3.2.1 Formules des probabilités composées Cette formule tout à fait banale sert beaucoup en pratique un peu partout mais surtout dans les questions de succession d’épreuves indépendantes ou non comme les tirages successifs avec ou sans remise. Commençons par l’exemple du tirage successifs au hasard et sans remise de deux boules dans une urne contenant 4 boules rouges et 3 blanches. On souhaite calculer la probabilité d’obtenir deux boules blanches. En notant Bk l’événement « obtenir une boule blanche au k ième tirage, il s’agit de calculer P (B1 ∩ B2 ). Mais en introduisant les probabilités conditionnelles, on 1 3 2 a : P (B1 ∩ B2 ) = P (B1 ) .PB1 (B2 ) = . = . 7 6 7 Plus généralement : Théorème 3.1 Pour tout entier n ∈ N ∖ {0, 1} et toute famille finie d’événements (A1 , ..., An ), on a : P (A1 ∩ ... ∩ An ) = P (A1 ) .PA1 (A2 ) .PA1 ∩A2 (A3 ) ...PA1 ∩...∩An−1 (An ) Et cette probabilité est nulle dès que l’une des intersection A1 ∩ ... ∩ Ak est négligeable. 25 (3.1) Preuve La dernière affirmation découle immédiatement de la convention importante ci-dessus. Supposons dans la suite que toutes les intersections A1 ∩ ... ∩ Ak , 1 ≤ k ≤ n − 1, sont non négligeables. Dans ce cas, le produit du second membre de (3.1) s’écrit : P (A1 ) . n−1 Y k=1 PA1 ∩...∩Ak (Ak+1 ) = P (A1 ) n−1 Y P (A1 ∩ ... ∩ Ak ∩ Ak+1 ) P (A1 ∩ ... ∩ Ak ) k=1 D’où, par télescopage : P (A1 ) . n−1 Y k=1 PA1 ∩...∩Ak (Ak+1 ) = P (A1 ) . P (A1 ∩ ... ∩ An ) = P (A1 ∩ ... ∩ An ) P (A1 ) CQFD. Exemple 3.3 Reprenons l’urne à 4 boules rouges et 3 blanches. En effectuant au hasard 3 tirage successifs et sans remise, on 1 3 2 1 obtient avec les mêmes notations : P (B1 ∩ B2 ∩ B3 ) = P (B1 ) .PB1 (B2 ) .PB1 ∩B2 (B3 ) = . . = . 7 6 5 35 Puis, avec 4 tirages successifs sans remise ou plus, on obtient : P (B1 ∩ B2 ∩ B3 ∩ B4 ) = 0 = P (B1 ∩ ... ∩ Bk ) (k ≥ 4). Exercice 3.1 Démontrer le théorème 3.1 par récurrence. 3.2.2 Formule des probabilités totales Théorème 3.2 Soit (Bi )i∈I un système complet d’événements. Alors pour tout événement A, on a : P (A) = P i∈I = P i∈I P (Bi ∩ A) PBi (A) .P (Bi ) (3.2) N.B • la convention PBi (A) .P (Bi ) = 0 quand P (Bi ) = 0 est toujours d’usage. • Dans le cas où I est dénombrable, les sommes sont celles de familles sommables. Preuve S ! S (Bi ∩ A), puis d’utiliser l’additivité ou la σ- additivité selon que I est fini ou infini ∩A = i∈I P P (Bi ∩ A) dénombrable pour obtenir la relation P (A) = Il suffit d’écrire A = Ω ∩ A = Quant à la relation P (A) = P i∈I i∈I Bi i∈I PBi (A) .P (Bi ), il suffit d’utiliser que P (Bi ∩ A) = PBi (A) .P (Bi ) y compris dans le cas P (Bi ) = 0 (selon la convention citée ci-dessus) Commentaire La formule des probabilités totales traduit, pour un événement A, que la probabilité de A peut s’obtenir comme la moyenne des ses probabilités conditionnées par les différents événements Bi d’un système complet pondérée par les P (Bi ), en sorte que chacun de ces Bi contribue au calcul de P (A). 26 Généralisation à un système quasi complet Définition 3.3 On appelle système quasi complet de (Ω, A, P ) toute famille au plus dénombrable(B i ) i∈I d’événement deux à S S deux incompatibles de cet espace telle que Bi est quasi certain (c’est à dire P Bi = 1) i∈I i∈I Théorème 3.3 Soit (Bi )i∈I un système quasi complet d’événements. Alors pour tout événement A, on a : P (A) = P i∈I = P i∈I P (Bi ∩ A) PBi (A) .P (Bi ) (3.3) Preuve P P (Bi ∩ A) car l’autre s’en déduit comme avant par conditionnement. Il suffit de montrer la relation P (A) = i∈I S ′ ′ Bi , en sorte que P (Ω ) = 1. Notons Ω = i∈I On a P (A) = P (A ∩ Ω) = P A ∩ Ω′ ∪ Ω′ = P (A ∩ Ω′ ) ∪ A ∩ Ω′ . Et comme A ∩ Ω′ et A ∩ Ω′ sont incompatibles, on obtient (∗). par additivité de P : P (A) = P (A ∩ Ω′ ) + P A ∩ Ω′ Mais A ∩ Ω′ ⊂ Ω′ ; d’où par croissance de P : 0 ≤ P A ∩ Ω′ ≤ P Ω′ = 1 − P (Ω′ ) = 0. Donc P A ∩ Ω′ = 0. En portant cette valeur dans (∗), on trouve P (A) = P (A ∩ Ω′ ). Maintenant, on a : A ∩ Ω′ = A ∩ ∪ Bi = ∪ (A ∩ Bi ). Alors, sachant que les A ∩ Bi sont deux à deux incompatibles et que I est au i∈I i∈I P P (A ∩ Bi ). CQFD. plus dénombrable, on a par additivité et σ- additivité de P : P (A) = P (A ∩ Ω′ ) = i∈I Exemple 3.4 On dispose d’un dé cubique équilibré dont les faces sont numérotées de 1 à 6 et d’une pièce de monnaie où la probabilité de « pile » est p ∈ ]0, 1[ . On lance le dé une fois et si k est le résultat on lance la pièce k fois. Calculons la probabilité que le nombre de piles obtenus est égal au numéro affiché par le dé. Notons A cet événement et, pour tout k ∈ J1, 6K, notons Bk l’événement « le dé affiche le numéro k » La famille (Bk )1≤k≤6 est un système complet. D’où par la formule des probabilité totales : P (A) = 6 X PBk (A) .P (Bk ) k=1 Mais les Bk sont équiprobables car le dé est équilibré ; donc P (A) = 6 1 P PBk (A) 6 k=1 Maintenant, pour tout k ∈ J1, 6K, PBk (A) est la probabilité d’obtenir k fois pile en lançant la pièce k fois, soit : PBk (A) = pk (voir exemple 2.3). 6 1 − p6 p 1 P . D’où : P (A) = pk = 6 k=1 1−p 1 1 63 . Si p = (la pièce est équilibrée comme le dé), on trouve P (A) = 1 − 6 = 2 2 64 27 Exercice 3.2 On considère un groupe de 2q personnes (q ∈ N ∖ {0, 1}) ; le nombre k de femmes vérifie q ≤ k ≤ 2q et toutes les valeurs de k sont équiprobables. On choisit une personne au hasard dans ce groupe. Quelle est la probabilité que ce soit une femme ? 3.2.3 Formule de Bayes. Il s’agit d’une formule aussi banale que les autres mais, là encore, très utile à remonter l’ordre chronologique des événements et déterminer les causes ; d’ailleurs on l’appelait anciennement la formules des probabilités des causes. Théorème 3.4 PB (A) .P (B) . P (A) En particulier, si (Bi )i∈I est un système complet ou seulement quasi complet d’événements alors : Soit A et B deux événements non négligeables. Alors PA (B) = PB (A) P (Bj ) ∀ j ∈ I, PA (Bj ) = P j PBi (A) .P (Bi ) i∈I Preuve La première relation se déduit de : PA (B) .P (A) = P (A ∩ B) et PB (A) .P (B) = P (A ∩ B). La deuxième applique la première au cas B = Bj et développe le dénominateur P (A) par la formule des probabilités totales. Exemple 3.5 On dispose de trois urnes U1 , U2 et U3 composées de 5 boules blanches et 3 noires pour U1 , de 4 boules banche et 4 noires pour U2 et 3 boules blanche et 5 noires pour U3 . On choisit une urne au hasard parmi les trois et on y effectue un tirage au hasard d’une boule. Sachant que la boule tirée est noire, calculons la probabilité qu’elle soit tirée dans l’urne U1 [resp. U2 , resp. U3 ]. Notons pour tout i ∈ {1, 2, 3}, Bi l’événement « choisir l’urne Ui » et notons par ailleurs A l’événement « obtenir une boule noire » Le système (B1 , B2 , B3 ) étant complet, la formule des probabilités totales correspondante s’écrit : P (A) = PB1 (A) .P (B1 ) + PB2 (A) .P (B2 ) + PB3 (A) .P (B3 ) 1 . 3 D’autre part, en utilisant la composition de chacune des trois urnes et le fait que le tirage se fait au hasard, on a : 3 4 5 PB1 (A) = , PB2 (A) = et PB3 (A) = . 8 8 8 1 3 4 5 12 1 D’où : P (A) = + + = = . 3 8 8 8 24 2 Maintenant ; sachant que la boule tirée est noire, la probabilité qu’elle ait été tirée dans l’urne Ui est PA (Bi ). La Le choix d’une urne se fait au hasard ; donc les événements Bi sont équiprobable : P (B1 ) = P (B2 ) = P (B3 ) = formule de Bayes fournit : 3 1 . PB1 (A) .P (B1 ) 1 1. PA (B1 ) = = 8 3 = = 0, 25 1 P (A) 4 2 28 4 1 . PB2 (A) .P (B2 ) 1 = 8 3 = ≈ 0, 33 2. PA (B2 ) = 1 P (A) 3 2 5 1 . PB3 (A) .P (B3 ) 5 3. PA (B3 ) = = 8 3 = ≈ 0, 42 1 P (A) 12 2 Ces résultats semblent cohérents vu la composition des urnes en boules noires. Le lecteur est invité à donner les résultats analogues sachant que la boule tirée est blanche, d’abord sans calcul aucun, puis en le vérifiant par le calcul. 4 Indépendance d’événements Dans ce paragraphe, (Ω, A, P ) est toujours un espace probabilisé et tous les événements étudiés sont relatifs à cet espace. 4.1 Cas de deux événements Définition 4.1 Deux événements A et B sont dits indépendants si et seulement si P (A ∩ B) = P (A) .P (B). Remarque 4.1 • La relation d’indépendance de deux événements est symétrique. • Si P (A) ̸= 0 alors A et B sont indépendants si et seulement si P (B|A) = P (B). • De même, Si P (B) ̸= 0 alors A et B sont indépendants si et seulement si P (A|B) = P (A). Vocabulaire Quand les événements A et B sont indépendants, on dit chacun d’eux est indépendant de l’autre. N.B La notion d’indépendance dépend fortement de la probabilité P et il faut bien s’abstenir de s’appuyer uniquement sur l’intuition pour montrer que deux événements sont indépendants. En revanche, c’est dans la définition même de la probabilité que l’on peut faire en sorte que deux événements intuitivement indépendants le soient formellement. Exemple 4.1 Dans un jeu de 32 cartes, on tire au hasard une carte. On note A l’événement « obtenir un roi », B l’événement « obtenir un cœur » et C l’événement « obtenir une figure ». Le tirage se fait au hasard, donc on peut se mettre dans l’hypothèse d’équiprobabilité. card (A) 4 1 card (B) 8 1 card (C) 12 3 D’où d’une part : P (A) = = = , P (B) = = = et P (C) = = = . card (Ω) 32 8 card (Ω) 32 4 card (Ω) 32 8 1 card (A ∩ C) card (A) 1 card (A ∩ B) = , P (A ∩ C) = = = et d’autre part : P (A ∩ B) = card (Ω) 32 card (Ω) card (Ω) 8 3 card (B ∩ C) = . et P (B ∩ C) = card (Ω) 32 On voit que P (A ∩ B) = P (A) .P (B), P (A ∩ C) ̸= P (A) .P (C) et P (B ∩ C) = P (B) .P (C). On conclut que A et B sont indépendants, B et C sont indépendants, cependant A et C ne sont pas indépendants. 29 Remarque 4.2 Cet exemple montre que la relation d’indépendance de deux événements, déjà symétrique, n’est pas transitive. Exercice 4.1 Déterminer les événements indépendants d’eux-mêmes. Proposition 4.1 Soit A et B deux événements dont A est non négligeable. Alors A et B sont indépendants si et seulement si PA (B) = P (B) Preuve Il suffit d’utiliser la relation P (A ∩ B) = PA (B) .P (A) et la définition de l’indépendance en remarquant que P (A) > 0. Remarque 4.3 Par symétrie de l’indépendance de deux événements, on a aussi quand P (B) > 0, que A et B sont indépendants si et seulement si PB (A) = P (A). Proposition 4.2 Soit A et B deux événements. Alors les p.s.s.e : 1. A et B sont indépendants. 2. A et B sont indépendants. 3. A et B sont indépendants. 4. A et B sont indépendants. Preuve Par symétrie de la relation d’indépendance, il suffit de montrer que 1 entraîne 2. Supposons que A et B sont indépendants. Montrons que A et B sont indépendants, c’est à dire P A ∩ B = P A .P (B) . On a : P A ∩ B = P (B ∖ A) = P (B) − P (A ∩ B). D’où par hypothèse, P A ∩ B = P (B) − P (A) .P (B) = (1 − P (A)) .P (B). Donc P A ∩ B = P A .P (B). Proposition 4.3 1. L’événement certain et l’événement impossible sont indépendant de tout autre événement. 2. Tout événement presque certain ou presque impossible est indépendant de tout autre événement. Preuve 1. Soit B un événement. Montrons que chacun des événements Ω et Ø sont indépendants de B. On a Ω ∩ B = B, d’où P (Ω ∩ B) = P (B) = P (Ω) .P (B) car P (Ω) = 1. Ainsi Ω et B sont indépendants. Il vient, d’après la proposition 4.2 et sachant que Ω = Ø, que Ø et B sont également indépendants. 2. Soit A un événement presque certain. Montrons que A est indépendant de tout événement. 30 Soit B un événement ; on a P (A) = 1, d’où P (A) .P (B) = P (B). D’autre part, B = Ω ∩ B = A ∪ A ∩ B = (A ∩ B) ∪ A ∩ B et A ∩ B et A ∩ B sont incompatibles, d’où P (A) .P (B) = P (B) = P (A ∩ B) + P A ∩ B Mais A ∩ B ⊂ A ; d’où par croissance de P , 0 ≤ P A ∩ B ≤ P A = 0. Donc P A ∩ B = 0. On conclut que P (A) .P (B) = P (A ∩ B) et que A et B sont indépendants. Si maintenant A est un événement presque impossible, A est presque certain ; donc d’après ce qu’on vient de démontrer A est indépendant de tout événement B. On en déduit en appliquant la proposition 4.2 que A est indépendant de tout événement B. CQFD. 4.2 Cas d’une famille d’événements Définition 2.2 Soit (Ai )i∈I une famille quelconque d’événements. On dit que la famille (Ai )i∈I est mutuellement indépendante (ou simplement indépendante) si et seulement si pour toute partie finie J de I, on a : P \ Ai i∈J ! = Y P (Ai ) i∈J On dit aussi que (Ai )i∈I est une famille d’événements mutuellement indépendants. N.B • Le fait de se limiter aux parties finies J de I pour réaliser la condition P T i∈J Ai = Q P (Ai ) est dicté par la i∈J présence du produit au second membre qui, si J devait être infini, serait un produit infini à définir (et cela est une histoire). T Q Ai = P (Ai ) est toujours vérifiée quand J est un singleton ou quand il est vide • Cette même condition P i∈J i∈J Q T Ai = Ω, élément neutre de l’intersection dans P (Ω) et P (Ai ) = 1 élément neutre de la multiplication (car i∈Ø i∈Ø dans R) . Donc quand on veut montrer que la famille (Ai )i∈I est mutuellement indépendante, il suffit de réaliser cette condition pour les partie finie J de I telles que card (J) ≥ 2. Remarque 4.4 • Une famille formée d’un seul événement est mutuellement indépendante. • Toute sous famille d’une famille mutuellement indépendante d’événements est, elle-même, mutuellement indépendante ; en effet, si K est une partie de I alors les partie finies de K sont des parties finies de I. • Pour toute permutation σ de I, on a : (Ai )i∈I est mutuellement indépendante si ⇐⇒ Aσ(i) i∈I est mutuellement indépendante. • Pour une famille formée de deux événements A et B exactement, on a : la famille (A, B) est mutuellement indépendante ⇐⇒ les événements A et B sont indépandants Pour une famille formée de trois événements A, B et C, le fait que cette famille est mutuellement indépendante est équivalent à ce que les quatre conditions suivantes soient vérifiées : (i) (iii) P (A ∩ B) = P (A) .P (B) P (B ∩ C) = P (B) .P (C) ; (ii) ; (iv) 31 P (A ∩ C) = P (A) .P (C) P (A ∩ B ∩ C) = P (A) .P (B) .P (C) Définition 4.3 Soit (Ai )i∈I une famille quelconque d’événements. On dit que la famille (Ai )i∈I est deux à deux indépendante si et seulement si pour tout (i, j) ∈ I 2 tel que i ̸= j on a : P (A ∩ B) = P (A) .P (B) Autrement dit les événements de la famille sont deux à deux indépendants. Proposition 4.4 Tout famille d’événements mutuellement indépendante est deux à deux indépendante. Preuve Il suffit d’écrire la condition P T i∈J Ai ! = Q i∈J P (Ai ) pour les paires J = {i, j} de I. Remarque 4.5 Excepté le cas d’une famille de deux événements exactement, la réciproque est fausse en général pour les famille d’au moins 3 événements distincts. En guise de contre exemple voyons l’exemple suivant : Exemple 4.2 On lance deux dés équilibrés discernables à six faces numérotées de 1 à 6. On considère les trois événements A, B et C suivants : A : ”le pemier dé amène un nombre pair” ; B:” le deuxième dé amène un nombre impair” ; C : ”les deux dés amènent deux nombre de même parité” 2 On prend pour univers Ω = J1, 6K et on fait l’hypothèse d’équiprobabilité car les dés sont équilibrés. Alors sachant que 2 2 A = {2, 4, 6} × J1, 6K , B = J1, 6K × {1, 3, 5} et C = {2, 4, 6} ∪ {1, 3, 5} , 3×6 1 card (B) 6×3 1 card (C) 32 + 32 1 card (A) = = , P (B) = = = et P (C) = = = card (Ω) 36 2 card (Ω) 36 2 card (Ω) 36 2 2 2 D’autre part A ∩ B = {2, 4, 6} × {1, 3, 5}, B ∩ C = {1, 3, 5} et A ∩ C = {2, 4, 6} . 9 1 = . D’où P (A ∩ B) = P (B ∩ C) = P (A ∩ C) = 36 4 On en déduit P (A ∩ B) = P (A) .P (B), P (B ∩ C) = P (B) .P (C) et P (A ∩ C) = P (A) .P (C). on a : P (A) = La famille (A, B, C) est deux à deux indépendante. Cependant, elle n’est pas mutuellement indépendante ; en effet 1 P (A ∩ B ∩ C) = P (Ø) = 0 alors que P (A) .P (B) .P (C) = ̸= (voir remarque 4.3). 8 Proposition 4.5 Une famille d’événements est mutuellement indépendante si et seulement si toutes ses sous familles finies le sont 32 Preuve Soit (Ai )i∈I une famille d’événements. Supposons que cette famille est mutuellement indépendante. D’après une remarque précédente, toute sous famille de (Ai )i∈I est mutuellement indépendante, en particulier les sous familles finies de (Ai )i∈I . Réciproquement, supposons que toute sous famille finie de (Ai )i∈I est mutuellement indépendante et montrons que la famille (Ai )i∈I elle-même, l’est. ! Q T Ai = P (Ai ) est satisfaite. Soit J une partie finie. Il s’agit de montrer que la condition P i∈J i∈J Cette condition est évidemment vérifiée si J est vide ou est un singleton. Supposons que card (J) ≥ 2. La famille (Ai )i∈J est une sous famille finie de (Ai )i∈I . Elle est donc, par hypothèse, mutuellement indépendante. ! Q T Ai = P (Ai ). En particulier pour K = J, on obtient P Pour toute partie K (forcément finie) de J on a : P i∈K i∈K ! Q T Q P (Ai ).P Ai = P (Ai ). i∈J i∈J T i∈J Ai ! = i∈J CQFD. Théorème 4.4 Soit (Ai )i∈I une famille d’événements mutuellement indépendante et (Bi )i∈I une famille d’événements telle que : ∀ i ∈ I, Bi ∈ Ai , Ai . Alors la famille (Bi )i∈I est mutuellement indépendante Preuve (Elle est non exigible). En utilisant la proposition 4.4, qui ramène l’étude de l’indépendance mutuelle au cas des familles finies, et en utilisant l’invariance de cette indépendance mutuelle par permutation (voir la remarque 4.3), il suffit de montrer que pour tout n ∈ N, la proposition P (n) suivante est vraie : P (n) : pour tout entier r ≥ n + 1 et pour toute famille finie (A1 , ..., Ar ) formée de r événements mutuellement indépendants, on a : ∀ p ∈ Jn, rK , P A1 ∩ ... ∩ An ∩ An+1 ∩ ... ∩ Ap = P A1 ...P An .P (An+1 ) ...P (Ap ) (4.1) Pour cela, raisonnons par récurrence sur n. Soit r un entier naturel non nul et (A1 , ..., Ar ) une famille finie de r événements mutuellement indépendants. La relation (4.1) s’écrit pour n = 0 : ∀ p ∈ J0, rK , P (A1 ∩ ... ∩ Ap ) = P (A1 ) ...P (Ap ) et cela est vrai par indépendance mutuelle de la famille (A1 , ..., Ar ). La proposition P (0) est vraie. Soit n ∈ N. Supposons la proposition P (n) est vraie et montrons que P (n + 1) l’est également. Soit r un entier naturel tel que r ≥ n + 2 et (A1 , ..., Ar ) une famille de r événements mutuellement indépendants. Il s’agit de montrer que : (4.2) ∀ p ∈ Jn + 1, rK , P A1 ∩ ... ∩ An+1 ∩ An+2 ∩ ... ∩ Ap = P A1 ...P An+1 .P (An+2 ) ...P (Ap ) Soit p ∈ Jn + 1, rK. On a : P A1 ∩ ... ∩ An+1 ∩ An+2 ∩ ... ∩ Ap = = P P A1 ∩ ... ∩ An ∩ An+2 ∩ ... ∩ Ap ∖ An+1 n T Ai i=1 = P n T i=1 Ai T T " " p T Ai i=n+2 p T i=n+2 Ai #! #! −P n T −P n T Ai i=1 i=1 Ai T T " " p T Ai # Ai #! i=n+2 p T i=n+1 T An+1 ! La famille (A1 , ..., An , An+2 , ...Ar ) est mutuellement indépendante comme sous famille de (A1 , ..., Ar ) ; de plus, elle compte r − 1 événements et r − 1 ≥ n (car r ≥ n + 1). Alors, sachant que n ≤ p − 1 ≤ r − 1 et par hypothèse de récurrence, on a : " # p p n n \ \ \ Y Y Ai A i = P Ai . P (Ai ) P i=1 i=n+2 i=1 33 i=n+2 D’autre part, la famille (A1 , ..., Ar ) est mutuellement indépendante de r événements et r≥ n + 2 donc r ≥ n + 1. Là encore, sachant que n ≤ n + 1 ≤ p ≤ r et par hypothèse de récurrence, on a : " # p p n n \ \ Y \ Y Ai A i = P Ai . P (Ai ) P i=1 i=n+1 D’où : P A1 ∩ ... ∩ An+1 ∩ An+2 ∩ ... ∩ Ap = i=1 n Q P Ai . n Q P Ai . n Q P Ai . n+1 Q P Ai . i=1 = i=1 = i=1 = i=1 = CQFD. i=n+1 P Ai . p Q P (Ai ) − p Q P (Ai ) . [1 − P (An+1 )] i=n+2 i=n+2 p Q n Q i=1 P (Ai ) .P An+1 i=n+2 p Q p Q P (Ai ) i=n+1 P (Ai ) i=n+2 P A1 ...P An+1 .P (An+2 ) ...P (Ap ) Théorème 4.5 (lemme des coalitions) Soit (Ai )i∈I une famille mutuellement indépendante d’événements et (Iλ )λ∈Λ une partition de I. Si pour tout λ ∈ Λ, Bλ est un événement obtenu à partie des événements de la sous famille (Ai )i∈Iλ par opérations ensemblistes, alors la famille (Bλ )λ∈Λ est également mutuellement indépendante. Preuve Elle est admise. Exercice 4.2 Soit (A, B, C) une famille de trois événements mutuellement indépendants. Montrer directement que A est indépendant de chacun des événements B ∩ C, B ∪ C, B ∖ C. (ce qui montre le lemme des coalitions dans un cas particulier simple) 5 Variables aléatoires réelles : généralités (Ω, A, P ) est toujours un espace probabilisé 5.1 Premières notions Définition 5.1 On appelle variable aléatoire réelle (en abrégé v.a.r) sur l’espace probabilisable (Ω, A) toute application X de Ω dans R telle que : ∀ B ∈ B (R) , X −1 (B) ∈ A; où B (R) est la tribu borélienne de R. C’est un cas particulier d’une notion hors programme plus générale : Étant donné un autre espace probabilisable (Ω′ , A′ ), on appelle variable aléatoire (ou application mesurable) de l’espace probabilisable (Ω, A) dans l’espace 34 probabilisable (Ω′ , A′ ) toute application X de Ω dans Ω′ telle que : ∀ B ∈ A′ , X −1 (B) ∈ A Vocabulaire Pour une v.a.r X sur l’espace probabilisable (Ω, A), l’ensemble X (Ω) = {X (ω) / ω ∈ Ω} est appelé l’univers image de X. Exemple 5.1 Soit X : Ω −→ R une application constante. Fixons un réel c tel que : ∀ ω ∈ Ω, X (ω) = c. Soit B ∈ B (R). On a : X −1 (B) = et dans les deux cas X −1 (B) ∈ A. Ø Ω ; si c ∈ /B ; si c ∈ B Cela montre que les applications constantes de Ω dans R sont des v.a.r sur (Ω, A) ; on les appelle les v.a.r sûres. Exemple 5.2 Soit A ∈ A et X = φA la fonction caractéristique de A : φA : Ω −→ ω 7−→ Étant donné un élément quelconque B de B (R), on a : Dans tous les cas X −1 (B) ∈ A. X −1 (B) = Ω X −1 (B) = A X −1 (B) = A X −1 (B) = Ø 1 0 R ; si ω ∈ A ; si ω ∈ /A ; si 0 ∈ B et 1 ∈ B ; si 0 ∈ / B et 1 ∈ B ; si 0 ∈ B et 1 ∈ /B ; si 0 ∈ / B et 1 ∈ /B Cela montre que toute fonction caractéristique d’un événement A ∈ A est une v.a.r sur (Ω, A) ; une telle v.a.r est dite variable de Bernoulli. Vocabulaire Si P est une probabilité sur (Ω, A), toute v.a.r sur (Ω, A) est dite aussi une v.a.r sur l’espace probabilisé (Ω, A, P ). Remarque 5.1 Si l’univers Ω est au plus dénombrable, on choisit conventionnellement comme tribu sur Ω la tribu grossière P (Ω). Dans ce cas, toute application X de Ω dans R est une v.a.r sur (Ω, P (Ω)). 35 Théorème et Définition 5.2 Soit X une v.a.r sur l’espace probabilisable (Ω, A). Alors l’ensemble σX = B ∈ B (R) / X −1 (B) ∈ A est une tribu sur R contenue dans B (R) ; on l’appelle la tribu engendrée par la v.a.r X. Preuve (i) Notons d’abord que σX ⊂ B (R). (ii) On a : R ∈ B (R) et X −1 (R) = Ω ∈ A. D’où R ∈ σX . (iii) Soit B ∈ σX , en sorte que B ∈ B (R) et X −1 (B) ∈ A. Mais, B = R ∖ B est aussi un élément de la tribu B (R) ; de plus X −1 B = X −1 (B) = Ω ∖ X −1 (B) ∈ A (par stabilité de la tribu A par passage au complémentaire). Donc B∈ σX : σX est stable par passage au complémentaire. (iv) Il reste à montrer la stabilité de σX par union dénombrable. Soit (Bn )n∈N une suite d’éléments de σX . Chaque Bn ∈ B (R) et X −1 (Bn ) ∈ A. D’où, par stabilité des tribus B (R) et A : [ [ [ Bn ∈ B (R) et X −1 Bn = X −1 (Bn ) ∈ A n∈N Donc S n∈N n∈N n∈N Bn ∈ σX . CQFD. Théorème 5.1 Soit X : Ω −→ R une application. Alors les p.s.s.e : (i) (ii) (iii) (iv) X est une v.a.r sur (Ω, A) Pour tout intervalle I de R, X −1 (I) ∈ A Pour tout réel x, X −1 (]−∞, x[) ∈ A Pour tout réel x, X −1 (]−∞, x]) ∈ A Preuve Si X est une v.a.r sur (Ω, A) alors, par définition : ∀ B ∈ B (R) , X −1 (B) ∈ A. Or, les intervalles sont des boréliens particuliers ; donc, dans ce cas : ∀ I ∈ I , X −1 (I) ∈ A. Cela montre (i) =⇒ (ii). D’autre part, les ]−∞, x[ (x ∈ R) sont des intervalles particulier de R. D’où (ii) =⇒ (iii). L’implication (iii) =⇒ (iv) découle du fait que pour tout x ∈ R, on a : \ \ 1 1 −∞, x + −∞, x = −∞, x + X −1 et donc X −1 −∞, x = n n n∈N∗ n∈N∗ Pour achever la démonstration, il reste donc seulement à prouver que (iv) =⇒ (i) . Supposons que : ∀ x ∈ R, X −1 −∞, x ∈ A (5.1) .Il s’agit de montrer que : ∀ B ∈ B (R) , X −1 (B) ∈ A. Pour cela, il suffit de montrer que B ∈ B (R) / X −1 (B) ∈ A = B (R). Observons que l’ensemble B ∈ B (R) / X −1 (B) ∈ A n’est rien d’autre que la tribu σX engendrée par X (voir le théorème-définition précédent). On a donc, déjà : σX ⊂ B (R) et σX est une tribu sur R. D’autre part, par l’hypothèse (5.1), σX contient l’ensemble I − des intervalles de la forme −∞, x , x ∈ R. Il vient que σ I − ⊂ σX . Mais d’après le théorème 2.2, σ I − = B (R). D’où σX ⊂ B (R) et B (R) ⊂ σX ; donc σX = B (R). CQFD. Notations Pour une application X : Ω −→ R et une partie B de R, on a : X −1 (B) = {ω ∈ Ω / X (ω) ∈ B} . On convient de noter X ∈ B = X −1 (B). 36 En particulier, pour (a, b) ∈ R2 , on notera a ≤ X ≤ b = X −1 a, b = {ω ∈ Ω / a ≤ X (ω) ≤ b} a < X ≤ b = X −1 a, b = {ω ∈ Ω / a < X (ω) ≤ b} a < X < b = X −1 a, b = {ω ∈ Ω / a < X (ω) < b} a ≤ X < b = X −1 a, b = {ω ∈ Ω / a ≤ X (ω) < b} X ≤ b = X −1 −∞, b = {ω ∈ Ω / X (ω) ≤ b} X < b = X −1 −∞, b = {ω ∈ Ω / X (ω) < b} Ces notations sont introduites pour leur simplicité et leurs avantages dans les calculs. Observons qu’avec ces notations, on a, pour X est une var sur (Ω, A) ⇐⇒ ⇐⇒ 5.2 ∀ x ∈ R, X ≤ x ∈ A (5.2) ∀ x ∈ R, X < x ∈ A Opérations sur les variables aléatoires réelles Théorème 5.2 Soit X et Y deux v.a.r sur l’espace probabilisable (Ω, A). Alors : 1. Pour tout λ ∈ R, λX est une v.a.r sur (Ω, A). 2. Pour tout (λ, µ) ∈ R2 , λX + µY est une v.a.r sur (Ω, A). 3. X 2 et XY sont deux v.a.r sur (Ω, A). Preuve 1. Soit λ un réel. Montrons que λX est une v.a.r sur (Ω, A). • Si λ = 0, il n’y a rien à démontrer, car dans ce cas λX est constante nulle. • Supposons λ ̸= 0. D’après (5.2), il suffit de montrer que : ∀ x ∈ R, λX ≤ x ∈ A. x x et X ≤ ∈ A, car X est une v.a.r sur (Ω, A). Si λ > 0, pour tout x ∈ R, on a λX ≤ x = X ≤ λ λ D’où pour tout x ∈ R, λX ≤ x ∈ A. x x et X ≥ ∈ A, car X est une v.a.r sur (Ω, A). Si λ < 0, pour tout x ∈ R, on a λX ≤ x = X ≥ λ λ D’où pour tout x ∈ R, λX ≤ x ∈ A. CQFD. 2. D’après le résultat du 1, il suffit de montrer que X + Y est une v.a.r sur (Ω, A). Pour cela, on utilise toujours les caractérisations (5.2). Plus exactement, on montre que pour tout x ∈ R, X + Y < x ∈ A. Soit x ∈ R ; soit ω est un élément de X + Y < x . On a X (ω) + Y (ω) < x, c’est à dire X (ω) < x − Y (ω). D’où l’existence, par densité de Q dans R,d’un rationnel r tel que X (ω) < r < x − Y (ω) donc X (ω) < r et Y (ω) < x − r. T S X<r Y < x − r . L’inclusion réciproque étant visiblement vraie, on déduit que : Il ressort de cela que X + Y < x ⊂ r∈Q [ \ X<r Y <x−r X +Y <x = r∈Q Or, puisque X et Y sont des v.a.r sur (Ω, A), les événements X < r et Y < x − r sont des éléments de A ainsi que leur intersection ; donc X + Y < x ∈ A par stabilité de la tribu A par union au plus dénombrable. 3. Commençons par montrer que X 2 est une v.a.r sur (Ω, A) en utilisant les caractérisations (5.2). Soit x ∈ R. Il s’agit de montrer que X 2 ≤ x ∈ A. Écartons le cas trivial x < 0 où X 2 ≤ x = Ø et supposons x > 0. On a √ √ 2 2 √ √ √ X ≤ x = X ≤ x = − x ≤ X ≤ x = X ∈ − x, x . Donc X ≤ x ∈ A. En conclusion X 2 est une v.a.r sur (Ω, A). 1 1 Enfin, la relation XY = (X + Y )2 − (X − Y )2 prouve, en utilisant ce qui précède, que XY est une v.a.r sur (Ω, A). 4 4 37 Remarque 5.2 L’ensemble VR (Ω, A) de toutes les v.a.r sur (Ω, A) est une R-algèbre, sous algèbre de la R- algèbre RΩ . Notations Soit n ∈ N∗ et X1 , ..., Xn n applications définies sur Ω et à valeurs dans R. Les applications : Ω ω −→ 7−→ R min (X1 (ω) , ..., Xn (ω)) Ω et ω −→ 7−→ R max (X1 (ω) , ..., Xn (ω)) sont notée respectivement min (X1 , ..., Xn ) et max (X1 , ..., Xn ). Attention : Si pour des nombres réels a1 , ...an , min (a1 , ..., an ) [resp. max (a1 , ..., an )] coïncide avec l’un des ai , pour des applications réelles X1 , ..., Xn , min (X1 , ..., Xn ) et max (X1 , ..., Xn ) ne coïncident pas en général avec l’une des applications Xi . Théorème 5.3 Soit n ∈ N∗ et X1 , ..., Xn n v.a.r sur (Ω, A). Alors min (X1 , ..., Xn ) et max (X1 , ..., Xn ) sont des v.a.r sur (Ω, A) Preuve Notons Y = min (X1 , ..., Xn ) et Z = max (X1 , ..., Xn ). Soit x un réel. Le lecteur est invité à vérifier que : n [ Xi ≤ x Y ≤x = et i=1 n \ Z≤x = Xi ≤ x i=1 Comme les Xi ≤ x sont tous dans A (car les Xi sont des v.a.r sur (Ω, A)), la stabilité de la tribu A par intersection finie et par union finies achèvent de montrer que Y ≤ x ∈ A et Y ≤ x ∈ A. x étant quelconque, l’une des caractérisations montrent que Y et Z sont des v.a.r sur (Ω, A). 5.3 Fonction d’une ou plusieurs v.a.r • Étant donnés une v.a.r X sur (Ω, A), un intervalle I de R tel que X (Ω) ⊂ I et une application f : I −→ R, l’application Ω ω −→ 7−→ R f (X (ω)) est notée simplement f (X) ; elle dite une fonction de X . Notons que f (X) n’est rien d’autre que f oX. • Plus généralement, étant donnés n ∈ N∗ , X1 , ..., Xn des v.a.r sur (Ω, A), des intervalles I1 ⊃ X1 (Ω) , ..., In ⊃ Xn (Ω) et g : I1 × ... × In −→ R une application, l’application Ω ω −→ 7−→ R g (X1 (ω) , ..., Xn (ω)) est notée g (X1 , ..., Xn ) ; elle est dite une fonction de (X1 , ..., Xn ). Elle la composée de ω 7−→ (X1 (ω) , ..., Xn (ω)) par g. 38 En guise d’exemples, λX = f1 (X) , X 2 = f2 (X) , |X| = f3 , √ X 2 + 1 = f4 (X) sont toutes des fonctions de X ; où f1 , f2 , f3 et f4 sont les fonctions réelles définies sur R par : ∀ t ∈ R, f1 (t) = λt, f2 (t) = t2 , f3 (t) = |t| , f4 (t) = p t2 + 1 λX + µY = g1 (X, Y ), XY = g2 (X, Y ) sont des fonctions de (X, Y ) ; où pour tout (s, t) ∈ R2 , g1 (s, t) = λs + µt, g2 (s, t) = st. min (X1 , ..., Xn ) = g3 (X1 , ..., Xn ), max (X1 , ..., Xn ) = g4 (X1 , ..., Xn ) sont des fonctions de (X1 , ..., Xn ) ; où pour tout (t1 , ..., tn ) ∈ Rn , g3 (t1 , ..., tn ) = min (t1 , ..., tn ), g4 (t1 , ..., tn ) = max (t1 , ..., tn ). Théorème 5.4 Soit X une v.a.r sur l’espace probabilisable (Ω, A), I un intervalle de R tel que X (Ω) ⊂ I et f : I −→ R une application monotone. Alors f (X) est également une v.a.r sur (Ω, A) Preuve Elle n’est pas exigible. Théorème 5.5 Soit X une v.a.r sur l’espace probabilisable (Ω, A), I un intervalle de R tel que X (Ω) ⊂ I et f : I −→ R une application continue. Alors f (X) est également une v.a.r sur (Ω, A) Preuve Elle n’est pas exigible Elle utilise un résultat classique mais hors programme selon lequel tout ouvert de R est union au plus dénobrable d’intervalles ouverts. Elle n’est pas exigible. Il suffit de montrer que pour tout y ∈ R, on a : f (X) < y ∈ A. Soit y ∈ R. On a : f (X) < y = (f (X))−1 −∞, y = X −1 f −1 −∞, y . Par continuité de f , f −1 −∞, y est un ouvert relatif de I. Posons f −1 −∞, y = U ∩ I ; où U est ouvert de R. Mais d’après le S Iλ ; où Λ est un ensemble au plus dénombrable et les Iλ sont des intervalles résultat hors programme cité ci-dessus, on peut écrire U = λ∈Λ ouverts. On en déduit : f −1 −∞, y puis : =U ∩I = f (X) < y = X [ λ∈Λ −1 Iλ ∩ I = [ λ∈Λ [ λ∈Λ (Iλ ∩ I) (Iλ ∩ I) Or, chaque Iλ ∩ I est un intervalle de R éventuellement vide ; donc par stabilité de B (R) par union au plus dénombrable, B (R). Finalement, X étant une v.a.r sur (Ω, A), f (X) < y = X −1 S λ∈Λ (Iλ ∩ I) ! S λ∈Λ (Iλ ∩ I) ∈ ∈ A. CQFD. Vocabulaire Une fonction réelle f définie sur un segment [a, b] de R (où q < b) est dite monotone par morceaux s’il existe une subdivision σ = (x0 , ..., xr ) de [a, b] telle que f est monotone sur chaque intervalle ouvert xk , xk+1 de cette subdivision (le sens de monotonie de f dans ces différents intervalles n’étant pas forcément le même). Une fonction réelle définie sur un intervalle quelconque I de R est dite monotone par morceaux si elle l’est sur chaque segment inclus dans I. 39 Proposition 5.1 Soit X une v.a.r sur l’espace probabilisable (Ω, A), I un intervalle de R f : I −→ R une fonction monotone par morceaux. Alors f (X) est une v.a.r sur (Ω, A). Preuve Elle n’est pas exigible. Proposition 5.2 Soit X une v.a.r sur l’espace probabilisable (Ω, A), I un intervalle de R f : I −→ R une continue sauf en un nombre fini ou dénombrable de points isolés. Alors f (X) est une v.a.r sur (Ω, A). Preuve Elle n’est pas exigible. Exemple 5.3 Si X est une v.a.r sur (Ω, A, P ) alors X est également une v.a.r sur (Ω, A, P ), car la fonction partie entière est continue partout dans R sauf en les point de Z qui est un ensemble infini dénombrable de points isolés. On peut aussi, dans ce cas, avancer l’argument de la proposition 5.1, car la fonction partie entière est monotone par morceaux. N.B • Si on note D l’ensemble des points de discontinuité de f dans I, l’hypothèse faite sur f entraîne que l’intersection de D avec tout segment inclus dans I est un ensemble fini. • Une telle fonction f n’est pas forcément continue par morceaux car ses discontinuités ne sont pas pas forcément de première espèce. 5.4 Loi de probabilité d’une v.a.r Dans ce paragraphe (Ω, A, P ) est un espace probabilisé Théorème et définition 5.3 Soit X une v.a.r sur l’espace probabilisable (Ω, A, P ). Alors l’application PX : B (R) B −→ 7−→ est une probabilité sur l’espace probabilisable (R, B (R)). [0, 1] P X −1 (B) PX est appelée la loi de probabilité (ou simplement la loi) de X. 40 Preuve • PX charge l′ univers R : En effet, on a : PX (R) = P X −1 (R) = P (Ω) = 1. • PX est σ − additive : En effet, se donnant une suite (Bn )n∈N de boréliens deux à deux disjoints, on a : ! !! S S = P X −1 Bn Bn PX n∈N n∈N ! S −1 X (Bn ) = P n∈N +∞ P = = n=0 +∞ P n=0 P X −1 (Bn ) PX (Bn ) [car P est σ−additive] Remarque 5.3 Soit X une v.a.r sur l’espace probabilisable (Ω, A, P ). On admet que, partant du fait que la tribu borélienne de R est engendrée par l’ensemble I des intervalles de R, la donnée de la loi PX de X est équivalente à la donnée de la famille P X ∈ I I∈I . Montrons que cette donnée est équivalente à celle de la famille P X ≤ x x∈R . Il s’agit donc de montrer que les deux points suivants sont équivalents : (i) X ∈ I I∈I la donnée de la famille P X ≤ x x∈R la donnée de la famille P (ii) Montrons le. On a :I − = −∞, x / x ∈ R ⊂ I . D’où (i) =⇒ (ii). Montrons que (ii) =⇒ (iii). Supposons donnés les nombres P X ≤ x , x ∈ R. Soit I ∈ I un intervalle de R. Montrons que P X ∈ I est déterminé. Écartons les cas triviaux où I = Ø et I = R. 1. Si I est de la forme I = −∞, x , x ∈ R, on a : P X ∈ I = P X ≤ x est déterminé. 2. Si I est de la forme I = −∞, x , x ∈ R, on a : P X∈I P X < x S 1 P X ≤x− n n∈N∗ 1 lim P X ≤ x − n→+∞ n = = = [continuité monotone croissante] donc P X ∈ I est déterminé. 3. Si I = x, +∞ , x ∈ R, on a : P (X ∈ I) = P X ≥ x = 1 − P X < x est déterminé par 2. 4. Si I = x, +∞ , x ∈ R, on a : P (X ∈ I) = P X > x = 1 − P X ≤ x est déterminé par 1. 5. Si I = [x, y], x, y réels et x < y, on a : P X∈I = = = donc P X∈I x≤X≤y P X≤y ∖ X<x P X ≤y −P X <x P est déterminé par 1 et 2. 41 [car X < x ⊂ X ≤ y ] 6. Si I = x, y , x, y réels et x < y, on a : P X∈I = = = x≤X<y P X<y ∖ X<x P X <y −P X <x P Donc P X ∈ I est déterminé par 2. 7. Si I = x, y , x, y réels et x < y, on a : P X∈I = = = x<X≤y P X≤y ∖ X≤x P X ≤y −P X ≤x [car X ≤ x ⊂ X ≤ y ] x<X<y P X<y ∖ X≤x P X <y −P X ≤x [car X ≤ x ⊂ X < y ] P Donc P X ∈ I est déterminé par 1. 8. Si I = x, y , x, y réels et x < y, on a : P X∈I = = = Donc P X∈I [car X < x ⊂ X < y ] P est déterminé par 1 et 2. Remarque 5.4 Deux v.a.r peuvent avoir la même loi tout en étant définies sur des espaces probabilisés différents. Deux v.a.r définies sur le même espace probabilisé peuvent avoir la même loi tout en étant distinctes. Pour s’en convaincre, examinons les deux exemples suivants : Exemple 5.4 1 2 On associe à ces deux lancers leur espace probabilisés finis (Ω, P (Ω) , P ) et (Ω′ , P (Ω′ ) , P ′ ) ; où Ω = {pile, face} et q y Ω′ = 1, 6 . On lance une pièce équilibrée et un dé non équilibré où la probabilité de la face n°6 est On note X : Ω −→ R et Y : Ω′ −→ R les applications telles que X (pile) = 1 X (face) = 0 et Y (6) = 1 Y (k) = 0 ; si 1 ≤ k ≤ 5 X et Y sont des v.a.r sur (Ω, P (Ω) , P ) et (Ω′ , P (Ω′ ) , P ′ ) respectivement car ces deux espaces probabilisés sont finis. Notons qu’elles sont toutes les deux des v.a de Bernoulli. Les lois de X et Y sont données par les P X ≤ x et P Y ≤ x , x ∈ R. (voir Remarque 5.3). Plus exactement : P X≤x =0 1 P X≤x =P X=0 = 2 P X ≤ x = P X = 0 ∪ X = 1 = P X = 0 + P X = 1 = 1 + 1 = 1 2 2 42 ; si x < 0 ; si 0 ≤ x < 1 ; si 1 ≤ x et pour Y : P Y ≤x =0 q y 1 P Y ≤ x = P Y = 0 = P ”obtenir un k ∈ 1, 5 ” = 1 − P (”obtenir 6”) = 2 P X ≤ x = P ”obtenir un k ∈ q1, 6y” = P (Ω′ ) = 1 D’où : ∀ x ∈ R, P X≤x =P ; si x < 0 ; si 0 ≤ x < 1 ; si 1 ≤ x Y ≤x . Les variables X et Y ont la même loi. Cependant, elle sont définies sur des espaces probabilisés différents. Exemple 5.5 Reprenons le lancer d’une pièce équilibrée et la v.a.r de Bernoulli X. Soit Y : Ω = {pile, face} −→ R telle que : Y (pile) = 0 Y (face) = 1 En sorte que Y = 1 − X. C’est une va sur le même espace probabilisé (Ω, P (Ω) , P ) que X, mais elle est différente de celle-ci car là où X vaut 1, Y vaut 0 et vis-vers-ça. (en fait chacune des deux est une v. de Bernoulli mais le succès de l’une est l’échec de l’autre). Les mêmes calculs qu’avant conduisent à P Y ≤x =0 1 P Y ≤x =P Y =0 = 2 P Y ≤ x = P Y = 0 ∪ Y = 1 = P Y = 0 + P Y = 1 = 1 + 1 = 1 2 2 ; si x < 0 ; si 0 ≤ x < 1 ; si 1 ≤ x Donc : X et Y ont la même loi alors qu’elle sont distinctes. 5.5 Fonction de répartition d’une variable aléatoire réelle. Définition 5.4 On appelle fonction de répartition de la variable réelle toute application F : R −→ [0, 1] ayant les trois propriétés suivantes : (i) F est croissante sur R (ii) F admet la limite 0 en − ∞ et la limite 1 en + ∞ (iii) F est continue à droite en tout point de R Exemple 5.6 Le lecteur vérifiera aisément que les fonctions F et G définies sur R par : F (x) = 0 1 F (x) = 3 F (x) = 1 ; si x < −1 ; si − 1 ≤ x < 0 et ; si 0 ≤ x G (x) = 0 x+2 G (x) = 4 G (x) = 1 ; si x < −2 ; si − 2 ≤ x < 2 ; si 2 ≤ x sont des fonctions de répartition. Il remarquera au G est même continue en tout point de R. 43 Théorème et définition 5.5 Soit X une v.a.r sur l’espace probabilisé (Ω, A, P ). Alors la fonction notée FX définie sur R par : ∀ x ∈ R, FX (x) = P X≤x est une fonction de répartition ; on l’appelle la fonction de répartition de X. Preuve D’abord, puisque P est une probabilité, la fonction FX est à valeurs dans le segment [0, 1]. Montrons ensuite qu’elle est une fonction de répartition en vérifiant les trois conditions de la définition 5.4. (i) Pour tout couple (x, y) de réels tels que x < y, on a X ≤ x ⊂ X ≤ y ; d’où par croissance de P : P X≤x ≤P X≤y Ainsi : ∀ (x, y) ∈ R2 , x < y =⇒ FX (x) ≤ FX (y). La fonction FX est croissante sur R. (ii) La fonction FX est croissante sur R et elle est minorée par 0 et majorée par 1. Le théorème de la limite monotone assure l’existence de l = lim FX (x) et L = lim FX (x) dans R. Montrons que l = 0 et L = 1. x→−∞ x→+∞ Pour tout n ∈ N, introduisons An = X ≤ −n et Bn = X ≤ n . Puisque X est une v.a.r sur (Ω, A), les An et Bn sont des événements de la tribu A. De plus pour tout n, on a : An+1 ⊂ An et Bn ⊂ Bn+1 La propriétés de continuité monotone permet de déduire que \ FX (−n) = P (An ) −→ P An n→+∞ Or, classiquement, T n∈N An = T n∈N FX (n) = P (Bn ) −→ P et n→+∞ n∈N S S Bn = X ≤ −n = Ø et X ≤ n = Ω. D’où n∈N [ n∈N Bn n∈N FX (−n) −→ 0 n→+∞ et FX (n) −→ 1 n→+∞ Mais, par le critère séquentiel des limites de fonctions, on a : FX (−n) −→ l et FX (n) −→ L. n→+∞ n→+∞ D’où, par unicité de la limite : l = 0 et L = 1. (iii) Soit x ∈ R. Montrons que FX est continue à droite en x. Comme x ∈ x, +∞ , il revient au même de montrer que : FX (t) −→ FX (x). t→x+ D’abord, par croissance de FX sur R, le théorème de la limite monotone assure l’existence dans R de ℓ = lim FX (x) x→x+ et il reste seulement à montrer que ℓ = FX (x). Pour cela, on raisonne, comme dans (ii), en utilisant la propriété de continuité monotone. 1 . Le fait que X est une v.a.r sur l’espace probabilisable (Ω, A), permet d’affirmer que les Cn Pour tout n ∈ N∗ , soit Cn = X ≤ x + n ∗ sont des événements de la tribu A. Ensuite, on observe que pour tout n ∈ !N , on a : Cn+1 ⊂ Cn . Alors, d’après la propriété de continuité T 1 monotone décroissante, on a : FX x + Cn . = P (Cn ) −→ P n→+ n n∈N∗ T T 1 1 −→ P X ≤ x = FX (x). Cn = Mais X ≤x+ = X ≤ x (classique) ; d’où FX x + n→+ ∗ ∗ n n n∈N n∈N 1 D’autre part, la suite x + est une suite d’éléments de x, +∞ qui converge vers x ; donc, d’après le critère séquentiel des n n∈N∗ 1 −→ ℓ. limites de fonctions, on a : FX x + n n→+ D’où, par unicité de la limite : ℓ = FX (x). CQFD. Remarque 5.5 Deux v.a.r sur des espaces probabilisés différents peuvent avoir la même fonction de répartition. En effet les v.a.r X et Y de l’exemple 5.4 vérifient : P X ≤ x x∈R = P Y ≤ x x∈R 44 donc FX = FY . Cependant, elles sont définies sur des espaces probabilisés distincts. Proposition 5.3 Soit X une v.a.r sur (Ω, A, P ) et x un réel. Alors : 1. FX (t) −→− P (X < x). t→x 2. La fonction FX est continue au point x si et seulement si P (X = x) = 0. Preuve 1. On raisonne comme dans le théorème-définition précédent : La croissance de FX et le théorème de la limite monotone permettent d’affirmer que FX admet une limite réelle ℓ à gauche en x. 1 est une suite d’éléments de −∞, x convergeant vers x, le critère séquentiel des limites de De plus, puisque la suite x − n n∈N ∗ 1 −→ ℓ. fonctions permet de déduire que FX x − n n→+∞ 1 , la suite (An )n∈N∗ est croissante pour l’inclusion et Finalement, en posant pour tout n ∈ N∗ An = X ≤ x − n [ [ 1 An = = X<x X ≤x− n n∈N∗ n∈N∗ D’après la propriété de continuité monotone croissante, FX D’où par unicité de la limite : ℓ = P (X < x). En conclusion, on a : FX (t) −→ P (X < x). x− 1 n = P (An ) −→ P (X < x). n→ t→x− 2. FX est déjà continue à droite en x comme fonction de répartition ; donc la continuité de FX en x est équivalente à sa continuité à gauche en x. Il vient, d’après 1, que FX est continue en xsi et seulement si P (X < x) = FX (x), c’est dire P (X ≤ 0) − P (X < x) = 0. Or : P (X ≤ 0) − P (X < x) = P X ≤ x ∖ X < 0 [car X < 0 ⊂ X ≤ x ] = P (X = x) On conclut que FX est continue en x si et seulement si P (X = x) = 0. Théorème 5.6 Deux variables aléatoires réelles, définies sur le même espace probabilisé ou non, ont la même loi si et seulement si elle ont la même fonction de répartition. Preuve Ce résultat découle immédiatement des considérations de la remarque 5.3 Théorème 5.7 Soit F : R −→ [0, 1] une fonction de répartition de la variable réelle. Alors il existe un espace probabilisé et une v.a.r sur cet espace telle que FX = F Preuve Elle est admise. 45 5.6 Indépendance des variables aléatoires réelles Notations Pour des v.a.r X, X1 , ..., Xn définies sur l’espace probabilisé (Ω, A, P ) et des intervalles I, I1 , ..., In de R, on adoptera, dans un souci de simplification, les notations suivantes : 1. P X ∈ I sera noté simplement P (X ∈ I). En guise d’exemples, P (X ≤ x), P (X < x), P (x ≤ X < y) désignent respectivement P P x≤X<y . X ≤x ,P X <x , La fonction de répartition de X peut donc s’exprimer par : ∀ x ∈ R, FX (x) = P (X ≤ x). T T 2. P X1 ∈ I1 ... Xn ∈ In sera simplement noté P (X1 ∈ I1 , ..., Xn ∈ In ). T 0 < X2 ≤ 3 Ainsi, par exemple, P (X1 ≤ −2, 0 < X2 ≤ 3) désigne P X1 ≤ −2 5.6.1 Cas de deux v.a.r Définition 5.5 Soit X et Y deux v.a.r sur l’espace probabilisé (Ω, A, P ). On dit que X et Y sont indépendantes si et seulement si pour tout couple (I, J) d’intervalles de R on a : P (X ∈ I, Y ∈ J) = P (X ∈ I) .P (Y ∈ J) (∗) Remarque 5.6 • L’indépendance de deux v.a.r X et Y est symétrique du couple (X, Y ). • Les v.a.r X et Y sont indépendantes si et seulement si pour tout couple (I, J) d’intervalles de R, les événements [X ∈ I] et [Y ∈ J] sont indépendants. • L’indépendance de v.a.r, tout comme celle des événements dépend fortement de la probabilité P , et ne sera, en aucun cas, le fruit de la seule intuition : même dans le cas d’une indépendance intuitive, le calcul formel doit confirmer l’indépendance. Théorème 5.8 Soit X et Y deux v.a.r sur l’espace probabilisé (Ω, A, P ). Alors les p.s.s.e : (i) X et Y sont indépendantes (ii) P our tout (x, y) ∈ R2 , P (X ≤ x, Y ≤ y) = P (X ≤ x) .P (Y ≤ y) (∗∗) Preuve (i) =⇒ (ii) Il suffit d’appliquer (i) aux intervalles particuliers I = −∞, x et J = −∞, y . (ii) =⇒ (i) En supposant la condition (∗∗) satisfaite, on montre que (∗) est vérifiée pour tout couple (I, J) d’intervalles de R en distinguant tous les cas possibles concernant la forme des intervalles I et J (64=8×8 cas si on excepte les cas triviaux I = Ø ou R, J = Ø ou R). Raisonnons 46 seulement dans le cas I = −∞, x , J = a, b ; où x, a, b sont des réels et a < b : P (X ∈ I, Y ∈ J) = = = = = = = = = = P (X ≤ x, a < Y ≤ b) T P ([X ≤ x] ([Y ≤ b] ∖ [Y ≤ a])) T P ([X ≤ x] [Y ≤ b] ∖ [Y ≤ a]) T T T P ([X ≤ x] [Y ≤ b]) − P ([X ≤ x] [Y ≤ b] [Y ≤ a]) P (X ≤ x, Y ≤ b) − P (X ≤ x, Y ≤ a) P (X ≤ x) .P (Y ≤ b) − P (X ≤ x) .P (Y ≤ a) P (X ≤ x) (P (Y ≤ b) − P (Y ≤ a)) P (X ≤ x) P ([Y ≤ b] ∖ [X ≤ a]) P (X ≤ x) P (q < Y ≤ b) P (X ∈ I) .P (Y ∈ J) [opération ensembliste] [propriété P (A ∖ B) ...] [car [Y ≤ a] ⊂ [Y ≤ b]] [d′ après (∗∗)] [car [Y ≤ a] ⊂ [Y ≤ b]] Dans les autres cas, le raisonnement reprend des argument analogues en plus des propriétés de P dont la continuité monotone. Théorème 5.9 (lemme des coalitions) Soit X et Y deux v.a.r sur l’espace probabilisé (Ω, A, P ), I et J deux intervalles de R tels que X (Ω) ⊂ I et Y (Ω) ⊂ J, f : I −→ R et g : J −→ R deux fonctions telles que f (X) et g (Y ) sont des v.a.r sur (Ω, A, P ). Alors l’indépendance de X et Y entraîne celle de f (X) et g (Y ). Preuve Elle est admise. Exemple 5.7 Si X et Y sont deux v.a.r indépendantes alors X − X 2 et Y 2 + 1 sont aussi indépendantes, il suffit de noter qu’elles sont bien des v.a.r selon les considérations précédentes. 5.6.2 Cas d’une famille de v.a.r Définition 5. 10 Soit (Xi )i∈E une famille quelconque de v.a.r sur l’espace probabilisé (Ω, A, P ). On dit que cette famille est mutuellement indépendante (ou simplement indépendante) si et seulement si, pour toute partie finie K de E, pour toute famille (Ii )i∈K d’intervalles de R indexée par K, on a : P \ i∈K Xi ∈ I i ! = Y i∈K P (Xi ∈ Ii ) Autrement dit, pour toute famille (Ii )i∈E d’intervalles de R indexée par E, la famille d’événements est mutuellement indépendantes. X i ∈ Ii i∈E Vocabulaire Une autre façon de dire que la famille (Xi )i∈E est mutuellement indépendante est de dire que (Xi )i∈E est une famille de v.a.r mutuellement indépendantes (relativement aux variables aléatoires Xi et non à la famille) 47 Remarque 5.7 • Toute sous famille d’une famille mutuellement indépendante de v.a.r est mutuellement indépendante. • Une famille de deux v.a.r est mutuellement indépendante si et seulement si ces deux v.a.r sont indépendantes. • Soit (Xi )i∈E une famille de v.a.r sur (Ω, A, P ) et σ une permutation de l’ensemble E des indices. Alors la famille (Xi )i∈E est mutuellement indépendante si et seulement si la famille Xσ(i) i∈E l’est. Proposition 5.4 Soit (Xi )i∈E une famille de v.a.r sur (Ω, A, P ). Alors la famille (Xi )i∈E est mutuellement indépendante si et seulement si toutes ses sous familles finies le sont. Preuve Elle est laissée en exercice. Théorème 5.11 Soit (Xi )i∈E une famille de v.a.r sur (Ω, A, P ). Alors les ps.s.e : (i) la famille (Xi )i∈E est mutuellement indépendante (ii) pour toute partie finie K de E et toute famille (xi )i∈K de réels : P T i∈K X i ≤ xi = Q i∈K P (Xi ≤ xi ) Preuve Elle est admise. Théorème 5.12 (lemme des coalitions [général]) Soit n ∈ N ∖ {0, 1} et r1 , ..., rn des entiers tels que 1 ≤ r1 < r2 < ... < rn et X1 , ..., Xr1 , ..., Xr2 , ..., Xrn−1 , ..., Xrn une famille finie de rn v.a.r sur l’espace probabilisé (Ω, A, P ) mutuellement indépendantes. Soit f1 : Rr1 −→ R, f2 : Rr2 −r1 −→ R, ...,fn : Rrn −rn−1 −→ R des fonctions telles que Y1 = f1 (X1 , ...Xr1 ), Y2 = f2 (Xr1 +1 , ..., Xr2 ), ..., Yn = fn Xrn−1 +1 , ..., Xrn sont des v.a.r sur (Ω, A, P ). Alors la famille (Y1 , ..., Yn ) est mutuellement indépendante. Preuve Elle est admise. Définition 5.11 Soit (Xi )i∈E une famille de v.a.r sur (Ω, A, P ). On dit que la famille (Xi )i∈E est deux à deux indépendante si et seulement si pour tout couple (i, j) ∈ E 2 tel que i ̸= j, les v.a.r Xi et Xj sont indépendantes. 48 Proposition 5.5 Toute famille de v.a.r sur (Ω, A, P ) mutuellement indépendante est deux à deux indépendante. Preuve Elle est immédiate. Remarque 5.8 Hormis le cas d’une famille d’exactement deux événements, la réciproque est fausse en général. En guise de contre exemple, voir l’exercice suivant : Exercice 5.1 q y2 On lance deux dés équilibrés discernables. Sur l’univers fini Ω = 1, 6 de cette expérience, on définit la v.a.r X [resp. Y , resp. Z] qui vaut 1 si le premier dé amène un nombre pair [resp. le second amène un nombre impaire, resp. les deux dés amènent deux nombres de même parité] et vaut 0 sinon. Montrer que les v.a.r X, Y , Z sont deux à deux indépendantes mais ne sont pas mutuellement indépendantes. 6 Variables aléatoires réelles discrètes Dans tout ce paragraphe, (Ω, A, P ) est un espace probabilisé. 6.1 Généralités 6.1.1 Définition et premières propriétés Définition 6.1 On appelle variable aléatoire réelle discrète (en abrégé v.a.r.d) sur l’espace probabilisé (Ω, A, P ) toute v.a.r X sur cet espace telle que X (Ω) est au plus dénombrable. Exemple 6.1 Les v.a.r sûres et les v.a.r de Bernoulli sont des v.a.r.d. Proposition 6.1 Si l’univers Ω est au plus dénombrable alors toute application X de Ω dans R est une v.a.r.d. Preuve Supposons Ω au plus dénombrable et notons Ω = {ωn / n ∈ N}. Comme convenu, la tribu d’événements est A = P (Ω). Soit X : Ω −→ R une application quelconque ; on sait que X est une v.a.r sur (Ω, P (Ω)). De plus l’application : N n −→ 7−→ X (Ω) X (ωn ) est clairement surjective. Donc X (Ω) est au plus dénombrable (voir cours de dénombrabilité). CQFD. 49 Théorème 6.1 Soit X : Ω −→ R telle que X (Ω) est au plus dénombrable. Alors les p.s.s.e : (i) (ii) X est une v.a.r.d sur (Ω, A, P ) pour tout x ∈ X (Ω) , X = x ∈ A Preuve La condition (ii) est déjà nécessaire (et même pour des v.a.r non discrètes), car X = x = X ∈ {x} et les singletons {x} sont des intervalles de R. Montrons qu’elle est suffisante. Supposons donc que : ∀ x ∈ X (Ω) , X = x ∈ A (6.1) Montrons que pour tout I ∈ I , [X ∈ I] ∈ A ; ce qui montre que X est une v.a.r sur (Ω, A, P ) et, avec l’hypothèse X (Ω) au plus dénombrable, achève de montrer que X est une v.a.r.d. T S {ω ∈ Ω / X (ω) = x}. Soit I un intervalle de R. On a : [X ∈ I] = {ω ∈ Ω / X (ω) ∈ I} = {ω ∈ Ω / ∃ x ∈ X (Ω) I, X (ω) = x} = x∈X(Ω)∩I S C’est à dire : [X ∈ I] = X=x . x∈X(Ω)∩I T Or, d’une part, par (6.1) les X = x ∈ A et, d’autre part, X (Ω) I est au plus dénombrable comme partie X (Ω). Donc, par stabilité de la tribu A : X ∈ I ∈ A. CQFD. Théorème 6.2 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ), I un intervalle de R tel que X (Ω) ⊂ I. Alors pour toute fonction f : I −→ R, f (X) est une v.a.r.d sur (Ω, A, P ). Preuve On rappelle que Y = f (X) est l’application Ω ω −→ 7−→ R f (X (ω)) c’est à dire la composée f oX. En particulier Y (Ω) = f (X (Ω)). On en déduit : ∀y ∈ Y (Ω) , ∃ x ∈ X (Ω) , y = f (x). L’application g : X (Ω) −→ Y (Ω) x 7−→ f (x) est donc une surjection. Alors, comme X(Ω) est au plus dénombrable, Y (Ω) l’est également. D’après le théorème 6.1, il suffit de montrer que : ∀y ∈ Y (Ω) , Y = y ∈ A. Soit y ∈ Y (Ω). Notons Ly = g −1 ({y}) = {x ∈ X (Ω) / g (x) = y} = {x ∈ X (Ω) / f (x) = y}. On a : Y =y = {ω ∈ Ω / Y (ω) = y} = {ω ∈ Ω / f (X (ω)) = y} = {ω ∈ Ω / ∃ x ∈ X (Ω) , f (x) = y et X (ω) = x} = {ω ∈ Ω / ∃ x ∈ Ly , X (ω) = x} S {ω ∈ Ω / X (ω) = x} = x∈Ly Ainsi, Y = y = S x∈Ly X=x . Comme les [X = x] sont des éléments de A et l’union est au plus dénombrable (car Ly ⊂ X (Ω)), on a, par stabilité de A par union au plus dénombrable, [X = x] ∈ A. CQFD. Exemple 6.2 Si X est une v.a.r.d sur l’espace probabilisé (Ω, A, P ) alors X 2 , X ,exp (X), (Ω, A, P ). 50 √ 1 + X 2 ,....sont des v.a.r.d sur Théorème 6.3 Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) et (I, J) un couple de deux intervalles de R tels que X (Ω) ⊂ I et Y (Ω) ⊂ J. Alors pour toute fonction f : I × J −→ R, l’application f (X, Y ) est une v.a.r.d sur (Ω, A, P ). Preuve Z = f (X, Y ) est l’application : Z: Ω ω R f (X (ω) , Y (ω)) −→ 7−→ On a : ∀ z ∈ Z (Ω) , ∃ ω ∈ Ω, z = f (X (ω) , Y (ω)). C’est à dire, en d’autres termes : ∀ z ∈ Z (Ω) , ∃ (x, y) ∈ X (Ω) × Y (Ω) , z = f (x, y). On en déduit que l’application h : X (Ω) × Y (Ω) −→ Z (Ω) (x, y) 7−→ f (x, y) est une surjection. Mais, sachant que X (Ω) × Y (Ω) est au plus dénombrable comme produit cartésien de deux ensembles au plus dénombrables, l’ensemble Z (Ω) est au plus dénombrable. Selon le théorème 6.1, il reste seulement à montrer que pour tout z ∈ Z (Ω) ,on a Z = z ∈ A. Soit z ∈ Z (Ω). Notons Lz = h−1 ({z}) = {(x, y) ∈ X (Ω) × Y (Ω) / h (x, y) = z} = {(x, y) ∈ X (Ω) × Y (Ω) / f (x, y) = z} On a : Z=z = = = = {ω ∈ Ω / Z (ω) = z} {ω ∈ Ω / f (X (ω) , Y (ω)) = z} {ω ∈ Ω / ∃ (x, y) ∈ X (Ω) × Y (Ω) , f (x, y) = z et (X (ω) , Y (ω)) = (x, y)} S {ω ∈ Ω / X (ω) = x et Y (ω) = y} (x,y)∈Lz = S (x,y)∈Lz X=x ∩ Y =y Or, les X = x et Y = y sont des éléments de A car X et Y sont des v.a.r et l’union est au plus dénombrable car Lz ⊂ X (Ω) × Y (Ω) ; donc, par stabilité de la tribu A par union au plus dénombrable, Z = z ∈ A. CQFD. Corollaire 6.1 Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors : 1. Pour tout λ ∈ R, λX est une v.a.r.d sur (Ω, A, P ). 2. Pour tout (λ, µ) ∈ R2 , λX + µY est une v.a.r.d sur (Ω, A, P ). 3. XY est une v.a.r.d sur (Ω, A, P ). Preuve 1 Pour λ ∈ R,λX = f (X) ; où f : R −→ R,x 7−→ λx : on applique le théorème 6.2 2 Pour (λ, µ) ∈ R2 , λX + µY = f (X, Y ) ;où f : R2 −→ R, (x, y) 7−→ λx + µy : on applique le théorème 6.3 3 XY = f (x, y) ; où f : R2 −→ R, (x, y) 7−→ xy : on applique le théorème 6.3 Remarque 6.1 L’ensemble Vd (Ω, A, P ) des v.a.r.d sur l’espace probabilisé (Ω, A, P ) est une sous algèbre de la R- algèbre RΩ . 51 Théorème 6.4 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors la famille ([X = x])x∈X(Ω) est un système complet d’événements. En particulier, on a : X P (X = x) = 1 x∈X(Ω) Preuve Elle est laissée en exercice. 6.1.2 Loi et fonction de répartition d’une v.a.r.d Théorème 6.4 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors la loi de probabilité de X est complètement déterminée par la famille au plus dénombrable (P (X = x))x∈X(Ω) Preuve En tant que v.a.r particulière, la loi de X est complètement déterminée par la famille (P (X ∈ I))I∈I . Mais pour tout intervalle I de R, on a X∈I = {ω ∈ Ω / X (ω) ∈ I} = {ω ∈ Ω / ∃ x ∈ X (Ω) ∩ I, X (ω) = x} , S X=x = x∈X(Ω)∩I d’où par σ- additivité de P : P (X ∈ I) = X P (X = x) x∈X(Ω)∩I Cette relation montre que les P (X ∈ I), et par là même, la loi de X,est complètement déterminée par la donnée des « atomes » P(X = x), x ∈ X (Ω). Proposition 6.2 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors la fonction de répartition de X est donnée par : ∀ t ∈ R, FX (t) = X P (X = x) x∈X(Ω) x≤t Preuve En effet, soit t ∈ R. L’événement X ≤ t peut s’écrier : X≤t = = = {ω ∈ Ω / X (ω) ≤ t} {ω ∈ Ω / ∃ x ∈ X (Ω) , x ≤ t et X (ω) = x} S {ω ∈ Ω / X (ω) = x} x∈X(Ω) x≤t = S x∈X(Ω) x≤t X=x D’où, par σ- additivité et sachant que l’union est au plus dénombrable : X P (X = x) FX (t) = P (X ≤ t) = x∈X(Ω) x≤t 52 (6.2) Cas d’une v.a.r.d finie. Ici, on considère une v.a.r.d X sur (Ω, A, P ) qu’on suppose finie, c’est à dire telle que X (Ω) est une partie finie de l’ensemble R. Notons X (Ω) = {x1 , ..., xr } ; où r = card (X (Ω)) et x1 < ... < xr . q y • La loi de X est donnée par (xi )1≤i≤r , (qi )1≤i≤r ; où pour tout i ∈ 1, r , qi = P (X = xi ) est le iième atome. Cette loi peut être résumée par le tableau : xi x1 x2 ··· xr Total P (X = xi ) q1 q2 ··· qr 1 • La fonction de répartition de X est, grâce à la relation (6.2), définie explicitement par : FX (t) = 0 k P P (X = xi ) ∀ t ∈ R, FX (t) = i=1 r P P (X = xi ) = 1 FX (t) = i=1 ; si t < x1 q y ; si xk ≤ t < xk+1 pour un certain k ∈ 1, r , k < r ; si xr ≤ t On peut la résumer par tableau annexé au tableau donnant la loi de X où pour tout k ∈ J0, rK, sk = k P x ]−∞, x1 [ [x1 , x2 [ [x2 , x3 [ ··· [xr−1 , xr [ [xr , +∞[ FX (x) s0 = 0 s1 s2 ··· sr−1 sr = 1 qi (s0 = 0 car la somme est indexée par Ø) i=1 Remarque 6.2 On peut exprimer la loi de X à l’aide de la fonction de répartition FX : Exemple 6.3 P (X = x ) = F (x ) 1 X 1 P (X = x ) = F (x ) − F (x k X k X k−1 ) Une pièce de monnaie, où la probabilité de « pile » est de On définit la v.a.r X égale au nombre de piles obtenus. ; si 2 ≤ k ≤ r 1 , est lancée 2 fois. 3 X est est bien une v.a.r.d sur l’espace probabilisé (Ω, P (Ω) , P ) associé à cette expérience car celui-ci est fini. Son univers image est X (Ω) = {0, 1, 2}. Déterminons sa loi donnée par les atomes P (X = k), 0 ≤ k ≤ 2. Notons pour tout k ∈ {0, 1, 2, }, Fk l’événement « obtenir face au kième lancer ». Il vient en appliquant la formule 53 des probabilités composées et l’indépendance des lancers :P (X = 0) = P (F1 ∩ F2 ) = P (F1 ) .PF1 (F2 ) = P (X = 0) = = = = P (X = 1) = = = = = P (X = 2) = = = = P (F1 ∩ F2 ) P (F1 ) .PF1 (F2 ) 2 2 . 3 3 4 9 P F1 ∩ F2 ∪ F1 ∩ F2 P F1 ∩ F2 + P F1 ∩ F2 P (F1 ) .PF1 F2 + P F1 PF1 (F2 ) 2 1 1 2 . + . 3 3 3 3 4 9 P F 1 ∩ F2 P F1 .PF1 F2 1 1 . 3 3 1 9 La loi de X est résumée dans le tableau suivant : [par additivité de P ] xi 0 1 2 4 4 1 P (X = xi ) 9 9 9 On peut représenter cette loi graphiquement par un diagramme en bâtons : La fonction de répartition de X est donnée par : ∀ x ∈ R, FX (t) = D’où : 1 P (X = x). x∈X(Ω) x≤t FX (t) = 0 FX (t) = P (X = 0) = 4 9 8 F (t) = P (X = 0) + P (X = 1) = X 9 FX (t) = 1 54 P Total ; si t < 0 ; si 0 ≤ t < 1 ; si 1 ≤ t < 2 ; si 2 ≤ t 1 1 1 . = 3 3 9 Lois conditionnelles d’une v.a.r.d Définition 6.2 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ) et B un événement non négligeable. La loi de la v.a.r.d X relativement à l’espace probabilisé (Ω, A, PB ) est appelée la loi de X conditionnelle à l’événement B. Remarque 6.3 Cette loi conditionnelle est donc déterminée par la famille (PB (X = x))x∈X(Ω) Exemple 6.4 On reprend l’exemple 6.3 et la v.a.r.d X égale au nombre de piles obtenus au cours des deux lancers de la pièce. (i) Notons B l’événement : « le nombre de piles obtenus est supérieur ou égal au nombre de faces ». . 5 On a B = X = 1 ∪ X = 2 ; donc, par additivité, P (B) = P (X = 1) + P (X = 2) = > 0. Déterminons la loi 9 de X conditionnelle à B PB (X = 0) = PB (X = 1) = = = PB (X = 2) = = = 0 P X =1 ∩B P (B) P (X = 1) P (B) 4 5 P X =2 ∩B P (B) P (X = 2) P (B) 1 5 [car, sachant que B est réalisé X ne peut prendre que les valeurs 1 ou 2] [car X = 1 ⊂ B] [car X = 2 ⊂ B] La loi de X conditionnelle à B peut être résumée par le tableau : 55 xi 0 PB (X = xi ) 0 1 4 5 2 1 5 Total 1 (ii) On note par ailleurs Y la v.a.r égale au nombre de faces obtenues.On a Y = 2 − X, d’où : (i) (ii) (iii) (iv) Y (Ω) = {0, 1, 2} 1 9 4 P (Y = 1) = P (X = 1) = 9 4 P (Y = 2) = P (X = 0) = 9 P (Y = 0) = P (X = 2) = La loi de X conditionnelle à Y = 1 est donnée par (i) (ii) (iii) (X = 0) = P (X = 0, Y = 1) = P (Ø) = 0 P (Y = 1) P (Y = 1) P (Y = 1) P (X = 1, Y = 1) = =1 (X = 1) = P Y =1 P (Y = 1) P (Y = 1) (X = 2) = P (X = 2, Y = 1) = P (Ø) = 0 P Y =1 P (Y = 1) P (Y = 1) P Y =1 [car X = 1 = Y = 1 ] On peut résumer cette loi conditionnelle de X dans le tableau suivant : P 6.1.3 xi 0 1 2 Total (X = xi ) 0 1 0 1 Y =1 Indépendance des v.a.r.d Théorème 6.5 Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors les p.s.s.e : 1. X et Y sont indépendantes. 2. Pour tout (x, y) ∈ X (Ω) × Y (Ω) ,on a P (X = x, Y = y) = P (X = x) .P (Y = y) Preuve La condition est déjà nécessaire en appliquant la définition de l’indépendance de deux v.a.r aux intervalles ayant la forme d’un singleton. Réciproquement, supposons que : ∀ (x, y) ∈ X (Ω) × Y (Ω) , P (X = x, Y = y) = P (X = x) .P (Y = y) Montrons que les v.a.r.d X et Y sont indépendantes, c’est à dire que ∀ (I, J) ∈ I 2 , P (X ∈ I, Y ∈ J) = P (X ∈ I) .P (Y ∈ J) Soit (I, J) un couple d’intervalles de R. On a, en reprenant un développement dans la démonstration du théorème 6.4 : S X=x X∈I = Y ∈J = D’où par distributivité de l’intersection par rapport à l’union : \ X∈I Y ∈J = x∈X(Ω)∩I S y∈Y (Ω)∩J Y =y [ (x,y)∈[X(Ω)×Y (Ω)]∩[I×J] X=x ∩ Y =y Alors, en utilisant que les événements X = x ∩ Y = y sont deux à deux incompatibles et que l’union est au plus dénombrable (car l’ensemble des indices est inclus dans l’ensemble au plus dénombrable X (Ω) × Y (Ω)), on trouve par σ- additivité : X P (X = x, Y = y) P (X ∈ I, Y ∈ J) = (x,y)∈[X(Ω)×Y (Ω)]∩[I×J] D’où par hypothèse : P (X ∈ I, Y ∈ J) = X (x,y)∈[X(Ω)×Y (Ω)]∩[I×J] 56 P (X = x) .P (Y = y) La somme étant celle d’une famille sommable, le théorème de Fubini s’applique : P (X ∈ I, Y ∈ J) P P = x∈X(Ω)∩I P (X = x) .P (Y = y) y∈Y (Ω)∩J P = P (X = x) . x∈X(Ω)∩I P = x∈X(Ω)∩I P = P P (Y = y) y∈Y (Ω)∩J ! (P (X = x) .P (Y ∈ J)) P (X = x) x∈X(Ω)∩I = ! ! .P (Y ∈ J) P (X ∈ I) .P (Y ∈ J) CQFD. Proposition 6.3 Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors X et Y sont indépendantes si et seulement si pour tout y ∈ Y (Ω) tel que P (Y = y) > 0, la loi de X conditionnelle à Y = y coïncide avec la loi de X Preuve Supposons que les v.a.r.d X et Y sont indépendantes. Soit y ∈ Y (Ω) tel que P (Y = y) > 0. (X = x) = P (X = x). Il suffit de montrer que ∀ x ∈ X (Ω) , P Y =y Or, par indépendance de X et Y les événements X = x et Y = y sont indépendants ; d’où ∀ x ∈ X (Ω) , P Y =y (X = x) = P (X = x) Réciproquement, supposons que pour tout y ∈ Y (Ω), la loi de X conditionnelle à Y = y est égale à la loi de X. Montrons que X et Y sont indépendantes, c’est à dire ; ∀ (x, y) ∈ X (Ω) × Y (Ω) , P (X = x, Y = y) = P (X = x) .P (Y = y) Soit (x, y) ∈ X (Ω) × Y (Ω). Si P (Y = y) > 0, l’hypothèse faite consiste en P Y =y (6.3) (X = x) = P (X = x) ; ce qui entraîne que les événements X = x et Y = y sont indépendants. Si P (Y = y) = 0, Ces deux événements sont encore indépendants car Y = y est négligeable. Dans les deux cas, on a la relation (6.3). Théorème 6.6 Soit (Xi )i∈E une famille quelconque de v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors les p.s.s.e : 1. La famille (Xi )i∈E est mutuellement indépendante. 2. Pour tout n ∈ N∗ , pour tout n-uplet (i1 , ..., in ) d’éléments distincts de E et pour tout (x1 , ..., xn ) ∈ Xi1 (Ω) × ... × Xin (Ω), on a : P (Xi1 = x1 , ..., Xin = xn ) = P (Xi1 = x1 ) ...P (Xin = xn ) Preuve Elle est non exigible ( on pourra raisonner par récurrence sur n). 57 6.2 Espérance d’une v.a.r.d 6.2.1 Définition et premières propriétés Définition 6.3 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). On dit que X admet une espérance mathématique (ou simplement une espérance) si et seulement si la famille (x.P (X = x))x∈X(Ω) est sommable ; et dans cas cas, la somme de cette famille est appelée l’espérance de X ; on la note E (X). Ainsi X E (X) = x.P (X = x) (6.4) x∈X(Ω) en cas de sommabilité. Remarque 6.4 • Si la v.a.r.d X est finie alors elle admet une espérance et la somme dans (6.4) a le sens d’une somme finie. Notons qu’en particulier dans le cas où X = c est une v.a.r sûre (c ∈ R), elle une v.a.r.d finie et la relation (6.4) permet d’écrire : E (c) = c . • Si la v.a.r.d X est infinie, ce qui veut dire que X (Ω) est infinie dénombrable, alors en paramétrant X (Ω) par X (Ω) = {xn / n ∈ N} ; où les xn sont deux à deux distincts, alors selon un théorème sur la sommabilité, on a : X admet une espérance si et seulement si la série X xn P (X = xn ) converge absolument n≥0 et dans ce cas E (X) = +∞ X xn P (X = xn ) n=0 • Le nombre E (X) apparaît comme un barycentre des valeurs de X affecté des coefficients P (X = x), x ∈ X (Ω). On l’appelle aussi la moyenne de X. La valeur de E (X) penche du côté des valeurs les plus probables de X. Proposition 6.4 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Si X est bornée alors X admet une espérance. Preuve Supposons que X est bornée sur Ω et fixons un réel M ≥ 0 tel que : ∀ ω ∈ Ω, |X (ω)| ≤ M . Cela s’écrit aussi ∀ x ∈ X (Ω) , |x| ≤ M 58 D’où ∀ x ∈ X (Ω) , |xP (X = x)| = |x| P (X = x) ≤ M P (X = x) Mais selon le théorème 6.4 la famille (M.P (X = x))x∈X(Ω) est sommable ; alors, d’après un critère de domination, la famille (xP (X = x))x∈X(Ω) est sommable ; et cela montre que X admet une espérance. Théorème 6.7 (positivité de l’espérance) Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ) admettant une espérance telle que : (6.5) ∀ ω ∈ Ω, X (ω) ≥ 0 Alors : (i) E (X) ≥ 0 (ii) E (X) = 0 et ⇐⇒ P (X = 0) = 1 (c′ est à dire que X est nulle presque sûrement) Preuve La relation (6.5) se traduit par : ∀ x ∈ X (Ω) , x ≥ 0 La famille sommable (x.P (X = x))x∈X(Ω) est donc positive. On en déduit que E (X) = P x∈X(Ω) x.P (X = x) ≥ 0. D’où (i). Supposons que E (X) = 0. Dans ce cas, d’après une propriété des familles positives sommables, on a : ∀ x ∈ X (Ω) , xP (X = x) = 0 En particulier : ∀ x ∈ X (Ω) ∖ {0} , P (X = x) = 0 On en déduit, par σ- additivité de P et sachant que X ̸= 0 = P (X ̸= 0) = S x∈X(Ω)∖{0} X X=x : P (X = x) = 0 x∈X(Ω)∖{0} Alors, d’après la règle de l’événement contraire : P (X = 0) = 1 − P (X ̸= 0) = 1. Réciproquement, supposons que P (X = 0) = 1 ; ce qui veut dire aussi que P (X ̸= 0) = 0. On peut alors observer que : ∀ x ∈ X (Ω) ∖ {0} , 0 ≤ P (X = x) ≤ P (X ̸= 0) = 0, donc ∀ x ∈ X (Ω) ∖ {0} , P (X = x) = 0 Il vient en écrivant E (X) = X x.P (X = x) = x∈X(Ω) X x∈X(Ω)∖{0} que E (X) = 0. x.P (X = x) + 0.P (X = 0) | {z } =0 D’où (ii). Exercice 6.1 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). On dit que X est presque sûrement positive s’il existe un événement Ω′ ∈ A presque certain tel que : ∀ ω ∈ Ω′ , X (ω) ≥ 0 Montrer que si X admet une espérance et qu’elle est presque sûrement positive alors E (X) ≥ 0 avec égalité si et seulement si X est presque sûrement nulle. 59 6.2.2 Théorèmes de transfert Théorème 6.8 (Théorème de transfert à une variables) Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ), I un intervalle de Rtel que X (Ω) ⊂ R et f : I −→ R une fonction. Alors la v.a.r.d f (X) admet une espérance si et seulement si la famille (f (x) .P (X = x))x∈X(Ω) est sommable. De plus, dans ce cas, on a : X E (f (X)) = f (x) .P (X = x) x∈X(Ω) Preuve Elle n’est pas exigible. Posons Y = f (X), en sorte que, d’après le théorème 6.2, Y est une v.a.r.d sur (Ω, A, P ). L’application g : X (Ω) −→ Y (Ω), x 7−→ f (x), est clairement surjective ; alors, en notant pour tout y ∈ Y (Ω) Ly = g −1 ({y}) = {x ∈ X (Ω) / f (x) = y} , la famille (Ly )y∈Y (Ω) est une partition de (Ω). De plus, pour tout y ∈ Y (Ω), on a : (|f (x) .P (X = x)|)x∈Ly = (|f (x)| .P (X = x))x∈Ly = (|y| .P (X = x))x∈Ly Donc, cette famille est sommable comme produit de la famille sommable (P (X = x))x∈Ly par le réel |y| . Calculons sa somme : X X X |f (x) .P (X = x)| = |y| .P (X = x) = |y| . P (X = x) x∈Ly D’où par σ- additivité de P : P x∈Ly |f (x) .P (X = x)| = |y| . x∈Ly x∈Ly P S x∈Ly P (X = x) = |y| .P X =x x∈Ly Mais Y = y = {ω ∈ Ω / Y (ω) = y} = {ω ∈ Ω / f (X (ω)) = y} = {ω ∈ Ω / ∃ x ∈ Ly , X (ω) = x}. S P |f (x) .P (X = x)| = |y| .P (Y = y) C’est à dire Y = y = X = x . D’où x∈Ly ! x∈Ly D’après le théorème de sommation par paquets (version familles positives), on a : (|f (x)| .P (X = x))x∈X(Ω) est sommable si et seulement si (|y| .P (Y = y))y∈Y (Ω) est sommable c’est à dire : (f (x) .P (X = x))x∈X(Ω) est sommable si et seulement si (y.P (Y = y))y∈Y (Ω) est sommable En d’autre termes : (f (x) .P (X = x))x∈X(Ω) est sommable si et seulement si Y = f (X) admet une espérance Finalement, en cas de sommabilité, le théorème de sommation par paquets (version familles quelconques) permet, avec la même partition (Ly )y∈Y (Ω) de X (Ω), de faire les calcul suivants : X x∈X(Ω) Soit P f (x) .P (X = x) = X y∈Y (Ω) X x∈Ly f (x) .P (X = x) = X y.P (Y = y) = E (Y ) y∈Y (Ω) f (x) .P (X = x) = E (f (X)). CQFD. x∈X(Ω) Remarque 6.5 En théorie comme en pratique, on rencontre, souvent, des v.a.r.d fonction d’une v.a.r.d X donnée par sa loi : Y = f (X). L’intérêt du théorème de transfert précédent est qu’il permet de montrer que Y admet une espérance et calcule son espérance sans avoir besoin de déterminer la loi de Y mais seulement à l’aide de la loi de X. 60 Proposition 6.5 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors, X admet une espérance si et seulement si X admet une espérance. De plus, dans ce cas, on a : E (X) ≤ E X (6.6) Preuve On sait, par définition de la sommabilité, que la famille (xP (X = x))x∈X(Ω) est sommable si et seulement si xP (X = x) sommable. Or : ∀ x ∈ X (Ω) , x.P (X = x) = x .P (X = x) et, selon le théorème de transfert, x .P (X = x) x∈X(Ω) est sommable si et seulement si X admet une espérance. On en déduit que X admet une espérance si et seulement si X admet une espérance. Quant à la relation (6.6), elle découle de l’inégalité triangulaire X X x.P (X = x) ≤ x.P (X = x) x∈X(Ω) x∈X(Ω) est x∈X(Ω) valable en cas de sommabilité. Théorème 6.9 (théorème de transfert à deux variables) Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ), I et J deux intervalles de R tels que X (Ω) ⊂ I et Y (Ω) ⊂ J et f : I × J −→ R une fonction. Alors la v.a.r.d f (X, Y ) admet une espérance si et seulement si la famille (f (x, y) .P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable. De plus, dans ce cas, on a : X E (f (X, Y )) = f (x, y) .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) Preuve Elle est hors programme. Le raisonnement est le même que dans la démonstration précédente. Posons Z = f (X, Y ), en sorte que, selon le théorème 6.3, Z est une v.a.r.d sur (Ω, A, P ). L’application h : X (Ω) × Y (Ω) −→ Z (Ω), (x, y) 7−→ f (x, y), est surjective et, en conséquence, la famille h−1 ({z}) z∈Z(Ω) est une partition de X (Ω) × Y (Ω). Notons Lz = h−1 ({z}) pour tout z ∈ Z (Ω). Comme avant, les familles f (x, y) .P (X = x, Y = y) (x,y)∈L , z ∈ Z (Ω), sont sommables et on a : z X f (x, y) .P (X = x, Y = y) = (x,y)∈Lz X z .P (X = x, Y = y) = z . (x,y)∈Lz la dernière égalité découlant de Z = z = S (x,y)∈Lz X P (X = x, Y = y) = z .P (Z = z) , (x,y)∈Lz X = x ∩ Y = y et de la σ- additivité de P ( !). Donc, d’après le théorème de sommation par paquets (version familles positives), on a : f (x, y) .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) sommable ⇐⇒ z .P (Z = z) z∈Z(Ω) sommable C’est à dire : (f (x, y) .P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) sommable ⇐⇒ (z.P (Z = z))z∈Z(Ω) sommable Ce qui veut dire (f (x, y) .P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) sommable ⇐⇒ Z = f (X, Y ) admet une espérance 61 En outre, en cas de sommabilité, et d’après le théorème de sommation par paquets (version familles quelconques), on a : ! P P P f (x, y) .P (X = x, Y = y) = f (x, y) .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) z∈Z(Ω) (x,y)∈Lz P P = z∈Z(Ω) P = z∈Z(Ω) P = ! z.P (X = x, Y = y) (x,y)∈Lz z. P P (X = x, Y = y) (x,y)∈Lz ! z.P (Z = z) z∈Z(Ω) = E (Z) = E (f (X, Z)) CQFD. 6.2.3 Autre propriétés de l’espérance Théorème 6.10 (linéarité de l’espérance) Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) qui admettent une espérance. Alors pour tout (λ, µ) ∈ R2 , la v.a.r.d λX + µY admet une espérance et on a : E (λX + µY ) = λE (X) + µE (Y ) Preuve L’idée est d’appliquer le théorème de transfert à deux variables aux v.a.r.d X et Y et la fonction f : R2 −→ R, (x, y) 7−→ λx + µy. (i) Commençons donc par montrer la famille double F = ((λx + µy) P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable, auquel cas on obtient que λX + µY admet une espérance. Cette famille est une combinaison linéaire des deux familles F1 = F = (x.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) et F2 = (y.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) Il suffit donc de montrer que ces deux familles sont sommables. Faisons le raisonnement seulement pour F1 sachant que pour F2 le raisonnement est symétrique. Pour F1 , il s’agit de montrer que la famille positive x .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) est sommable. Pour cela utilisons le théorème de Fubini (version étroite). Soit x ∈ X (Ω) ; la famille (P (X = x, Y = y))y∈Y (Ω) est sommable d’après la formule des probabilités totales P P (X = x, Y = y) = P (X = x). appliqué avec le système complet Y = y y∈Y (Ω) , avec : y∈Y (Ω) Alors, comme produit de cette famille par le réel x , la famille x .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) est bien sommable et on a : X x .P (X = x, Y = y) = x . y∈Y (Ω) D’autre part, la famille P y∈Y (Ω) x .P (X = x, Y = y) X P (X = x, Y = y) = x .P (X = x) y∈Y (Ω) ! espérance. Cela montre que la famille F1 est sommable. Ainsi, F1 et F2 et, par conséquent, F sont sommables. = x∈X(Ω) x .P (X = x) x∈X(Ω) est à son tours sommable car X admet une (ii) Maintenant que F est sommable et que λX + µY admet une espérance, le même théorème de transfert à deux variables permet 62 d’exprimer l’espérance de λX + µY : E (λX + µY ) P = (λx + µy) .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) = P λ (x,y)∈X(Ω)×Y (Ω) = λ P x∈X(Ω) = λ P x∈X(Ω) = λ P P x.P (X = x, Y = y) y∈Y (Ω) x. P [par sommabilité de F1 et F2 ] y.P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) P (X = x, Y = y) y∈Y (Ω) x.P (X = x) + µ x∈X(Ω) = P x.P (X = x, Y = y) + µ P ! +µ ! +µ P y∈Y (Ω) P y∈Y (Ω) P y.P (X = x, Y = y) ! P (X = x, Y = y) ! x∈X(Ω) y. P x∈X(Ω) y.P (Y = y) [F ubini (version large)] [Formule des probabilités totales] y∈Y (Ω) λE (X) + µE (Y ) CQFD. Remarque 6.6 L’ensemble L1d (Ω, A, P ) de toutes les v.a.r.d sur (Ω, A, P ) ayant une espérance est un s.e.v du R-ev Vd (Ω, A, P ) et l’application : E: L1d (Ω, A, P ) X −→ 7−→ R E (X) est une forme linéaire sur L1d (Ω, A, P ). Théorème 6.11 Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) telles que : (i) X et Y ont une espérance (ii) pour tout ω ∈ Ω, X (ω) ≤ Y (ω) et Alors E (X) ≤ E (Y ). Preuve On déduit de la condition (i) et du théorème 6.10 que la v.a.r.d Y − X admet une espérance ; et on déduit de la condition (ii) que Y − X est positive sur Ω. Alors, par positivité de l’espérance, on a : E (Y − X) ≥ 0. Or, le théorème 6.10 affirme aussi que E (Y − X) = E (Y ) − E (X). D’où E (Y ) ≥ E (X). Exercice 6.2 Montrer qu’en remplaçant l’hypothèse (ii) par l’hypothèse plus faible (ii′ ) il exite Ω′ ∈ A tel que ∀ ω ∈ Ω′ , X (ω) ≤ Y (ω) P (Ω′ ) = 1 (qu’on peut exprimer par : X ≤ Y presque sûrement) alors on le résulte du théorème 6.11 est encore valable. 63 Théorème 6.12 (critère de domination pour l’espérance) Soit X et Y deux v.a.r.d l’espace probabilisé (Ω, A, P ) dont Y est positive telles que : (i) ∀ ω ∈ Ω, X (ω) ≤ Y (ω) (ii) Y admet une espérance et Alors X admet une espérance et on a : E (X) ≤ E (Y ). Preuve Elle n’est pas exigible. (a) Montrons d’abord que : ∀ (x, y) ∈ X (Ω) × Y (Ω) , x .P (X = x, Y = y) ≤ y.P (X = x, Y = y) (6.7) En effet, soit (x, y) ∈ X (Ω)×Y (Ω) ; l’inégalité dans la relation (6.7) est clairement vraie dans le cas où x ≤ y, car P (X = x, Y = y) ≥ 0. D’autre part, dans le cas contraire où x > y, elle reste vraie car dans ce cas P (X = x, Y = y) = 0, puisque X = x ∩ Y = y est l’événement impossible compte tenu de l’hypothèse (i). (b) Montrons ensuite que la famille (y.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable. Pour cela, et sachant que cette famille est positive, il suffit d’appliquer le théorème de Fubini (version étroite) : 1. Pour tout y ∈ Y (Ω), la famille (y.P (X = x, Y = y))x∈X(Ω) est sommable comme produit par le réel y de la famille (P (X = x, Y = y))y∈Y (Ω) , qui est sommable car Y =y y∈Y (Ω) X est un système complet (voir le théorème 3.2 sur la formule des probabilités totales) : y.P (X = x, Y = y) = y. x∈X(Ω) 2. la famille P x∈X(Ω) X P (X = x, Y = y) = yP (Y = y) x∈X(Ω) y.P (X = x, Y = y) ! = (yP (Y = y))y∈Y (Ω) est sommable car Y admet une espérance. y∈Y (Ω) Donc la famille (y.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est bien sommable. (c) Maintenant que la famille (y.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable, la relation (6.7) démontrée ci-dessus entraîne que la famille (x.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable (critère de domination pour les familles sommables). Alors, compte tenu du ! P x.P (X = x, Y = y) est sommable. Or, en utilisant encore une fois la théorème de Fubini (version large), la famille y∈Y (Ω) x∈X(Ω) formule des probabilités totales, cette famille n’est rien d’autre que (xP (X = x))x∈X(Ω) . La sommabilité de cette famille traduit que X admet une espérance. CQFD. Théorème 6.13 Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) telles que : (i) X et Y sont indépendantes (ii) X et Y ont une espérance et Alors XY admet une espérance et on a : E (XY ) = E (X) .E (Y ) Preuve Puisque les v.a.r.d X et Y sont indépendantes, on a : ∀ (x, y) ∈ X (Ω) × Y (Ω) , P (X = x, Y = y) = P (X = x) .P (Y = y) , 64 la famille double (xy.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) = (xy.P (X = x) .P (Y = y))(x,y)∈X(Ω)×Y (Ω) est découplée. D’autre part, les familles (x.P (X = x))x∈X(Ω) et (y.P (Y = y))y∈Y (Ω) sont sommables car X et Y ont une espérance. D’après un théorème sur les familles doubles découplées (voir cours de sommabilité, corollaire 2.2), la famille (xy.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable et on a : X X X xy.P (X = x, Y = y) = x.P (X = x) . y.P (Y = y) = E (X) .E (Y ) (x,y)∈X(Ω)×Y (Ω) x∈X(Ω) y∈Y (Ω) D’après le théorème de transfert à deux variables appliqué aux v.a.r.d X et Y et à la fonction f : R2 −→ R, (x, y) 7−→ xy, XY = f (X, Y ) admet une espérance et on a : X xy.P (X = x, Y = y) = E (X) .E (Y ) E (XY ) = (x,y)∈X(Ω)×Y (Ω) CQFD. Exercice 6.3 Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ). Montrer que X et Y sont indépendantes si et seulement si pour tout couple (f, g) de fonctions bornées de R dans R, on a E (f (X) .g (Y )) = E (f (X)) .E (g (Y )). 6.3 Moments d’une v.a.r.d 6.3.1 Généralités Définition 6.4 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ) et r ∈ N∗ . On dit que X admet un moment d’ordre r si et seulement si la famille (xr .P (X = x))x∈X(Ω) est sommable ; et dans ce cas, la somme de cette famille est appelée le moment d’ordre r de X. Notation Si la v.a.r.d X possède un moment d’ordre r, on notera µr (X) son moment d’ordre r : µr (X) = X xr .P (X = x) (6.8) x∈X(Ω) Remarque 6.7 • Selon le théorème de transfert à une variable, la v.a.r.d X admet un moment d’ordre r si et seulement si la v.a.r.d X r admet une espérance ; de plus dans ce cas, on a : µr (X) = E (X r ). • Toute v.a.r.d finie (c’est à dire telle que X (Ω) est un ensemble fini) admet des moments à tout ordre et, dans la relation (6.8) la somme a le sens d’une somme finie. • La v.a.r.d X admet un moment d’ordre 1 si et seulement si la v.a.r.d X admet une espérance ; et dans ce cas, on a µ1 (X) = E (X). Proposition 6.6 Toute v.a.r.d bornée admet des moments à tout ordre. 65 Preuve Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Supposons que X est bornée en tant qu’application de Ω dans R et fixons un réel M ≥ 0 tel que : ∀ ω ∈ Ω, X (ω) ≤ M On a donc : ∀ x ∈ X (Ω) , x ≤ M Soit r ∈ N∗ . r On a : ∀ x ∈ X (Ω) , x ≤ M r r et de là : ∀ x ∈ X (Ω) , x .P (X = x) ≤ M r .P (X = x) c’est à dire : ∀ x ∈ X (Ω) , xr .P (X = x) ≤ M r .P (X = x) Comme la famille (M r .P (X = x))x∈X(Ω) est sommable, le critère de domination des familles sommables permet de conclure que la famille (xr .P (X = x))x∈X(Ω) est sommable. Cela montre que X admet un moment d’ordre r. Proposition 6.7 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ) et r ∈ N∗ . q y Si X admet un moment d’ordre r alors X admet un moment à tout ordre k ∈ 1, r . Preuve Supposons que X admet un moment à l’ordre r, c’est à dire que la famille (xr .P (X = x))x∈X(Ω) est sommable. q y Il s’agit de montrer que pour tout k ∈ 1, r , la famille xk .P (X = x) x∈X(Ω) est sommable. q y Soit k ∈ 1, r . Soit x ∈ X (Ω). Si x > 1, on a k r xk P (X = x) = x P (X = x) ≤ x P (X = x) ; et si x ≤ 1, on a visiblement k xk P (X = x) = x P (X = x) ≤ P (X = x) r Donc, on peut conclure que : ∀ x ∈ X (Ω) , xk P (X = x) ≤ x P (X = x) + P (X = x). r Comme la famille x P (X = x) + P (X = x) x∈X(Ω) est sommable (elle somme de deux telles familles), le critère de domination des familles sommables permet de conclure que la famille xk .P (X = x) x∈X(Ω) est sommable. CQFD. Proposition 6.8 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ), c ∈ R et r ∈ N∗ . Si X admet un moment d’ordre r alors X + c admet également un moment d’ordre r. Preuve Supposons que X admet un moment d’ordre r. La formule du binôme de Newton permet d’écrire : (X + c)r = r P r r−k k X = cr + c k r P r r−k k X c k k=0 k=1 q y cr est une v.a.r.d sûre ; elle est finie donc elle admet une espérance. En outre, pour tout k ∈ 1, r , X k admet également une espérance car selon la proposition 6.7 X admet un moment d’ordre k. Alors, par combinaison linéaire, (X + c)r admet une espérance. Cela veut dire (voir la remarque 6.7) que X + c admet un moment d’ordre r. CQFD. 6.3.2 Moments d’ordre 2 et variance Théorème 6.14 Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) admettant un moment d’ordre 2. Alors la v.a.r.d XY admet une espérance et on a : E (XY ) ≤ p E (X 2 ) 66 p E (Y 2 ) (6.9) Preuve 1 X 2 (ω) + Y 2 (ω) 2 1 X 2 + Y 2 en admet aussi par combinaison linéaire. On conclut par le critère Mais comme par hypothèse X 2 et Y 2 ont une espérance, 2 de domination que XY admet une espérance. Pour montrer l’inégalité (6.9), on considère la fonction f : R −→ R définie par ∀ λ ∈ R, f (λ) = E (X + λY )2 On a : ∀ ω ∈ Ω, X (ω) Y (ω) ≤ On a : (i) f est une application bien définie car pour tout réel λ la v.a.r.d (X + λY )2 s’écrit (X + λY )2 = X 2 + 2λXY + λ2 Y 2 , (6.10) ce qui montre qu’elle admet une espérance comme C.L des v.a.r.d X 2 , XY et Y 2 , qui en ont. (ii) Par positivité de l’espérance, on a : ∀ λ ∈ R, f (λ) ≥ 0. (iii) D’après la relation (6.10) et par linéarité de l’espérance, on a : ∀ λ ∈ R, f (λ) = E X 2 + 2λE (X) + λ2 E Y 2 Dès lors on distingue deux cas : 1ier cas : E Y 2 ̸= 0 Dans ce cas, la fonction f est une fonction polynôme de degré 2 qui ne change pas de signe sur R ; son discriminant est donc inférieur ou égal à 0 ; soit : 4. (E (XY ))2 − 4.E X 2 .E Y 2 ≤ 0 c’est à dire . (E (XY ))2 ≤ E X 2 .E Y 2 √ ce qui montre la relation (6.9) en utilisant la croissance de l’application t7−→ t sur R+ . 2ième cas : E Y 2 = 0 Dans ce cas, on a : ∀ λ ∈ R, f (λ) = E X 2 + 2λ.E (XY ) f est une fonction polynôme de degré inférieur ou égal à 1 qui ne change pas de signe sur R ; elle ne peut donc être de degré 1. D’où E (XY ) = 0. Il vient avec E (XY ) = E Y 2 = 0, que la relation (6.9) est encore vraie. CQFD. Remarque 6.8 On a montré au passage l’ensemble L2d (Ω, A, P ) des v.a.r.d sur (Ω, A, P ) ayant un moment d’ordre 2 est stable par combinaison linéaire. il n’est, ensuite pas vide puisqu’il contient toutes les v.a.r.d finies sur (Ω, A, P ). Enfin, d’après la proposition 6.7, L2d (Ω, A, P ) est une partie du R-ev L1d (Ω, A, P ). On conclut de tout cela que L2d (Ω, A, P ) est un s.e.v de L1d (Ω, A, P ). Remarque 6.9 L’application L2d (Ω, A, P ) (X, Y ) 2 R −→ 7−→ E (XY ) (bien définie en vertu du théorème 6.14) est une forme bilinéaire symétrique et positive. Elle n’est cependant pas un produit scalaire puisqu’elle n’a pas le caractère « défini ». Définition 6.5 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). On dit que X admet une variance si et seulement elle admet une espérance et la v.a.r.d X − E (X) admet un moment d’ordre 2 ; dans ce cas, le nombre réel E (X − E (X)) 67 2 est appelé la variance de X ; il est noté V (X). Ainsi, pour une v.a.r.d sur (Ω, A, P ) admettant une espérance, et compte tenu du théorème de transfert à une 2 variable, X admet une variance si et seulement si la famille (x − E (X)) P (X = x) ce cas, on a : 2 V (X) = E (X − E (X)) = X x∈X(Ω) x∈X(Ω) est sommable ; et dans 2 (x − E (X)) P (X = x) (6.11) Remarque 6.9 L’expression V (X) = P x∈X(Ω) 2 (x − E (X)) P (X = x) fait de V (X) une valeur qui mesure la dispersion des valeurs de X par rapport à la valeurs moyenne E (X) : il semble qu’elle est d’autant plus grande que les écarts quadratiques 2 (x − E (X)) le sont. Ceci sera confirmé plus précisément par l’inégalité de Bienaymé - Tchebychev qu’on traitera ci-dessous. Remarque 6.10 Toute v.a.r.d finie X admet une variance ; et dans la relation (6.9) la somme a le sens d’une somme finie. Théorème 6.15 Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors, X admet une variance si et seulement si X admet un moment d’ordre 2 ; et dans ce cas, on a : 2 V (X) = E X 2 − (E (X)) (6.12) Preuve (i) Montrons d’abord que X admet une variance si et seulement si X admet un moment d’ordre 2. Supposons que X admet une variance. Par définition : X admet une espérance (i) X − E (X) admet un moment d′ ordre 2 (ii) Mais d’après la proposition 6.8 appliquée à c = E (X) permet de déduire de (ii) que X = X − E (X) + E (X) admet un moment d’ordre 2. Réciproquement, supposons que X admet un moment d’ordre 2. D’après la la proposition 6.7, X admet un moment d’ordre 1, c’est à dire une espérance. Ensuite, d’après la proposition 6.8 appliquée à c = −E (X), la v.a.r.d X − E (X) = X + c admet, comme X, un moment d’ordre 2. CQFD. (ii) supposons que Xadmet une variance et montrons la relation (6.12). On a : V (X) = E (X − E (X))2 = E X 2 − 2.E (X) .X + (E (X))2 = E X 2 − 2.E (X) .E (X) + E (E (X))2 [par linéarité de l′ espérance en remarquant que = = X 2 , X et la constante (E (X))2 ont une espérance] E X 2 − 2. (E (X))2 + (E (X))2 E X 2 − (E (X))2 Vocabulaire La relation (6.12) est connue sous le nom de formule de König-Huygens. Elle est très utile pour le calcul de variance. 68 Remarque 6.11 • Toute v.a.r.d bornée admet une variance. Théorème 6.16 Soit X une v.a.r.d sur (Ω, A, P ) admettant une variance. Alors 1. V (X) ≥ 0 2. V (X) = 0 si et seulement si X est presque sûrement constante. 3. Pour tout (a, b) ∈ R2 , aX + b admet une variance et on a : V (aX + b) = a2 V (X) (6.13) Preuve 1. La v.a.r.d (X − E (X))2 est positive sur Ω, donc par positivité de l’espérance, V (X) = E (X − E (X))2 ≥ 0 2. Toujours parce que la v.a.r.d (X − E (X))2 est positive et par positivité de l’espérance, si V (X) = 0 alors (X − E (X))2 = 0 presque sûrement ; donc X = E (X) est constante presque sûrement. Réciproquement, supposons donnés un réel c et un événement Ω′ ∈ A tels que : P (Ω′ ) = 1 ∀ ω ∈ Ω′ , X (ω) = c La famille (x.P (X = x))x∈X(Ω) est sommable car X admet implicitement une espérance. D’où par sommation par paquets : E (X) = P x.P (X = x) x∈X(X) P = x.P (X = x) + c.P (X = c) x∈X(X)∖{c} P = x.P (X = x) + c x∈X(X)∖{c} [car Ω′ ⊂ X = c , donc P (X = c) = 1 par croissance de P ] D’autre pour tout x ∈ X (X) ∖ {c}, X = x ⊂ Ω′ donc, par croissance de P , P (X = x) = 0. D’où : E (X) = c. 2 ′ Il vient que la variable (X − E (X))2 = (X − c) , nulle sur Ω , est nulle presque sûrement. Par positivité de l’espérance (ou en reprenant 2 le raisonnement ci dessus avec c = 0), E (X − E (X)) = 0. Donc V (X) = 0. 3. Prenons deux réels a et b et posons Y = aX + b, en sorte que Y est également une v.a.r.d sur (Ω, A, P ). En outre, elle admet un moment d’ordre 2 comme C.L de X et de la v.a.r.d finie 1. Ainsi Y admet une variance. Calculons : V (Y ) = E (Y − E (Y ))2 [par linéarité de l′ espérance] = E ((aX + b) − (aE (X) + b))2 = E (a (X − E (X)))2 = E a2 (X − E (X))2 [par linéarité de l′ espérance] = a2 E (X − E (X))2 Soit : V (aX + b) = a2 V (X). CQFD. Notation et vocabulaire Soit X une v.a.r.d sur (Ω, A, P ) admettant un moment d’ordre 2. p Sachant que V (X) ≥ 0, on pose σ (X) = V (X). Ce nombre positif ou nul est appelé l’écart-type de X. N.B On a σ (X) = r P x∈X(Ω) 2 (x − E (X)) P (X = x). Donc l’écart-type de X mesure mieux la dispersion des valeurs de X par rapport à sa valeur moyenne E (X), car il est du même genre (unité) que les valeurs x de X. 69 7 Lois discrètes usuelles : rappels (Ω, A, P ) est toujours un espace probabilisé donné. 7.1 Lois discrètes usuelles finies Il s’agit de la loi uniforme, la loi de Bernoulli et de la loi binomiale. 7.1.1 Loi uniforme. Soit n ∈ N∗ . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi uniforme sur une partie finie A = {a1 , ..., an } de cardinal n si et seulement si : On écrit X ,→ UA . X (Ω) = A ∀ k ∈ q1, ny, P (X = ak ) = 1 n (7.1) Notons qu’une telle v.a.r est discrète finie et que les relations (7.1) définissent bien une loi de probabilité, car les n n 1 P P 1 P (X = ak ) = sont des réels positifs et = 1. P (X = ak ) = n k=1q k=1 n y Un cas particulier très représentatif est A = 1, n , dans ce cas la loi est notée simplement Un . Ainsi : q y X (Ω) = 1, n X ,→ Un ⇐⇒ ∀ k ∈ q1, ny, P (X = k) = 1 n On rappelle que si c’est le cas alors X admet une espérance et une variance et que : E (X) = n+1 2 et V (X) = n2 − 1 12 Remarque 7.1 Cette loi peut être introduite à chaque fois n événements équiprobables forment un système complet Exercice 7.1 Soit (m, n) ∈ Z2 tel que m < n. Déterminer l’espérance et la variance d’une v.a.r X sur (Ω, A, P ) telle que X ,→ Uq m,n Indication : introduire deux réels a et b tels que Y = aX + b ,→ Ur ; où r = n − m y. Exercice 7.2 Préciser la fonction de répartition d’une v.a.r X sur (Ω, A, P ) suivant la loi uniforme Un Exercice 7.3 On dispose d’une urne contenant n boules dont une et une seule est blanche et les autre sont rouges. On tire successivement et sans remise toutes les boules de cette urne. On note X le numéro du tirage amenant la boule blanche. Montrer que X est une v.a.r.d et déterminer sa loi. 70 7.1.2 Loi de Bernoulli. Soit p ∈ 0, 1 . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi de Bernoulli de paramètre p si et seulement si : X (Ω) = {0, 1} P (X = 0) = q On écrit X ,→ B (p). et P (X = 1) = p ; où q = 1 − p (7.2) Notons qu’une telle v.a.r est discrète finie et que les relations (7.2) définissent bien une loi de probabilité, car P (X = 0) = q et P (X = 1) = p sont des réels positifs et P (X = 0) + P (X = 1) = q + p = 1. Bien entendu, si c’est le cas, X admet une espérance et une variance et on a : E (X) = p et V (X) = pq (où q = 1 − p) Remarque 7.2 Cette loi peut être introduite dès qu’une expérience est de Bernoulli par rapport à un événement (appelé « succès ») de probabilité p ∈ 0, 1 . Remarque 7.3 La loi de Bernoulli B 1 n’est rien d’autre la loi uniforme U{0,1} . 2 Exercice 7.4 Préciser la fonction de répartition d’une v.a.r X sur (Ω, A, P ) suivant la loi de Bernoulli B (p) 7.1.3 Loi binomiale. Soit n ∈ N∗ et p ∈ 0, 1 . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi binomiale de paramètre (n, p) si et seulement si : On écrit X ,→ B (n, p). X (Ω) = q0, ny ∀ k ∈ q0, ny, P (X = k) = n k n−k k p q ; où q = 1 − p (7.3) Notons qu’une telle v.a.r est discrète finie et que les relations (7.3) définissent bien une loi de probabilité, car les n P n n k n−k = (p + q) = 1. P (X = k) = nk pk q n−k sont des réels positifs et k p q k=1 Si c’est le cas, X admet une espérance et une variance et on a : E (X) = np et V (X) = npq (où q = 1 − p) 2 2 Pour V (X) on utilisera : V (X) = E X 2 − (E (X)) = E (X (X − 1)) + E (X) − (E (X)) Remarque 7.4 On peut introduire la loi Binomiale B (n, p) dès qu’une expérience de Bernoulli dont l’échec est de probabilité p est répétée n fois dans les mêmes conditions et qu’on s’intéresse au nombre de succès obtenus. 71 Remarque 7.5 La loi binomiale B (1, p) n’est rien d’autre que la loi de Bernoulli B (p). 7.2 Lois discrètes infinies usuelles 7.2.1 Loi géométrique Soit p ∈ N∗ . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi géométrique de paramètre p si et seulement si : X (Ω) = N∗ ∀ k ∈ N∗ , P (X = k) = p.q k−1 On écrit X ,→ G (p). (7.4) ; où q = 1 − p Une telle v.a.r est discrète infinie et les relations (7.4) définissent bien une loi de probabilité, car les P (X = k) = +∞ P p = 1 (la série étant une série géométrique convergente). p.q k−1 = p.q k−1 sont des réels positifs et 1 − q k=1 P r Si c’est le cas, X admet des moments à tout ordre r ∈ N∗ car les séries k .p.q k−1 convergent (absolument !), k≥1 r ∈ N∗ . En particulier, X admet une espérance et une variance. Un calcul simple, par exemple à l’aide des séries entières dérivées d’ordre 1 et 2, permet de calculer : +∞ +∞ P P kP (X = k) = p k.q k−1 = E (X) = k=1 E (X (X − 1)) = +∞ P k=1 p 2 (1 − q) +∞ P k (k − 1) P (X = k) = p.q. k (k − 1) q k−2 = k=1 k=1 2p.q (1 − q) 3 2 2 D’où en utilisant V (X) = E X 2 − (E (X)) = E (X (X − 1)) + E (X) − (E (X)) E (X) = 1 p et V (X) = q p2 Remarque 7.6 Typiquement, on introduit la loi géométrique quand on répète indéfiniment et dans les mêmes conditions une expérience de Bernoulli dont l’échec est de probabilité p et que l’on s’intéresse au nombre de séquences qu’il faut réaliser avant d’obtenir pour la première fois un succès. C’est pour cette raison que la loi géométrique est dite aussi la loi du premier succès. Théorème 7.1 (propriété d’absence de mémoire) Soit X une v.a.r sur (Ω, A, P ) telle que X (Ω) ⊂ N presque sûrement. Alors X suit une loi géométrique si et seulement si ∀ m ∈ N, P (X > m) > 0 (i) ∀ (m, n) ∈ N2 , P (X > n + m|X > m) = P (X > n) 72 (ii) (7.5) Preuve Supposons que X suit une loi géométrique de paramètre p ∈ 0, 1 . On a X (Ω) = N∗ (donc X (Ω) ⊂ N) ∀ k ∈ N∗ , P (X = k) = p.q k−1 On sait pour tout m ∈ N∗ , X > m = X ≥ m + 1 = P (X > m) = +∞ S k=m+1 +∞ X ; où q = 1 − p X = k et donc, par additivité, on a : P (X = k) = k=m+1 +∞ X p.q k−1 = k=m+1 p.q m = qm 1−q On en déduit d’abord que ∀ m ∈ N∗ , P (X > m) > 0. Ensuite, on en tire que pour tout (m, n) ∈ N∗2 : P (X > n + m|X > m) = P (X > n + m, X > m) P (X > m) = P (X > n + m) P (X > m) = = = [car X > n + m ⊂ X > m ] q n+m qm qn P (X > n) Réciproquement, supposons que les conditions (7.5) sont satisfaites. Posons pour tout n ∈ N, un = P (X > n). Pour tout n ∈ N, on a : P (X > n + 1) = P (X > n + 1|X > 1) P (X > 1) et donc d’après (7.5) P (X > n + 1) = P (X > n) P (X > 1) Ainsi en posant q = P (X > 1), on a : ∀ n ∈ N, un+1 = q.un La suite (un )n∈N est géométrique de raison q et on en déduit : ∀ n ∈ N, un = q n .u0 (∗) D’autre part q = = = = P (X > 1) P (X > 1|X > 0) P (X > 0) P (X > 1) .P (X > 0) q.u0 [d′ après (7.5)] Mais par hypothèse q = P (X > 1) > 0, d’où u0 = P (X > 0) = P (X ≥ 1) = 1. X prend donc ses valeurs presque sûrement dans N∗ . De plus, pour k ∈ N∗ , et sachant que X > k ⊂ X > k − 1 , on a : P (X = k) = = = = P (X > k − 1) − P (X > k) uk−1 − uk q k−1 − q k (1 − q) .q k−1 [d′ après (∗)] Il reste à poser p = 1 − q et vérifier que 0 < p < 1 pour conclure que X ,→ G (p). On constate que p < 1, car q > 0. Ensuite, p > 0 car p = 0 =⇒ q = 1 =⇒ ∀ k ∈ N p=0 =⇒ =⇒ =⇒ q=1 ∀ k ∈ N∗ , P (X = k) = 0 +∞ P u0 = P (X > 1) = P (X = k) = 0 k=1 CQFD 73 [d′ après (7.6)] [et cela est absurde] (7.6) Commentaire Les relations (7.5) constituent ce qu’on appelle la propriété d’absence de mémoire. Pour expliquer ce qualificatif, imaginons que dans une population saine où une certaine maladie C est très rare, une personne de cette population a vécu sain depuis m années ; alors la probabilité de ne contracter cette maladie qu’après n autre années est la même aussi bien pour lui que pour tout nouveau né. 7.2.2 Loi de Poisson. Soit λ ∈ R∗+ . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi Poisson de paramètre λ si et seulement si : X (Ω) = N On écrit X ,→ P (λ). e ∀ k ∈ N, P (X = k) = (7.7) −λ k λ k! Une telle v.a.r est discrète infinie et les relations (7.7) définissent bien une loi de probabilité, car les P (X = k) = +∞ +∞ P e−λ λk P λk e−λ λk sont des réels positifs et = e−λ = e−λ eλ = 1 (la série étant une série exponentielle). k! k! k=0 k=0 k! Si c’est le cas, X admet des moments à tout ordre r ∈ N∗ car, en utilisant par exemple la règle de D’Alembert, les P r e−λ λk séries convergent (absolument !), r ∈ N∗ . En particulier, X admet une espérance et une variance. Un k . k! k≥0 calcul simple permet de calculer : +∞ +∞ +∞ +∞ P P e−λ λk +∞ P e−λ λk P e−λ λk+1 P e−λ λk = = = λ. =λ kP (X = k) = k. E (X) = k! k! k! k=0 k=0 k=1 (k − 1)! k=0 k=0 +∞ +∞ +∞ P P P e−λ λk P e−λ λk+2 e−λ λk +∞ E (X (X − 1)) = = = = λ2 k (k − 1) P (X = k) = k (k − 1) k! k! k=0 k=2 k=2 (k − 2)! k=0 2 2 D’où en utilisant V (X) = E X 2 − (E (X)) = E (X (X − 1)) + E (X) − (E (X)) E (X) = λ et V (X) = λ N.B Tout candidat doit connaître par cœur les définitions des cinq lois discrètes usuelles ainsi que les valeurs de l’espérance et la variance pour chacune de ces lois et doit connaître les démonstrations qui permettent de calculer ces valeurs (à noter que, concernant les v.a.r.d infinie usuelles, les séries entères permettent d’obtenir rapidement les démonstration) . 8 Couples aléatoires discrètes (Ω, A, P ) est toujours un espace probabilisé donné. Définition 8.1 On appelle couple aléatoire discret sur (Ω, A, P ) toute application Z: Ω ω −→ 7−→ R2 (X (ω) , Y (ω)) où X et Y sont deux v.a.r.d sur (Ω, A, P ). On le note Z = (X, Y ). 74 ; Remarque 8.1 Si Z = (X, Y ) est un couple aléatoire discret sur (Ω, A, P ) alors Z (Ω) ⊂ X (Ω) × Y (Ω), donc Z (Ω) est au plus dénombrable. 8.1 Loi conjointe, lois marginales d’un couple aléatoire discret. Définition 8.2 Soit Z = (X, Y ) un couple aléatoire discret sur (Ω, A, P ). On appelle loi conjointe (ou simplement loi jointe) de Z la donné de la famille (P (X = x, Y = x))(x,y)∈X(Ω)×Y (Ω) . On appelle lois marginales de Z les lois des v.a.r.d X et Y . Remarque 8.2 On sait que chacune des familles X=x formule des probabilités totales, on a : ∀ x ∈ X (Ω) x∈X(Ω) ; et Y = y y∈Y (Ω) est un système complet. Alors, d’après la P (X = x) = P (X = x, Y = y) y∈Y (Ω) et ∀ y ∈ Y (Ω) P ; P (Y = y) = P (8.1) P (X = x, Y = y) x∈X(Ω) On en déduit que les lois marginales de Z se déduisent de la loi conjointe de Z. On en déduit aussi, moyennant le théorème de Fubini, que la famille (P (X = x, Y = x))(x,y)∈X(Ω)×Y (Ω) , qui définit la loi conjointe de Z, est sommable et que : X P (X = x, Y = x) = (x,y)∈X(Ω)×Y (Ω) X x∈X(Ω) X y∈Y (Ω) P (X = x, Y = x) = X P (X = x) = 1 x∈X(Ω) Remarque 8.3 Soit Z = (X, Y ) un couple aléatoire discret sur (Ω, A, P ). On constate que les v.a.r.d X et Y sont indépendantes si et seulement si la loi conjointe de Z est découplée : (P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) = (P (X = x) .P (Y = y))(x,y)∈X(Ω)×Y (Ω) Proposition 8.1 Étant donnée deux parties de R non vides au plus dénombrables I et J et une famille sommable (qi,j )(i,j)∈I×J de réels positifs de somme égale à 1, il existe un espace probabilisé (Ω, A, P ) et un couple aléatoire discret Z = (X, Y ) sur cet espace tel que : X (Ω) = I , Y (Ω) = J ∀ (i, j) ∈ I × J ; P (X = i, Y = j) = qi,j et Preuve Elle est admise. 75 Exemple 8.1 On considère un réel a > 0 et la famille a i 2 .j! . Cette famille est une suite double positive sommable car (i,j)∈N∗ ×N elle est le produit par le réel a d’une famille découplée définie à partir les séries convergentes positives P 1 . De plus, on a : n≥0 n! P (i,j)∈N∗ ×N a 2i .j! = P a. (i,j)∈N∗ ×N = a. = a. ! +∞ P +∞ P P 1 1 +∞ 2i j=0 j! 1 i .j! 2 j=0 i=1 [d′ après le théorème de F ubini] ! +∞ P e i i=1 2 = a. = ae. = 1 2i .j! +∞ P i=1 P 1 et n n≥1 2 [car +∞ P 1 j=0 j! = e] +∞ P 1 i 2 i=1 +∞ P 1 [car = i 2 i=1 ae 1 2 1− 1 2 = 1] a 1 Alors la famille définit une loi conjointe si et seulement si ae = 1, c’est à dire a = . i 2 .j! (i,j)∈N∗ ×N e Supposons cette condition satisfaite. D’après la proposition 8.1, soit (Ω, A, P ) un espace probabilisé Z = (X, Y ) un 1 couple aléatoire discret sur cet espace dont la loi conjointe est donnée par , c’est à dire : e.2i .j! (i,j)∈N∗ ×N ∀ (i, j) ∈ N∗ × N, P (X = i, Y = j) = 1 e.2i .j! Déterminons les lois marginales de Z en utilisant les formules (8.1) : ∀ i ∈ N∗ , P (X = i) ∀ j ∈ N, P (Y = j) = +∞ P P (X = i, Y = j) j=0 et = +∞ P i=1 76 P (X = i, Y = j) d’où ∀ i ∈ N∗ , P (X = i) = = = +∞ P 1 i .j! e.2 j=0 P 1 1 +∞ . i e.2 j=0 j! 1 2i et ∀ j ∈ N, P (Y = j) = = = +∞ P 1 i .j! e.2 i=1 P 1 1 +∞ . e.j! i=1 2i 1 e.j! 1 et Y ,→ P (1). 2 On constate que la loi conjointe de Z est découplée : On voit X ,→ G (P (X = i, Y = j))(i,j)∈N∗ ×N = 1 e.2i .j! (i,j)∈N∗ ×N = (P (X = i) .P (Y = j))(i,j)∈N∗ ×N Donc les v.a.r.d X et Y sont indépendantes. Définition 8.3 Soit Z = (X, Y ) un couple aléatoire discret sur (Ω, A, P ). On appelle fonction de répartition de Z la fonction notée FZ = F(X,Y ) de R2 et à valeurs dans le segment [0, 1] définie par : ∀ (x, y) ∈ R2 , F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y) Remarque 8.4 Si les v.a.r.d X et Y sont indépendantes alors : ∀ (x, y) ∈ R2 , F(X,Y ) (x, y) = P (X ≤ x) .P (Y ≤ y) = FX (x) .FY (y) ; où FX [resp. FY ] est la fonction de répartition de la v.a.r.d X [resp. Y ]. 8.2 Loi d’une fonction réelle d’un couple aléatoire discret. Théorème 8.1 Soit Z = (X, Y ) un couple aléatoire discret sur (Ω, A, P ), I et J deux intervalles de R tels que X (Ω) ⊂ I et Y (Ω) ⊂ J et f : I × J −→ R une fonction quelconque. Alors T = f (Z) = f (X, Y ) est une v.a.r.d sur (Ω, A, P ) dont la loi est donnée par : ∀ t ∈ T (Ω) , P (T = t) = X P (X = x, Y = y) ; (x,y)∈Lt où pour tout t ∈ T (Ω), Lt = {(x, y) ∈ X (Ω) × Y (Ω) / f (x, y) = t} 77 Preuve T est l’application définie sur Ω et à valeurs dans R définie par : ∀ ω ∈ Ω, T (ω) = f (Z (ω)) = f (X (ω) , Y (ω)). On observe que T (Ω) = {T (ω) / ω ∈ Ω} = {f (X (ω) , Y (ω)) / ω ∈ Ω} = {f (x, y) / (x, y) ∈ X (Ω) × Y (Ω)}. L’application ϕ : X (Ω) × Y (Ω) −→ T (Ω) (x, y) 7−→ f (x, y) est donc surjective. Comme X (Ω) × Y (Ω) est au plus dénombrable, on en déduit que T (Ω) est également au plus dénombrable. De plus, pour tout t ∈ T (Ω), on a : T =t = = = = = {ω ∈ Ω / T (ω) = t} {ω ∈ Ω / f (X (ω) , Y (ω)) = t} {ω ∈ Ω / ∃ (x, y) ∈ X (Ω) × Y (Ω) , f (x, y) = t, X (ω) = x, et Y (ω) = y} {ω ∈ Ω / ∃ (x, y) ∈ Lt , X (ω) = x et Y (ω) = y} S {ω ∈ Ω / X (ω) = x et Y (ω) = y} (x,y)∈Lt = S (x,y)∈Lt X=x ∩ Y =y Alors, sachant que chaque X = x ∩ Y = y ∈ A (car X et Y sont des v.a.r), que Lt est au plus dénombrable (car inclus dans X (Ω) × Y (Ω)) et que la tribu A est stable par union au plus dénombrable, on déduit que : [T = t] ∈ A. T est donc une v.a.r.d sur (Ω, A, P ) (voir le théorème 6.1). De plus les événements X = x ∩ Y = y , (x, y) ∈ Lt , sont deux à deux incompatibles ; donc par σ- additivité de P , on a : ! S P (T = t) = P X=x ∩ Y =y (x,y)∈Lt = P P (X = x, Y = y) (x,y)∈Lt Cela définit la loi de la v.a.r.d T = f (X, Y ). Remarque 8.5 • Ainsi, la loi conjointe du couple aléatoire discret Z = (X, Y ) détermine la loi de des fonctions f (X, Y ) de ce couple. • Le théorème de transfert à deux variables déjà démontré montre que lorsque f (X, Y ) admet une espérance, E (f (X, Y )) est déterminée également par cette loi conjointe. • La loi de X conditionnelle à un événement Y = y non négligeable est également déterminée par la loi conjointe de (X, Y ) car ∀ x ∈ X (Ω) , P Y =y (X = x) = P (X = x, Y = y) P (Y = y) Exercice 8.1 Soit X et Y deux v.a.r.d sur (Ω, A, P ) indépendantes et suivant toutes les deux la loi de Poisson de paramètre λ > 0. X admet une espérance et la calculer. Montrer que la v.a.r.d T = 1+Y Exercice 8.2 Les variables aléatoires sont définies sur un espace probabilisé (Ω, A, P ). Soit X une variable aléatoire qui suit la loi de Poisson de paramètre λ > 0, et soit Y une variable aléatoire indépendante de X telle que : Y (Ω) = 1 {1, 2} , P (Y = 1) = P (Y = 2) = . 2 On pose Z = XY . 1. Déterminer la loi de Z. 2. Quelle est la probabilité que Z prenne des valeurs paires ? 78 Cas particulier de la somme de deux v.a.r.d Étant données deux v.a.r.d X et Y sur (Ω, A, P ), la somme S = X + Y n’est rien d’autre que la fonction f (X, Y ) du couple aléatoire discret Z = (X, Y ), où f est la fonction de R2 dans R définie par : ∀ (x, y) ∈ R2 , f (x, y) = x + y. Sa loi est donc donnée par : ∀ s ∈ S (Ω) , P (S = s) = X P (X = x, Y = y) ; (x,y)∈Ls où Ls = {(x, y) ∈ X (Ω) × Y (Ω) / x + y = s} On constate que Ls peut s’écrire : Ls = {(x, s − x) / x ∈ X (Ω)} = {(s − y, y) / y ∈ Y (Ω)} La loi de S = X + Y est donc donnée par chacune des formules (i) (ii) ∀ s ∈ S (Ω) , P (S = s) ∀ s ∈ S (Ω) , P (S = s) = = P x∈X(Ω) P (X = x, Y = s − x) y∈Y (Ω) P (X = s − y, Y = y) P On les appelle les formules de convolution de deux lois discrètes. Notons que lorsque lorsque X et Y sont indépendantes, ces formules s’écrivent : (i′ ) (ii′ ) 8.3 ∀ s ∈ S (Ω) , P (S = s) ∀ s ∈ S (Ω) , P (S = s) = = P x∈X(Ω) P (X = x) .P (Y = s − x) y∈Y (Ω) P (X = s − y) .P (Y = y) P Covariance, coefficient de corrélation Proposition et définition 8.4 Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2. Alors la v.a.r.d (X − E (X)) (Y − E (Y )) admet une espérance et le nombre réel E ((X − E (X)) (Y − E (Y ))) est appelée la covariance du couple aléatoire (X, Y ) ; elle est notée Cov (X, Y ). 2 Ainsi, pour (X, Y ) ∈ L2d (Ω, A, P ) , Cov (X, Y ) = E ((X − E (X)) (Y − E (Y ))) Preuve Puis que X et Y ont un moment d’ordre 2, elles ont une espérance (d’après la proposition 6.7) et X −E (X) et Y −E (Y ) ont également un moment d’ordre 2 (d’après la proposition 6.8). Il vient en utilisant le théorème 6.14 que (X − E (X)) (Y − E (Y )) admet une espérance. Remarque 8.6 Si X [resp. Y ] est constante presque sûrement alors X − E (X) = 0 [resp. Y − E (Y ) = 0] et donc Cov (X, Y ) = 0 Théorème 8.2 Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2. Alors on a : Cov (X, Y ) = E (XY ) − E (X) .E (Y ) 79 (8.2) Preuve Selon les propositions 6.7 et 6.8 et le théorème 6.14, les quantités E (X), E (Y ) et E (XY ) ont un sens. En outre en développant Cov (X, Y ) en utilisant la linéarité de l’espérance, on trouve : Cov (X, Y ) = = = = E ((X − E (X)) (Y − E (Y ))) E (XY − E (Y ) X − E (X) Y + E (X) .E (Y )) E (XY ) − E (Y ) .E (X) − E (X) .E (Y ) + E (X) .E (Y ) E (XY ) − E (X) .E (Y ) D’où le résultat. Vocabulaire • La formule (8.2) est dite la formule de König - Huygens pour le covariance. • Deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2 sont dites non corrélées si et seulement si elles ont une covariance nulle. Dans le cas contraire on dit qu’elles sont corrélées. Remarque 8.7 La loi conjointe du couple aléatoire discret (X, Y ) permet de calculer E (XY ) via la formule de transfert à deux variables, donc permet le calcul de Cov (X, Y ). Corollaire 8.1 Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2. Si X et Y sont indépendantes alors elles sont non corrélées. Preuve Supposons que X et Y sont indépendantes. Comme elles ont une espérance, on a ,d’après le théorème 6.13 : E (XY ) = E (X) .E (Y ) . La formule 8.2 de König - Huygens permet alors de conclure que Cov (X, Y ) = 0. CQFD. Remarque 8.8 En raisonnant dans le sens de la contraposée, on déduit qu’une façon de montrer que deux v.a.r.d X et Y ne sont pas indépendantes est de montrer que Cov (X, Y ) ̸= 0. N.B Si Cov (X, Y ) = 0 entraîne que X et Y sont indépendantes, la réciproque est fausse en général : deux v.a.r.d éléments de L2d (Ω, A, P ) non corrélées ne sont pas forcément indépendantes. En guise de contre exemple, prenons une v.a.r X sur (Ω, A, P ) de loi : suivant la loi UA où A = {−1, 0, 1}. On a donc : X (Ω) = {−1, 0, 1} et P (X = −1) = P (X = 0) = P (X = 1) = 1 3 Considérons maintenant la v.a.r définie sur (Ω, A, P ) comme étant l’indicatrice (fonction caractéristique) de l’évé nement X = 0 : Y = 0 ; si X ̸= 0 Y = 1 ; si X = 0 80 X et Y sont clairement des v.a.r.d sur (Ω, A, P ), X suit la loi uniforme sur {−1, 0, 1} et Y suit la loi de Bernoulli 1 de paramètre p = P (Y = 1) = P (X = 0) = . 3 On a XY = 0 car quand Y est non nul (c’est à dire quand il vaut 1) X est nulle. De plus E (X) = −P (X = −1) + 0.P (X = 0) + P (X = 1) = 0 Donc Cov (X, Y ) = E (XY ) − E (X) E (Y ) = 0 : X et Y sont non corrélées. Cependant, elles ne sont pas indépendantes ; en effet, P (X = 0, Y = 1) = P (X = 0) = mais 1 (car X = 0 = Y = 1 ) 3 P (X = 0) .P (Y = 1) = 1 9 Donc P (X = 0, Y = 1) ̸= P (X = 0) .P (Y = 1) L’exercice suivant montre que pour des deux v.a de Bernoulli il y a exception. Exercice 8.3 Soit X et Y deux v.a.r sur (Ω, A, P ) suivant des loi de Bernoulli de paramètre p et q respectivement. Montrer que X et Y sont indépendantes si et seulement si elle sont non corrélées Théorème 8.3 Soit X, Y et Z trois v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2. Alors : 1. Cov (X, X) = V (X). 2. Cov (X, Y ) = Cov (Y, X) . 3. Pour tout (λ, µ) ∈ R2 , on a : (i) Cov (X, λY + µZ) = λCov (X, Y ) + µCov (X, Z) (ii) Cov (λX + µY, Z) = λCov (X, Z) + µCov (Y, Z) 2 −→ et Preuve Elle est laissée en exercice. Remarque 8.9 L’application Cov : L2d (Ω, A, P ) (X, Y ) 7−→ R Cov (X, Y ) est une forme bilinéaire symétrique sur le R-ev L2d (Ω, A, P ). Théorème 8.4 Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2. Alors : 1. V (X + Y ) = V (X) + V (Y ) + 2Cov (X, Y ) 2. V (X + Y ) = V (X) + V (Y ) si et seulement si X et Y sont non corrélées. 81 Preuve 1. On a : V (X + Y ) = Cov (X + Y, X + Y ) D’où par bilinéarité de la covariance : V (X + Y ) = = Cov (X, X) + Cov (X, Y ) + Cov (Y, X) + Cov (Y, Y ) V (X) + V (Y ) + Cov (X, Y ) + Cov (Y, X) Ensuite, par symétrie de la covariance : V (X + Y ) = V (X) + V (Y ) + 2Cov (X, Y ) 2. C’est immédiat. Remarque 8.10 La condition « X et Y sont indépendantes » est suffisante pour que V (X + Y ) = V (X) + V (Y ) Plus généralement : Théorème 8.5 Soit n ∈ N∗ et X1 , ..., Xn n v.a.r.d éléments de L2d (Ω, A, P ). Alors: n n P P 1. V Xi = V (Xi ) + 2 i=1 i=1 P Cov (Xi , Xj ). 1≤i<j≤n 2. Si X1 , ..., Xn sont deux à deux non corrélées alors V n P i=1 Xi = n P V (Xi ) i=1 Preuve Elle est laissée en exercice. Remarque 8.11 • Si n ≥ 3, et contrairement au théorème 8.4, le 8.5 la condition que « les Xi sont deux à deux non théorème dans n n P P corrélées » n’est que suffisante pour avoir V Xi = V (Xi ) ; elle n’est pas nécessaire. i=1 i=1 • La relation entre l’indépendance et la non corrélation que si les Xi sont deux à deux indépendantes (en nfait n P P particulier si elles le sont mutuellement) alors on a : V Xi = V (Xi ) i=1 i=1 Théorème 8.6 Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2. Alors : Cov (X, Y ) ≤ σ (X) .σ (Y ) Preuve Les v.a.r.d X − E (X) et Y − E (Y ) ont un moment d’ordre 2 comme X et Y . Alors d’après le théorème 6.14, on a r r E ((X − E (X)) (Y − E (Y ))) ≤ E (X − E (X))2 Soit Cov (X, Y ) ≤ Ce qui est l’inégalité p V (X) p V (Y ) Cov (X, Y ) ≤ σ (X) .σ (Y ) 82 E (Y − E (Y ))2 Définition 8.5 Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2 d’écarts-type strictement positifs. On appelle coefficient de corrélation de (X, Y ) le nombre réel noté ρX,Y défini par : ρX,Y = Cov (X, Y ) σ (X) .σ (Y ) (8.3) Remarque 8.12 Compte tenu de la bilinéarité de la covariance et de la relation V (aX + b) = a2 V (X), on peut remarquer que ρ−X,Y = ρX,−Y = −ρX,Y Théorème 8.7 Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2 d’écarts-type strictement positifs. Alors : 1. ρX,Y = ρY,X . 2. −1 ≤ ρX,Y ≤ 1. 3. ρX,Y = 1 si et seulement si Y est presque sûrement une fonction affine strictement croissante de X. 4. ρX,Y = −1 si et seulement si Y est presque sûrement une fonction affine strictement décroissante de X. Preuve 1. C’est immédiat. 2. Découle de l’inégalité (8.3). 3. Supposons ρX,Y = 1. Considérons la fonction f : R −→ R définie par : ∀ λ ∈ R, f (λ) = V (λX + Y ) Pour tout λ ∈ R, on a en développant : f (λ) = = = V (λX) + V (Y ) + 2.Cov (λX, Y ) λ2 V (X) + 2λ.Cov (X, Y ) + V (Y ) λ2 σ 2 (X) + 2λ.Cov (X, Y ) + σ 2 (Y ) [On rappelle la relation V (λX + µ) = λ2 V (X)] On en déduit, sachant σ 2 (X) > 0 par hypothèse, que f est une fonction polynôme du second degré. De plus, son discriminant est : h i ∆ = 4 (Cov (X, Y ))2 − 4.σ 2 (X) .σ 2 (Y ) = 4σ 2 (X) .σ 2 (Y ) ρ2X,Y − 1 = 0 Ce trinôme f admet donc une seule racine α dans R. Notons que le terme constant σ 2 (Y ) de f est non nul, donc la racine α est non nulle. Maintenant, en exprimant que f (α) = 0, on trouve V (αX + Y ) = 0. Alors, d’après les propriétés de la variance, il existe un réel b tel que αX + Y = b presque sûrement. En posant a = −α, on a : Y = aX + b presque sûrement. Observons que =0 z }| { a.Cov (X, X) + Cov (X, b) a.V (X) a.σ (X) Cov (X, aX + b) = = = 1 = ρX,Y = σ (X) σ (Y ) σ (X) σ (Y ) σ (X) σ (Y ) σ (Y ) Cela impose à a d’être de signe strictement positif et la fonction affine t 7−→ at + b est strictement croissante. Ainsi, si ρX,Y = 1 alors Y est presque sûrement une fonction affine strictement croissante de X. Réciproquement, supposons donné (a, b) ∈ R∗+ × R, tel que Y = aX + b presque sûrement. Les relations suivantes sont alors vérifiées presque sûrement : (i) Y − E (Y ) = (aX + b) − (aE (X) + b) = a (X − E (X)) (ii) (X − E (X)) (Y − E (Y )) = a (X − E (X))2 On en déduit r r p E (Y − E (Y ))2 = a2 E (X − E (X))2 = a V (X) (ii) Cov (X, Y ) = E (− (X − E (X)) (Y − E (Y ))) = a.E (X − E (X))2 = aV (X) (i) σ (Y ) = p V (V ) = 83 [car a > 0] Donc ρX,Y = Cov (X, Y ) a.V (X) p = 1. Ce qui achève de démontrer l’équivalence. = p σ (X) σ (Y ) V (X).a V (X) 4. Compte tenu de la remarque 8.12, on a ρX,Y = −1 si et seulement si ρX,−Y = 1. Alors, en utilisant l’équivalence du 3, on a : ρX,Y = −1 si et seulement si il existe (α, β) ∈ R∗+ × R tel que −Y = αX + β presque sûrement. D’où en considérant a = −α et b = −β : ρX,Y = −1 si et seulement si il existe (a, b) ∈ R∗− ×R tel que Y = aX +b presque sûrement.CQFD. Commentaire Le coefficient de corrélation ρX,Y de deux v.a.r.d X et Y mesure leur degré de dépendance affine. Plus il est proche des valeurs extrêmes 1 et −1, plus cette dépendance affine est forte et, plus il est proche du centre 0, plus cette dépendance affine est faible. 9 Stabilité de quelques familles de lois discrètes Quand les lois de deux v.a.r.d indépendantes sont d’une même nature L, il est intéressant pour certaines utilisations liées à ces v.a que la loi de leur somme soit de cette nature L. On dit que ce type (ou famille) L de lois discrètes est stable. À ce titre, nous montrons que les familles de lois L1 = (P (λ))λ∈R∗ et, pour p ∈ 0, 1 quelconque, L2 = (B (n, p))n∈N∗ + sont stables. Théorème 8.4 Soit X et Y deux v.a.r sur (Ω, A, P ) telles que : (i) X ,→ B (n, p) , Y ,→ B (m, p) (ii) X et Y sont indépendantes et ; où (n, m) ∈ N∗2 et p ∈ 0, 1 . Alors X + Y ,→ B (n + m, p) Preuve On pose S = X + Y . q y q y q y On a X (Ω) = 0, n et Y (Ω) = 0, m ; donc, clairement S (Ω) = 0, n + m . q y Soit k ∈ 0, n + m . Par indépendance de X et Y , la formule de convolution (i′ ) s’applique ; d’où : P (S = k) = = n P i=0 P (X = i) .P (Y = k − i) n P n i n−i m k−i m−k+i q pq p i k−i n P n m k n+m−k . k−i p q i i=0 = i=0 = n P i=0 = n m . k−i i [où q = 1 − p] pk q n+m−k n+m k n+m−k p q k [selon la relation dite de V andermonde n P i=0 Donc S = X + Y ,→ B (n + m, p). CQFD. 84 n m . k−i = i n+m ] k Corollaire 8.1 Soit r ∈ N∗ et X1 , ..., Xr r v.a.r mutuellement indépendantes sur (Ω, A, P ) telles que : q y ∀ k ∈ 1, r , Xk ,→ B (nk , p) ; où (n1 , ..., nr ) ∈ N∗r et p ∈ 0, 1 . Alors X1 + ... + Xr ,→ B (n1 + ... + nr , p). Preuve Elle est laissée en exercice (raisonner par récurrence en utilisant le lemme des coalitions). Remarque 8.8 Soit p ∈ 0, 1 et n ∈ N∗ . On sait que B (p) = B (1, p) (voir les loi de Bernoulli et les lois binomiales). Alors, d’après le corollaire 8.1, si l’on dispose de n v.a.r X1 , ..., Xn mutuellement indépendantes et de même loi de Bernoulli B (p) alors la v.a.r X = X1 + ... + Xn suit la loi binomiale B (n, p). Ainsi, dans l’expérience aléatoire de lancer n fois une pièce où la probabilité de « pile » est égale à p, si pour tout q y i ∈ 1, n , on introduit la v.a Xi égale à 1 si le iième lancer amène « pile » et 0 s’il amène « face », la v.a X égale au nombre de « piles » obtenus n’est rien d’autre que X = X1 + ... + Xn , et on retrouve que X ,→ B (n, p). Théorème 8.5 Soit X et Y deux v.a.r sur (Ω, A, P ) telles que : (i) et (ii) X ,→ P (λ) , Y ,→ P (µ) X et Y sont indépendantes ; où (λ, µ) ∈ R∗2 +. Alors X + Y ,→ P (λ + µ). Preuve On pose S = X + Y . On a X (Ω) = N et Y (Ω) = N ; donc on a S (Ω) = N. Soit k ∈ N. Par indépendance de X et Y , la formule de convolution (i′ ) s’applique : P (S = k) = +∞ P P (X = i) P (Y = k − i) k P P (X = i) P (Y = k − i) i=0 = i=0 = = = = = [car pour i > k, k − i < 0 donc Y = k − i = Ø] k e−λ λi e−µ µk−i P . i! (k − i)! i=0 e−(λ+µ) k P 1 i=0 i! (k − i)! λi µk−i k e−(λ+µ) P k! λi µk−i k! i=0 i! (k − i)! k e−(λ+µ) P k! i=0 k i k−i λµ i e−(λ+µ) (λ + µ)k k! [d′ après la formule du binôme de N ewton] 85 Donc S = X + Y ,→ P (λ + µ). CQFD. Corollaire 8.2 Soit r ∈ N∗ et X1 , ..., Xr r v.a.r mutuellement indépendantes sur (Ω, A, P ) telles que : q y ∀ k ∈ 1, r , Xk ,→ P (λk ) ; où (λ1 , ..., λr ) ∈ R∗r +. Alors X1 + ... + Xr ,→ P (λ1 + ... + λr ). Preuve Elle est laissée en exercice (procéder par récurrence et utiliser le lemme des coalitions). 10 Fonction génératrice d’une v.a.r à valeurs dans N 10.1 Généralités Dans ce paragraphe, (Ω, A, P ) est un espace probabilisé. Définition 10.1 Soit X une v.a.r sur (Ω, A, P ) telle que X (Ω) ⊂ N. On appelle fonction génératrice de X la fonction notée GX de la variable réelle t définie par : GX (t) = +∞ X P (X = k) .tk (10.1) k=0 Autrement dit, la fonction génératrice GX de la v.a.r X est la somme de la série entière P P (X = k) .tk de la k≥0 variable réelle. Dans la suite on appellera cette série entière la série génératrice de X et on notera RX son rayon de convergence et DX son ensemble de convergence simple. Notons au passage que DX est l’ensemble de définition de GX et que Si R X = +∞ Si R X < +∞ Remarque 10.1 , DX = R , −RX , RX ⊂ DX ⊂ −RX , RX Soit X une v.a.r.d finie à valeurs dans N. X (Ω) est une partie finie de N, Donc sa série génératrice P P (X = k) .tk est à coefficients nuls à partir du rang m + 1 au moins, où m = max X (Ω) car pour tout k ≥ m + 1, X = k = Ø ; k≥0 elle converge donc simplement sur R. cela entraîne que son rayon de convergence est RX = +∞, et que la fonction m P génératrice GX est une fonction polynôme : GX : t 7−→ P (X = k) .tk . Dans le cas général on a : k=0 Proposition 10.1 Soit X une v.a.r.d sur (Ω, A, P ) à valeurs dans N. Alors : 1. la fonction génératrice de X est au moins définie sur le segment [−1, 1]. 2. GX (1) = 1. 3. Pour tout t ∈ −RX , RX , la v.a.r.d tX admet une espérance et E tX = GX (t). 86 Preuve On a : ∀ t ∈ [−1, 1] , ∀ k ∈ N, P (X = k) .tk = P (X = k) . t P P (X = k) converge dans R (de somme 1). Et la série k ≤ P (X = k) k≥0 On en déduit que la série génératrice de X converge normalement, donc uniformément et simplement sur [−1, 1]. L’ensemble DX de convergence simple (c’est à dire l’ensemble de définition de GX ) contient au moins le segment [−1, 1]. D’où 1. +∞ P P (X = k) = 1. Quant au point 2, il découle de la relation k=0 P P (X = k) .tk converge absolument (par définition du rayon de convergence d’une Finalement, pour tout t ∈ −RX , RX , la série k≥0 série entière). Le résultat découle alors du théorème de transfert à une variable appliqué à f (X), où f : x 7−→ tx ; d’où 3. Remarque 10.2 Le rayon de convergence RX de la série génératrice de X vérifie donc RX ≥ 1. Si RX = 1 alors l’ensemble de définition de GX est DX = [−1, 1]. Si RX > 1 alors la relation −1, 1 ⊂ −RX , RX ⊂ DX la première inclusion est stricte. Proposition 10.2 Soit X et Y deux v.a sur (Ω, A, P ) (ou même sur des espaces probabilisés différents) à valeurs dans N. Alors GX = GY si et seulement si X et Y ont la même loi Preuve Supposons que GX = GY . Cela exige que RX = RX et DX = DY et qu’en particulier : +∞ +∞ X X P (X = k) .tk = P (Y = k) .tk ∀ t ∈ −1, 1 , GX (t) = k=0 k=0 D’où par unicité du développement en série entière de GX sur −1, 1 : ∀ k ∈ N, P (X = k) = P (Y = k) On en déduit que X et Y ont la même loi. Réciproquement, si X et Y sont de même loi alors pour tout k ∈ N, P (X = k) = P (Y = k) ; elles définissent dans ce cas la même série génératrice et donc la même fonction génératrice. Remarque 10.3 La fonction génératrice d’une v.a à valeurs dans N détermine donc sa loi 10.2 Fonction génératrice et lois discrètes usuelles. Théorème 10.1 Soit X une v.a.r sur (Ω, A, P ), n ∈ N∗ et p ∈ 0, 1 . t + ... + tn . n 2. Si X ,→ B (p) alors GX est la fonction polynôme définie sur R par : ∀ t ∈ R, GX (t) = 1 − p + pt. 1. Si X ,→ Un alors GX est la fonction polynôme définie sur R par : ∀ t ∈ R, GX (t) = 3. si X ,→ B (n, p), GX est la fonction polynôme définie sur R par : ∀ t ∈ R, GX (t) = (1 − p + pt) Preuve Elle est laissée en exercice. 87 n Théorème 10.2 Soit X une v.a.r sur (Ω, A, P ), p ∈ 0, 1 et λ ∈ 0, +∞ . 1 1 , 1. Si X ,→ G (p) alors GX est la fonction définie sur − par : 1−p 1−p 1 p.t 1 , ∀t ∈ − , GX (t) = 1−p 1−p 1 − (1 − p) .t . 2. Si X ,→ P (λ) alors GX est la fonction définie sur R par : ∀ t ∈ R, GX (t) = e(λ−1).t Preuve Elle est laissée en exercice. 10.3 Fonction génératrice et moments d’ordres 1 et 2. Théorème 10.3 Soit X une v.a.r sur (Ω, A, P ) à valeurs dans N. Alors X admet une espérance si et seulement si sa fonction génératrice GX est dérivable au point 1. De plus dans ce cas : E (X) = G′X (1) (10.2) Preuve =⇒ / Supposons que X admet une espérance, c’est à dire que la série P kP (X = k) est convergente. Montrons que GX est dérivable k≥0 en 1. • Si RX > 1 ceci est vrai car, en tant que somme d’une série entière de rayon de convergence RX , GX est dérivable sur −RX , RX +∞ +∞ P P kP (X = k) .tk−1 ; en particulier, pour t = 1 : G′X (1) = et 1 ∈ −RX , RX ; de plus, pour tout t ∈ −RX , RX , on a G′X (t) = k=1 k=1 kP (X = k) = E (X). • Supposons dans la suite que RX = 1, en sorte que −RX , RX = −1, 1 et DX = −1, 1 . Dans ce cas, montrer la dérivabilité de GX en 1 revient à montrer sa dérivabilité à gauche en 1. Pour tout t ∈ 0, 1 , on a : +∞ P k −1 P (X = k) tt−1 GX (t) − GX (1) = k=0 ! (10.3) t−1 +∞ k−1 P P i = P (X = k) . t i=0 k=1 ! k−1 k−1 P i P i = P (X = k) . t t ≤ kP (X = k). Or, on a : ∀ t ∈ [0, 1[ , ∀ k ∈ N∗ , P (X = k) i=0 i=0 P et la série kP (X = k) est par hypothèse convergente ; d’où la convergence normale, donc uniforme, de la série de fonctions en question k≥1 dans (10.2) sur 0, 1 . Le théorème d’interversion des limites s’applique et noue permet : +∞ X GX (t) − GX (1) −→ t→1 t−1 k=1 c’est à dire lim P (X = k) t→1 k−1 X i=0 ti !! +∞ X GX (t) − GX (1) −→ kP (X = k) t→1 t−1 k=1 La fonction GX est bien dérivable à gauche en 1, donc dérivable en 1 et on a : G′X (1) = +∞ P k=1 kP (X = k) = +∞ P k=0 kP (X = k) = E (X) ⇐= / Réciproquement, supposons que GX est dérivable en 1 et montrons que X admet une espérance ; ce qui achève la démonstration. 88 Il s’agit de montrer que la série P kP (X = k) est convergente. La fonction k≥0 t 7−→ +∞ GX (t) − GX (1) X P (X = k) = t−1 k=1 est somme simple d’une série de fonctions positives sur 0, 1 ; d’où ∀ n ∈ N, ∀ t ∈ [0, 1[ , n X P (X = k) k−1 X i=0 k=1 ti ! ≤ k−1 X i=0 ti ! GX (t) − GX (1) t−1 Comme les inégalités se conservent par passage à la limite, on a : ∀ n ∈ N, lim t→1 n X P (X = k) ∀n ∈ N, La suite des somme partielles de la série P i=0 k=1 c’est à dire k−1 X n X k=1 ti ! ≤ lim t→1 GX (t) − GX (1) t−1 kP (X = k) ≤ G′X (1) kP (X = k) est donc majorée ; ce qui en fait, sachant qu’elle est à termes positifs, une série k≥0 convergente. CQFD. Application On effectue une série de lancers indépendants d’une pièce de monnaie avec la probabilité p ∈ ]0, 1[ de faire « face » et 1 − p de faire « pile ». Le jeu consiste à s’arrêter lorsqu’on obtient « face » deux fois de suite. On veut calculer le nombre moyen de lancers nécessaires. On note X la longueur de la liste de lancers nécessaires pour arrêter de jouer. On suppose qu’à l’expérience en question est associé un espace probabilisé (Ω, A, P ) et on admet que X est une v.a.r.d sur cet espace et il s’agit de montrer que X admet une espérance et la calculer. Visiblement, X (Ω) ⊂ J2, +∞J donc la v.a X est à valeurs dans N. Examinons la loi de X. On introduit les événements Fi : ”Obtenir f ace au iième lancer′ On a, par indépendance mutuelle des événements Fi : P (X = 2) = P (F1 ∩ F2 ) = P (F1 ) .P (F2 ) = p2 et P (X = 3) = P F1 ∩ F2 ∩ F3 = (1 − p) p2 Soit n ≥ 4 un entier. Le lecteur vérifiera aisément que la famille F1 , F1 ∩ F2 , F1 ∩ F2 est un système complet d’événements. Il vient, en appliquant la formule des probabilités totales : P (X = n) = PF1 (X = n) .P F1 + PF1 ∩F2 (X = n) .P (F1 ∩ F2 ) + PF1 ∩F2 (X = n) .P F1 ∩ F2 Mais, selon le protocole du jeu, PF1 ∩F2 (X = n) = 0. D’où P (X = n) = PF1 (X = n) .P (F1 ) + PF1 ∩F2 (X = n) .P F1 ∩ F2 D’autre part, sachant que F1 [resp. F1 ∩ F2 ] est réalisé, il reste n − 1 [resp. n − 2] lancers pour réaliser [X = n]. Donc P (X = n) = P (X = n − 1) F1 P (X = n) = P (X = n − 2) F1 ∩F2 D’où P (X = n) = P F1 .P (X = n − 1) + P F1 ∩ F2 .P (X = n − 2) 89 Soit P (X = n) = (1 − p) .P (X = n − 1) + p. (1 − p) .P (X = n − 2) En définitive, la loi de X est définie par la récurrence P (X = 2) = p2 , P (X = 3) = (1 − p) .p2 P (X = n) = (1 − p) .P (X = n − 1) + p. (1 − p) .P (X = n − 2) ; si n ≥ 4 La fonction génératrice de X est définie au moins sur le segment [−1, 1]. Calculons la dans ce segment. Soit t ∈ [−1, 1]. On a GX (t) = +∞ X P (X = n) .tn = P (X = 2) .t2 + P (X = 3) .t3 + n=2 +∞ X P (X = n + 2) .tn+2 n=2 Il vient en appliquant la récurrence précédente : GX (t) = p2 t2 + (1 − p) p2 t3 + +∞ X n=2 ((1 − p) .P (X = n + 1) + (1 − p) p.P (X = n)) tn+2 Alors, par convergence des séries en présence : GX (t) = p2 t2 + (1 − p) p2 t3 + (1 − p) t. C’est à dire +∞ X n=2 P (X = n + 1) tn+1 + (1 − p) pt2 . +∞ X P (X = n) tn n=2 GX (t) = p2 t2 + (1 − p) p2 t3 + (1 − p) t. GX (t) − p2 t2 + (1 − p) pt2 GX (t) On en déduit la valeur de GX (t) GX (t) = p2 t2 + (1 − p) p2 t3 − (1 − p) p2 t3 p2 t2 = 1 − (1 − p) t − (1 − p) pt2 1 − (1 − p) t − (1 − p) pt2 Notons que la fraction rationnelle du membre de droite a deux pôles simples qu’on peut calculer : λ= −q − p −q + q 2 + 4pq q 2 + 4pq et µ = 2pq 2pq p où l’on a posé q = 1 − p. p2 t2 est donc développable en série entière au voisinage de 0 de rayon de convergence 1 − qt − qpt2 R = min (|λ| , |µ|) = |µ| dont on vérifie aisément qu’il est > 1 et ce DSE est celui GX . Tout cela prouve que le rayon La fonction t 7−→ de convergence RX de la série génératrice de X est > 1 et donc GX est dérivable en 1 (la somme d’une série entière est dérivable en tout point de son intervalle de convergence). Cela montre, d’après le théorème 10.3, que X admet une espérance et que E (X) = G′X (1). Calculons G′X (t) pour t ∈ ]−RX , RX [ : G′X (t) = p 2 t2 1 − qt − pqt2 ′ = D’où, tout calcul fait G′X (t) = p2 1 − qt − pqt2 − p2 t2 (−q − 2pqt) (1 − qt − pqt) 2p2 t − p2 qt2 (1 − qt − pqt) 90 2 2 On en déduit E (X) = 2p2 − p2 q (1 − q − pq) 2 = 2−q 1+p = p2 p2 Théorème 10.4 Soit X une v.a.r sur (Ω, A, P ) à valeurs dans N. Alors X admet une variance si et seulement si sa fonction génératrice GX est deux fois dérivable au point 1. De plus dans ce cas, on a : V (X) = G′′X (1) + G′X (1) − (G′X (1)) 2 (10.4) Preuve Elle n’est pas exigible et elle est laissée en exercice. • Supposons que X admet une variance. Cela est équivaut à ce que X admet un moment d’ordre 2, ou encore à ce que : X admet une espérance X 2 − X = X (X − 1) admet une espérance (i) (ii) Il s’agit de montrer que GX est deux fois dérivable en 1. D’après (i), et en appliquant le théorème 10.3, GX est déjà dérivable en 1 et +∞ P kP (X = k). Et comme est elle est déjà dérivable sur 0, 1 en tant que somme d’une série entière de rayon de G′X (1) = E (X) = k=1 convergence RX ≥ 1, on déduit que GX est dérivable sur 0, 1 avec : +∞ X kP (X = k) .tk−1 ∀ t ∈ 0, 1 , G′X (t) = k=1 y compris pour t = 1. Il suffit de montrer que G′X est dérivable en 1. Comme dans la démonstration du théorème 10.3, on traite deux cas : 1ier cas : RX > 1. Dans ce cas, et comme somme d’une série entière GX est deux fois dérivable sur −RX , RX et on a : +∞ X k (k − 1) P (X = k) tk−2 ∀ t ∈ −RX , RX , G′′ X (t) = k=2 En particulier, et sachant que dans ce cas 1 ∈ −RX , RX , G′X est bien dérivable en 1 et on a ; G′X ′ (1) = G′′ X (1) = +∞ X k=2 k (k − 1) P (X = k) +∞ P k (k − 1) P (X = k) = E (X (X − 1)). De plus, la relation (ii) et le théorème de transfert assurent que k=2 ′ Donc G′X est dérivable au point 1 et G′X (1) = G′′ X (1) = E (X (X − 1)). 2ième cas : RX = 1 Dans ce cas, et comme avant, on étudie la limite en 1 à gauche de t 7−→ On a : G′X (t) − G′X (1) . t−1 k−2 X X X tk−1 − 1 +∞ G′ (t) − G′X (1) +∞ = = ∀ t ∈ 0, 1 , X kP (X = k) kP (X = k) ti t−1 t − 1 i=0 k=1 k=2 (10.5) puis en constatant que : k−2 k−2 X X ∀ t ∈ 0, 1 , ∀ k ≥ 2, kP (X = k) ti = kP (X = k) ti ≤ k (k − 1) P (X = k) i=0 i=0 On conclut à la convergence normale et uniforme de la série de fonctions du (10.5) et à la possibilité d’appliquer le théorème d’interversion des limites ; d’où +∞ X G′X (t) − G′X (1) k (k − 1) P (X = k) = E (X (X − 1)) ; −→ t→1 t−1 k=2 ′ ce qui montre que dans ce cas aussi, G′X est dérivable en 1 et que : G′X (1) = G′′ X (1) = E (X (X − 1)). Dans les deux cas, on conclut que GX est bien deux fois dérivable en 1 et que G′′ X (1) = E (X (X − 1)). 91 On conclut que si X admet une variance alors GX est deux fois dérivable en 1 et que : V (X) = E X 2 − (E (X))2 = E (X (X − 1)) + E (X) − (E (X))2 2 ′ ′ = G′′ X (1) + GX (1) − GX (1) • Pour achever la démonstration, il reste à montrer que si GX est deux fois dérivable en 1 alors X admet une espérance. Supposons donc que GX est deux fois dérivable en 1. On a : GX est dérivable en 1, donc sur 0, 1 (iii) G′X (t) − G′X (1) t ∈ 0, 1 7−→ admet une limite L ∈ R au point 1 (iv) t−1 D’après le théorème 10.3, (iii) entraîne que X admet une espérance et que G′X (1) = E (X) = +∞ P kP (X = k) k=1 k−2 P P i G′ (t) − G′X (1) +∞ = kP (X = k) t est la somme simple d’une série de fonctions positives. D’autre part, la fonction t ∈ 0, 1 7−→ X t−1 i=0 k=2 D’où : ! k−2 n X X G′ (t) − G′X (1) kP (X = k) ti ≤ X ∀ n ≥ 2, ∀ t ∈ [0, 1[ , t−1 i=0 k=2 On en déduit par passage à la limite quand t tend vers 1 : ∀ n ≥ 2, La suite des sommes partielles de la série à termes positifs n X k (k − 1) P (X = k) ≤ L P k (k − 1) P (X = k) est donc majorée. On conclut que cette série converge k=2 k≥2 et converge absolument ; ce qui montre en utilisant le théorème de transfert que la v.a.r.d X (X − 1) = X 2 − X admet une espérance. Ainsi : X admet une espérance X 2 − X = X (X − 1) admet une espérance Donc X 2 = X 2 − X + X admet une espérance, c’est à dire que X admet un moment d’ordre 2. CQFD. Exercice 10.1 Retrouver, en utilisant les fonctions génératrices, les valeurs de l’espérance et la variance dans le cas d’une v.a.r suivant l’une des lois discrètes usuelles. Théorème 10.5 Soit X et Y deux v.a.r sur (Ω, A, P ) et à valeurs dans N. Si X et Y sont indépendantes alors pour tout t ∈ [−1, 1], GX+Y (t) = GX (t) .GY (t). Preuve Supposons que X et Y sont indépendantes et soit t ∈ [−1, 1]. Les v.a.r tX , tY et tX+Y = tX .tY sont bornées (car prennent leurs valeurs dans [−1, 1]). Elle ont donc une espérance chacune. Il vient en utilisant le lemme des coalitions les v.a.r tX et tY sont également indépendantes. D’où E tX .tY = E tX .E tY . Soit : E tX+Y = E tX .E tY . Cela montre que GX+Y (t) = GX (t) .GY (t). Plus généralement : Théorème 10.6 Soit n ∈ N∗ et X1 , ..., Xn n v.a.r sur (Ω, A, P ) et à valeurs dans N. Si la famille (X1 , ..., Xn ) est une famille mutuellement indépendante alors pour tout t ∈ [−1, 1], on a GX1 +...+Xn (t) = GX1 (t) ...GXn (t) 92 Preuve Raisonnons par récurrence sur n. • Pour n = 1, il n’y a rien à démontrer. • Soit n ∈ N∗ ; supposons le résultat vrai au rang n et montrons qu’il l’est au rang n + 1/ Soit (X1 , ..., Xn+1 ) une famille mutuellement indépendante de n + 1 v.a à valeurs dans N sur (Ω, A, P ). Soit t ∈ [−1, 1]. On a : GX1 +...+Xn+1 (t) = GY +Xn+1 (t) ; où Y = X1 + ... + Xn . Les v.a Y et Xn+1 sont à valeurs dans N et, selon le lemme des coalitions, elles sont indépendantes. Alors, en appliquant le théorème 10.5, on a : GY +Xn+1 (t) = GY (t) .GXn+1 (t) Mais (X1 , ..., Xn ) est mutuellement indépendante comme sous famille de la famille mutuellement indépendante (X1 , ..., Xn+1 ) ; d’où par hypothèse de récurrence : GY (t) = GX1 +...+Xn (t) = GX1 (t) ...GXn (t) D’où CQFD. GX1 +...+Xn+1 (t) = GX1 (t) ...GXn (t) GXn+1 (t) = GX1 (t) ...GXn+1 (t) Exemple 10.1 On dispose d’une urne contenant quatre boules numérotées 0, 1, 1 et 2 respectivement. On effectue n tirages successifs d’une boule avec remise. On note X la v.a égale à la somme des nombres obtenus dans les n tirages. On se propose de calculer la loi de X en exploitant le théorème précédent. q y q y Pour cela, commençons par remarquer que X (Ω) = 0, 2n et introduisons pour tout i ∈ 1, n , la v.a Xi égale au nombre obtenu au iième tirage. Toute ces v.a Xi ont la même loi : Xi (Ω) = {0, 1, 2} P (Xi = 0) = P (Xi = 2) = 1 et P (Xi = 1) = 2 4 4 De plus, il est clair que : X = X1 + ... + Xn . Enfin, par indépendance des tirages, la famille (X1 , ..., Xn ) est mutuellement indépendante. Alors, en appliquant le théorème 10.6, on obtient : n ∀ t ∈ −1, 1 , GX (t) = GX1 (t) ...GXn (t) = (GX1 (t)) Mais, on a : GX1 (t) = P (X1 = 0) + P (X1 = 1) .t + P (X1 = 2) .t2 = D’où 1 + 2t + t2 (1 + t) = 4 4 2 2n (1 + t) ∀ t ∈ −1, 1 , GX (t) = 4n puis, par la formule du binôme de N ewton : ∀ t ∈ −1, 1 , GX (t) = On a donc : n X k=0 q y ∀ k ∈ 0, 2n , P (X = k) = 2n k 4n tk 2n k 4n Exercice 10.2 Redémontrer les propriétés de stabilité de lois du paragraphe 9 à l’aide des théorèmes 10.5 et 10.6 93 11 Variables aléatoires continues à densité Dans ce paragraphe, (Ω, A, P ) est un espace probabilisé. 11.1 V.a continues, v.a absolument continues, densité de probabilité Il s’agit d’étudier un type de v.a.r autre que les v.a.r.d ; c’est des v.a.r pouvant prendre toutes les valeurs dans un intervalle de R 11.1.1 V.a continues Définition 11.1 Soit X une v.a.r sur (Ω, A, P ). On dit que la v.a.r X est continue si et seulement si sa fonction de répartition est continue sur R. En abrégé, on écrira X est une v.a.r.c sur (Ω, A, P ). Exemple 11.1 Le plan est assimilé à R2 . O désigne le point (0, 0) et R est un réel > 0. Une puce se déplace aléatoirement dans le disque D (O, R) de centre O et de rayon R. On note X la distance de la puce au centre O du disque. L’univers est l’ensemble des positions possible de la puce : Ω = D (O, R). On vérifie (le faire en exercice) que A = A ∩ Ω / A ∈ B R2 est une tribu sur Ω ; où B R2 est la tribu borélienne de R2 . On admet que A est la tribu sur Ω engendrée par les rectangles [a, b] × [c, d] inclus dans Ω et que cette tribu contient, en particulier, les fermés et ouverts relatifs de aire (B) aire (B) = se prolonge en une unique Ω. On admet aussi que l’application qui à chaque disque B associe aire (Ω) πR2 probabilité P sur l’espace probabilisable (Ω, A). X n’est rien d’autre que l’application D (O, R) M = (a, b) Pour tout x ∈ R, on a : donc, dans les trois cas, [X ≤ x] ∈ A. −→ 7−→ OM = [X ≤ x] = Ø [X ≤ x] = D (O, x) [X ≤ x] = Ω R √ a 2 + b2 ; si x < 0 ; si 0 ≤ x ≤ R ; si R < x Cela montre que X est une v.a.r sur l’espace probabilisé (Ω, A, P ). De plus sa fonction de répartition est donnée par : FX (x) = P (X ≤ x) = 0 x 2 πx2 aire (D (O, x)) ∀ x ∈ R, FX (x) = P (X ≤ x) = = = aire (D (O, R)) πR2 R F (x) = P (X ≤ x) = P (Ω) = 1 X On voit que FX est continue sur R ; donc X est une v.a.r.c sur (Ω, A, P ). 94 ; si x < 0 ; si 0 ≤ x ≤ R ; si R < x Remarque 11.1 Pour construire théoriquement une v.a.r.c, il suffit de se donner une fonction de répartition F : R −→ R continue (et pas seulement continue à droite). Le théorème 5.7 , assure qu’il existe un espace probabilisé (Ω, A, P ) et une v.a.r X sur cet espace telle que FX = F . Une telle v.a est continue. 1 . 1 + e−x F est croissante, continue sur R et de limites 0 et 1 en −∞ et +∞ respectivement. Elle est une fonction de répartition En guise d’exemple, prenons la fonction F définie de R dans R par : ∀ x ∈ R, F (x) = continue. Remarque 11.2 • D’après la proposition 5.3, la v.a.r X est continue si et seulement si pour tout x ∈ R, P (X = x) = 0. • Si X est une v.a.r continue sur (Ω, A, P ) alors pour tout couple (a, b) de réels, on a : P (X ≤ b) X<b ∪ X=b = P = P (X < b) + P (X = b) = P (X < b) (11.1) [par additivité] et, de même : P (X ≥ a) = P (X > a) et P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) (11.2) C’est à dire que pour tout intervalle I de R, la probabilité P (X ∈ I) est la même, quelque soit la nature de I : qu’il soit ouvert ou semi-ouvert ou fermé Remarque 11.3 Une v.a.r discrète X sur (Ω, A, P ) ne peut être continue, car on ne peut réunir P P (X = x) = 1 x∈X(Ω) Proposition 11.1 ∀ x ∈ X (Ω) , P (X = x) = 0 Soit X une v.a.r.c sur (Ω, A, P ). Alors, pour tout réel non nul λ, λX est une v.a.r.c sur (Ω, A, P ). Preuve Y = λX est déjà une v.a.r sur (Ω, A, P ). On traite deux pour expliciter FY (x) , x ∈ R : x x FY (x) = P (λX ≤ x) = P X ≤ = FX λ λ x F (x) = P (λX ≤ x) = P X ≥ x = 1 − P X < x = 1 − P X ≤ x = 1 − F Y X λ λ λ λ ; si λ > 0 ; si λ < 0 Dans les deux cas, les théorèmes généraux sur les fonctions continues montrent que FY est une fonction continue sur R. Donc la v.a.r Y = λX est continue. Remarque 11.4 • Le produit d’une v.a.r.c par 0 est la v.a nulle ; elle n’est pas une v.a.r.c car elle est discrète (v.a sûre). 95 • Soit X une v.a.r.c sur (Ω, A, P ). D’après la proposition 11.1, la v.a Y = −X est aussi une v.a.r.c sur (Ω, A, P ). Cependant X + Y = 0 n’est pas une v.a.r.c sur (Ω, A, P ). De tout cela, on déduit que l’ensemble Vc (Ω, A, P ) des v.a.r..c sur (Ω, A, P ) n’est pas stable ni par la loi externe ni par addition interne. Donc, contrairement à Vd (Ω, A, P ) ,il n’est pas un s.e.v de V (Ω, A, P ). 11.1.2 V.a.r absolument continues a) Fonctions continues presque partout, extension de la notion d’intégrale Vocabulaire Soit f : R −→ R une fonction. • On dit que f est continue presque partout sur R si elle ne présente qu’un nombre fini de points de discontinuité dans R. • On dit que f est de classe C 1 presque partout sur R si elle est de classe C 1 sur tout intervalle inclus dans R ∖ A pour une certaine partie finie A de R. Remarque 11.5 Toute fonction f : R −→ R continue [resp. de classe C 1 ] est continue presque partout [resp. de classe C 1 presque partout]. N.B • Ne pas confondre la notion de continuité presque partout avec la notion de continuité par morceaux sur R. En effet une fonction continue par morceaux de R dans R peut présenter une infinité de points de discontinuité dans R. Néanmoins, si une fonction f : R −→ R est continue par morceaux et présente un nombre fini de point de discontinuité alors elle est continue presque partout. La réciproque est fausse en général : En l’absence des conditions d’existence des limites réelles à droite et à gauches en les points de discontinuité, une fonction continue presque partout n’est pas forcément continue par morceaux sur R. • Ne pas confondre les termes « presque partout » et « presque sûrement » ; en effet, le premier vocabulaire est lié à l’analyse réelle alors que le deuxième est lié à la probabilité d’un espace probabilisé. Définition 11.2 Soit f : R −→ R une fonction continue presque partout et non continue. On note x1 , ..., xr les points de disconti- nuité de f numérotés dans le sens strictement croissant des indices. Si f est intégrable sur chacun des intervalles ]−∞, x1 [ , ]x1 , x2 [ , ..., ]xr−1 , xr [ et ]xr , +∞[, on dit qu’elle est intégrable sur R et on note Z +∞ −∞ f (t) dt = Z x1 −∞ f (t) dt + r−1 Z xi+1 X i=1 xi f (t) dt + Z +∞ f (t) dt xr Ce nombre est appelé l’intégrale de f sur R (ou de −∞ à +∞). Si I est un intervalle non vide de R d’extrémités a et b (−∞ ≤ a ≤ b ≤ +∞), on définit l’intégrabilité de f sur I et Z Z b son intégrale sur I, f (t) dt (qu’on peut aussi noter f (t) dt), de la même façon si I contient quelques uns des I a points xi ; sinon ces notions sont celles classiques d’une fonction continue sur I. Il est clair que f est intégrable sur R (resp. sur un intervalle I) si et seulement si la fonction |f | l’est. 96 On montre aisément, comme pour les fonctions continue ou continue par morceaux, que si f est intégrable sur R alors elle l’est sur tout intervalle I de R ; De plus quand f est une fonction positive, on a, dans cas cas : 0≤ Z I Z +∞ f (t) dt ≤ f (t) dt −∞ On vérifie, comme pour le cas des fonctions continues, les résultats suivants : • Pour pour (a, b) ∈ (R ∪ {−∞}) × (R ∪ {+∞}), on a : Z x a f (t) dt −→ x→+∞ Z +∞ f (t) dt, a Z x a f (t) dt −→ 0, x→a Z b x f (t) dt −→ 0 et x→b Z b x f (t) dt −→ x→−∞ Z b f (t) dt −∞ • L’additivité et la relation de Chasles s’étendent à cette notion d’intégrale. • Les critères d’intégrabilité s’étendent également à cette notion d’intégrale • Si la fonction continue presque partout f est intégrable et positive sur l’intervalle I alors Z I f (t) dt = 0 ⇐⇒ f est nulle presque partout dans I • Si dans la définition 11.2 f est de plus positive sur R alors l’intégrabilité sur R de f est équivalente à la convergence de ses intégrales sur les intervalles ]−∞, x1 [ , ]x1 , x2 [ , ..., ]xr−1 , xr [ et ]xr , +∞[. Remarque 11.6 L’intégrabilité et la valeur de l’intégrale sur R, ou sur un intervalle I de R, d’une fonction f : R −→ R continue presque partout généralise celles d’une fonction continue ou continue par morceaux. Convention importante : Pour une fonction f : R −→ R continue presque sûrement et positive, on notera Z +∞ f (t) dt le nombre élément de −∞ R+ ∪ {+∞} égal à l’intégrale sur R de f si elle est intégrable, et égal à +∞, sinon. Proposition 11.2 Soit f : R −→ R une fonction continue presque partout et soit g : R −→ R une fonction obtenue à partir de f en changeant les valeurs de celle-ci en un nombre fini de points. Alors 1. g est aussi une fonction continue presque partout. 2. la fonction g est intégrable sur R si et seulement si la fonction f l’est. De plus dans ce cas, on a : Z +∞ g (t) dt = −∞ Z +∞ f (t) dt −∞ Preuve Elle est laissée en exercice. Proposition 11.3 Soit f : R −→ R une fonction de classe C 1 presque partout et non de classe C 1 . Alors, tout prolongement de la fonction dérivée f ′ de f à R est une fonction continue presque partout. 97 Preuve Elle est laissée en exercice. Proposition 11.4 Soit f : R −→ R une fonction continue presque partout. Alors la fonction φ: R −→ x 7−→ Z x R f (t) dt −∞ est continue sur R et est de classe C 1 presque partout. De plus, pour tout réel x où f est continue, on a φ′ (x) = f (x). Preuve Elle est laissée en exercice (elle est seulement technique). Définition 11.3 On appelle fonction de densité (ou simplement densité) toute fonction f : R −→ R continue presque partout, Z +∞ f (t) dt = 1. positive et telle que −∞ Remarque 11.7 • Toute densité f est intégrable sur R d’intégrale égale à 1. • Toute fonction g obtenue à partir d’une densité f en modifiant les valeurs de celle-ci en un nombre fini de points par d’autres valeurs positives est encore une densité. Exemple 11.2 : Soit f la fonction réelle définie sur R par : ∀ x ∈ R, 2 f (x) = −xe− x2 ; si x ≤ 0 f (x) = 0 ; si x > 0 On voit que f est positive sur R et qu’elle est continue en tout point de R∗ . De plus, en passant par les limites à droite et à gauche en 0, on vérifie que f est continue aussi en 0 et de là sur R. Montrons qu’elle est intégrable sur R d’intégrale égale à 1. f est déjà intégrable sur [0, +∞[ et Z +∞ f (t) dt = 0, car f est nulle sur [0, +∞[. En outre, pour tout a < 0 on a : 0 Z 0 f (t) dt Z 0 e− 2 0 = a t2 a = = e t2 −2 a a2 1 − e− 2 98 ′ dt D’où : Z 0 f (t) dt −→ 1. a→−∞ Z 0 l’intégrale f (t) dt est donc convergente. cela suffit pour que f soit intégrable sur R, étant donné qu’elle est a positive. −∞ En résumé f est intégrable sur R et f est bien une densité. Z +∞ f (t) dt = −∞ Z 0 f (t) dt + −∞ Z +∞ f (t) dt = 1 + 0 = 1 0 Exemple 11.3 Soit f la fonction réelle définie sur R par : f (x) = 0 1 f (x) = √ 2 x f (x) = 0 ; si x ≤ 0 ; si 0 < x ≤ 1 ; si 1 < x f est continue en tout point de R sauf en 0 et en 1 ; ce qui fait de f une fonction continue presque partout sur R (remarquons qu’elle n’est cependant pas continue par morceaux car f (x) −→+ +∞) . De plus elle est positive. x→0 Z 0 Z 1 Finalement on vérifie que les trois intégrales f (t) dt, f (t) dt et −∞ 0 Z +∞ f (t) dt = 1. f est une densité. tivement 0, 1 et 0. D’où Z +∞ f (t) dt convergent et valent respec- 1 −∞ Exemple 11.4 1 La fonction f : t 7−→ est une continue, positive et intégrable sur R avec π (1 + t2 ) Donc f est une densité. Z +∞ f (t) dt = 1 (le vérifier). −∞ Exercice 11.1 Chercher des v.a.r continue mais non absolument continues b) V.a.r continues à densité Théorème et définition 11.4 Soit X une v.a.r sur (Ω, A, P ). Alors les p.s.s.e : (i) (ii) La fonction de répartition de X est continue sur R et est de classe C 1 presque partout dans R Z x il existe une densité f telle que pour tout x ∈ R, on ait FX (x) = f (t) dt −∞ Dans ce cas, X est dite une v.a absolument continue (ou continue à densité) et une telle fonction f est dite une densité de probabilité (ou simplement une densité) de X. Preuve... ′ à R en lui donnant la valeur 0, par exemple, aux points Elle est seulement technique (pour (i) =⇒ (ii), on prolonge la fonction dérivéeFX où elle n’est pas définie pour obtenir une densité f qui vérifie (ii), et pour (ii) =⇒ (i), on applique directement la proposition 11.4) 99 Visualisation de la fonction de répartition d’une v.a.r.c à densité En notant f une densité de la variable X, la fonction de la répartition FX évaluée en a correspond à la probabilité P (X ≤ a) et représente l’aire du domaine sous la courbe de f jusqu’au point d’abscisse a. Notation D’après les considérations précédentes, il n’y a pas unicité dans la notion de densité de probabilité d’une v.a.r absolument continue X : si f est une densité de X alors toute modification des valeurs de f en un nombre fini de points par d’autres valeurs positive amène une autre densité de X. Toutefois, on notera fX toute densité de probabilité de X. Remarque 11.8 • La donnée d’une densité pour une v.a.r absolument continue détermine complètement sa fonction de répartition, donc sa loi. ′ • Pour une v.a.r absolument continue X de fonction de répartition FX et de densité fX , on a fX = FX presque partout, c’est à dire qu’elles sont égales dans R sauf, peut-être en un nombre fini de points. Proposition 11.5 Soit f : R −→ R une fonction de densité. Alors, il existe un espace probabilisé (Ω, A, P ) et une v.a.r. absolument continue X sur (Ω, A, P ) tels que f est une densité de probabilité de X. Preuve On note F la fonction de R dans R définie par : ∀ x ∈ R, F (x) = Z x f (t) dt . −∞ (i) Cette fonction F est bien définie car la densité f est intégrable sur R et, de là, sur tout intervalle de la forme ]−∞, x]. (ii) Montrons que F est une fonction de répartition. D’après la proposition 11.5, la fonction F est continue sur R, en particulier, elle est continue à droite en tout point de R. D’autre part, la positivité de la densité f nous permet de déduire : Z +∞ Z x f (t) dt ≤ f (t) dt = 1 − ∀ x ∈ R, 0 ≤ F (x) = −∞ et − −∞ ∀ (x, y) ∈ R, x < y =⇒ F (x) = 100 Z x −∞ f (t) dt ≤ Z y −∞ f (t) dt = F (y) Donc, F prend ses valeurs dans [0, 1] et elle est croissante. Z x Z x En outre, F (x) = f (t) dt −→ 0 et F (x) = f (t) dt −→ −∞ x→−∞ x→+∞ −∞ Z +∞ f (t) dt = 1. −∞ En conclusion, F est une fonction de répartition. (iii) Conclusion : D’après le théorème 5.7, il existe un Zespace probabilisé (Ω, A, P ) et une v.a.r. X sur (Ω, A, P ) tels que FX = F . Cette x v.a.r est absolument continue car : ∀ x ∈ R, FX (x) = f (t) dt. CQFD −∞ Théorème 11.1 Soit X une v.a.r sur (Ω, A, P ). Alors les p.s.s.e : (i) X est absolument continue (ii) il existe une densité f telle que pour tout intervalle I de R, on ait P (X ∈ I) = Z f (t) dt I De plus, dans ce cas, f est une densité de X. Preuve Supposons donnée d’une fonction de densité f telle que pour I ∈ I ,on ait P (X ∈ I) = Z f (t) dt ZI x f (t) dt. En appliquant cela aux intervalles ]−∞, x], on obtient : ∀ x ∈ R, FX (x) = P (X ≤ x) = −∞ Alors, d’après la définition 11.4, X est une v.a.r absolument continue. Réciproquement, supposons que X est absolument continue et soit f une densité de X. On a, par définition : Z x f (t) dt ∀ x ∈ R, FX (x) = −∞ Montrons que : ∀ I ∈ I , P (X ∈ I) = Z f (t) dt I Soit I un intervalle de de R. Traitons d’abord le cas où I est un intervalle borné. Notons ses extrémités réels a et b, avec où a ≤ b. Dans ce cas, sachant que X est une var continue, les relation (11.2) permettent d’affirmer que quelque soit la nature de cet intervalle borné I,on a : P (X ∈ I) = P (a < X ≤ b) = P = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a) = Z b f (t) dt − Z b Z X≤b ∖ X≤a −∞ D’où par la relation de Chasles : P (X ∈ I) = a f (t) dt = Z a [car X ≤ a ⊂ X ≤ b ] f (t) dt −∞ f (t) dt. I Ensuite dans le cas où I est majoré et non minoré, qu’il soit de la forme ]−∞, b] ou ]−∞, b[ (b ∈ R), on selon les relations (11.1) : P (X ∈ I) = P (X ≤ b) = Z b f (t) dt −∞ = Z f (t) dt I Finalement, dans le cas où I est un intervalle minoré et non majoré de la forme [a, +∞[ ou ]a, +∞[ (a ∈ R), on a aussi pour les mêmes 101 raisons, P (X ∈ I) = P (X > a), d’où : P (X ∈ I) [d′ après la loi de l′ événement contraire] = 1 − P (X ≤ a) = Z +∞ f (t) dt − Z +∞ f (t) dt −∞ = Z a f (t) dt [car f est une densité] −∞ [d′ après la relation de Chasles] a Z = Dans tous les cas on a : P (X ∈ I) = CQFD. Z f (t) dt I f (t) dt I Théorème 11.2 Soit X une v.a.r continue à densité sur l’espace probabilisé (Ω, A, P ). Alors pour tout (a, b) ∈ R∗ × R, la v.a.r Y = aX + b est continue à densité et une densité de Y est donnée par : 1 fX ∀ x ∈ R, fY (x) = |a| x−b a Preuve Soit x ∈ R. On a : = P (Y ≤ x) = P (aX ≤ x − b) FY (x) = P (Y ≤ x) = P (aX ≤ x − b) = Mais on a : P X≥ x−b a =1−P X< x−b a D’où x−b P X ≤ a ; si a > 0 P X ≥ x − b a =1−P X≤ ; si a < 0 x−b . a x−b FY (x) = FX a ; si a > 0 FY (x) = 1 − FX x − b a ; si a < 0 Il ressort de cela, en utilisant les opérations sur les fonctions continues et sur les fonctions dérivables, que dans les deux cas, a > 0 et a < 0, la fonction FY est continue sur R et de classe C 1 presque partout (les singularité éventuelles yi de FY , pour la dérivation, sont reliées aux singularités xi de X par yi = axi + b). Donc Y est une v.a.r continue à densité sur (Ω, A, P ). De plus, une densité de Y est donnée par tout prolongement positif g de la dérivée FY′ . Or pour réel x où FY est dérivable on a : ′ 1 1 ′ x−b x−b x−b = fX = FX FY′ (x) = FX a a a a a ′ ′ 1 1 ′ x−b x−b x−b x−b FY′ (x) = 1 − FX = − fX = − FX = − FX a a a a a a On peut résumer cela par FY′ (x) = On prend : ∀ x ∈ R, fY (x) = g (x) = 1 fX |a| x−b . a 1 fX |a| 102 x−b a ; si a > 0 ; si a < 0 Proposition 11.6 Soit X une v.a.r continue à densité sur l’espace probabilisé (Ω, A, P ). Alors pour tout k ∈ N∗ , la v.a.r Y = X k est à densité. Preuve Notons fX une densité de X et soit k ∈ N∗ . Montrons que la v.a.r Y = X k est à densité. Pour cela, On distingue deux cas : 1ier cas : k est un nombre impair Dans ce cas, on sait que la fonction u : x 7−→ xk est une bijection strictement croissante de R sur R de bijection √ réciproque la fonction v : x 7−→ k x, qui est, elle aussi, strictement croissante sur R. De plus u est de classe C ∞ sur R et v est continue sur R et est de classe C ∞ sur ]−∞, 0[ et ]0, +∞[. √ √ On a, pour tout x ∈ R : FY (x) = P (Y ≤ x) = P (u (X) ≤ x) = P (X ≤ k x) = FX ( k x) = FX (v (x)) On voit que par composition, FY est continue sur R et qu’elle est de classe C 1 presque partout (si c1 , ..., cr sont les ′ singularités éventuelles de FX alors celles de FY′ sont u (c1 ) , ..., u (cr ) ). 2ième cas : k est un nombre pair Dans ce cas, la fonction u : x 7−→ xk est de classe C ∞ sur R, est à valeurs dans R+ , strictement décroissante sur R− , strictement croissante sur R+ et sa restriction u1 à R+ est une bijection strictement croissante de R+ sur R+ √ de bijection réciproque la fonction v1 : x 7−→ k x, qui est, elle aussi, strictement croissante sur R+ . De plus, v1 est continue sur R+ et est de classe C ∞ sur R∗+ . Soit x ∈ R. On a : FY (x) = P (Y ≤ x) = P X k ≤ x . D’où : D’où si x < 0, FY (x) = P (Ø) = 0 si x = 0, FY (0) = P X k ≤ 0 = P (X = 0) = 0 [car X est une v.a.r continue] √ si x > 0 F (x) = P X k ≤ x = P X k ≤ x = P (− √ k x ≤ X ≤ k x) Y F (x) = 0 Y ; si x ≤ 0 √ F (x) = F ( √ k x) − FX (− k x) Y X ; si x > 0 Comme FX est continue sur R et de classe C 1 presque partout, elle l’est en particulier dans R∗+ et dans R∗− . De √ √ plus les fonction v1 : x 7−→ k x et −v1 : x 7−→ − k x sont de classe C ∞ sur R∗+ et à valeurs dans R∗+ et dans R∗− √ √ respectivement et sont strictement monotones les fonctions x 7−→ FX ( k x) et x 7−→ FX (− k x) sont continues sur R∗+ et de classe C 1 presque partout. Alors, par différence, la fonction FY est continue sur R∗+ et de classe C 1 presque partout dans R∗+ . Comme FY est nulle sur R− , FY est continue sur R (le cas singulier 0 se traite aisément par limites à droite et à gauche) et est de classe C 1 presque partout. En conclusion, et dans les deux cas, FY est continue sur R et est de classe C 1 presque partout. Donc la v.a.r Y = X k est continue à densité. c) Somme de deux v.a.r à densité On a noté ci-dessus qu’en général la somme de deux v.a.r.c peut ne pas être continue. Ici, on se crée des conditions pour que la somme de deux v.a.r continues à densité soit aussi continue à densité. 103 Vocabulaire et notation Pour f, g : R −→ R continues presque partout, on note f ∗ g la fonction en tout réel x par : f ∗ g (x) = Z +∞ −∞ f (t) g (x − t) dt sous réserve d’existence dans R (c’est à dire de convergence de l’intégrale). Cette fonction f ∗ g est appelée le produit de convolution (ou la convoluée) de f et g. Son ensemble de définition est l’ensemble des réels x pour lesquels Z +∞ f (t) g (x − t) dt est convergente. l’intégrale −∞ Remarque 11.9 • On vérifie moyennant le changement de variables u = x − t que pour tout réel x, f ∗ g (x) existe si et seulement si g ∗ f (x) existe et que, dans ce cas, on a f ∗ g (x) = g ∗ f (x) • Si f1 [resp. g1 ] est une fonction égale à f [resp. g] presque partout dans R alors les fonctions f1 ∗ g1 et f ∗ g sont le même ensemble de définition D et sont égales sur D. Théorème 11.3 Soit X et Y deux v.a.r sur (Ω, A, P ) absolument continues de densités respectives fX et fY telles que : (i) X et Y sont indépendantes (ii) la convoluée fX ∗ fY est définie sur R et est continue presque partout et Alors la v.a.r X + Y est absolument continue et la fonction fX ∗ fY en est une densité Preuve Elle est admise. N.B Dans ce théorème 11.3, et en vertu du deuxième point de la remarque 11.9 précédente, la loi de X + Y définie pa la densité fX ∗ fY est bien définie car indépendante du choix des densité fX et fY des v.a.r X et Y respectivement. Exercice 11.2 Soit X et Y deux v.a.r à densité et indépendantes sur (Ω, A, P ). Montrer que X + Y est à densité et en préciser une densité dans les cas suivants : (i) (ii) fX = fY : t 7−→ e−t .φ[0,+∞[ (t) fX = fY : t 7−→ φ[0,1] (t) ; où φ[0,+∞[ est la fonction caractéristique de [0, +∞[ ; où φ[0,1] est la fonction caractéristique de [0, 1] 104 11.2 Espérance, moments et variance 11.2.1 Espérance d’une v.a.r continue à densité Définition 11.5 Soit X une v.a.r continue à densité sur l’espace probabilisé (Ω, A, P ). On dit que X admet une espérance si et seulement si la fonction t 7−→ tfX (t) est intégrable sur R ; où fX est une densité de probabilité de f . Z +∞ tfX (t) dt est appelé l’espérance de X ; il est noté E (X) . Dans ce le nombre réel égal à −∞ Ainsi, en cas d’intégrabilité : E (X) = Z +∞ tfX (t) dt −∞ Remarque 11.10 • Cette définition ne dépend pas de la densité fX de X choisie car pour toute autre densité gX de X les fonctions t 7−→ tfX (t) et t 7−→ tgX (t) sont égales presque partout dans R, donc ont la même nature d’intégrabilité et la même intégrale. • Vu que la fonction t 7−→ tfX (t) est de signe constant sur chacun des intervalles ]−∞, 0] et [0, +∞[, on peut dire Z 0 Z +∞ que X admet une espérance si et seulement si les intégrales tfX (t) dt et tfX (t) dt convergent, c’est à dire −∞ 0 Z +∞ tfX (t) dt converge (ce qui est moins contraignant que l’intégrabilité de la fonction t 7−→ tfX (t) que l’intégrale −∞ sur R). • La fonction t 7−→ t est bornée sur tout intervalle borné I de R, donc la fonction t 7−→ tfX (t) est dominée par la densité fX sur tout tel intervalle. Il ressort de cela que pour que la v.a.r à densité X admette une espérance il faut et il suffit que la fonction t 7−→ tfX (t) soit intégrable sur un intervalle de la forme ]−∞, a] et sur un intervalle de la forme [b, +∞[ ; a et b étant arbitrairement choisis. Exemple 11.5 La v.a.r X de densité la fonction f : t 7−→ 2 −te− t2 0 (voir l’exemple 11.2) admet une espérance car les intégrales Z +∞ Z +∞ 0.dt convergent. De plus, on a tf (t) dt = 0 et : 0 ; si t ≤ 0 ; si t > 0 Z 0 −∞ tf (t) dt = − Z 0 t2 t2 e− 2 dt et −∞ Z +∞ tf (t) dt = 0 0 Z 0 −∞ tf (t) dt = − Z 0 t2 2 −2 t e dt = −∞ Z 0 −∞ t −te dt = t2 −2 ) t2 −2 Z 0 t e −∞ t2 −2 ′ ′ Z 0 t2 −2 dt = lim t e dt x→−∞ x D’où par intégration par parties : Z 0 −∞ tf (t) dt = lim x→−∞ ( te t2 −2 0 x − Z 0 e x dt = lim x→−∞ −xe x2 − 2 − Z 0 √ D’autre part, avec le changement de variable t = −u 2, on a : Z 0 x e t2 −2 √ √ Z 0 √ Z −x/ 2 −u2 −u2 dt = − 2 e (du) = 2 e du √ −x/ 0 2 105 x e t2 −2 dt = D’où : Z 0 tf (t) dt = lim x→−∞ −∞ Donc E (X) = Z 0 tf (t) dt + −∞ Z +∞ 0 −xe x2 − 2 − Z 0 e t2 −2 x dt √ √ Z +∞ −u2 2π =− 2 e du = − 2 0 √ 2π (on rappelle la valeur tf (t) dt = − 2 Z +∞ e −u2 du = 0 √ π ) 2 Exemple 11.6 Soit X la v.a.r à densité la fonction f : t 7−→ 0 1 √ 2 t ; si t ≤ 0 ou t > 1 ; si 0 < t ≤ 1 (voir l’exemple 11.3). La fonction t 7−→ tf (t) est nulle sur ]−∞, 0] et ]1, +∞[, les intégrales Z +∞ tf (t) dt convergent et valent 0. D’après la remarque 11.9, X admet une espérance et on a : Z 0 tf (t) dt et −∞ 0 E (X) = Z +∞ tf (t) dt = −∞ Z 0 tf (t) dt + −∞ Z 1 tf (t) dt + 0 Z +∞ tf (t) dt = 0 Z 1 0 1 t √ dt = 2 2 t Z 1√ tdt 0 1 2 √ 2 t t = . 3 3 0 0 1 Donc : E (X) = . 3 Or Z 1 √ tdt = Exemple 11.7 Soit X la v.a.r de densité la fonction f : t 7−→ 1 1 (voir l’exemple 11.4). On a : tf (t) ∼ t→±∞ πt π (1 + t2 ) Cela montre que la fonction t 7−→ tf (t) n’est pas intégrable sur R, donc X n’admet pas une espérance. Proposition 11.6 Soit X une v.a.r à densité sur (Ω, A, P ) telle que X est bornée presque sûrement sur Ω. Alors X admet une espérance. Preuve Soit f une densité de X. Supposons donné (a, b) ∈ R2 telle que P (a ≤ X ≤ b) = 1. On a a ≤ X ≤ b = X < a ∪ X > b . On en déduit que : Donc Z a −∞ f (t) dt = P (X < a) = 0 et Z +∞ 0 ≤ P (X < a) ≤ P a ≤ X ≤ b = 0 0 ≤ P (X > b) ≤ P a ≤ X ≤ b = 0 f (t) dt = P (X > b) = 0, ce qui montre que f est nulle presque partout dans chacun des b intervalles ]−∞, a] et [b, +∞[, de même que la fonction t 7−→ tf (t). Cette dernière est donc intégrable sur ces deux intervalle donc sur R. La v.a.r X admet donc une espérance (voir la remarque 11.10). 106 Théorème 11.4 (positivité de l’espérance) Soit X une v.a.r à densité sur (Ω, A, P ) telle que : (i) X admet une espérance (ii) X est positive presque sûrement sur Ω et Alors E (X) > 0. Preuve Notons f une densité de X. Avec l’hypothèse (ii), on a P (X < 0) = 0. D’où Z 0 f (t) dt = 0. −∞ Alors, comme f est intégrable et positive, on a f est nulle presque partout dans ]−∞, 0[. On en déduit que l’application t 7−→ tf (t) est nulle presque partout dans ]−∞, 0[et donc, pour l’espérance de X : Z 0 Z +∞ Z +∞ Z +∞ tf (t) dt = tf (t) dt + tf (t) dt = tf (t) dt E (X) = −∞ −∞ 0 0 Alors E (X) ≥ 0 comme intégrale d’une fonction positive. Montrons que l’inégalité est stricte. Pour cela, raisonnons par l’absurde et supposons que E (X) = 0. On a selon le calcul précédent : Z +∞ tf (t) dt = 0 0 Comme la fonction t 7−→ tf (t) est continue presque partout et positive, elle est nulle presque partout dans [0, +∞[. Cela montre que f Z +∞ f (t) dt = 1 l’est sur ]0, +∞[. Et, sachant que l’est déjà dans ]−∞, 0[, on a : f est presque partout nulle dans R. Cela est absurde car −∞ Donc E (X) > 0. Théorème 11.5 Soit X une v.a.r à densité sur (Ω, A, P ) admettant une espérance. Alors pour (a, b) ∈ R2 , la v.a.r aX + b admet également une espérance et on a E (aX + b) = aE (X) + b Preuve Notons fX une densité de X. Soit (a, b) ∈ R2 . Posons Y = aX + b Écartons le cas trivial a = 0, où Y = b est une v.a.r.d sûre. Supposons dans la suite que a ̸= 0. D’après le théorème 11.2, la Y est à densité sur (Ω, A, P ) et une densité de Y est la fonction fY définie sur R par : 1 x−b fX ∀ x ∈ R, fY (x) = |a| a Montrons que Y admet une espérance et que E (Y ) = aE (X) + b Z +∞ Pour cela, et d’après la remarque 11.10, il suffit de montrer que l’intégrale Z +∞ −∞ Soit (x, y) ∈ R2 tel que x < y. On a : Z y x tfY (t) dt = a tfY (t) dt = Z +∞ Z y x −∞ −∞ tfX (t) dt + b t fX |a| 107 tfY (t) dt converge et que t−b a dt D’où en effectuant le changement de variables affine u = Z y tfY (t) dt Z y−b a au + b f (u) (adu) X x−b |a| a = x = Ainsi quand x tend vers −∞ et y tend vers +∞, t−b : a a2 |a| Z y Z y−b Z y−b a uf (u) du + ab a f (u) du X X x−b |a| x − b a a tfY (t) dt tend vers la limite réelle L donnée par : x Z +∞ Z +∞ L = a uf (u) du + b fX (u) du X −∞ −∞ Z −∞ Z −∞ L = −a ufX (u) du − b fX (u) du +∞ ; si a > 0 ; si a < 0 +∞ Dans les deux cas L = aE (X) + b. CQFD Théorème 11.6 Soit X et Y deux v.a.r à densité sur (Ω, A, P ) admettant une espérance telles que X + Y est discrète ou à densité. Alors X + Y admet une espérance et on a E (X + Y ) = E (X) + E (Y ) Preuve Elle est admise. Remarque 11.11 Le théorème 11.6 et le théorème 11.5, combinés, prouvent que si X et Y sont deux v.a.r à densité sur (Ω, A, P ) admettant une espérance alors pour tout (λ, µ) ∈ R2 , la v.a.r λX + µY admet une espérance dès qu’elle est discrète ou à densité et on a : E (λX + µY ) = λE (X) + µE (Y ). On admet que cette formule s’étend au cas général de deux v.a.r X et Y discrète ou à densité. On parlera encore de linéarité de l’espérance tout en sachant que ce n’est qu’un abus de langage car l’ensemble des v.a.r discrètes ou continues à densité n’est pas un R-ev. Corollaire 11.1 (croissance de l’espérance) Soit X et Y sont deux v.a.r à densité sur (Ω, A, P ) admettant une espérance telles que X ≤ Y presque sûrement et la v.a.r Y − X est discrète ou à densité. Alors E (X) ≤ E (Y ). Preuve Par hypothèse, on a P (X ≤ Y ) = 1, c’est à dire P (Y − X ≥ 0) = 1. Cela veut dire que la v.a.r Y − X est positive presque sûrement. Mais d’après les deux théorèmes précédents, Y −X admet une espérance et E (Y − X) = E (Y )−E (X). D’où par positivité de l’espérance d’une v.a.r discrète ou à densité, E (Y ) − E (X) ≥ 0, soit : E (X) ≤ E (Y ). On a la généralisation suivante de ce corollaire : 108 Proposition 11.7 Soit X et Y deux v.a.r discrètes ou à densité sur (Ω, A, P ) admettant une espérance telle que X ≤ Y presque sûrement. Alors E (X) ≤ E (Y ) Preuve Elle est admise. N.B La généralisation ne concerne pas uniquement la nature des v.a.r X et Y (discrètes ou à densité) mais par rapport à la nature de la v.a.r Y − X ; en effet, dans la proposition 11.7, il n’est spécifié si Y − X est discrète ou à densité ou autre. Théorème 11.7 Soit n ∈ N∗ et X1 , ..., Xn n v.a.r discrètes ou à densité sur (Ω, A, P ) telles que (i) (ii) q y Pour tout k ∈ 1, n , Xk admet une espérance la famille (X1 , ..., Xn ) est mutuellement indépendante Alors la v.a.r produit X1 ...Xn admet une espérance et on a : E (X1 ...Xn ) = E (X1 ) ...E (Xn ) Preuve Elle est admise. N.B Ce résultat a été démontré dans le cas de v.a.r.d quand n = 2. On peut étendre la démonstration au cas de n v.a.r.d en raisonnant par récurrence. Le lecteur est invité à le faire en exercice. 11.2.2 Théorème de transfert à une variable continue à densité Théorème 11.8 (de transfert) Soit X une v.a.r à densité sur (Ω, A, P ) et f une densité de X. Soit I un intervalle de R tel que X (Ω) ⊂ I et φ : I −→ R une fonction continue presque partout dans I telle que la v.a.r φ (X) est discrète ou continue à densité. Alors (i) φ (X) admet une espérance si et seulement si la fonction t 7−→ φ (t) f (t) est intégrable sur R Z φ (t) f (t) dt (ii) Si φ (X) admet une espérance alors E (φ (X)) = I Preuve Elle est admise. 109 Remarque 11.12 Comme le théorème de transfert à une v.a.r discrète, le théorème de transfert à une v.a.r à densité permet de calculer l’espérance d’une fonction d’une v.a.r à densité X en utilisant seulement la loi de X. Remarque 11.13 Une fonction d’une v.a.r à densité n’est pas forcément à densité ; elle peut même être non continue. En effet, soit 1 X une v.a.r absolument continue dont une densité est la fonction f : x 7−→ φ[0,4] (x) (vérifier que f est bien une 4 densité) On constate que : P (X ∈ [0, 1]) = Z f (t) dt = [0,4] 1 4 Z 4 dt = 1 0 Ce dont on peut déduire que X prend ses valeurs dans [0, 4] presque sûrement. Soit φ : [0, 4] −→ R la fonction partie entière. Elle est continue presque partout dans [0, 4] car elle n’est discontinue qu’en 1, 2,3 et 4. On constate que la v.a.r φ (X), bien définie presque sûrement, est discrète finie puisqu’elle ne prend que les valeurs 0, 1, 2, 3 et 4. Cette v.a.r n’est donc pas continue, et encore moins à densité. Le lecteur est invité à calculer son espérance, d’abord en déterminant et utilisant sa loi discrète, puis, en guise de vérification, en utilisant le théorème 11.8 précédent. Exercice 11.3 Démontrer le théorème de transfert à une variable à densité dans le cas particulier où la fonction φ est de classe C 1 et φ′ strictement positive. 11.2.3 Moments d’ordres supérieurs d’une v.a.r à densité Définition 11.6 Soit X une v.a.r à densité sur (Ω, A, P ) et fX une densité de X. Soit r ∈ N∗ . On dit que X admet un moment d’ordre r si et seulement si la fonction t −→ tr fX (t) est intégrable sur R. Dans Z +∞ tr fX (t) dt est appelé le moment d’ordre r de X ; il est noté µr (X). ce cas, le nombre réel −∞ Ainsi, sous réserve d’intégrabilité, µr (X) = Z +∞ tr fX (t) dt −∞ N.B La définition est cohérente car aussi bien l’existence du moment d’ordre r que sa valeur µr (X) est indépendante du choix de la densité fX se X. Remarque 11.14 • Soit X une v.a.r à densité sur (Ω, A, P ) et r ∈ N∗ . D’après le théorème de transfert à une v.a.r à densité, X admet un moment d’ordre r si et seulement si X r admet une espérance ; de plus, dans ce cas : µr (X) = E (X r ) En particulier pour r = 1, X admet un moment d’ordre 1 si et seulement si X admet une espérance ; et dans ce cas, on a : µ1 (X) = E (X) • Soit X une v.a.r à densité sur (Ω, A, P ) et fX une densité de X. Soit r ∈ N∗ . Comme dans la remarque 11.10, la fonction t 7−→ tr fX (t) garde un signe constant dans chacun des intervalles ]−∞, 0] et [0, +∞[ et, de ce fait, on 110 se ramène à ce que son intégrabilité est équivalente à la convergence de l’intégrale Z +∞ tr fX (t) dt. De plus, cette −∞ fonction étant dominée par la densité fX sur tout intervalle borné (car la fonction polynôme t 7−→ tr est bornée sur tout tel intervalle) ; donc, l’existence du moment d’ordre r pour X se trouve équivalente à seulement la convergence Z +∞ Z a tr fX (t) dt et tr fX (t) dt, où (a, b) est un couple de réels arbitraire. de deux intégrales −∞ b • Soit X une v.a.r à densité sur (Ω, A, P ) et fX une densité de X. Pour tout entier naturel non nul et pair r, la fonction t 7−→ tr fX (t) est positive sur R tout entier. Donc les moments d’ordre pairs, s’ils existent, sont tous positifs. Exercice 11.4 Soit X une v.a.r à densté sur (Ω, A, P ) admettant un moment d’ordre un entier r pair. Montrer que µr (X) > 0. Proposition 11.8 Soit X une v.a.r à densité sur (Ω, A, P ) telle que X est bornée presque sûrement sur Ω. Alors X admet un moment à tout ordre. Preuve Soit f une densité de X. Supposons donné (a, b) ∈ R2 telle que P (a ≤ X ≤ b) = 1. Soit r ∈ N∗ . On a [a ≤ X ≤ b] = [X < a] ∪ [X > b]. On en déduit que : 0 ≤ P (X < a) ≤ P [a ≤ X ≤ b] = 0 0 ≤ P (X > b) ≤ P [a ≤ X ≤ b] = 0 Donc Z a f (t) dt = P (X < a) = 0 et −∞ Z +∞ f (t) dt = P (X > b) = 0, ce qui montre que f est nulle presque partout dans chacun des b intervalles ]−∞, a] et [b, +∞[, de même que la fonction t 7−→ tr f (t). Cette dernière est donc intégrable sur ces deux intervalle donc sur R. La v.a.r X admet donc un moment d’ordre r (voir la remarque 11.14). Proposition 11.9 Soit X une v.a.r à densité sur (Ω, A, P ) et r ∈ N∗ tels X admet un moment d’ordre r. Alors X admet un moment à tout ordre k ∈ J1, rK. Preuve Soit f une densité de X et soit k ∈ J1, rK. On a, en utilisant que les valeurs de la densité f sont positives : |t| ≤ 1 =⇒ |t|k f (t) ≤ f (t) ∀ t ∈ R, |t| > 1 =⇒ |t|k f (t) ≤ |t|r f (t) D’où, en conséquence : ∀ t ∈ R, tk f (t) ≤ f (t) + |tr f (t)| Comme les fonctions f : t 7−→ f (t) et t 7−→ tr f (t) sont intégrables sur R, le critère de domination s’applique et montre que t 7−→ tk f (t) est intégrable sur R également. Ce qui achève de montrer que X admet un moment d’ordre k. Proposition 11.10 Soit X une v.a.r à densité sur (Ω, A, P ) et r ∈ N∗ tels X admet un moment d’ordre r. Alors pour tout réel c, la v.a.r X + c admet un moment à tout ordre r. 111 Preuve Soit c ∈ R. La v.a.r X + c est à densité selon le théorème 11.2. Il s’agit, pour le reste, de montrer que (X + c)r admet une espérance. Par la formule du binôme de Newton, on a : (X + c)r = r X r k k=0 cr−k X k = cr + r X r k=1 k cr−k X k (∗) D’après la proposition 11.6, chacune des v.a.r X k (1 ≤ k ≤ r) est à densité et, selon la proposition 11.8, admet une espérance. Donc, par r r P P r r−k k r r−k k C.L, la v.a.r X admet une espérance, étant donné qu’elle est à densité en vertu de la relation X = (X + c)r −cr , c c k k k=1 k=1 du théorème 11.2 et de la proposition 11.6. Finalement, d’après le théorème 11.2, la relation (∗) montre que la v.a.r (X + c)r admet une espérance. CQFD 11.2.4 Moments d’ordre 2 et variance Définition 11.8 Soit X une v.a.r à densité sur (Ω, A, P ) . 2 On dit que X admet une variance si et seulement si X admet une espérance et (X − E (X)) admet une espérance. Dans ce cas le nombre réel E (X − E (X)) 2 est appelé la variance de X ; on le note V (X). 2 Ainsi, et sous réserve d’existence : V (X) = E (X − E (X)) Remarque 11.15 Soit X une v.a.r à densité sur (Ω, A, P ) et fX une densité de X. Supposons que X admet une variance. Alors, selon le théorème de transfert à une v.a.r à densité, on a : V (X) = Z +∞ −∞ 2 (t − E (X)) fX (t) dt Théorème 11.9 (formule de König-Huygens) Soit X une v.a.r à densité sur (Ω, A, P ). Alors la v.a.r X admet une variance si et seulement si elle admet un moment d’ordre 2. De plus, dans ce cas, on a : 2 V (X) = E X 2 − E (X) (11.3) La relation (11.3) est connue sous le nom de formule de König-Huygens. Nous l’avons déjà démontrée dans le cadre des v.a.r discrète ; ici, il s’agit de l’étendre aux v.a.r à densité. Elle s’écrit explicitement : V (X) = Z +∞ −∞ t2 fX (t) dt − Z +∞ −∞ tfX (t) dt 2 Preuve • Supposons que X admet une variance. Pa définition, elle admet une espérance et X − E (X) admet un moment d’ordre 2. Il vient en appliquant la proposition 11.9 à la constante c = E (X) et à la v.a.r à densité X = E (X), on affirme que X = (X − E (X)) + E (X) admet un moment d’ordre 2. Réciproquement, supposons que la v.a.r X admet un moment d’ordre 2. D’après la proposition 11.8, X admet en conséquence un moment d’ordre 1, c’est à dire une espérance. Ensuite, en appliquant la proposition 11.10 à la constante c = −E (X) et à la v.a.r à densité X, on obtient que X − E (X) admet un moment d’ordre 2. Ainsi : X admet une espérance (X − E (X))2 admet une espérance 112 Ce qui veut dire que X admet une variance. Cela achève de montrer l’équivalence du fait que X admet une variance et le fait qu’elle admet un moment d’ordre 2 • Supposons que X admet une variance et montrons la relation de König-Huygens. Pour cela, développons : V (X) = E (X − E (X))2 = E X 2 − 2E (X) .X + (E (X))2 D’où par C.L (s’assurer des conditions) : V (X) = E X 2 − 2E (X) .E (X) + (E (X))2 = E X 2 − (E (X))2 CQFD Théorème 11.10 Soit X une v.a.r à densité sur (Ω, A, P ) admettant une variance . Alors : 1. V(X) > 0. 2. Pour tout (a, b) ∈ R2 tel que a ̸= 0, la v.a.r aX + b admet également une variance et on a : V (aX + b) = a2 V (X) Preuve La v.a.r (X − E (X))2 est à densité en vertu du théorème 11.2 et de la proposition 11.6. De plus elle est positive sur Ω et admet une espérance. Par positivité de l’espérance, on a V (X) > 0. d’où 1. D’autre part, pour (a, b) ∈ R2 tel que a ̸= 0, la v.a.r Y = aX + b admet une espérance avec E (Y ) = aE (X) + b et on a : (Y − E (Y ))2 = ((aX + b) − (aE (X)) + b)2 = a2 (X − E (X))2 donc (Y − E (Y ))2 admet une espérance avec E (Y − E (Y ))2 = a2 E (X − E (X))2 . En conclusion Y admet une variance et on a : V (Y ) = a2 V (X) D’où 2. Vocabulaire et notation Pour une v.a.r X à densité sur (Ω, A, P ) admettant une variance, on a : p • V (X) est un réel strictement positif bien défini car V (X) > 0 ; ce réel est appelé l’écart-type de X ; il est noté σ (X). • En posant m = E (X) et σ = σ (X), la v.a.r X∗ = X −m σ admet une variance et vérifie E (X ∗ ) = 0 et σ (X ∗ ) = 1 X ∗ est appelée la v.a.r centrée réduite associée à X. Théorème 11.11 Soit n ∈ N∗ et X1 , ..., Xn n v.a.r discrète ou à densité sur (Ω, A, P ) telles que (i) (ii) r z Pour tout k ∈ 1, n , Xk admet une variance la famille (X1 , ..., Xn ) est deux à deux indépendante Alors la v.a.r somme X1 + ... + Xn admet une variance et on a : V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn ) Preuve Elle est admise. 113 N.B Si les n v.a.r Xk sont toutes discrètes, le résultat est déjà démontré grâce à la notion de covariance d’un couple aléatoire discret. 11.3 Lois continues à densité usuelles 11.3.1 Loi uniforme sur un segment. Densité Soit (a, b) ∈ R2 tel que a < b. On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi uniforme sur le segment [a, b] si elle est absolument continue et que 1 φ[a,b] (x) en est une densité ; où φ[a,b] est la fonction caractéristique du segment [a, b]. la fonction f : x 7−→ b−a On écrit X ,→ U[a,b] . Explicitement f est la fonction : f: R −→ x 7−→ Le lecteur vérifiera que f est bien une densité. R 1 b−a 0 ; si x ∈ [a, b] ; sinon Remarque 11.16 Si X ,→ U[a,b] alors X prend ses valeurs dans [a, b] presque sûrement ; en effet : P X < a ∪ X > b = P (X < a) + P (X > b) = Donc P (a ≤ X ≤ b) = 1 − P Fonction de répartition Z a X<a ∪ X>b =1 f (t)dt + −∞ |{z} =0 Z +∞ b f (t)dt = 0 |{z} =0 Supposons donnée une v.a.r X sur (Ω, A, P ) telle que X ,→ U[a,b] . Pour tout réel x, on a : FX (x) = Alors, par définition de f , on distingue les cas suivants : Si x < a, FX (x) = Z x Z x f (t) dt −∞ 0.dt = 0 −∞ Si a ≤ x ≤ b, Si b < x, FX (x) = Z x −∞ FX (x) = Z x −∞ En résumé : f (t) dt = f (t) dt = Z a Z x 1 f (t) dt + f (t) dt = b − a −∞ a Z x Z a Z b 1 f (t) dt = b−a f (t) dt + −∞ f (t) dt + a FX (x) = 0 x−a FX (x) = b−a F (x) = 1 X 114 ; si x < a ; si a ≤ x ≤ b ; si b < x Z +∞ b a dt = x−a b−a Z b a dt = 1 Espérance et variance Proposition 11.11 Soit X une v.a.r sur (Ω, A, P ) telle X ,→ U[a,b] ; où (a, b) ∈ R2 tel que a < b. 2 a+b (b − a) et V (X) = Alors X admet des moments à tout ordre et particulier : E (X) = 2 12 Preuve D’après la remarque 11.16, X prend ses valeurs dans le segment [a, b] presque sûrement ; Elle donc bornée presque sûrement sur Ω. D’après la proposition 11.7, X admet des moments à tout ordre. En particulier, elle a une espérance et une variance. On a d’abord : E (X) = Z +∞ tf (t) dt = −∞ Z +∞ −∞ t b−a Z +∞ −∞ t φ[a,b] (t) dt = b−a Z b a t dt = b−a t2 2 (b − a) b a = a+b b2 − a 2 = 2 (b − a) 2 Ensuite, par le théorème de transfert : E X2 = Z +∞ t2 f (t) dt = −∞ Z +∞ −∞ t2 dt = b−a Z +∞ −∞ t2 φ[a,b] (t) dt = b−a Z b a t2 dt = b−a t3 3 (b − a) b a = b3 − a 3 3 (b − a) a2 + ab + b2 D’où en utilisant la relation b3 − a3 = (b − a) a2 + ab + b2 : E X 2 = 3 Il vient, d’après la formule de König-Huygens : a2 + ab + b2 a2 + ab + b2 a2 + 2ab + b2 a2 − 2ab + b2 (a − b)2 a+b 2 V (X) = = − − = = 3 2 3 4 12 12 11.3.2 Loi exponentielle Densité Soit λ > 0. On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi exponentielle de paramètre λ si X est absolument continue de densité la fonction f : x 7−→ λe−λx φ[0,+∞[ (x), où φ[0,+∞[ est la fonction caractéristique de l’intervalle [0, +∞[. On écrit X ,→ E (λ). Explicitement f est donnée par : f: R −→ x 7−→ R λe−λx ; si x ≥ 0 0 ; si x < 0 Le lecteur vérifiera que f est bien une densité et que si X ,→ E (λ) alors X prend ses valeurs dans [0, +∞[ presque sûrement. 115 Fonction de répartition Supposons que la v.a.r suit la loi E (λ). Soit x ∈ R ; on a : FX (x) = P (X ≤ x) = Z x f (t) dt −∞ D’où, tenant compte de la définition de f : Si x < 0, FX (x) = Si 0 ≤ x, FX (x) = Z x f (t)dt = 0 −∞ |{z} Z x =0 f (t) dt = −∞ Z 0 En résumé : FX (x) = 1 − e f (t)dt + −∞ |{z} −λx =0 Z x f (t) dt = 0 .φ[0,+∞[ (x) = Représentation graphique Z x 0 0 x λe−λt dt = −e−λt 0 = 1 − e−λx ; si x < 0 1 − e−λx ; si 0 ≤ x Étant donné que f = fX et FX sont nulles sur ]−∞, 0[, on se contente de la représentation graphique sur [0, +∞[ Espérance et variance Proposition 11.12 Soit X une v.a.r sur (Ω, A, P ) telle que X ,→ P (λ) ; où λ ∈ R et λ > 0. 1 Alors X admet des moments à tout ordre et en particulier : E (X) = λ et V (X) = Preuve Une densité de X est la fonction f définie sur R par : f (x) = λe−λx φ[0,+∞[ (x) = f (x) = 0 f (x) = λe−λx 116 ; si x < 0 ; si x ≥ 0 1 λ2 Soit r ∈ N∗ . La fonction g : t 7−→ tr f (t) est intégrable sur ]−∞, 0] car elle y est presque partout nulle (nulle sauf en 0). De plus pour tout t≥ 1, t2 g (t) = λtr+2 e−λt . Et on a tr+2 e−λt −→ 0. t→+∞ 1 1 . Cela montre, sachant que t 7−→ 2 est intégrable sur [1, +∞[, que g est intégrable sur [1, +∞[ . D’où g (t) = oV(+∞) t2 t Ainsi pour tout r ∈ N∗ , la fonction g : t 7−→ tr f (t) est intégrable sur R (voir la remarque 11.14). Ceci montre que X admet des Z +∞ tf (t) dt et moments à tout ordre. Calculons l’espérance et la variance de X, pour cela, on commence par le calcul des intégrales −∞ Z +∞ t2 f (t) dt. −∞ On a pour k ∈ {1, 2} : Z +∞ tk f (t) dt = −∞ Z +∞ −∞ λtk e−λt φ[0,+∞[ (t) dt = λ Z +∞ tk e−λt dt 0 Le changement de variables λt = s conduit sans trop de détails à ce que Z +∞ Z +∞ Z +∞ 1 Γ (k + 1) k! s k −s 1 ds = k+1 tk e−λt dt = e sk e−s ds = = k+1 λ λ λ λk+1 λ 0 0 0 Donc Z +∞ −∞ tk f (t) dt = k! λk On en déduit d’abord que E (X) = Z +∞ te−λt dt = 0 V (X) = 1 , puis en utilisant la formule de König-Huygens, que : λ Z +∞ −∞ = 2 − λ2 = 1 λ2 t2 f (t) dt − Z +∞ −∞ tf (t) dt 2 2 1 λ CQFD. 11.3.3 Loi normale Soit (m, σ) ∈ R × R∗+ . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi normale de paramètre m, σ 2 si elle est 2 1 x−m 1 − . σ . On écrit X ,→ N m, σ 2 . absolument continue de densité la fonction f : x 7−→ √ e 2 σ 2π √ Z +∞ π 2 de l’intégrale de Gauss Il est laissé au lecteur de vérifier que f est bien une densité (utiliser la valeur e−t dt) 2 0 117 Cas particulier : m = 0 et σ = 1 Dans ce cas, la loi normale N (0, 1) est dite aussi la loi normale (ou gaussienne) centrée réduite. Sa densité est notée φ et sa fonction de répartition est notée Φ : x2 1 φ : x 7−→ √ e− 2 2π et 1 Φ : x 7−→ √ 2π Z x t2 e 2 dt − −∞ Remarque 11.17 On ne peut exprimer Φ à l’aide des fonctions usuelles (ce fait est démontré par Liouville en 1840). Pour des calculs numériques, on utilise la table de valeur de la loi normale centrée réduite fournie en fin de ce cours ainsi que la proposition suivante : Proposition 11.13 Pour tout réel x, on a Φ (−x) = 1 − Φ (x). 1 En particulier Φ (0) = 2 118 Preuve 2 t 1 Observons d’abord que la densité φ : t 7−→ √ e− 2 de X est une fonction paire. 2π On a, pour x ∈ R : Z −x φ (t) dt Φ (−x) = −∞ = = = = lim Z −x lim Z x lim Z −a Z +∞ φ (s) ds Z +∞ φ (s) ds − a→−∞ a a→−∞ −a a→−∞ x φ (t) dt φ (−s) (−ds) [et cela, en effectuant le changement de variables t = −s] φ (s) ds x = = | −∞ {z =1 1 − Φ (x) } Z x φ (s) ds −∞ Finalement, en appliquant la relation démontrée à x = 0, on trouve : Φ (0) = 1 2 Proposition 11.14 Si X ,→ N m, σ 2 alors pour tout (a, b) ∈ R∗ × R, on a : En particulier 2 aX + b ,→ N am + b, (|a| σ) X −m ,→ N (0, 1) X ,→ N m, σ 2 ⇐⇒ σ Preuve (i) Supposons que X est une v.a.r sur (Ω, A, P ) telle que X ,→ N m, σ 2 et soit (a, b) ∈ R2 tel que a ̸= 0. On sait, d’après le théorème 11.2, que Y = aX + b est une v.a.r sur (Ω, A, P ) absolument continue et qu’une densité de Y est donnée par : 1 x−b fX ∀ x ∈ R, fY (x) = |a| a 119 D’où pour tout x ∈ R : fY (x) = x−b 2 1 a − m 1 √ exp − 2 σ |a| σ 2π = 1 √ exp |a| σ 2π − 1 2 x − (am + b) aσ = 1 √ exp |a| σ 2π − 1 2 x − (am + b) |a| σ 2 ! 2 ! [car a2 = |a|2 ] Donc Y = aX + b ,→ N m′ , σ ′2 ; où m′ = am + b et σ ′ = |a| σ. X −m et montrons que X ,→ N m, σ 2 ⇐⇒ Y ,→ N (0, 1) (ii) Posons Y = σ −m 1 et b = Supposons que X ,→ N m, σ 2 . On peut écrire Y = aX + b, avec a = σ σ D’après (i), Y ,→ N m′ , σ ′2 , où m′ = am + b et σ ′ = |a| σ. On constate que m′ = 0 et σ ′ = 1. D’où Y ,→ N (0, 1). Réciproquement, supposons que Y ,→ N (0, 1). On a X = σY + m ; donc en appliquant (i), on a X ,→ N σ.0 + m; (|σ| .1)2 . Soit : X ,→ N m, σ 2 . CQFD Remarque 11.18 Ce résultat qu’on vient de démontrer est très précieux pour éviter des calculs très compliqués sur la loi normale N (m, σ), car il permet de se ramener à la loi N (0, 1) où ces calculs s’avèrent moins compliqués. La proposition suivante en une illustration Espérance et variance Proposition 11.15 Soit X une v.a.r sur (Ω, A, P ) telle que X ,→ N m, σ 2 ; où (m, σ) ∈ R2 et σ > 0. Alors X admet des moments à tout ordre et en particulier : E (X) = m et V (X) = σ 2 . Preuve • La densité de X est f : t 7−→ 1 √ exp σ 2π − 1 2 t−m σ 2 ! . Pour r ∈ N∗ , la fonction g : t 7−→ tr f (t) est négligeable devant la fonction 1 t 7−→ 2 ; ce qui, moyennant la règle de Riemann, montrer que g est intégrable sur chacun des intervalles ]−∞, −1] et [1, +∞[ et cela t suffit pour qu’elle soit intégrable sur R. Donc X admet des moments à tout ordre. • Montrons maintenant les résultats E (X) = m et V (X) = σ 2 . Pour cela, traitons d’abord le cas de la loi N (0, 1) ; où m = 0 et σ = 1. t2 1 Dans ce cas, la densité de X est φ : t 7−→ √ e− 2 . Il s’agit de montrer que E (X) = 0 et V (X) = 1. 2π La fonction g : t 7−→ tφ (t) étant intégrable sur R, on peut écrire : Z +a Z +∞ tφ (t) dt = lim tφ (t) dt a→+∞ −a −∞ Z +a g (t) dt = lim a→+∞ −a Z a [car g est impaire, donc pour tout a > 0, g (t) dt = 0] = lim 0 a→+∞ = −a 0 Donc E (X) = 0. Pour calculer V (X), commençons par calculer le moment d’ordre 2, Z +∞ −∞ 120 t2 φ (t) dt, de X. Là aussi, et sachant que la fonction g : t 7−→ t2 φ (t) est intégrable sur R, écrivons : Z +∞ t2 φ (t) dt = −∞ = = Soit a > 0. On a : Z a lim Z +a t2 φ (t) dt lim Z +a g (t) dt a→+∞ −a a→+∞ −a 2. lim g (t) dt = Z a g (t) dt [car g est paire] 0 On effectue le changement de variable t2 = 2s (c’est à dire t = g (t) dt g (t) dt a→+∞ 0 0 Z a Z +a = 0 = Z a = 1 √ 2π √ √ √ 2s = 2 s) 0 Z a √ 2 2se−s √ ds 2 s Z a se−s ds 1 √ 2π 1 √ π t2 t2 e− 2 dt 0 √ 0 Z +∞ √ −s 3 1 2 2 1 t2 φ (t) dt = √ se ds = √ Γ = √ Γ = 1 (on rappelle que pour tout réel x > 0, Γ (x + 1) = xΓ (x) π 0 π 2 π 2 −∞ √ 1 = π ). et que Γ 2 Z +∞ 2 Z +∞ t2 φ (t) dt − tφ (t) dt = 1 − 02 = 1. Maintenant, V (X) = −∞ −∞ On bien montré que dans le cas où X ,→ N (0, 1), E (X) = 0 et V (X) = 1. Passons à présent au cas général où X ,→ N m, σ 2 . Il vient : Z +∞ On sait que la v.a.r X ∗ = X −m σ suit la loi normale N (0, 1). Alors, d’après ce qui précède, E (X ∗ ) = 0 et V (X ∗ ) = 1. On en déduit : E (X) = E (σX ∗ + m) = σE (X ∗ ) + m = m V (X) = V (σX ∗ + m) = σ 2 V (X ∗ ) = σ 2 CQFD. 11.3.4 Loi gamma. Soit ν ∈ R∗+ . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi gamma de paramètre ν si elle est absolument continue xν−1 e−x .φ]0,+∞[ (x) ; où φ]0,+∞[ est la fonction caractéristique de l’intervalle ouvert de densité la fonction f : x 7−→ Γ (ν) ]0, +∞[. On écrit X ,→ γ (ν). Plus explicitement f est donnée par : f (x) = 0 ; si x ≤ 0 xν−1 e−x f (x) = Γ (ν) ; si x > 0 Comme avant, on vérifie f est bien une densité et que si la v.a.r X suit la loi gamma alors elle prend ses valeurs dans ]0, +∞[ presque sûrement. Représentation graphique (uniquement sur ]0, +∞[ car sur ]−∞, 0] la densité est nulle) 121 Remarque 11.12 • pour 0 < ν < 1, la fonction f est continue presque partout mais pas continue par morceaux sur R. • Dans le cas ν = 1, la densité f est celle de la loi E (1). En d’autre terme la loi γ (1) n’est rien d’autre que la loi E (1). Proposition 11.16 Soit X une v.a.r sur (Ω, A, P ) telle que X ,→ γ (ν) ; où ν > 0. Alors X admet des moments à tout ordre et en particulier : E (X) = V (X) = ν Preuve • Une densité de X est la fonction 0 tν−1 e−t φ]0,+∞[ (t) = tν−1 e−t f : t 7−→ Γ (ν) Γ (ν) ; si t ≤ 0 , si t > 0 Soit r ∈ N∗ . La fonction g : t 7−→ tr f (t) est intégrable sur ]−∞, 0] car elle y est nulle. D’autre part, pour tout t ≥ 1, t2 g (t) = ! 1 2 ; ce qui montre que g est intégrable sur [1, +∞[, donc sur R tout entier. D’où t g (t) −→ 0. Donc g (t) = oV(+∞) t→+∞ t2 On conclut que X admet des moments à tout ordre. • Calculons à présent E (X) et V (X). On a : Z +∞ ν−1 −t Z +∞ Z +∞ t 1 Γ (ν + 1) e φ]0,+∞[ (t) dt = =ν tf (t) dt = t tν e−t dt = E (X) = Γ (ν) Γ (ν) 0 Γ (ν) −∞ −∞ Pour V (X), on commence par le moment d’ordre 2 : Z +∞ Z +∞ Z +∞ 1 Γ (ν + 2) tν−1 e−t t2 f (t) dt = t2 tν+1 e−t dt = φ]0,+∞[ (t) dt = = ν (ν + 1) Γ (ν) Γ (ν) 0 Γ (ν) −∞ −∞ D’où : V (X) = Z +∞ −∞ t2 f (t) dt − Z +∞ tf (t) dt −∞ CQFD. 122 2 = ν (ν + 1) − ν 2 = ν tν+1 e−t . Γ (ν) Exercice 11.5 Soit X et Y deux v.a.r indépendantes sur (Ω, A, P ) telles que X ,→ γ (ν1 ) et Y ,→ γ (ν2 ). Montrer que X + Y ,→ γ (ν1 + ν2 ). 12 Introduction à la notion de convergence d’une suite de v.a.r 12.1 Inégalités de concentration Dans ce sous paragraphe, (Ω, A, P ) est un espace probabilisé donné. 12.1.1 Inégalité de Markov Théorème 12.1 Soit X une v.a.r discrète ou à densité sur (Ω, A, P ) telle que X admet une espérance Alors pour tout a > 0, on a : X est positive presque sûrement dans Ω P (X ≥ a) ≤ E (X) (inégalité de M arkov) a Preuve Soit a > 0. i) U ne démonstration dans le Cas où X est discrète Dans ce cas, on a : X ≥ a = {ω ∈ Ω / X (ω) ≥ a} = {ω ∈ Ω / ∃ x ∈ X (Ω) , x ≥ a et X (ω) = x} Notons L = {x ∈ X (Ω) / x ≥ a}. On a donc [ X≥a = X=x x∈L Mais L est au plus dénombrable comme partie de X (Ω) ; d’où par σ- additivité de P : X P (X = x) P (X ≥ a) = x∈L D’où a.P (X ≥ a) = Alors, sachant que pour tout x ∈ L, a ≤ x, on a : a.P (X ≥ a) ≤ X a.P (X = x) X x.P (X = x) , x∈L (12.1) x∈L la somme du second membre étant celle de la famille (x.P (X = x))x∈L qui est sommable en tant que sous famille de la famille sommable (x.P (X = x))x∈X(Ω) (la sommabilité de cette dernière traduit en effet que X admet une espérance). On observe que : X x∈L x.P (X = x) ≤ X x∈L∩R+ x.P (X = x) ≤ 123 X x∈X(Ω)∩R+ x.P (X = x) (12.2) D’autre part, P (X < 0) = 1 − P (X ≥ 0) = 0. D’où : | {z } =1 ∀ x ∈ X (Ω) ∩ R∗− , 0 ≤ P (X = x) ≤ P (X < 0) = 0 donc : x ∈ X (Ω) ∩ R∗− , P (X = x) = 0. Il s’ensuit que X X x.P (X = x) = x∈X(Ω)∩R+ X x.P (X = x) + x∈X(Ω)∩R∗ − x∈X(Ω)∩R+ C’est à dire, en utilisant la sommation par paquets : X x.P (X = x) = x∈X(Ω)∩R+ | X x.P (X = x) | {z } {z =0 =0 } x.P (X = x) = E (X) x∈X(Ω) Il vient en reprenant (12.1) et (12.2) : a.P (X ≥ a) ≤ E (X) D’où l’inégalité P (X ≥ a) ≤ E (X) a ii) U ne démonstration dans le Cas où X est à densité Dans ce cas, on note f une densité de X et on constate au départ que Z 0 f (t) dt = P (X ≤ 0) = P (X < 0) = 0 [car P (X ≥ 0) = 1 par hypothèse] −∞ Ce dont on déduit que f est nulle presque partout dans ]−∞, 0[ (car f est continue presque partout et positive). Il vient E (X) = Z +∞ tf (t) dt = −∞ car la fonction t 7−→ tf (t) est positive sur R+ . Maintenant, on a : Z 0 t.f (t).dt + −∞ | {z } =0 a.P (X ≥ a) = a. Z +∞ tf (t) dt = 0 Z +∞ Z +∞ 0 f (t) dt = a Z +∞ tf (t) dt ≥ Z +∞ tf (t) dt a a.f (t) dt a et on a par positivité de la densité f : ∀ t ∈ [a, +∞[ , a.f (t) ≤ t.f (t) D’où par croissance de l’intégrale : a.P (X ≥ a) ≤ Z +∞ tf (t) dt a Donc a.P (X ≥ a) ≤ E (X) donc P (X ≥ a) ≤ E (X) a CQFD. iii) U ne démonstration dans le cas général On rappelle que pour une v.a de Bernoulli φA (fonction caractéristique d’un événement A qui indique le succès) l’espérance est égale à la probabilité de A : E (φA ) = P (A) On a donc P (X ≥ a) = E φ[X≥a] . Par linéarité de l’espérance d’une v.a.r.d, on en déduit que a.P (X ≥ a) = a.E φ[X≥a] = E a.φ[X≥a] Or, presque sûrement dans Ω, on a : a.φ[X≥a] (ω) ≤ X (ω) (12.3) En effet cette majoration est vraie si X (ω) ≥ a, car dans ce cas a.φ[X≥a] (ω) = a. Et elle est encore vraie si X (ω) < a, car dans ce cas la relation (12.3) s’écrit 0 ≤ X (ω) et cela est vrai presque sûrement par hypothèse. Il vient maintenant par croissance de l’espérance (proposition 11.7, valable que X soit continue ou à densité) : aP (X ≥ a) = E a.φ[X≥a] ≤ E (X) 124 D’où E (X) a P (X ≥ a) ≤ Exemple 12.1 2 . On note X le nombre 3 de lancers nécessaires pour obtenir « pile » pour la première fois. On associe à cette expérience un espace probabilisé On lance un nombre infini de fois une pièce de monnaie où la probabilité de « pile » est p = (Ω, A, P ). 2 1 3 . Elle admet une espérance et E (X) = = . 3 p 2 On veut estimer la probabilité qu’il y ait besoin d’au moins 30 lancers pour voir apparaître le premier « pile ». E (X) 1 Il s’agit de P (X ≥ 30). D’après l’inégalité de Markov, P (X ≥ 30) ≤ = . 30 20 La probabilité demandée ne dépasse pas 0, 05. On sait que X est une v.a.r.d sur (Ω, A, P )et que X ,→ G En fait on peut trouver une meilleure estimation en utilisant le calcul direct : P (X ≥ 30) = +∞ X P (X = n) = n=30 n−1 +∞ X 2 1 n=30 3 3 2 = 3 30−1 1 3 1 1 1− 3 = 1 < 1, 4571.10−14 329 Exemple 12.2 Le taille moyenne d’une population est de 1m72. On admet que la taille X d’une personne choisie au hasard dans cette population suit une loi exponentielle. On s’intéresse à la probabilité que la taille d’une personne soit au moins égale à 2m. Cette probabilité est P (X ≥ 200cm). Or par hypothèse, E (X) = 172cm. D’où d’après l’inégalité de Markov : P (X ≥ 200cm) ≤ 172 = 0, 86 200 Là encore on peut trouver une estimation bien meilleure en calculant directement. En effet, notons λ le paramètre 1 1 de la loi exponentielle de X. On a E (X) = = 172cm. On en déduit la valeur de λ : λ = . Il vient : λ 172 P (X ≥ 200) = Z +∞ 200 λe −λt φ[0,+∞[ (t) dt = Z +∞ 200 λe−λt dt = e−200λ = e− 172 < 0, 313 200 Remarque 12.1 On observe que dans les deux exemples précédents l’estimation donnée par l’inégalité de Markov est beaucoup imprécise par rapport à la réalité. Cela ne discrédite pas, cependant, l’inégalité de Markov qui donne une estimation d’une telle probabilité indépendamment de la loi. Et cela est très précieux dans les études théoriques. N.B En pratique, pour appliquer correctement l’inégalité de Markov, il faut d’abord : 1. s’assurer que la v.a X prend des valeurs positives (au moins presque sûrement). 2. chercher l’espérance de X (en général sous forme d’une valeur moyenne des valeurs de X). 3. appliquer l’inégalité. Exercice 12.1 En 2015, le salaire brut mensuel moyen en France était de 2442€. On choisit une salarié et on note X son salaire. Quelle est la probabilité que son salaire soit au moins 6048€ ? 125 Exercice 12.2 Aux Maldives, où la température n’a jamais en dessous de 0°c, la température moyenne est de 28,4°c. Pour les besoins d’une enquête dans les archives, estimer la probabilité que la température d’un jour donné soit inférieure à 20°c. Exercice 12.3 Sur une autoroute du Maroc, la vitesse moyenne est de 12O km.h−1 . Un gendarme piste par sa caméra un automobiliste sur cette autoroute. 1. Estimer la probabilité que sa vitesse soit d’au moins 150 km.h−1 . 2. Estimer la probabilité que sa vitesse soit inférieure à 100 lm.h−1 . Exercice 12.4 Montrer que la part d’une population recevant un salaire 10 fois le salaire moyen est au maximum 10% Exercice 12.5 En utilisant la loi normale centrée réduite N (0, 1) et en s’aidant de l’inégalité de Markov, montrer que pour tout réel x > 0, on a : Z x 0 12.1.2 t2 e− 2 dt ≥ r 1 π − 2 x Inégalité de Bienaymé - Tchebychev Théorème 12.2 Soit X une v.a.r discrète ou à densité sur (Ω, A, P ) admettant une variance. Alors pour tout réel ε > 0, on a : P V (X) X − E (X) ≥ ε ≤ (inégalité de Bienaymé − T chebychev) ε2 Preuve Soit ε > 0. Il est clair que X − E (X) ≥ ε = (X − E (X))2 ≥ ε2 , si bien que : P X − E (X) ≥ ε = P (X − E (X))2 ≥ ε2 . Or la v.a.r (X − E (X))2 est discrète ou à densité selon X, est positive sur Ω et admet une espérance avec E (X − E (X))2 = V (X) L’inégalité de Markov s’applique et permet d’écrire : P (X − E (X))2 ≥ ε2 ≤ Soit P CQFD. E (X − E (X))2 ε2 V (X) X − E (X) ≥ ε ≤ ε2 Remarque 12.2 À ε > 0 fixé, l’écartement des valeurs de X par rapport à la valeur moyenne d’une distance ε est de moins en moins probable que la variance V (X) est de plus en plus petite. Ce qui confirme la vocation de la variance V (X) à mesurer 126 la dispersion des valeurs de X par rapport à E (X). Exemple 12.3 2 Reprenons l’exemple 12.1 ci-dessus, où la v.a.r X suit la loi géométrique G 3 3 En utilisant le simple fait que X admet une espérance E (X) = et en utilisant l’inégalité de Markov, on avait 2 estimé : 1 . P (X ≥ 30) ≤ 20 1 1−p 3 Or on sait que X admet même une variance et que V (X) = = 3 = . L’inégalité de Bienaymé - Tchebychev 2 4 p 4 9 permet d’écrire, pour tout ε > 0 : V (X) P X − E (X) ≥ ε ≤ ε2 Soit P 3 3 X− ≥ε ≤ 2 2 4ε S S 3 3 3 3 3 3 ≥ε = X− ≥ε X − ≤ −ε , c’est à dire X − ≥ ε = X ≥ +ε X ≤ − ε . Alors 2 2 2 2 2 2 3 3 3 3 en choisissant ε > , on obtient : X − ≥ ε = X ≥ + ε (car X ≤ − ε = Ø). D’où : 2 2 2 2 3 3 P X ≥ +ε ≤ 2 2 4ε Mais X− Et avec ε = 30 − 57 3 = , on trouve : 2 2 P (X ≥ 30) ≤ Soit P (X ≥ 30) ≤ 3 572 1 < 0, 001 1080 C’est une estimation bien meilleure que celle donnée par l’inégalité de Markov. Exercice 12.6 1 On note Φ la fonction de répartition de la loi normale centrée réduite N (0, 1) : Φ (x) = √ 2π 1 1. Montrer à l’aide de l’inégalité de Bienaymé - Tchebychev que : ∀ x > 0, 1 − Φ (x) ≤ 2 2x Z Z x t2 e− 2 dt −∞ +∞ 2. En déduire que l’intégrale 0 (1 − Φ (t)) dt converge et calculer sa valeur (procédez par intégration par parties) Exercice 12.7 Soit t ∈ R. Soit (Xn )n∈N∗ une suite de variables aléatoires indépendantes définies sur un même espace probabilisé (Ω, A, P ), qui suivent toutes la même loi telle que E (Xn ) = V (Xn ) = 1. Pour tout n ∈ N∗ , on pose Tn = X1 +...+Xn . 1. Pour tout entier n > t, comparer les événements Tn < t et Tn − n ≥ n − t . T 2. Calculer P Tn < t . n∈N∗ 127 12.1.3 Inégalité de Jensen. lemme 12.1 Soit I un intervalle non vide et non réduit à un point et f : I −→ R une fonction convexe. Alors : o 1. f est dérivable à droite et à gauche en tout point a de I et on a : ∀ x ∈ I, o 2. f est continue sur I. f (a) + f ′ (a) . (x − a) ≤ f (x) d f (a) + f ′ (a) . (x − a) ≤ f (x) (12.4) g Preuve f (x) − f (a) est croissante sur I ∖ {a} ,en particulier sur chacun des intervalle x−a ouverts non vides Ia− = I ∩ ]−∞, a[ et Ia+ = I ∩ ]a, +∞[. En fixant x1 ∈ Ia− et x2 ∈ Ia+ , il vient que la restriction g1 de g à Ia− est majorée par g (x2 ) et la restriction g2 de g à Ia+ est minorée par g (x1 ). Le théorème de limite monotone permet de conclure que g admet une limite à gauche et une limite à droite en a. Cela veut dire évidemment que f est dérivable à gauche et à droite en a. De plus, on a : o 1. Soit donc a ∈ I. Par convexité de f , la fonction g : x 7−→ fg′ (a) = lim x→a− f (x) − f (a) (1) f (x) − f (a) = sup x−a x−a − x∈I fd′ (a) = lim et x→a+ a f (x) − f (a) (2) f (x) − f (a) = inf + x−a x−a x∈Ia Notons que par croissance de g, on a fg′ (a) ≤ fd′ (a). En effet il suffit d’écrire que : f (x1 ) − f (a) = g (x1 ) ≤ fd′ (a) = inf g (x) + x1 − a x∈Ia puis d’exploiter que x1 ∈ Ia− est quelconque et le faire tendre vers a pour obtenir fg′ (a) ≤ fd′ (a). Soit x ∈ I. Montrons que f (a) + fg′ (a) . (x − a) ≤ f (x). f (x) − f (a) ≤ fg′ (a) et , de là, f (x) ≥ Écartons le cas trivial x = a et supposons x ̸= a. Si x < a, x ∈ Ia− donc, selon (1), x−a f (x) − f (a) ≥ fd′ (a) ≥ fg′ (a), et alors f (x) ≥ f (a)+fg′ (a) . (x − a), f (a)+fg′ (a) . (x − a), car x−a < 0. Si x > a, x ∈ Ia+ donc, selon (2), x−a car x − a > 0. Dans tous les cas, on a bien f (a) + fg′ (a) . (x − a) ≤ f (x). On montre de même que pour tout x ∈ I, on a : f (a) + fd′ (a) . (x − a) ≤ f (x). o o 2. La dérivabilité à droite et à gauche en tout point a de I, établie en 1, entraîne sa continuité à droite et à gauche en tout point de I. o Donc f est continue en tout point de I. Remarque 12.3 Pour f : I −→ R convexe, on a : • En synthèse des relations (12.4), on peut énoncer que : o ∀ a ∈ I, ∃ m ∈ R, ∀ x ∈ I, f (a) + m (x − a) ≤ f (x) (12.5) • Si X est une v.a.r sur (Ω, A, P ) telle que X (Ω) ⊂ I, alors f (X) est une v.a.r sur (Ω, A, P ), car, selon le lemme précédent, f est continue presque partout dans I (voir la proposition 5.2). Théorème 12.3 Soit X une v.a.r sur (Ω, A, P ) et f : R −→ R une fonction convexe telles que les v.a.r X et f (X) sont discrètes ou à densité et qu’elle admettent une espérance. Alors : f (E (X)) ≤ E (f (X)) (inégalité de Jensen) 128 Preuve Posons a = E (X). Selon (12.5), on dispose d’un réel m tel que : ∀ t ∈ R, f (a) + m (t − a) ≤ f (t) On en déduit : ∀ ω ∈ Ω, f (a) + m (X (ω) − a) ≤ f (X (ω)) Comme les v.a.r f (a) + m (X − a) et f (X) sont discrètes et admettent une espérance, la croissance de l’espérance (voir la proposition 11.7) et sa linéarité prouvent que : f (a) + m E (X) − a ≤ E (f (X)) | {z } =0 C’est à dire f (E (X)) ≤ E (f (X)) CQFD. 12.2 Convergence en probabilité 12.2.1 Définition et premières propriétés Définition 12.1 Soit (Xn )n∈N une suite de v.a.r et X une autre v.a.r sur l’espace probabilisé (Ω, A, P ). On dit que la suite (Xn )n∈N converge en probabilité vers X si et seulement si pour tout ε > 0, la suite réelle P P Xn − X ≥ ε n∈N converge vers 0. On écrit : (Xn ) −→ X Ainsi P (Xn ) −→ X ⇐⇒ ∀ ε > 0, P Xn − X ≥ ε −→ 0 n→+∞ Proposition 12.1 Soit (Xn )n∈N une suite de v.a.r et X une autre v.a.r sur l’espace probabilisé (Ω, A, P ). Alors les p.s.s.e : (i) (ii) P (Xn ) −→ X ∀ ε > 0, P Xn − X > ε −→ 0 n→+∞ Preuve P (i) =⇒ (ii) / Supposons que (Xn ) −→ X. Soit ε > 0. Montrons que P Xn − X > ε −→ 0. n→+∞ Pour tout n ∈ N, on a : donc par croissance de P : Xn − X > ε ⊂ Xn − X ≥ ε 0≤P Alors, d’après un critère d’encadrement : Xn − X > ε ≤ P Xn − X > ε P (ii) =⇒ (i) / Supposons que : ∀ ε > 0, P Soit ε > 0. Montrons que P On a : Xn − X > ε Xn − X ≥ ε −→ 0. n→+∞ ∀ n ∈ N, Xn − X ≥ ε −→ 0 n→+∞ −→ 0. n→+∞ ε Xn − X ≥ ε ⊂ Xn − X > 2 129 D’où ε Xn − X ≥ ε ≤ P Xn − X > 2 ∀ n ∈ N, 0 ≤ P Comme par hypothèse P Xn − X > ε −→ 0, le critère d’encadrement permet de conclure que 2 n→+∞ P Xn − X ≥ ε −→ 0 n→+∞ CQFD. Théorème 12.4 (unicité de la limite en probabilité) Soit (Xn )n∈N une suite de v.a.r et X et Y deux autres v.a.r sur l’espace probabilisé (Ω, A, P ) telles que P (Xn ) −→ X P (Xn ) −→ Y et Alors X = Y presque sûrement. Preuve Il s’agit de montrer que P (X = Y ) = 1 ou, ce qui revient qu même, P (X ̸= Y ) = 0. On a clairement X ̸= Y = X − Y > 0 et le lecteur pourra vérifier par double inclusion que D’où [ 1 X −Y >0 = X −Y ≥ k k∈N∗ [ 1 X −Y ≥ X ̸= Y = k ∗ k∈N Il vient en appliquant la propriété de continuité monotone croissante que 1 P (X ̸= Y ) = lim P Xn − X ≥ k→+∞ k Il suffit, pour conclure, de montrer que : ∀ k ∈ N∗ , P Soit k ∈ N∗ . Pour tout n ∈ N, on a : Xn − X ≥ 1 k = 0. ∀ ω ∈ Ω, X (ω) − Y (ω) ≤ X (ω) − Xn (ω) + Xn (ω) − Y (ω) On en déduit que pour n ∈ N, on a : ∀ ω ∈ Ω, 1 X (ω) − Xn (ω) < 2k X (ω) − Y (ω) < 1 n 2k =⇒ X (ω) − Xn (ω) + Xn (ω) − Y (ω) < =⇒ X (ω) − Y (ω) < 1 k 1 k D’où par contraposée ∀ ω ∈ Ω, X (ω) − Y (ω) < Cela montre que : ∀ n ∈ N, 0 ≤ P X (ω) − Xn (ω) < 1 2k ou Xn (ω) − Y (ω) < X −Y ≥ 1 [ 1 1 Xn − Y ≥ ⊂ X − Xn ≥ k 2k 2k X −Y ≥ 1 k ∀ n ∈ N, Alors, par croissance et additivité de P : 1 =⇒ k ≤P X − Xn ≥ 1 2k Il vient par passage à la limite quand n tend vers +∞ : 0≤P X −Y ≥ 130 1 k ≤0 +P Xn − Y ≥ 1 2k 1 2k Soit : P X −Y ≥ 1 k =0 CQFD. 12.2.2 Opérations sur la convergence en probabilité a) transformation par une fonction continue Théorème 12.5 Soit (Xn )n∈N une suite de v.a.r sur l’espace probabilisé (Ω, A, P ) et X une autre v.a.r sur cet espace telles que P P (Xn ) −→ X. Alors our toute fonction continue f : R −→ R, on a : (f (Xn )) −→ f (X) Preuve Elle est admise. Notons d’abord que puisque f est continue, les f (Xn ) et f (X) sont bien toutes des v.a.r sur (Ω, A, P ). Soit ε > 0 et δ > 0. On va montrer qu’il existe n0 ∈ N tel que ∀n ≥ n0 , P f (Xn ) − f (X) > ε ≤ δ δ X > r ≤ , ce qui est toujours possible car 2 P X > x = 1 − F|X| (x) −→ 0 Choisissons d’abord un réel r > 0 tel que P x−→+∞ Sur le compact [−2r, 2r], la fonction f est uniformément continue d’après le théorème de Heine. Choisissons alors un réel η > 0 tel que : ∀ (x, y) ∈ [−2r, 2r]2 , x − y ≤ η =⇒ f (x) − f (y) ≤ ε et remarquons, en conséquence, que 2 ∀ (x, y) ∈ R , Donc x ≤r =⇒ x − y ≤ min (r, η) 2 ∀ (x, y) ∈ R , x ≤r x − y ≤ min (r, η) (x, y) ∈ [−2r, 2r]2 x−y ≤η =⇒ f (x) − f (y) ≤ ε Il vient alors, par contraposée f (x) − f (y) > ε entraîne x > r ou x − y > min (r, η). En notant An = f (Xn ) − f (X) > ε , on obtient [ Xn − X > min (r, η) An ⊂ X > r D’où par croissance et additivité de P : P (An ) ≤ P X >r +P Donc P (An ) ≤ δ +P 2 Xn − X > min (r, η) Xn − X > min (r, η) P Finalement, puisque (Xn ) −→ X, on dispose d’un entier n0 tel que : ∀ n ∈ N, n ≥ n0 =⇒ P δ Xn − X > min (r, η) ≤ 2 ∀ n ∈ N, n ≥ n0 =⇒ P f (Xn ) − f (X) > ε ≤ δ Donc La suite (f (Xn ))n∈N converge bien en probabilité vers f (X). 131 b) Opérations algébriques Théorème 12.6 Soit (Xn ) et (Yn ) deux suites de v.a.r sur l’espace probabilisé (Ω, A, P ) et X et Y deux autres v.a.r sur cet espace P P telles que (Xn ) −→ X et (Yn ) −→ Y . Alors : P 1. pour tout (λ, µ) ∈ R2 , (λXn + µYn ) −→ λX + µY . P 2. (Xn Yn ) −→ XY . Preuve 1. Quitte à appliquer le théorème 12.5 aux fonctions continues f : x 7−→ λx et g : x 7−→ µx, il suffit de raisonner dans le cas λ = µ = 1 P et montrer que (Xn + Yn ) −→ X + Y . Soit donc ε > 0 et n ∈ N ; on a : (Xn + Yn ) − (X + Y ) = (Xn − X) + (Yn − Y ) Et comme Xn − X + Yn − Y ≥ (Xn − X) + (Yn − Y ) , il vient ε [ ε (Xn + Yn ) − (X + Y ) > ε = (Xn − X) + (Yn − Y ) > ε ⊂ Xn − X > Yn − Y > 2 2 D’où, par croissance et sous-additivité de P : 0≤P ε ε + P Yn − Y > (Xn + Yn ) − (X + Y ) > ε ≤ P Xn − X > 2 2 Alors, sachant que n est quelconque et que le second membre de cette inégalité tend vers 0 quand n tend vers +∞ (par convergence en probabilité de (Xn ) vers X et de (Yn ) vers Y ), on a : P (Xn + Yn ) − (X + Y ) > ε −→ 0 n→+∞ P ε étant arbitraire, on a (Xn + Yn ) −→ X + Y . 2. En appliquant le résultat du 1, qu’on vient de démontrer, on a P (Xn + Yn ) −→ X +Y P (Xn − Yn ) −→ X −Y Il vient, en appliquant le théorème 12.5 à la fonction continue f : x 7−→ x2 , on déduit : P (Xn + Yn )2 −→ (X + Y )2 P (Xn − Yn )2 −→ (X − Y )2 puis, par le résultat du 1 encore une fois, 1 1 1 P 1 (Xn + Yn )2 − (Xn − Yn )2 −→ (X + Y )2 − (X − Y )2 4 4 4 4 Soit P Xn Yn −→ XY CQFD. Exercice 12.8 P P ∗ ∗ Montrer, enutilisant une transformation continue adéquate que si (Xn ) −→ X, (Yn ) −→ Y , Yn ⊂ R et Y (Ω) ⊂ R Xn P X alors −→ . Yn Y 12.3 Convergence en loi 12.3.1 Définition et premières propriétés On rappelle la notation FX qui indique la fonction de répartition d’une v.a.r X. 132 Définition 12.2 Soit (Xn )n∈N une suite de v.a.r et X une autre v.a.r. On dit que la suite (Xn )n∈N converge en loi vers X si et seulement si pour tout réel x où FX est continue, la suite L réelle (FXn (x))n∈N converge vers FX (x). On écrit (Xn ) −→ X L Ainsi, (Xn ) −→ X si et seulement si la suite de fonctions (FXn )n∈N converge simplement vers la fonction FX sur l’ensemble CX des points de continuité de FX . Remarque 12.4 • Dans cette notion de convergence en loi, il n’est pas nécessaire que les v.a.r Xn et la v.a.r X soient définies sur le même espace probabilisé. • Si pour tout n, Yn est une v.a.r ayant la même loi que Xn et Y est une v.a.r ayant la même loi que X alors L (Xn ) −→ X L ⇐⇒ (Xn ) −→ Y ⇐⇒ (Yn ) −→ X ⇐⇒ L (Yn ) −→ Y L Donc il s’agit plus exactement d’une convergence d’une suite de lois vers une loi. D’où le vocabulaire de convergence en « loi ». En particulier, si une suite de v.a.r (Xn )n∈N converge en loi vers une v.a.r X alors X n’est pas unique ; c’est sa loi qui l’est. Proposition 12.2 Soit (Xn )n∈N une suite de v.a.r et X une autre v.a.r. toutes définies sur le même espace probabilisé (Ω, A, P ) L telles que (Xn ) −→ X Alors pour tout couple (a, b) de réels en lesquels FX est continue et a < b, on a P (a < Xn ≤ b) P (a < X ≤ b) −→ n→+∞ Preuve Il suffit d’écrire P (a < Xn ≤ b) = FXn (b) − FXn (a) et de passer à la limite quand n tend vers +∞ en utilisant que FX (b) − FX (a) = P (a < X ≤ b) Théorème 12.7 Soit (Ω, A, P ) un espace probabilisé et Xn , X : Ω −→ R(n ∈ N) des v.a.r sur cet espace, toutes à valeurs dans Z. Alors les p.s.s.e : (i) (ii) L (Xn ) −→ X ∀ k ∈ Z, P (Xn = k) −→ P (X = k) n→+∞ Preuve Elle est admise. 133 L (i) =⇒ (ii) / Supposons que (Xn ) −→ X et soit k ∈ Z ; il s’agit de montrer que P (Xn = k) On a ∀ n ∈ N, P (Xn = k) = FXn 1 2 k+ − F Xn k− −→ n−→+∞ 1 2 P (X = k) 1 1 en effet Xn = k − ⊂ Xn = k + et, sachant que Xn (Ω) ⊂ Z, on a 2 2 Xn = k + 1 1 \ Xn = k − = Xn = k 2 2 Et pour les mêmes raisons P (X = k) = FX k+ 1 2 − FX 1 2 k− 1 1 1 1 =P k− = 0. Et cela fait de ces deux point des points de et k − ne sont pas des entiers et, à fortiori, P X = k + 2 2 2 2 continuité de la fonction de répartition de X. Il s’ensuit par convergence en loi de la suite (Xn ) vers X que : 1 1 F −→ k + k + F X X n 2 n−→+∞ 2 Or k + 1 1 FX −→ FX k − k− n 2 n−→+∞ 2 D’où FXn k+ 1 2 − FXn k− 1 2 −→ FX −→ P (X = k) n−→+∞ k+ 1 2 − FX k− 1 2 C’est à dire P (Xn = k) n−→+∞ (ii) =⇒ (i) / Réciproquement, supposons que ∀ k ∈ Z, P (Xn = k) −→ n−→+∞ P (X = k) L et montrons que (Xn ) −→ X, c’est à dire que pour tout réel x où FX est continue on a FXn (x) Nous allons montré, particulièrement dans ce cas, que cela est vrai sans condition sur le réel x. Soit donc x ∈ R et ε > 0. L’objectif est d’exhiber un entier N tel que −→ n−→+∞ FX (x). ∀ n ≥ N, FXn (x) − FX (x) ≤ ε On commence par exploiter que FX (t) −→ t−→−∞ 0 et FX (t) −→ t−→+∞ (12.6) 1 en se donnant deux réels strictement positifs A et B tels que : ε 2 ∀ t ≥ B, 1 − F (t) ≤ ε X 2 ∀ t ≤ −A, FX (t) ≤ (12.7) Et puisque ces deux réels peuvent être choisis aussi grands que l’on veut, on les choisit tels que A ≥ 1 − x et B ≥ 1 + x ; ce qui permet d’écrire : −A ≤ x − 1 ≤ x ≤ x + 1 ≤ B (12.8) Fixons deux réels a et b tels que a ≤ −A et b ≥ B et observons que d’après (12.7) on a : D’autre part d’après (12.8), on a : ε 2 1 − F (b) ≤ ε X 2 FX (a) ≤ b − x ≥ B − x > (x + 1) − x = 1 x − a ≥ x − (−A) > x − (x − 1) = 1 Donc b − x > 1 et x − a > 1. T T T On en déduit que les ensembles finis [a, x] Z et [x, b] Z sont non vides. Posons [a, x] Z = {k1 , . . . , kr } ; où r est le cardinal. On a r P P (Xn = ki ) ∀ n ∈ N, FXn (x) − FXn (a) = i=1 r P P (X = ki ) FX (x) − FX (a) = i=1 134 (12.9) Il vient par hypothèse : FXn (x) − FXn (a) −→ FX (x) − FX (a). n−→+∞ T Z : FXn (b) − FXn (x) −→ FX (b) − FX (x). De même, en raisonnant sur [x, b] n−→+∞ On dispose donc de deux entiers naturels n0 et n1 vérifiant ε ∀ n ≥ n0 , (FXn (x) − FXn (a)) − (FX (x) − FX (a)) ≤ 2 (12.10) ε ∀ n ≥ n1 , (F Xn (b) − FXn (x)) − (FX (b) − FX (x)) ≤ 2 On note alors N = max (n0 , n1 ). Montrons que cet entier naturel N convient, c’est à dire qu’il vérifie (12.6). Soit donc n ∈ N tel que n ≥ N . On a d’après (12.10) ε ε (i) FXn (a) − FX (a) − ≤ FXn (x) − FX (x) ≤ FXn (a) − FX (a) + 2 2 ε ε F ≤ FXn (x) − FX (x) ≤ FXn (b) − FX (b) + Xn (b) − FX (b) − 2 2 (ii) Alors en tenant compte de la première inégalité de (i) et de la deuxième inégalité de (ii), on obtient FXn (a) − FX (a) − ε ε ≤ FXn (x) − FX (x) ≤ FXn (b) − FX (b) + 2 2 Finalement, sachant que 0 ≤ FXn (a) et FXn (b) ≤ 1, on déduit −FX (a) − ε ε ≤ FXn (x) − FX (x) ≤ 1 − FX (b) + 2 2 Donc, en utilisant (12.9) −ε ≤ FXn (x) − FX (x) ≤ ε C’est à dire FXn (x) − FX (x) ≤ ε CQFD. Exercice 12.9 Donner une démonstration plus simple de l’implication (ii) =⇒ (i) dans le cas où les v.a Xn (n ∈ N) et X sont à valeurs dans N. Exemple 12.4 Soit (Xn )n∈N∗ une suite de v.a sur (Ω, A, P ) telles que pour tout n ∈ N∗ , Xn ,→ U[− 1 , 1 ] . n n L Montrons que Xn −→ 0. Notons Fn [resp. F ] la fonction de répartition de la v.a Xn [resp. X = 0], en sorte que F (x) = 0 n Fn (x) = n2 x + n1 F (x) = 1 n ; si x < − n1 ; si − n1 ≤ x ≤ n1 et ; si x > n1 F (x) = 0 ; si x < 0 F (x) = 1 ; si x ≥ 0 On voit que F est continue partout excepté en 0. Soit x ∈ R∗ ; on a : Fn (x) −→ 0 n→+∞ Fn (x) −→ 1 n→+∞ si x < 0 si x > 0 Donc, dans tous les cas : Fn (x) −→ F (x). CQFD n→+∞ Remarque 12.4 C’est un exemple d’une suite de v.a.r à densité qui converge en loi vers une v.a.r.d 135 Exemple 12.5 Soit (Xn )n∈N∗ une suite de v.a sur (Ω, A, P ) telles que pour tout n ∈ N∗ , Xn ,→ U{ 1 , 2 ,..., n−1 , n } . n n n n L Montrons que Xn −→ X ; où X est une v.a suivant la loi U[0,1] . On note Fn [resp. F ] la fonction de répartition de la v.a Xn [resp. X], en sorte que pour tout x ∈ R : F (x) = 0 n Fn (x) = nk F (x) = 1 n F (x) = 0 F (x) = x F (x) = 1 si x < n1 si nk ≤ x < k+1 (k ∈ J1, n − 1K) n et si x ≥ 1 si x < 0 si 0 ≤ x ≤ 1 si x > 1 Puisque F est continue dans R (ce qui est découle déjà de la nature de X comme v.a à densité), il s’agit de montrer que : ∀ x ∈ R, Fn (x) −→ F (x) n→+∞ (12.11) Soit x ∈ R. On distingue quatre cas possibles : P remier cas : x < 0 Dans ce cas (12.11) est vérifiée car ∀ n ∈ N∗ , F (x) = 0 n F (x) = 0 Deuxième cas : x = 0 Dans ce cas aussi (12.11) est vérifiée car ∀ n ∈ N∗ , F (x) = F (0) = 0 n n F (x) = F (0) = 0 T roisième cas : x ≥ 1 Dans ce cas également (12.11) est vérifiée car ∀ n ∈ N∗ , Quatrième cas : 0 < x < 1 F (x) = 1 Fn (x) = 1 (y compris pour x = 1 par continuité de F ) 1 1 Dans ce cas, et comme la suite a pour limite 0, soit n0 ∈ N∗ tel que : ∀ n ∈ N∗ , n ≥ n0 =⇒ ≤ x. n n∈N∗ n Soit n ∈ N∗ tel que n ≥ n0 . 1 k k + 1 q y 1 ≤ x < 1 et , 1 est union disjointe des intervalles , On a (k ∈ 1, n − 1 ) ; donc, il existe un unique n n n n q y k0 k0 + 1 , . Il vient : indice k0 ∈ 1, n − 1 tel que x ∈ n n Fn (x) − F (x) = k0 + 1 k0 k0 −x ≤ − n n n Ainsi ∀ n ≥ n0 , Fn (x) − F (x) ≤ Donc, par encadrement : Fn (x) −→ F (x). n→+∞ CQFD. 136 1 n Remarque 12.5 C’est un exemple d’une suite de v.a.r.d qui converge en loi vers une v.a.r à densité (donc non discrète). Exemple 12.6 Soit (Un )n∈N∗ une suite de v.a.r sur (Ω, A, P ) indépendantes et à densité telles que pour tout n ∈ N∗ , Un ,→ U[0,1] . On note pour tout n ∈ N∗ , Mn = max (U1 , ..., Un ) et Xn = n (1 − Mn ). L Observons d’abord que les Mn et Xn sont des v.a.r sur (Ω, A, P ). Montrons que Xn −→ X ; où X est une v.a.r sur (Ω, A, P ) suivant la loi E (1). Sachant que FX est continue sur R, il s’agit de montrer que : ∀ x ∈ R, FXn (x) −→ FX (x). n→+∞ Soit x ∈ R et n ∈ N∗ . On a : F (x) = 0 si x < 0 Un FUn (x) = x si 0 ≤ x ≤ 1 F (x) = 1 si x > 1 Un Déterminons FXn (x). On a : FXn (x) = P (Xn ≤ x) = P 1 − Mn ≤ nx = P Mn ≥ 1 − nx = 1 − P Mn < 1 − nx Mais par définition de Mn : (12.12) n Mn < 1 − \ x x Uk < 1 − = n n k=1 et les v.a Un (n ∈ N∗ ) sont supposées mutuellement indépendantes ; donc FXn (x) = 1− = 1− = 1− Qn k=1 P Uk < 1 − x n x P U ≤ 1 − k k=1 n Qn x F 1 − k=1 Uk n Qn Alors compte tenu de (12.12), on a en distinguant les cas 1 − x x x < 0, 0 ≤ 1 − ≤ 1 et 1 − > 1 : n n n F (x) = 0 Xn n FXn (x) = 1 − 1 − nx F (x) = 1 Xn Comme pour x < 0, on a : [car les Uk sont continues à densité] ; si x < 0 ; si 0 ≤ x ≤ n ; si x > n ∀ n ∈ N∗ , FXn (x) = 0 on déduit que FXn (x) −→ 0 n→+∞ et pour x ≥ 0, on a en posant nx = x + 1 : x n ∀ n ≥ nx , FXn (x) = 1 − 1 − n d’où : FXn (x) −→ 1 − e−x . n→+∞ 137 On note alors X une v.a.r sur (Ω, A, P ) telle que X ,→ E (1), en sorte que F (x) = 0 X F (x) = 1 − e−x ; si x < 0 ; si x ≥ 0 X D’après ce qui précède, on a : ∀ x ∈ R, FXn (x) −→ FX (x) n→+∞ CQFD. Remarque 12.6 x n−1 φ[0,n] (x) ; ce On vérifie aisément que chaque v.a.r Xn est à densité et qu’une densité en est fXn : x 7−→ 1 − n qui entraîne que l’exemple 12.6 est celui d’une suite de v.a.r à densité qui converge en loi vers une v.a.r à densité. Exemple 12.7 Soit (Xn )n∈N∗ une suite de v.a.r, (pn )n∈N∗ une suite d’éléments de 0, 1 et λ un réel strictement positif tels que : ∀ n ∈ N∗ , Xn ,→ B (n, pn ) n.pn −→ λ n→+∞ Soit X une v.a.r sur (Ω, A, P ) telle que X ,→ P (λ). Montrons que la suite (Xn )n∈N∗ converge en loi vers X. Les v.a Xn (n ∈ N∗ ) et X sont à valeurs dans N, alors il suffit de montrer que : ∀ k ∈ N, P (Xn = k) −→ P (X = k) n→+∞ Soit donc k ∈ N. On a pour tout n ≥ k : P (Xn = k) n = k ! pkn (1 − pn ) = n (n − 1) ... (n − k + 1) k n−k pn (1 − pn ) k! = (1 − pn ) k! n−k k−1 Y j=0 D’autre part (1 − pn )n−k n−k ∼ n→+∞ npn et npn −→ λ. n→+∞ [(n − j) pn ] −→ λk n→+∞ = exp ((n − k) ln (1 − pn )) , alors comme pn (n − k) ln (1 − pn ) Donc (1 − pn ) Qk−1 j=0 [(n − j) pn ] r z On constate que pour tout j ∈ 0, k − 1 , on a (n − j) pn D’où n−k ∼ n→+∞ − (n − k) pn ∼ n→+∞ −→ exp (−λ), donc n→+∞ λk exp (−λ) n→+∞ k! P (Xn = k) −→ 138 ∼ λ −→ 0, on a : n→+∞ n n→+∞ −λ (n − k) n Soit P (Xn = k) −→ P (X = k) n→+∞ CQFD. Remarque 12.7 On a là un exemple d’une suite de v.a.r.d converge en loi vers une v.a.r.d. 12.3.2 Lien avec la convergence en probabilité Théorème 12.8 Soit (Ω, A, P ) un espace probabilisé, (Xn )n∈N une suite de v.a.r et X une autre v.a.r toutes définies sur cet espace P L telles que (Xn ) −→ X. Alors (Xn ) −→ X. Preuve Elle est admise. Il s’agit de montrer que pour tout réel x où FX est continue, on a : Fn (x) = P (Xn ≤ x) −→ F (x) = P (X ≤ x). n−→+∞ S Xn − X < −ε . Soit x un tel réel. Soit ε > 0 et n ∈ N arbitraire. On a Xn = X + (Xn − X), donc Xn ≤ x ⊂ X ≤ x + ε D’où par croissance et sous-additivité de P : P (Xn ≤ x) ≤ P (X ≤ x + ε) + P (Xn − X < −ε) Et comme Xn − X < −ε ⊂ Xn − X > ε , on a : P (Xn ≤ x) ≤ P (X ≤ x + ε) + P Xn − X > ε Et cela est vrai pour tout ε > 0 et pour tout n ∈ N. Soit η > 0 ; montrons qu’il existe N ∈ N tel que (12.13) ∀ n ∈ N, n ≥ N =⇒ FXn (x) − FX (x) ≤ η ce qui achève la démonstration. Par continuité de FX en x, on dispose d’un réel ε0 > 0 tel que FX (x) ≤ FX (x + ε0 ) ≤ FX (x) + η 2 (12.14) η Xn − X > ε0 ≤ . 2 On en déduit, en appliquant (12.13) à ε = ε0 et en utilisant (12.14), que pour tout entier n ≥ n0 on a : P D’autre part, par hypothèse, (Xn ) −→ X ; alors pour ce ε0 , soit n0 ∈ N tel que : ∀ n ≥ n0 , P FXn (x) ≤ FX (x + ε0 ) + P η η Xn − X > ε0 ≤ FX (x) + + 2 2 c’est à dire : FXn (x) ≤ FX (x) + η Avec un raisonnement analogue partant de X = Xn + (X − Xn ) et des inégalités P (X ≤ x − ε) ≤ P (Xn ≤ x) + P (X − Xn < −ε) ≤ P (Xn ≤ x) + P desquelles on tire P (Xn ≤ x) ≥ P (X ≤ x − ε) − P pour tout n ≥ n1 , on a : X − Xn > ε X − Xn > ε , on montre l’existence d’un entier n1 ∈ N, dépendant de η, tel que FXn (x) ≥ FX (x) − η En notant N = max (n0 , n1 ), on a en synthèse : ∀ n ∈ N, n ≥ N =⇒ FXn (x) − FX (x) ≤ η CQFD. 139 Remarque 12.8 L P La réciproque est fausse en général : (Xn ) −→ X ⇏ (Xn ) −→ X ∗ En guise de contre exemple, considérons une suite (Xn )n∈N∗ de v.a.r sur (Ω, A, P ) telle que pour tout n ∈ N , 1 1 1 + et une v.a.r X sur ce même espace telle que X ,→ B . On a : Xn ,→ B 2 2n 2 1 1 P (Xn = 1) = + 2 2n On constate que (n ∈ N) P (X = 0) = 1 − 1 n 2 2n et 1 P (X = 1) = 2 P (X = 0) = 1 2 P (Xn = 0) −→ 1 = P (X = 0) n→+∞ 2 P (Xn = 1) −→ 12 = P (X = 1) n→+∞ L Alors, puisque X et les Xn sont à valeurs dans N, (Xn ) −→ X. P Montrons que, cependant, (Xn ) ↛ X, c’est à dire qu’il existe ε > 0 tel que P Soit n ∈ N. On a : 1 P Xn − X > 2 = P h = P = P 1 i Sh 1i Xn − X > Xn − X < − 2 2 1 Xn − X > 2 Xn > X + 1 2 +P 1 Xn − X < − 2 +P Xn < X − 1 2 Xn − X > ε ↛ n→+∞ 0. [par additivité de P ] Maintenant, grâce à la formule des probabilités totales on a : P 1 Xn > X + 2 et de même : 1 P Xn < X − 2 = P Xn > X + 1 P (X = 0) + P Xn > X + 1 P (X = 1) X=0 X=1 2 2 1 + P 2 = 1 P 2 = 1 1 P (Xn = 1) + P (Ø) 2 2 = 1 1 + 4 4n = P 1 Xn > 2 3 Xn > 2 [car Xn ne prend que les valeurs 0 et 1] Xn < X − 1 P (X = 0) + P Xn < X − 1 P (X = 1) X=0 X=1 2 2 = 1 P 2 = 1 1 P (Ø) + P (Xn = 0) 2 2 = 1 1 − 4 4n 1 Xn < − 2 1 + P 2 1 Xn < 2 [car Xn ne prend que les valeurs 0 et 1] 140 D’où P 1 Xn − X > 2 = 1 1 1 1 1 + + − = . Il vient, sachant que n est arbitraire : 4 4n 4 4n 2 P 1 2 Xn − X > ↛ n→+∞ 0 CQFD. U ne situation particulière où la réciproque est vraie Théorème 12.9 Soit (Ω, A, P ) un espace probabilisé, (Xn )n∈N une suite de v.a.r sur cet espace et c une constante réelle telle que L P (Xn ) −→ c. Alors (Xn ) −→ c. Preuve Il s’agit de montrer que : ∀ε > 0, P Soit ε > 0. On a : Xn − c > ε D’où par croissance et sous-additivité de P h −→ 0 . n−→+∞ i h i h i Xn − c > ε = Xn < c − ε ∪ Xn > c + ε ∀ n ∈ N, 0 ≤ P Xn − c > ε ≤ P (Xn < c − ε) + P (Xn > c + ε) (12.15) L D’autre part, par hypothèse (Xn ) −→ c ; alors, sachant que la fonction Fc = φ[c,+∞[ de répartition de la v.a.r sûre c est continue en c − ε et c + ε (elle n’est discontinue qu’en 0), on a FXn (c − ε) −→ Fc (c − ε) = 0 FXn (c + ε) Il vient n−→+∞ −→ n−→+∞ Fc (c + ε) = 1 P (Xn > c + ε) = 1 − P (Xn ≤ c + ε) = 1 − FXn (c + ε) −→ n−→+∞ 0 On a aussi 0 ≤ P (Xn < c − ε) ≤ P (Xn ≤ c − ε) = FXn (c − ε) donc, par encadrement : P (Xn < c − ε) On en déduit en utilisant l’encadrement (12.15) que P 12.3.3 Xn − c > ε −→ n−→+∞ 0 −→ 0 . CQFD n−→+∞ Opérations sur la convergence en loi a) Transformation par une fonction continue Théorème 12.10 L Soit Xn (n ∈ N) et X des v.a.r non forcément définies sur le même espace probabilisé telles que (Xn ) −→ X et L f : R −→ R une fonction continue. Alors (f (Xn )) −→ f (X). Preuve Elle est admise. 141 b) Opérations algébriques : Théorèmes de Slutsky Théorème 12.11 (de Slutsky) L L Soit (Xn )n∈N et (Yn )n∈N deux suites de v.a.r et X une autre v.a.r telles que (Xn ) −→ X et (Yn ) −→ 0. L Alors (Xn + Yn ) −→ X. Preuve Elle est admise. Soit t un réel où FX est continue en t. Il s’agit de montrer que FXn +Yn (x) −→ FX (x), c’est à dire que n→+∞ ∀ ε > 0, ∃ N ∈ N, ∀ n ∈ N, n ≥ N =⇒ FXn +Yn (t) − FX (t) ≤ ε Soit ε > 0. Par continuité de FX en t, on peut se donner deux réels strictement positifs α et β tels que : FX (t) − ε ε ≤ F (t − β) ≤ FX (t) ≤ FX (t + α) ≤ FX (t) + 3 3 (12.16) De plus ces réels α et β peut être choisis aussi petit que l’on veut. on peut donc les choisir de telle sorte que FX soit continue en t − β et t + α. En effet, par croissance de FX l’ensemble de ses points de discontinuité est au plus dénombrable (c’est classique), et alors l’ensemble de ses point de continuité est dense dans R. Ces réel α et β étant ainsi choisis, on a par convergence en loi de (Xn ) vers X et de (Yn ) vers 0 −→ FX (t − β) FXn (t − β) n→+∞ FXn (t + α) −→ FX (t + α) n→+∞ FYn (−α) −→ F0 (−α) = P (12.17) |0 ≤{z−α} = 0 [car F0 = φ[0,+∞[ est continue en − α] n→+∞ =Ø [car F0 = φ[0,+∞[ est continue en β] FYn (β) −→ F0 (β) = P 0 ≤ β = 1 n→+∞ | {z } =Ω Fixons quatre entiers naturels n0 , n1 , n2 et n3 tels que pour tout n ∈ N : ε n ≥ n0 =⇒ FXn (t − β) − FX (t − β) ≤ 3 ε n ≥ n1 =⇒ FXn (t + α) − FX (t + α) ≤ 3 ε n ≥ n2 =⇒ FYn (−α) ≤ 3 n ≥ n3 =⇒ 1 − FY (β) ≤ ε n 3 Soit N = max (n0 , n1 , n2 , n3 ). Montrons que N convient. Soit donc n ∈ N tel que n ≥ N En raisonnant par implication contraposée, on vérifie aisément que Xn + Yn ≤ t ⊂ Xn ≤ t + α ∪ Yn ≤ −α X n ≤ t − β ⊂ X n + Y n ≤ t ∪ Y n > β D’où par croissance et sous-additivité de P : F F ou, ce qui revient au même F F On en déduit : Xn +Yn (t) ≤ FXn (t + α) + FYn (−α) Xn (t − β) ≤ FXn +Yn (t) + P (Yn > β) Xn +Yn (t) ≤ FXn (t + α) + FYn (−α) Xn (t − β) ≤ FXn +Yn (t) + 1 − FYn (β) FXn (t − β) + 1 − FYn (β) ≤ FXn +Yn (t) ≤ FXn (t + α) + FYn (−α) puis, en utilisant les relations (12.18) : FX (t − β) − 2ε 2ε ≤ FXn +Yn (t) ≤ FX (t + α) + 3 3 142 (12.18) Et, finalement, en utilisant les relations (12.16) FX (t) − ε ≤ FXn +Yn (t) ≤ FX (t) + ε c’est à dire FXn +Yn (t) − FX (t) ≤ ε CQFD. Exercice 12.10 Trouver une démonstration plus simple du théorème 12.11, dans le cas où la convergence en loi de (Xn ) vers X est remplacée par l’hypothèse plus forte de convergence en probabilité Le théorème suivant est une généralisation du théorème 12.11 Théorème 12.12 (de Slutsky) L Soit (Xn )n∈N et (Yn )n∈N deux suites de v.a.r, X une autre v.a.r et c une constante réelle telles que (Xn ) −→ X L L et (Yn ) −→ c. Alors (Xn + Yn ) −→ X + c. Preuve Le résultat se déduit du théorème 12.11 en remarquant que pour des v.a.r Un (n ∈ N),U et pour un réel c, on a L (Un ) −→ U ⇐⇒ L (Un − c) −→ U − c en effet Un − c = f (Un ) et Un = g (Un − c) où f est la fonction x 7−→ x − c et g est la fonction x 7−→ x + c. Et le théorème 12.10 permet de conclure. Exercice 12.11 Montrer par un contre exemple que L (X ) −→ X n L (Y ) −→ Y n en général. 12.4 ⇏ L (Xn + Yn ) −→ X + Y Théorèmes limites Notations et vocabulaire X1 + ... + Xn • À toute suite de v.a.r (Xn )n∈N∗ on associe la suite de v.a.r Xn n∈N∗ , où pour tout n ∈ N∗ : Xn = n Les Xn s’appellent les moyennes empiriques de la suite (Xn )n∈N∗ • Si une suite (Xn )n∈N∗ de v.a.r est telle que toutes les v.a Xn suivent la même loi on dit que la suite (Xn )n∈N∗ est identiquement distribuée (en abrégé i.d ou i.i.d si elle est en outre mutuellement indépendante). Dans ce cas, si cette loi admet une espérance µ [resp. une variance σ 2 ] alors µ [resp. σ 2 ] est dit l’espérance [resp. la variance] de la suite (Xn )n∈N∗ . 143 12.4.1 Loi faible des grands nombres (LFGN) Théorème 12.13 (LFGN) Soit X une v.a.r discrète ou à densité sur l’espace probabilisé (Ω, A, P ) admettant une variance et soit (Xn )n∈N∗ une suite i.i.d de v.a.r de loi celle de X. Alors sa suite des moyennes empiriques Xn n∈N∗ converge en loi vers la v.a sûre E (X). Ce qui veut dire concrètement : ∀ ε > 0, P X1 + ... + Xn − E (X) ≥ ε −→ 0 n→+∞ n Preuve E (X1 ) + ... + E (Xn ) On a, par linéarité de l’espérance, E Xn = = E (X), car les Xk ont la même loi que X. D’autre part, sachant n qu’elles sont mutuellement indépendantes, les Xk sont deux à deux indépendantes ; donc, selon le théorème 11.11 : V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn ) = nV (X) Il vient : V Xn = V 1 (X1 + ... + Xn ) n = 1 V (X) V (X1 + ... + Xn ) = n2 n Soit ε > 0. L’inégalité de Bienaymé - Tchebychev appliquée à Xn permet d’écrire : ∀ n ∈ N∗ , P Soit ∀ n ∈ N∗ , P Et cette relation prouve que P Xn − E (X) ≥ ε Xn − E Xn V Xn ≥ε ≤ ε2 V (X) Xn − E (X) ≥ ε ≤ nε2 −→ 0. CQFD n→+∞ Remarque 12.9 L’idée intuitive est que si on mesure une même quantité aléatoire au cours d’une expérience qui consiste en une suite d’épreuves indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l’espérance. Comme cas particulier, quand on veut veut estimer la probabilité d’un événement A lié à une expérience aléatoire donnée, on n’a qu’à répéter cette expérience un grand nombre de fois (d’où la terminologie « loi des grands nombres ») et observer le nombre de réalisation de l’événement A. En notant Xk = φA l’indicatrice de A à la k ième épreuve, les Xk sont indépendantes et suivent la loi de Bernoulli de paramètre p = P (A) et Sn = X1 + ... + Xn représente Sn X1 + ... + Xn = est la fréquence le nombre de réalisation de A au cours des n premières épreuve et Xn = n n expérimentale de A. La loi des grand nombre explique pourquoi cette fréquence « tend vers p », ce qui permet d’estimer p. Exemple 12.8 : estimation de la probabilité d’un événement i h Soit p ∈ 0, 1 . On lance N fois de suite une pièce qui a une probabilité p de tomber sur "face" et 1 − p de tomber r z sur "pile". Pour k ∈ 1, N , on note Ak l’événement « la pièce est tombée sur "face" au k-ième lancer » . La variable n P aléatoire Sn = φAk (1 ≤ n ≤ N ) est le nombre de fois où la pièce est tombée sur "face" au cours des n premiers k=1 Sn se concentre autour p lorsque tend n devient lancers. D’après la loi faible des grands nombres, la loi de Xn = n ∗ grand . Plus précisément, pour tout ε > 0 et n ∈ N , on a : P Sn p (1 − p) 1 −p ≥ε ≤ ≤ n nε2 4nε2 Illustration de l′ approximation 144 (V (φAk ) = p (1 − p) ≤ 1 ) 4 6 5 = p et P (X = 0) = = 1 − p. On donne la loi de v.a de Bernoulli X : P (X = 1) = 11 11 30 5 et V (X) = p (1 − p) = On a E (X) = p = 11 121 Soit X1 = φA1 , ..., Xn = φAn les n réalisations (on dit aussi copies) de X. Voici une illustration par des diagrammes Sn pour trois valeurs de n. en bâtons de la loi de Xn = n Remarque 12.10 p V (X) √ , où c > 0 est arbitraire. On a : • Dans la dernière inégalité de la démonstration précédente, prenons ε = n c P Xn − E (X) ≥ c p V (X) √ n ! ≤ 1 c2 X1 + ... + Xn 1 est √ . n n • À l’adresse du cours sur l’estimation (hors programme MP), la LFGN montre que la moyenne empirique Xn est On dit que l’ordre de l’erreur commise en approchant E (X) par la moyenne Xn = un estimateur convergent de l’espérance. • À l’adresse de la théorie, Alexandre Khintchine (mathématicien russe) a montré une version plus forte de la LFGN où l’hypothèse « X admet une variance » est remplacée par l’hypothèse plus faible « X admet une espérance » en montrant qu’avec cette dernière hypothèse on obtient la convergence en loi de Xn n∈N∗ vers la v.a sûre E (X), ce qui permet d’obtenir la convergence en probabilité selon le théorème 12.9. 12.4.2 Théorème central limite (TCL) Vocabulaire et notation • Pour une v.a.r X est dite centrée si et seulement si elle admet une espérance égale à 0 ; elle est dite réduite si et seulement si elle admet une variance égale à 1. • Si la v.a.r X admet une espérance µ et une variance σ 2 > 0 alors la v.a.r X ∗ = l’appelle la v.a centrée réduite associée à X. X −µ est centrée réduite ; on σ Remarque 12.11 Si (Xn )n∈N∗ est une suite i.i.d de v.a.r admettant une espérance µ et une variance σ2 > 0 alors le lecteur vérifiera √ n Xn − µ ∗ est centrée réduite. que pour tout n ∈ N , la v.a σ Théorème 12.14 (TCL) Soit (Xn )n∈N∗ une suite i.i.d de v.a.r admettant une espérance µ et une variance σ 2 > 0. ! √ n Xn − µ Alors la suite de v.a centrées réduites converge en loi vers une v.a.r X suivant une loi σ ∗ normale centrée réduite N (0, 1). n∈N 145 Preuve Elle est admise. Remarque 12.11 Soit (Xn )n∈N∗ une suite i.i.d de v.a.r admettant une espérance µ et une variance σ 2 > 0. D’après le TCL il existe une v.a X telle que X ,→ N (0, 1) ! √ n X − µ n L −→ X σ Z x t2 1 e− 2 dt ; elle est continue. Donc, d’après la proposition 12.2, La fonction de répartition de X est Φ : x 7−→ √ 2π −∞ 2 on a pour tout couple (a, b) ∈ (R ∪ {−∞, +∞}) tels que a ≤ b : P a≤ Soit P a≤ √ √ ! n Xn − µ ≤b −→ P (a ≤ X ≤ b) n→+∞ σ ! Z b t2 n Xn − µ 1 ≤b −→ √ e− 2 dt n→+∞ σ 2π a Exemple 12.9 Une chaîne de montage produit des pièces défectueuses dans une proportion de 10%. On prélève 400 pièces. Quelle est la probabilité d’obtenir plus de 50 pièces défectueuse parmi les 400. On modélise la situation par une succession d’épreuves de Bernoulli indépendantes où le succès est de probabilité µ = 0, 1 (probabilité de trouver une pièce défectueuse) ; le nombre d’épreuve est de n = 400. On note Xk la v.a égale à 1 si le k ième test amène une pièce défectueuse et 0 sinon. Les Xk sont indépendantes et de même loi, B (µ) ; elles sont d’espérance µ et de variance σ2 = µ (1 − µ) = (0, 1) . (0, 9) = 0, 09. On pose Sn = X1 + ... + Xn , en sorte que la probabilité qu’on veut calculer est P (Sn ≥ 50). √ n Xn − µ √ Sn Sn − nµ √ . Comme nµ = 40 et σ n = 0, 3 × 20 = 6, on a Notons Xn = et Tn = = n σ σ n 5 Sn ≥ 50 = 6Tn + 40 ≥ 50 = Tn ≥ 3 Vu que le nombre 400 est « grand », le TCL permet l’approximation P (Sn ≥ 50) = P 5 Tn ≥ 3 1 ≃√ 2π Z +∞ 5/3 e t2 −2 5 ≃ 0, 0485 dt ≃ 1 − Φ 3 La valeur approchée est fournie par la table de valeur de Φ. Il y a donc un peu moins que 5% de chance de trouver plus que 50 pièces défectueuses parmi 400. 146