cours de probabilitées avancées A. Elouaflin11 1. UFR Maths-Info, Université de Cocody, 22 BP 582 Abidjan, Côte d’Ivoire February 16, 2023 1 e-mail: elabouo@yahoo.fr 2 Chapter 1 Espace de probabilité fini 1.1 1.1.1 Notions fondamentales Probabilité sur un espace fini, événements On s’interesse à une expérience alátoire qui conduit à la réalisation d’un seul résultat parmi un nombre fini de résultats possibles ω1 , ω2 , ..., ωn . On note Ω = {ω1 , ω2 , ..., ωn } l’ensemble de ces résultats. Définition 1.1.1. Une probabilité IP sur Ω = {ω1 , ω2 , ..., ωn } est une famille (p1 , p2 , ..., pn ) de réels vérifiants ∀ 1 ≤ k ≤ n, 0 ≤ pk ≤ 1, et n X pk = 1 k=1 On attribue à tout événement A ⊂ Ω, le nombre IP(A) = X pk qui est appelé probabilité de k: ωk ∈A l’événement A. Exemple 1.1.2. Jet de deux dés à six faces: Ω = {(i, j) : 1 ≤ i, j ≤ 6} où i désigne la valeur de la face supérieure du premier dé et j celle du second. Les dés ne sont pas pipés. On munit Ω de la 1 pondération suivantes: ∀ 1 ≤ i, j ≤ 6, p(i,j) = . 36 Soit A l’événement: les valeurs des deus dés sont identiques. On a A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)} 6 X 6 1 et IP(A) = p(i,i) = = . 36 6 i=1 On note S la somme des deux dés et {S = k} l’événement {(i, j) : S(i, j) = k}. On a S(i, j) = i + j. Calculer IP(S = k) pour k = 2, ..., 12. Terminologie concernant les événements J J J J J Si IP(A) = 0, l’événement A est dit négligeable. Si IP(A) = 1, l’événement A est dit presque sûr. On appelle événement contraire de A et on note Ac l’événement Ω\A. Si A, B ⊂ Ω, l’événement A et B ( réalisé lorsque A et B le sont) est noté A ∩ B. L’événement A ou B ( réalisé lorsque A ou B le sont) est noté A ∪ B. Probabilité des événements ∅, Ω, Ac , A ⊂ B et A ∪ B 4 J J J J CHAPTER 1. ESPACE DE PROBABILITÉ FINI IP(∅) = 0. IP(Ω) = 1. IP(Ac ) = 1 − IP(A) vu que A ∪ Ac = Ω et A ∩ Ac = ∅. Donc 1 = IP(Ω) = IP(A) + IP(Ac ). Si A ⊂ B, on note B\A = B ∩ Ac . Alors B = A ∪ (B\A) avec A ∩ (B\A) = ∅. D’où IP(B\A) = IP(B) − IP(A) c J A ∪ B = (A ∩ B ) ∪ (A ∩ B) ∪ (Ac ∩ B) = (A\A ∩ B) ∪ (A ∩ B) ∪ (B\A ∩ B). Ces ensembles étants deux à deux disjoints, on obtient donc, IP(A∪B) = IP(A\A∩B))+IP(A∩B)+IP(B\A∩B) = IP(A)−IP(A∩B)+IP(A∩B)+IP(B)−IP(A∩B). Ainsi, IP((A ∪ B) = IP(A) + IP(B) − IP(A ∩ B) Fonction indicatrice On appelle fonction indicatrice de l’événement A la fonction IA : Ω → {0, 1} définie par 1 si ω ∈ A ∀ω ∈ Ω, IA (ω) = 0 sinon Exercise 1.1.3. Montrer que IA∩B = IA .IB ; IAc = 1 − IA et IA∪B = IA + IB − IA∩B . 1.1.2 Probabilités uniformes Dans le cas particulier où tous les résultats possibles jouent le même rôle, ces résultats doivent 1 avoir la même pondération . On dit alors qu’ils sont équiprobables. Pour tout événement card(Ω) A ⊂ Ω, on a X Card(A) 1 = IP(A) = card(Ω) card(Ω) k,ωk ∈A Cette probabilité s’appelle probabilité uniforme sur Ω. Exemple 1.1.4. Dans le cas du jet de deux dés non pipés, Ω = {(i, j) : 1 ≤ i, j ≤ 6} est muni de la probabilité uniforme. Remarque 1.1.5. Si on s’interesse à la somme des deux dés, on peut choisir Ω = {2, 3, 4, ..., 12}, ensemble des valeurs prises par cette somme. Mais fautes de propriétés de symétrie, on ne sait pas munir cet espace d’une probabilité naturelle. En travaillant sur l’espace plus gros {(i, j) : 1 ≤ i, j ≤ 6} des couples des valeurs des deux dés muni de la probabilité uniforme, on construit une pondération naturelle sur le svaleurs de lka somme des deux dés. Cette pondération n’a rien d’uniforme. Le choix de l’espace de probabilité sur lequel on travaille est très important. Dans le cas des probabilités uniformes, les calculs se ramènent à du dénombrement. Rappels de dénombrement On se donne n, k ∈ IN∗ avec k ≤ n. J Le nombre de permutations d’un ensemble à n éléments est n!. J Le nombre d’injections d’un ensemble à k éléments dans un ensembles à n éléments est Akn = n! (n − k)! J Le nombre de parties à k éléments d’un ensemble à n éléments est Cnk = n! k!(n − k)! 1.2. PROBABILITÉ CONDITIONNELLE ET INDÉPENDANCE 5 Exercise 1.1.6. Dans une classe de n ≤ 365 élèves, quelle est la probabilité de l’événement A: deux élèves au moins sont nés le même jour. 1.2 1.2.1 Probabilité conditionnelle et indépendance Probabilité conditionnelle Définition 1.2.1. Soit Ω muni d’une probabilité IP et A, B ⊂ Ω.La probabilité conditionnelle de l’événement A sachant l’événement B est notée IP(A|B) et est d’éfinie par IP(A∩B) IP(B) si IP(B) > 0 IP(A|B) = IP(A) sinon Exercise 1.2.2. 1. Dans une famille qui comporte deux enfants, l’un est une fille. On cherche la probabilité que l’autre soit un garçon. 2. On suppose maintenant que l’aı̂né des enfants est une fille. Quelle est la probabilité que l’autre soit un garçon. Exercise 1.2.3. Parmi 10 pièces mécaniques, 4 sont défectueuses. on prend successivement deux pièces au hasard dans le lot sans remise. quelle est la probabilité pour que les deux pièces soient correctes. Remarque 1.2.4. De façon naturelle, on peut utiliser la définition sous la forme IP(A ∩ B) = IP(A|B)IP(B). Ce qui se généralise en IP(A1 ∩A2 ∩...∩Am ) = IP(Am |A1 ∩A2 ∩...∩Am−1 ).IP(Am−1 |A1 ∩ A2 ∩ ... ∩ Am−2 )....IP(A2 |A1 )IP(A1 ) Proposition 1.2.5. ( Formule de Bayes). Soient B1 , ..., Bm une partition de Ω ( i.e des sousensembles disjoints de Ω dont la réunion est ω) et A ⊂ Ω tel que IP(A) > 0. Alors pour tout 1 ≤ i ≤ m, IP(A|Bi )IP(Bi ) IP(Bi |A) = Pm j=1 IP(A|Bj )IP(Bj ) Exercise 1.2.6. Pour dépister une maladie, on applique un test sanguin. Si le patient est atteint, le test donne un résultat positif dans 99 pour cent des cas. Mais le test est également positif pour 2 pour cent des personnes en bonne santé. La proportion de personnes malades dan sl apopulation soumise au test est de 10−3 . calculer la probabilité pour qu’un patient soit en bonne santé sachant que le résultat de son test est positif. 1.2.2 Indépendance Définition 1.2.7. Soit Ω muni d’une probabilité IP. Deux événements A et B sont dits indépendants si IP(A ∩ B) = IP(A)IP(B) ou encore IP(A|B) = IP(A) ou IP(B|A) = IP(B). Définition 1.2.8. m événements A1 , ..., Am sont dits indépendants si ! \ Y ∀I ⊂ {1, ..., m}, IP Ai = IP(Ai ) i∈I i∈I 6 CHAPTER 1. ESPACE DE PROBABILITÉ FINI Q Remarque 1.2.9. I Il ne suffit pas que IP(A1 ∩ A2 ∩ ... ∩ Am ) = m i=1 IP(Ai ) pour que les événements soient indépendants. I Pour que 3 événements soient indépendants, il ne suffit pas qu’ils soient 2 à 2 indépendants. En effet pour le jet de deux pièces à Pile ou Face: Ω = {P P, P F, F P, F F } où P F signifie que la première pièce donne Pile et la seconde Face. On muni cet espace de la probabilité uniforme. On considère les événements A : première pièce donne Pile , B : deuxième pièce donne Face et C les deux pièces donnent le même résultat. On a A = {P P, P F }; B = {P F, F F }; C = {P P, F F }; A ∩ B = {P F }; A ∩ C = {P P }; B ∩ C = {F F }; 1 1 A ∩ B ∩ C = ∅. IP(A) = IP(B) = IP(C) = ; IP(A ∩ B) = = IP(A)IP(B); 2 4 1 1 IP(A ∩ C) = = IP(A)IP(C); IP(B ∩ C) = = IP(B)IP(C). 4 4 Mais IP(A ∩ B ∩ C) = 0 6= IP(A)IP(B)IP(C). Les événements A, B et C sont 2 à 2 indépendants mais pas indépendants. Chapter 2 Variables aléatoires discrètes 2.1 Espace de probabilité Définition 2.1.1. Une tribu A sur Ω est une classe de parties de Ω qui vérifie les trois propriétés suivantes: i). ∅, Ω ∈ A. ii). A ∈ A ⇒ Ac ∈ A. T S iii). Si (Ai )i∈I est une famille dénombrable d’éléments de A, alors i∈I Ai et i∈I Ai sont dans A. Les éléments de A sont appélés événements. Exemple 2.1.2. J {∅, Ω} est la plus petite tribu sur Ω. On l’appelle tribu grossière. J P(Ω) est la plus grosse tribu sur Ω. on l’appelle la tribu discrète. J Si A ⊂ Ω, {∅, A, Ac , Ω} est une tribu sur Ω. Définition 2.1.3. Soit Ω muni d’une tribu A. on appelle probabilité sur (Ω, A est une application IP : A −→ [0, 1] qui vérifie i). IP(Ω) = 1 ii). (la σ-additivité): Si (Ai )i∈I est une famille dénombrable d’éléments de A deux à deux disjoints ( ∀i 6= j ∈ I, Ai ∩ Aj = ∅), alors ! [ X IP Ai = IP(Ai ). i∈I i∈I Le triplet (Ω, A, IP) s’appelle espace de probabilité. 2.2 2.2.1 Variables aléatoires discrètes Famille sommable Dans toute cette section, I désigne un ensemble dénombrable. Notations S Soit Ω un ensemble, ATn ⊂ Ω et f : Ω −→ IR. On écrit An ↑ A si An ⊂ An+1 et A = An ; An ↓ A si An ⊃ An+1 et A = An ; fn ↑ f si fn ≤ fn+1 et f = sup fn ; fn ↓ f si fn ≥ fn+1 et f = inf fn ; Enumération On appelle énumération de I toute bijection φ de IN sur I. Soient (ai , i ∈ I) une famille de nombres réels ou complexes et φ une énumération de I. On pose Snφ = aφ(0) + aφ(1) + ... + aφ(n) 8 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES Famille sommable positive ¯ +. On suppose que pour tout i ∈ I, ai ≥ 0. Alors la suite Snφ est croissante et S φ = lim ↑ Snφ ∈ IR Si ψ est une autre énumération de I, on a, pour n fixé et m assez frand, {aφ(0) , aφ(1) , ..., aφ(n) } ⊂ {aψ(0) , aψ(1) , ..., aψ(m) }. ψ Ainsi Snφ ≤ Sm ≤ S ψ . D’où S φ ≤ S ψ . En changeant le rôle de φ et ψ, on obtient également ψ φ S ≤ S et finalement S φ = S ψ . Théorème 2.2.1. Soit (ai , i ∈ I) une famille de nombre réels positifs. Alors, pour toute énumération ¯ + indépendant de φ. On note φ deX I, la suite Snφ converge en croissant vers un nombre S ∈ IR S= ai . Si S < +∞, la famille est dite sommable. i∈I Proposition 2.2.2. (i) Si In ↑ I, In fini; X ai ↑ X ai . i∈I i∈In P i∈I ai , il existe J ⊂ I, J fini tel que (ii) Pour tout A < X ai > A. i∈J (iii) Si 0 ≤ ai ≤ bi ; X ai ≤ i∈I (iv) Pour α ≥ 0, β ≥ 0, X bi . i∈I ai ≥ 0, bi ≥ 0, on a X (αai + βbi ) = α i∈I X ai + β i∈I X bi i∈I Proposition 2.2.3. (Passage à la limite croissante). Soit pour tout n ∈ IN, (ai (n), i ∈ I) une famille de nombre réels positifs. On suppose que, pour tout i ∈ I, ai (n) ↑ ai lorsque n −→ +∞. Alors X ai (n) ↑ i∈I X ai i∈I Proposition 2.2.4. (Sommation par paquets). Soient (ai , i ∈ I) une famille S de nombre réels positifs et (Ij , j ∈ J) une partition de I. ( les Ij sont deus à deux disjoints et I = j∈J Ij ). On a X ai = i∈I XX ai j∈J i∈Ij Définition 2.2.5. (cas général). X Une famille (ai , i ∈ I) de nombre réels ou complexes est dit sommable si |ai | < +∞. i∈I Proposition 2.2.6. Soit (ai , i ∈ I) une famille sommable de nombre réels ou complexes. X (i) Pour toute énumération φ de I, Snφ converge vers S indépendant de φ. On note S = ai et i∈I on a | X i∈I ai | ≤ X |ai |. i∈I (ii) Soit (Ij , j ∈ J) une partition de I. on a X i∈I ai = XX ai . j∈J i∈Ij (iii) Soit (bi , i ∈ I) une autre famille de nombre réels ou complexes β réels ou complexes. La X X et α,X famille (αai + βbi , i ∈ I) est sommable et (αai + βbi ) = α ai + β bi i∈I i∈I i∈I 2.2. VARIABLES ALÉATOIRES DISCRÈTES 2.2.2 9 Espace de probabilité discret Définition 2.2.7. Soit E un ensemble dénombrable. Une probabilité IP sur E est une famille (p(a), a ∈ E) de réels vérifiants X 0 ≤ p(a) ≤ 1, et p(a) = 1 a∈E=1 On attribue à tout événement A ⊂ E, le nombre IP(A) = X p(a) qui est appelé probabilité de a∈A l’événement A. Proposition 2.2.8. IP est une application de P(E) dans [0, 1] qui vérifie: (i) IP(E) = 1. (ii) (A ∪ B) = IP(A) + IP(B) si A ∩ B = ∅. (iii) IP(An ) ↑ IP(A) si An ↑ A. (iv) Pour toute famille (An , n ∈ IN) de sous-ensembles de E deux à deux disjoints, [ X IP( An ) = IP(An ) n∈IN n∈IN . Preuve. Exercice. 2.2.3 Définition Définition 2.2.9. On appelle variable aléatoire discrète une application X : Ω −→ F où F est un ensemble dénombrable (F est égal IN ou IZ ou à une partie de IZ. Pour x ∈ F , on note {X = x} l’éveément {ω : X(ω) = x}. La famille des nombres (IP(X = x))x∈F s’appelle la loi de X. Exemple 2.2.10. J Dans le cas du jet de dés, la somme S des deux dés est une variable aléatoire discrète à valeurs dans F = {2, 3, 4, ..., 12}}. J Soit A ⊂ Ω un événement. Sa fonction indicatrice IA définie par 1 si ω ∈ A ∀ω ∈ Ω, IA (ω) = 0 sinon est une variable aléatoire discrète de loi: IP(IA = 1) = IP(A) et IP(IA = 0) = 1 − IP(A). 2.2.4 Indépendance Définition 2.2.11. J Deux variables aléatoires discrètes X et Y à valeurs respectivement dans F et G sont dits indépendantes si ∀x ∈ F, ∀y ∈ G, IP(X = x, Y = y) = IP(X = x).IP(Y = y). J n variables aléatoires discrètes X1 , X2 , ...., Xn à valeurs respectivement dans F1 , F2 , ..., Fn sont dits indépendantes si ∀x1 ∈ F1 , ..., ∀xn ∈ Fn , IP(X1 = x1 , ..., Xn = xn ) = n Y IP(X = xi ). i=1 J une famille quelconque de variables aléatoires discrètes est dite indépendante si tout sousfamille finie est indépendante. 10 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES Exemple 2.2.12. Jet de 2 dés: Ω = {(i, j);q uad1 ≤ i, j ≤ 6} muni de la probabilité uniforme. Soit X1 la valeur du premier dé et X2 celle du second. On a X1 (i, j) = i et X2 (i, j) = j et ∀1 ≤ i ≤ 6 IP(X1 = i) = IP(X2 = i) = Comme ∀1 ≤ i, j ≤ 6 IP(X1 = i, X2 = j) = 1 6 11 1 = = IP(X1 = i)IP(X2 = j), 36 66 les variables X1 et X2 sont indépendantes. Remarque 2.2.13. J Si les variables aléatoires discrètes X1 , ..., Xn sont indépendantes, pour 1 ≤ d < n, les deux variables aléatoires discrètes (X1 , ..., Xd ) et (Xd+1 , ..., Xn ) sont indépendantes. J Ce résultat se généralise de l afaçon suivante: ∀m ∈ {1, ..., n−1}, ∀1 ≤ d1 < d2 < ... < dm < n, les variables aléatoires discrètes (X1 , ..., Xd1 ), (Xd1 +1 , ..., Xd2 ) (Xdm −1 , ..., Xdm ) et (Xdm +1 , ..., Xn ) sont indépendantes. 2.2.5 Loi marginale Soit X une variable aléatoire discrète à valeurs dans F et Y une variable aléatoire discrète à valeurs dans G. Comme le produit de deux ensembles dénombrables est dénombrable, (X, Y ) est une une variable aléatoire discrète à valeurs dans F × G. mai sla connaissance de l aloi de X et d el aloi de Y ne suffit pas pour connaı̂tre la loi de (X, Y ). Il faut rajouter de l’information comme par exemple le caractère indépendant pour obtenir la loi du couple. Exemple 2.2.14. Si X suit une loi de Bernouli B(1/2). Alors, Y = 1 − X suit la même loi de Bernoulli B(1/2). On note L(X) = L(Y ). En considérant les couples (X, X) et (X, Y ), les premières coordonnées ont même loi que les secondes coordonnées. Mais IP ((X, Y ) = (1, 0)) = IP(X = 1) = 1 6= 0 = IP ((X, X) = (1, 0)) 2 En revanche, si l’on connaı̂t la loi du couple discrèt (X, Y ), on en déduit la loi de X et celle de Y par la formule dite de loi marginale. Proposition 2.2.15. Soit (X, Y ) un couple discrèt à valeurs dans F × G. Alors X ∀x ∈ F, IP(X = x) = IP(X = x, Y = y). y∈G On somme sur les valeurs prises par la variable Y dont on souhaite se débarrasser. [ Preuve. Il suffit de remarquer que {X = x} = {X = x, Y = y} est une réunion disjointe de y∈G famille dénombrable et d’utiliser la σ-additivité. 2.2.6 Espérance et Variance Espérance Définition 2.2.16. Soit X X : Ω −→ F ⊂ IR une variable aléatoire discrète à valeurs réelles. Elle est dite intégrable si |x|IP(X = x) < ∞. Dans ce cas, on définit son espérance IE(X) par x∈F IE(X) = X x∈F xIP(X = x) 2.2. VARIABLES ALÉATOIRES DISCRÈTES 11 Remarque 2.2.17. I L’intégrabilité et l’espérance d’une variable aléatoire ne dépendent que de sa loi: L(X) = L(Y ) ⇒ IE(X) = IE(Y ). I X est intégrable si et seulement si |X| l’est et dans ce cas, |IE(X)| ≤ IE(|X|). I L’espérance d’une constante est égale à cette constante. I Soit A un événement. On a IE(IA ) = IP(A) Proposition 2.2.18. 1. Linéarité Si X et Y sont deux variables aléatoires discrètes à valeurs réelles intégrables et λ ∈ IR, alorsX + λY est intégrable et IE(X + λY ) = IE(X) + λIE(Y ). 2. Condition suffisante d’intégrabilité Si X et Y sont deux variables aléatoires discrètes à valeurs réelles telles que IP(|X| ≤ |Y |) = 1 et Y est intégrable, alors X l’est aussi. 3. Positivité Si X est une variable aléatoire discrète à valeurs réelles intégrable et presque sûrement positive au sens où IP(X ≥ 0) = 1, alors IE(X) ≥ 0 et IE(X) = 0 ⇒ IP(X = 0) = 1. 4. Si X et Y sont deux variables aléatoires discrètes à valeurs réelles intégrables telles que IP(X ≥ Y ) = 1, alors IE(X) ≥ IE(Y ). Preuve. Exercice Théorème 2.2.19. Soit X : Ω −→ F ⊂ IR uneX variable aléatoire discrète et f : F −→ IR. Alors la variable f (X) est intégrable si et seulment si |f (x)|IP(X = x) < +∞ et alors x∈F IE(f (X)) = X f (x)IP(X = x) x∈F Proposition 2.2.20. Soient X et Y sont deux variables aléatoires discrètes à valeurs respectivement dans F et G. 1. Si X et Y sont indépendantes alors pour toutes fonctions f : F −→ IR et g : G −→ IR telles que f (X) et g(Y ) sont intégrables, alors f (X)g(Y ) est intégrable et IE (f (X)g(Y )) = IE(f (X))IE(g(Y )). 2. Inversement, si pour toutes fonctions f : F −→ IR et g : G −→ IR bornées, IE (f (X)g(Y )) = IE(f (X))IE(g(Y )), alors X et Y sont indépendantes. Preuve. Exercice Variance Définition 2.2.21. Soit X : Ω −→ F ⊂ IR une variable aléatoire discrète à valeurs réelles. Soit p ∈ IN∗ . p ) s’appelle le moment absolu d’ordre p de X et IE(X p ) le 1. Si IE(|X|p ) < +∞, alors IE(|X| X moment d’ordre p de X. On a |x|p IP(X = x). x∈F 2. Si IE(X 2 ) < +∞, on définit la variance de X par h i V ar(X) = IE (X − IE(X))2 3. La racine carrée de la variance est appelée écart-type. La variance et l’écart-type mesurent l’étalement de la variable X autour de son espérance: plus ils sont grands et plus X est étalée. Exercise 2.2.22. 1. Montrer que V ar(X) = IE(X 2 ) − (IE(X))2 . 2. ∀a, b ∈ IR, V ar(aX + b) = a2 V ar(X). Proposition 2.2.23. Soit X1 , ..., Xn des variables aléatoires de carré intégrables. Alors X1 + ... + n X Xn est de carré intégrable et si les Xi sont indṕendantes, alors V ar(X1 + ... + Xn ) = var(Xi ) i=1 12 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES )2 Preuve. On a (X1 + ... + Xn ≤ n(X12 + ... + Xn2 ). On déduit que X1 + ... + Xn est d ecarré intégrable. Par linéarité de l’espérance, V ar(X1 + ... + Xn ) = IE n X !2 (Xi − IE(Xi )) i=1 = IE n X (Xi − IE(Xi ))(Xj − IE(Xj )) i,j=1 Si Y et Z sont deux variables de carré intégrable, comme |Y Z| ≤ (Y 2 + Z 2 )/2, leur produit Y Z est intégrable. Donc chaque terme (Xi − IE(Xi ))(Xj − IE(Xj )) est intǵrable et par linéarité de l’espérance, V ar(X1 + ... + Xn ) = n X V ar(Xi ) + i=1 n n X X IE ((Xi − IE(Xi ))(Xj − IE(Xj ))) i=1 i6=j, j=1 Par indépendance des variables X1 , ..., Xn , on a pour i 6= j IE ((Xi − IE(Xi ))(Xj − IE(Xj ))) = 0. La preuve est complète. 2.3 Lois usuelles Loi binomiale Soit n ∈ IN∗ , C’est la loi d’une variable aléatoire à valeurs dans {0, 1, ..., n} telle que IP(X = k) = Cnk pk (1 − p)n−k , k = 0, 1, ..., n; 0 < p < 1. Elle est appelée loi binomiale de paramètre n, p et notée B(n, p). On écrit X ∼ B(n, p). En particulier si X ∼ B(1, p), on dit que X est une variable aléatoire de Bernoulli. IE(X) = X kIP(X = k) = k≥0 = np n X kCnk pk (1 − p)n−k = np k=0 n−1 X n X k=0 (n − 1)! pk−1 (1 − p)n−k (k − 1)!(n − k)! i Cn−1 pi (1 − p)n−1−i = np(p + (1 − p))n−1 = np i=0 2 IE(X ) = X 2 k IP(X = k) = k≥0 = n(n − 1)p2 = n(n − 1)p2 n X k(k − 1)Cnk pk (1 k=2 n X k=2 n−2 X − p) n−k + n X kIP(X = k) k=1 (n − 2)! pk−2 (1 − p)n−k + np (k − 2)!(n − k)! i Cn−2 pi (1 − p)n−2−i + np = n(n − 1)p2 + np. i=0 On a alors V ar(X) = n(n − 1)p2 + np − (np)2 = np(1 − p). 2.3. LOIS USUELLES 13 Loi de Poisson C’est la loi d’une variable aléatoire à valeurs dans IN telle que IP(X = k) = e−λ λk , k! k ∈ IN; λ > 0. Elle est appelée loi de Poisson de paramètre λ et se note P(λ). On écrit X ∼ P(λ). X IE(X) = kIP(X = k) = k≥0 X 2 IE(X ) = ∞ X ke k=0 2 k IP(X = k) = k≥0 ∞ X ∞ X λk−1 = λe =λ k! (k − 1)! k −λ λ λ k=0 k(k − 1)e k −λ λ k=2 = λ2 e−λ k! + ∞ X kIP(X = k) k=0 ∞ X λk−2 = λ2 + λ (k − 2)! k=2 On a alors V ar(X) = λ2 + λ − λ2 = λ. Loi géométrique C’est la loi d’une variable aléatoire à valeurs dans IN telle que k ∈ IN∗ ; IP(X = k) = (1 − p)k−1 p, 0 < p < 1. Elle est appelée loi géométrique de paramètre p et se note G(p). On écrit X ∼ G(p). C’est la loi du temps du premier succès dans une suite d’expériences aléatoires indépendantes où la probabilité de succès est p. IE(X) = X kIP(X = k) = k≥0 = p IE(X 2 ) = X k(1 − p)k−1 p = p k=1 1 1−x 0 = |(x=1−p) k 2 IP(X = k) = k≥0 = p(1 − p) = p(1 − p) ∞ X ∞ X !0 xk |(x=1−p) 1 p k(k − 1)(1 − p)k−1 p + k + |(x=1−p) ∞ X kIP(X = k) k=0 !00 x ∞ X k=0 k=2 k=0 On a alors V ar(X) = ∞ X 1 p 2 1 2 1 2(1 − p) 1 + = p(1 − p) 3 + = + 3 (1 − x) |(x=1−p) p p p p2 p 2(1 − p) 1 1 1−p + − 2 = 2 p p p p2 14 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES 2.4 Fonction génératrice des variables aléatoires entières Définition 2.4.1. Soit X : Ω −→ IN une variable aléatoire discrète à valeurs enitières. On appelle fonction génératrice de X la fonction gX : [0, 1] −→ IR définie par X gX (s) = IE(sX ) = sn IP(X = n). n∈IN Comme X X IP(X = n) < +∞, l asérie entière n∈IN convergence inférieur ou égal à 1, est C ∞ sur [0, 1]. sn IP(X = n) = gX (s) a un rayon de n∈IN Proposition 2.4.2. La fonction génératrice gX détermine la loi de X. En fait IP(X = n) = 1 (n) g (0) n! X Exemple 2.4.3. a. Loi Binomiale B(n, p). On a gX (s) = X n s IP(X = k) = k∈IN n X Cnk pk sk (1 − p)n−k = (ps + (1 − p))n . k=0 b. Loi de Poisson P(λ). On a gX (s) = X sn IP(X = k) = e−λ k∈IN X λk sk k≥0 k! = eλ(s−1) . b. Loi géométrique G(p). On a gX (s) = X k∈IN n s IP(X = k) = ∗ X (1−p) k−1 k ps = ps k>0 X k>0 k−1 ((1−p)s) = ps ∞ X ((1−p)s)l = l=0 ps . 1 − (1 − p)s Proposition 2.4.4. i). IE(X) < +∞ si et seulement si gX est dérivable à gauche en 1, et dans ce 0 (1). cas, on a IE(X) = gX ii). IE(X 2 ) < +∞ si et seulement si gX est deux fois dérivable à gauche en 1, et dans ce cas, on a ” (1). IE(X(X − 1)) = gX Preuve. (i). On a X gX (s) − gX (1) X sk − 1 X = IP(X = k) = IP(X = k)(1+...+sk−1 ) ↑ kIP(X = k) quand s ↑ 1 s−1 s−1 k≥0 (ii). Si IE(X 2 ) < +∞, 0 k≥0 k≥0 0 (1) < +∞. Alors quand s ↑ 1, IE(X) < +∞ et gX 0 X X gX (s) − gX (1) sk−1 − 1 X = kIP(X = k) = kIP(X = k)(1+...+sk−2 ) ↑ k(k−1)IP(X = k) = IE(X(X− s−1 s−1 k≥0 k≥0 k≥0 2.5. LOI ET ESPÉRANCE CONDITIONNELLES 15 Proposition 2.4.5. Soient X et Y deux variables à valeurs dans IN indépendants. Alors pour tout s ∈ [0, 1], gX+Y (s) = gX (s)gY (s). Exercise 2.4.6. Soit (Xi )i≥1 une suite de variables entières indépendantes et identiquement distribuées et N une variable aléatoire entière indépendante de la suite. On pose S= X1 + ... + XN si N ∈ IN∗ 0 si N = 0 Exprimer gS (u) en fonction de gX1 (u) et gN (u). En déduire la loi de S lorque N suit la loi géométrique de paramètre p et les Xi la loi géométrique de paramètre q. 2.5 Loi et espérance conditionnelles Définition 2.5.1. Soient X et Y deux variables aléatoires discrètes à valeurs respectives dans F et G. Pour y ∈ G, on appelle loi conditionnellle de X sachant Y = y la famille des nombres (IP(X = x|Y = y))x∈F . Proposition 2.5.2. Les variables X et Y sont indépendantes si et seulement si la loi conditionnelle de X sachant Y = y n edépend pas de y ∈ G. Preuve. ⇒ La condition nécessaire est immédiate. ⇐ La condition suffisante. Pour tout x ∈ F , il existe µ(x) tel que ∀y ∈ G, IP(X = x|Y = y) = µ(x) À x fixé, en multipliant par IP(Y = y) et en sommant sur y ∈ G, on obtient X IP(Y = y)IP(X = x|Y = y) = IP(X = x) = µ(x). y∈G Par suite, IP(X = x).IP(Y = y) = µ(x).IP(Y = y) = IP(X = x, Y = y) Définition 2.5.3. Soient X et Y deux variables aléatoires discrètes à valeurs respectives dans F et G et f : F × G −→ IR telle que f (X, Y ) est intégrable. On appelle espérance conditionnelle de f (X, Y ) sachant Y et on note IE (f (X, Y )|Y ) la variable aléatoire discrète IE (f (X, Y )|Y ) = ψ(Y ) où ∀y ∈ G, ψ(y) = X f (x, y)IP(X = x|Y = y). x∈F Lorsque X est à valeurs réelles intégrable, en choisissant f (x, y) = x, on obtient IE (X|Y ) = ψ(Y ) où ∀y ∈ G, ψ(y) = X xIP(X = x|Y = y). x∈F Proposition 2.5.4. On suppose que f (X, Y ) est intégrable. Pour toute fonction g : G −→ IR telle que f (X, Y )g(Y ) est intégrable, la variable aléatoire IE (f (X, Y )|Y ) g(Y ) est intégrable et on a IE [IE (f (X, Y )|Y ) g(Y )] = IE (f (X, Y )g(Y )) 16 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES Preuve. X Pour l’intégrabilité de IE (f (X, Y )|Y ) g(Y ), on remargque que ∀y ∈ G, |ψ(y)g(y)| ≤ |g(y)| |f (x, y)|IP(X = x|Y = y). Il vient x∈F X |ψ(y)g(y)|IP(Y = y) ≤ y∈G X |g(y)| y∈G = X |f (x, y)|IP(X = x|Y = y)IP(Y = y) x∈F X |g(y)||f (x, y)|IP(X = x, Y = y) = IE|(f (X, Y )||g(Y )| < +∞ x∈F,y∈G En outre, IE [IE (f (X, Y )|Y ) g(Y )] = X g(y)ψ(y)IP(Y = y) y∈G ! = X g(y) y∈G = X X f (x, y)IP(X = x|Y = y) IP(Y = y) x∈F f (x, y)g(y)IP(X = x, Y = y) = IE (f (X, Y )g(Y )) x∈F,y∈G Corollaire 2.5.5. Si la variable f (X, Y ) est intégrable, alors l’espérance conditionnelle IE(f (X, Y )|Y ) est aussi intégrable et IE [IE(f (X, Y )|Y ] = IE(f (X, Y )). En outre, si f (X, Y ) est de carré intégrable, IE(f (X, Y )|Y ) l’est aussi et V ar [IE(f (X, Y )|Y ] ≤ V ar(f (X, Y )) Preuve. La pemière assertion est obtenue en faisant g ≡ 1 dans la proposition précédente. Supposons X à présent que f (X, Y ) est intégrable. En utilisant l’ inégalité de Cauchy-Schwarz et le fait que IP(X = x|Y = y) = 1, on obtient x∈F !2 X x∈F p p f (x, y) IP(X = x|Y = y) IP(X = x|Y = y) ≤ X f 2 (x, y)IP(X = x|Y = y) × 1 x∈F Donc IE(f (X, Y )|Y )2 ≤ IE(f 2 (X, Y )|Y ). Comme IE(f 2 (X, Y )|Y ) est intégrable et d’espérance égale à IE(f 2 (X, Y )), on déduit de la proposition 2.2.18 que IE(f (X, Y )|Y )2 intégrable et IE IE(f (X, Y )|Y )2 ≤ IE(f 2 (X, Y )) IE IE(f (X, Y )|Y )2 − (IE [IE(f (X, Y )|Y )])2 ≤ IE(f 2 (X, Y )) − (IE [IE(f (X, Y )|Y )])2 V ar(IE(f (X, Y )|Y )) ≤ IE(f 2 (X, Y )) − [IE(f (X, Y ))]2 V ar(IE(f (X, Y )|Y )) ≤ V ar(f (X, Y )) Chapter 3 Vecteurs aléatoires Dans la suite de ce cours le triplet (Ω, F, IP) désignera unespace de probabilité pris comme référence appélé espace de base. Les ensembles mesurables relativementà F sont appélés événements de Ω. Principe de modélisation Modéliser mathématiquement un phénomène aléatoire revient à introduire ce qui suit: 1. un triplet (Ω, F, IP) comme espace de probabilité abstrait, 2. une application X : Ω 7→ IRd telle que, pour tout borélien A de IRd , l’image-réciproque de A par l’application X soit unélément de F. C’est alors l’application IPX : A ∈ F 7→ IP(X ∈ A) qui seral’objet important du modèle. 3.1 Applications mesurables Définition 3.1.1. 1. Soient (E, A) et (IRk , B(IRk )) deux espaces mesurables. Une application f de E dans IRk est dite (A, B(IRk )−mesurable si pour tout B ∈ B(IRk )), {f ∈ B} ∈ A. 2. Dans le cas où (E, A) = (IRn , B(IRn )), on dit que f est borélienne pour exprimer qu’elle est (B(IRn ), B(IRk ))−mesurable. Proposition 3.1.2. Toute application continue de IRn dans IRk est borélienne. Terminologie utilisée en probabilité. Définition 3.1.3. Soient (Ω, F) l’espace mesurable de base et (IRd , B(IRd )). Une application f (F, B(IRd ))−mesurable s’appelle un vecteur aléatoire de dimension d. Proposition 3.1.4. Si f est une application borélienne de IRk dans IRd et X un vecteur aléatoire de dimension k,alors l’application f ◦ X est un vecteur aléatoire de dimension d. Preuve. Si B est un borélien de IRd , alors l’image réciproque de B par f ◦ X est (f ◦ X)−1 (B) = X −1 [f −1 (B)]. Comme f est borélienne, f −1 (B) ∈ B(IRk ) et comme X est (F, B(IRk ))−mesurable, X −1 [f −1 (B)] ∈ F. En prenant pour f les projections de IRd sur IR, une conséquence du résultat précécent donne ce qui suit: Proposition 3.1.5. X = (X1 , X2 , ..., Xd ) est un vecteur aléatoire de dimension d si et seulement si,pour tout i = 1, 2, ..., d, Xi est une variable aléatoire réelle. Définition 3.1.6. Deux vecteurs aléatoire X et Y de dimension d sont égaux presque-sûrement si et seulement si,IP(X 6= Y ) = 0. L’égalité presque-sûre est une rélation d’équivalence sur l’ensemble des vecteurs aléatoire de dimension d. 18 3.2 CHAPTER 3. VECTEURS ALÉATOIRES Loi d’un vecteur aléatoire Proposition 3.2.1. Soit X un vecteur aléatoire de dimension d. L’application IPX : B ∈ B(IRd ) 7→ IPX (B) = IP ({X ∈ B}) ∈ [ 0, 1] est une probabilité sur IRd Preuve. La notation {X ∈ B} := {ω ∈ Ω/X(ω) ∈ B} et on a {X ∈ B} ∈ F, ce qui donne un sens à IP ({X ∈ B}). IPX est donc bien définie. De plus comme {X ∈ IRd } = Ω,IPX (Rd ) = IP {X ∈ IRd } = IP(Ω) = 1. Soit (An )IN une suite deuxs̀deux disjointes de boréliens de IRd , alors [ [ Ak = {X ∈ Ak } X∈ k∈IN k∈IN l’union du second terme étant deux à deux disjointes. On a [ S S IPX Ak = IP X ∈ k∈IN Ak = IP k∈IN {X ∈ Ak } k∈IN P P = k∈IN IP(X ∈ Ak ) = k∈IN IPX (Ak ) Définition 3.2.2. La probabilité IPX est appelée loi du vecteur X. Définition 3.2.3. Un vecteur aléatoire X à valeurs dans IRd est dite discrèt si sa loi est discrète. Proposition 3.2.4. Soit X un vecteur aléatoire de dimension d est discrèt si et seulement si, il existe une partie D := {ek , k ∈ K ⊂ IN} de IRd telle que IP(X ∈ D) = 1. Dans ce cas la loi du vecteur aléatoire X s’écrit X IPX = IP(X = ek )δek k∈K On dit alors que la loi de X est portée par D. Preuve. Soit X un vecteur aléatoire tel qu’il existe une partie dénombrable D de IRd avec X ∈ D := {ek , k ∈ K ⊂ IN} presque-sûrement,i.e IP(X ∈ D) = 1. Soit A un borélien de IRd , on a IPX (A) = IPX (A ∩ D) = IP(X ∈ A ∩ D). Comme [ {X ∈ A ∩ D} = {X = x} x∈A∩D et cette union est mutuellement disjointe. Il vient X X IPX (A) = IP(X = x) = IP(X = x)IA (x) x∈A∩D = X x∈D X IP(X = x)δx (A) = x∈D Ainsi X est une variable discrète et sa loi est IPX = IP(X = ek )δek (A) k∈K X P (X = ek )δek . k∈KX Réciproquement soit X un vecteur aléatoire de loi µ = pn δen où (pn )K est une suite (finie ou n∈K infinie) de réels strictement positifs avec K ⊂ IN vérifiant X pn = 1, et (ek )K une suite (finie n∈K ou infinie) d’éléments de IRd . En prenant D := {en /n ∈ K}, on a IP(X ∈ D) = 1, et pour tout n ∈ K, IP(X = en ) = pn . 3.2. LOI D’UN VECTEUR ALÉATOIRE 3.2.1 19 Théorèmes de transfert Proposition 3.2.5. Cas des fonctions boréliennes positives Soit X un vecteur aléatoire de dimension d et IPX sa loi de probabilité sur IRd . Alors, pour toute application borélienne positive h de IRd dans [0, +∞], Z Z IE [h(X)] = h(X(ω))dIP(ω) = h(x)dIPX (x) = IEPX (h) Ω IRd Proposition 3.2.6. Cas vectoriel Soit X un vecteur aléatoire de dimension d et IPX sa loi de probabilité sur IRd . Soit h une application borélienne de IRd dans [IRn . Alors h est intégrable suivant IPX si et seulement si h(X) est intégrable sur Ω suivant IP, et dans ce cas, Z Z h(X(ω))dIP(ω) = h(x)dIPX (x) = IEPX (h) IE [h(X)] = IRd Ω 3.2.2 Critères d’identification de loi Proposition 3.2.7. Critère des fonctions boréliennes positives Soit X un vecteur aléatoire de dimension d et µ une probabilité sur IRd . Alors le vecteur X a pour loi µ si et seulement si, pour toute application borélienne positive h de IRd dans [0, +∞], Z IE [h(X)] = h(x)dµ(x) IRd Preuve. • C.N Si IPX = µ,d’après le théorème de transfert, Z Z pour toute application borélienne d positive h de IR dans [0, +∞],, IE [h(X)] = h(x)dIPX = h(x)dµ(x). IRd IRd • C.S Supposons que pour toute application borélienne positive h de IRd dans [0, +∞], Z IE [h(X)] = h(x)dµ(x). Alors pour tout B ∈ B(IRd ), IB est une application borélienne positive d IR de IRd dans [0, +∞] et on a d’une part E [h(X)] = E [IB (X)] = IEµ (IB ) = µ(B) et d’autre part le théorème de transfert donne Z E [h(X)] = E [IB (X)] = IB dIPX = IPX (B) D’òu, pour tout B ∈ B(IRd ) IPX (B) = µ(B). Proposition 3.2.8. Critère des fonctions à support compact Soit X un vecteur aléatoire de dimension d et µ une probabilité sur IRd . Alors le vecteur X a pour loi µ si et seulement si, pour toute application positive h de IRd dans [0, +∞] continue et à support compact, Z IE [h(X)] = IRd h(x)dµ(x) Preuve. • C.N Si IPX = µ. Si h est une fonction positive h de IRd dans [0, +∞] continue et à support compact, elle est Z en particulier Zune fonction positive borélienne. D’après la proposition précèdente IE [h(X)] = h(x)dIPX = h(x)dµ(x). IRd IRd • C.S Supposons que pour toute fonction positive h de IRd dans [0, +∞] continue et à support 20 CHAPTER 3. VECTEURS ALÉATOIRES compact. Z h(x)dµ(x). Alors pour tout ouvert A ∈ IRd , il existe une suite croissante(fn ) de IRd fonction positives continue et à support compact sur IRd qui converge vers la fonction indicatrice IA . On a d’une part Z IE [h(X)] = µ(A) = IA dµ et IPX (A) = E [IA (X)] IRd et d’autre part le théorème de convergence monotone de Beppo-Lévi, Z Z Z lim fn dµ = lim fn dµ = lim IE [fn (X)] IA dµ = n→+∞ IRd n→+∞ n→+∞ IRd IRd Z Z Z IA dIPX = lim lim fn dIPX = fn dIPX = n→+∞ IRd IRd IRd n→+∞ Par suite, pour tout ouvert A ∈ Rd , IPX (A) = µ(A). Ansi,µ et IPX coincident sur une famille de parties de IRd stable par intersection finie qui engendre la tribu borélienne B(IRd ). Elles sont donc égales. Exercise 3.2.9. Soit X = (X1 , X2 ) un vecteur aléatoire de dimension 2 de loi IPX = X k≥1, l≥1 1 δ . 2k+l k,l) 1) Déterminer la loi de la variable aléatoire réelle définie par Y := sup(X1 , X2 ). 2) Montrer que la variable aléatoire Z := X1 + X2 a pour loi IPZ = +∞ X i−1 i=1 3.3 2i δi Moment d’un vecteur aléatoire Définition 3.3.1. Soit X un vecteur aléatoire de dimension d de composantes X1 .X2 , ..., Xd intégrables suivant IP. On appelle espérance mathématique de X suivant IP, le vecteur de IRd noté IE(X) défini par IE(X) = (IE(X1 ), IE(X2 ), ..., IE(Xd )) Définition 3.3.2. Soit X un vecteur aléatoire de dimension d. X est dit p-intégrable, s’il existe un entier naturel non nul p vérifiant IE(|X|p ) < +∞, i.e X ∈ Lp (Ω, F, IP). Dans le cas particulier où p = 2, on dit que X est de carré intégrable. Exercise 3.3.3. 1) Montrer que si X = (X1 , X2 , ..., Xd ), alors les variables aléatoires réeles X1 , X2 , ..., Xd sont de carré intégrables si et seulement si IE(|X|2 ) < +∞. 2) On suppose que d = 1 et X et Y deux variàbles aléatoires réelles de carré intégrables. 2.a) Montrer que |XY | ≤ X 2 + Y 2 et en déduire que les variàbles aléatoires réelles X, Y et XY sont intégrables suivant IP. 2.b) En étudiant le signe l’expression IE[(X +αY )2 ] pour tout α ∈ IR, prouver l’inégalité de CauchySchwartz: p p |IE(XY )| ≤ IE(X 2 ) IE(Y 2 ) Définition 3.3.4. Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd de carré intégrables sur Ω. On appelle matrice de dispersion de X ou matrice des covariance deX et on la note DX , l’espérance de la matrice carrée aéatoire [X − IE(X)][X − IE(X)]t d’ordre d. C’est àdire DX = IE [X − IE(X)][X − IE(X)]t . 3.3. MOMENT D’UN VECTEUR ALÉATOIRE 21 Proposition 3.3.5. Soit X un vecteur aléatoire de dimension d tel que matrice à coefficients réels à c lig nes et d colonnes,alors 1. i,j DX = cov(Xi , Xj ) = IE ([Xi − IE(Xi )][Xj − IE(Xj )]) , i 6= j IE(|X|2 ) < +∞ et M une i,i DX = V ar(Xi ) 2. D[X−IE(X)] = DX , IE(M X) = M IE(X), DM X = M D X M t 3. DX est une matrice symétrique de type positif. c’est à dire pour tout u ∈ IRd , ut DX u ≥ 0.En particulier DX est une matrice diagonalisable sur IR dont les valeurs propres dont des réels positifs ou nuls. Exercise 3.3.6. 1) Soit X le vecteur aléatoire dans l’exercice (??) . Déterminer DX . 2) Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd telque IE(X 2 ) < +∞. d X 2.a) Montrer que la variable aléatoire réelle Y := Xk est de carré intégrable. k=1 2.b) Démontrer la relation d d X X V ar( Xk ) = V ar(Xk ) + 2 k=1 3.3.1 X Cov(Xi , Xj ) 1≤i<j≤n k=1 Intégrales multiples: Théorème de Fubini Théorème 3.3.7. Soit f : IR2 −→ IR. I si f est positive, Z Z Z Z Z f (x, y)dxdy = f (x, y)dy dx = f (x, y)dx dy. IR2 IR IR IR IR Cela signifie que les trois termes sont soit simultanément finis et égaux soit simultanément égaux à +∞. Z I Si f est intégrable au sens où |f (x, y)|dxdy < +∞, alors l’égalité ci-dessus est vraie. IR2 Exemple 3.3.8. Soit f : [0, +∞[−→ [0, +∞[ Z [0,+∞[×[0,+∞[ 3.3.2 Z +∞ Z +∞ f (x + y) f (z) dy dx = dz dx x+y z 0 0 0 x Z +∞ Z +∞ Z +∞ Z +∞ f (z) f (z) = I{z≥x} dz dx = I{z≥x} dx dz z z 0 0 0 0 Z z Z +∞ Z +∞ f (z) = dx dz = f (z)dz z 0 0 0 f (x + y) dxdy = x+y Z +∞ Z +∞ Changement de variables Soit ϕ une bijection continuement différentiable ainsi que son inverse ϕ−1 d’un ouvert O de IRd sur un ouvert O0 de IRd , f : IRd −→ IR bornée et g : IRd −→ IR intégrable. On a Z Z f [ϕ(x)]g(x)dx = f (y)g[ϕ−1 (y)]|Jacϕ−1 (y)|dy O où Jacϕ−1 (y) = Det ∂(ϕ−1 )i ; ∂yj O0 1 ≤ i, j ≤ d . 22 Z Exercise 3.3.9. Calculer I = 2 − x2 e IR un changement de variables. CHAPTER 3. VECTEURS ALÉATOIRES Z 2 2 − x +y 2 dx. Indication: calculer I 2 = dxdy en utilisant e IR2 En général, dans les problèmes de probabilités, on connaı̂t O et ϕ et on souhaite transfprmer un eintégrale. Il faut faire attention aux difficultés suivanhtes: (i) La fonction ϕ n’est pas injective sur le domaine O de départ (O = IR, ϕ(x) = x2 ). Il faut alors essayer de découper O en sous-domaines sur lesquels ϕ est injective. (ii) Lorsque ϕ est injevtive sur O, il faut bien raisonner par les conditions nécessaires et suffisantes pour obtenir le domaine image O0 . Il ne faut surtout pa sse contenter de conditions nécessaires. Exemple 3.3.10. Si O =]0, +∞[×]0, +∞[ et ϕ(x, y) = (x + y, x − y). Dire que O0 = ϕ(O) = ]0, +∞[×IR est faux. Pour déterminer O0 , il faut déterminer ϕ−1 . z =x+y x = z+w −1 2 ϕ (z, w) = (x, y) ⇔ (z, w) = ϕ(x, y) ⇔ ⇔ w =x−y y = z−w 2 z−w Ainsi, ϕ−1 (z, w) = ( z+w 2 , 2 ). Par suite 0 −1 (z, w) ∈ O ⇔ ϕ (z, w) ∈ O ⇔ z+w 2 z−w 2 >0 ⇔ z > |w| >0 Finalement O0 = {(z, w) ∈ IR2 ; z > |w|}. 3.4 Fonction caractéristique de vecteur aléatoire Définition 3.4.1. 1. Si µ est une probabilité sur IRd , l’application Z Φµ : u ∈ IRd 7→ Φµ (u) = eihx,ui dµ(x) d IR s’appelle la fonction caractéristique de µ. 2. Si X est un vecteur aléatoire de dimension d,la fonction caractéristique de X est Z h i ihx,ui ihX,ui ΦX (u) = e dIP (x) = IE e X IRd . Dans la suite de cette section, nous donnons quelques propriétés classiques des fonctions caractérstiques. Nous insiterons sur leurs points intétrêts suivants: Elles servent 1. à identifier la loi d’un vecteur aléatoire, 2. à caclculer les moments d’un vecteur aléatoire, 3. à étudier l’indépendance d’une suite de vecteur aléatoire. Proposition 3.4.2. (Propriété classique) 1. Φ(0) = 1. ¯ et |Φ(u)| ≤ 1. Une fonction caracéristique est une fonction 2.Pour tout u ∈ IRd , Φ(−u) = Φ(u) d bornée sur IR . 3. La fonction caracéristique Φ d’un vecteur aléatoire X est une fonction uniformément continue sur IRd . En particulier une fonction caracéristique Z Φ est continue Z en 0. 4. Si µ et ν sont deux probabilités sur IRd , alors IRd Φµ dν = IRd Φν dµ. 3.4. FONCTION CARACTÉRISTIQUE DE VECTEUR ALÉATOIRE 23 Preuve. • 1. et 2. sont immédiats. • 3. Pour tout u ∈ IRd , Z Z Z ihx,ui ihx,ui |ΦX (u)| = | e dIP (x)| ≤ |e |dIP (x) ≤ dIPX (x) = 1, X X IRd IRd IRd donc Φ est bornée sur IRd . • 4. Pour tous vecteurs u et v de IRd , on a Z |ΦX (u) − ΦX (v)| ≤ d IR |eihx,ui − eihx,vi |dIPX (x). Pour tout réel t, it Z e −1= t ix Z Z t (i cos(x) − sin(x)) dx i (cos(x) + i sin(x)) dx = ie dx = 0 t 0 0 D’où |eit − 1| ≤ inf (2, |t|). Par suite pour tous vecteurs u et v de IRd , on a |eihx,ui − eihx,vi | = |ei[hx,ui−hx,vi] − 1| = |ei[hx,u−vi] − 1| ≤ inf( 2, |hx, u − vi| ), En utulisant l’inégalité de Cauchy-Schwaz, on obtient |eihx,ui − eihx,vi | ≤ inf( 2, |x||u − v| ) Ainsi, pour tous vecteurs u et v de IRd Z |ΦX (u) − ΦX (v)| ≤ IRd inf( 2, |x||u − v| )dIPX (x). En particulier pour tout entier naturel non nul n, et pour tous vecteurs u et v de IRd , tels que 1 |u − v| ≤ , on a n Z |x| |ΦX (u) − ΦX (v)| ≤ inf( 2, )dIPX (x). n IRd |x| La suite de fonction inf( 2, ) est dominée sur IRd par la fonction constante 2 et converge ∗ n n∈IN vers la fonction nulle sur IRd . Par le théorème de la convergence dominée de Lebesgue, |x| ) = 0. On en déduit que pour tout ε > 0, il existe un entier N0 tel que ∀n ≥ N0 lim inf( 2, n→+∞ n Z |x| inf( 2, )dIPX (x) ≤ ε. n IRd Par suite, pour tout ε > 0, il existe η (η = n1 ) tel que pour tous vecteurs u et v de IRd ,|u − v| ≤ η, implique |ΦX (u) − ΦX (v)| ≤ ε. D’où l’uniforme continuité de l afonction caractéristique. • 4. En appliquant le théorème de Fubini Z Z Z Z Z ihx,yi ihx,yi Φµ (y)dν(y) = e dµ(x) dν(y) = e dν(y) dµ(x) d d d d IRd IR IR IR IR Z Z Z ihy,xi = e dν(y) dµ(x) = Φν (x)dµ(x) IRd IRd IRd 24 CHAPTER 3. VECTEURS ALÉATOIRES Proposition 3.4.3. Théorème d’injectivité. (Admis) Deux probabilités sur IRd sont identiques si et seulemnt si,elles ont la même fonction caractéristique. Pour les vecteurs aléatoires, le théorème d’injectivité s’enonce comme suit: Proposition 3.4.4. critère d’identification de loi Deux vecteurs aléatoires sur IRd ont la même loi si et seulemnt si, ils ont la même fonction caractéristique. Dans le cas où la fonction caractéristique est intégrable au sens de Lebesgue sur IR, on obtient la connaissance de µ: Proposition 3.4.5. Soit µ est une probabilité sur IRd de fonction cractéristique Φ. Si Φ est intégrable au sens de Lebesgue sur IRd , alors µ admet une ensité f par rapport ‘a la mesure de Lebesgue sur IRd . L’application f est une fonction à valeurs réelles, positives, bornée, continue sur Rd et, pour tout x ∈ IRd , Z 1 f (x) = e−ihu,xi Φ(u)du (2 π)d IRd Proposition 3.4.6. Si X est une variable aléatoire réelle telle que IE(|X|n ) < +∞. C’est è dire X ∈ Ln (Ω, F, IP) avec n un entier naturel non nul. Alors la fonction cractéristique est continuement dérivable jusqu’à l’orde n et, pour tout u ∈ IR, Z (n) n ΦX (u) = i xn eiux dIPX (x) = in IE(X n eiuX ). IR En particulier (n) ΦX (0) n Z =i IR xn dIPX (x) = in IE(X n ). Pour les vecteurs aléatoires, nous avons en particulier Proposition 3.4.7. Si X = (X1 , X2 , ..., Xd ) est vecteur aléatoire de dimension d telle que IE(|X|2 ) < +∞. C’est è dire X ∈ L2 (Ω, F, IP) . Alors pourtout k = 1, 2, ..., d et j = 1, 2, ..., d ona , IE(Xk ) = −i ∂ΦX (0) ∂uk et IE(Xk Xj ) = − ∂ 2 ΦX (0) ∂uk ∂uj 3.5 Vecteurs aléatoires à densité 3.5.1 Cas unidimensionnelle: varaiables aléatoires réelles à densité usuelles Soit (Ω, A, IP) un espace de probabilité. Définition 3.5.1. On dit que la variable aléatoire X : Ω −→ IR possède la densit é p : IR −→ IR si Z ∀a, b ∈ IR ∪ {−∞, +∞}, IP(a < X < b) = b p(x)dx a Z Il en résulte que la densité est une fonction positive vérifiant p(x)dx = 1. Aussi IP(X = x) = 0. IR P De même, pour tout sous-ensemble F de IR dénombrable, IP(X ∈ F ) = x∈F IP(X = x) = 0. Ce qui montre la différence de nature entre variables aléatoires discrètes et variables aléatoires à densité. 3.5. 3.5.2 VECTEURS ALÉATOIRES À DENSITÉ 25 Densités réells usuelles Loi uniforme sur [a, b] X suit la loi uniformle sur [a, b] avec a < b, et on note X ∼ U[a, b] si X a pour densité p(x) = 1 I (x). b − a [a,b] Loi exponentielle de paramètre λ > 0 X suit la loi exponentielle de paramètre λ > 0, et on note X ∼ E(λ) si X a pour densité p(x) = λe−λx Ix>0 (x). Loi normale ( ou gaussienne )de paramètres µ ∈ IR et σ 2 > 0 X suit la loi normale de paramètres µ ∈ IR et σ 2 > 0, et on note X ∼ N (µ, σ 2 ) si X a pour densité (x − µ)2 exp − IIR (x). p(x) = √ 2σ 2 2πσ 2 1 Dans le cas où µ = 0 et σ 2 = 1, on dit que X suit la loi normale centrée réduite. Loi de Cauchy de paramètre a > 0 X suit la loi de Cauchy de paramètre a > 0, et on note X ∼ C(a) si X a pour densité p(x) = 3.5.3 1 a I (x). 2 π x + a2 IR Espérance, Variance Définition 3.5.2. Z la variable aléatoire X : Ω −→ IR qui possède la densité p est dite: I intégrable si |x|p(x)dx < +∞ et dans ce cas on définit son espérance par IR Z IE(X) = x p(x)dx IR Z I de carré intégrable si IE(X 2 ) = x2 p(x)dx < +∞ et dans ce cas on définit sa variance par IR V ar(X) = IE(X 2 ) − (IE(X))2 = IE (X − IE(X))2 Proposition 3.5.3. 1. L’espérance d’une variable aléatoire X qui possède une densité ne dépend que de cette densité. 2.Linéarité: IE(X + λ Y ) = IE(X) + λIE(Y ). 3. Condition suffisante d’intégrabilité: Si IP(|X| ≤ Y ) = 1 et Y est intégrable, alors X l’est aussi. 4. Croissance: Si X et Y sont intégrables, IP(X ≥ Y ) = 1 =⇒ IE(X) ≥ IE(Y ). Exercise 3.5.4. calculer l’espérance et la variance d’une variable uniforme sur [a, b]; d’une variable exponentielle de paramètre λ > 0; d’une variable de Cauchy paramètre a > 0 et d’une variable normale centrée réduite. 26 3.5.4 CHAPTER 3. VECTEURS ALÉATOIRES Fonction de répartition Définition 3.5.5. Soit X : Ω −→ IR une variable aléatoire réelle ( qui ne possède pas necessairement une densité ). On appelle fonction de répartition de X la fonction FX : x ∈ IR 7−→ IP(X ≤ x). Il en résulte que FX croı̂t de 0 à 1 et est continue à droite. Elle a une limite à gauche en tout point notée FX (x−). De plus on a IP(a < X ≤ b) = IP(X ≤ b) − IP(X ≤ a) = FX (b) − FX (a). Proposition 3.5.6. Si la fonction de répartition FX de la variable X aléatoire réelle est globalement continue et C 1 par morceaux ( au sens où il existe un nombre fini de points x1 < x2 < ... < xn 0 tels que FX est C 1 sur ] − ∞, x1 [, ]x1 , x2 [, ..., ]xn−1 , xn [, ]xn , +∞[); alors X possède la densité FX . 3.6 Vecteurs aléatoires à densité Définition 3.6.1. On dit que le vecteur aléatoire X = (X1 , ..., Xd ) : Ω −→ IRd possède la densité p : IRd −→ IR si Z Z d ∀ O ouvert de IR , IP(X ∈ O) = p(x)dx = IO (x1 , x2 , ..., xd )p(x1 , x2 , ..., xd )dx1 dx2 ...dxd . O IRd Il en résulte qu’une densité de parobabilité p sur IRd est une fonction positive et Z p(x1 , x2 , ..., xd )dx1 dx2 ...dx= 1 IRd Le Critère d’identification par des fonctions boréliennes positives se particularise de la manière suivante: Théorème 3.6.2. Le vecteur aléatoire X : Ω −→ IRd possède la densité p si et seulement si , pour toute application borélienne positive h de IRd dans [0, +∞] Z IE [h(X)] = h(x)p(x)dx. IRd 3.6.1 Densité marginale Proposition 3.6.3. Soit X un vecteur aléatoire qui possède une densité. Alors tout sous-vecteur Y possède la densité marginale obtenue en intégrant celle de X sur les composantes ne figurant pas dans Y . La Réciproque est fausse. Preuve. Soit X = (X1 , ..., Xd ) : Ω −→ IRd un vecteur aléatoire de densité p et k < d. Si Ok est un ouvert de IRk , en utlisant le théorème de Fubini, on obtient: Z d−k IP((X1 , ..., Xk ) ∈ Ok ) = IP(X ∈ Ok × IR ) = p(x)dx d−k Ok ×IR Z Z = p(x1 , x2 , ..., xd )dxk+1 ...dxd dx1 ...dxk Ok IRd−k On déduit que le sous-vecteur (X1 , ..., Xk ) possède la densité Z q(x1 , x2 , ..., xk ) = p(x1 , x2 , ..., xd )dxk+1 ...dxd IRd−k 3.6. VECTEURS ALÉATOIRES À DENSITÉ 27 Exercise 3.6.4. Soit X une variable aléatoire réelle de loi normale centrée réduite N (0, 1). On pose ∆ := {(x, y) ∈ IR2 , y = x}. 1. Prouver que IP(X,X) (∆) = 1 2. En supposant que le vecteur aléatoire (X, X) admet une densité sur IR2 , prouver que, sous cette hypothèse IP(X,X) (∆) = 0. En déduire que le vecteur (X, X) aléatoire de dimension 2 n’admet pas de densité sur IR2 . Ce qui montre que la réciproque de la proposition précédente est fausse. 3.6.2 Changement de variables d d Proposition Z 3.6.5. Soit X : Ω −→ IR qui possède la densité p(x) portée par un ouvert O de IR p(x)dx = 1 et ϕ est une bijection de O sur O0 de classe C 1 ainsi que son inverse au sens où O ϕ−1 . Alor sle vecteur Y = ϕ(X) possède la densité q(y) = IO0 (y)p(ϕ−1 (y))|Jac ϕ−1 (y)| Exercise 3.6.6. Soit (X, Y ) un couple aléatoire de densité λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} . Déterminer la loi de (Z, W ) = (X + Y, X − Y ). Résolution Utilisons la mt́hode de la fonction muette. Pour toute fonction f : IR2 −→ IR bornée, calculons IE[f (Z, W )] = IE[f (X + Y, X − Y )]. Soit ϕ : (x, y) ∈ IR2 7−→ (x + y, x − y) ∈ IR2 . La fonction g(x, y) = f ◦ ϕ(x, y) = f (x + y, x − y) est une fonction bornée sur IR2 . On a donc Z g(x, y)λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} dxdy IE[g(X, Y )] = 2 IR Z IE[f (X + Y, X − Y )] = f (x + y, x − y)λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} dxdy 2 IR Z +∞ Z +∞ IE[f (Z, W )] = f (x + y, x − y)λ2 exp (−λ(x + y)) dxdy 0 0 z−w La fonction ϕ est une bijection C 1 ainsi que son inverse (x, y) = ϕ−1 (z, w) = ( z+w 2 , 2 ) de 2 1 O =]0, +∞[×]0, +∞[ sur O0 = {(z, w) ∈ IR : z > |w|}. On a |Jacϕ−1 (z, w)| = 2 et dxdy = 12 dzdw. Ainsi Z 1 z+w z−w 2 IE[f (Z, W )] = f (z, w)λ exp −λ + dzdw 2 2 2 (z,w):z>|w| Z λ2 = f (z, w) exp (−λ z) I{(z,w):z>|w|} (z, w)dzdw 2 λ2 exp (−λ z) I{(z,w):z>|w|} (z, w). On conclut que la densité du couple (Z, W ) est 2 La densité marginale de Z est Z λ2 exp (−λ z) I{(z,w):z>|w|} (z, w)dw = λ2 z exp (−λ z) 2 IR celle de W est λ2 λ exp (−λ z) I{(z,w):z>|w|} (z, w)dz = exp (−λ |w|) 2 2 IR Z 28 3.6.3 CHAPTER 3. VECTEURS ALÉATOIRES Inépendance Définition 3.6.7. Les vecteurs aléatoires X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn qui possèdent respectivement les densités p1 , ..., pn sont dits indépendants si (X1 , ..., Xn ) possède la densité produit p1 (x) × p2 (x) × ... × pn (x). La proposition suivante est parfois utile et permet de caractériser l’indépendance de vecteurs aléatoires (qui ne possèdent pas necessairement des densités). Proposition 3.6.8. critère de fonctions positives Soient X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn des vecteurs aléatoires. (1.) Si ces vecteurs aléatoires sont indépendants, alors pour toutes fonction f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes positives IE [f1 (X1 ) × f2 (X2 )... × f (Xn )] = n Y IE [fi (Xi )] i=1 (2.) Inversement, si pour toutes fonctions f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes positives, n Y IE [f1 (X1 ) × f2 (x)... × fn (Xn )] = IE [fi (Xi )], alors les vecteurs X1 , ..., Xn sont indépendants. i=1 Preuve. Faisons la preuve pour n = 2. (1) Suppossons que IP(X1 ,X2 ) = IPX1 × IPX2 . Il vient Z IE [f1 (X1 ) × f2 (X2 )] = f1 (x1 )f( y)dIP(X1 ,X2 ) (x, y) d1 +d2 IR Z Z f2 (y)dIPX2 (y) dIPX1 (x) = f1 (x) d1 d2 IR IR Z Z f2 (y)dIPX2 (y) f1 (x)dIPX1 (x) = IRd2 IRd1 = IE [f1 (X1 )] .IE [f2 (X2 )] (2) Il suffit de prendre f1 = IA et f2 = IB où A et B sont respectivement des boréliennes de IRd1 et IRd2 . On a IE [IA (X1 )IB (X2 )] = IE [IA (X1 )] IE [IB (X2 )] On obtient IP [(X1 , X2 ) ∈ A × B] = IP [X1 ∈ A] IP [X2 ∈ B] Ce qui prouve que IP(X1 ,X2 ) = IPX1 × IPX2 . Proposition 3.6.9. critère de fonctions bornées Soient X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn des vecteurs aléatoires. (1.) Si ces vecteurs aléatoires sont indépendants, alors pour toutes fonction f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes bornées IE [f1 (X1 ) × f2 (X2 )... × f (Xn )] = n Y IE [fi (Xi )] i=1 (2.) Inversement, si pour toutes fonctions f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes bornées, n Y IE [f1 (X1 ) × f2 (x)... × fn (Xn )] = IE [fi (Xi )], alors les vecteurs X1 , ..., Xn sont indépendants. i=1 3.6. VECTEURS ALÉATOIRES À DENSITÉ 29 Corollaire 3.6.10. Soit (X1 , X2 , ..., Xn ) une suite de variable aléatoires réelles intégtables. Si la suite (X1 , X2 , ..., Xn ) est indépendante, alors la variable aléatoire réelle produit X1 X2 ...Xn est intégrable et IE [X1 X2 ...Xn ] = IE [X1 ] IE [X2 ] ...IE [Xn ] La réciproque est fausse. Preuve. Prenons n = 2. Soient deux variables aléatoires réelles X et Y indépendantes et intégrables. Alors IE(|X|) < +∞ et IE(|Y |) < +∞ et en application du critère des fonctions positives x 7→ |x|, IE(|XY |) = IE(|X||Y |) = IE(|X|)IE(|Y |) < +∞. La variable XY est donc intégrable. De plus,on a XY = (X + − X − )(Y + − Y − ) = X + Y + + X − Y − − X − Y + − X + Y − En appliquant le critère des fonctions positives x 7→ x+ , x 7→ x− , on obtient IE[XY ] = IE[X + Y + ] + IE[X − Y − ] − IE[X − Y + ] − IE[X + Y − ] = IE[X + ]IE[Y + ] + IE[X − ]IE[Y − ] − IE[X − ]IE[Y + ] − IE[X + ]IE[Y − ] = E[X + ] − E[X − ] E[Y + ] − E[Y − ] = IE (X + − X − ) IE (Y + − Y − ) = IE[X]IE[Y ] Pour montrer que la réciproque est fausse, considérons le contre-exemole suivant: Soient Y ∼ U[−1, 1] et Z = εY où ε est une variable aléatoire indépendante de Y telle que IP(ε = 1) = IP(ε = −1) = 12 . On a IE(Y ) = 0 et IE(Y Z) = IE(εY 2 ) = IE(ε)IE(Y 2 ) = 0 × IE(Y 2 ) = 0 si bien que Cov(Y, Z) = 0 et IE(XZ) = IE(X)IE(Z). Mais comme ε2 = 1, Z 1 1 4 1 IE(Y 2 Z 2 ) = IE(ε2 Y 4 ) = IE(Y 4 ) = y dy = 2 −1 5 Z 1 1 1 1 IE(Y 2 ) = y 2 dy = et IE(Z 2 ) = IE(ε2 Y 2 ) = IE(Y 2 ) = 2 −1 3 3 Si bien que IE(Y 2 Z 2 ) = 1 1 6= = IE(Y 2 )IE(Z 2 ). les variables Y et Z ne sont donc pas indépendantes. 5 9 Proposition 3.6.11. Soit X = (X1 , X2 , ..., Xd ) un vecteur aléatoire de dimension d de carré intégrtable. Si la suite de variables aléatoires réelles X1 , X2 , ..., Xd est indépendante, alors la matrice de dispersion de X est diagonale. La réciproque est fausse. Proposition 3.6.12. Si (X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp ) est une suite indépendantes de variables aléatoires, alors pour toutes applications boréliennes ϕ de IRn dans IRd1 et ψ de IRp dans IRd2 ;le couple de vecteurs aléatoires (ϕ(X1 , X2 , ..., Xn ), ψ(Y1 , Y2 , ..., Yp )) est indépendant. Preuve. • Considérons les vecteurs aléatoires X = (X1 , X2 , ..., Xn ) et Y = (Y1 , Y2 , ..., Yp ). Montrons que le couple de vecteurs aléatoires (X, Y ) est indépendnt. Comme (X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp ) est une suite indépendante, pour tous boréliens de IR,A1 , A2 , ..., An , on a IPX [A1 × A2 × ... × An ] = IP(X1 ,X2 ,...,Xn ) [A1 × A2 × ... × An ] = IP(X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp )[A1 × A2 × ... × An × IRp ] = IPX1 (A1 )....IPXn (An ) (Fubini) 30 CHAPTER 3. VECTEURS ALÉATOIRES Cequi prouve que IPX = IP(X1 ,X2 ,...,Xn ) = IPX1 ⊗ .... ⊗ IPXn . Par suite IP(X,Y ) = IP(X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp ) = IPX1 ⊗ .... ⊗ IPXn ⊗ IPY1 ⊗ .... ⊗ IPYp (Fubini) = IPX ⊗ IPY • Soient deux applications boréliennes positives f1 et f2 sur IRd1 et IRd2 respectivement. Comme f1 ◦ ϕ et f2 ◦ ψ sont des fonctions boréliennes positives, il vient IE[f1 (ϕ(X))f2 (ψ(Y ))] = IE[f1 (ϕ(X))]IE[f2 (ψ(Y ))] On déduit alors du critère des fonctions positives que la suite (ϕ(X), ψ(Y )) est indépendante. Remarque 3.6.13. Lorsque les vecteurs aléatoires X1 , ..., Xn sont indépendants, alors ∀m ∈ [[1, n]], ∀1 ≤ d1 < d2 < ... < dm ≤ n, les vecteurs (X1 , X2 , ..., Xd1 ), (Xd1 +1 , ...Xd2 ), ..., (Xdm−1 +1 , ...Xdm ) et (Xdm +1 , ...Xn ) sont indépendants. Proposition 3.6.14. Critère d’indépendance par les fonctions caractéristiques. Soit (X1 , X2 , ..., Xn ) une suite de vecteurs aléatoires dedimensions respectives d1 , d2 , ..., dn . Alors la suite (X1 , X2 , ..., Xn ) est indépendante si et seulement si, pour tout u1 ∈ IRd1 , ..., un ∈ IRdn , Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) = ΦX1 (u1 )...ΦXn (un ) i i h i h h Pn IE ei k=1 huk ,Xk i = IE eihu1 ,X1 i ...IE eihun ,Xn i Preuve. Supposons que les vecteurs aléatoires (X1 , X2 , ..., Xn ) sont indépendants. Alors pour tout u1 ∈ IRd1 , ..., un ∈ IRdn , en appliquant le critère des fonctions bornées avec f1 (X1 ) = eihu1 ,X1 i , ..., fn (Xn ) = eihun ,Xn i , on obtient ! k=n h Pn i Y Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) = IE ei k=1 huk ,Xk i = IE eihuk ,Xk i k=1 = k=n Y IE eihuk ,Xk i = ΦX1 (u1 )...ΦXn (un ). k=1 Réciproquement, si u1 ∈ IRd1 , ..., un ∈ IRdn et u = (u1 , ..., un ) ∈ IRd1 +...+dn . Soit X = (X1 , X2 , ..., Xn ) un vecteur aléatoire de dimension d1 + ... + dn de loi IPX , la condition Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) = ΦX1 (u1 )...ΦXn (un ) s’écrit en appliquant le théorème du transfert et celui de Fubini, Z Z ihu,xi e dIP(X1 ,X2 ,...,Xn ) (x) = eihu,xi d[IPX1 ⊗ ... ⊗ IPXn ] d1 +...+dn d1 +...+dn IR IR Ainsi IP(X1 ,X2 ,...,Xn ) et IPX1 ⊗ ... ⊗ IPXn ont les mêmes fonctions caractéristiques et par suite IP(X1 ,X2 ,...,Xn ) = IPX1 ⊗ ... ⊗ IPXn . 3.6.4 Loi et espérance conditionnelles On considère un couple (X, Y ) : Ω −→ IRd1 × IRd2 avec la densité pX,Y (x, y). On note pX (x) et pY (y) les densités marginales respectives de X et Y . Définition 3.6.15. Pour y ∈ IRd2 , on appelle densité conditionnelle de X sachant Y = y, la densité pX,y (x) donnée par la formule ( pX,Y (x,y) si pY (y) > 0 pY (y) pX,y (x) = pX (x) sinon 3.7. LOI BÉTA, GAMMA, DU CHI 2, DE STUDENT ET DE FISHER 31 Proposition 3.6.16. Les variables X et Y sont indépendantes si et seulement si la densité conditionnelle de X sachant Y = y ne dépend pas de y. Définition 3.6.17. Soit f : IRd1 ×IRd2 −→ IR telle que f (X, Y ) est intégrable. On appelle espérance conditionnelle de f (X, Y ) sachant Y et on note IE (f (X, Y )|Y ) la variable aléatoire Z IE (f (X, Y )|Y ) = ψ(Y ) où ψ(y) = f (x, y)pX,y (x)dx IRd1 Proposition 3.6.18. On suppose que f (X, Y ) est intégrable. Pour toute fonction g : IRd2 −→ IR telle que f (X, Y )g(Y ) est intégrable, la variable aléatoire IE (f (X, Y )|Y ) g(Y ) est intégrable et on a IE [IE (f (X, Y )|Y ) g(Y )] = IE (f (X, Y )g(Y )) . En outre, IE [IE (f (X, Y )|Y )] = IE (f (X, Y )). Enfin si f (X, Y ) est de carré intégrable, IE (f (X, Y )|Y ) l’est aussi et V ar [IE (f (X, Y )|Y )] ≤ V ar [f (X, Y )]. Exercise 3.6.19. Soit U et V deux variables aléatoires uniformes sur [0, 1] indépendantes et Y = U −V. 1. Calculer la loi du couple (U, Y ). 2. En déduire la loi marginale de Y . 3. Donner la loi conditionnelle de U sachant Y = y et calculer IE(U |Y ). 3.7 Loi béta, gamma, du chi 2, de Student et de Fisher Z Dans toute cette section, on note Γ la fonction gamma d’Euler: a > 0 7→ Γ(a) = On vérifie aisément que ∀a > 0 Γ(a + 1) = aΓ(a) et ∀n ∈ IN∗ Γ(n) = (n − 1)!. +∞ xa−1 e−x dx. 0 Loi gamma de paramètres a > 0 et θ > 0 La variable X suit la loi gamma de paramètres a > 0 et θ > 0 et on note X ∼ Γ(a, θ) si X possède la densité θa a−1 −θx pX (x) = x e I{x>0} Γ(a) Exemple: La loi exponentielle de paramètre θ est la loi Γ(1, θ). Loi béta de paramètres a > 0 et b > 0 La variable X suit la loi béta de paramètres a > 0 et b > 0 et on note X ∼ β(a, b) si X possède la densité Γ(a + b) a−1 x (1 − x)b−1 I{0<x<1} pX (x) = Γ(a)Γ(b) Exemple: La loi uniforme sur [0, 1] est la loi β(1, 1). Proposition 3.7.1. (i) Soit X1 , X2 , ..., Xn des variables aléatoires identiques identiquement distribuées (I.I.D) suivant la loi exponentielle de paramètre θ > 0 . Alors la loi de Sn = X1 + X2 + ... + Xn est la loi gamma de paramètre (n, θ): Γ(n, θ). X (ii) Soit X ∼ Γ(a, θ) et Y ∼ Γ(b, θ) indépendantes. Alors S = X + Y et Z = X+Y sont deux variables aléatoires indépendantes de loi respective Γ(a + b, θ) et β(a, b). Preuve. Exercice. 1. Faire la preuve du (i) et du (ii). Z 1 Γ(a)Γ(b) 2. Déduire du (ii) que z a−1 (1 − z)b−1 dz = . Γ(a + b) 0 32 CHAPTER 3. VECTEURS ALÉATOIRES Définition 3.7.2. I On appelle loi de Chi 2 à n degrés de liberté et on note χ2 (n), la loi de X12 + X22 + ... + Xn2 où X1 , X2 , ..., Xn sont n variables normales centrées réduites indépendantes. G I On appelle loi de Student de paramètre n et on note t(n), la loi de q où G ∼ N (0, 1) et Y n Y ∼ χ2 (n). Proposition 3.7.3. (i) La loi χ2 (n) est la loi Γ( n2 , 12 ) de densité pX (y) = y n 1 y 2 −1 e− 2 I{y>0} n 2 Γ( 2 ) n 2 (ii) La loi de Student t(n) est la loi de densité pX (t) = Preuve. Exercice. Γ( n+1 1 2 ) × n √ Γ( 2 ) nπ (1 + t2 ) n+1 2 n Chapter 4 Vecteurs aléatoires gaussiens 4.1 4.1.1 Définition, construction Définition Définition 4.1.1. Une variable aléatoire réelle de loi N (m, σ 2 ), où m est un réel et σ un réel positif ou nul, est dit gaussienne. Définition 4.1.2. On dit qu’un vecteur aléatoire X = (X1 , X2 , ..., Xd ) : Ω −→ IRd est un vecteur gaussien si toute combinaison linéaire de ses coordonnées est une variable aléatoire gaussienne réelle. C’est à dire si pour tous réels a1 , a2 , ..., ad , la variable aléatoire réelle a1 X1 +a2 X2 +...+ad Xd est une variable aléatoire gaussienne. Proposition 4.1.3. Soit (X1 , X2 , ..., Xd ) une suite de variable aléatoire réelle. Si le vecteur X = (X1 , X2 , ..., Xd ) est une vecteur gaussien de dimension d, alors pour tout k = 1, 2, ..., d Xk est une variable aléatoire réelle gaussienne. La réciproque est fausse. Preuve. Pour montrer que la réciproque est fausse, considérons le contre-exemple suivant: Soient Y ∼ N (0, 1) et Z = εY où ε est une variable aléatoire indépendante de Y telle que IP(ε = 1) = IP(ε = −1) = 21 . Déterminer la loi de Z et vérifier que IP(Y + Z = 0) = 12 . Conclure. Proposition 4.1.4. Soit (X1 , X2 , ..., Xd ) une suite indépendantes de variable aléatoire réelle. Si le vecteur X = (X1 , X2 , ..., Xd ) est une vecteur gaussien de dimension d si et seulment si pour tout k = 1, 2, ..., d Xk est une variable aléatoire réelle gaussienne. Preuve. (=⇒) Cela résulte de l adéfinition des vecteurs gaussiens. ( pas besoin de l’hypothèse d’indépendance). (⇐=) Si (X1 , X2 , ..., Xd ) est une suite indépendante de variable aléatoire réelle, alors pour tous réels a1 , a2 , ..., ad , la suite (a1 X1 , a2 X2 , ..., ad Xd ) est indépendante. De plus si la variable aléatoire réelle Xk ∼ N (mk , σk2 ), la variable aléatoire réelle ak Xk ∼ N (ak mk , a2k σk2 ). La variable aléatoire réelle a1 X1 + a2 X2 + ... + ad Xd est alors une une variable aléatoire réelle gaussienne comme somme de variables aléatoires réelles gaussiennes indépendantes. Proposition 4.1.5. Soit X un vecteur aléatoire de dimension d admettant une espérance m = (m1 , m2 , ..., md ) ∈ IRd et une matrice de dispersion D. Alors X est une vecteur gaussien si et seulement si, sa fonction caractéristique ΦX est donnée par , pour tout u ∈ IRd 1 ΦX (u) = exp ihu, mi − hu, D ui 2 34 CHAPTER 4. VECTEURS ALÉATOIRES GAUSSIENS Preuve. (=⇒) Posons X = (X1 , X2 , ..., Xd , u = (u1 , u2 , ..., ud ) et Y = u1 X1 + u2 X2 + ... + ud Xd . Comme X est un vecteur gaussien, la variable aléatoire réelle Y est de loi gaussienne, Y ∼ N (mY , σY2 ). De plus mY = IE(Y ) = u1 IE(X1 ) + u2 IE(X2 ) + ... + ud IE(Xd ) = hu, mY i et σY2 h i = IE (Y − mY )2 = IE (u1 (X1 − m1 ) + u2 (X2 − m2 ) + ... + ud (Xd − md ))2 [ X = ui uj IE [(Xi − mi )(Xj − mj )] 1≤i,j≤d = X ui uj Cov 0 Xi , Xj ) = hu, D ui 1≤i,j≤d Comme pour tout u ∈ IRd , i(u1 X1 +u2 X2 +...+ud Xd ) ΦX (u) = IE e On obtient 1 2 = IE(e ) = ΦY (1) = exp imY − σY 2 iY 1 ΦX (u) = exp ihu, mi − hu, D ui 2 (⇐=) Soit X = (X1 , X2 , ..., Xd ) un vecteur aléatoire quelconque de fonction caractéristique définie sur IRd par 1 ΦX (u) = exp ihu, mi − hu, D ui 2 Soit Y = a1 X1 + a2 X2 + ... + ad Xd une combinaison linéaire des composantes de X. Pour tout réel t ΦY (t) = IE(eitY ) = IE ei(ta1 X1 +ta2 X2 +...+tad Xd ) = ΦX (a1 t, a2 t, ..., ad t) 1 = exp iha, mi − t2 ha, D ai 2 où on a posé a = (a1 , a2 , ..., ad ). Ainsi pour tout n-uplet de réels (a1 , a2 , ..., ad ), la variable aléatoire réelle a1 X1 +a2 X2 +...+ad Xd est une la variable aléatoire réelle gaussienne de loi N (ha, mi, ha, D ai). X est bien un vecteur gaussien. 4.2 Loi d’un vecteur gaussien Proposition 4.2.1. Si m ∈ IRd et D est une matrice carré d’ordre d à coefficients réels, symétrique et de type positif, il existe un espace de probabilité (Ω, F, IP) et un vecteur gaussien de dimension d sur (Ω, F, IP) d’espérance m et de matrice de dispersion D. Définition 4.2.2. On appelle loi de Gauss-Laplace ou loi normale sur IRd de paramètres m et D, la loi de probabilité d’un vecteur gaussien de dimension d d’espérance m et de matrice de dispersion D. On note Nd (m, D). Proposition 4.2.3. Si X est un vecteur gaussien de dimension d, A une matrice rectangulaire k × d à coefficients réels et b un vecteur de dimension k. Alors le vecteur aléatoire Y = A X + b est un evecteur gaussien de dimension k. De plus si X ∼ Nd (m, D), la loi de Y est Nd (Am+b, ADA∗ ). 4.2. LOI D’UN VECTEUR GAUSSIEN 35 Proposition 4.2.4. Soit X = (X1 , X2 , ..., Xd ) un vecteur gaussien de dimension d. Alors la suite de variables aléatoires réelles (X1 , X2 , ..., Xd ) est indépendante si et seulement si la matrice de dispersion de X est diagonale. Proposition 4.2.5. Soient m ∈ IRd et D une matrice carrée d’ordre d à coefficients réels, symétrique et de type positif. Si D est inversible, alors X ∼ Nd (m, D) a pour densité sur IRd 1 1 ∗ −1 pX (x) = p exp − (x − m) D (x − m) 2 (2π)d det(D) Exemple 4.2.6. Soit (X, Y ) un couple √de variables aléatoires réells admettant pour densité 3 1 2 2 2 l’application définie sur IR par f (x, y) = exp − (x − xy + y ) . On vérifie que 4π 2 x x 1 − 12 −1 2 2 = (x, y)D (x − xy + y ) = (x, y) 1 −2 1 y y où D = 4 3 2 3 2 3 4 3 est la matrice de dispersion du vecteur (X, Y ). On déduit que (X, Y ) est un vecteur gaussien de loi Nd (0, D). Aussi X et Y suivent la loi N1 (0, 34 ). Puisque D n’est pas diagonale, X et Y ne sont pas indépendantes. 36 CHAPTER 4. VECTEURS ALÉATOIRES GAUSSIENS Chapter 5 Convergence et théorèmes limites 5.1 Convergence Définition 5.1.1. Pour n −→ +∞, on dit qu’une suite (Xn )n≥1 de variables aléatoires à valeurs dans IRd converge vers la variable X à valeurs dans IRd : I Presque sûrement si IP (Xn −→ X) = IP ({ω : Xn (ω) −→ X(ω)}) = 1. C’est à dire les fonctions Xn (ω) définies sur Ω convergent ponctuellement sur un sous-ensemble de Ω de probabilité 1 vers la fonction X. I En probabilité si ∀ε > 0, IP (|Xn − X| ≥ ε) tend vers 0 quand n −→ +∞. I Dans L1 si les variables Xn , X sont intégrables et IE(|Xn −X|) tend vers 0 quand n −→ +∞. I Dans L2 ( ou en moyenne quadratique) si les variables Xn , X sont de carré intégrables et IE(|Xn − X|2 ) tend vers 0 quand n −→ +∞. Remarque 5.1.2. Soit (Xn )n≥1 une suite de variables aléatoires réelles qui converge dans L1 vers X. Alors lim IE(Xn ) = IE(X). En effet, comme Xn − X ≤ |Xn − X|, par linéaritét croissance de n−→+∞ l’espérance, IE(Xn ) − IE(X) = IE(Xn − X) ≤ IE|Xn − X|. De même, par symétrie IE(X) − IE(Xn ) = IE(X − Xn ) ≤ IE|X − Xn |. Ainsi |IE(Xn ) − IE(X)| ≤ IE|Xn − X|. Ce qui permet de conclure. Théorème 5.1.3. (convergenge dominée). Soit (Xn )n≥1 une suite de variables aléatoires réelles qui converge presque sûrement vers X. On suppose d eplus la suit est dominée au sen soù il existe un evariable aléatoire Y intégrable telle que ∀n ≥ 1, IP(|Xn | ≤ Y ) = 1. Alors X est intégrable et (Xn )n≥1 converge dans L1 vers X. Ce qui entraı̂ne en particulier que lim IE(Xn ) = IE(X). n−→+∞ Proposition 5.1.4. ( Quelques inégalités) Inégalité de Markov: Si IE|X| < +∞, alors ∀a > 0, IP(|X| ≥ a) ≤ IE|X| . a Inégalité de Bienaymé-Tchebychev: Si IE(X 2 ) < +∞, alors ∀a > 0, IP(|X − IE(X)| ≥ a) ≤ var(X) . a2 Inégalité de Cauchy-Schwarz: Si les variables X et Y sont de carré intégrable, alors p p |IE(XY )| ≤ IE(X 2 ) IE(Y 2 ). 38 CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES Preuve. • Inégalité de Markov: Comme ∀x ∈ IR, croissance de l’espérance, on obtient I{|x|≥a} ≤ |x| a , en utulisant la propriété de la |X| IP(|X| ≥ a) = IE I{|x|≥a} ≤ . a • Inégalité de Bienaymé-Tchebychev : Utiliser ∀x ∈ IR, I{|x|≥a} ≤ • Inégalité de Cauchy-Schwarz: Utiliser ∀λ ∈ IR, le polynôme x2 a2 et la même méthode. IE(X 2 ) + 2λIE(XY ) + λ2 IE(Y 2 ) = IE[(X + λY )2 ] ≥ 0 Son discriminant 4[IE(XY )]2 − 4IE(X 2 )IE(Y 2 ) ≤ 0. Ce qui donne le résultat. Proposition 5.1.5. I La convergence L2 implique la convergencze L1 qui elle-mˆme implique la convergence en probabilité. I Soit (Xn )n≥1 une suite de variables aléatoires réelles qui converge dans L2 vers X. Alors IE(Xn ),IE(Xn2 ) et V ar(Xn ) convergent respectivement vers IE(X),IE(X 2 ) et V ar(X). I la convergence presque-sûre entraı̂ne la convergence en probabilité. La réciproque n’est pas vraie. Preuve. Concergence L2 =⇒ convergence L1 : Toute variable de carré intégrable p est intégrable et V ar(Xn − X) = IE(|Xn − X|2 ) − [IE|Xn − X|]2 ≥ 0. Il vient IE|Xn − X| ≤ IE(|Xn − X|2 ). Ce qui donne le résultat. Concergence L1 =⇒ convergence en probabilité: Cela découle de l’inégalité de Markov, IP(|Xn − IE|Xn − X| X| ≥ ε) ≤ pour ε > 0. ε 2 2 Concergence L =⇒ convergence des espérances et variances: Il suffit p de vérifier p que IE(Xn ) con2 verge vers IE(X ). Par l’inégalité de Cauchy-Schwarz, IE(Xn X) ≤ IE(Xn2 ) IE(X 2 ). Donc p 2 p IE (Xn − X)2 = IE(Xn2 ) − 2IE(Xn X) + IE(X 2 ) ≥ IE(Xn2 ) − IE(X 2 ) p p Ainsi , IE(Xn2 ) converge vers IE(X 2 ) et on conclut en utilisant la continuité de x 7→ x2 . Concergence presque-sûre =⇒ convergence en probabilité: Soit (Xn )n≥1 une suite qui converge presque-sûrement vers X. Alors la suite |Xn − X| converge presque-sûrement vers 0. Pour tout ε > 0, la fonction I{|x|≥ε} est continue en 0. On déduit que Yn = I{|Xn −X|≥ε} converge presque-sûrement vers 0. Les variable Yn sont dominées par 1 qui e st intégrable. Donc Yn converge dans L1 vers 0. Comme IP(|Xn − X| ≥ ε) = IE I{|Xn −X|≥ε} , on a le résultat lim IP(|Xn − X| ≥ ε) = lim IE I{|Xn −X|≥ε} = 0. n−→+∞ 5.2 5.2.1 n−→+∞ Lois des grands nombres Loi faibles des grands nombres Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquement distribuées ( (I.I.D). Les lois des grands nombres portent sur le comportement de la moyenne empirique n 1X Xj lorque n −→ +∞. n j=1 Proposition 5.2.1. Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquen 1X ment distribuées ( (I.I.D) de carré intégrable. Alors la moyenne empirique Xj converge dans n j=1 L2 ( et donc dans L1 et en probabilité) vers l’espérance commune IE(X1 ). 5.3. FONCTION CARACTÉRISTIQUE ET CONVERGENCE EN LOI 39 Preuve. IE (X¯n − IE(X1 ))2 = 2 n n X 1 X IE Xj − IE Xj n2 j=1 = j=1 n 1 X V ar(Xj ) par indépendance des Xj n2 j=1 = 5.2.2 V ar(X1 ) −→n→+∞ 0 n Loi forte des grands nombres Théorème 5.2.2. Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquen 1X ment distribuées ( (I.I.D) intégrables. Alors la moyenne empirique Xj converge presquen j=1 sûrement et dans L1 vers l’espérance commune IE(X1 ). C’est à dire n X 1 IP Xj → IE(X1 ) = 1. n j=1 5.3 Fonction caractéristique et convergence en loi 5.3.1 Fonction caractéristique Définition 5.3.1. Soit X un vecteur aléatoire à valeurs dans IRd . On appelle fonction caractéristique de X, la fonction: ΦX : u ∈ IRd −→ ΦX (u) = IE eihu,Xi Remarque 5.3.2. I ΦX (0, 0..., 0) = 1. I ∀u ∈ IRd , ΦX (−u) = ΦX¯(u). I La fonction caractéristique de X Zn edépend que de la loi de X: L(X) = L(Y ) =⇒ ΦX ≡ ΦY . I Si ΦX est intégrable au sens où inversion de Fourier: IRd |ΦX (u)|du < +∞, alors X possède la densité obtenue par Z 1 e−ihu,xi ΦX (u)du (2π)d IRd x ∈ IRd −→ p(x) = I Fonctions caractéristiques des lois usuelles. Loi Fonction caractéristique Benoulli B(p) (1 − p) + peiu Binomiale B(n,p) [(1 − p) + peiu ]n peiu Géométrique G(p) 1−(1−p)eiu Poisson P(λ) exp λ(eiu − 1) Uniforme U[a, b] Exponentielle E(λ) Cauchy C(a) Gaussienne N1 (µ, σ 2 ) (b−a)u 2 (b−a)u 2 eiu (b+a) 2 λ λ−iu −a|u| e eiuµ− σ 2 u2 2 40 CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES Exercise 5.3.3. Faire le calcul explicite des ces fonctions caractéristiques. Exercise 5.3.4. Soit T une variable aléatoire exponentielle de paramètre a > 0 et ε une variable indépendante telle que IP(ε = 1) = IP(ε = −1) = 1/2. On pose X = εT 1. Déterminer la loi de X. 2. Calculer sa fonction caractéristique ΦX . 3. Appliquer la formule d’inversion de la précédente remarque, déduire la fonction caractéristique d’une variable aléatoire qui suit la loi de Cauchy C(a). n X 4. En déduire la loi de §n = Yj d’une suite (Yj )j≥1 de variables aléatoires I.I.D suivant la loi j=1 Cauchy C(a). 5.3.2 Convergence en loi Définition 5.3.5. On dit que la suite (Xn )n≥1 de variables aéatoires à valeurs dans IRd converge L en loi vers la variable aléatoire X à valeurs dans IRd et on note Xn − → X si ∀f : IRd → IR continue bornée IE(f (Xn ) −→n→+∞ IE(f (X)). Exemple 5.3.6. I Pour n ∈ IN∗ , on suppose que ∀1 ≤ k ≤ n, IP(Un = k/n) = 1/n. Soit f : IR → IR continue bornée. La convergence des sommes de Riemann vers l’intégrale entraine que Z 1 n 1X 1 IE(f (Un )) = f (u)du = IE(f (U )). f ( ) −→n→+∞ n n 0 k=1 où U est une variable uniforme sur [0, 1]. Ainsi la suite (Un )n≥1 converge en loi vers U ∼ U[0, 1]. I Pour n ∈ IN∗ , Xn est une variable aléatoire uniformément répartie sur [0, 1/n]. Alors pour tout f continue bornée, Z 1 n IE(f (Xn )) = n f (x)dx −→n→+∞ f (0). 0 Donc,la suite (Xn )n≥1 converge en loi vers X telle que IP(X = 0) = 1. δ0 la mesure de Dirac. I Pour n ∈ IN, soit Tn une variable aléatoire exponentielle de paramètre λn > 0. On suppose que la suite (λn )n converge vers λ > 0. Alors pour f : IR → IR continue bornée, ∀n ∈ IN, ∀x ≥ 0, |f (x)λn eλn x | ≤ g() = |f (x)|(sup λn )e(inf n −λn )x , n où la fonction g est intégrable sur [0, +∞[. Par le théorème de la convergence dominée, Z +∞ IE(f (Tn )) = f (x)λn e−λn x dx 0 Z converge vers +∞ f (x)λe−λ x dx = IE(f (T )) où T suit la loi exponentielle de paramètre λ > 0. 0 Ainsi (Tn )n converge vers T ∼ E(λ). Proposition 5.3.7. Soit (Xn )n une suite de variables aéatoires à valeurs dans IRd converge en loi vers X et ϕ : IRr → IRq une fonction continue. Alors la suite (ϕ(Xn ))n converge en loi vers ϕ(X). Preuve. Soit g : IRq →R continue bornée. La fonction g ◦ ϕ : IRd → IR est continue bornée. Doncla convergence en loi de (Xn )n≥1 vers X entraı̂ne que lim IE[g(ϕ(Xn ))] = IE[g(ϕ(X))] n→+∞ 5.3. FONCTION CARACTÉRISTIQUE ET CONVERGENCE EN LOI 41 d Théorème 5.3.8. La suite (Xn )n≥1 de variables aéatoires à valeurs dans IR converge en loi vers la variable aéatoire X à valeurs dans IRd si et seulement si la fonction caractéristique de Xn converge ponctuellement vers la la fonction caractéristique de X. C’st à dire L → X ⇐⇒ ∀u ∈ IRd , ΦXn (u) → ΦX (u) Xn − Corollaire 5.3.9. Si la suite (Xn )n≥1 converge en probabilité vers X, alors elle converge en loi vers X. Preuve. Soit u ∈ IRd et ε > 0. On a |ei∠u,Xn i − ei∠u,Xn i | = |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|≥ε} + |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|<ε} ≤ 2 × I{|Xn −X|≥ε} + |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|<ε} . Comme ∀a, b ∈ IR, |eia − eib | ≤ |b − a|, on déduit que |ei∠u,Xn i − ei∠u,Xn i | ≤ 2 × I{|Xn −X|≥ε} + |u|εI{|Xn −X|<ε} ≤ 2 × I{|Xn −X|≥ε} + |u|ε. Par suite |ΦXn (u) − ΦX (u)| = |IE ei∠u,Xn i − ei∠u,Xn i | ≤ IE ei∠u,Xn i − ei∠u,Xn i ≤ 2IP (|Xn − X| ≥ ε) + |u|ε. Uniformément en n, le second terme à gauche est arbitrairement petit tandis qu’à ε fixé le premier terme converge vers 0 quand n → +∞ ( dû à la convergence en probabilité). Ainsi, ∀u ∈ IRd , ΦXn (u) → ΦX (u). Proposition 5.3.10. Si la suite (Xn )n≥1 de variable aléatoires à valeurs dans IRd converge en loi vers la variable aléatoire X à valeurs dans IRd , alors IE (f (Xn )) −→n→+∞ IE (f (X)) pour toute fonction f : IRd −→ IR bornée dont l’ensemble des points de discontinuité D vérifie IP(X ∈ D) = 0. Remarque 5.3.11. Il ne suffit pas que la suite (Xn )n converge en loi vers X et que la suite (Yn )n converge en loi vers Y pour que la suite des couples (Xn , Yn )n converge en loi vers (X, Y ). En 1 exemple, soit Z la variable aléatoire telle IP(Z = −1) = IP(Z = 1) = et (Xn , Yn ) = (Z, (1)−n Z). 2 Alors la suite (Xn )n converge en loi vers Z. De même la suite (Yn )n converge en loi vers Z puisque L(−Z) = L(Z). Mais pour la fonction continue bornée f (x, y) = min(|x − y|, 2) sur IR2 , IE ((f (Xn , Yn )) = 0 2 si n est pair si n est impair Si bien que la suite (Xn , Yn )n ne converge pas en loi. Théorème 5.3.12. (Slutsky) Soit (Xn , Yn )n une suite de vecteurs aléatoires à valeurs dans IRd1 × IRd2 telle que (Xn )n converge en loi( ou en probabilité ou presque-sûrement) vers une constante a ∈ IRd1 et (Yn )n converge en loi vers Y . Alors (Xn , Yn )n converge en loi vers (a, Y ). En particulier lorque d1 = d2 = 1, (Xn Yn )n converge en loi vers aY et lorsque d1 = d2 , (Xn + Yn )n converge en loi vers a + Y . 42 CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES Preuve. Soit (u, v) ∈ IR d1 d2 × IR . h i |Φ(Xn ,Yn ) (u, v) − Φ(a,Y ) (u, v)| = |IE (eihu,Xn i − eihu,ai )eihv,Yn i + eihu,ai IE(eihv,Yn i − eihv,Y i | ≤ IE|eihu,Xn i − eihu,ai | + |ΦYn (v) − ΦY (v)| La convergence en loi de Yn vers Y entraı̂ne que le second terme tend vers 0 quand n → +∞. En outre la fonction x ∈ IRd1 7→ f (x) = |eihu,xi − eihu,ai | est continue et bornée. On déduit que le premier terme converge vers IE(f (a)) = 0. On conclut ainsi que (Xn , Yn )8n converge en loi vers (a, Y ). Les cas particuliers proviennent de la Proposition ?? en remarquant que (x, y) ∈ IR × IR 7→ xy et (x, y) ∈ IRd1 × IRd2 7→ x + y sont des fonctions continues. 5.4 Le théorème de la limite centrale Théorème 5.4.1. (T.C.L) Soit (Xj )j≥1 une suite de variables p aléatoires réelles indépendantes et identiquement distribuées 2 telles que IE(X1 ) < +∞ et σ = V ar(X) > 0. Alors n → +∞, √ n n 1 X L Xj − IE(X1 ) − → N (0, 1). σ n j=1 Preuve. On note X̄n = Φ √n σ 1 n (X¯n −IE(X1 )) Pn j=1 Xj . Soit u ∈ IR, h i 1 Pn iu √ (X −IE(Xj )) (u) = IE e σ n j=1 j = n Y i h 1 X −IE(Xj )) iu √ par indépendance des Xj IE e σ n ( j j=1 in h 1 iu √ X −IE(X1 )) car les Xj ont même loi , IE e σ n ( 1 n u √ = ΦX1 −IE(X1 ) . σ n = Comme IE(X1 − IE(X1 )) = 0 et IE((X1 − IE(X1 ))2 ) = σ 2 , pour v au voisinage de 0, on a ΦX1 −IE(X1 ) (v) = 1 − σ2 2 v + o(v 2 ). 2 Donc pour n grand, ΦX1 −IE(X1 ) Par suite Φ √ n σ u √ σ n =1− u2 1 + o( ) 2n n n 2 u2 1 − u2 (u) = 1 − + o( ) → e = ΦY (u). n→+∞ ¯ (Xn −IE(X1 )) 2n n