Cours de probabilités avancées

cours de probabilitées avancées A. Elouaflin11 1. UFR Maths-Info, Université de Cocody, 22 BP 582 Abidjan, Côte d’Ivoire February 16, 2023 1 e-mail: elabouo@yahoo.fr 2 Chapter 1 Espace de probabilité fini 1.1 1.1.1 Notions fondamentales Probabilité sur un espace fini, événements On s’interesse à une expérience alátoire qui conduit à la réalisation d’un seul résultat parmi un nombre fini de résultats possibles ω1 , ω2 , ..., ωn . On note Ω = {ω1 , ω2 , ..., ωn } l’ensemble de ces résultats. Définition 1.1.1. Une probabilité IP sur Ω = {ω1 , ω2 , ..., ωn } est une famille (p1 , p2 , ..., pn ) de réels vérifiants ∀ 1 ≤ k ≤ n, 0 ≤ pk ≤ 1, et n X pk = 1 k=1 On attribue à tout événement A ⊂ Ω, le nombre IP(A) = X pk qui est appelé probabilité de k: ωk ∈A l’événement A. Exemple 1.1.2. Jet de deux dés à six faces: Ω = {(i, j) : 1 ≤ i, j ≤ 6} où i désigne la valeur de la face supérieure du premier dé et j celle du second. Les dés ne sont pas pipés. On munit Ω de la 1 pondération suivantes: ∀ 1 ≤ i, j ≤ 6, p(i,j) = . 36 Soit A l’événement: les valeurs des deus dés sont identiques. On a A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)} 6 X 6 1 et IP(A) = p(i,i) = = . 36 6 i=1 On note S la somme des deux dés et {S = k} l’événement {(i, j) : S(i, j) = k}. On a S(i, j) = i + j. Calculer IP(S = k) pour k = 2, ..., 12. Terminologie concernant les événements J J J J J Si IP(A) = 0, l’événement A est dit négligeable. Si IP(A) = 1, l’événement A est dit presque sûr. On appelle événement contraire de A et on note Ac l’événement Ω\A. Si A, B ⊂ Ω, l’événement A et B ( réalisé lorsque A et B le sont) est noté A ∩ B. L’événement A ou B ( réalisé lorsque A ou B le sont) est noté A ∪ B. Probabilité des événements ∅, Ω, Ac , A ⊂ B et A ∪ B 4 J J J J CHAPTER 1. ESPACE DE PROBABILITÉ FINI IP(∅) = 0. IP(Ω) = 1. IP(Ac ) = 1 − IP(A) vu que A ∪ Ac = Ω et A ∩ Ac = ∅. Donc 1 = IP(Ω) = IP(A) + IP(Ac ). Si A ⊂ B, on note B\A = B ∩ Ac . Alors B = A ∪ (B\A) avec A ∩ (B\A) = ∅. D’où IP(B\A) = IP(B) − IP(A) c J A ∪ B = (A ∩ B ) ∪ (A ∩ B) ∪ (Ac ∩ B) = (A\A ∩ B) ∪ (A ∩ B) ∪ (B\A ∩ B). Ces ensembles étants deux à deux disjoints, on obtient donc, IP(A∪B) = IP(A\A∩B))+IP(A∩B)+IP(B\A∩B) = IP(A)−IP(A∩B)+IP(A∩B)+IP(B)−IP(A∩B). Ainsi, IP((A ∪ B) = IP(A) + IP(B) − IP(A ∩ B) Fonction indicatrice On appelle fonction indicatrice de l’événement A la fonction IA : Ω → {0, 1} définie par 1 si ω ∈ A ∀ω ∈ Ω, IA (ω) = 0 sinon Exercise 1.1.3. Montrer que IA∩B = IA .IB ; IAc = 1 − IA et IA∪B = IA + IB − IA∩B . 1.1.2 Probabilités uniformes Dans le cas particulier où tous les résultats possibles jouent le même rôle, ces résultats doivent 1 avoir la même pondération . On dit alors qu’ils sont équiprobables. Pour tout événement card(Ω) A ⊂ Ω, on a X Card(A) 1 = IP(A) = card(Ω) card(Ω) k,ωk ∈A Cette probabilité s’appelle probabilité uniforme sur Ω. Exemple 1.1.4. Dans le cas du jet de deux dés non pipés, Ω = {(i, j) : 1 ≤ i, j ≤ 6} est muni de la probabilité uniforme. Remarque 1.1.5. Si on s’interesse à la somme des deux dés, on peut choisir Ω = {2, 3, 4, ..., 12}, ensemble des valeurs prises par cette somme. Mais fautes de propriétés de symétrie, on ne sait pas munir cet espace d’une probabilité naturelle. En travaillant sur l’espace plus gros {(i, j) : 1 ≤ i, j ≤ 6} des couples des valeurs des deux dés muni de la probabilité uniforme, on construit une pondération naturelle sur le svaleurs de lka somme des deux dés. Cette pondération n’a rien d’uniforme. Le choix de l’espace de probabilité sur lequel on travaille est très important. Dans le cas des probabilités uniformes, les calculs se ramènent à du dénombrement. Rappels de dénombrement On se donne n, k ∈ IN∗ avec k ≤ n. J Le nombre de permutations d’un ensemble à n éléments est n!. J Le nombre d’injections d’un ensemble à k éléments dans un ensembles à n éléments est Akn = n! (n − k)! J Le nombre de parties à k éléments d’un ensemble à n éléments est Cnk = n! k!(n − k)! 1.2. PROBABILITÉ CONDITIONNELLE ET INDÉPENDANCE 5 Exercise 1.1.6. Dans une classe de n ≤ 365 élèves, quelle est la probabilité de l’événement A: deux élèves au moins sont nés le même jour. 1.2 1.2.1 Probabilité conditionnelle et indépendance Probabilité conditionnelle Définition 1.2.1. Soit Ω muni d’une probabilité IP et A, B ⊂ Ω.La probabilité conditionnelle de l’événement A sachant l’événement B est notée IP(A|B) et est d’éfinie par  IP(A∩B)   IP(B) si IP(B) > 0 IP(A|B) =   IP(A) sinon Exercise 1.2.2. 1. Dans une famille qui comporte deux enfants, l’un est une fille. On cherche la probabilité que l’autre soit un garçon. 2. On suppose maintenant que l’aı̂né des enfants est une fille. Quelle est la probabilité que l’autre soit un garçon. Exercise 1.2.3. Parmi 10 pièces mécaniques, 4 sont défectueuses. on prend successivement deux pièces au hasard dans le lot sans remise. quelle est la probabilité pour que les deux pièces soient correctes. Remarque 1.2.4. De façon naturelle, on peut utiliser la définition sous la forme IP(A ∩ B) = IP(A|B)IP(B). Ce qui se généralise en IP(A1 ∩A2 ∩...∩Am ) = IP(Am |A1 ∩A2 ∩...∩Am−1 ).IP(Am−1 |A1 ∩ A2 ∩ ... ∩ Am−2 )....IP(A2 |A1 )IP(A1 ) Proposition 1.2.5. ( Formule de Bayes). Soient B1 , ..., Bm une partition de Ω ( i.e des sousensembles disjoints de Ω dont la réunion est ω) et A ⊂ Ω tel que IP(A) > 0. Alors pour tout 1 ≤ i ≤ m, IP(A|Bi )IP(Bi ) IP(Bi |A) = Pm j=1 IP(A|Bj )IP(Bj ) Exercise 1.2.6. Pour dépister une maladie, on applique un test sanguin. Si le patient est atteint, le test donne un résultat positif dans 99 pour cent des cas. Mais le test est également positif pour 2 pour cent des personnes en bonne santé. La proportion de personnes malades dan sl apopulation soumise au test est de 10−3 . calculer la probabilité pour qu’un patient soit en bonne santé sachant que le résultat de son test est positif. 1.2.2 Indépendance Définition 1.2.7. Soit Ω muni d’une probabilité IP. Deux événements A et B sont dits indépendants si IP(A ∩ B) = IP(A)IP(B) ou encore IP(A|B) = IP(A) ou IP(B|A) = IP(B). Définition 1.2.8. m événements A1 , ..., Am sont dits indépendants si ! \ Y ∀I ⊂ {1, ..., m}, IP Ai = IP(Ai ) i∈I i∈I 6 CHAPTER 1. ESPACE DE PROBABILITÉ FINI Q Remarque 1.2.9. I Il ne suffit pas que IP(A1 ∩ A2 ∩ ... ∩ Am ) = m i=1 IP(Ai ) pour que les événements soient indépendants. I Pour que 3 événements soient indépendants, il ne suffit pas qu’ils soient 2 à 2 indépendants. En effet pour le jet de deux pièces à Pile ou Face: Ω = {P P, P F, F P, F F } où P F signifie que la première pièce donne Pile et la seconde Face. On muni cet espace de la probabilité uniforme. On considère les événements A : première pièce donne Pile , B : deuxième pièce donne Face et C les deux pièces donnent le même résultat. On a A = {P P, P F }; B = {P F, F F }; C = {P P, F F }; A ∩ B = {P F }; A ∩ C = {P P }; B ∩ C = {F F }; 1 1 A ∩ B ∩ C = ∅. IP(A) = IP(B) = IP(C) = ; IP(A ∩ B) = = IP(A)IP(B); 2 4 1 1 IP(A ∩ C) = = IP(A)IP(C); IP(B ∩ C) = = IP(B)IP(C). 4 4 Mais IP(A ∩ B ∩ C) = 0 6= IP(A)IP(B)IP(C). Les événements A, B et C sont 2 à 2 indépendants mais pas indépendants. Chapter 2 Variables aléatoires discrètes 2.1 Espace de probabilité Définition 2.1.1. Une tribu A sur Ω est une classe de parties de Ω qui vérifie les trois propriétés suivantes: i). ∅, Ω ∈ A. ii). A ∈ A ⇒ Ac ∈ A. T S iii). Si (Ai )i∈I est une famille dénombrable d’éléments de A, alors i∈I Ai et i∈I Ai sont dans A. Les éléments de A sont appélés événements. Exemple 2.1.2. J {∅, Ω} est la plus petite tribu sur Ω. On l’appelle tribu grossière. J P(Ω) est la plus grosse tribu sur Ω. on l’appelle la tribu discrète. J Si A ⊂ Ω, {∅, A, Ac , Ω} est une tribu sur Ω. Définition 2.1.3. Soit Ω muni d’une tribu A. on appelle probabilité sur (Ω, A est une application IP : A −→ [0, 1] qui vérifie i). IP(Ω) = 1 ii). (la σ-additivité): Si (Ai )i∈I est une famille dénombrable d’éléments de A deux à deux disjoints ( ∀i 6= j ∈ I, Ai ∩ Aj = ∅), alors ! [ X IP Ai = IP(Ai ). i∈I i∈I Le triplet (Ω, A, IP) s’appelle espace de probabilité. 2.2 2.2.1 Variables aléatoires discrètes Famille sommable Dans toute cette section, I désigne un ensemble dénombrable. Notations S Soit Ω un ensemble, ATn ⊂ Ω et f : Ω −→ IR. On écrit An ↑ A si An ⊂ An+1 et A = An ; An ↓ A si An ⊃ An+1 et A = An ; fn ↑ f si fn ≤ fn+1 et f = sup fn ; fn ↓ f si fn ≥ fn+1 et f = inf fn ; Enumération On appelle énumération de I toute bijection φ de IN sur I. Soient (ai , i ∈ I) une famille de nombres réels ou complexes et φ une énumération de I. On pose Snφ = aφ(0) + aφ(1) + ... + aφ(n) 8 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES Famille sommable positive ¯ +. On suppose que pour tout i ∈ I, ai ≥ 0. Alors la suite Snφ est croissante et S φ = lim ↑ Snφ ∈ IR Si ψ est une autre énumération de I, on a, pour n fixé et m assez frand, {aφ(0) , aφ(1) , ..., aφ(n) } ⊂ {aψ(0) , aψ(1) , ..., aψ(m) }. ψ Ainsi Snφ ≤ Sm ≤ S ψ . D’où S φ ≤ S ψ . En changeant le rôle de φ et ψ, on obtient également ψ φ S ≤ S et finalement S φ = S ψ . Théorème 2.2.1. Soit (ai , i ∈ I) une famille de nombre réels positifs. Alors, pour toute énumération ¯ + indépendant de φ. On note φ deX I, la suite Snφ converge en croissant vers un nombre S ∈ IR S= ai . Si S < +∞, la famille est dite sommable. i∈I Proposition 2.2.2. (i) Si In ↑ I, In fini; X ai ↑ X ai . i∈I i∈In P i∈I ai , il existe J ⊂ I, J fini tel que (ii) Pour tout A < X ai > A. i∈J (iii) Si 0 ≤ ai ≤ bi ; X ai ≤ i∈I (iv) Pour α ≥ 0, β ≥ 0, X bi . i∈I ai ≥ 0, bi ≥ 0, on a X (αai + βbi ) = α i∈I X ai + β i∈I X bi i∈I Proposition 2.2.3. (Passage à la limite croissante). Soit pour tout n ∈ IN, (ai (n), i ∈ I) une famille de nombre réels positifs. On suppose que, pour tout i ∈ I, ai (n) ↑ ai lorsque n −→ +∞. Alors X ai (n) ↑ i∈I X ai i∈I Proposition 2.2.4. (Sommation par paquets). Soient (ai , i ∈ I) une famille S de nombre réels positifs et (Ij , j ∈ J) une partition de I. ( les Ij sont deus à deux disjoints et I = j∈J Ij ). On a X ai = i∈I XX ai j∈J i∈Ij Définition 2.2.5. (cas général). X Une famille (ai , i ∈ I) de nombre réels ou complexes est dit sommable si |ai | < +∞. i∈I Proposition 2.2.6. Soit (ai , i ∈ I) une famille sommable de nombre réels ou complexes. X (i) Pour toute énumération φ de I, Snφ converge vers S indépendant de φ. On note S = ai et i∈I on a | X i∈I ai | ≤ X |ai |. i∈I (ii) Soit (Ij , j ∈ J) une partition de I. on a X i∈I ai = XX ai . j∈J i∈Ij (iii) Soit (bi , i ∈ I) une autre famille de nombre réels ou complexes β réels ou complexes. La X X et α,X famille (αai + βbi , i ∈ I) est sommable et (αai + βbi ) = α ai + β bi i∈I i∈I i∈I 2.2. VARIABLES ALÉATOIRES DISCRÈTES 2.2.2 9 Espace de probabilité discret Définition 2.2.7. Soit E un ensemble dénombrable. Une probabilité IP sur E est une famille (p(a), a ∈ E) de réels vérifiants X 0 ≤ p(a) ≤ 1, et p(a) = 1 a∈E=1 On attribue à tout événement A ⊂ E, le nombre IP(A) = X p(a) qui est appelé probabilité de a∈A l’événement A. Proposition 2.2.8. IP est une application de P(E) dans [0, 1] qui vérifie: (i) IP(E) = 1. (ii) (A ∪ B) = IP(A) + IP(B) si A ∩ B = ∅. (iii) IP(An ) ↑ IP(A) si An ↑ A. (iv) Pour toute famille (An , n ∈ IN) de sous-ensembles de E deux à deux disjoints, [ X IP( An ) = IP(An ) n∈IN n∈IN . Preuve. Exercice. 2.2.3 Définition Définition 2.2.9. On appelle variable aléatoire discrète une application X : Ω −→ F où F est un ensemble dénombrable (F est égal IN ou IZ ou à une partie de IZ. Pour x ∈ F , on note {X = x} l’éveément {ω : X(ω) = x}. La famille des nombres (IP(X = x))x∈F s’appelle la loi de X. Exemple 2.2.10. J Dans le cas du jet de dés, la somme S des deux dés est une variable aléatoire discrète à valeurs dans F = {2, 3, 4, ..., 12}}. J Soit A ⊂ Ω un événement. Sa fonction indicatrice IA définie par 1 si ω ∈ A ∀ω ∈ Ω, IA (ω) = 0 sinon est une variable aléatoire discrète de loi: IP(IA = 1) = IP(A) et IP(IA = 0) = 1 − IP(A). 2.2.4 Indépendance Définition 2.2.11. J Deux variables aléatoires discrètes X et Y à valeurs respectivement dans F et G sont dits indépendantes si ∀x ∈ F, ∀y ∈ G, IP(X = x, Y = y) = IP(X = x).IP(Y = y). J n variables aléatoires discrètes X1 , X2 , ...., Xn à valeurs respectivement dans F1 , F2 , ..., Fn sont dits indépendantes si ∀x1 ∈ F1 , ..., ∀xn ∈ Fn , IP(X1 = x1 , ..., Xn = xn ) = n Y IP(X = xi ). i=1 J une famille quelconque de variables aléatoires discrètes est dite indépendante si tout sousfamille finie est indépendante. 10 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES Exemple 2.2.12. Jet de 2 dés: Ω = {(i, j);q uad1 ≤ i, j ≤ 6} muni de la probabilité uniforme. Soit X1 la valeur du premier dé et X2 celle du second. On a X1 (i, j) = i et X2 (i, j) = j et ∀1 ≤ i ≤ 6 IP(X1 = i) = IP(X2 = i) = Comme ∀1 ≤ i, j ≤ 6 IP(X1 = i, X2 = j) = 1 6 11 1 = = IP(X1 = i)IP(X2 = j), 36 66 les variables X1 et X2 sont indépendantes. Remarque 2.2.13. J Si les variables aléatoires discrètes X1 , ..., Xn sont indépendantes, pour 1 ≤ d < n, les deux variables aléatoires discrètes (X1 , ..., Xd ) et (Xd+1 , ..., Xn ) sont indépendantes. J Ce résultat se généralise de l afaçon suivante: ∀m ∈ {1, ..., n−1}, ∀1 ≤ d1 < d2 < ... < dm < n, les variables aléatoires discrètes (X1 , ..., Xd1 ), (Xd1 +1 , ..., Xd2 ) (Xdm −1 , ..., Xdm ) et (Xdm +1 , ..., Xn ) sont indépendantes. 2.2.5 Loi marginale Soit X une variable aléatoire discrète à valeurs dans F et Y une variable aléatoire discrète à valeurs dans G. Comme le produit de deux ensembles dénombrables est dénombrable, (X, Y ) est une une variable aléatoire discrète à valeurs dans F × G. mai sla connaissance de l aloi de X et d el aloi de Y ne suffit pas pour connaı̂tre la loi de (X, Y ). Il faut rajouter de l’information comme par exemple le caractère indépendant pour obtenir la loi du couple. Exemple 2.2.14. Si X suit une loi de Bernouli B(1/2). Alors, Y = 1 − X suit la même loi de Bernoulli B(1/2). On note L(X) = L(Y ). En considérant les couples (X, X) et (X, Y ), les premières coordonnées ont même loi que les secondes coordonnées. Mais IP ((X, Y ) = (1, 0)) = IP(X = 1) = 1 6= 0 = IP ((X, X) = (1, 0)) 2 En revanche, si l’on connaı̂t la loi du couple discrèt (X, Y ), on en déduit la loi de X et celle de Y par la formule dite de loi marginale. Proposition 2.2.15. Soit (X, Y ) un couple discrèt à valeurs dans F × G. Alors X ∀x ∈ F, IP(X = x) = IP(X = x, Y = y). y∈G On somme sur les valeurs prises par la variable Y dont on souhaite se débarrasser. [ Preuve. Il suffit de remarquer que {X = x} = {X = x, Y = y} est une réunion disjointe de y∈G famille dénombrable et d’utiliser la σ-additivité. 2.2.6 Espérance et Variance Espérance Définition 2.2.16. Soit X X : Ω −→ F ⊂ IR une variable aléatoire discrète à valeurs réelles. Elle est dite intégrable si |x|IP(X = x) < ∞. Dans ce cas, on définit son espérance IE(X) par x∈F IE(X) = X x∈F xIP(X = x) 2.2. VARIABLES ALÉATOIRES DISCRÈTES 11 Remarque 2.2.17. I L’intégrabilité et l’espérance d’une variable aléatoire ne dépendent que de sa loi: L(X) = L(Y ) ⇒ IE(X) = IE(Y ). I X est intégrable si et seulement si |X| l’est et dans ce cas, |IE(X)| ≤ IE(|X|). I L’espérance d’une constante est égale à cette constante. I Soit A un événement. On a IE(IA ) = IP(A) Proposition 2.2.18. 1. Linéarité Si X et Y sont deux variables aléatoires discrètes à valeurs réelles intégrables et λ ∈ IR, alorsX + λY est intégrable et IE(X + λY ) = IE(X) + λIE(Y ). 2. Condition suffisante d’intégrabilité Si X et Y sont deux variables aléatoires discrètes à valeurs réelles telles que IP(|X| ≤ |Y |) = 1 et Y est intégrable, alors X l’est aussi. 3. Positivité Si X est une variable aléatoire discrète à valeurs réelles intégrable et presque sûrement positive au sens où IP(X ≥ 0) = 1, alors IE(X) ≥ 0 et IE(X) = 0 ⇒ IP(X = 0) = 1. 4. Si X et Y sont deux variables aléatoires discrètes à valeurs réelles intégrables telles que IP(X ≥ Y ) = 1, alors IE(X) ≥ IE(Y ). Preuve. Exercice Théorème 2.2.19. Soit X : Ω −→ F ⊂ IR uneX variable aléatoire discrète et f : F −→ IR. Alors la variable f (X) est intégrable si et seulment si |f (x)|IP(X = x) < +∞ et alors x∈F IE(f (X)) = X f (x)IP(X = x) x∈F Proposition 2.2.20. Soient X et Y sont deux variables aléatoires discrètes à valeurs respectivement dans F et G. 1. Si X et Y sont indépendantes alors pour toutes fonctions f : F −→ IR et g : G −→ IR telles que f (X) et g(Y ) sont intégrables, alors f (X)g(Y ) est intégrable et IE (f (X)g(Y )) = IE(f (X))IE(g(Y )). 2. Inversement, si pour toutes fonctions f : F −→ IR et g : G −→ IR bornées, IE (f (X)g(Y )) = IE(f (X))IE(g(Y )), alors X et Y sont indépendantes. Preuve. Exercice Variance Définition 2.2.21. Soit X : Ω −→ F ⊂ IR une variable aléatoire discrète à valeurs réelles. Soit p ∈ IN∗ . p ) s’appelle le moment absolu d’ordre p de X et IE(X p ) le 1. Si IE(|X|p ) < +∞, alors IE(|X| X moment d’ordre p de X. On a |x|p IP(X = x). x∈F 2. Si IE(X 2 ) < +∞, on définit la variance de X par h i V ar(X) = IE (X − IE(X))2 3. La racine carrée de la variance est appelée écart-type. La variance et l’écart-type mesurent l’étalement de la variable X autour de son espérance: plus ils sont grands et plus X est étalée. Exercise 2.2.22. 1. Montrer que V ar(X) = IE(X 2 ) − (IE(X))2 . 2. ∀a, b ∈ IR, V ar(aX + b) = a2 V ar(X). Proposition 2.2.23. Soit X1 , ..., Xn des variables aléatoires de carré intégrables. Alors X1 + ... + n X Xn est de carré intégrable et si les Xi sont indṕendantes, alors V ar(X1 + ... + Xn ) = var(Xi ) i=1 12 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES )2 Preuve. On a (X1 + ... + Xn ≤ n(X12 + ... + Xn2 ). On déduit que X1 + ... + Xn est d ecarré intégrable. Par linéarité de l’espérance,  V ar(X1 + ... + Xn ) = IE  n X !2  (Xi − IE(Xi ))  i=1  = IE  n X  (Xi − IE(Xi ))(Xj − IE(Xj )) i,j=1 Si Y et Z sont deux variables de carré intégrable, comme |Y Z| ≤ (Y 2 + Z 2 )/2, leur produit Y Z est intégrable. Donc chaque terme (Xi − IE(Xi ))(Xj − IE(Xj )) est intǵrable et par linéarité de l’espérance, V ar(X1 + ... + Xn ) = n X V ar(Xi ) + i=1 n n X X IE ((Xi − IE(Xi ))(Xj − IE(Xj ))) i=1 i6=j, j=1 Par indépendance des variables X1 , ..., Xn , on a pour i 6= j IE ((Xi − IE(Xi ))(Xj − IE(Xj ))) = 0. La preuve est complète. 2.3 Lois usuelles Loi binomiale Soit n ∈ IN∗ , C’est la loi d’une variable aléatoire à valeurs dans {0, 1, ..., n} telle que IP(X = k) = Cnk pk (1 − p)n−k , k = 0, 1, ..., n; 0 < p < 1. Elle est appelée loi binomiale de paramètre n, p et notée B(n, p). On écrit X ∼ B(n, p). En particulier si X ∼ B(1, p), on dit que X est une variable aléatoire de Bernoulli. IE(X) = X kIP(X = k) = k≥0 = np n X kCnk pk (1 − p)n−k = np k=0 n−1 X n X k=0 (n − 1)! pk−1 (1 − p)n−k (k − 1)!(n − k)! i Cn−1 pi (1 − p)n−1−i = np(p + (1 − p))n−1 = np i=0 2 IE(X ) = X 2 k IP(X = k) = k≥0 = n(n − 1)p2 = n(n − 1)p2 n X k(k − 1)Cnk pk (1 k=2 n X k=2 n−2 X − p) n−k + n X kIP(X = k) k=1 (n − 2)! pk−2 (1 − p)n−k + np (k − 2)!(n − k)! i Cn−2 pi (1 − p)n−2−i + np = n(n − 1)p2 + np. i=0 On a alors V ar(X) = n(n − 1)p2 + np − (np)2 = np(1 − p). 2.3. LOIS USUELLES 13 Loi de Poisson C’est la loi d’une variable aléatoire à valeurs dans IN telle que IP(X = k) = e−λ λk , k! k ∈ IN; λ > 0. Elle est appelée loi de Poisson de paramètre λ et se note P(λ). On écrit X ∼ P(λ). X IE(X) = kIP(X = k) = k≥0 X 2 IE(X ) = ∞ X ke k=0 2 k IP(X = k) = k≥0 ∞ X ∞ X λk−1 = λe =λ k! (k − 1)! k −λ λ λ k=0 k(k − 1)e k −λ λ k=2 = λ2 e−λ k! + ∞ X kIP(X = k) k=0 ∞ X λk−2 = λ2 + λ (k − 2)! k=2 On a alors V ar(X) = λ2 + λ − λ2 = λ. Loi géométrique C’est la loi d’une variable aléatoire à valeurs dans IN telle que k ∈ IN∗ ; IP(X = k) = (1 − p)k−1 p, 0 < p < 1. Elle est appelée loi géométrique de paramètre p et se note G(p). On écrit X ∼ G(p). C’est la loi du temps du premier succès dans une suite d’expériences aléatoires indépendantes où la probabilité de succès est p. IE(X) = X kIP(X = k) = k≥0 = p IE(X 2 ) = X k(1 − p)k−1 p = p k=1 1 1−x 0 = |(x=1−p) k 2 IP(X = k) = k≥0 = p(1 − p) = p(1 − p) ∞ X ∞ X !0 xk |(x=1−p) 1 p k(k − 1)(1 − p)k−1 p + k + |(x=1−p) ∞ X kIP(X = k) k=0 !00 x ∞ X k=0 k=2 k=0 On a alors V ar(X) = ∞ X 1 p 2 1 2 1 2(1 − p) 1 + = p(1 − p) 3 + = + 3 (1 − x) |(x=1−p) p p p p2 p 2(1 − p) 1 1 1−p + − 2 = 2 p p p p2 14 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES 2.4 Fonction génératrice des variables aléatoires entières Définition 2.4.1. Soit X : Ω −→ IN une variable aléatoire discrète à valeurs enitières. On appelle fonction génératrice de X la fonction gX : [0, 1] −→ IR définie par X gX (s) = IE(sX ) = sn IP(X = n). n∈IN Comme X X IP(X = n) < +∞, l asérie entière n∈IN convergence inférieur ou égal à 1, est C ∞ sur [0, 1]. sn IP(X = n) = gX (s) a un rayon de n∈IN Proposition 2.4.2. La fonction génératrice gX détermine la loi de X. En fait IP(X = n) = 1 (n) g (0) n! X Exemple 2.4.3. a. Loi Binomiale B(n, p). On a gX (s) = X n s IP(X = k) = k∈IN n X Cnk pk sk (1 − p)n−k = (ps + (1 − p))n . k=0 b. Loi de Poisson P(λ). On a gX (s) = X sn IP(X = k) = e−λ k∈IN X λk sk k≥0 k! = eλ(s−1) . b. Loi géométrique G(p). On a gX (s) = X k∈IN n s IP(X = k) = ∗ X (1−p) k−1 k ps = ps k>0 X k>0 k−1 ((1−p)s) = ps ∞ X ((1−p)s)l = l=0 ps . 1 − (1 − p)s Proposition 2.4.4. i). IE(X) < +∞ si et seulement si gX est dérivable à gauche en 1, et dans ce 0 (1). cas, on a IE(X) = gX ii). IE(X 2 ) < +∞ si et seulement si gX est deux fois dérivable à gauche en 1, et dans ce cas, on a ” (1). IE(X(X − 1)) = gX Preuve. (i). On a X gX (s) − gX (1) X sk − 1 X = IP(X = k) = IP(X = k)(1+...+sk−1 ) ↑ kIP(X = k) quand s ↑ 1 s−1 s−1 k≥0 (ii). Si IE(X 2 ) < +∞, 0 k≥0 k≥0 0 (1) < +∞. Alors quand s ↑ 1, IE(X) < +∞ et gX 0 X X gX (s) − gX (1) sk−1 − 1 X = kIP(X = k) = kIP(X = k)(1+...+sk−2 ) ↑ k(k−1)IP(X = k) = IE(X(X− s−1 s−1 k≥0 k≥0 k≥0 2.5. LOI ET ESPÉRANCE CONDITIONNELLES 15 Proposition 2.4.5. Soient X et Y deux variables à valeurs dans IN indépendants. Alors pour tout s ∈ [0, 1], gX+Y (s) = gX (s)gY (s). Exercise 2.4.6. Soit (Xi )i≥1 une suite de variables entières indépendantes et identiquement distribuées et N une variable aléatoire entière indépendante de la suite. On pose S=   X1 + ... + XN si N ∈ IN∗  0 si N = 0 Exprimer gS (u) en fonction de gX1 (u) et gN (u). En déduire la loi de S lorque N suit la loi géométrique de paramètre p et les Xi la loi géométrique de paramètre q. 2.5 Loi et espérance conditionnelles Définition 2.5.1. Soient X et Y deux variables aléatoires discrètes à valeurs respectives dans F et G. Pour y ∈ G, on appelle loi conditionnellle de X sachant Y = y la famille des nombres (IP(X = x|Y = y))x∈F . Proposition 2.5.2. Les variables X et Y sont indépendantes si et seulement si la loi conditionnelle de X sachant Y = y n edépend pas de y ∈ G. Preuve. ⇒ La condition nécessaire est immédiate. ⇐ La condition suffisante. Pour tout x ∈ F , il existe µ(x) tel que ∀y ∈ G, IP(X = x|Y = y) = µ(x) À x fixé, en multipliant par IP(Y = y) et en sommant sur y ∈ G, on obtient X IP(Y = y)IP(X = x|Y = y) = IP(X = x) = µ(x). y∈G Par suite, IP(X = x).IP(Y = y) = µ(x).IP(Y = y) = IP(X = x, Y = y) Définition 2.5.3. Soient X et Y deux variables aléatoires discrètes à valeurs respectives dans F et G et f : F × G −→ IR telle que f (X, Y ) est intégrable. On appelle espérance conditionnelle de f (X, Y ) sachant Y et on note IE (f (X, Y )|Y ) la variable aléatoire discrète IE (f (X, Y )|Y ) = ψ(Y ) où ∀y ∈ G, ψ(y) = X f (x, y)IP(X = x|Y = y). x∈F Lorsque X est à valeurs réelles intégrable, en choisissant f (x, y) = x, on obtient IE (X|Y ) = ψ(Y ) où ∀y ∈ G, ψ(y) = X xIP(X = x|Y = y). x∈F Proposition 2.5.4. On suppose que f (X, Y ) est intégrable. Pour toute fonction g : G −→ IR telle que f (X, Y )g(Y ) est intégrable, la variable aléatoire IE (f (X, Y )|Y ) g(Y ) est intégrable et on a IE [IE (f (X, Y )|Y ) g(Y )] = IE (f (X, Y )g(Y )) 16 CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES Preuve. X Pour l’intégrabilité de IE (f (X, Y )|Y ) g(Y ), on remargque que ∀y ∈ G, |ψ(y)g(y)| ≤ |g(y)| |f (x, y)|IP(X = x|Y = y). Il vient x∈F X |ψ(y)g(y)|IP(Y = y) ≤ y∈G X |g(y)| y∈G = X |f (x, y)|IP(X = x|Y = y)IP(Y = y) x∈F X |g(y)||f (x, y)|IP(X = x, Y = y) = IE|(f (X, Y )||g(Y )| < +∞ x∈F,y∈G En outre, IE [IE (f (X, Y )|Y ) g(Y )] = X g(y)ψ(y)IP(Y = y) y∈G ! = X g(y) y∈G = X X f (x, y)IP(X = x|Y = y) IP(Y = y) x∈F f (x, y)g(y)IP(X = x, Y = y) = IE (f (X, Y )g(Y )) x∈F,y∈G Corollaire 2.5.5. Si la variable f (X, Y ) est intégrable, alors l’espérance conditionnelle IE(f (X, Y )|Y ) est aussi intégrable et IE [IE(f (X, Y )|Y ] = IE(f (X, Y )). En outre, si f (X, Y ) est de carré intégrable, IE(f (X, Y )|Y ) l’est aussi et V ar [IE(f (X, Y )|Y ] ≤ V ar(f (X, Y )) Preuve. La pemière assertion est obtenue en faisant g ≡ 1 dans la proposition précédente. Supposons X à présent que f (X, Y ) est intégrable. En utilisant l’ inégalité de Cauchy-Schwarz et le fait que IP(X = x|Y = y) = 1, on obtient x∈F !2 X x∈F p p f (x, y) IP(X = x|Y = y) IP(X = x|Y = y) ≤ X f 2 (x, y)IP(X = x|Y = y) × 1 x∈F Donc IE(f (X, Y )|Y )2 ≤ IE(f 2 (X, Y )|Y ). Comme IE(f 2 (X, Y )|Y ) est intégrable et d’espérance égale à IE(f 2 (X, Y )), on déduit de la proposition 2.2.18 que IE(f (X, Y )|Y )2 intégrable et IE IE(f (X, Y )|Y )2 ≤ IE(f 2 (X, Y )) IE IE(f (X, Y )|Y )2 − (IE [IE(f (X, Y )|Y )])2 ≤ IE(f 2 (X, Y )) − (IE [IE(f (X, Y )|Y )])2 V ar(IE(f (X, Y )|Y )) ≤ IE(f 2 (X, Y )) − [IE(f (X, Y ))]2 V ar(IE(f (X, Y )|Y )) ≤ V ar(f (X, Y )) Chapter 3 Vecteurs aléatoires Dans la suite de ce cours le triplet (Ω, F, IP) désignera unespace de probabilité pris comme référence appélé espace de base. Les ensembles mesurables relativementà F sont appélés événements de Ω. Principe de modélisation Modéliser mathématiquement un phénomène aléatoire revient à introduire ce qui suit: 1. un triplet (Ω, F, IP) comme espace de probabilité abstrait, 2. une application X : Ω 7→ IRd telle que, pour tout borélien A de IRd , l’image-réciproque de A par l’application X soit unélément de F. C’est alors l’application IPX : A ∈ F 7→ IP(X ∈ A) qui seral’objet important du modèle. 3.1 Applications mesurables Définition 3.1.1. 1. Soient (E, A) et (IRk , B(IRk )) deux espaces mesurables. Une application f de E dans IRk est dite (A, B(IRk )−mesurable si pour tout B ∈ B(IRk )), {f ∈ B} ∈ A. 2. Dans le cas où (E, A) = (IRn , B(IRn )), on dit que f est borélienne pour exprimer qu’elle est (B(IRn ), B(IRk ))−mesurable. Proposition 3.1.2. Toute application continue de IRn dans IRk est borélienne. Terminologie utilisée en probabilité. Définition 3.1.3. Soient (Ω, F) l’espace mesurable de base et (IRd , B(IRd )). Une application f (F, B(IRd ))−mesurable s’appelle un vecteur aléatoire de dimension d. Proposition 3.1.4. Si f est une application borélienne de IRk dans IRd et X un vecteur aléatoire de dimension k,alors l’application f ◦ X est un vecteur aléatoire de dimension d. Preuve. Si B est un borélien de IRd , alors l’image réciproque de B par f ◦ X est (f ◦ X)−1 (B) = X −1 [f −1 (B)]. Comme f est borélienne, f −1 (B) ∈ B(IRk ) et comme X est (F, B(IRk ))−mesurable, X −1 [f −1 (B)] ∈ F. En prenant pour f les projections de IRd sur IR, une conséquence du résultat précécent donne ce qui suit: Proposition 3.1.5. X = (X1 , X2 , ..., Xd ) est un vecteur aléatoire de dimension d si et seulement si,pour tout i = 1, 2, ..., d, Xi est une variable aléatoire réelle. Définition 3.1.6. Deux vecteurs aléatoire X et Y de dimension d sont égaux presque-sûrement si et seulement si,IP(X 6= Y ) = 0. L’égalité presque-sûre est une rélation d’équivalence sur l’ensemble des vecteurs aléatoire de dimension d. 18 3.2 CHAPTER 3. VECTEURS ALÉATOIRES Loi d’un vecteur aléatoire Proposition 3.2.1. Soit X un vecteur aléatoire de dimension d. L’application IPX : B ∈ B(IRd ) 7→ IPX (B) = IP ({X ∈ B}) ∈ [ 0, 1] est une probabilité sur IRd Preuve. La notation {X ∈ B} := {ω ∈ Ω/X(ω) ∈ B} et on a {X ∈ B} ∈ F, ce qui donne un sens à IP ({X ∈ B}). IPX est donc bien définie. De plus comme {X ∈ IRd } = Ω,IPX (Rd ) = IP {X ∈ IRd } = IP(Ω) = 1. Soit (An )IN une suite deuxs̀deux disjointes de boréliens de IRd , alors     [ [ Ak = {X ∈ Ak } X∈   k∈IN k∈IN l’union du second terme étant deux à deux disjointes. On a   [ S S IPX  Ak  = IP X ∈ k∈IN Ak = IP k∈IN {X ∈ Ak } k∈IN P P = k∈IN IP(X ∈ Ak ) = k∈IN IPX (Ak ) Définition 3.2.2. La probabilité IPX est appelée loi du vecteur X. Définition 3.2.3. Un vecteur aléatoire X à valeurs dans IRd est dite discrèt si sa loi est discrète. Proposition 3.2.4. Soit X un vecteur aléatoire de dimension d est discrèt si et seulement si, il existe une partie D := {ek , k ∈ K ⊂ IN} de IRd telle que IP(X ∈ D) = 1. Dans ce cas la loi du vecteur aléatoire X s’écrit X IPX = IP(X = ek )δek k∈K On dit alors que la loi de X est portée par D. Preuve. Soit X un vecteur aléatoire tel qu’il existe une partie dénombrable D de IRd avec X ∈ D := {ek , k ∈ K ⊂ IN} presque-sûrement,i.e IP(X ∈ D) = 1. Soit A un borélien de IRd , on a IPX (A) = IPX (A ∩ D) = IP(X ∈ A ∩ D). Comme [ {X ∈ A ∩ D} = {X = x} x∈A∩D et cette union est mutuellement disjointe. Il vient X X IPX (A) = IP(X = x) = IP(X = x)IA (x) x∈A∩D = X x∈D X IP(X = x)δx (A) = x∈D Ainsi X est une variable discrète et sa loi est IPX = IP(X = ek )δek (A) k∈K X P (X = ek )δek . k∈KX Réciproquement soit X un vecteur aléatoire de loi µ = pn δen où (pn )K est une suite (finie ou n∈K infinie) de réels strictement positifs avec K ⊂ IN vérifiant X pn = 1, et (ek )K une suite (finie n∈K ou infinie) d’éléments de IRd . En prenant D := {en /n ∈ K}, on a IP(X ∈ D) = 1, et pour tout n ∈ K, IP(X = en ) = pn . 3.2. LOI D’UN VECTEUR ALÉATOIRE 3.2.1 19 Théorèmes de transfert Proposition 3.2.5. Cas des fonctions boréliennes positives Soit X un vecteur aléatoire de dimension d et IPX sa loi de probabilité sur IRd . Alors, pour toute application borélienne positive h de IRd dans [0, +∞], Z Z IE [h(X)] = h(X(ω))dIP(ω) = h(x)dIPX (x) = IEPX (h) Ω IRd Proposition 3.2.6. Cas vectoriel Soit X un vecteur aléatoire de dimension d et IPX sa loi de probabilité sur IRd . Soit h une application borélienne de IRd dans [IRn . Alors h est intégrable suivant IPX si et seulement si h(X) est intégrable sur Ω suivant IP, et dans ce cas, Z Z h(X(ω))dIP(ω) = h(x)dIPX (x) = IEPX (h) IE [h(X)] = IRd Ω 3.2.2 Critères d’identification de loi Proposition 3.2.7. Critère des fonctions boréliennes positives Soit X un vecteur aléatoire de dimension d et µ une probabilité sur IRd . Alors le vecteur X a pour loi µ si et seulement si, pour toute application borélienne positive h de IRd dans [0, +∞], Z IE [h(X)] = h(x)dµ(x) IRd Preuve. • C.N Si IPX = µ,d’après le théorème de transfert, Z Z pour toute application borélienne d positive h de IR dans [0, +∞],, IE [h(X)] = h(x)dIPX = h(x)dµ(x). IRd IRd • C.S Supposons que pour toute application borélienne positive h de IRd dans [0, +∞], Z IE [h(X)] = h(x)dµ(x). Alors pour tout B ∈ B(IRd ), IB est une application borélienne positive d IR de IRd dans [0, +∞] et on a d’une part E [h(X)] = E [IB (X)] = IEµ (IB ) = µ(B) et d’autre part le théorème de transfert donne Z E [h(X)] = E [IB (X)] = IB dIPX = IPX (B) D’òu, pour tout B ∈ B(IRd ) IPX (B) = µ(B). Proposition 3.2.8. Critère des fonctions à support compact Soit X un vecteur aléatoire de dimension d et µ une probabilité sur IRd . Alors le vecteur X a pour loi µ si et seulement si, pour toute application positive h de IRd dans [0, +∞] continue et à support compact, Z IE [h(X)] = IRd h(x)dµ(x) Preuve. • C.N Si IPX = µ. Si h est une fonction positive h de IRd dans [0, +∞] continue et à support compact, elle est Z en particulier Zune fonction positive borélienne. D’après la proposition précèdente IE [h(X)] = h(x)dIPX = h(x)dµ(x). IRd IRd • C.S Supposons que pour toute fonction positive h de IRd dans [0, +∞] continue et à support 20 CHAPTER 3. VECTEURS ALÉATOIRES compact. Z h(x)dµ(x). Alors pour tout ouvert A ∈ IRd , il existe une suite croissante(fn ) de IRd fonction positives continue et à support compact sur IRd qui converge vers la fonction indicatrice IA . On a d’une part Z IE [h(X)] = µ(A) = IA dµ et IPX (A) = E [IA (X)] IRd et d’autre part le théorème de convergence monotone de Beppo-Lévi, Z Z Z lim fn dµ = lim fn dµ = lim IE [fn (X)] IA dµ = n→+∞ IRd n→+∞ n→+∞ IRd IRd Z Z Z IA dIPX = lim lim fn dIPX = fn dIPX = n→+∞ IRd IRd IRd n→+∞ Par suite, pour tout ouvert A ∈ Rd , IPX (A) = µ(A). Ansi,µ et IPX coincident sur une famille de parties de IRd stable par intersection finie qui engendre la tribu borélienne B(IRd ). Elles sont donc égales. Exercise 3.2.9. Soit X = (X1 , X2 ) un vecteur aléatoire de dimension 2 de loi IPX = X k≥1, l≥1 1 δ . 2k+l k,l) 1) Déterminer la loi de la variable aléatoire réelle définie par Y := sup(X1 , X2 ). 2) Montrer que la variable aléatoire Z := X1 + X2 a pour loi IPZ = +∞ X i−1 i=1 3.3 2i δi Moment d’un vecteur aléatoire Définition 3.3.1. Soit X un vecteur aléatoire de dimension d de composantes X1 .X2 , ..., Xd intégrables suivant IP. On appelle espérance mathématique de X suivant IP, le vecteur de IRd noté IE(X) défini par IE(X) = (IE(X1 ), IE(X2 ), ..., IE(Xd )) Définition 3.3.2. Soit X un vecteur aléatoire de dimension d. X est dit p-intégrable, s’il existe un entier naturel non nul p vérifiant IE(|X|p ) < +∞, i.e X ∈ Lp (Ω, F, IP). Dans le cas particulier où p = 2, on dit que X est de carré intégrable. Exercise 3.3.3. 1) Montrer que si X = (X1 , X2 , ..., Xd ), alors les variables aléatoires réeles X1 , X2 , ..., Xd sont de carré intégrables si et seulement si IE(|X|2 ) < +∞. 2) On suppose que d = 1 et X et Y deux variàbles aléatoires réelles de carré intégrables. 2.a) Montrer que |XY | ≤ X 2 + Y 2 et en déduire que les variàbles aléatoires réelles X, Y et XY sont intégrables suivant IP. 2.b) En étudiant le signe l’expression IE[(X +αY )2 ] pour tout α ∈ IR, prouver l’inégalité de CauchySchwartz: p p |IE(XY )| ≤ IE(X 2 ) IE(Y 2 ) Définition 3.3.4. Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd de carré intégrables sur Ω. On appelle matrice de dispersion de X ou matrice des covariance deX et on la note DX , l’espérance de la matrice carrée aéatoire [X − IE(X)][X − IE(X)]t d’ordre d. C’est àdire DX = IE [X − IE(X)][X − IE(X)]t . 3.3. MOMENT D’UN VECTEUR ALÉATOIRE 21 Proposition 3.3.5. Soit X un vecteur aléatoire de dimension d tel que matrice à coefficients réels à c lig nes et d colonnes,alors 1. i,j DX = cov(Xi , Xj ) = IE ([Xi − IE(Xi )][Xj − IE(Xj )]) , i 6= j IE(|X|2 ) < +∞ et M une i,i DX = V ar(Xi ) 2. D[X−IE(X)] = DX , IE(M X) = M IE(X), DM X = M D X M t 3. DX est une matrice symétrique de type positif. c’est à dire pour tout u ∈ IRd , ut DX u ≥ 0.En particulier DX est une matrice diagonalisable sur IR dont les valeurs propres dont des réels positifs ou nuls. Exercise 3.3.6. 1) Soit X le vecteur aléatoire dans l’exercice (??) . Déterminer DX . 2) Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd telque IE(X 2 ) < +∞. d X 2.a) Montrer que la variable aléatoire réelle Y := Xk est de carré intégrable. k=1 2.b) Démontrer la relation d d X X V ar( Xk ) = V ar(Xk ) + 2 k=1 3.3.1 X Cov(Xi , Xj ) 1≤i<j≤n k=1 Intégrales multiples: Théorème de Fubini Théorème 3.3.7. Soit f : IR2 −→ IR. I si f est positive, Z Z Z Z Z f (x, y)dxdy = f (x, y)dy dx = f (x, y)dx dy. IR2 IR IR IR IR Cela signifie que les trois termes sont soit simultanément finis et égaux soit simultanément égaux à +∞. Z I Si f est intégrable au sens où |f (x, y)|dxdy < +∞, alors l’égalité ci-dessus est vraie. IR2 Exemple 3.3.8. Soit f : [0, +∞[−→ [0, +∞[ Z [0,+∞[×[0,+∞[ 3.3.2 Z +∞ Z +∞ f (x + y) f (z) dy dx = dz dx x+y z 0 0 0 x Z +∞ Z +∞ Z +∞ Z +∞ f (z) f (z) = I{z≥x} dz dx = I{z≥x} dx dz z z 0 0 0 0 Z z Z +∞ Z +∞ f (z) = dx dz = f (z)dz z 0 0 0 f (x + y) dxdy = x+y Z +∞ Z +∞ Changement de variables Soit ϕ une bijection continuement différentiable ainsi que son inverse ϕ−1 d’un ouvert O de IRd sur un ouvert O0 de IRd , f : IRd −→ IR bornée et g : IRd −→ IR intégrable. On a Z Z f [ϕ(x)]g(x)dx = f (y)g[ϕ−1 (y)]|Jacϕ−1 (y)|dy O où Jacϕ−1 (y) = Det ∂(ϕ−1 )i ; ∂yj O0 1 ≤ i, j ≤ d . 22 Z Exercise 3.3.9. Calculer I = 2 − x2 e IR un changement de variables. CHAPTER 3. VECTEURS ALÉATOIRES Z 2 2 − x +y 2 dx. Indication: calculer I 2 = dxdy en utilisant e IR2 En général, dans les problèmes de probabilités, on connaı̂t O et ϕ et on souhaite transfprmer un eintégrale. Il faut faire attention aux difficultés suivanhtes: (i) La fonction ϕ n’est pas injective sur le domaine O de départ (O = IR, ϕ(x) = x2 ). Il faut alors essayer de découper O en sous-domaines sur lesquels ϕ est injective. (ii) Lorsque ϕ est injevtive sur O, il faut bien raisonner par les conditions nécessaires et suffisantes pour obtenir le domaine image O0 . Il ne faut surtout pa sse contenter de conditions nécessaires. Exemple 3.3.10. Si O =]0, +∞[×]0, +∞[ et ϕ(x, y) = (x + y, x − y). Dire que O0 = ϕ(O) = ]0, +∞[×IR est faux. Pour déterminer O0 , il faut déterminer ϕ−1 . z =x+y x = z+w −1 2 ϕ (z, w) = (x, y) ⇔ (z, w) = ϕ(x, y) ⇔ ⇔ w =x−y y = z−w 2 z−w Ainsi, ϕ−1 (z, w) = ( z+w 2 , 2 ). Par suite 0 −1 (z, w) ∈ O ⇔ ϕ (z, w) ∈ O ⇔ z+w 2 z−w 2 >0 ⇔ z > |w| >0 Finalement O0 = {(z, w) ∈ IR2 ; z > |w|}. 3.4 Fonction caractéristique de vecteur aléatoire Définition 3.4.1. 1. Si µ est une probabilité sur IRd , l’application Z Φµ : u ∈ IRd 7→ Φµ (u) = eihx,ui dµ(x) d IR s’appelle la fonction caractéristique de µ. 2. Si X est un vecteur aléatoire de dimension d,la fonction caractéristique de X est Z h i ihx,ui ihX,ui ΦX (u) = e dIP (x) = IE e X IRd . Dans la suite de cette section, nous donnons quelques propriétés classiques des fonctions caractérstiques. Nous insiterons sur leurs points intétrêts suivants: Elles servent 1. à identifier la loi d’un vecteur aléatoire, 2. à caclculer les moments d’un vecteur aléatoire, 3. à étudier l’indépendance d’une suite de vecteur aléatoire. Proposition 3.4.2. (Propriété classique) 1. Φ(0) = 1. ¯ et |Φ(u)| ≤ 1. Une fonction caracéristique est une fonction 2.Pour tout u ∈ IRd , Φ(−u) = Φ(u) d bornée sur IR . 3. La fonction caracéristique Φ d’un vecteur aléatoire X est une fonction uniformément continue sur IRd . En particulier une fonction caracéristique Z Φ est continue Z en 0. 4. Si µ et ν sont deux probabilités sur IRd , alors IRd Φµ dν = IRd Φν dµ. 3.4. FONCTION CARACTÉRISTIQUE DE VECTEUR ALÉATOIRE 23 Preuve. • 1. et 2. sont immédiats. • 3. Pour tout u ∈ IRd , Z Z Z ihx,ui ihx,ui |ΦX (u)| = | e dIP (x)| ≤ |e |dIP (x) ≤ dIPX (x) = 1, X X IRd IRd IRd donc Φ est bornée sur IRd . • 4. Pour tous vecteurs u et v de IRd , on a Z |ΦX (u) − ΦX (v)| ≤ d IR |eihx,ui − eihx,vi |dIPX (x). Pour tout réel t, it Z e −1= t ix Z Z t (i cos(x) − sin(x)) dx i (cos(x) + i sin(x)) dx = ie dx = 0 t 0 0 D’où |eit − 1| ≤ inf (2, |t|). Par suite pour tous vecteurs u et v de IRd , on a |eihx,ui − eihx,vi | = |ei[hx,ui−hx,vi] − 1| = |ei[hx,u−vi] − 1| ≤ inf( 2, |hx, u − vi| ), En utulisant l’inégalité de Cauchy-Schwaz, on obtient |eihx,ui − eihx,vi | ≤ inf( 2, |x||u − v| ) Ainsi, pour tous vecteurs u et v de IRd Z |ΦX (u) − ΦX (v)| ≤ IRd inf( 2, |x||u − v| )dIPX (x). En particulier pour tout entier naturel non nul n, et pour tous vecteurs u et v de IRd , tels que 1 |u − v| ≤ , on a n Z |x| |ΦX (u) − ΦX (v)| ≤ inf( 2, )dIPX (x). n IRd |x| La suite de fonction inf( 2, ) est dominée sur IRd par la fonction constante 2 et converge ∗ n n∈IN vers la fonction nulle sur IRd . Par le théorème de la convergence dominée de Lebesgue, |x| ) = 0. On en déduit que pour tout ε > 0, il existe un entier N0 tel que ∀n ≥ N0 lim inf( 2, n→+∞ n Z |x| inf( 2, )dIPX (x) ≤ ε. n IRd Par suite, pour tout ε > 0, il existe η (η = n1 ) tel que pour tous vecteurs u et v de IRd ,|u − v| ≤ η, implique |ΦX (u) − ΦX (v)| ≤ ε. D’où l’uniforme continuité de l afonction caractéristique. • 4. En appliquant le théorème de Fubini Z Z Z Z Z ihx,yi ihx,yi Φµ (y)dν(y) = e dµ(x) dν(y) = e dν(y) dµ(x) d d d d IRd IR IR IR IR Z Z Z ihy,xi = e dν(y) dµ(x) = Φν (x)dµ(x) IRd IRd IRd 24 CHAPTER 3. VECTEURS ALÉATOIRES Proposition 3.4.3. Théorème d’injectivité. (Admis) Deux probabilités sur IRd sont identiques si et seulemnt si,elles ont la même fonction caractéristique. Pour les vecteurs aléatoires, le théorème d’injectivité s’enonce comme suit: Proposition 3.4.4. critère d’identification de loi Deux vecteurs aléatoires sur IRd ont la même loi si et seulemnt si, ils ont la même fonction caractéristique. Dans le cas où la fonction caractéristique est intégrable au sens de Lebesgue sur IR, on obtient la connaissance de µ: Proposition 3.4.5. Soit µ est une probabilité sur IRd de fonction cractéristique Φ. Si Φ est intégrable au sens de Lebesgue sur IRd , alors µ admet une ensité f par rapport ‘a la mesure de Lebesgue sur IRd . L’application f est une fonction à valeurs réelles, positives, bornée, continue sur Rd et, pour tout x ∈ IRd , Z 1 f (x) = e−ihu,xi Φ(u)du (2 π)d IRd Proposition 3.4.6. Si X est une variable aléatoire réelle telle que IE(|X|n ) < +∞. C’est è dire X ∈ Ln (Ω, F, IP) avec n un entier naturel non nul. Alors la fonction cractéristique est continuement dérivable jusqu’à l’orde n et, pour tout u ∈ IR, Z (n) n ΦX (u) = i xn eiux dIPX (x) = in IE(X n eiuX ). IR En particulier (n) ΦX (0) n Z =i IR xn dIPX (x) = in IE(X n ). Pour les vecteurs aléatoires, nous avons en particulier Proposition 3.4.7. Si X = (X1 , X2 , ..., Xd ) est vecteur aléatoire de dimension d telle que IE(|X|2 ) < +∞. C’est è dire X ∈ L2 (Ω, F, IP) . Alors pourtout k = 1, 2, ..., d et j = 1, 2, ..., d ona , IE(Xk ) = −i ∂ΦX (0) ∂uk et IE(Xk Xj ) = − ∂ 2 ΦX (0) ∂uk ∂uj 3.5 Vecteurs aléatoires à densité 3.5.1 Cas unidimensionnelle: varaiables aléatoires réelles à densité usuelles Soit (Ω, A, IP) un espace de probabilité. Définition 3.5.1. On dit que la variable aléatoire X : Ω −→ IR possède la densit é p : IR −→ IR si Z ∀a, b ∈ IR ∪ {−∞, +∞}, IP(a < X < b) = b p(x)dx a Z Il en résulte que la densité est une fonction positive vérifiant p(x)dx = 1. Aussi IP(X = x) = 0. IR P De même, pour tout sous-ensemble F de IR dénombrable, IP(X ∈ F ) = x∈F IP(X = x) = 0. Ce qui montre la différence de nature entre variables aléatoires discrètes et variables aléatoires à densité. 3.5. 3.5.2 VECTEURS ALÉATOIRES À DENSITÉ 25 Densités réells usuelles Loi uniforme sur [a, b] X suit la loi uniformle sur [a, b] avec a < b, et on note X ∼ U[a, b] si X a pour densité p(x) = 1 I (x). b − a [a,b] Loi exponentielle de paramètre λ > 0 X suit la loi exponentielle de paramètre λ > 0, et on note X ∼ E(λ) si X a pour densité p(x) = λe−λx Ix>0 (x). Loi normale ( ou gaussienne )de paramètres µ ∈ IR et σ 2 > 0 X suit la loi normale de paramètres µ ∈ IR et σ 2 > 0, et on note X ∼ N (µ, σ 2 ) si X a pour densité (x − µ)2 exp − IIR (x). p(x) = √ 2σ 2 2πσ 2 1 Dans le cas où µ = 0 et σ 2 = 1, on dit que X suit la loi normale centrée réduite. Loi de Cauchy de paramètre a > 0 X suit la loi de Cauchy de paramètre a > 0, et on note X ∼ C(a) si X a pour densité p(x) = 3.5.3 1 a I (x). 2 π x + a2 IR Espérance, Variance Définition 3.5.2. Z la variable aléatoire X : Ω −→ IR qui possède la densité p est dite: I intégrable si |x|p(x)dx < +∞ et dans ce cas on définit son espérance par IR Z IE(X) = x p(x)dx IR Z I de carré intégrable si IE(X 2 ) = x2 p(x)dx < +∞ et dans ce cas on définit sa variance par IR V ar(X) = IE(X 2 ) − (IE(X))2 = IE (X − IE(X))2 Proposition 3.5.3. 1. L’espérance d’une variable aléatoire X qui possède une densité ne dépend que de cette densité. 2.Linéarité: IE(X + λ Y ) = IE(X) + λIE(Y ). 3. Condition suffisante d’intégrabilité: Si IP(|X| ≤ Y ) = 1 et Y est intégrable, alors X l’est aussi. 4. Croissance: Si X et Y sont intégrables, IP(X ≥ Y ) = 1 =⇒ IE(X) ≥ IE(Y ). Exercise 3.5.4. calculer l’espérance et la variance d’une variable uniforme sur [a, b]; d’une variable exponentielle de paramètre λ > 0; d’une variable de Cauchy paramètre a > 0 et d’une variable normale centrée réduite. 26 3.5.4 CHAPTER 3. VECTEURS ALÉATOIRES Fonction de répartition Définition 3.5.5. Soit X : Ω −→ IR une variable aléatoire réelle ( qui ne possède pas necessairement une densité ). On appelle fonction de répartition de X la fonction FX : x ∈ IR 7−→ IP(X ≤ x). Il en résulte que FX croı̂t de 0 à 1 et est continue à droite. Elle a une limite à gauche en tout point notée FX (x−). De plus on a IP(a < X ≤ b) = IP(X ≤ b) − IP(X ≤ a) = FX (b) − FX (a). Proposition 3.5.6. Si la fonction de répartition FX de la variable X aléatoire réelle est globalement continue et C 1 par morceaux ( au sens où il existe un nombre fini de points x1 < x2 < ... < xn 0 tels que FX est C 1 sur ] − ∞, x1 [, ]x1 , x2 [, ..., ]xn−1 , xn [, ]xn , +∞[); alors X possède la densité FX . 3.6 Vecteurs aléatoires à densité Définition 3.6.1. On dit que le vecteur aléatoire X = (X1 , ..., Xd ) : Ω −→ IRd possède la densité p : IRd −→ IR si Z Z d ∀ O ouvert de IR , IP(X ∈ O) = p(x)dx = IO (x1 , x2 , ..., xd )p(x1 , x2 , ..., xd )dx1 dx2 ...dxd . O IRd Il en résulte qu’une densité de parobabilité p sur IRd est une fonction positive et Z p(x1 , x2 , ..., xd )dx1 dx2 ...dx= 1 IRd Le Critère d’identification par des fonctions boréliennes positives se particularise de la manière suivante: Théorème 3.6.2. Le vecteur aléatoire X : Ω −→ IRd possède la densité p si et seulement si , pour toute application borélienne positive h de IRd dans [0, +∞] Z IE [h(X)] = h(x)p(x)dx. IRd 3.6.1 Densité marginale Proposition 3.6.3. Soit X un vecteur aléatoire qui possède une densité. Alors tout sous-vecteur Y possède la densité marginale obtenue en intégrant celle de X sur les composantes ne figurant pas dans Y . La Réciproque est fausse. Preuve. Soit X = (X1 , ..., Xd ) : Ω −→ IRd un vecteur aléatoire de densité p et k < d. Si Ok est un ouvert de IRk , en utlisant le théorème de Fubini, on obtient: Z d−k IP((X1 , ..., Xk ) ∈ Ok ) = IP(X ∈ Ok × IR ) = p(x)dx d−k Ok ×IR Z Z = p(x1 , x2 , ..., xd )dxk+1 ...dxd dx1 ...dxk Ok IRd−k On déduit que le sous-vecteur (X1 , ..., Xk ) possède la densité Z q(x1 , x2 , ..., xk ) = p(x1 , x2 , ..., xd )dxk+1 ...dxd IRd−k 3.6. VECTEURS ALÉATOIRES À DENSITÉ 27 Exercise 3.6.4. Soit X une variable aléatoire réelle de loi normale centrée réduite N (0, 1). On pose ∆ := {(x, y) ∈ IR2 , y = x}. 1. Prouver que IP(X,X) (∆) = 1 2. En supposant que le vecteur aléatoire (X, X) admet une densité sur IR2 , prouver que, sous cette hypothèse IP(X,X) (∆) = 0. En déduire que le vecteur (X, X) aléatoire de dimension 2 n’admet pas de densité sur IR2 . Ce qui montre que la réciproque de la proposition précédente est fausse. 3.6.2 Changement de variables d d Proposition Z 3.6.5. Soit X : Ω −→ IR qui possède la densité p(x) portée par un ouvert O de IR p(x)dx = 1 et ϕ est une bijection de O sur O0 de classe C 1 ainsi que son inverse au sens où O ϕ−1 . Alor sle vecteur Y = ϕ(X) possède la densité q(y) = IO0 (y)p(ϕ−1 (y))|Jac ϕ−1 (y)| Exercise 3.6.6. Soit (X, Y ) un couple aléatoire de densité λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} . Déterminer la loi de (Z, W ) = (X + Y, X − Y ). Résolution Utilisons la mt́hode de la fonction muette. Pour toute fonction f : IR2 −→ IR bornée, calculons IE[f (Z, W )] = IE[f (X + Y, X − Y )]. Soit ϕ : (x, y) ∈ IR2 7−→ (x + y, x − y) ∈ IR2 . La fonction g(x, y) = f ◦ ϕ(x, y) = f (x + y, x − y) est une fonction bornée sur IR2 . On a donc Z g(x, y)λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} dxdy IE[g(X, Y )] = 2 IR Z IE[f (X + Y, X − Y )] = f (x + y, x − y)λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} dxdy 2 IR Z +∞ Z +∞ IE[f (Z, W )] = f (x + y, x − y)λ2 exp (−λ(x + y)) dxdy 0 0 z−w La fonction ϕ est une bijection C 1 ainsi que son inverse (x, y) = ϕ−1 (z, w) = ( z+w 2 , 2 ) de 2 1 O =]0, +∞[×]0, +∞[ sur O0 = {(z, w) ∈ IR : z > |w|}. On a |Jacϕ−1 (z, w)| = 2 et dxdy = 12 dzdw. Ainsi Z 1 z+w z−w 2 IE[f (Z, W )] = f (z, w)λ exp −λ + dzdw 2 2 2 (z,w):z>|w| Z λ2 = f (z, w) exp (−λ z) I{(z,w):z>|w|} (z, w)dzdw 2 λ2 exp (−λ z) I{(z,w):z>|w|} (z, w). On conclut que la densité du couple (Z, W ) est 2 La densité marginale de Z est Z λ2 exp (−λ z) I{(z,w):z>|w|} (z, w)dw = λ2 z exp (−λ z) 2 IR celle de W est λ2 λ exp (−λ z) I{(z,w):z>|w|} (z, w)dz = exp (−λ |w|) 2 2 IR Z 28 3.6.3 CHAPTER 3. VECTEURS ALÉATOIRES Inépendance Définition 3.6.7. Les vecteurs aléatoires X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn qui possèdent respectivement les densités p1 , ..., pn sont dits indépendants si (X1 , ..., Xn ) possède la densité produit p1 (x) × p2 (x) × ... × pn (x). La proposition suivante est parfois utile et permet de caractériser l’indépendance de vecteurs aléatoires (qui ne possèdent pas necessairement des densités). Proposition 3.6.8. critère de fonctions positives Soient X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn des vecteurs aléatoires. (1.) Si ces vecteurs aléatoires sont indépendants, alors pour toutes fonction f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes positives IE [f1 (X1 ) × f2 (X2 )... × f (Xn )] = n Y IE [fi (Xi )] i=1 (2.) Inversement, si pour toutes fonctions f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes positives, n Y IE [f1 (X1 ) × f2 (x)... × fn (Xn )] = IE [fi (Xi )], alors les vecteurs X1 , ..., Xn sont indépendants. i=1 Preuve. Faisons la preuve pour n = 2. (1) Suppossons que IP(X1 ,X2 ) = IPX1 × IPX2 . Il vient Z IE [f1 (X1 ) × f2 (X2 )] = f1 (x1 )f( y)dIP(X1 ,X2 ) (x, y) d1 +d2 IR Z Z f2 (y)dIPX2 (y) dIPX1 (x) = f1 (x) d1 d2 IR IR Z Z f2 (y)dIPX2 (y) f1 (x)dIPX1 (x) = IRd2 IRd1 = IE [f1 (X1 )] .IE [f2 (X2 )] (2) Il suffit de prendre f1 = IA et f2 = IB où A et B sont respectivement des boréliennes de IRd1 et IRd2 . On a IE [IA (X1 )IB (X2 )] = IE [IA (X1 )] IE [IB (X2 )] On obtient IP [(X1 , X2 ) ∈ A × B] = IP [X1 ∈ A] IP [X2 ∈ B] Ce qui prouve que IP(X1 ,X2 ) = IPX1 × IPX2 . Proposition 3.6.9. critère de fonctions bornées Soient X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn des vecteurs aléatoires. (1.) Si ces vecteurs aléatoires sont indépendants, alors pour toutes fonction f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes bornées IE [f1 (X1 ) × f2 (X2 )... × f (Xn )] = n Y IE [fi (Xi )] i=1 (2.) Inversement, si pour toutes fonctions f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes bornées, n Y IE [f1 (X1 ) × f2 (x)... × fn (Xn )] = IE [fi (Xi )], alors les vecteurs X1 , ..., Xn sont indépendants. i=1 3.6. VECTEURS ALÉATOIRES À DENSITÉ 29 Corollaire 3.6.10. Soit (X1 , X2 , ..., Xn ) une suite de variable aléatoires réelles intégtables. Si la suite (X1 , X2 , ..., Xn ) est indépendante, alors la variable aléatoire réelle produit X1 X2 ...Xn est intégrable et IE [X1 X2 ...Xn ] = IE [X1 ] IE [X2 ] ...IE [Xn ] La réciproque est fausse. Preuve. Prenons n = 2. Soient deux variables aléatoires réelles X et Y indépendantes et intégrables. Alors IE(|X|) < +∞ et IE(|Y |) < +∞ et en application du critère des fonctions positives x 7→ |x|, IE(|XY |) = IE(|X||Y |) = IE(|X|)IE(|Y |) < +∞. La variable XY est donc intégrable. De plus,on a XY = (X + − X − )(Y + − Y − ) = X + Y + + X − Y − − X − Y + − X + Y − En appliquant le critère des fonctions positives x 7→ x+ , x 7→ x− , on obtient IE[XY ] = IE[X + Y + ] + IE[X − Y − ] − IE[X − Y + ] − IE[X + Y − ] = IE[X + ]IE[Y + ] + IE[X − ]IE[Y − ] − IE[X − ]IE[Y + ] − IE[X + ]IE[Y − ] = E[X + ] − E[X − ] E[Y + ] − E[Y − ] = IE (X + − X − ) IE (Y + − Y − ) = IE[X]IE[Y ] Pour montrer que la réciproque est fausse, considérons le contre-exemole suivant: Soient Y ∼ U[−1, 1] et Z = εY où ε est une variable aléatoire indépendante de Y telle que IP(ε = 1) = IP(ε = −1) = 12 . On a IE(Y ) = 0 et IE(Y Z) = IE(εY 2 ) = IE(ε)IE(Y 2 ) = 0 × IE(Y 2 ) = 0 si bien que Cov(Y, Z) = 0 et IE(XZ) = IE(X)IE(Z). Mais comme ε2 = 1, Z 1 1 4 1 IE(Y 2 Z 2 ) = IE(ε2 Y 4 ) = IE(Y 4 ) = y dy = 2 −1 5 Z 1 1 1 1 IE(Y 2 ) = y 2 dy = et IE(Z 2 ) = IE(ε2 Y 2 ) = IE(Y 2 ) = 2 −1 3 3 Si bien que IE(Y 2 Z 2 ) = 1 1 6= = IE(Y 2 )IE(Z 2 ). les variables Y et Z ne sont donc pas indépendantes. 5 9 Proposition 3.6.11. Soit X = (X1 , X2 , ..., Xd ) un vecteur aléatoire de dimension d de carré intégrtable. Si la suite de variables aléatoires réelles X1 , X2 , ..., Xd est indépendante, alors la matrice de dispersion de X est diagonale. La réciproque est fausse. Proposition 3.6.12. Si (X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp ) est une suite indépendantes de variables aléatoires, alors pour toutes applications boréliennes ϕ de IRn dans IRd1 et ψ de IRp dans IRd2 ;le couple de vecteurs aléatoires (ϕ(X1 , X2 , ..., Xn ), ψ(Y1 , Y2 , ..., Yp )) est indépendant. Preuve. • Considérons les vecteurs aléatoires X = (X1 , X2 , ..., Xn ) et Y = (Y1 , Y2 , ..., Yp ). Montrons que le couple de vecteurs aléatoires (X, Y ) est indépendnt. Comme (X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp ) est une suite indépendante, pour tous boréliens de IR,A1 , A2 , ..., An , on a IPX [A1 × A2 × ... × An ] = IP(X1 ,X2 ,...,Xn ) [A1 × A2 × ... × An ] = IP(X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp )[A1 × A2 × ... × An × IRp ] = IPX1 (A1 )....IPXn (An ) (Fubini) 30 CHAPTER 3. VECTEURS ALÉATOIRES Cequi prouve que IPX = IP(X1 ,X2 ,...,Xn ) = IPX1 ⊗ .... ⊗ IPXn . Par suite IP(X,Y ) = IP(X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp ) = IPX1 ⊗ .... ⊗ IPXn ⊗ IPY1 ⊗ .... ⊗ IPYp (Fubini) = IPX ⊗ IPY • Soient deux applications boréliennes positives f1 et f2 sur IRd1 et IRd2 respectivement. Comme f1 ◦ ϕ et f2 ◦ ψ sont des fonctions boréliennes positives, il vient IE[f1 (ϕ(X))f2 (ψ(Y ))] = IE[f1 (ϕ(X))]IE[f2 (ψ(Y ))] On déduit alors du critère des fonctions positives que la suite (ϕ(X), ψ(Y )) est indépendante. Remarque 3.6.13. Lorsque les vecteurs aléatoires X1 , ..., Xn sont indépendants, alors ∀m ∈ [[1, n]], ∀1 ≤ d1 < d2 < ... < dm ≤ n, les vecteurs (X1 , X2 , ..., Xd1 ), (Xd1 +1 , ...Xd2 ), ..., (Xdm−1 +1 , ...Xdm ) et (Xdm +1 , ...Xn ) sont indépendants. Proposition 3.6.14. Critère d’indépendance par les fonctions caractéristiques. Soit (X1 , X2 , ..., Xn ) une suite de vecteurs aléatoires dedimensions respectives d1 , d2 , ..., dn . Alors la suite (X1 , X2 , ..., Xn ) est indépendante si et seulement si, pour tout u1 ∈ IRd1 , ..., un ∈ IRdn , Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) = ΦX1 (u1 )...ΦXn (un ) i i h i h h Pn IE ei k=1 huk ,Xk i = IE eihu1 ,X1 i ...IE eihun ,Xn i Preuve. Supposons que les vecteurs aléatoires (X1 , X2 , ..., Xn ) sont indépendants. Alors pour tout u1 ∈ IRd1 , ..., un ∈ IRdn , en appliquant le critère des fonctions bornées avec f1 (X1 ) = eihu1 ,X1 i , ..., fn (Xn ) = eihun ,Xn i , on obtient ! k=n h Pn i Y Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) = IE ei k=1 huk ,Xk i = IE eihuk ,Xk i k=1 = k=n Y IE eihuk ,Xk i = ΦX1 (u1 )...ΦXn (un ). k=1 Réciproquement, si u1 ∈ IRd1 , ..., un ∈ IRdn et u = (u1 , ..., un ) ∈ IRd1 +...+dn . Soit X = (X1 , X2 , ..., Xn ) un vecteur aléatoire de dimension d1 + ... + dn de loi IPX , la condition Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) = ΦX1 (u1 )...ΦXn (un ) s’écrit en appliquant le théorème du transfert et celui de Fubini, Z Z ihu,xi e dIP(X1 ,X2 ,...,Xn ) (x) = eihu,xi d[IPX1 ⊗ ... ⊗ IPXn ] d1 +...+dn d1 +...+dn IR IR Ainsi IP(X1 ,X2 ,...,Xn ) et IPX1 ⊗ ... ⊗ IPXn ont les mêmes fonctions caractéristiques et par suite IP(X1 ,X2 ,...,Xn ) = IPX1 ⊗ ... ⊗ IPXn . 3.6.4 Loi et espérance conditionnelles On considère un couple (X, Y ) : Ω −→ IRd1 × IRd2 avec la densité pX,Y (x, y). On note pX (x) et pY (y) les densités marginales respectives de X et Y . Définition 3.6.15. Pour y ∈ IRd2 , on appelle densité conditionnelle de X sachant Y = y, la densité pX,y (x) donnée par la formule ( pX,Y (x,y) si pY (y) > 0 pY (y) pX,y (x) = pX (x) sinon 3.7. LOI BÉTA, GAMMA, DU CHI 2, DE STUDENT ET DE FISHER 31 Proposition 3.6.16. Les variables X et Y sont indépendantes si et seulement si la densité conditionnelle de X sachant Y = y ne dépend pas de y. Définition 3.6.17. Soit f : IRd1 ×IRd2 −→ IR telle que f (X, Y ) est intégrable. On appelle espérance conditionnelle de f (X, Y ) sachant Y et on note IE (f (X, Y )|Y ) la variable aléatoire Z IE (f (X, Y )|Y ) = ψ(Y ) où ψ(y) = f (x, y)pX,y (x)dx IRd1 Proposition 3.6.18. On suppose que f (X, Y ) est intégrable. Pour toute fonction g : IRd2 −→ IR telle que f (X, Y )g(Y ) est intégrable, la variable aléatoire IE (f (X, Y )|Y ) g(Y ) est intégrable et on a IE [IE (f (X, Y )|Y ) g(Y )] = IE (f (X, Y )g(Y )) . En outre, IE [IE (f (X, Y )|Y )] = IE (f (X, Y )). Enfin si f (X, Y ) est de carré intégrable, IE (f (X, Y )|Y ) l’est aussi et V ar [IE (f (X, Y )|Y )] ≤ V ar [f (X, Y )]. Exercise 3.6.19. Soit U et V deux variables aléatoires uniformes sur [0, 1] indépendantes et Y = U −V. 1. Calculer la loi du couple (U, Y ). 2. En déduire la loi marginale de Y . 3. Donner la loi conditionnelle de U sachant Y = y et calculer IE(U |Y ). 3.7 Loi béta, gamma, du chi 2, de Student et de Fisher Z Dans toute cette section, on note Γ la fonction gamma d’Euler: a > 0 7→ Γ(a) = On vérifie aisément que ∀a > 0 Γ(a + 1) = aΓ(a) et ∀n ∈ IN∗ Γ(n) = (n − 1)!. +∞ xa−1 e−x dx. 0 Loi gamma de paramètres a > 0 et θ > 0 La variable X suit la loi gamma de paramètres a > 0 et θ > 0 et on note X ∼ Γ(a, θ) si X possède la densité θa a−1 −θx pX (x) = x e I{x>0} Γ(a) Exemple: La loi exponentielle de paramètre θ est la loi Γ(1, θ). Loi béta de paramètres a > 0 et b > 0 La variable X suit la loi béta de paramètres a > 0 et b > 0 et on note X ∼ β(a, b) si X possède la densité Γ(a + b) a−1 x (1 − x)b−1 I{0<x<1} pX (x) = Γ(a)Γ(b) Exemple: La loi uniforme sur [0, 1] est la loi β(1, 1). Proposition 3.7.1. (i) Soit X1 , X2 , ..., Xn des variables aléatoires identiques identiquement distribuées (I.I.D) suivant la loi exponentielle de paramètre θ > 0 . Alors la loi de Sn = X1 + X2 + ... + Xn est la loi gamma de paramètre (n, θ): Γ(n, θ). X (ii) Soit X ∼ Γ(a, θ) et Y ∼ Γ(b, θ) indépendantes. Alors S = X + Y et Z = X+Y sont deux variables aléatoires indépendantes de loi respective Γ(a + b, θ) et β(a, b). Preuve. Exercice. 1. Faire la preuve du (i) et du (ii). Z 1 Γ(a)Γ(b) 2. Déduire du (ii) que z a−1 (1 − z)b−1 dz = . Γ(a + b) 0 32 CHAPTER 3. VECTEURS ALÉATOIRES Définition 3.7.2. I On appelle loi de Chi 2 à n degrés de liberté et on note χ2 (n), la loi de X12 + X22 + ... + Xn2 où X1 , X2 , ..., Xn sont n variables normales centrées réduites indépendantes. G I On appelle loi de Student de paramètre n et on note t(n), la loi de q où G ∼ N (0, 1) et Y n Y ∼ χ2 (n). Proposition 3.7.3. (i) La loi χ2 (n) est la loi Γ( n2 , 12 ) de densité pX (y) = y n 1 y 2 −1 e− 2 I{y>0} n 2 Γ( 2 ) n 2 (ii) La loi de Student t(n) est la loi de densité pX (t) = Preuve. Exercice. Γ( n+1 1 2 ) × n √ Γ( 2 ) nπ (1 + t2 ) n+1 2 n Chapter 4 Vecteurs aléatoires gaussiens 4.1 4.1.1 Définition, construction Définition Définition 4.1.1. Une variable aléatoire réelle de loi N (m, σ 2 ), où m est un réel et σ un réel positif ou nul, est dit gaussienne. Définition 4.1.2. On dit qu’un vecteur aléatoire X = (X1 , X2 , ..., Xd ) : Ω −→ IRd est un vecteur gaussien si toute combinaison linéaire de ses coordonnées est une variable aléatoire gaussienne réelle. C’est à dire si pour tous réels a1 , a2 , ..., ad , la variable aléatoire réelle a1 X1 +a2 X2 +...+ad Xd est une variable aléatoire gaussienne. Proposition 4.1.3. Soit (X1 , X2 , ..., Xd ) une suite de variable aléatoire réelle. Si le vecteur X = (X1 , X2 , ..., Xd ) est une vecteur gaussien de dimension d, alors pour tout k = 1, 2, ..., d Xk est une variable aléatoire réelle gaussienne. La réciproque est fausse. Preuve. Pour montrer que la réciproque est fausse, considérons le contre-exemple suivant: Soient Y ∼ N (0, 1) et Z = εY où ε est une variable aléatoire indépendante de Y telle que IP(ε = 1) = IP(ε = −1) = 21 . Déterminer la loi de Z et vérifier que IP(Y + Z = 0) = 12 . Conclure. Proposition 4.1.4. Soit (X1 , X2 , ..., Xd ) une suite indépendantes de variable aléatoire réelle. Si le vecteur X = (X1 , X2 , ..., Xd ) est une vecteur gaussien de dimension d si et seulment si pour tout k = 1, 2, ..., d Xk est une variable aléatoire réelle gaussienne. Preuve. (=⇒) Cela résulte de l adéfinition des vecteurs gaussiens. ( pas besoin de l’hypothèse d’indépendance). (⇐=) Si (X1 , X2 , ..., Xd ) est une suite indépendante de variable aléatoire réelle, alors pour tous réels a1 , a2 , ..., ad , la suite (a1 X1 , a2 X2 , ..., ad Xd ) est indépendante. De plus si la variable aléatoire réelle Xk ∼ N (mk , σk2 ), la variable aléatoire réelle ak Xk ∼ N (ak mk , a2k σk2 ). La variable aléatoire réelle a1 X1 + a2 X2 + ... + ad Xd est alors une une variable aléatoire réelle gaussienne comme somme de variables aléatoires réelles gaussiennes indépendantes. Proposition 4.1.5. Soit X un vecteur aléatoire de dimension d admettant une espérance m = (m1 , m2 , ..., md ) ∈ IRd et une matrice de dispersion D. Alors X est une vecteur gaussien si et seulement si, sa fonction caractéristique ΦX est donnée par , pour tout u ∈ IRd 1 ΦX (u) = exp ihu, mi − hu, D ui 2 34 CHAPTER 4. VECTEURS ALÉATOIRES GAUSSIENS Preuve. (=⇒) Posons X = (X1 , X2 , ..., Xd , u = (u1 , u2 , ..., ud ) et Y = u1 X1 + u2 X2 + ... + ud Xd . Comme X est un vecteur gaussien, la variable aléatoire réelle Y est de loi gaussienne, Y ∼ N (mY , σY2 ). De plus mY = IE(Y ) = u1 IE(X1 ) + u2 IE(X2 ) + ... + ud IE(Xd ) = hu, mY i et σY2 h i = IE (Y − mY )2 = IE (u1 (X1 − m1 ) + u2 (X2 − m2 ) + ... + ud (Xd − md ))2 [ X = ui uj IE [(Xi − mi )(Xj − mj )] 1≤i,j≤d = X ui uj Cov 0 Xi , Xj ) = hu, D ui 1≤i,j≤d Comme pour tout u ∈ IRd , i(u1 X1 +u2 X2 +...+ud Xd ) ΦX (u) = IE e On obtient 1 2 = IE(e ) = ΦY (1) = exp imY − σY 2 iY 1 ΦX (u) = exp ihu, mi − hu, D ui 2 (⇐=) Soit X = (X1 , X2 , ..., Xd ) un vecteur aléatoire quelconque de fonction caractéristique définie sur IRd par 1 ΦX (u) = exp ihu, mi − hu, D ui 2 Soit Y = a1 X1 + a2 X2 + ... + ad Xd une combinaison linéaire des composantes de X. Pour tout réel t ΦY (t) = IE(eitY ) = IE ei(ta1 X1 +ta2 X2 +...+tad Xd ) = ΦX (a1 t, a2 t, ..., ad t) 1 = exp iha, mi − t2 ha, D ai 2 où on a posé a = (a1 , a2 , ..., ad ). Ainsi pour tout n-uplet de réels (a1 , a2 , ..., ad ), la variable aléatoire réelle a1 X1 +a2 X2 +...+ad Xd est une la variable aléatoire réelle gaussienne de loi N (ha, mi, ha, D ai). X est bien un vecteur gaussien. 4.2 Loi d’un vecteur gaussien Proposition 4.2.1. Si m ∈ IRd et D est une matrice carré d’ordre d à coefficients réels, symétrique et de type positif, il existe un espace de probabilité (Ω, F, IP) et un vecteur gaussien de dimension d sur (Ω, F, IP) d’espérance m et de matrice de dispersion D. Définition 4.2.2. On appelle loi de Gauss-Laplace ou loi normale sur IRd de paramètres m et D, la loi de probabilité d’un vecteur gaussien de dimension d d’espérance m et de matrice de dispersion D. On note Nd (m, D). Proposition 4.2.3. Si X est un vecteur gaussien de dimension d, A une matrice rectangulaire k × d à coefficients réels et b un vecteur de dimension k. Alors le vecteur aléatoire Y = A X + b est un evecteur gaussien de dimension k. De plus si X ∼ Nd (m, D), la loi de Y est Nd (Am+b, ADA∗ ). 4.2. LOI D’UN VECTEUR GAUSSIEN 35 Proposition 4.2.4. Soit X = (X1 , X2 , ..., Xd ) un vecteur gaussien de dimension d. Alors la suite de variables aléatoires réelles (X1 , X2 , ..., Xd ) est indépendante si et seulement si la matrice de dispersion de X est diagonale. Proposition 4.2.5. Soient m ∈ IRd et D une matrice carrée d’ordre d à coefficients réels, symétrique et de type positif. Si D est inversible, alors X ∼ Nd (m, D) a pour densité sur IRd 1 1 ∗ −1 pX (x) = p exp − (x − m) D (x − m) 2 (2π)d det(D) Exemple 4.2.6. Soit (X, Y ) un couple √de variables aléatoires réells admettant pour densité 3 1 2 2 2 l’application définie sur IR par f (x, y) = exp − (x − xy + y ) . On vérifie que 4π 2 x x 1 − 12 −1 2 2 = (x, y)D (x − xy + y ) = (x, y) 1 −2 1 y y  où D =  4 3 2 3 2 3 4 3   est la matrice de dispersion du vecteur (X, Y ). On déduit que (X, Y ) est un vecteur gaussien de loi Nd (0, D). Aussi X et Y suivent la loi N1 (0, 34 ). Puisque D n’est pas diagonale, X et Y ne sont pas indépendantes. 36 CHAPTER 4. VECTEURS ALÉATOIRES GAUSSIENS Chapter 5 Convergence et théorèmes limites 5.1 Convergence Définition 5.1.1. Pour n −→ +∞, on dit qu’une suite (Xn )n≥1 de variables aléatoires à valeurs dans IRd converge vers la variable X à valeurs dans IRd : I Presque sûrement si IP (Xn −→ X) = IP ({ω : Xn (ω) −→ X(ω)}) = 1. C’est à dire les fonctions Xn (ω) définies sur Ω convergent ponctuellement sur un sous-ensemble de Ω de probabilité 1 vers la fonction X. I En probabilité si ∀ε > 0, IP (|Xn − X| ≥ ε) tend vers 0 quand n −→ +∞. I Dans L1 si les variables Xn , X sont intégrables et IE(|Xn −X|) tend vers 0 quand n −→ +∞. I Dans L2 ( ou en moyenne quadratique) si les variables Xn , X sont de carré intégrables et IE(|Xn − X|2 ) tend vers 0 quand n −→ +∞. Remarque 5.1.2. Soit (Xn )n≥1 une suite de variables aléatoires réelles qui converge dans L1 vers X. Alors lim IE(Xn ) = IE(X). En effet, comme Xn − X ≤ |Xn − X|, par linéaritét croissance de n−→+∞ l’espérance, IE(Xn ) − IE(X) = IE(Xn − X) ≤ IE|Xn − X|. De même, par symétrie IE(X) − IE(Xn ) = IE(X − Xn ) ≤ IE|X − Xn |. Ainsi |IE(Xn ) − IE(X)| ≤ IE|Xn − X|. Ce qui permet de conclure. Théorème 5.1.3. (convergenge dominée). Soit (Xn )n≥1 une suite de variables aléatoires réelles qui converge presque sûrement vers X. On suppose d eplus la suit est dominée au sen soù il existe un evariable aléatoire Y intégrable telle que ∀n ≥ 1, IP(|Xn | ≤ Y ) = 1. Alors X est intégrable et (Xn )n≥1 converge dans L1 vers X. Ce qui entraı̂ne en particulier que lim IE(Xn ) = IE(X). n−→+∞ Proposition 5.1.4. ( Quelques inégalités) Inégalité de Markov: Si IE|X| < +∞, alors ∀a > 0, IP(|X| ≥ a) ≤ IE|X| . a Inégalité de Bienaymé-Tchebychev: Si IE(X 2 ) < +∞, alors ∀a > 0, IP(|X − IE(X)| ≥ a) ≤ var(X) . a2 Inégalité de Cauchy-Schwarz: Si les variables X et Y sont de carré intégrable, alors p p |IE(XY )| ≤ IE(X 2 ) IE(Y 2 ). 38 CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES Preuve. • Inégalité de Markov: Comme ∀x ∈ IR, croissance de l’espérance, on obtient I{|x|≥a} ≤ |x| a , en utulisant la propriété de la |X| IP(|X| ≥ a) = IE I{|x|≥a} ≤ . a • Inégalité de Bienaymé-Tchebychev : Utiliser ∀x ∈ IR, I{|x|≥a} ≤ • Inégalité de Cauchy-Schwarz: Utiliser ∀λ ∈ IR, le polynôme x2 a2 et la même méthode. IE(X 2 ) + 2λIE(XY ) + λ2 IE(Y 2 ) = IE[(X + λY )2 ] ≥ 0 Son discriminant 4[IE(XY )]2 − 4IE(X 2 )IE(Y 2 ) ≤ 0. Ce qui donne le résultat. Proposition 5.1.5. I La convergence L2 implique la convergencze L1 qui elle-mˆme implique la convergence en probabilité. I Soit (Xn )n≥1 une suite de variables aléatoires réelles qui converge dans L2 vers X. Alors IE(Xn ),IE(Xn2 ) et V ar(Xn ) convergent respectivement vers IE(X),IE(X 2 ) et V ar(X). I la convergence presque-sûre entraı̂ne la convergence en probabilité. La réciproque n’est pas vraie. Preuve. Concergence L2 =⇒ convergence L1 : Toute variable de carré intégrable p est intégrable et V ar(Xn − X) = IE(|Xn − X|2 ) − [IE|Xn − X|]2 ≥ 0. Il vient IE|Xn − X| ≤ IE(|Xn − X|2 ). Ce qui donne le résultat. Concergence L1 =⇒ convergence en probabilité: Cela découle de l’inégalité de Markov, IP(|Xn − IE|Xn − X| X| ≥ ε) ≤ pour ε > 0. ε 2 2 Concergence L =⇒ convergence des espérances et variances: Il suffit p de vérifier p que IE(Xn ) con2 verge vers IE(X ). Par l’inégalité de Cauchy-Schwarz, IE(Xn X) ≤ IE(Xn2 ) IE(X 2 ). Donc p 2 p IE (Xn − X)2 = IE(Xn2 ) − 2IE(Xn X) + IE(X 2 ) ≥ IE(Xn2 ) − IE(X 2 ) p p Ainsi , IE(Xn2 ) converge vers IE(X 2 ) et on conclut en utilisant la continuité de x 7→ x2 . Concergence presque-sûre =⇒ convergence en probabilité: Soit (Xn )n≥1 une suite qui converge presque-sûrement vers X. Alors la suite |Xn − X| converge presque-sûrement vers 0. Pour tout ε > 0, la fonction I{|x|≥ε} est continue en 0. On déduit que Yn = I{|Xn −X|≥ε} converge presque-sûrement vers 0. Les variable Yn sont dominées par 1 qui e st intégrable. Donc Yn converge dans L1 vers 0. Comme IP(|Xn − X| ≥ ε) = IE I{|Xn −X|≥ε} , on a le résultat lim IP(|Xn − X| ≥ ε) = lim IE I{|Xn −X|≥ε} = 0. n−→+∞ 5.2 5.2.1 n−→+∞ Lois des grands nombres Loi faibles des grands nombres Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquement distribuées ( (I.I.D). Les lois des grands nombres portent sur le comportement de la moyenne empirique n 1X Xj lorque n −→ +∞. n j=1 Proposition 5.2.1. Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquen 1X ment distribuées ( (I.I.D) de carré intégrable. Alors la moyenne empirique Xj converge dans n j=1 L2 ( et donc dans L1 et en probabilité) vers l’espérance commune IE(X1 ). 5.3. FONCTION CARACTÉRISTIQUE ET CONVERGENCE EN LOI 39 Preuve. IE (X¯n − IE(X1 ))2 =   2  n n X 1 X IE Xj − IE  Xj   n2 j=1 = j=1 n 1 X V ar(Xj ) par indépendance des Xj n2 j=1 = 5.2.2 V ar(X1 ) −→n→+∞ 0 n Loi forte des grands nombres Théorème 5.2.2. Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquen 1X ment distribuées ( (I.I.D) intégrables. Alors la moyenne empirique Xj converge presquen j=1 sûrement et dans L1 vers l’espérance commune IE(X1 ). C’est à dire   n X 1 IP  Xj → IE(X1 ) = 1. n j=1 5.3 Fonction caractéristique et convergence en loi 5.3.1 Fonction caractéristique Définition 5.3.1. Soit X un vecteur aléatoire à valeurs dans IRd . On appelle fonction caractéristique de X, la fonction: ΦX : u ∈ IRd −→ ΦX (u) = IE eihu,Xi Remarque 5.3.2. I ΦX (0, 0..., 0) = 1. I ∀u ∈ IRd , ΦX (−u) = ΦX¯(u). I La fonction caractéristique de X Zn edépend que de la loi de X: L(X) = L(Y ) =⇒ ΦX ≡ ΦY . I Si ΦX est intégrable au sens où inversion de Fourier: IRd |ΦX (u)|du < +∞, alors X possède la densité obtenue par Z 1 e−ihu,xi ΦX (u)du (2π)d IRd x ∈ IRd −→ p(x) = I Fonctions caractéristiques des lois usuelles. Loi Fonction caractéristique Benoulli B(p) (1 − p) + peiu Binomiale B(n,p) [(1 − p) + peiu ]n peiu Géométrique G(p) 1−(1−p)eiu Poisson P(λ) exp λ(eiu − 1) Uniforme U[a, b] Exponentielle E(λ) Cauchy C(a) Gaussienne N1 (µ, σ 2 ) (b−a)u 2 (b−a)u 2 eiu (b+a) 2 λ λ−iu −a|u| e eiuµ− σ 2 u2 2 40 CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES Exercise 5.3.3. Faire le calcul explicite des ces fonctions caractéristiques. Exercise 5.3.4. Soit T une variable aléatoire exponentielle de paramètre a > 0 et ε une variable indépendante telle que IP(ε = 1) = IP(ε = −1) = 1/2. On pose X = εT 1. Déterminer la loi de X. 2. Calculer sa fonction caractéristique ΦX . 3. Appliquer la formule d’inversion de la précédente remarque, déduire la fonction caractéristique d’une variable aléatoire qui suit la loi de Cauchy C(a). n X 4. En déduire la loi de §n = Yj d’une suite (Yj )j≥1 de variables aléatoires I.I.D suivant la loi j=1 Cauchy C(a). 5.3.2 Convergence en loi Définition 5.3.5. On dit que la suite (Xn )n≥1 de variables aéatoires à valeurs dans IRd converge L en loi vers la variable aléatoire X à valeurs dans IRd et on note Xn − → X si ∀f : IRd → IR continue bornée IE(f (Xn ) −→n→+∞ IE(f (X)). Exemple 5.3.6. I Pour n ∈ IN∗ , on suppose que ∀1 ≤ k ≤ n, IP(Un = k/n) = 1/n. Soit f : IR → IR continue bornée. La convergence des sommes de Riemann vers l’intégrale entraine que Z 1 n 1X 1 IE(f (Un )) = f (u)du = IE(f (U )). f ( ) −→n→+∞ n n 0 k=1 où U est une variable uniforme sur [0, 1]. Ainsi la suite (Un )n≥1 converge en loi vers U ∼ U[0, 1]. I Pour n ∈ IN∗ , Xn est une variable aléatoire uniformément répartie sur [0, 1/n]. Alors pour tout f continue bornée, Z 1 n IE(f (Xn )) = n f (x)dx −→n→+∞ f (0). 0 Donc,la suite (Xn )n≥1 converge en loi vers X telle que IP(X = 0) = 1. δ0 la mesure de Dirac. I Pour n ∈ IN, soit Tn une variable aléatoire exponentielle de paramètre λn > 0. On suppose que la suite (λn )n converge vers λ > 0. Alors pour f : IR → IR continue bornée, ∀n ∈ IN, ∀x ≥ 0, |f (x)λn eλn x | ≤ g() = |f (x)|(sup λn )e(inf n −λn )x , n où la fonction g est intégrable sur [0, +∞[. Par le théorème de la convergence dominée, Z +∞ IE(f (Tn )) = f (x)λn e−λn x dx 0 Z converge vers +∞ f (x)λe−λ x dx = IE(f (T )) où T suit la loi exponentielle de paramètre λ > 0. 0 Ainsi (Tn )n converge vers T ∼ E(λ). Proposition 5.3.7. Soit (Xn )n une suite de variables aéatoires à valeurs dans IRd converge en loi vers X et ϕ : IRr → IRq une fonction continue. Alors la suite (ϕ(Xn ))n converge en loi vers ϕ(X). Preuve. Soit g : IRq →R continue bornée. La fonction g ◦ ϕ : IRd → IR est continue bornée. Doncla convergence en loi de (Xn )n≥1 vers X entraı̂ne que lim IE[g(ϕ(Xn ))] = IE[g(ϕ(X))] n→+∞ 5.3. FONCTION CARACTÉRISTIQUE ET CONVERGENCE EN LOI 41 d Théorème 5.3.8. La suite (Xn )n≥1 de variables aéatoires à valeurs dans IR converge en loi vers la variable aéatoire X à valeurs dans IRd si et seulement si la fonction caractéristique de Xn converge ponctuellement vers la la fonction caractéristique de X. C’st à dire L → X ⇐⇒ ∀u ∈ IRd , ΦXn (u) → ΦX (u) Xn − Corollaire 5.3.9. Si la suite (Xn )n≥1 converge en probabilité vers X, alors elle converge en loi vers X. Preuve. Soit u ∈ IRd et ε > 0. On a |ei∠u,Xn i − ei∠u,Xn i | = |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|≥ε} + |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|<ε} ≤ 2 × I{|Xn −X|≥ε} + |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|<ε} . Comme ∀a, b ∈ IR, |eia − eib | ≤ |b − a|, on déduit que |ei∠u,Xn i − ei∠u,Xn i | ≤ 2 × I{|Xn −X|≥ε} + |u|εI{|Xn −X|<ε} ≤ 2 × I{|Xn −X|≥ε} + |u|ε. Par suite |ΦXn (u) − ΦX (u)| = |IE ei∠u,Xn i − ei∠u,Xn i | ≤ IE ei∠u,Xn i − ei∠u,Xn i ≤ 2IP (|Xn − X| ≥ ε) + |u|ε. Uniformément en n, le second terme à gauche est arbitrairement petit tandis qu’à ε fixé le premier terme converge vers 0 quand n → +∞ ( dû à la convergence en probabilité). Ainsi, ∀u ∈ IRd , ΦXn (u) → ΦX (u). Proposition 5.3.10. Si la suite (Xn )n≥1 de variable aléatoires à valeurs dans IRd converge en loi vers la variable aléatoire X à valeurs dans IRd , alors IE (f (Xn )) −→n→+∞ IE (f (X)) pour toute fonction f : IRd −→ IR bornée dont l’ensemble des points de discontinuité D vérifie IP(X ∈ D) = 0. Remarque 5.3.11. Il ne suffit pas que la suite (Xn )n converge en loi vers X et que la suite (Yn )n converge en loi vers Y pour que la suite des couples (Xn , Yn )n converge en loi vers (X, Y ). En 1 exemple, soit Z la variable aléatoire telle IP(Z = −1) = IP(Z = 1) = et (Xn , Yn ) = (Z, (1)−n Z). 2 Alors la suite (Xn )n converge en loi vers Z. De même la suite (Yn )n converge en loi vers Z puisque L(−Z) = L(Z). Mais pour la fonction continue bornée f (x, y) = min(|x − y|, 2) sur IR2 , IE ((f (Xn , Yn )) = 0 2 si n est pair si n est impair Si bien que la suite (Xn , Yn )n ne converge pas en loi. Théorème 5.3.12. (Slutsky) Soit (Xn , Yn )n une suite de vecteurs aléatoires à valeurs dans IRd1 × IRd2 telle que (Xn )n converge en loi( ou en probabilité ou presque-sûrement) vers une constante a ∈ IRd1 et (Yn )n converge en loi vers Y . Alors (Xn , Yn )n converge en loi vers (a, Y ). En particulier lorque d1 = d2 = 1, (Xn Yn )n converge en loi vers aY et lorsque d1 = d2 , (Xn + Yn )n converge en loi vers a + Y . 42 CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES Preuve. Soit (u, v) ∈ IR d1 d2 × IR . h i |Φ(Xn ,Yn ) (u, v) − Φ(a,Y ) (u, v)| = |IE (eihu,Xn i − eihu,ai )eihv,Yn i + eihu,ai IE(eihv,Yn i − eihv,Y i | ≤ IE|eihu,Xn i − eihu,ai | + |ΦYn (v) − ΦY (v)| La convergence en loi de Yn vers Y entraı̂ne que le second terme tend vers 0 quand n → +∞. En outre la fonction x ∈ IRd1 7→ f (x) = |eihu,xi − eihu,ai | est continue et bornée. On déduit que le premier terme converge vers IE(f (a)) = 0. On conclut ainsi que (Xn , Yn )8n converge en loi vers (a, Y ). Les cas particuliers proviennent de la Proposition ?? en remarquant que (x, y) ∈ IR × IR 7→ xy et (x, y) ∈ IRd1 × IRd2 7→ x + y sont des fonctions continues. 5.4 Le théorème de la limite centrale Théorème 5.4.1. (T.C.L) Soit (Xj )j≥1 une suite de variables p aléatoires réelles indépendantes et identiquement distribuées 2 telles que IE(X1 ) < +∞ et σ = V ar(X) > 0. Alors n → +∞,   √ n n 1 X L Xj − IE(X1 ) − → N (0, 1). σ n j=1 Preuve. On note X̄n = Φ √n σ 1 n (X¯n −IE(X1 )) Pn j=1 Xj . Soit u ∈ IR, h i 1 Pn iu √ (X −IE(Xj )) (u) = IE e σ n j=1 j = n Y i h 1 X −IE(Xj )) iu √ par indépendance des Xj IE e σ n ( j j=1 in h 1 iu √ X −IE(X1 )) car les Xj ont même loi , IE e σ n ( 1 n u √ = ΦX1 −IE(X1 ) . σ n = Comme IE(X1 − IE(X1 )) = 0 et IE((X1 − IE(X1 ))2 ) = σ 2 , pour v au voisinage de 0, on a ΦX1 −IE(X1 ) (v) = 1 − σ2 2 v + o(v 2 ). 2 Donc pour n grand, ΦX1 −IE(X1 ) Par suite Φ √ n σ u √ σ n =1− u2 1 + o( ) 2n n n 2 u2 1 − u2 (u) = 1 − + o( ) → e = ΦY (u). n→+∞ ¯ (Xn −IE(X1 )) 2n n

Cours de probabilités avancées

Products

Support

Cours de probabilités avancées

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib