Uploaded by Raymond Kouamé

probaavancee L3

advertisement
cours de probabilitées avancées
A. Elouaflin11
1. UFR Maths-Info, Université de Cocody, 22 BP 582 Abidjan, Côte d’Ivoire
February 16, 2023
1
e-mail: elabouo@yahoo.fr
2
Chapter 1
Espace de probabilité fini
1.1
1.1.1
Notions fondamentales
Probabilité sur un espace fini, événements
On s’interesse à une expérience alátoire qui conduit à la réalisation d’un seul résultat parmi un
nombre fini de résultats possibles ω1 , ω2 , ..., ωn . On note Ω = {ω1 , ω2 , ..., ωn } l’ensemble de ces
résultats.
Définition 1.1.1. Une probabilité IP sur Ω = {ω1 , ω2 , ..., ωn } est une famille (p1 , p2 , ..., pn ) de réels
vérifiants
∀
1 ≤ k ≤ n,
0 ≤ pk ≤ 1, et
n
X
pk = 1
k=1
On attribue à tout événement A ⊂ Ω, le nombre IP(A) =
X
pk qui est appelé probabilité de
k: ωk ∈A
l’événement A.
Exemple 1.1.2. Jet de deux dés à six faces: Ω = {(i, j) : 1 ≤ i, j ≤ 6} où i désigne la valeur de la
face supérieure du premier dé et j celle du second. Les dés ne sont pas pipés. On munit Ω de la
1
pondération suivantes: ∀ 1 ≤ i, j ≤ 6, p(i,j) = .
36
Soit A l’événement: les valeurs des deus dés sont identiques. On a A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}
6
X
6
1
et IP(A) =
p(i,i) =
= .
36
6
i=1
On note S la somme des deux dés et {S = k} l’événement {(i, j) : S(i, j) = k}. On a S(i, j) = i + j.
Calculer IP(S = k) pour k = 2, ..., 12.
Terminologie concernant les événements
J
J
J
J
J
Si IP(A) = 0, l’événement A est dit négligeable.
Si IP(A) = 1, l’événement A est dit presque sûr.
On appelle événement contraire de A et on note Ac l’événement Ω\A.
Si A, B ⊂ Ω, l’événement A et B ( réalisé lorsque A et B le sont) est noté A ∩ B.
L’événement A ou B ( réalisé lorsque A ou B le sont) est noté A ∪ B.
Probabilité des événements ∅, Ω, Ac , A ⊂ B et A ∪ B
4
J
J
J
J
CHAPTER 1. ESPACE DE PROBABILITÉ FINI
IP(∅) = 0.
IP(Ω) = 1.
IP(Ac ) = 1 − IP(A) vu que A ∪ Ac = Ω et A ∩ Ac = ∅. Donc 1 = IP(Ω) = IP(A) + IP(Ac ).
Si A ⊂ B, on note B\A = B ∩ Ac . Alors B = A ∪ (B\A) avec A ∩ (B\A) = ∅. D’où
IP(B\A) = IP(B) − IP(A)
c
J A ∪ B = (A ∩ B ) ∪ (A ∩ B) ∪ (Ac ∩ B) = (A\A ∩ B) ∪ (A ∩ B) ∪ (B\A ∩ B). Ces ensembles
étants deux à deux disjoints, on obtient donc,
IP(A∪B) = IP(A\A∩B))+IP(A∩B)+IP(B\A∩B) = IP(A)−IP(A∩B)+IP(A∩B)+IP(B)−IP(A∩B).
Ainsi,
IP((A ∪ B) = IP(A) + IP(B) − IP(A ∩ B)
Fonction indicatrice
On appelle fonction indicatrice de l’événement A la fonction IA : Ω → {0, 1} définie par
1 si ω ∈ A
∀ω ∈ Ω, IA (ω) =
0 sinon
Exercise 1.1.3. Montrer que IA∩B = IA .IB ; IAc = 1 − IA et IA∪B = IA + IB − IA∩B .
1.1.2
Probabilités uniformes
Dans le cas particulier où tous les résultats possibles jouent le même rôle, ces résultats doivent
1
avoir la même pondération
. On dit alors qu’ils sont équiprobables. Pour tout événement
card(Ω)
A ⊂ Ω, on a
X
Card(A)
1
=
IP(A) =
card(Ω)
card(Ω)
k,ωk ∈A
Cette probabilité s’appelle probabilité uniforme sur Ω.
Exemple 1.1.4. Dans le cas du jet de deux dés non pipés, Ω = {(i, j) : 1 ≤ i, j ≤ 6} est muni de
la probabilité uniforme.
Remarque 1.1.5. Si on s’interesse à la somme des deux dés, on peut choisir Ω = {2, 3, 4, ..., 12},
ensemble des valeurs prises par cette somme. Mais fautes de propriétés de symétrie, on ne sait pas
munir cet espace d’une probabilité naturelle.
En travaillant sur l’espace plus gros {(i, j) : 1 ≤ i, j ≤ 6} des couples des valeurs des deux dés muni
de la probabilité uniforme, on construit une pondération naturelle sur le svaleurs de lka somme des
deux dés. Cette pondération n’a rien d’uniforme.
Le choix de l’espace de probabilité sur lequel on travaille est très important.
Dans le cas des probabilités uniformes, les calculs se ramènent à du dénombrement.
Rappels de dénombrement
On se donne n, k ∈ IN∗ avec k ≤ n.
J Le nombre de permutations d’un ensemble à n éléments est n!.
J Le nombre d’injections d’un ensemble à k éléments dans un ensembles à n éléments est
Akn =
n!
(n − k)!
J Le nombre de parties à k éléments d’un ensemble à n éléments est
Cnk =
n!
k!(n − k)!
1.2. PROBABILITÉ CONDITIONNELLE ET INDÉPENDANCE
5
Exercise 1.1.6. Dans une classe de n ≤ 365 élèves, quelle est la probabilité de l’événement A:
deux élèves au moins sont nés le même jour.
1.2
1.2.1
Probabilité conditionnelle et indépendance
Probabilité conditionnelle
Définition 1.2.1. Soit Ω muni d’une probabilité IP et A, B ⊂ Ω.La probabilité conditionnelle de
l’événement A sachant l’événement B est notée IP(A|B) et est d’éfinie par

IP(A∩B)

 IP(B) si IP(B) > 0
IP(A|B) =


IP(A) sinon
Exercise 1.2.2. 1. Dans une famille qui comporte deux enfants, l’un est une fille. On cherche la
probabilité que l’autre soit un garçon.
2. On suppose maintenant que l’aı̂né des enfants est une fille. Quelle est la probabilité que l’autre
soit un garçon.
Exercise 1.2.3. Parmi 10 pièces mécaniques, 4 sont défectueuses. on prend successivement deux
pièces au hasard dans le lot sans remise. quelle est la probabilité pour que les deux pièces soient
correctes.
Remarque 1.2.4. De façon naturelle, on peut utiliser la définition sous la forme IP(A ∩ B) =
IP(A|B)IP(B). Ce qui se généralise en IP(A1 ∩A2 ∩...∩Am ) = IP(Am |A1 ∩A2 ∩...∩Am−1 ).IP(Am−1 |A1 ∩
A2 ∩ ... ∩ Am−2 )....IP(A2 |A1 )IP(A1 )
Proposition 1.2.5. ( Formule de Bayes). Soient B1 , ..., Bm une partition de Ω ( i.e des sousensembles disjoints de Ω dont la réunion est ω) et A ⊂ Ω tel que IP(A) > 0. Alors pour tout
1 ≤ i ≤ m,
IP(A|Bi )IP(Bi )
IP(Bi |A) = Pm
j=1 IP(A|Bj )IP(Bj )
Exercise 1.2.6. Pour dépister une maladie, on applique un test sanguin. Si le patient est atteint,
le test donne un résultat positif dans 99 pour cent des cas. Mais le test est également positif pour
2 pour cent des personnes en bonne santé. La proportion de personnes malades dan sl apopulation
soumise au test est de 10−3 . calculer la probabilité pour qu’un patient soit en bonne santé sachant
que le résultat de son test est positif.
1.2.2
Indépendance
Définition 1.2.7. Soit Ω muni d’une probabilité IP. Deux événements A et B sont dits indépendants
si
IP(A ∩ B) = IP(A)IP(B)
ou encore IP(A|B) = IP(A) ou IP(B|A) = IP(B).
Définition 1.2.8. m événements A1 , ..., Am sont dits indépendants si
!
\
Y
∀I ⊂ {1, ..., m}, IP
Ai =
IP(Ai )
i∈I
i∈I
6
CHAPTER 1. ESPACE DE PROBABILITÉ FINI
Q
Remarque 1.2.9. I Il ne suffit pas que IP(A1 ∩ A2 ∩ ... ∩ Am ) = m
i=1 IP(Ai ) pour que les événements
soient indépendants.
I Pour que 3 événements soient indépendants, il ne suffit pas qu’ils soient 2 à 2 indépendants.
En effet pour le jet de deux pièces à Pile ou Face: Ω = {P P, P F, F P, F F } où P F signifie que la
première pièce donne Pile et la seconde Face. On muni cet espace de la probabilité uniforme. On
considère les événements A : première pièce donne Pile , B : deuxième pièce donne Face et C les
deux pièces donnent le même résultat.
On a
A = {P P, P F }; B = {P F, F F }; C = {P P, F F }; A ∩ B = {P F }; A ∩ C = {P P }; B ∩ C = {F F };
1
1
A ∩ B ∩ C = ∅. IP(A) = IP(B) = IP(C) = ; IP(A ∩ B) = = IP(A)IP(B);
2
4
1
1
IP(A ∩ C) = = IP(A)IP(C); IP(B ∩ C) = = IP(B)IP(C).
4
4
Mais IP(A ∩ B ∩ C) = 0 6= IP(A)IP(B)IP(C). Les événements A, B et C sont 2 à 2 indépendants
mais pas indépendants.
Chapter 2
Variables aléatoires discrètes
2.1
Espace de probabilité
Définition 2.1.1. Une tribu A sur Ω est une classe de parties de Ω qui vérifie les trois propriétés
suivantes:
i). ∅, Ω ∈ A.
ii). A ∈ A ⇒ Ac ∈ A.
T
S
iii). Si (Ai )i∈I est une famille dénombrable d’éléments de A, alors i∈I Ai et i∈I Ai sont dans A.
Les éléments de A sont appélés événements.
Exemple 2.1.2. J {∅, Ω} est la plus petite tribu sur Ω. On l’appelle tribu grossière.
J P(Ω) est la plus grosse tribu sur Ω. on l’appelle la tribu discrète.
J Si A ⊂ Ω, {∅, A, Ac , Ω} est une tribu sur Ω.
Définition 2.1.3. Soit Ω muni d’une tribu A. on appelle probabilité sur (Ω, A est une application
IP : A −→ [0, 1] qui vérifie
i). IP(Ω) = 1
ii). (la σ-additivité): Si (Ai )i∈I est une famille dénombrable d’éléments de A deux à deux disjoints
( ∀i 6= j ∈ I, Ai ∩ Aj = ∅), alors
!
[
X
IP
Ai =
IP(Ai ).
i∈I
i∈I
Le triplet (Ω, A, IP) s’appelle espace de probabilité.
2.2
2.2.1
Variables aléatoires discrètes
Famille sommable
Dans toute cette section, I désigne un ensemble dénombrable.
Notations
S
Soit Ω un ensemble, ATn ⊂ Ω et f : Ω −→ IR. On écrit An ↑ A si An ⊂ An+1 et A = An ; An ↓ A
si An ⊃ An+1 et A = An ; fn ↑ f si fn ≤ fn+1 et f = sup fn ; fn ↓ f si fn ≥ fn+1 et f = inf fn ;
Enumération
On appelle énumération de I toute bijection φ de IN sur I. Soient (ai , i ∈ I) une famille de nombres
réels ou complexes et φ une énumération de I. On pose
Snφ = aφ(0) + aφ(1) + ... + aφ(n)
8
CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES
Famille sommable positive
¯ +.
On suppose que pour tout i ∈ I, ai ≥ 0. Alors la suite Snφ est croissante et S φ = lim ↑ Snφ ∈ IR
Si ψ est une autre énumération de I, on a, pour n fixé et m assez frand,
{aφ(0) , aφ(1) , ..., aφ(n) } ⊂ {aψ(0) , aψ(1) , ..., aψ(m) }.
ψ
Ainsi Snφ ≤ Sm
≤ S ψ . D’où S φ ≤ S ψ . En changeant le rôle de φ et ψ, on obtient également
ψ
φ
S ≤ S et finalement S φ = S ψ .
Théorème 2.2.1. Soit (ai , i ∈ I) une famille de nombre réels positifs. Alors, pour toute énumération
¯ + indépendant de φ. On note
φ deX
I, la suite Snφ converge en croissant vers un nombre S ∈ IR
S=
ai . Si S < +∞, la famille est dite sommable.
i∈I
Proposition 2.2.2. (i) Si In ↑ I, In fini;
X
ai ↑
X
ai .
i∈I
i∈In
P
i∈I ai , il existe J ⊂ I, J fini tel que
(ii) Pour tout A <
X
ai > A.
i∈J
(iii) Si 0 ≤ ai ≤ bi ;
X
ai ≤
i∈I
(iv) Pour α ≥ 0,
β ≥ 0,
X
bi .
i∈I
ai ≥ 0,
bi ≥ 0, on a
X
(αai + βbi ) = α
i∈I
X
ai + β
i∈I
X
bi
i∈I
Proposition 2.2.3. (Passage à la limite croissante).
Soit pour tout n ∈ IN, (ai (n), i ∈ I) une famille de nombre réels positifs. On suppose que, pour
tout i ∈ I, ai (n) ↑ ai lorsque n −→ +∞. Alors
X
ai (n) ↑
i∈I
X
ai
i∈I
Proposition 2.2.4. (Sommation par paquets).
Soient (ai , i ∈ I) une famille S
de nombre réels positifs et (Ij , j ∈ J) une partition de I. ( les Ij sont
deus à deux disjoints et I = j∈J Ij ). On a
X
ai =
i∈I
XX
ai
j∈J i∈Ij
Définition 2.2.5. (cas général).
X
Une famille (ai , i ∈ I) de nombre réels ou complexes est dit sommable si
|ai | < +∞.
i∈I
Proposition 2.2.6. Soit (ai , i ∈ I) une famille sommable de nombre réels ou complexes. X
(i) Pour toute énumération φ de I, Snφ converge vers S indépendant de φ. On note S =
ai et
i∈I
on a |
X
i∈I
ai | ≤
X
|ai |.
i∈I
(ii) Soit (Ij , j ∈ J) une partition de I. on a
X
i∈I
ai =
XX
ai .
j∈J i∈Ij
(iii) Soit (bi , i ∈ I) une autre famille de nombre
réels ou complexes
β réels ou complexes. La
X
X et α,X
famille (αai + βbi , i ∈ I) est sommable et
(αai + βbi ) = α
ai + β
bi
i∈I
i∈I
i∈I
2.2. VARIABLES ALÉATOIRES DISCRÈTES
2.2.2
9
Espace de probabilité discret
Définition 2.2.7. Soit E un ensemble dénombrable. Une probabilité IP sur E est une famille
(p(a), a ∈ E) de réels vérifiants
X
0 ≤ p(a) ≤ 1, et
p(a) = 1
a∈E=1
On attribue à tout événement A ⊂ E, le nombre IP(A) =
X
p(a) qui est appelé probabilité de
a∈A
l’événement A.
Proposition 2.2.8. IP est une application de P(E) dans [0, 1] qui vérifie:
(i) IP(E) = 1.
(ii) (A ∪ B) = IP(A) + IP(B) si A ∩ B = ∅.
(iii) IP(An ) ↑ IP(A) si An ↑ A.
(iv) Pour toute famille (An , n ∈ IN) de sous-ensembles de E deux à deux disjoints,
[
X
IP(
An ) =
IP(An )
n∈IN
n∈IN
.
Preuve. Exercice.
2.2.3
Définition
Définition 2.2.9. On appelle variable aléatoire discrète une application X : Ω −→ F où F est un
ensemble dénombrable (F est égal IN ou IZ ou à une partie de IZ. Pour x ∈ F , on note {X = x}
l’éveément {ω : X(ω) = x}. La famille des nombres (IP(X = x))x∈F s’appelle la loi de X.
Exemple 2.2.10. J Dans le cas du jet de dés, la somme S des deux dés est une variable aléatoire
discrète à valeurs dans F = {2, 3, 4, ..., 12}}.
J Soit A ⊂ Ω un événement. Sa fonction indicatrice IA définie par
1 si ω ∈ A
∀ω ∈ Ω, IA (ω) =
0 sinon
est une variable aléatoire discrète de loi:
IP(IA = 1) = IP(A) et IP(IA = 0) = 1 − IP(A).
2.2.4
Indépendance
Définition 2.2.11. J Deux variables aléatoires discrètes X et Y à valeurs respectivement dans F
et G sont dits indépendantes si
∀x ∈ F, ∀y ∈ G,
IP(X = x, Y = y) = IP(X = x).IP(Y = y).
J n variables aléatoires discrètes X1 , X2 , ...., Xn à valeurs respectivement dans F1 , F2 , ..., Fn sont
dits indépendantes si
∀x1 ∈ F1 , ..., ∀xn ∈ Fn ,
IP(X1 = x1 , ..., Xn = xn ) =
n
Y
IP(X = xi ).
i=1
J une famille quelconque de variables aléatoires discrètes est dite indépendante si tout sousfamille finie est indépendante.
10
CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES
Exemple 2.2.12. Jet de 2 dés: Ω = {(i, j);q uad1 ≤ i, j ≤ 6} muni de la probabilité uniforme.
Soit X1 la valeur du premier dé et X2 celle du second. On a X1 (i, j) = i et X2 (i, j) = j et
∀1 ≤ i ≤ 6
IP(X1 = i) = IP(X2 = i) =
Comme
∀1 ≤ i, j ≤ 6
IP(X1 = i, X2 = j) =
1
6
11
1
=
= IP(X1 = i)IP(X2 = j),
36
66
les variables X1 et X2 sont indépendantes.
Remarque 2.2.13. J Si les variables aléatoires discrètes X1 , ..., Xn sont indépendantes, pour 1 ≤
d < n, les deux variables aléatoires discrètes (X1 , ..., Xd ) et (Xd+1 , ..., Xn ) sont indépendantes.
J Ce résultat se généralise de l afaçon suivante: ∀m ∈ {1, ..., n−1}, ∀1 ≤ d1 < d2 < ... < dm < n, les
variables aléatoires discrètes (X1 , ..., Xd1 ), (Xd1 +1 , ..., Xd2 ) (Xdm −1 , ..., Xdm ) et (Xdm +1 , ..., Xn )
sont indépendantes.
2.2.5
Loi marginale
Soit X une variable aléatoire discrète à valeurs dans F et Y une variable aléatoire discrète à valeurs
dans G. Comme le produit de deux ensembles dénombrables est dénombrable, (X, Y ) est une une
variable aléatoire discrète à valeurs dans F × G. mai sla connaissance de l aloi de X et d el aloi
de Y ne suffit pas pour connaı̂tre la loi de (X, Y ). Il faut rajouter de l’information comme par
exemple le caractère indépendant pour obtenir la loi du couple.
Exemple 2.2.14. Si X suit une loi de Bernouli B(1/2). Alors, Y = 1 − X suit la même loi
de Bernoulli B(1/2). On note L(X) = L(Y ). En considérant les couples (X, X) et (X, Y ), les
premières coordonnées ont même loi que les secondes coordonnées. Mais
IP ((X, Y ) = (1, 0)) = IP(X = 1) =
1
6= 0 = IP ((X, X) = (1, 0))
2
En revanche, si l’on connaı̂t la loi du couple discrèt (X, Y ), on en déduit la loi de X et celle de
Y par la formule dite de loi marginale.
Proposition 2.2.15. Soit (X, Y ) un couple discrèt à valeurs dans F × G. Alors
X
∀x ∈ F, IP(X = x) =
IP(X = x, Y = y).
y∈G
On somme sur les valeurs prises par la variable Y dont on souhaite se débarrasser.
[
Preuve. Il suffit de remarquer que {X = x} =
{X = x, Y = y} est une réunion disjointe de
y∈G
famille dénombrable et d’utiliser la σ-additivité.
2.2.6
Espérance et Variance
Espérance
Définition 2.2.16. Soit
X X : Ω −→ F ⊂ IR une variable aléatoire discrète à valeurs réelles. Elle
est dite intégrable si
|x|IP(X = x) < ∞. Dans ce cas, on définit son espérance IE(X) par
x∈F
IE(X) =
X
x∈F
xIP(X = x)
2.2. VARIABLES ALÉATOIRES DISCRÈTES
11
Remarque 2.2.17. I L’intégrabilité et l’espérance d’une variable aléatoire ne dépendent que de sa
loi: L(X) = L(Y ) ⇒ IE(X) = IE(Y ).
I X est intégrable si et seulement si |X| l’est et dans ce cas, |IE(X)| ≤ IE(|X|).
I L’espérance d’une constante est égale à cette constante.
I Soit A un événement. On a IE(IA ) = IP(A)
Proposition 2.2.18. 1. Linéarité Si X et Y sont deux variables aléatoires discrètes à valeurs
réelles intégrables et λ ∈ IR, alorsX + λY est intégrable et IE(X + λY ) = IE(X) + λIE(Y ).
2. Condition suffisante d’intégrabilité Si X et Y sont deux variables aléatoires discrètes à
valeurs réelles telles que IP(|X| ≤ |Y |) = 1 et Y est intégrable, alors X l’est aussi.
3. Positivité Si X est une variable aléatoire discrète à valeurs réelles intégrable et presque
sûrement positive au sens où IP(X ≥ 0) = 1, alors IE(X) ≥ 0 et IE(X) = 0 ⇒ IP(X = 0) = 1.
4. Si X et Y sont deux variables aléatoires discrètes à valeurs réelles intégrables telles que
IP(X ≥ Y ) = 1, alors IE(X) ≥ IE(Y ).
Preuve. Exercice
Théorème 2.2.19. Soit X : Ω −→ F ⊂ IR uneX
variable aléatoire discrète et f : F −→ IR. Alors
la variable f (X) est intégrable si et seulment si
|f (x)|IP(X = x) < +∞ et alors
x∈F
IE(f (X)) =
X
f (x)IP(X = x)
x∈F
Proposition 2.2.20. Soient X et Y sont deux variables aléatoires discrètes à valeurs respectivement dans F et G.
1. Si X et Y sont indépendantes alors pour toutes fonctions f : F −→ IR et g : G −→ IR telles que
f (X) et g(Y ) sont intégrables, alors f (X)g(Y ) est intégrable et IE (f (X)g(Y )) = IE(f (X))IE(g(Y )).
2. Inversement, si pour toutes fonctions f : F −→ IR et g : G −→ IR bornées, IE (f (X)g(Y )) =
IE(f (X))IE(g(Y )), alors X et Y sont indépendantes.
Preuve. Exercice
Variance
Définition 2.2.21. Soit X : Ω −→ F ⊂ IR une variable aléatoire discrète à valeurs réelles. Soit
p ∈ IN∗ .
p ) s’appelle le moment absolu d’ordre p de X et IE(X p ) le
1. Si IE(|X|p ) < +∞, alors IE(|X|
X
moment d’ordre p de X. On a
|x|p IP(X = x).
x∈F
2. Si IE(X 2 ) < +∞, on définit la variance de X par
h
i
V ar(X) = IE (X − IE(X))2
3. La racine carrée de la variance est appelée écart-type.
La variance et l’écart-type mesurent l’étalement de la variable X autour de son espérance: plus ils
sont grands et plus X est étalée.
Exercise 2.2.22. 1. Montrer que V ar(X) = IE(X 2 ) − (IE(X))2 .
2. ∀a, b ∈ IR, V ar(aX + b) = a2 V ar(X).
Proposition 2.2.23. Soit X1 , ..., Xn des variables aléatoires de carré intégrables. Alors X1 + ... +
n
X
Xn est de carré intégrable et si les Xi sont indṕendantes, alors V ar(X1 + ... + Xn ) =
var(Xi )
i=1
12
CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES
)2
Preuve. On a (X1 + ... + Xn ≤ n(X12 + ... + Xn2 ). On déduit que X1 + ... + Xn est d ecarré
intégrable. Par linéarité de l’espérance,

V ar(X1 + ... + Xn ) = IE 
n
X
!2 
(Xi − IE(Xi ))

i=1

= IE 
n
X

(Xi − IE(Xi ))(Xj − IE(Xj ))
i,j=1
Si Y et Z sont deux variables de carré intégrable, comme |Y Z| ≤ (Y 2 + Z 2 )/2, leur produit Y Z
est intégrable. Donc chaque terme (Xi − IE(Xi ))(Xj − IE(Xj )) est intǵrable et par linéarité de
l’espérance,
V ar(X1 + ... + Xn ) =
n
X
V ar(Xi ) +
i=1
n
n
X
X
IE ((Xi − IE(Xi ))(Xj − IE(Xj )))
i=1 i6=j, j=1
Par indépendance des variables X1 , ..., Xn , on a pour i 6= j IE ((Xi − IE(Xi ))(Xj − IE(Xj ))) = 0.
La preuve est complète.
2.3
Lois usuelles
Loi binomiale
Soit n ∈ IN∗ , C’est la loi d’une variable aléatoire à valeurs dans {0, 1, ..., n} telle que
IP(X = k) = Cnk pk (1 − p)n−k ,
k = 0, 1, ..., n;
0 < p < 1.
Elle est appelée loi binomiale de paramètre n, p et notée B(n, p). On écrit X ∼ B(n, p). En
particulier si X ∼ B(1, p), on dit que X est une variable aléatoire de Bernoulli.
IE(X) =
X
kIP(X = k) =
k≥0
= np
n
X
kCnk pk (1 − p)n−k = np
k=0
n−1
X
n
X
k=0
(n − 1)!
pk−1 (1 − p)n−k
(k − 1)!(n − k)!
i
Cn−1
pi (1 − p)n−1−i = np(p + (1 − p))n−1 = np
i=0
2
IE(X ) =
X
2
k IP(X = k) =
k≥0
= n(n − 1)p2
= n(n − 1)p2
n
X
k(k −
1)Cnk pk (1
k=2
n
X
k=2
n−2
X
− p)
n−k
+
n
X
kIP(X = k)
k=1
(n − 2)!
pk−2 (1 − p)n−k + np
(k − 2)!(n − k)!
i
Cn−2
pi (1 − p)n−2−i + np = n(n − 1)p2 + np.
i=0
On a alors V ar(X) = n(n − 1)p2 + np − (np)2 = np(1 − p).
2.3. LOIS USUELLES
13
Loi de Poisson
C’est la loi d’une variable aléatoire à valeurs dans IN telle que
IP(X = k) = e−λ
λk
,
k!
k ∈ IN;
λ > 0.
Elle est appelée loi de Poisson de paramètre λ et se note P(λ). On écrit X ∼ P(λ).
X
IE(X) =
kIP(X = k) =
k≥0
X
2
IE(X ) =
∞
X
ke
k=0
2
k IP(X = k) =
k≥0
∞
X
∞
X
λk−1
= λe
=λ
k!
(k − 1)!
k
−λ λ
λ
k=0
k(k − 1)e
k
−λ λ
k=2
= λ2 e−λ
k!
+
∞
X
kIP(X = k)
k=0
∞
X
λk−2
= λ2 + λ
(k − 2)!
k=2
On a alors V ar(X) = λ2 + λ − λ2 = λ.
Loi géométrique
C’est la loi d’une variable aléatoire à valeurs dans IN telle que
k ∈ IN∗ ;
IP(X = k) = (1 − p)k−1 p,
0 < p < 1.
Elle est appelée loi géométrique de paramètre p et se note G(p). On écrit X ∼ G(p). C’est la loi du
temps du premier succès dans une suite d’expériences aléatoires indépendantes où la probabilité de
succès est p.
IE(X) =
X
kIP(X = k) =
k≥0
= p
IE(X 2 ) =
X
k(1 − p)k−1 p = p
k=1
1
1−x
0
=
|(x=1−p)
k 2 IP(X = k) =
k≥0
= p(1 − p)
= p(1 − p)
∞
X
∞
X
!0
xk
|(x=1−p)
1
p
k(k − 1)(1 − p)k−1 p +
k
+
|(x=1−p)
∞
X
kIP(X = k)
k=0
!00
x
∞
X
k=0
k=2
k=0
On a alors V ar(X) =
∞
X
1
p
2
1
2
1
2(1 − p) 1
+ = p(1 − p) 3 + =
+
3
(1 − x) |(x=1−p) p
p
p
p2
p
2(1 − p) 1
1
1−p
+ − 2 =
2
p
p p
p2
14
CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES
2.4
Fonction génératrice des variables aléatoires entières
Définition 2.4.1. Soit X : Ω −→ IN une variable aléatoire discrète à valeurs enitières. On appelle
fonction génératrice de X la fonction gX : [0, 1] −→ IR définie par
X
gX (s) = IE(sX ) =
sn IP(X = n).
n∈IN
Comme
X
X
IP(X = n) < +∞, l asérie entière
n∈IN
convergence inférieur ou égal à 1, est C ∞ sur [0, 1].
sn IP(X = n) = gX (s) a un rayon de
n∈IN
Proposition 2.4.2. La fonction génératrice gX détermine la loi de X. En fait
IP(X = n) =
1 (n)
g (0)
n! X
Exemple 2.4.3. a. Loi Binomiale B(n, p). On a
gX (s) =
X
n
s IP(X = k) =
k∈IN
n
X
Cnk pk sk (1 − p)n−k = (ps + (1 − p))n .
k=0
b. Loi de Poisson P(λ). On a
gX (s) =
X
sn IP(X = k) = e−λ
k∈IN
X λk sk
k≥0
k!
= eλ(s−1) .
b. Loi géométrique G(p). On a
gX (s) =
X
k∈IN
n
s IP(X = k) =
∗
X
(1−p)
k−1
k
ps = ps
k>0
X
k>0
k−1
((1−p)s)
= ps
∞
X
((1−p)s)l =
l=0
ps
.
1 − (1 − p)s
Proposition 2.4.4. i). IE(X) < +∞ si et seulement si gX est dérivable à gauche en 1, et dans ce
0 (1).
cas, on a IE(X) = gX
ii). IE(X 2 ) < +∞ si et seulement si gX est deux fois dérivable à gauche en 1, et dans ce cas, on a
” (1).
IE(X(X − 1)) = gX
Preuve. (i). On a
X
gX (s) − gX (1) X
sk − 1 X
=
IP(X = k)
=
IP(X = k)(1+...+sk−1 ) ↑
kIP(X = k) quand s ↑ 1
s−1
s−1
k≥0
(ii). Si IE(X 2 ) < +∞,
0
k≥0
k≥0
0 (1) < +∞. Alors quand s ↑ 1,
IE(X) < +∞ et gX
0
X
X
gX (s) − gX (1)
sk−1 − 1 X
=
kIP(X = k)
=
kIP(X = k)(1+...+sk−2 ) ↑
k(k−1)IP(X = k) = IE(X(X−
s−1
s−1
k≥0
k≥0
k≥0
2.5. LOI ET ESPÉRANCE CONDITIONNELLES
15
Proposition 2.4.5. Soient X et Y deux variables à valeurs dans IN indépendants. Alors pour tout
s ∈ [0, 1],
gX+Y (s) = gX (s)gY (s).
Exercise 2.4.6. Soit (Xi )i≥1 une suite de variables entières indépendantes et identiquement distribuées et N une variable aléatoire entière indépendante de la suite. On pose
S=

 X1 + ... + XN si N ∈ IN∗

0 si N = 0
Exprimer gS (u) en fonction de gX1 (u) et gN (u). En déduire la loi de S lorque N suit la loi
géométrique de paramètre p et les Xi la loi géométrique de paramètre q.
2.5
Loi et espérance conditionnelles
Définition 2.5.1. Soient X et Y deux variables aléatoires discrètes à valeurs respectives dans F
et G. Pour y ∈ G, on appelle loi conditionnellle de X sachant Y = y la famille des nombres
(IP(X = x|Y = y))x∈F .
Proposition 2.5.2. Les variables X et Y sont indépendantes si et seulement si la loi conditionnelle
de X sachant Y = y n edépend pas de y ∈ G.
Preuve. ⇒ La condition nécessaire est immédiate.
⇐ La condition suffisante. Pour tout x ∈ F , il existe µ(x) tel que ∀y ∈ G,
IP(X = x|Y = y) = µ(x)
À x fixé, en multipliant par IP(Y = y) et en sommant sur y ∈ G, on obtient
X
IP(Y = y)IP(X = x|Y = y) = IP(X = x) = µ(x).
y∈G
Par suite, IP(X = x).IP(Y = y) = µ(x).IP(Y = y) = IP(X = x, Y = y)
Définition 2.5.3. Soient X et Y deux variables aléatoires discrètes à valeurs respectives dans F
et G et f : F × G −→ IR telle que f (X, Y ) est intégrable. On appelle espérance conditionnelle de
f (X, Y ) sachant Y et on note IE (f (X, Y )|Y ) la variable aléatoire discrète
IE (f (X, Y )|Y ) = ψ(Y ) où ∀y ∈ G, ψ(y) =
X
f (x, y)IP(X = x|Y = y).
x∈F
Lorsque X est à valeurs réelles intégrable, en choisissant f (x, y) = x, on obtient
IE (X|Y ) = ψ(Y ) où ∀y ∈ G, ψ(y) =
X
xIP(X = x|Y = y).
x∈F
Proposition 2.5.4. On suppose que f (X, Y ) est intégrable. Pour toute fonction g : G −→ IR telle
que f (X, Y )g(Y ) est intégrable, la variable aléatoire IE (f (X, Y )|Y ) g(Y ) est intégrable et on a
IE [IE (f (X, Y )|Y ) g(Y )] = IE (f (X, Y )g(Y ))
16
CHAPTER 2. VARIABLES ALÉATOIRES DISCRÈTES
Preuve.
X Pour l’intégrabilité de IE (f (X, Y )|Y ) g(Y ), on remargque que ∀y ∈ G, |ψ(y)g(y)| ≤
|g(y)|
|f (x, y)|IP(X = x|Y = y). Il vient
x∈F
X
|ψ(y)g(y)|IP(Y = y) ≤
y∈G
X
|g(y)|
y∈G
=
X
|f (x, y)|IP(X = x|Y = y)IP(Y = y)
x∈F
X
|g(y)||f (x, y)|IP(X = x, Y = y) = IE|(f (X, Y )||g(Y )| < +∞
x∈F,y∈G
En outre,
IE [IE (f (X, Y )|Y ) g(Y )] =
X
g(y)ψ(y)IP(Y = y)
y∈G
!
=
X
g(y)
y∈G
=
X
X
f (x, y)IP(X = x|Y = y) IP(Y = y)
x∈F
f (x, y)g(y)IP(X = x, Y = y) = IE (f (X, Y )g(Y ))
x∈F,y∈G
Corollaire 2.5.5. Si la variable f (X, Y ) est intégrable, alors l’espérance conditionnelle IE(f (X, Y )|Y )
est aussi intégrable et IE [IE(f (X, Y )|Y ] = IE(f (X, Y )). En outre, si f (X, Y ) est de carré intégrable,
IE(f (X, Y )|Y ) l’est aussi et V ar [IE(f (X, Y )|Y ] ≤ V ar(f (X, Y ))
Preuve. La pemière assertion est obtenue en faisant g ≡ 1 dans la proposition précédente.
Supposons X
à présent que f (X, Y ) est intégrable. En utilisant l’ inégalité de Cauchy-Schwarz et
le fait que
IP(X = x|Y = y) = 1, on obtient
x∈F
!2
X
x∈F
p
p
f (x, y) IP(X = x|Y = y) IP(X = x|Y = y)
≤
X
f 2 (x, y)IP(X = x|Y = y) × 1
x∈F
Donc IE(f (X, Y )|Y )2 ≤ IE(f 2 (X, Y )|Y ). Comme IE(f 2 (X, Y )|Y ) est intégrable et d’espérance égale
à IE(f 2 (X, Y )), on déduit de la proposition 2.2.18 que IE(f (X, Y )|Y )2 intégrable et
IE IE(f (X, Y )|Y )2 ≤ IE(f 2 (X, Y ))
IE IE(f (X, Y )|Y )2 − (IE [IE(f (X, Y )|Y )])2 ≤ IE(f 2 (X, Y )) − (IE [IE(f (X, Y )|Y )])2
V ar(IE(f (X, Y )|Y )) ≤ IE(f 2 (X, Y )) − [IE(f (X, Y ))]2
V ar(IE(f (X, Y )|Y )) ≤ V ar(f (X, Y ))
Chapter 3
Vecteurs aléatoires
Dans la suite de ce cours le triplet (Ω, F, IP) désignera unespace de probabilité pris comme référence
appélé espace de base. Les ensembles mesurables relativementà F sont appélés événements de
Ω.
Principe de modélisation
Modéliser mathématiquement un phénomène aléatoire revient à introduire ce qui suit:
1. un triplet (Ω, F, IP) comme espace de probabilité abstrait,
2. une application X : Ω 7→ IRd telle que, pour tout borélien A de IRd , l’image-réciproque de
A par l’application X soit unélément de F.
C’est alors l’application IPX : A ∈ F 7→ IP(X ∈ A) qui seral’objet important du modèle.
3.1
Applications mesurables
Définition 3.1.1.
1. Soient (E, A) et (IRk , B(IRk )) deux espaces mesurables. Une application
f de E dans IRk est dite (A, B(IRk )−mesurable si pour tout B ∈ B(IRk )), {f ∈ B} ∈ A.
2. Dans le cas où (E, A) = (IRn , B(IRn )), on dit que f est borélienne pour exprimer qu’elle est
(B(IRn ), B(IRk ))−mesurable.
Proposition 3.1.2. Toute application continue de IRn dans IRk est borélienne.
Terminologie utilisée en probabilité.
Définition 3.1.3. Soient (Ω, F) l’espace mesurable de base et (IRd , B(IRd )). Une application f
(F, B(IRd ))−mesurable s’appelle un vecteur aléatoire de dimension d.
Proposition 3.1.4. Si f est une application borélienne de IRk dans IRd et X un vecteur aléatoire
de dimension k,alors l’application f ◦ X est un vecteur aléatoire de dimension d.
Preuve. Si B est un borélien de IRd , alors l’image réciproque de B par f ◦ X est (f ◦ X)−1 (B) =
X −1 [f −1 (B)]. Comme f est borélienne, f −1 (B) ∈ B(IRk ) et comme X est (F, B(IRk ))−mesurable,
X −1 [f −1 (B)] ∈ F.
En prenant pour f les projections de IRd sur IR, une conséquence du résultat précécent donne ce
qui suit:
Proposition 3.1.5. X = (X1 , X2 , ..., Xd ) est un vecteur aléatoire de dimension d si et seulement
si,pour tout i = 1, 2, ..., d, Xi est une variable aléatoire réelle.
Définition 3.1.6. Deux vecteurs aléatoire X et Y de dimension d sont égaux presque-sûrement si
et seulement si,IP(X 6= Y ) = 0. L’égalité presque-sûre est une rélation d’équivalence sur l’ensemble
des vecteurs aléatoire de dimension d.
18
3.2
CHAPTER 3. VECTEURS ALÉATOIRES
Loi d’un vecteur aléatoire
Proposition 3.2.1. Soit X un vecteur aléatoire de dimension d. L’application
IPX :
B ∈ B(IRd ) 7→ IPX (B) = IP ({X ∈ B}) ∈ [ 0, 1]
est une probabilité sur IRd
Preuve. La notation {X ∈ B} := {ω ∈ Ω/X(ω) ∈ B} et on a {X ∈ B} ∈ F, ce qui donne un sens
à IP ({X ∈ B}). IPX est donc bien définie.
De plus comme {X ∈ IRd } = Ω,IPX (Rd ) = IP {X ∈ IRd } = IP(Ω) = 1. Soit (An )IN une suite
deuxs̀deux disjointes de boréliens de IRd , alors




[
[
Ak =
{X ∈ Ak }
X∈


k∈IN
k∈IN
l’union du second terme étant deux à deux disjointes. On a


[
S
S
IPX 
Ak  = IP X ∈ k∈IN Ak = IP k∈IN {X ∈ Ak }
k∈IN
P
P
= k∈IN IP(X ∈ Ak ) = k∈IN IPX (Ak )
Définition 3.2.2. La probabilité IPX est appelée loi du vecteur X.
Définition 3.2.3. Un vecteur aléatoire X à valeurs dans IRd est dite discrèt si sa loi est discrète.
Proposition 3.2.4. Soit X un vecteur aléatoire de dimension d est discrèt si et seulement si, il
existe une partie D := {ek , k ∈ K ⊂ IN} de IRd telle que IP(X ∈ D) = 1. Dans ce cas la loi du
vecteur aléatoire X s’écrit
X
IPX =
IP(X = ek )δek
k∈K
On dit alors que la loi de X est portée par D.
Preuve. Soit X un vecteur aléatoire tel qu’il existe une partie dénombrable D de IRd avec X ∈
D := {ek , k ∈ K ⊂ IN} presque-sûrement,i.e IP(X ∈ D) = 1.
Soit A un borélien de IRd , on a IPX (A) = IPX (A ∩ D) = IP(X ∈ A ∩ D). Comme
[
{X ∈ A ∩ D} =
{X = x}
x∈A∩D
et cette union est mutuellement disjointe. Il vient
X
X
IPX (A) =
IP(X = x) =
IP(X = x)IA (x)
x∈A∩D
=
X
x∈D
X
IP(X = x)δx (A) =
x∈D
Ainsi X est une variable discrète et sa loi est IPX =
IP(X = ek )δek (A)
k∈K
X
P (X = ek )δek .
k∈KX
Réciproquement soit X un vecteur aléatoire de loi µ =
pn δen où (pn )K est une suite (finie ou
n∈K
infinie) de réels strictement positifs avec K ⊂ IN vérifiant
X
pn = 1, et (ek )K une suite (finie
n∈K
ou infinie) d’éléments de IRd . En prenant D := {en /n ∈ K}, on a IP(X ∈ D) = 1, et pour tout
n ∈ K, IP(X = en ) = pn .
3.2. LOI D’UN VECTEUR ALÉATOIRE
3.2.1
19
Théorèmes de transfert
Proposition 3.2.5. Cas des fonctions boréliennes positives
Soit X un vecteur aléatoire de dimension d et IPX sa loi de probabilité sur IRd . Alors, pour toute
application borélienne positive h de IRd dans [0, +∞],
Z
Z
IE [h(X)] =
h(X(ω))dIP(ω) =
h(x)dIPX (x) = IEPX (h)
Ω
IRd
Proposition 3.2.6. Cas vectoriel
Soit X un vecteur aléatoire de dimension d et IPX sa loi de probabilité sur IRd . Soit h une application borélienne de IRd dans [IRn . Alors h est intégrable suivant IPX si et seulement si h(X) est
intégrable sur Ω suivant IP, et dans ce cas,
Z
Z
h(X(ω))dIP(ω) =
h(x)dIPX (x) = IEPX (h)
IE [h(X)] =
IRd
Ω
3.2.2
Critères d’identification de loi
Proposition 3.2.7. Critère des fonctions boréliennes positives
Soit X un vecteur aléatoire de dimension d et µ une probabilité sur IRd . Alors le vecteur X a pour
loi µ si et seulement si, pour toute application borélienne positive h de IRd dans [0, +∞],
Z
IE [h(X)] =
h(x)dµ(x)
IRd
Preuve. • C.N Si IPX = µ,d’après le théorème
de transfert,
Z
Z pour toute application borélienne
d
positive h de IR dans [0, +∞],, IE [h(X)] =
h(x)dIPX =
h(x)dµ(x).
IRd
IRd
• C.S Supposons
que pour toute application borélienne positive h de IRd dans [0, +∞],
Z
IE [h(X)] =
h(x)dµ(x). Alors pour tout B ∈ B(IRd ), IB est une application borélienne positive
d
IR
de IRd dans [0, +∞] et on a d’une part
E [h(X)] = E [IB (X)] = IEµ (IB ) = µ(B)
et d’autre part le théorème de transfert donne
Z
E [h(X)] = E [IB (X)] =
IB dIPX = IPX (B)
D’òu, pour tout B ∈ B(IRd ) IPX (B) = µ(B).
Proposition 3.2.8. Critère des fonctions à support compact
Soit X un vecteur aléatoire de dimension d et µ une probabilité sur IRd . Alors le vecteur X a pour
loi µ si et seulement si, pour toute application positive h de IRd dans [0, +∞] continue et à support
compact,
Z
IE [h(X)] =
IRd
h(x)dµ(x)
Preuve. • C.N Si IPX = µ. Si h est une fonction positive h de IRd dans [0, +∞] continue et à
support compact, elle est
Z en particulier Zune fonction positive borélienne. D’après la proposition
précèdente IE [h(X)] =
h(x)dIPX =
h(x)dµ(x).
IRd
IRd
• C.S Supposons que pour toute fonction positive h de IRd dans [0, +∞] continue et à support
20
CHAPTER 3. VECTEURS ALÉATOIRES
compact.
Z
h(x)dµ(x). Alors pour tout ouvert A ∈ IRd , il existe une suite croissante(fn ) de
IRd
fonction positives continue et à support compact sur IRd qui converge vers la fonction indicatrice
IA . On a d’une part
Z
IE [h(X)] =
µ(A) =
IA dµ et IPX (A) = E [IA (X)]
IRd
et d’autre part le théorème de convergence monotone de Beppo-Lévi,
Z
Z
Z
lim fn dµ = lim
fn dµ = lim IE [fn (X)]
IA dµ =
n→+∞ IRd
n→+∞
n→+∞
IRd
IRd Z
Z
Z
IA dIPX
=
lim
lim fn dIPX =
fn dIPX =
n→+∞ IRd
IRd
IRd n→+∞
Par suite, pour tout ouvert A ∈ Rd , IPX (A) = µ(A). Ansi,µ et IPX coincident sur une famille de
parties de IRd stable par intersection finie qui engendre la tribu borélienne B(IRd ). Elles sont donc
égales.
Exercise 3.2.9. Soit X = (X1 , X2 ) un vecteur aléatoire de dimension 2 de loi IPX =
X
k≥1, l≥1
1
δ .
2k+l k,l)
1) Déterminer la loi de la variable aléatoire réelle définie par Y := sup(X1 , X2 ).
2) Montrer que la variable aléatoire Z := X1 + X2 a pour loi
IPZ =
+∞
X
i−1
i=1
3.3
2i
δi
Moment d’un vecteur aléatoire
Définition 3.3.1. Soit X un vecteur aléatoire de dimension d de composantes X1 .X2 , ..., Xd
intégrables suivant IP. On appelle espérance mathématique de X suivant IP, le vecteur de IRd
noté IE(X) défini par
IE(X) = (IE(X1 ), IE(X2 ), ..., IE(Xd ))
Définition 3.3.2. Soit X un vecteur aléatoire de dimension d. X est dit p-intégrable, s’il existe
un entier naturel non nul p vérifiant IE(|X|p ) < +∞, i.e X ∈ Lp (Ω, F, IP).
Dans le cas particulier où p = 2, on dit que X est de carré intégrable.
Exercise 3.3.3. 1) Montrer que si X = (X1 , X2 , ..., Xd ), alors les variables aléatoires réeles
X1 , X2 , ..., Xd sont de carré intégrables si et seulement si IE(|X|2 ) < +∞.
2) On suppose que d = 1 et X et Y deux variàbles aléatoires réelles de carré intégrables.
2.a) Montrer que |XY | ≤ X 2 + Y 2 et en déduire que les variàbles aléatoires réelles X, Y et XY
sont intégrables suivant IP.
2.b) En étudiant le signe l’expression IE[(X +αY )2 ] pour tout α ∈ IR, prouver l’inégalité de CauchySchwartz:
p
p
|IE(XY )| ≤ IE(X 2 ) IE(Y 2 )
Définition 3.3.4. Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd de
carré intégrables sur Ω. On appelle matrice de dispersion de X ou matrice des covariance deX et
on la note DX , l’espérance de la matrice carrée aéatoire [X − IE(X)][X − IE(X)]t d’ordre d. C’est
àdire
DX = IE [X − IE(X)][X − IE(X)]t
.
3.3. MOMENT D’UN VECTEUR ALÉATOIRE
21
Proposition 3.3.5. Soit X un vecteur aléatoire de dimension d tel que
matrice à coefficients réels à c lig nes et d colonnes,alors
1.
i,j
DX
= cov(Xi , Xj ) = IE ([Xi − IE(Xi )][Xj − IE(Xj )]) , i 6= j
IE(|X|2 )
< +∞ et M une
i,i
DX
= V ar(Xi )
2.
D[X−IE(X)] = DX ,
IE(M X) = M IE(X),
DM X = M D X M t
3. DX est une matrice symétrique de type positif. c’est à dire pour tout u ∈ IRd , ut DX u ≥ 0.En
particulier DX est une matrice diagonalisable sur IR dont les valeurs propres dont des réels positifs
ou nuls.
Exercise 3.3.6. 1) Soit X le vecteur aléatoire dans l’exercice (??) . Déterminer DX .
2) Soit X un vecteur aléatoire de dimension d de composantes X1 , X2 , ..., Xd telque IE(X 2 ) < +∞.
d
X
2.a) Montrer que la variable aléatoire réelle Y :=
Xk est de carré intégrable.
k=1
2.b) Démontrer la relation
d
d
X
X
V ar(
Xk ) =
V ar(Xk ) + 2
k=1
3.3.1
X
Cov(Xi , Xj )
1≤i<j≤n
k=1
Intégrales multiples: Théorème de Fubini
Théorème 3.3.7. Soit f : IR2 −→ IR.
I si f est positive,
Z
Z Z
Z Z
f (x, y)dxdy =
f (x, y)dy dx =
f (x, y)dx dy.
IR2
IR
IR
IR
IR
Cela signifie que les trois termes sont soit simultanément finis et égaux soit simultanément égaux
à +∞.
Z
I Si f est intégrable au sens où
|f (x, y)|dxdy < +∞, alors l’égalité ci-dessus est vraie.
IR2
Exemple 3.3.8. Soit f : [0, +∞[−→ [0, +∞[
Z
[0,+∞[×[0,+∞[
3.3.2
Z +∞ Z +∞
f (x + y)
f (z)
dy dx =
dz dx
x+y
z
0
0
0
x
Z +∞
Z +∞ Z +∞
Z +∞
f (z)
f (z)
=
I{z≥x}
dz dx =
I{z≥x} dx dz
z
z
0
0
0
0
Z z Z +∞
Z +∞
f (z)
=
dx dz =
f (z)dz
z
0
0
0
f (x + y)
dxdy =
x+y
Z
+∞ Z +∞
Changement de variables
Soit ϕ une bijection continuement différentiable ainsi que son inverse ϕ−1 d’un ouvert O de IRd sur
un ouvert O0 de IRd , f : IRd −→ IR bornée et g : IRd −→ IR intégrable. On a
Z
Z
f [ϕ(x)]g(x)dx =
f (y)g[ϕ−1 (y)]|Jacϕ−1 (y)|dy
O
où Jacϕ−1 (y) = Det
∂(ϕ−1 )i
;
∂yj
O0
1 ≤ i, j ≤ d .
22
Z
Exercise 3.3.9. Calculer I =
2
− x2
e
IR
un changement de variables.
CHAPTER 3. VECTEURS ALÉATOIRES
Z
2
2
− x +y
2
dx. Indication: calculer I 2 =
dxdy en utilisant
e
IR2
En général, dans les problèmes de probabilités, on connaı̂t O et ϕ et on souhaite transfprmer
un eintégrale. Il faut faire attention aux difficultés suivanhtes:
(i) La fonction ϕ n’est pas injective sur le domaine O de départ (O = IR, ϕ(x) = x2 ). Il faut alors
essayer de découper O en sous-domaines sur lesquels ϕ est injective.
(ii) Lorsque ϕ est injevtive sur O, il faut bien raisonner par les conditions nécessaires et suffisantes
pour obtenir le domaine image O0 . Il ne faut surtout pa sse contenter de conditions nécessaires.
Exemple 3.3.10. Si O =]0, +∞[×]0, +∞[ et ϕ(x, y) = (x + y, x − y). Dire que O0 = ϕ(O) =
]0, +∞[×IR est faux.
Pour déterminer O0 , il faut déterminer ϕ−1 .
z =x+y
x = z+w
−1
2
ϕ (z, w) = (x, y) ⇔ (z, w) = ϕ(x, y) ⇔
⇔
w =x−y
y = z−w
2
z−w
Ainsi, ϕ−1 (z, w) = ( z+w
2 , 2 ). Par suite
0
−1
(z, w) ∈ O ⇔ ϕ
(z, w) ∈ O ⇔
z+w
2
z−w
2
>0
⇔ z > |w|
>0
Finalement O0 = {(z, w) ∈ IR2 ; z > |w|}.
3.4
Fonction caractéristique de vecteur aléatoire
Définition 3.4.1. 1. Si µ est une probabilité sur IRd , l’application
Z
Φµ : u ∈ IRd 7→ Φµ (u) =
eihx,ui dµ(x)
d
IR
s’appelle la fonction caractéristique de µ.
2. Si X est un vecteur aléatoire de dimension d,la fonction caractéristique de X est
Z
h
i
ihx,ui
ihX,ui
ΦX (u) =
e
dIP
(x)
=
IE
e
X
IRd
.
Dans la suite de cette section, nous donnons quelques propriétés classiques des fonctions caractérstiques. Nous insiterons sur leurs points intétrêts suivants: Elles servent
1. à identifier la loi d’un vecteur aléatoire,
2. à caclculer les moments d’un vecteur aléatoire,
3. à étudier l’indépendance d’une suite de vecteur aléatoire.
Proposition 3.4.2. (Propriété classique)
1. Φ(0) = 1.
¯ et |Φ(u)| ≤ 1. Une fonction caracéristique est une fonction
2.Pour tout u ∈ IRd , Φ(−u) = Φ(u)
d
bornée sur IR .
3. La fonction caracéristique Φ d’un vecteur aléatoire X est une fonction uniformément continue
sur IRd . En particulier une fonction caracéristique
Z Φ est continue
Z en 0.
4. Si µ et ν sont deux probabilités sur IRd , alors
IRd
Φµ dν =
IRd
Φν dµ.
3.4. FONCTION CARACTÉRISTIQUE DE VECTEUR ALÉATOIRE
23
Preuve. • 1. et 2. sont immédiats.
• 3. Pour tout u ∈ IRd ,
Z
Z
Z
ihx,ui
ihx,ui
|ΦX (u)| = |
e
dIP
(x)|
≤
|e
|dIP
(x)
≤
dIPX (x) = 1,
X
X
IRd
IRd
IRd
donc Φ est bornée sur IRd .
• 4. Pour tous vecteurs u et v de IRd , on a
Z
|ΦX (u) − ΦX (v)| ≤
d
IR
|eihx,ui − eihx,vi |dIPX (x).
Pour tout réel t,
it
Z
e −1=
t
ix
Z
Z
t
(i cos(x) − sin(x)) dx
i (cos(x) + i sin(x)) dx =
ie dx =
0
t
0
0
D’où |eit − 1| ≤ inf (2, |t|). Par suite pour tous vecteurs u et v de IRd , on a
|eihx,ui − eihx,vi | = |ei[hx,ui−hx,vi] − 1| = |ei[hx,u−vi] − 1|
≤ inf( 2, |hx, u − vi| ),
En utulisant l’inégalité de Cauchy-Schwaz, on obtient
|eihx,ui − eihx,vi | ≤ inf( 2, |x||u − v| )
Ainsi, pour tous vecteurs u et v de IRd
Z
|ΦX (u) − ΦX (v)| ≤
IRd
inf( 2, |x||u − v| )dIPX (x).
En particulier pour tout entier naturel non nul n, et pour tous vecteurs u et v de IRd , tels que
1
|u − v| ≤ , on a
n
Z
|x|
|ΦX (u) − ΦX (v)| ≤
inf(
2,
)dIPX (x).
n
IRd
|x|
La suite de fonction inf( 2,
)
est dominée sur IRd par la fonction constante 2 et converge
∗
n
n∈IN
vers la fonction nulle sur IRd . Par le théorème de la convergence dominée de Lebesgue,
|x|
) = 0. On en déduit que pour tout ε > 0, il existe un entier N0 tel que ∀n ≥ N0
lim inf( 2,
n→+∞
n
Z
|x|
inf(
2,
)dIPX (x) ≤ ε.
n
IRd
Par suite, pour tout ε > 0, il existe η (η = n1 ) tel que pour tous vecteurs u et v de IRd ,|u − v| ≤ η,
implique |ΦX (u) − ΦX (v)| ≤ ε. D’où l’uniforme continuité de l afonction caractéristique.
• 4. En appliquant le théorème de Fubini
Z
Z
Z
Z
Z
ihx,yi
ihx,yi
Φµ (y)dν(y) =
e
dµ(x) dν(y) =
e
dν(y) dµ(x)
d
d
d
d
IRd
IR
IR
IR
IR
Z
Z
Z
ihy,xi
=
e
dν(y)
dµ(x)
=
Φν (x)dµ(x)
IRd
IRd
IRd
24
CHAPTER 3. VECTEURS ALÉATOIRES
Proposition 3.4.3. Théorème d’injectivité. (Admis)
Deux probabilités sur IRd sont identiques si et seulemnt si,elles ont la même fonction caractéristique.
Pour les vecteurs aléatoires, le théorème d’injectivité s’enonce comme suit:
Proposition 3.4.4. critère d’identification de loi
Deux vecteurs aléatoires sur IRd ont la même loi si et seulemnt si, ils ont la même fonction caractéristique.
Dans le cas où la fonction caractéristique est intégrable au sens de Lebesgue sur IR, on obtient
la connaissance de µ:
Proposition 3.4.5. Soit µ est une probabilité sur IRd de fonction cractéristique Φ. Si Φ est
intégrable au sens de Lebesgue sur IRd , alors µ admet une ensité f par rapport ‘a la mesure de
Lebesgue sur IRd . L’application f est une fonction à valeurs réelles, positives, bornée, continue sur
Rd et, pour tout x ∈ IRd ,
Z
1
f (x) =
e−ihu,xi Φ(u)du
(2 π)d IRd
Proposition 3.4.6. Si X est une variable aléatoire réelle telle que IE(|X|n ) < +∞. C’est è
dire X ∈ Ln (Ω, F, IP) avec n un entier naturel non nul. Alors la fonction cractéristique est
continuement dérivable jusqu’à l’orde n et, pour tout u ∈ IR,
Z
(n)
n
ΦX (u) = i
xn eiux dIPX (x) = in IE(X n eiuX ).
IR
En particulier
(n)
ΦX (0)
n
Z
=i
IR
xn dIPX (x) = in IE(X n ).
Pour les vecteurs aléatoires, nous avons en particulier
Proposition 3.4.7. Si X = (X1 , X2 , ..., Xd ) est vecteur aléatoire de dimension d telle que IE(|X|2 ) <
+∞. C’est è dire X ∈ L2 (Ω, F, IP) . Alors pourtout k = 1, 2, ..., d et j = 1, 2, ..., d ona ,
IE(Xk ) = −i
∂ΦX
(0)
∂uk
et
IE(Xk Xj ) = −
∂ 2 ΦX
(0)
∂uk ∂uj
3.5
Vecteurs aléatoires à densité
3.5.1
Cas unidimensionnelle: varaiables aléatoires réelles à densité usuelles
Soit (Ω, A, IP) un espace de probabilité.
Définition 3.5.1. On dit que la variable aléatoire X : Ω −→ IR possède la densit é p : IR −→ IR si
Z
∀a, b ∈ IR ∪ {−∞, +∞}, IP(a < X < b) =
b
p(x)dx
a
Z
Il en résulte que la densité est une fonction positive vérifiant
p(x)dx = 1. Aussi IP(X = x) = 0.
IR
P
De même, pour tout sous-ensemble F de IR dénombrable, IP(X ∈ F ) = x∈F IP(X = x) = 0.
Ce qui montre la différence de nature entre variables aléatoires discrètes et variables aléatoires à
densité.
3.5.
3.5.2
VECTEURS ALÉATOIRES À DENSITÉ
25
Densités réells usuelles
Loi uniforme sur [a, b]
X suit la loi uniformle sur [a, b] avec a < b, et on note X ∼ U[a, b] si X a pour densité
p(x) =
1
I (x).
b − a [a,b]
Loi exponentielle de paramètre λ > 0
X suit la loi exponentielle de paramètre λ > 0, et on note X ∼ E(λ) si X a pour densité
p(x) = λe−λx Ix>0 (x).
Loi normale ( ou gaussienne )de paramètres µ ∈ IR et σ 2 > 0
X suit la loi normale de paramètres µ ∈ IR et σ 2 > 0, et on note X ∼ N (µ, σ 2 ) si X a pour densité
(x − µ)2
exp −
IIR (x).
p(x) = √
2σ 2
2πσ 2
1
Dans le cas où µ = 0 et σ 2 = 1, on dit que X suit la loi normale centrée réduite.
Loi de Cauchy de paramètre a > 0
X suit la loi de Cauchy de paramètre a > 0, et on note X ∼ C(a) si X a pour densité
p(x) =
3.5.3
1
a
I (x).
2
π x + a2 IR
Espérance, Variance
Définition 3.5.2.
Z la variable aléatoire X : Ω −→ IR qui possède la densité p est dite:
I intégrable si
|x|p(x)dx < +∞ et dans ce cas on définit son espérance par
IR
Z
IE(X) =
x p(x)dx
IR
Z
I de carré intégrable si IE(X 2 ) =
x2 p(x)dx < +∞ et dans ce cas on définit sa variance par
IR
V ar(X) = IE(X 2 ) − (IE(X))2 = IE (X − IE(X))2
Proposition 3.5.3. 1. L’espérance d’une variable aléatoire X qui possède une densité ne dépend
que de cette densité.
2.Linéarité: IE(X + λ Y ) = IE(X) + λIE(Y ).
3. Condition suffisante d’intégrabilité: Si IP(|X| ≤ Y ) = 1 et Y est intégrable, alors X l’est aussi.
4. Croissance: Si X et Y sont intégrables, IP(X ≥ Y ) = 1 =⇒ IE(X) ≥ IE(Y ).
Exercise 3.5.4. calculer l’espérance et la variance d’une variable uniforme sur [a, b]; d’une variable
exponentielle de paramètre λ > 0; d’une variable de Cauchy paramètre a > 0 et d’une variable
normale centrée réduite.
26
3.5.4
CHAPTER 3. VECTEURS ALÉATOIRES
Fonction de répartition
Définition 3.5.5. Soit X : Ω −→ IR une variable aléatoire réelle ( qui ne possède pas necessairement une densité ). On appelle fonction de répartition de X la fonction FX : x ∈ IR 7−→ IP(X ≤ x).
Il en résulte que FX croı̂t de 0 à 1 et est continue à droite. Elle a une limite à gauche en tout point
notée FX (x−). De plus on a
IP(a < X ≤ b) = IP(X ≤ b) − IP(X ≤ a) = FX (b) − FX (a).
Proposition 3.5.6. Si la fonction de répartition FX de la variable X aléatoire réelle est globalement continue et C 1 par morceaux ( au sens où il existe un nombre fini de points x1 < x2 < ... < xn
0
tels que FX est C 1 sur ] − ∞, x1 [, ]x1 , x2 [, ..., ]xn−1 , xn [, ]xn , +∞[); alors X possède la densité FX .
3.6
Vecteurs aléatoires à densité
Définition 3.6.1. On dit que le vecteur aléatoire X = (X1 , ..., Xd ) : Ω −→ IRd possède la densité
p : IRd −→ IR si
Z
Z
d
∀ O ouvert de IR , IP(X ∈ O) =
p(x)dx =
IO (x1 , x2 , ..., xd )p(x1 , x2 , ..., xd )dx1 dx2 ...dxd .
O
IRd
Il en résulte qu’une densité de parobabilité p sur IRd est une fonction positive et
Z
p(x1 , x2 , ..., xd )dx1 dx2 ...dx= 1
IRd
Le Critère d’identification par des fonctions boréliennes positives se particularise de la manière
suivante:
Théorème 3.6.2. Le vecteur aléatoire X : Ω −→ IRd possède la densité p si et seulement si , pour
toute application borélienne positive h de IRd dans [0, +∞]
Z
IE [h(X)] =
h(x)p(x)dx.
IRd
3.6.1
Densité marginale
Proposition 3.6.3. Soit X un vecteur aléatoire qui possède une densité. Alors tout sous-vecteur
Y possède la densité marginale obtenue en intégrant celle de X sur les composantes ne figurant pas
dans Y .
La Réciproque est fausse.
Preuve. Soit X = (X1 , ..., Xd ) : Ω −→ IRd un vecteur aléatoire de densité p et k < d. Si Ok est
un ouvert de IRk , en utlisant le théorème de Fubini, on obtient:
Z
d−k
IP((X1 , ..., Xk ) ∈ Ok ) = IP(X ∈ Ok × IR ) =
p(x)dx
d−k
Ok ×IR
Z Z
=
p(x1 , x2 , ..., xd )dxk+1 ...dxd dx1 ...dxk
Ok
IRd−k
On déduit que le sous-vecteur (X1 , ..., Xk ) possède la densité
Z
q(x1 , x2 , ..., xk ) =
p(x1 , x2 , ..., xd )dxk+1 ...dxd
IRd−k
3.6. VECTEURS ALÉATOIRES À DENSITÉ
27
Exercise 3.6.4. Soit X une variable aléatoire réelle de loi normale centrée réduite N (0, 1). On
pose ∆ := {(x, y) ∈ IR2 , y = x}.
1. Prouver que IP(X,X) (∆) = 1
2. En supposant que le vecteur aléatoire (X, X) admet une densité sur IR2 , prouver que, sous cette
hypothèse IP(X,X) (∆) = 0. En déduire que le vecteur (X, X) aléatoire de dimension 2 n’admet pas
de densité sur IR2 . Ce qui montre que la réciproque de la proposition précédente est fausse.
3.6.2
Changement de variables
d
d
Proposition
Z 3.6.5. Soit X : Ω −→ IR qui possède la densité p(x) portée par un ouvert O de IR
p(x)dx = 1 et ϕ est une bijection de O sur O0 de classe C 1 ainsi que son inverse
au sens où
O
ϕ−1 . Alor sle vecteur Y = ϕ(X) possède la densité
q(y) = IO0 (y)p(ϕ−1 (y))|Jac ϕ−1 (y)|
Exercise 3.6.6. Soit (X, Y ) un couple aléatoire de densité
λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} .
Déterminer la loi de (Z, W ) = (X + Y, X − Y ).
Résolution
Utilisons la mt́hode de la fonction muette. Pour toute fonction f : IR2 −→ IR bornée, calculons
IE[f (Z, W )] = IE[f (X + Y, X − Y )].
Soit ϕ : (x, y) ∈ IR2 7−→ (x + y, x − y) ∈ IR2 . La fonction g(x, y) = f ◦ ϕ(x, y) = f (x + y, x − y) est
une fonction bornée sur IR2 . On a donc
Z
g(x, y)λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} dxdy
IE[g(X, Y )] =
2
IR
Z
IE[f (X + Y, X − Y )] =
f (x + y, x − y)λ2 exp (−λ(x + y)) I{x≥0} I{y≥0} dxdy
2
IR
Z +∞ Z +∞
IE[f (Z, W )] =
f (x + y, x − y)λ2 exp (−λ(x + y)) dxdy
0
0
z−w
La fonction ϕ est une bijection C 1 ainsi que son inverse (x, y) = ϕ−1 (z, w) = ( z+w
2 , 2 ) de
2
1
O =]0, +∞[×]0, +∞[ sur O0 = {(z, w) ∈ IR : z > |w|}. On a |Jacϕ−1 (z, w)| = 2 et dxdy = 12 dzdw.
Ainsi
Z
1
z+w z−w
2
IE[f (Z, W )] =
f (z, w)λ exp −λ
+
dzdw
2
2
2
(z,w):z>|w|
Z
λ2
=
f (z, w) exp (−λ z) I{(z,w):z>|w|} (z, w)dzdw
2
λ2
exp (−λ z) I{(z,w):z>|w|} (z, w).
On conclut que la densité du couple (Z, W ) est
2
La densité marginale de Z est
Z
λ2
exp (−λ z) I{(z,w):z>|w|} (z, w)dw = λ2 z exp (−λ z)
2
IR
celle de W est
λ2
λ
exp (−λ z) I{(z,w):z>|w|} (z, w)dz = exp (−λ |w|)
2
2
IR
Z
28
3.6.3
CHAPTER 3. VECTEURS ALÉATOIRES
Inépendance
Définition 3.6.7. Les vecteurs aléatoires X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn qui possèdent
respectivement les densités p1 , ..., pn sont dits indépendants si (X1 , ..., Xn ) possède la densité produit
p1 (x) × p2 (x) × ... × pn (x).
La proposition suivante est parfois utile et permet de caractériser l’indépendance de vecteurs
aléatoires (qui ne possèdent pas necessairement des densités).
Proposition 3.6.8. critère de fonctions positives
Soient X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn des vecteurs aléatoires.
(1.) Si ces vecteurs aléatoires sont indépendants, alors pour toutes fonction f1 : IRd1 −→ IR, ..., fn :
IRdn −→ IR boréliennes positives
IE [f1 (X1 ) × f2 (X2 )... × f (Xn )] =
n
Y
IE [fi (Xi )]
i=1
(2.) Inversement, si pour toutes fonctions f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes positives,
n
Y
IE [f1 (X1 ) × f2 (x)... × fn (Xn )] =
IE [fi (Xi )], alors les vecteurs X1 , ..., Xn sont indépendants.
i=1
Preuve. Faisons la preuve pour n = 2.
(1) Suppossons que IP(X1 ,X2 ) = IPX1 × IPX2 . Il vient
Z
IE [f1 (X1 ) × f2 (X2 )] =
f1 (x1 )f( y)dIP(X1 ,X2 ) (x, y)
d1 +d2
IR
Z
Z
f2 (y)dIPX2 (y) dIPX1 (x)
=
f1 (x)
d1
d2
IR
IR
Z
Z
f2 (y)dIPX2 (y)
f1 (x)dIPX1 (x)
=
IRd2
IRd1
= IE [f1 (X1 )] .IE [f2 (X2 )]
(2) Il suffit de prendre f1 = IA et f2 = IB où A et B sont respectivement des boréliennes de IRd1 et
IRd2 . On a
IE [IA (X1 )IB (X2 )] = IE [IA (X1 )] IE [IB (X2 )]
On obtient
IP [(X1 , X2 ) ∈ A × B] = IP [X1 ∈ A] IP [X2 ∈ B]
Ce qui prouve que IP(X1 ,X2 ) = IPX1 × IPX2 .
Proposition 3.6.9. critère de fonctions bornées
Soient X1 : Ω −→ IRd1 , ..., Xn : Ω −→ IRdn des vecteurs aléatoires.
(1.) Si ces vecteurs aléatoires sont indépendants, alors pour toutes fonction f1 : IRd1 −→ IR, ..., fn :
IRdn −→ IR boréliennes bornées
IE [f1 (X1 ) × f2 (X2 )... × f (Xn )] =
n
Y
IE [fi (Xi )]
i=1
(2.) Inversement, si pour toutes fonctions f1 : IRd1 −→ IR, ..., fn : IRdn −→ IR boréliennes bornées,
n
Y
IE [f1 (X1 ) × f2 (x)... × fn (Xn )] =
IE [fi (Xi )], alors les vecteurs X1 , ..., Xn sont indépendants.
i=1
3.6. VECTEURS ALÉATOIRES À DENSITÉ
29
Corollaire 3.6.10. Soit (X1 , X2 , ..., Xn ) une suite de variable aléatoires réelles intégtables. Si
la suite (X1 , X2 , ..., Xn ) est indépendante, alors la variable aléatoire réelle produit X1 X2 ...Xn est
intégrable et
IE [X1 X2 ...Xn ] = IE [X1 ] IE [X2 ] ...IE [Xn ]
La réciproque est fausse.
Preuve. Prenons n = 2. Soient deux variables aléatoires réelles X et Y indépendantes et
intégrables. Alors IE(|X|) < +∞ et IE(|Y |) < +∞ et en application du critère des fonctions
positives x 7→ |x|,
IE(|XY |) = IE(|X||Y |) = IE(|X|)IE(|Y |) < +∞.
La variable XY est donc intégrable.
De plus,on a
XY = (X + − X − )(Y + − Y − ) = X + Y + + X − Y − − X − Y + − X + Y −
En appliquant le critère des fonctions positives x 7→ x+ ,
x 7→ x− , on obtient
IE[XY ] = IE[X + Y + ] + IE[X − Y − ] − IE[X − Y + ] − IE[X + Y − ]
= IE[X + ]IE[Y + ] + IE[X − ]IE[Y − ] − IE[X − ]IE[Y + ] − IE[X + ]IE[Y − ]
= E[X + ] − E[X − ] E[Y + ] − E[Y − ] = IE (X + − X − ) IE (Y + − Y − )
= IE[X]IE[Y ]
Pour montrer que la réciproque est fausse, considérons le contre-exemole suivant:
Soient Y ∼ U[−1, 1] et Z = εY où ε est une variable aléatoire indépendante de Y telle que
IP(ε = 1) = IP(ε = −1) = 12 . On a IE(Y ) = 0 et IE(Y Z) = IE(εY 2 ) = IE(ε)IE(Y 2 ) = 0 × IE(Y 2 ) = 0
si bien que Cov(Y, Z) = 0 et IE(XZ) = IE(X)IE(Z). Mais comme ε2 = 1,
Z
1 1 4
1
IE(Y 2 Z 2 ) = IE(ε2 Y 4 ) = IE(Y 4 ) =
y dy =
2 −1
5
Z 1
1
1
1
IE(Y 2 ) =
y 2 dy = et IE(Z 2 ) = IE(ε2 Y 2 ) = IE(Y 2 ) =
2 −1
3
3
Si bien que IE(Y 2 Z 2 ) =
1
1
6= = IE(Y 2 )IE(Z 2 ). les variables Y et Z ne sont donc pas indépendantes.
5
9
Proposition 3.6.11. Soit X = (X1 , X2 , ..., Xd ) un vecteur aléatoire de dimension d de carré
intégrtable. Si la suite de variables aléatoires réelles X1 , X2 , ..., Xd est indépendante, alors la matrice de dispersion de X est diagonale.
La réciproque est fausse.
Proposition 3.6.12. Si (X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp ) est une suite indépendantes de variables
aléatoires, alors pour toutes applications boréliennes ϕ de IRn dans IRd1 et ψ de IRp dans IRd2 ;le
couple de vecteurs aléatoires (ϕ(X1 , X2 , ..., Xn ), ψ(Y1 , Y2 , ..., Yp )) est indépendant.
Preuve. • Considérons les vecteurs aléatoires X = (X1 , X2 , ..., Xn ) et Y = (Y1 , Y2 , ..., Yp ). Montrons que le couple de vecteurs aléatoires (X, Y ) est indépendnt. Comme (X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp )
est une suite indépendante, pour tous boréliens de IR,A1 , A2 , ..., An , on a
IPX [A1 × A2 × ... × An ] = IP(X1 ,X2 ,...,Xn ) [A1 × A2 × ... × An ]
= IP(X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp )[A1 × A2 × ... × An × IRp ]
= IPX1 (A1 )....IPXn (An )
(Fubini)
30
CHAPTER 3. VECTEURS ALÉATOIRES
Cequi prouve que IPX = IP(X1 ,X2 ,...,Xn ) = IPX1 ⊗ .... ⊗ IPXn . Par suite
IP(X,Y ) = IP(X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yp )
= IPX1 ⊗ .... ⊗ IPXn ⊗ IPY1 ⊗ .... ⊗ IPYp
(Fubini)
= IPX ⊗ IPY
• Soient deux applications boréliennes positives f1 et f2 sur IRd1 et IRd2 respectivement. Comme
f1 ◦ ϕ et f2 ◦ ψ sont des fonctions boréliennes positives, il vient
IE[f1 (ϕ(X))f2 (ψ(Y ))] = IE[f1 (ϕ(X))]IE[f2 (ψ(Y ))]
On déduit alors du critère des fonctions positives que la suite (ϕ(X), ψ(Y )) est indépendante.
Remarque 3.6.13. Lorsque les vecteurs aléatoires X1 , ..., Xn sont indépendants, alors ∀m ∈ [[1, n]], ∀1 ≤
d1 < d2 < ... < dm ≤ n, les vecteurs (X1 , X2 , ..., Xd1 ), (Xd1 +1 , ...Xd2 ), ..., (Xdm−1 +1 , ...Xdm ) et
(Xdm +1 , ...Xn ) sont indépendants.
Proposition 3.6.14. Critère d’indépendance par les fonctions caractéristiques.
Soit (X1 , X2 , ..., Xn ) une suite de vecteurs aléatoires dedimensions respectives d1 , d2 , ..., dn . Alors
la suite (X1 , X2 , ..., Xn ) est indépendante si et seulement si, pour tout u1 ∈ IRd1 , ..., un ∈ IRdn ,
Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) = ΦX1 (u1 )...ΦXn (un )
i
i
h
i
h
h Pn
IE ei k=1 huk ,Xk i = IE eihu1 ,X1 i ...IE eihun ,Xn i
Preuve. Supposons que les vecteurs aléatoires (X1 , X2 , ..., Xn ) sont indépendants. Alors pour
tout u1 ∈ IRd1 , ..., un ∈ IRdn , en appliquant le critère des fonctions bornées avec f1 (X1 ) =
eihu1 ,X1 i , ..., fn (Xn ) = eihun ,Xn i , on obtient
!
k=n
h Pn
i
Y
Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) = IE ei k=1 huk ,Xk i = IE
eihuk ,Xk i
k=1
=
k=n
Y
IE eihuk ,Xk i = ΦX1 (u1 )...ΦXn (un ).
k=1
Réciproquement, si u1 ∈ IRd1 , ..., un ∈ IRdn et u = (u1 , ..., un ) ∈ IRd1 +...+dn . Soit X = (X1 , X2 , ..., Xn )
un vecteur aléatoire de dimension d1 + ... + dn de loi IPX , la condition Φ(X1 ,X2 ,...,Xn ) (u1 , ..., un ) =
ΦX1 (u1 )...ΦXn (un ) s’écrit en appliquant le théorème du transfert et celui de Fubini,
Z
Z
ihu,xi
e
dIP(X1 ,X2 ,...,Xn ) (x) =
eihu,xi d[IPX1 ⊗ ... ⊗ IPXn ]
d1 +...+dn
d1 +...+dn
IR
IR
Ainsi IP(X1 ,X2 ,...,Xn ) et IPX1 ⊗ ... ⊗ IPXn ont les mêmes fonctions caractéristiques et par suite
IP(X1 ,X2 ,...,Xn ) = IPX1 ⊗ ... ⊗ IPXn .
3.6.4
Loi et espérance conditionnelles
On considère un couple (X, Y ) : Ω −→ IRd1 × IRd2 avec la densité pX,Y (x, y). On note pX (x) et
pY (y) les densités marginales respectives de X et Y .
Définition 3.6.15. Pour y ∈ IRd2 , on appelle densité conditionnelle de X sachant Y = y, la
densité pX,y (x) donnée par la formule
(
pX,Y (x,y)
si pY (y) > 0
pY (y)
pX,y (x) =
pX (x) sinon
3.7. LOI BÉTA, GAMMA, DU CHI 2, DE STUDENT ET DE FISHER
31
Proposition 3.6.16. Les variables X et Y sont indépendantes si et seulement si la densité conditionnelle de X sachant Y = y ne dépend pas de y.
Définition 3.6.17. Soit f : IRd1 ×IRd2 −→ IR telle que f (X, Y ) est intégrable. On appelle espérance
conditionnelle de f (X, Y ) sachant Y et on note IE (f (X, Y )|Y ) la variable aléatoire
Z
IE (f (X, Y )|Y ) = ψ(Y ) où ψ(y) =
f (x, y)pX,y (x)dx
IRd1
Proposition 3.6.18. On suppose que f (X, Y ) est intégrable. Pour toute fonction g : IRd2 −→ IR
telle que f (X, Y )g(Y ) est intégrable, la variable aléatoire IE (f (X, Y )|Y ) g(Y ) est intégrable et on
a
IE [IE (f (X, Y )|Y ) g(Y )] = IE (f (X, Y )g(Y )) .
En outre, IE [IE (f (X, Y )|Y )] = IE (f (X, Y )). Enfin si f (X, Y ) est de carré intégrable, IE (f (X, Y )|Y )
l’est aussi et V ar [IE (f (X, Y )|Y )] ≤ V ar [f (X, Y )].
Exercise 3.6.19. Soit U et V deux variables aléatoires uniformes sur [0, 1] indépendantes et Y =
U −V.
1. Calculer la loi du couple (U, Y ).
2. En déduire la loi marginale de Y .
3. Donner la loi conditionnelle de U sachant Y = y et calculer IE(U |Y ).
3.7
Loi béta, gamma, du chi 2, de Student et de Fisher
Z
Dans toute cette section, on note Γ la fonction gamma d’Euler: a > 0 7→ Γ(a) =
On vérifie aisément que ∀a > 0
Γ(a + 1) = aΓ(a) et ∀n ∈ IN∗
Γ(n) = (n − 1)!.
+∞
xa−1 e−x dx.
0
Loi gamma de paramètres a > 0 et θ > 0
La variable X suit la loi gamma de paramètres a > 0 et θ > 0 et on note X ∼ Γ(a, θ) si X possède
la densité
θa a−1 −θx
pX (x) =
x e I{x>0}
Γ(a)
Exemple: La loi exponentielle de paramètre θ est la loi Γ(1, θ).
Loi béta de paramètres a > 0 et b > 0
La variable X suit la loi béta de paramètres a > 0 et b > 0 et on note X ∼ β(a, b) si X possède la
densité
Γ(a + b) a−1
x (1 − x)b−1 I{0<x<1}
pX (x) =
Γ(a)Γ(b)
Exemple: La loi uniforme sur [0, 1] est la loi β(1, 1).
Proposition 3.7.1. (i) Soit X1 , X2 , ..., Xn des variables aléatoires identiques identiquement distribuées (I.I.D) suivant la loi exponentielle de paramètre θ > 0 .
Alors la loi de Sn = X1 + X2 + ... + Xn est la loi gamma de paramètre (n, θ): Γ(n, θ).
X
(ii) Soit X ∼ Γ(a, θ) et Y ∼ Γ(b, θ) indépendantes. Alors S = X + Y et Z = X+Y
sont deux
variables aléatoires indépendantes de loi respective Γ(a + b, θ) et β(a, b).
Preuve. Exercice. 1. Faire la preuve du (i) et du (ii).
Z 1
Γ(a)Γ(b)
2. Déduire du (ii) que
z a−1 (1 − z)b−1 dz =
.
Γ(a + b)
0
32
CHAPTER 3. VECTEURS ALÉATOIRES
Définition 3.7.2. I On appelle loi de Chi 2 à n degrés de liberté et on note χ2 (n), la loi de
X12 + X22 + ... + Xn2 où X1 , X2 , ..., Xn sont n variables normales centrées réduites indépendantes.
G
I On appelle loi de Student de paramètre n et on note t(n), la loi de q où G ∼ N (0, 1) et
Y
n
Y ∼ χ2 (n).
Proposition 3.7.3. (i) La loi χ2 (n) est la loi Γ( n2 , 12 ) de densité
pX (y) =
y
n
1
y 2 −1 e− 2 I{y>0}
n
2 Γ( 2 )
n
2
(ii) La loi de Student t(n) est la loi de densité
pX (t) =
Preuve. Exercice.
Γ( n+1
1
2 )
×
n √
Γ( 2 ) nπ (1 + t2 ) n+1
2
n
Chapter 4
Vecteurs aléatoires gaussiens
4.1
4.1.1
Définition, construction
Définition
Définition 4.1.1. Une variable aléatoire réelle de loi N (m, σ 2 ), où m est un réel et σ un réel
positif ou nul, est dit gaussienne.
Définition 4.1.2. On dit qu’un vecteur aléatoire X = (X1 , X2 , ..., Xd ) : Ω −→ IRd est un vecteur
gaussien si toute combinaison linéaire de ses coordonnées est une variable aléatoire gaussienne
réelle. C’est à dire si pour tous réels a1 , a2 , ..., ad , la variable aléatoire réelle a1 X1 +a2 X2 +...+ad Xd
est une variable aléatoire gaussienne.
Proposition 4.1.3. Soit (X1 , X2 , ..., Xd ) une suite de variable aléatoire réelle. Si le vecteur X =
(X1 , X2 , ..., Xd ) est une vecteur gaussien de dimension d, alors pour tout k = 1, 2, ..., d Xk est une
variable aléatoire réelle gaussienne.
La réciproque est fausse.
Preuve. Pour montrer que la réciproque est fausse, considérons le contre-exemple suivant:
Soient Y ∼ N (0, 1) et Z = εY où ε est une variable aléatoire indépendante de Y telle que
IP(ε = 1) = IP(ε = −1) = 21 . Déterminer la loi de Z et vérifier que IP(Y + Z = 0) = 12 . Conclure.
Proposition 4.1.4. Soit (X1 , X2 , ..., Xd ) une suite indépendantes de variable aléatoire réelle.
Si le vecteur X = (X1 , X2 , ..., Xd ) est une vecteur gaussien de dimension d si et seulment si pour
tout k = 1, 2, ..., d Xk est une variable aléatoire réelle gaussienne.
Preuve. (=⇒) Cela résulte de l adéfinition des vecteurs gaussiens. ( pas besoin de l’hypothèse
d’indépendance).
(⇐=) Si (X1 , X2 , ..., Xd ) est une suite indépendante de variable aléatoire réelle, alors pour tous
réels a1 , a2 , ..., ad , la suite (a1 X1 , a2 X2 , ..., ad Xd ) est indépendante. De plus si la variable aléatoire
réelle Xk ∼ N (mk , σk2 ), la variable aléatoire réelle ak Xk ∼ N (ak mk , a2k σk2 ). La variable aléatoire
réelle a1 X1 + a2 X2 + ... + ad Xd est alors une une variable aléatoire réelle gaussienne comme somme
de variables aléatoires réelles gaussiennes indépendantes.
Proposition 4.1.5. Soit X un vecteur aléatoire de dimension d admettant une espérance m =
(m1 , m2 , ..., md ) ∈ IRd et une matrice de dispersion D. Alors X est une vecteur gaussien si et
seulement si, sa fonction caractéristique ΦX est donnée par , pour tout u ∈ IRd
1
ΦX (u) = exp ihu, mi − hu, D ui
2
34
CHAPTER 4. VECTEURS ALÉATOIRES GAUSSIENS
Preuve. (=⇒) Posons X = (X1 , X2 , ..., Xd , u = (u1 , u2 , ..., ud ) et Y = u1 X1 + u2 X2 + ... +
ud Xd . Comme X est un vecteur gaussien, la variable aléatoire réelle Y est de loi gaussienne,
Y ∼ N (mY , σY2 ). De plus
mY = IE(Y ) = u1 IE(X1 ) + u2 IE(X2 ) + ... + ud IE(Xd ) = hu, mY i
et
σY2
h
i
= IE (Y − mY )2 = IE (u1 (X1 − m1 ) + u2 (X2 − m2 ) + ... + ud (Xd − md ))2 [
X
=
ui uj IE [(Xi − mi )(Xj − mj )]
1≤i,j≤d
=
X
ui uj Cov 0 Xi , Xj ) = hu, D ui
1≤i,j≤d
Comme pour tout u ∈ IRd ,
i(u1 X1 +u2 X2 +...+ud Xd )
ΦX (u) = IE e
On obtient
1 2
= IE(e ) = ΦY (1) = exp imY − σY
2
iY
1
ΦX (u) = exp ihu, mi − hu, D ui
2
(⇐=) Soit X = (X1 , X2 , ..., Xd ) un vecteur aléatoire quelconque de fonction caractéristique définie
sur IRd par
1
ΦX (u) = exp ihu, mi − hu, D ui
2
Soit Y = a1 X1 + a2 X2 + ... + ad Xd une combinaison linéaire des composantes de X. Pour tout réel
t
ΦY (t) = IE(eitY ) = IE ei(ta1 X1 +ta2 X2 +...+tad Xd ) = ΦX (a1 t, a2 t, ..., ad t)
1
= exp iha, mi − t2 ha, D ai
2
où on a posé a = (a1 , a2 , ..., ad ). Ainsi pour tout n-uplet de réels (a1 , a2 , ..., ad ), la variable aléatoire
réelle a1 X1 +a2 X2 +...+ad Xd est une la variable aléatoire réelle gaussienne de loi N (ha, mi, ha, D ai).
X est bien un vecteur gaussien.
4.2
Loi d’un vecteur gaussien
Proposition 4.2.1. Si m ∈ IRd et D est une matrice carré d’ordre d à coefficients réels, symétrique
et de type positif, il existe un espace de probabilité (Ω, F, IP) et un vecteur gaussien de dimension
d sur (Ω, F, IP) d’espérance m et de matrice de dispersion D.
Définition 4.2.2. On appelle loi de Gauss-Laplace ou loi normale sur IRd de paramètres
m et D, la loi de probabilité d’un vecteur gaussien de dimension d d’espérance m et de matrice de
dispersion D. On note Nd (m, D).
Proposition 4.2.3. Si X est un vecteur gaussien de dimension d, A une matrice rectangulaire
k × d à coefficients réels et b un vecteur de dimension k. Alors le vecteur aléatoire Y = A X + b est
un evecteur gaussien de dimension k. De plus si X ∼ Nd (m, D), la loi de Y est Nd (Am+b, ADA∗ ).
4.2. LOI D’UN VECTEUR GAUSSIEN
35
Proposition 4.2.4. Soit X = (X1 , X2 , ..., Xd ) un vecteur gaussien de dimension d. Alors la suite
de variables aléatoires réelles (X1 , X2 , ..., Xd ) est indépendante si et seulement si la matrice de
dispersion de X est diagonale.
Proposition 4.2.5. Soient m ∈ IRd et D une matrice carrée d’ordre d à coefficients réels,
symétrique et de type positif. Si D est inversible, alors X ∼ Nd (m, D) a pour densité sur IRd
1
1
∗ −1
pX (x) = p
exp − (x − m) D (x − m)
2
(2π)d det(D)
Exemple 4.2.6. Soit (X, Y ) un couple √de variables aléatoires réells admettant pour densité
3
1 2
2
2
l’application définie sur IR par f (x, y) =
exp − (x − xy + y ) . On vérifie que
4π
2
x
x
1 − 12
−1
2
2
= (x, y)D
(x − xy + y ) = (x, y)
1
−2 1
y
y

où D = 
4
3
2
3
2
3
4
3

 est la matrice de dispersion du vecteur (X, Y ). On déduit que (X, Y ) est
un vecteur gaussien de loi Nd (0, D). Aussi X et Y suivent la loi N1 (0, 34 ). Puisque D n’est pas
diagonale, X et Y ne sont pas indépendantes.
36
CHAPTER 4. VECTEURS ALÉATOIRES GAUSSIENS
Chapter 5
Convergence et théorèmes limites
5.1
Convergence
Définition 5.1.1. Pour n −→ +∞, on dit qu’une suite (Xn )n≥1 de variables aléatoires à valeurs
dans IRd converge vers la variable X à valeurs dans IRd :
I Presque sûrement si IP (Xn −→ X) = IP ({ω : Xn (ω) −→ X(ω)}) = 1. C’est à dire les fonctions
Xn (ω) définies sur Ω convergent ponctuellement sur un sous-ensemble de Ω de probabilité 1 vers la
fonction X.
I En probabilité si ∀ε > 0, IP (|Xn − X| ≥ ε) tend vers 0 quand n −→ +∞.
I Dans L1 si les variables Xn , X sont intégrables et IE(|Xn −X|) tend vers 0 quand n −→ +∞.
I Dans L2 ( ou en moyenne quadratique) si les variables Xn , X sont de carré intégrables et
IE(|Xn − X|2 ) tend vers 0 quand n −→ +∞.
Remarque 5.1.2. Soit (Xn )n≥1 une suite de variables aléatoires réelles qui converge dans L1 vers X.
Alors lim IE(Xn ) = IE(X). En effet, comme Xn − X ≤ |Xn − X|, par linéaritét croissance de
n−→+∞
l’espérance, IE(Xn ) − IE(X) = IE(Xn − X) ≤ IE|Xn − X|. De même, par symétrie IE(X) − IE(Xn ) =
IE(X − Xn ) ≤ IE|X − Xn |. Ainsi |IE(Xn ) − IE(X)| ≤ IE|Xn − X|. Ce qui permet de conclure.
Théorème 5.1.3. (convergenge dominée). Soit (Xn )n≥1 une suite de variables aléatoires réelles
qui converge presque sûrement vers X. On suppose d eplus la suit est dominée au sen soù il existe
un evariable aléatoire Y intégrable telle que
∀n ≥ 1,
IP(|Xn | ≤ Y ) = 1.
Alors X est intégrable et (Xn )n≥1 converge dans L1 vers X. Ce qui entraı̂ne en particulier que
lim IE(Xn ) = IE(X).
n−→+∞
Proposition 5.1.4. ( Quelques inégalités)
Inégalité de Markov: Si IE|X| < +∞, alors
∀a > 0,
IP(|X| ≥ a) ≤
IE|X|
.
a
Inégalité de Bienaymé-Tchebychev: Si IE(X 2 ) < +∞, alors
∀a > 0,
IP(|X − IE(X)| ≥ a) ≤
var(X)
.
a2
Inégalité de Cauchy-Schwarz: Si les variables X et Y sont de carré intégrable, alors
p
p
|IE(XY )| ≤ IE(X 2 ) IE(Y 2 ).
38
CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES
Preuve. • Inégalité de Markov: Comme ∀x ∈ IR,
croissance de l’espérance, on obtient
I{|x|≥a} ≤
|x|
a ,
en utulisant la propriété de la
|X|
IP(|X| ≥ a) = IE I{|x|≥a} ≤
.
a
• Inégalité de Bienaymé-Tchebychev : Utiliser ∀x ∈ IR, I{|x|≥a} ≤
• Inégalité de Cauchy-Schwarz: Utiliser ∀λ ∈ IR, le polynôme
x2
a2
et la même méthode.
IE(X 2 ) + 2λIE(XY ) + λ2 IE(Y 2 ) = IE[(X + λY )2 ] ≥ 0
Son discriminant 4[IE(XY )]2 − 4IE(X 2 )IE(Y 2 ) ≤ 0. Ce qui donne le résultat.
Proposition 5.1.5. I La convergence L2 implique la convergencze L1 qui elle-mˆme implique la
convergence en probabilité.
I Soit (Xn )n≥1 une suite de variables aléatoires réelles qui converge dans L2 vers X. Alors
IE(Xn ),IE(Xn2 ) et V ar(Xn ) convergent respectivement vers IE(X),IE(X 2 ) et V ar(X).
I la convergence presque-sûre entraı̂ne la convergence en probabilité. La réciproque n’est pas vraie.
Preuve. Concergence L2 =⇒ convergence L1 : Toute variable de carré intégrable
p est intégrable et
V ar(Xn − X) = IE(|Xn − X|2 ) − [IE|Xn − X|]2 ≥ 0. Il vient IE|Xn − X| ≤ IE(|Xn − X|2 ). Ce
qui donne le résultat.
Concergence L1 =⇒ convergence en probabilité: Cela découle de l’inégalité de Markov, IP(|Xn −
IE|Xn − X|
X| ≥ ε) ≤
pour ε > 0.
ε
2
2
Concergence L =⇒ convergence des espérances et variances: Il suffit
p de vérifier
p que IE(Xn ) con2
verge vers IE(X ). Par l’inégalité de Cauchy-Schwarz, IE(Xn X) ≤ IE(Xn2 ) IE(X 2 ). Donc
p
2
p
IE (Xn − X)2 = IE(Xn2 ) − 2IE(Xn X) + IE(X 2 ) ≥
IE(Xn2 ) − IE(X 2 )
p
p
Ainsi , IE(Xn2 ) converge vers IE(X 2 ) et on conclut en utilisant la continuité de x 7→ x2 .
Concergence presque-sûre =⇒ convergence en probabilité: Soit (Xn )n≥1 une suite qui converge
presque-sûrement vers X. Alors la suite |Xn − X| converge presque-sûrement vers 0.
Pour tout ε > 0, la fonction I{|x|≥ε} est continue en 0. On déduit que Yn = I{|Xn −X|≥ε} converge
presque-sûrement vers 0. Les variable Yn sont dominées
par 1 qui e st intégrable. Donc Yn converge
dans L1 vers 0. Comme IP(|Xn − X| ≥ ε) = IE I{|Xn −X|≥ε} , on a le résultat
lim IP(|Xn − X| ≥ ε) = lim IE I{|Xn −X|≥ε} = 0.
n−→+∞
5.2
5.2.1
n−→+∞
Lois des grands nombres
Loi faibles des grands nombres
Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquement distribuées (
(I.I.D). Les lois des grands nombres portent sur le comportement de la moyenne empirique
n
1X
Xj lorque n −→ +∞.
n
j=1
Proposition 5.2.1. Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquen
1X
ment distribuées ( (I.I.D) de carré intégrable. Alors la moyenne empirique
Xj converge dans
n
j=1
L2
( et donc dans
L1
et en probabilité) vers l’espérance commune IE(X1 ).
5.3. FONCTION CARACTÉRISTIQUE ET CONVERGENCE EN LOI
39
Preuve.
IE (X¯n − IE(X1 ))2 =


2 
n
n
X
1 X
IE
Xj − IE 
Xj  
n2
j=1
=
j=1
n
1 X
V ar(Xj ) par indépendance des Xj
n2
j=1
=
5.2.2
V ar(X1 )
−→n→+∞ 0
n
Loi forte des grands nombres
Théorème 5.2.2. Soit (Xj )j≥1 une suite de variables aléatoires réelles indépendantes identiquen
1X
ment distribuées ( (I.I.D) intégrables. Alors la moyenne empirique
Xj converge presquen
j=1
sûrement et dans L1 vers l’espérance commune IE(X1 ). C’est à dire


n
X
1
IP 
Xj → IE(X1 ) = 1.
n
j=1
5.3
Fonction caractéristique et convergence en loi
5.3.1
Fonction caractéristique
Définition 5.3.1. Soit X un vecteur aléatoire à valeurs dans IRd . On appelle fonction caractéristique de X, la fonction:
ΦX : u ∈ IRd −→ ΦX (u) = IE eihu,Xi
Remarque 5.3.2. I ΦX (0, 0..., 0) = 1.
I ∀u ∈ IRd , ΦX (−u) = ΦX¯(u).
I La fonction caractéristique de X Zn edépend que de la loi de X: L(X) = L(Y ) =⇒ ΦX ≡ ΦY .
I Si ΦX est intégrable au sens où
inversion de Fourier:
IRd
|ΦX (u)|du < +∞, alors X possède la densité obtenue par
Z
1
e−ihu,xi ΦX (u)du
(2π)d IRd
x ∈ IRd −→ p(x) =
I Fonctions caractéristiques des lois usuelles.
Loi
Fonction caractéristique
Benoulli B(p)
(1 − p) + peiu
Binomiale B(n,p)
[(1 − p) + peiu ]n
peiu
Géométrique G(p)
1−(1−p)eiu Poisson P(λ)
exp λ(eiu − 1)
Uniforme U[a, b]
Exponentielle E(λ)
Cauchy C(a)
Gaussienne N1 (µ, σ 2 )
(b−a)u
2
(b−a)u
2
eiu
(b+a)
2
λ
λ−iu
−a|u|
e
eiuµ−
σ 2 u2
2
40
CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES
Exercise 5.3.3. Faire le calcul explicite des ces fonctions caractéristiques.
Exercise 5.3.4. Soit T une variable aléatoire exponentielle de paramètre a > 0 et ε une variable
indépendante telle que IP(ε = 1) = IP(ε = −1) = 1/2. On pose
X = εT
1. Déterminer la loi de X.
2. Calculer sa fonction caractéristique ΦX .
3. Appliquer la formule d’inversion de la précédente remarque, déduire la fonction caractéristique
d’une variable aléatoire qui suit la loi de Cauchy C(a).
n
X
4. En déduire la loi de §n =
Yj d’une suite (Yj )j≥1 de variables aléatoires I.I.D suivant la loi
j=1
Cauchy C(a).
5.3.2
Convergence en loi
Définition 5.3.5. On dit que la suite (Xn )n≥1 de variables aéatoires à valeurs dans IRd converge
L
en loi vers la variable aléatoire X à valeurs dans IRd et on note Xn −
→ X si
∀f : IRd → IR continue bornée IE(f (Xn ) −→n→+∞ IE(f (X)).
Exemple 5.3.6. I Pour n ∈ IN∗ , on suppose que ∀1 ≤ k ≤ n, IP(Un = k/n) = 1/n. Soit
f : IR → IR continue bornée. La convergence des sommes de Riemann vers l’intégrale entraine que
Z 1
n
1X 1
IE(f (Un )) =
f (u)du = IE(f (U )).
f ( ) −→n→+∞
n
n
0
k=1
où U est une variable uniforme sur [0, 1]. Ainsi la suite (Un )n≥1 converge en loi vers U ∼ U[0, 1].
I Pour n ∈ IN∗ , Xn est une variable aléatoire uniformément répartie sur [0, 1/n]. Alors pour tout
f continue bornée,
Z 1
n
IE(f (Xn )) = n
f (x)dx −→n→+∞ f (0).
0
Donc,la suite (Xn )n≥1 converge en loi vers X telle que IP(X = 0) = 1. δ0 la mesure de Dirac.
I Pour n ∈ IN, soit Tn une variable aléatoire exponentielle de paramètre λn > 0. On suppose que
la suite (λn )n converge vers λ > 0. Alors pour f : IR → IR continue bornée,
∀n ∈ IN,
∀x ≥ 0, |f (x)λn eλn x | ≤ g() = |f (x)|(sup λn )e(inf n −λn )x ,
n
où la fonction g est intégrable sur [0, +∞[. Par le théorème de la convergence dominée,
Z +∞
IE(f (Tn )) =
f (x)λn e−λn x dx
0
Z
converge vers
+∞
f (x)λe−λ x dx = IE(f (T )) où T suit la loi exponentielle de paramètre λ > 0.
0
Ainsi (Tn )n converge vers T ∼ E(λ).
Proposition 5.3.7. Soit (Xn )n une suite de variables aéatoires à valeurs dans IRd converge en loi
vers X et ϕ : IRr → IRq une fonction continue. Alors la suite (ϕ(Xn ))n converge en loi vers ϕ(X).
Preuve. Soit g : IRq →R continue bornée. La fonction g ◦ ϕ : IRd → IR est continue bornée.
Doncla convergence en loi de (Xn )n≥1 vers X entraı̂ne que
lim IE[g(ϕ(Xn ))] = IE[g(ϕ(X))]
n→+∞
5.3. FONCTION CARACTÉRISTIQUE ET CONVERGENCE EN LOI
41
d
Théorème 5.3.8. La suite (Xn )n≥1 de variables aéatoires à valeurs dans IR converge en loi vers la
variable aéatoire X à valeurs dans IRd si et seulement si la fonction caractéristique de Xn converge
ponctuellement vers la la fonction caractéristique de X. C’st à dire
L
→ X ⇐⇒ ∀u ∈ IRd , ΦXn (u) → ΦX (u)
Xn −
Corollaire 5.3.9. Si la suite (Xn )n≥1 converge en probabilité vers X, alors elle converge en loi
vers X.
Preuve. Soit u ∈ IRd et ε > 0. On a
|ei∠u,Xn i − ei∠u,Xn i | = |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|≥ε} + |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|<ε}
≤ 2 × I{|Xn −X|≥ε} + |ei∠u,Xn i − ei∠u,Xn i |I{|Xn −X|<ε} .
Comme ∀a, b ∈ IR, |eia − eib | ≤ |b − a|, on déduit que
|ei∠u,Xn i − ei∠u,Xn i | ≤ 2 × I{|Xn −X|≥ε} + |u|εI{|Xn −X|<ε} ≤ 2 × I{|Xn −X|≥ε} + |u|ε.
Par suite
|ΦXn (u) − ΦX (u)| = |IE ei∠u,Xn i − ei∠u,Xn i | ≤ IE ei∠u,Xn i − ei∠u,Xn i ≤ 2IP (|Xn − X| ≥ ε) + |u|ε.
Uniformément en n, le second terme à gauche est arbitrairement petit tandis qu’à ε fixé le premier terme converge vers 0 quand n → +∞ ( dû à la convergence en probabilité). Ainsi, ∀u ∈
IRd , ΦXn (u) → ΦX (u).
Proposition 5.3.10. Si la suite (Xn )n≥1 de variable aléatoires à valeurs dans IRd converge en loi
vers la variable aléatoire X à valeurs dans IRd , alors
IE (f (Xn )) −→n→+∞ IE (f (X))
pour toute fonction f : IRd −→ IR bornée dont l’ensemble des points de discontinuité D vérifie
IP(X ∈ D) = 0.
Remarque 5.3.11. Il ne suffit pas que la suite (Xn )n converge en loi vers X et que la suite (Yn )n
converge en loi vers Y pour que la suite des couples (Xn , Yn )n converge en loi vers (X, Y ). En
1
exemple, soit Z la variable aléatoire telle IP(Z = −1) = IP(Z = 1) = et (Xn , Yn ) = (Z, (1)−n Z).
2
Alors la suite (Xn )n converge en loi vers Z. De même la suite (Yn )n converge en loi vers Z puisque
L(−Z) = L(Z). Mais pour la fonction continue bornée f (x, y) = min(|x − y|, 2) sur IR2 ,
IE ((f (Xn , Yn )) =
0
2
si n est pair
si n est impair
Si bien que la suite (Xn , Yn )n ne converge pas en loi.
Théorème 5.3.12. (Slutsky) Soit (Xn , Yn )n une suite de vecteurs aléatoires à valeurs dans IRd1 ×
IRd2 telle que (Xn )n converge en loi( ou en probabilité ou presque-sûrement) vers une constante
a ∈ IRd1 et (Yn )n converge en loi vers Y . Alors (Xn , Yn )n converge en loi vers (a, Y ). En particulier
lorque d1 = d2 = 1, (Xn Yn )n converge en loi vers aY et lorsque d1 = d2 , (Xn + Yn )n converge en
loi vers a + Y .
42
CHAPTER 5. CONVERGENCE ET THÉORÈMES LIMITES
Preuve. Soit (u, v) ∈ IR
d1
d2
× IR .
h
i
|Φ(Xn ,Yn ) (u, v) − Φ(a,Y ) (u, v)| = |IE (eihu,Xn i − eihu,ai )eihv,Yn i + eihu,ai IE(eihv,Yn i − eihv,Y i |
≤ IE|eihu,Xn i − eihu,ai | + |ΦYn (v) − ΦY (v)|
La convergence en loi de Yn vers Y entraı̂ne que le second terme tend vers 0 quand n → +∞. En
outre la fonction x ∈ IRd1 7→ f (x) = |eihu,xi − eihu,ai | est continue et bornée. On déduit que le
premier terme converge vers IE(f (a)) = 0. On conclut ainsi que (Xn , Yn )8n converge en loi vers
(a, Y ).
Les cas particuliers proviennent de la Proposition ?? en remarquant que (x, y) ∈ IR × IR 7→ xy et
(x, y) ∈ IRd1 × IRd2 7→ x + y sont des fonctions continues.
5.4
Le théorème de la limite centrale
Théorème 5.4.1. (T.C.L)
Soit (Xj )j≥1 une suite de variables
p aléatoires réelles indépendantes et identiquement distribuées
2
telles que IE(X1 ) < +∞ et σ = V ar(X) > 0. Alors n → +∞,


√
n
n 1 X
L
Xj − IE(X1 ) −
→ N (0, 1).
σ
n
j=1
Preuve. On note X̄n =
Φ √n
σ
1
n
(X¯n −IE(X1 ))
Pn
j=1 Xj .
Soit u ∈ IR,
h
i
1 Pn
iu √
(X −IE(Xj ))
(u) = IE e σ n j=1 j
=
n
Y
i
h
1
X −IE(Xj ))
iu √
par indépendance des Xj
IE e σ n ( j
j=1
in
h
1
iu √
X −IE(X1 ))
car les Xj ont même loi ,
IE e σ n ( 1
n
u
√
=
ΦX1 −IE(X1 )
.
σ n
=
Comme IE(X1 − IE(X1 )) = 0 et IE((X1 − IE(X1 ))2 ) = σ 2 , pour v au voisinage de 0, on a
ΦX1 −IE(X1 ) (v) = 1 −
σ2 2
v + o(v 2 ).
2
Donc pour n grand,
ΦX1 −IE(X1 )
Par suite
Φ
√
n
σ
u
√
σ n
=1−
u2
1
+ o( )
2n
n
n
2
u2
1
− u2
(u)
=
1
−
+
o(
)
→
e
= ΦY (u).
n→+∞
¯
(Xn −IE(X1 ))
2n
n
Download