Uploaded by Daniel boh

Cours Probabilit final

advertisement
Probabilités - Variables aléatoires discrètes
18 mars 2024
Table des matières
1 Préliminaires techniques et rappels
4
1.1
Dénombrabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2
Séries numériques et familles sommables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2 Espaces probabilisés
7
2.1
Vocabulaire probabiliste de base : Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2
Notion de tribu sur un ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2.1
Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2.2
Tribu engendrée par une partie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2.3
Tribus boréliennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Probabilité sur un espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.3.1
Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.3.2
Propriétés de continuité monotone. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.3.3
Construction d’une probabilité sur des espaces probabilisés discrets . . . . . . . . . . . . . . .
20
2.3
3 Conditionnement
23
3.1
Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.2
Propriétés des probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.2.1
Formules des probabilités composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.2.2
Formule des probabilités totales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.2.3
Formule de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4 Indépendance d’événements
29
4.1
Cas de deux événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
4.2
Cas d’une famille d’événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
1
5 Variables aléatoires réelles : généralités
34
5.1
Premières notions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
5.2
Opérations sur les variables aléatoires réelles
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
5.3
Fonction d’une ou plusieurs v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
5.4
Loi de probabilité d’une v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
5.5
Fonction de répartition d’une variable aléatoire réelle. . . . . . . . . . . . . . . . . . . . . . . . . . .
43
5.6
Indépendance des variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
5.6.1
Cas de deux v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
5.6.2
Cas d’une famille de v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
6 Variables aléatoires réelles discrètes
6.1
6.2
6.3
49
Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
6.1.1
Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
6.1.2
Loi et fonction de répartition d’une v.a.r.d . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
6.1.3
Indépendance des v.a.r.d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Espérance d’une v.a.r.d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
6.2.1
Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
6.2.2
Théorèmes de transfert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
6.2.3
Autre propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
Moments d’une v.a.r.d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
6.3.1
Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
6.3.2
Moments d’ordre 2 et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
7 Lois discrètes usuelles : rappels
7.1
7.2
70
Lois discrètes usuelles finies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
7.1.1
Loi uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
7.1.2
Loi de Bernoulli. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
7.1.3
Loi binomiale.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
Lois discrètes infinies usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
7.2.1
Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
7.2.2
Loi de Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
8 Couples aléatoires discrètes
74
8.1
Loi conjointe, lois marginales d’un couple aléatoire discret. . . . . . . . . . . . . . . . . . . . . . . . .
75
8.2
Loi d’une fonction réelle d’un couple aléatoire discret. . . . . . . . . . . . . . . . . . . . . . . . . . .
77
8.3
Covariance, coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
9 Stabilité de quelques familles de lois discrètes
84
2
10 Fonction génératrice d’une v.a.r à valeurs dans N
86
10.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
10.2 Fonction génératrice et lois discrètes usuelles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
10.3 Fonction génératrice et moments d’ordres 1 et 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
11 Variables aléatoires continues à densité
94
11.1 V.a continues, v.a absolument continues, densité de probabilité . . . . . . . . . . . . . . . . . . . . .
94
11.1.1 V.a continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
11.1.2 V.a.r absolument continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
11.2 Espérance, moments et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
11.2.1 Espérance d’une v.a.r continue à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
11.2.2 Théorème de transfert à une variable continue à densité . . . . . . . . . . . . . . . . . . . . . 109
11.2.3 Moments d’ordres supérieurs d’une v.a.r à densité . . . . . . . . . . . . . . . . . . . . . . . . 110
11.2.4 Moments d’ordre 2 et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
11.3 Lois continues à densité usuelles
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
11.3.1 Loi uniforme sur un segment. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
11.3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
11.3.3 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
11.3.4 Loi gamma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
12 Introduction à la notion de convergence d’une suite de v.a.r
123
12.1 Inégalités de concentration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
12.1.1 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
12.1.2 Inégalité de Bienaymé - Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
12.1.3 Inégalité de Jensen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
12.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
12.2.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
12.2.2 Opérations sur la convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
12.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
12.3.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
12.3.2 Lien avec la convergence en probabilité
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
12.3.3 Opérations sur la convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
12.4 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
12.4.1 Loi faible des grands nombres (LFGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.4.2 Théorème central limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
3
1
Préliminaires techniques et rappels
1.1
Dénombrabilité
a) Ensembles dénombrables
Définition 1.1
Un ensemble D est dit dénombrable si et seulement si il existe une bijection de N sur D
(on dit qu’il est équipotent à N)
Exemple 1.1
1. L’ensemble N, lui-même, est dénombrable ainsi que ses parties N∗ = N ∖ {0}, N ∖ {0, 1}, P (ensemble des
nombres entiers naturels pairs) et I(ensemble des nombres entiers naturels impairs).
2. L’ensemble Z est également dénombrable car en posant, pour tout n ∈ N, f (2n) = n et f (2n + 1) = −n − 1,
on définit une bijection de N sur Z.
Propriétés
• Tout ensemble équipotent à un ensemble dénombrable est, lui-même, dénombrable.
• Toute partie infinie de N, ou d’un ensemble dénombrable, est dénombrable.
• Un ensemble D est dénombrable si et seulement si il peut s’écrire D = {xn / n ∈ N} ; où les xn sont deux à deux
distincts.
b) Ensembles au plus dénombrables
Définition 1.2
Un ensemble D est dit au plus dénombrable si et seulement si il existe une bijection d’une partie de N sur D.
Exemple 1.2
1. Tout ensemble dénombrable est au plus dénombrable.
2. Tout ensemble fini est au plus dénombrable.
Propriétés
• Tout ensemble équipotent à un ensemble au plus dénombrable est au plus dénombrable.
• Un ensemble est au plus dénombrable si et seulement si il est fini ou dénombrable.
• Un ensemble D est au plus dénombrable si et seulement si il peut s’écrire D = {xn / n ∈ N} .
• Un ensemble D est au plus dénombrable si et seulement si il existe une application injective de D dans un ensemble
dénombrable.
• Un ensemble D est au plus dénombrable si et seulement si il existe une application surjective d’un ensemble
dénombrable sur D.
4
• Le produit cartésien D1 × ... × Dr d’ensembles au plus dénombrables est au plus dénombrable ; de plus, il est
dénombrable si les Di sont tous non vides et l’un au moins d’eux est dénombrable.
S
• L’union au plus dénombrable
Di d’ensemble au plus dénombrable est au plus dénombrable ; de plus, elle est
i∈I
dénombrable si l’un au moins des Di est dénombrable.
• Un ensemble D est au plus dénombrable si et seulement si il existe une suite (Jn )n∈N de parties finies de D
S
Jn = D.
croissante pour l’inclusion telle que
n∈N
exemple 1.3
1. Pour tout r ∈ N∗ , Nr est dénombrable.
2. L’ensemble Q des nombres rationnels est dénombrable.
3. L’ensemble Np × Zq × Qr est dénombrable, pour tout (p, q, r) ∈ N∗3 .
4. L’ensemble {−1, 2, 5} × ({−2, −1} ∪ N) × Z∗ est dénombrable.
Exemples d’ensembles infinis non dénombrables
Il importe de se rappeler que l’ensemble P (N) des parties de N est infini non dénombrable, que tous les intervalles
de R non vides et non réduits à un point le sont également, y compris R lui-même. On en déduit que l’ensemble
R ∖ Q des nombres irrationnels est forcément infini non dénombrable.
Exercice 1.1
Pour tout A ∈ P (N) on note φA sa fonction caractéristique. On rappelle qu’elle est l’application :
φA :
N
−→
n
7−→
 {0, 1}
1 ; si n ∈ A
0 ; si n ∈
/A
N
Montrer que l’application A 7−→ φA est une bijection de P (N) sur l’ensemble {0, 1} des applications de N dans
{0, 1}.
Qu’en déduit-on ?
1.2
Séries numériques et familles sommables
a) Absolue convergence d’une série, sommabilité d’une suite, permutation des termes
On rappelle les résultats suivants :
• Soit (an )n∈N une suite de nombres réels ou complexes. Alors les p.s.s.e :
1. La suite (an )n∈N est sommable.
P
2. la série
an est absolument convergente.
n≥0
De plus, dans ce cas,
+∞
P
an =
n=0
P
an et
+∞
P
n=0
n∈N
an ≤
+∞
P
n=0
|an | et
P
n∈N
an ≤
P
n∈N
|an |.
• Soit (an )n∈N une suite positive et σ une permutation de N. Alors les p.s.s.e :
P
1. la série
an est convergente.
n≥0
P
aσ(n) est convergente.
2. la série
n≥0
De plus, dans ce cas, on a :
+∞
P
n=0
an =
+∞
P
n=0
aσ(n)
• Soit (an )n∈N une suite de nombres réels ou complexes et σ une permutation de N. Alors les p.s.s.e :
5
1. la série
P
an est absolument convergente.
P
aσ(n) est absolument convergente.
2. la série
n≥0
n≥0
De plus, dans ce cas, on a :
+∞
P
an =
n=0
+∞
P
n=0
aσ(n)
b) Sommation par paquets
On rappelle les résultats suivants :
• Soit (ap )p∈I une famille positive au plus dénombrable et (Iλ )λ∈Λ un partage au plus dénombrable de I tel que
pour tout λ ∈ Λ, la famille (ap )p∈Iλ est sommable. Alors la famille (ap )p∈I est sommable si et seulement si la famille
!
!
P
P
P
P
ap
est sommable. De plus, dans ce cas, on a :
ap =
ap
p∈Iλ
p∈I
λ∈Λ
λ∈Λ
p∈Iλ
[découle immédiatement du théorème de sommation par paquets - version étroite)]
• Soit (ap )p∈I une famille de nombre réels ou complexes au plus dénombrable et (Iλ )λ∈Λ un partage au plus
dénombrable de I tels que la famille (ap )p∈I est sommable. Alors on a :
1. la famille (ap )p∈Iλ est sommable.
!
P
2. la famille
ap
est sommable.
p∈Iλ
3.
P
ap =
p∈I
P
λ∈Λ
P
λ∈Λ
!
ap .
p∈Iλ
[c’est le théorème de sommation par paquets - version large]
• Soit (ap,q )(p,q)∈I×J une famille double au plus dénombrable positive. Alors :
1. Si pour tout p ∈ I, la famille (ap,q )q∈J est sommable alors la famille (ap,q )(p,q)∈I×J est sommable si et
!
!
P
P P
P
ap,q
est sommable et on a :
ap,q =
ap,q
seulement si la famille
q∈J
(p,q)∈I×J
p∈I
p∈I
q∈J
2. Si pour tout q ∈ J, la famille (ap,q )p∈I est sommable alors la famille (ap,q )(p,q)∈I×J est sommable si et
!
!
P
P P
P
ap,q
est sommable et on a :
ap,q =
ap,q
seulement si la famille
q∈I
(p,q)∈I×J
q∈J
q∈J
p∈I
[découle du théorème de Fubini pour les familles doubles positives]
• Soit (ap,q )(p,q)∈I×J une famille double au plus dénombrable de nombres réels ou complexes. Alors :
!
P
ap,q
est sommable.
1. Pour tout p ∈ I la famille (ap,q )q∈J est sommable et la famille
q∈J
2. pour tout q ∈ J la famille (ap,q )p∈I est sommable et la famille
P
3.
(p,q)∈I×J
ap,q =
P
p∈I
P
q∈J
ap,q
!
=
P
q∈J
P
p∈I
ap,q
!
P
q∈I
ap,q
! p∈I
est sommable.
q∈J
c) Conventions (propres au cours de probabilité)
• Soit
P
n≥0
an une série à termes positifs. On sait que la suite réelle (Sn )n∈N de ses sommes partielles est croissante ;
donc, selon le théorème de limite monotone séquentiel, soit que cette suite est convergente dans R vers la somme de
la série (et c’est le cas de convergence de cette série) soit qu’elle tend vers +∞ en +∞ (et c’est le cas de la divergence
de cette série).
6
On pose
+∞
P
an = lim
n
P
n→+∞ k=0
n=0
ak en sorte que :
 +∞
P


an ∈ R




n=0
+∞
P
; en cas de convergence de la série
an = +∞
; en cas de sa divergence
n=0
Ainsi, avec cette convention, on a :
+∞
P
1. La quantité
an existe toujours dans R+ ∪ {+∞}
n=0
2.
P
an converge si et seulement si
+∞
P
an < +∞
n=0
n≥0
• Soit (ap )p∈I une famille positive au plus dénombrable. On sait qu’étant donnée une suite exhaustive (Jn )n∈N de
!
P
I, la suite
ap
est croissante ; donc, soit qu’elle converge dans R vers la somme de la famille (et le cas de
p∈Jn
n∈N
sommabilité de cette famille) soit qu’elle tend vers +∞ en +∞ (et
! c’est le cas de non sommabilité de cette famille).
P
P
On convient de poser, dans tous les cas
ap = lim
ap , en sorte que :
1.
P
p∈I
p∈I
n→+∞
ap est un élément de R+ ∪ {+∞}.
2. la famille (ap )p∈I est sommable si et seulement si
p∈Jn
P
ap < +∞
p∈I
N.B
Ces conventions ne valent pas pour les séries et familles scalaires non positives.
2
Espaces probabilisés
À l’inverse des phénomènes déterministes, où les conditions initiales permettent d’en prédire avec exactitude la ou
les issues, l’évolution des phénomènes aléatoires est totalement imprévisible. Le cours de probabilité a pour objet
de fournir des outils mathématiques permettant l’étude des phénomènes aléatoires afin d’améliorer au mieux les
prévisions relatives à leur évolution et interpréter rationnellement toutes les données qui leur sont liés. Le point de
départ est la notion d’espace probabilisé qu’on développe dans ce paragraphe
2.1
Vocabulaire probabiliste de base : Rappels
Expériences aléatoire
On appelle expérience aléatoire toute épreuve dont on ne peut prévoir l’issue et cela, même si on la répète dans les
mêmes conditions.
Comme exemples, on peut citer le lancer d’un ou de plusieurs dés, le lancer d’une ou de plusieurs pièces de monnaie,
le tirage d’une ou de plusieurs boules dans une urne, le lancer d’une fléchette sur une cible, la mesure de la durée de
vie d’ampoules électriques ou de la taille des personnes d’une population...etc.
Univers associé à une expérience
Étant donné une expérience aléatoire (E), l’ensemble de toutes ses issues (ou résultats) possibles est appelé l’univers
de l’expérience (E). On l’appelle également l’ensemble fondamental de (E). Traditionnellement, on désigne l’univers
en utilisant la lettre Ω.
Reprenons quelques uns des exemples précédent, afin de leur associer des univers :
7
1. Si on lance un dé cubique dont les faces sont numérotées de 1 à 6, le résultat est la face supérieure après que
le dé se stabilise. On convient de la confondre avec le numéro qu’elle porte. On peut donc associer à cette
expérience l’univers Ω = {1, 2, 3, 4, 5, 6} = J1, 6K.
2
En lançant deux dé discernables (par leur couleur par exemple), l’univers choisi peut être Ω = J1, 6K , c’est à
dire l’ensemble des couples (a, b) où a est le résultat de l’un des dé et b est le résultat de l’autre.
2. Si on lance une pièce de monnaie, le résultat est soit « pile » soit « face ». En notant respectivement P et F
ces deux résultats, on peut prendre comme univers Ω = {P, F }.
Si on lance cette pièce trois fois, les résultats possible sont des 3- listes d’éléments de {P, F }, c’est à dire des
triplets
 dont les projections sont dans {P, F }. On peut prendre comme univers :



Ω = (P, P, P ), (P, P, F ) , (P, F, P ) , (F, P, P ),(P, F, F ) , (F, P, F ) , (F, F, P ), (F, F, F ) , ou en notation plus
| {z } |
{z
}|
{z
} | {z }
0 faces
1 face
2 faces
3 faces
simple Ω = {P P P, P P F, P F P, F P P, P F F, F P F, F F P, F F F }
3. On tire simultanément trois boules d’une urne contenant n boules numérotées de 1 à n ; où n ≥ 4
chaque résultat possible est un lot de 3 boules prise parmi l’ensemble des boules de l’urne. Si on confond
chaque boule et le numéro qu’elle porte, on peut convenir que l’univers de cette expérience aléatoire est
Ω = {A ∈ P (J1, nK) / card (A) = 3} ; c’est l’ensemble de toutes les 3 - combinaisons de J1, nK.
4. Finalement, considérons l’expérience aléatoire qui consiste à mesurer la durée de vie d’une marque d’ampoule
électrique. Il est clair que toutes les durées de vie qu’on peut mesurer peuvent décrire un intervalle I non vide
et non réduit à un point inclus dans R∗+ qu’on peut estimer empiriquement. Alors on peut prendre Ω = I.
Remarque 2.1
Le choix de l’univers dépend de l’observateur. Ainsi dans l’expérience de lancer de deux dés discernables, on a vu
2
qu’on peut choisir Ω = J1, 6K . Mais un joueurs qui s’intéresse à miser sur la somme des deux numéros obtenus peut
avoir intérêt à prendre Ω = J2, 12K (ensemble de toutes les sommes possible de deux éléments de J1, 6K.
Prenons un autre exemple : On lance une fléchette sur une cible circulaire de centre un point O et de rayon R > 0
(on suppose que tous les joueurs sont assez adroits pour atteindre la cible à chaque tentative).
Dans cette expérience, on peut choisir comme univers l’ensemble des points de la cible qu’on peut confondre avec le
disque D (O, R) limité par le cercle C (O, R) et poser Ω = D (O, R). Mais un joueur autre qui ne s’intéresse qu’à la
distance du point d’impact au centre O peut prendre comme univers le segment Ω = [0, R].
Le modèle mathématique probabiliste qu’on va développer propose des outils de prévision viables quelque soit le
choix de l’univers.
Événements liés à une expérience aléatoire
Au cours d’une expérience aléatoire (E) à laquelle on a associé l’univers Ω, nombre de séquences peuvent arriver.
Par exemple, dans l’épreuve de lancer un dé cubique dont les faces sont numérotées de 1 à 6, il peut arriver que
le résultat de l’expérience soit un nombre pair, ou impair, ou qu’il soit plus petit que 5, ou qu’il soit un nombre
premier, ou qu’il divise 18...etc. Il s’agit de ce qu’on appelle communément « événements »
Mathématiquement parlant, on convient d’appeler « événement » lié à l’expérience aléatoire (E) toute partie de son
univers Ω. Un événement A (où A ⊂ Ω) est dit « réalisé » si le résultat de l’expérience (E) appartient à A.
Exemple 1.4
Reprenons l’exemple du dé cubique, où Ω = J1, 6K. On a :
1. L’événement A : « obtenir un nombre pair » est réalisé si le lancer du dé amène 2 ou 4 ou 6. Il est représenté
par la partie A = {2, 4, 6} de Ω.
8
2. L’événement B : « obtenir un nombre impair » est réalisé si le lancer du dé amène 1 ou 3 ou 5. Il est désigné
par la partie B = {1, 3, 5}.
3. L’événement C : « obtenir un nombre premier » est réalisé si le lancer du dé amène 2 ou 3 ou 5. Il est la
partie C = {2, 3, 5}.
4. De même, l’événement D : « obtenir un diviseur de 18 » n’est rien d’autre que D = {1, 2, 3, 6}
Voici quelques vocabulaires liés à la notion d’événement :
1. Les singletons {ω} (où ω ∈ Ω) sont dits les événements élémentaires.
2. L’événement Ω (partie pleine de Ω) est certainement réalisé ; on l’appelle l’événement certain (ou sûr).
3. L’événement Ø (partie vide de Ω) est impossible à réaliser ; on l’appelle l’événement impossible.
4. Un événement A est réalisé si et seulement si son complémentaire A dans Ω n’est pas réalisé. A est appelé
l’événement contraire de A.
5. Soit A et B deux événements liée à l’expérience (E). L’événement A ∩ B est réalisé si et seulement si les deux
événements A et B le sont simultanément ; on l’appelle l’événement « A et B ». Si A ∩ B = Ø (c’est à dire
que A et B ne peuvent se réaliser simultanément), on dit que les deux événements A et B sont incompatibles.
6. Soit A et B deux événements liée à l’expérience (E). L’événement A ∪ B est réalisé si et seulement si l’un au
moins des deux est réalisé ; on l’appelle l’événement « A ou B ».
7. Soit A et B deux événements liée à l’expérience (E). L’événement A ∖ B est réalisé si et seulement si A est
réalisé et B non ; on l’appelle l’événement « A sans B ».
Exercice 2.1
On lance indéfiniment une pièce de monnaie et on note, pour tout n ∈ N∗ , Fn l’événement :
« obtenir face au nième lancer »
T T
T T T
S
Fn ,
Décrire avec des phrases du langage courant les événements suivants :F1 F2 F3 , F1 F2 ... Fn Fn+1 ,
n∈N∗
T
T
T T
T T
T T
T S
S
S
S
S
S T
Fn , F 2 F 3
F1 F2 F 3 ,
Ak et
Ak
F2 F3 , F 1 F 2 F 3
F1 F2 F3
n∈N∗
n≥0k≥n
n≥0k≥n
Remarque 2.2
Dans une expérience aléatoire à univers Ω infini non dénombrable, certains événements sont impossibles à « mesurer »,
dans ce sens qu’il est hors de portée d’évaluer leur chances de réalisation, ou ne sont simplement pas intéressants pour
l’observateur pour différentes raisons. Comme exemple reprenons l’épreuve de la fléchette où l’univers est le segment
Ω = [0, R] des distances possibles entre le point d’impact de la fléchette au centre O de la cible. L’événement : « la
dite distance est irrationnelle » est impossible à mesurer.
Afin de modéliser efficacement le cadre mathématique des événements, il est utile d’exclure ce type d’événements de
l’étude et ne retenir qu’un ensemble d’événements suffisamment représentatif pour obtenir des prévisions correctes
et des interprétation fiables du déroulement de l’épreuve. L’outil mathématique correspondant est la notion de tribu
étudiée dans le paragraphe suivant.
2.2
Notion de tribu sur un ensemble
Ω désigne un ensemble quelconque qui peut être, en particulier, l’univers associé à une expérience aléatoire.
9
2.2.1
Généralités
Définition 2.1
On appelle tribu (ou σ- algèbre) sur l’ensemble Ω toute partie A de P (Ω) vérifiant les conditions suivantes :
1. Ω ∈ A.
2. Pour tout A ∈ A, A ∈ A.
3. Pour toute suite (An )n∈N d’éléments de A,
S
n∈N
An ∈ A.
Remarque 2.3
Si A est une tribu sur Ω alors Ø ∈ A.
En effet, d’après la condition 1, Ω ∈ A ; et d’après la condition 2, Ø = A ∈ A.
Vocabulaire
Si Ω est l’univers associé à une expérience aléatoire et A est une tribu sur Ω, le couple (Ω, A) est dit un espace
probabilisable et les éléments de la tribu A sont dits les événements (mesurables) de cet espace.
Exemple 2.1
1. P (Ω) est une tribu sur Ω.
On l’appelle la tribu grossière de Ω.
2. {Ø, Ω} est une tribu sur Ω.
On l’appelle la tribu triviale
Exercice 2.2
Soit A ∈ P (Ω). Montrer que Ø, A, A, Ω est une tribu sur Ω.
Proposition 2.1
Soit A une partie de P (Ω). Alors les p.s.s.e :
1. Pour toute suite (An )n∈N d’éléments de A,
S
n∈N
An ∈ A.
2. Pour toute famille dénombrable (Ai )i∈I d’éléments de A,
S
i∈I
Ai ∈ A
Preuve
Il est clair que la proposition 2 entraîne la proposition 1 en l’appliquant à I = N.
Réciproquement, supposons la proposition 1 vérifiée et montrons que la proposition 2 l’est également .
Soit I un ensemble dénombrable et (Ai )i∈I une famille d’éléments de A indexée par I. En se donnant une bijection σ de N sur I, on
S
S
S
S
Ai =
Aσ(n) . Et comme par hypothèse
Aσ(n) ∈ A, on a :
Ai ∈ A. CQFD.
vérifie aisément par double inclusion que
i∈I
n∈N
n∈N
Vocabulaire
La condition 2 de la définition 2.1 est dite la stabilité de A par passage au complémentaire.
La condition 3 de la définition 2.1 est dite la stabilité de A par union dénombrable.
10
i∈I
Théorème 2.1
Soit A une tribu sur l’ensemble Ω. Alors :
1. A est stable par union finie : ∀ n ∈ N, ∀ (A1 , ..., An ) ∈ An ,
n
S
Ak ∈ A.
k=1
S
N
2. A est stable par intersection dénombrable : ∀ (An )n∈N ∈ A ,
n∈N
3. A est stable par intersection finie : ∀ n ∈ N, ∀ (A1 , ..., An ) ∈ An ,
An ∈ A.
n
T
k=1
Ak ∈ A.
Preuve
Elle est laissée en exercice.
Remarque 2.4
On déduit des propriétés précédentes qu’une tribu est stable par toutes les opérations ensemblistes (intersection,
union, et complémentaire) à condition que ces opérations fassent intervenir un nombre fini ou dénombrable d’éléments
de cette tribu.
En particulier, une tribu A est stable par différence et par différence symétrique :
Proposition 2.2

A ∖ B = A T B ∈ A
∀ (A, B) ∈ A2 ,
A∆B = (A ∖ B) S (B ∖ A) = (A S B) ∖ (A T B) ∈ A
Toute intersection de tribus sur Ω est une tribu sur Ω.
Preuve
Elle est laissée en exercice.
N.B
Il s’agit d’intersection quelconque : finie, infinie dénombrable ou infinie non dénombrable.
Vocabulaire
Soit (Ω, A) un espace probabilisable.
Toute famille au plus dénombrable (Ai )i∈I d’événements de cet espace deux à deux incompatibles telle que
est dite un système complet d’événements de (Ω, A).
S
Ai = Ω
i∈I
Deux exemples classiques :
Exemple 1 : Étant donné un événement quelconque A d’un espace probabilisable (Ω, A), la famille A, A formé par
l’événement A et son événement contraire est clairement un système complet de (Ω, A).
Exemple 2 : Soit Ω un univers au plus dénombrable. On le munit de sa tribu grossière P (Ω) (ce choix est conventionnel
et il sera partiellement expliqué par un exercice du paragraphe suivant). La famille ({ω})ω∈Ω de tous les événements
élémentaire (notons qu’elle est une famille au plus dénombrable) est un système complet d’événements de l’espace
probabilisé (Ω, P (Ω)).
11
2.2.2
Tribu engendrée par une partie
Étant donnée une partie S de P (Ω), on note T (S ) l’ensemble des tribus sur Ω qui contiennent S . Notons que cet
ensemble T (S ) est non vide car il compte la tribu grossière P (Ω) parmi ses éléments.
Définition 2.2
Soit S une partie de P (Ω).
Avec les notations précédentes, on appelle tribu engendrée par la partie S la tribu sur Ω notée σ (S ) définie par :
\
σ (S ) =
A∈T (S )
A
N.B
telle qu’elle est définie, σ (S ) est bien une tribu sur Ω ; et cela, en vertu de la proposition 2.2.
Remarques 2.5
▷ On a : S ⊂ σ (S )
▷ σ (S ) = S si et seulement si S est une tribu
▷ Si S ⊂ S ′ alors σ (S ) ⊂ σ (S ′ )
▷ Pour toute tribu A sur Ω, on a :S ⊂ A =⇒ σ (S ) ⊂ A
Ainsi, σ (S ) est, au sens de l’inclusion, la plus petite tribu sur Ω contenant S .
Exercice 2.3
Soit S = {{ω} / ω ∈ Ω} l’ensemble de tous les singletons de Ω.
Montrer que si Ω est au plus dénombrable alors σ (S ) = P (Ω).
Commentaire
Pour un univers fini ou dénombrable, les événements élémentaires {ω}, ω ∈ Ω, sont intuitivement mesurables, dans
ce sens qu’un observateur peut estimer leurs chances de réalisation. Donc, dans ce cas, et pour une modélisation
mathématique de l’expérience aléatoire, la tribu d’événements mesurables à choisir doit contenir tous ces événements
élémentaires ; selon l’exercice, la plus petite possible de ces tribus est la tribu grossière P (Ω).
Cela constitue la principale raison qui pousse à postuler que pour une expérience aléatoire à univers au plus dénombrable, on choisit A = P (Ω) comme tribu d’événements mesurables et on considère l’espace probabilisable (Ω, P (Ω))
comme un base convenable pour l’étude probabiliste de l’expérience.
Vocabulaire
Les espaces probabilisés (Ω, P (Ω)), où Ω est au plus dénombrable, seront dits les espaces probabilisés discrets.
2.2.3
Tribus boréliennes
a) Tribu borélienne de R.
On s’intéresse ici au cas Ω = R et on note I l’ensemble de tous les intervalles de R.
La tribu σ (I ) engendrée par I est appelée la tribu borélienne de R ; on la note B (R).
B (R) est une tribu sur R.
12
Vocabulaire
Les parties de R éléments de la tribu borélienne B (R) sont dits les boréliens de R.
Théorème 2.2
La tribu borélienne de R est aussi la tribu engendrée par l’ensemble I − des intervalles de la forme ]−∞, x] , x ∈ R.
Les intervalles de la forme ]−∞, x] suffisent pour engendrer la tribu borélienne B (R).
Preuve
Il s’agit de montrer que B (R) = σ I −
On a I − ⊂ I . Alors, d’après la remarque 2.5, σ I − ⊂ σ (I ) = B (R)
Montrons que, réciproquement, B (R) ⊂ σ I −
Comme σ I − est une tribu sur R et B (R) = σ (I ), il suffit (en vertu encore de la remarque 2.5) de montrer que I ⊂ σ I − . Soit
I ∈ I un intervalle de R. Montrons que I ∈ σ I − . Écartons les cas triviaux I = Ø et I = R car la nature de σ I − en tant que
tribu fait qu’elle contient la partie vide et la partie pleine de R. Traitons tous les autres cas possibles pour l’intervalle I :
(i) I est de la forme ]−∞, x] , x ∈ R.
Dans ce cas on a : I ∈ I − et I − ⊂ σ I −
donc I ∈ σ I − .
(ii) I est de la forme ]−∞, x[ , x ∈ R.
S
1
−∞, x −
Dans ce cas, on vérifie aisément par double inclusion que I = ]−∞, x[ =
n
n∈N∗
1
−
−
∈σ I
Comme d’après le cas (i) chaque −∞, x −
et σ I
est stable par union dénombrable, on a : I ∈ σ I − .
n
(iii) I est de la forme ]x, +∞[ , x ∈ R.
Dans ce cas, on écrit : I = ]−∞, x]. Alors sachant, d’après le cas (i), que ]−∞, x] ∈ σ I − et σ I − est stable par passage au
−
complémentaire, on a : I ∈ σ I .
(iv) I est de la forme [x, +∞[ , x ∈ R.
Dans ce cas, on écrit : I = ]−∞, x[ et d’après (ii), ]−∞, x[ ∈ σ I − . Donc I ∈ σ I − par stabilité de cette tribu par passage au
complémentaire.
(v) I est de la forme [x, y[ , (x, y) ∈ R2 , x < y.
Dans ce cas, on a : I = ]−∞, y[ ∖ ]−∞, x[ et, selon le cas (ii), les deux intervalles ]−∞, x[ et ]−∞, y[ sont dans σ I − . Alors, par
stabilité de celle-ci par différence d’ensembles, I ∈ σ I − .
(vi) I est de la forme ]x, y[ , (x, y) ∈ R2 , x < y.
Là aussi on observe que : I = ]−∞, y[ ∖ ]−∞, x]. Puisque d’après le cas (ii) ]−∞, y[ ∈ σ I − et d’après le cas (i) ]−∞, x] ∈ σ I − ,
on a comme avant, I ∈ σ I − .
(vii) I est de la forme ]x, y] , (x, y) ∈ R2 , x < y.
Dans ce cas, on a : I = ]−∞, y] ∖ ]−∞, x] et, selon le cas (i), ces deux intervalles sont dans σ I − . Alors, par stabilité de σ I − par
différence d’ensembles, I ∈ σ I − .
(viii) I est de la forme [x, y] , (x, y) ∈ R2 , x < y.
Dans ce cas I = ]−∞, y] ∖ ]−∞, x[ et on conclut grâce aux cas (i) et (ii) et grâce à la stabilité de σ I − par différence d’ensembles que
I ∈ σ I− .
Dans tous les cas I ∈ σ I − . CQFD.
Exercice 2.4
1. On note On note I −∗ [resp. I + , resp. I +∗ ] l’ensemble de tous les intervalles de R de la forme ]−∞, x[ [resp.
[x, +∞[, resp. ]x, +∞[], où x ∈ R.
Montrer que I − ⊂ σ (I −∗ ), I − ⊂ σ (I + ) et I − ⊂ σ (I +∗ ) et en déduire que B (R) = σ (I −∗ ) = σ (I + ) =
σ (I +∗ ).
2. Montrer aussi que la tribu borélienne B (R) est la tribu engendrée par chacune des quatre classes d’intervalles
bornés de R (les ouverts ]x, y[, les fermés [x, y], les semi-ouverts à droite [x, y[ et les semi-ouverts à gauche ]x, y], où
(x, y) ∈ R2 et x < y).
13
Remarque 2.6
On ne sait pas décrire tous les boréliens de R mais on en connaît maintenant une bonne quantité : d’abord, bien
sûr, tous les intervalles de R, ensuite, tous les singletons de R (car on peut les voir comme des segments [x, x] ou les
T
voir comme intersection d’intervalles ]−∞, x] [x, +∞[), puis toutes les parties de R au plus dénombrables comme
les parties finies, N, Z ou Q par exemple (car elles sont unions au plus dénombrables de leurs singletons) et enfin
tous les ouverts et fermés de R (en effet un exercice proposé en topologie montre que tout ouvert de R est union au
plus dénombrable d’intervalles ouverts et les fermés sont leur complémentaires). Tout ce monde sont des exemples
de boréliens.
Dans l’histoire (qui est assez récente datant seulement de la fin du siècle 19 et début du siècle 20), des mathématiciens
dont Borel, Lebesgue et autres ont construit des boréliens tout bizarres différents des précédents. D’autres ont cherché
et ont trouvé des propriétés caractéristiques bizarres des boréliens ; en voici une : Soit S la plus petite sous R-algèbre
de RR contenant les fonctions continues de R dans R et ayant la propriété de stabilité suivante : si une suite (fn )
d’éléments de cette algèbre S est croissante (c’est à dire ∀ n ∈ N, ∀ x ∈ R, fn (x) ≤ fn+1 (x)) et converge simplement
sur R vers une fonction f alors f ∈ S. Eh bien étant donnée cette algèbre S (tout sauf évidente ! !), on a : pour toute
partie A de R : A ∈ B (R) ⇐⇒ φA ∈ S (où φA est la fonction caractéristique de A).... ! ! ! Jugez vous même de la
bizarrerie.
b) Tribu borélienne de Rd
Ici, on prend Ω = Rd , où d ∈ N∗ .
On note P l’ensemble de tous les pavés I1 × ... × Id ; où I1 , ..., Id sont des intervalles de R.
La tribu σ (P) engendrée par l’ensemble P est appelée la tribu borélienne de Rd ; on la note B Rd .
On admet le théorème suivant :
Théorème 2.3
La tribu borélienne B Rd est aussi la tribu engendrée par l’ensemble P − des pavés de la forme
]−∞, x1 ] × ... × ]−∞, xd ] ;
où (x1 , ..., xd ) ∈ Rd .
Autrement dit : B Rd = σ (P − )
Les pavés de la forme ]−∞, x1 ] × ... × ]−∞, xd ] suffisent pour engendrer la tribu borélienne B Rd .
2.3
Probabilité sur un espace probabilisable
Dans ce paragraphe, (Ω, A) est un espace probabilisable.
14
2.3.1
Généralités
Définition 2.3
On appelle probabilité (ou mesure de probabilité) sur l’espace probabilisable (Ω, A) toute application P de A
dans le segment [0, 1] vérifiant les deux conditions suivantes (dites axiomes de Kolmogorov ) :
1. P charge l′ univers :
P (Ω) = 1
2. P est σ − additive :
Pour toute suite (An )n∈N d’événements deux à deux incompatibles, on a :
+∞
X
[
P (An ) = P
n=0
An
n∈N
!
(2.1)
Vocabulaire
• Si P est une probabilité sur (Ω, A) alors le triplet (Ω, A, P ) est dit un espace probabilisé : c’est la base mathématique
pour une modélisation d’une expérience aléatoire.
• Soit (Ω, A, P ) un espace probabilisé.
1. On appelle événement presque impossible [resp. presque certain] de l’espace probabilisé (Ω, A, P ) tout événement A de l’espace probabilisable (Ω, A) tel que P (A) = 0 [resp. P (A) = 1].
On constate que A est presque impossible si et seulement si A est presque certain, et vis-vers-ça.
Un événement presque impossible est dit aussi négligeable.
2. Une proposition P (ω), portant sur ω ∈ Ω, est dite vraie presque sûrement relativement à l’espace proba-
bilisé (Ω, A, P ), si et seulement si l’ensemble {ω ∈ Ω / P (ω) est vraie} est un événement presque certain de
(Ω, A, P ), ou, ce qui revient au même, {ω ∈ Ω / P (ω) est fausse} est négligeable.
Ainsi, par exemple, une application définie sur un événement Ω′ presque certain de A sera dite définie presque
sûrement sur Ω ; Une application de Ω dans R positive sur un événement Ω′′ presque certain de A sera dite
positive presque sûrement ; deux parties A et B de Ω telles que A∆B = (A ∖ B) ∪ (B ∖ A) est un événement
négligeable seront dites égales presque sûrement...etc.
Proposition 2.3
Pour une application P : A −→ [0, 1]. Alors les p.s.s.e :
1. P est σ- additive
2. Pour toute famille dénombrable (Ai )i∈I d’événements deux à deux incompatibles de (Ω, A), on a :
X
P (Ai ) = P
i∈I
[
i∈I
Ai
!
(2.2)
Preuve
Il est clair que la proposition 2 entraîne la proposition 1 ; il suffit en effet l’appliquer à I = N.
Réciproquement, supposons que P est σ- additive et montrons que la proposition 2. Soit I un ensemble dénombrable et (Ai )i∈I une
!
S
Ai .
famille d’éléments de (Ω, A) deux à deux incompatibles. Montrons que la famille positive (P (Ai ))i∈I est sommable de somme P
i∈I
2
Soit σ : N −→ I une bijection. Aσ(n) n∈N est une suite d’événements deux à deux incompatibles (car pour (n, m) ∈ N tel que n ̸= m,
15
σ (n) et σ (m) sont deux élément distinct de I). Par hypothèse, la série
P
n≥0
P Aσ(n) converge de somme P
un critère de sommabilité pour les familles positives, la famille (P (Ai ))i∈I est sommable et on :
X
P (Ai ) =
D’où :
P
P (Ai ) = P
i∈I
S
n∈N
Aσ(n)
S
=P
!
P Aσ(n)
n=0
i∈I
!
+∞
X
S
n∈N
!
Aσ(n) . Alors, d’après
Ai . CQFD.
i∈I
N.B
Selon les conventions du paragraphe 1.2.c, on a :
P
S
La relation (2.1) traduit que la série positive
P (An ) converge de somme P
An
n≥0
n∈N
La relation (2.2) traduit que la famille dénombrable positive (P (Ai ))i∈I est sommable de somme P
S
i∈I
Ai
Proposition 2.4
Soit P une probabilité sur (Ω, A). Alors :
1. P(Ø) = 0
2. P est additive :
Pour tout N ∈ N∗ , pour toute famille finie (An )1≤n≤n d’événements deux à deux incompatibles de (Ω, A),
on a :
N
X
P (An ) = P
n=1
N
[
An
n=1
!
Preuve
1. Pour tout n ∈ N, posons An = Ø.
La suite (An )n∈N ainsi définie est une suite d’événements de (Ω, A) deux à deux incompatibles.
P
Par σ- additivité de P la série
P (An ) est convergente dans R. D’où P (An ) −→ 0
n→+∞
n≥0
Or : ∀ n ∈ N,P (An ) = P (Ø).
On en déduit, par unicité de la limite P (Ø) = 0.
2. Soit N ∈ N et (A1 , ..., AN ) ∈ AN tel que les An sont deux à deux incompatibles.
Pour tout n ∈ N ∖ J1, N K, posons An = Ø.
La suite (An )n∈N ainsi définie est une suite d’événements deux à deux incompatibles de (Ω, A). On en déduit par σ- additivité de P que
!
+∞
P
S
P
P (An ) est convergente et que
P (An ) = P
An .
la série
n=0
n≥0
n∈N
Or en utilisant la définition des événements An , on a :

+∞
N
P
P



P (An ) = P (A0 ) +
P (An ) +

n=0
N
S
S



An =
An

n∈N
D’où :
N
P
P (An ) = P
n=1
CQFD.
N
S
n=1
n=1
+∞
P
n=N +1
P (An ) =
N
P
P (An )
n=1
n=1
!
An .
Corollaire 2.1
Pour tout système complet d’événements (Ai )i∈I de l’espace probabilisé (Ω, A), on a :
16
P
i∈I
P (Ai ) = 1
Preuve
Soit (Ai )i∈I un système complet d’événements de (Ω, A). On sait qu’il est une famille au plus dénombrable, que les Ai sont deux à deux
S
Ai = Ω.
incompatibles et que
i∈I
P
P (Ai ) =
Alors en appliquant la σ- additivité, dans le cas où I est dénombrable, et l’additivité, dans le cas où I est fini, on obtient :
i∈I
P (Ω) = 1
Proposition 2.5
Soit P une probabilité sur (Ω, A). Alors :
1. Pour tout A ∈ A, on a P A = 1 − P (A).
2. Pour tout (A, B) ∈ A2 , on a : P (A ∖ B) = P (A) − P (A
3. Croissance :
T
B).
Pour tout (A, B) ∈ A2 tel que A ⊂ B, on a : P (A) ≤ P (B)
S
T
4. Pour tout (A, B) ∈ A2 , on a : P (A B) = P (A) + P (B) − P (A B)
Preuve
S
T
1. Soit A ∈ A. On sait que A A = Ø et A A = Ω.
S D’où par additivité de P : P (A) + P A = P A A = P (Ω) = 1
On en déduit la relation P A = 1 − P (A).
S
T
2. Soit (A, B) ∈ A2 . On sait que (A ∖ B) (A B) = A (il suffit de distribuer l’union par rapport à l’intersection).
T
Et comme A ∖ B et A B sont deux événements incompatibles de (Ω, A), on a par additivité de P :
\ P (A ∖ B) + P A
B = P (A)
D’où P (A ∖ B) = P (A) − P (A
T
B).
3. Soit (A, B) ∈ A2 tel que A ⊂ B.
T
D’après le résultat du 2, on a : P (B) − P (B A) = P (B ∖ A)
T
D’où, sachant que B A = A et P (B ∖ A) ≥ 0 : P (B) − P (A) ≥ 0.
Donc : P (B) ≥ P (A).
S
S
4. Soit (A, B) ∈ A2 . On sait que A B = (A ∖ B) B. D’où, par additivité de P et sachant que A ∖ B et B sont deux événements
S
incompatibles de (Ω, A) : P (A B) = P (A ∖ B) + P (B)
S
T
Alors en utilisant le résultat du 2 : P (A B) = P (A) − P (A B) + P (B).
CQFD.
Vocabulaire
La formule P (A
S
B) = P (A) + P (B) − P (A
le théorème suivants :
T
B) est dite la formule du Poincaré d’ordre 2. Elle se généralise dans
Théorème 2.4 (de Poincaré)
Soit P une probabilité sur (Ω, A) et n ∈ N∗ . Alors pour tout (A1 , ..., An ) ∈ An , on a :
P
n
[
k=1
Ak
!

X
k−1
=
(−1)
k=1
Preuve
Elle est admise.
17
X
J⊂J1,nK
card(J)=k
P
\
i∈J
!


Ai 
(2.3)
Vocabulaire
La formule (2.3) est dite la formule de Poincaré d’ordre n.
Exercice 2.5
1. Écrire explicitement la formule de Poincaré d’ordre 3.
2. Démontrer le théorème de Poincaré par récurrence sur n.
Remarque 2.7 : à propos de P (A ∖ B)
Attention : La propriété s’écrit : P (A ∖ B) = P (A) − P (A
T
n’est valable que si B ⊂ A, cas dans lequel A B = B.
T
B) et non P (A ∖ B) = P (A) − P (B) ; cette dernière
Proposition 2.6 (propriété de sous additivité)
Soit P une probabilité sur (Ω, A)
Pour tout n ∈ N∗ et pour tout (A1 , ..., An ) ∈ An , on a : P
n
S
Ak
k=1
≤
n
P
P (Ak )
k=1
Preuve
On raisonne par récurrence sur n ∈ N∗
Pour n = 0, la relation s’écrit :
∀ A1 ∈ A, P (A1 ) ≤ P (A1 )
et cela est vrai.
n
n
S
P
Ak ≤
P (Ak ).
Soit n ∈ N∗ . Supposons que : ∀ (A1 , ..., An ) ∈ An , P
k=1
k=1
n+1
n+1
S
P
Montrons que : ∀ (A1 , ..., An+1 ) ∈ An+1 , P
Ak ≤
P (Ak ).
k=1
k=1
n
n+1
S
S
S
An+1
Ak =
Ak
Soit (A1 , ..., An+1 ) ∈ An+1 ; on a :
k=1
k=1
D’où en utilisant la formule de Poincaré d’ordre 2 :
!
n+1
[
Ak = P
P
k=1
Donc : P
n+1
S
≤P
n
S
n
[
k=1
Ak
!
+ P (An+1 ) − P
|
" n
[
k=1
Ak
#
{z
≥0
\
An+1
!
}
+ P (An+1 )
n+1
n
S
P
Ak ≤
P (Ak ) + P (An+1 )
Il vient par hypothèse de récurrence : P
k=1
k=1
n+1
n+1
S
P
Soit : P
Ak ≤
P (Ak )
k=1
k=1
Ak
k=1
Ak
k=1
CQFD.
2.3.2
Propriétés de continuité monotone.
Dans ce paragraphe, (Ω, A, P ) est un espace probabilisé donné.
Théorème 2.5 (propriété de continuité monotone croissante)
Soit (An )n∈N une suite d’événements de (Ω, A) telle que pourtout n ∈ N, An ⊂ An+1 .
S
Alors la suite réelle (P (An ))n∈N est convergente de limite P
An .
n∈N
18
Preuve
Posons B0 = A0 et pour tout n ∈ N∗ , Bn = An ∖ An−1 .
Observons d’abord que chaque Bn est un événement de A. Ensuite, montrons les deux résultats suivants, concernant ces événements
Bn :
1. Montrons que les Bn sont deux à deux incompatibles.
Soit (n, m) ∈ N2 tel que n < m. On a n ≤ m − 1. alors, par croissance de la suite (An )n∈N pour l’inclusion : An ⊂ Am−1 .
Et comme Bn = An ∖ An−1 ⊂ An , on en déduit que Bn ⊂ Am−1 . D’autre part, on a Bm = Am ∖ Am−1 ⊂ Am−1 , d’où
T
Bn Bm = Ø
S
S
2. Montrons que
Bn =
An .
n∈N
n∈N
On a : B0 = A0 et pour tout n ∈ N∗ , Bn = An ∖ An−1 ⊂ An .
S
S
Bn ⊂
An .
On en déduit que
n∈N
n∈N
S
An . Il existe, par conséquent, au moins un entier n ∈ N tel que ω ∈ An . L’ensemble de tel entiers
Réciproquement, soit ω ∈
n∈N
est donc une partie non vide de N. Notons no le minimum de cet ensemble et distinguons deux cas :
1ier cas : n0 = 0
S
Bn .
Dans ce cas, ω ∈ A0 = B0 , donc ω ∈
n∈N
2ième cas : n0 ≥ 1.
/ An0 −1 , c’est à dire ω ∈ An0 ∖ An0 −1 . En d’autres termes ω ∈ Bn0 .On
Dans ce cas, et par minimalité de n0 , ω ∈ An0 et ω ∈
S
Bn .
déduit que ω ∈
n∈N
S
S
S
S
An ⊂
Bn , ce qui achève de montrer que
An =
Bn .
On a ainsi montré que
n∈N
Il vient, par σ- additivité, que la série
n∈N
P
n∈N
P (Bn ) est convergente et que : P
S
An
n∈N
n≥0
n∈N
!
S
=P
n∈N
Bn
!
=
+∞
P
P (Bn )
n=0
Mais, pour tout n ∈ N∗ , on a P (Bn ) = P (An ∖ An−1 ) = P (An ) − P (An−1 ) ; et cela car An−1 ⊂ An . La série convergente
est donc télescopique associée à la suite (P (An ))n∈N ; celle-ci est donc une suite convergente. De plus :


+∞
[
X

An  = P (A0 ) +
P (Bn ) = P (A0 ) + lim P (An ) − P (A0 ) = lim P (An )
P
n→+∞
n=1
n∈N
P
P (Bn )
n≥1
n→+∞
CQFD.
Corollaire 2.2 (propriété de sous σ−additivité)
Soit (An )n∈N une suite quelconque d’événements de l’espace probabilisé (Ω, A).
+∞
P
S
An ≤
P (An ) .
Alors : P
n∈N
n=0
Preuve
Il n’y a rien à démontrer si la série positive
P
P (An )est divergente, car dans ce cas
+∞
P
P (An ) = +∞
n=0
n≥0
Supposons dans la suite que cette série est convergente.
n
S
Ak .
Posons pour tout n ∈ N, Bn =
k=0
Il est clair que les Bn sont tous des événements de (Ω, A) et que la suite (Bn )n∈N est croissante au sens de l’inclusion. Alors, d’après
!
S
S
S
la propriété de continuité monotone croissante, P (Bn ) −→ P
Bn . Mais par simple double inclusion, on a
Bn =
An ;
n→+∞
n∈N
n∈N
n∈N
!
S
An .
d’où P (Bn ) −→ P
n→+∞
n∈N
n
n
S
P
Ak ≤
P (Ak )
D’autre part, d’après la propriété de sous additivité, on a : ∀ n ∈ N, P (Bn ) = P
k=0
D’où : ∀ n ∈ N, P (Bn ) ≤
+∞
P
P (An ).
n=0
On en déduit par passage à la limite : P
S
n∈N
An
!
≤
+∞
P
P (An ). CQFD
n=0
19
k=0
Théorème 2.6 (propriété de continuité monotone décroissante)
Soit (An )n∈N une suite d’événements de (Ω, A) telle que pourtout n ∈ N, An+1 ⊂ An .
T
Alors la suite réelle (P (An ))n∈N est convergente de limite P
An .
n∈N
Preuve
Pour tout n ∈ N,on pose : Cn = A0 ∖ An , en sorte que les Cn sont tous des événements de (Ω, A). On constate, sachant An+1 ⊂ An , que
Cn ⊂ Cn+1 . Cela montre que la suite (Cn )n∈N est croissante au sens de l’inclusion. D’après le théorème 2.4, la suite réelle (P (Cn ))n∈N
est convergente et on a :


[
lim P (Cn ) = P 
Cn 
n→+∞
n∈N
Mais d’une part, avec An ⊂ A0 , on a ;
Et d’autre part, on a :
S
Cn =
n∈N
S
n∈N
P (Cn ) = P (A0 ∖ An ) = P (A0 ) − P (An )
!
T
T S
T T
A n = A0
A n = A0 ∖
A 0 A n = A0

P
[
n∈N
n∈N
n∈N


Cn  = P (A0 ) − P 
On en déduit que P (An ) = P (A0 ) − P (Cn ) −→ P (A0 ) − P
n→+∞
!
T
C’est à dire : P (An ) −→ P
An . CQFD
n→+∞
2.3.3
S
Cn
n∈N
\
n∈N
!

T
n∈N
An
!
; ce qui permet d’écrire :
An 
n∈N
Construction d’une probabilité sur des espaces probabilisés discrets
Dans ce sous paragraphe, Ω est un univers fini ou dénombrable auquel on associe l’espace probabilisé (Ω, P (Ω)).
a) Un procédé classique de construction de probabilité
Théorème 2.7
Soit (qω )ω∈Ω une famille de réels appartenant au segment [0, 1] tels que
de somme 1).
P
qω = 1 (c’est à dire sommable
ω∈Ω
Alors il existe une unique probabilité P sur l’espace probabilisé discret (Ω, P (Ω)) tel que :
∀ ω ∈ Ω, P ({ω}) = qω
Cette probabilité est définie par : ∀ A ∈ P (Ω) , P (A) =
P
qω
ω∈A
Preuve
Vérifions d’abord que la relation :
∀ A ∈ P (Ω) , P (A) =
X
qω
ω∈A
définit une application P de P (Ω) dans le segment [0, 1].
Pour tout A ∈ P (Ω), (qω )ω∈A est une sous famille de la famille positive (qω )ω∈Ω ; elle donc sommable et on a :
X
X
0≤
qω ≤
qω = 1
ω∈A
ω∈Ω
20
Cela montre que P est bien définie comme application de P (Ω) dans [0, 1].
(i) Montrons qu’elle est une probabilité sur l’espace probabilisé (Ω, P (Ω)).
P
qω = 1 ; donc P charge donc l’univers Ω.
On a P(Ω) =
ω∈Ω
Soit (An )n∈N une suite d’éléments de P (Ω) deux à deux disjoints. Posons A =
S
n∈N
An , en sorte que la suite (An )n∈N est un partage
dénombrable de A. Alors, sachant que la famille (qω )ω∈A est sommable, on a par sommation par paquets :






+∞
+∞
[
X
X
X
X
X





An = P (A) =
qω =
qω  =
P (An )
P
n∈N
n∈N
ω∈An
n=0
ω∈An
n=0
P est donc σ- additive.
En conclusion, P est une probabilité sur (Ω, P (Ω)).
(ii) Ensuite, la probabilité P définie ci-dessus vérifie la condition requise, car : ∀ ω0 ∈ Ω, P ({ω0 }) =
P
ω∈{ω0 }
qω = qω0 .
(iii) Montrons que la probabilité P précédente est la seule à vérifier la condition : ∀ ω ∈ Ω, P ({ω}) = qω .
Soit Q une probabilité sur (Ω, P (Ω)) telle que
! : ∀ ω ∈ Ω, Q ({ω}) = qω .
S
P
P
Soit A ∈ P (Ω). On a Q (A) = Q
{ω} ; alors, par σ- additivité de la probabilité Q, on a Q (A) =
Q ({ω}) =
qω .
ω∈A
ω∈A
ω∈A
Ainsi, on a : ∀ A ∈ P (Ω) , Q (A) = P (A).
D’où Q = P . CQFD.
Commentaire
Pour définir un modèle de probabilité sur un espace probabilisé discret, il suffit d’associer à chaque événement
P
qω = 1 est satisfaite. Dans le cas particulier où Ω
élémentaire {ω} un réel qω ≥ 0, et de s’assurer que la condition
ω∈Ω
est fini, L’observateur avisé peut estimer ces nombres qω à travers une étude statistique d’observation de fréquences
d’apparition de chacun des événements élémentaire {ω}, ω ∈ Ω. Dans le cas où Ω est dénombrable les notions de
séries et de familles sommables offrent des solutions pour estimer les qω .
b) Cas d’un univers fini
Ici, l’univers Ω est supposé fini de cardinal n ≥ 1. On pose Ω = {ω1 , ..., ωn } ; où les ωi sont deux à deux distincts.
La méthode du a) de construction de probabilité s’applique : En se donnant des nombres réels positifs (au sens
n
P
qi = 1, on a un modèle de probabilité P sur l’espace probabilisé (Ω, P (Ω)) tel que :
large) qi , 1 ≤ i ≤ n, tels que
∀ i ∈ J1, nK , P ({ωi }) = qi
i=1
Exemple 2.2
On dispose d’un dé à six faces numérotées de 1 à 6 tel que pour tout k ∈ J1, 6K, P ({k}) = qk = ak ; où a est un réel
constant strictement positif donné.
la famille ({k})1≤k≤6 est classiquement un système complet d’événements de l’espace probabilisé (Ω, P (Ω)). Donc
6
6
P
P
1
6×7
= 1 et donc a =
.
P ({k}) = 1. D’où a
k = 1, c’est à dire a
on a nécessairement :
2
21
k=1
k=1
k
.
Ainsi : ∀ k ∈ J1, 6K , P ({k}) = qk =
21
On lance le dé. Calculons la probabilité des événements suivants :
A : ”obtenir un nombre pair”, B : ”obtenir un nombre impair”, C : ”obtenir un diviseur de 18”
On a :
A = {2, 4, 6} , B = {1, 3, 5} et C = {1, 2, 3, 6}
4
6
12
3
5
9
2
1
+
+
=
, P (B) = q1 + q3 + q5 =
+
+
=
21 21 21
21
21 21 21
21
2
4
6
13
1
+
+
+
=
et P (C) = q1 + q2 + q3 + q6 =
21 21 21 21
21
On en déduit : P (A) = q2 + q4 + q6 =
21
c) Hypothèse d’équiprobabilité
Reprenons l’univers fini Ω = {ω1 , ..., ωn } et les nombres qi = P ({ωi }) tel que
n
P
qi = 1.
i=1
Dans le cas où tous les qi ont la même valeur q, on dit que les événements élémentaire {ω1 } , ..., {ωn } sont équipron
P
1
1
.
bables. La relation
qi = 1 s’écrit dans ce cas nq = 1 et détermine donc la valeur de q : q = =
n
card (Ω)
i=1
D’après le théorème 2.7, la probabilité P est définie par :
∀ A ∈ P (Ω) , P (A) =
C’est à dire : ∀ A ∈ P (Ω) , P (A) =
n
X
qi =
i=1
ωi ∈A
n
X
q = q.card (A)
i=1
ωi ∈A
card (A)
card (Ω)
Cette probabilité porte le nom de probabilité uniforme. Elle modélise les cas d’univers finis où l’hypothèse d’équiprobabilité est vérifiée.
Observons que dans l’exemple 2.2, les différentes face du dé ne sont pas équiprobables et les événement « le dé amène
un nombre pair » et « le dé amène un nombre impair » n’ont pas la même probabilité de se réaliser.
Remarque 2.8
Intuitivement, les termes « dé équilibré, dé non truqué, dé non pipé » dans un jeu de dé renvoient à l’hypothèse
d’équiprobabilité. De même en remplaçant le dé par une pièce de monnaie. Il en est de même du terme « boules
indiscernables au toucher » dans un tirage de boules dans une urne, ou le terme « on tire au hasard » (ou « on tire
aléatoirement ») dans les jeux de cartes, de boules ou jetons.
Remarque 2.9
Il n’est pas possible d’envisager l’hypothèse d’équiprobabilité dans le cas d’un univers infini dénombrable Ω =
{ω0 , ..., ωn , ...} ; où les ωn sont deux à deux distincts. En effet si l’on associe à chaque {ωn } , n ∈ N, une probabilité
+∞
P
P
qn = 1, alors la convergence de la série
qn et vers 1
qn = P ({ωn }) en exigeant évidemment la condition
n=0
n≥0
empêche la suite (qn )n∈N d’être constante (si elle est constante elle doit être nulle, donc 1 =
+∞
P
qn = 0 ! ! !).
n=0
Remarque 2.10
Pour les expériences aléatoires à univers infinis non dénombrable, ce procédé de construction de probabilité exprimé
par le théorème 2.7 sur un espace probabilisé (Ω, A) ne peut marcher. dans ce cas, il ne sera jamais demandé de
construire de tribus ou de probabilités, on décrira souvent une telle expérience aléatoire et on dira qu’il lui est associé
un espace probabilisé (Ω, A, P ) dont la tribu et la probabilité (et parfois même l’univers) sont implicites. Mais les
outils et techniques antérieurs et ultérieurs (d’indépendance et conditionnement entre autres), permettent de faire
du calcul probabiliste corrects dans plusieurs de ces situations. L’exemple suivant est représentatif :
Exemple 2.3 : répéter une infinité de fois une expérience de Bernoulli
On qualifie d’expérience de Bernoulli toute expérience aléatoire dont l’univers est une paire (c’est à dire un ensemble
fini de cardinal 2) ; l’un de ces deux résultat est dit « succès » et l’autre est dit « échec ». Le cas typique est celui du
lancer d’une pièce de monnaie, où l’univers est {pile, face} qu’on note {P, F }. Mais de nombreux contextes variés
correspondent à ce modèle sans en avoir l’air ; par exemple le lancer d’un dé cubique, en tant que tel, est à univers
formé de six résultats possibles. Mais pour un joueur qui mise sur la face n°6, l’univers peut être 6, 6 et l’expérience
du dé devient pour lui une expérience de Bernoulli.
22
(i) Pour revenir au cas typique d’une pièce de monnaie qu’on lance une fois. L’univers Ω = {P, F } est fini et le
modèle probabiliste du sous paragraphe b) s’applique : on choisit comme tribu P (Ω) = {Ø, {P } , {F } , {P, F }} et
on définit une probabilité sur (Ω, P (Ω)) dès qu’on fixe la probabilité p de « pile » (et donc la probabilité q = 1 − p
de « face »). Notons que concrètement 0 < p < 1 et, à fortiori aussi, 0 < q < 1
n
(ii) Si on lance la pièce n fois (où n ∈ N∗ ), on reste encore dans le cas d’un univers fini, en l’occurrence Ω = {P, F } ,
qu’on peut formellement modéliser comme dans le paragraphe b) : tribu P (Ω) et probabilité définie à partir de celles
des événements élémentaires (R1 , ..., Rn ) ; où Ri ∈ {P, F }. À ce titre, et tenant compte de l’indépendance des lancers,
n−k
(le
on postule à juste titre, que les résultats à k piles et n − k face exactement ont chacun la probabilité pk (1 − p)
n
cours d’indépendance confirmera ultérieurement ce choix) , et ces résultats sont au nombre de k (nombre de façon
de placer les k pile parmi n places possibles). Ainsi, par exemple, l’événement A : ”obtenir pile à tous les n lancers”
n−n
= pn et l’événement B : ”obtenir face exactement une fois” est de
est de probabilité P (A) = nn pn (1 − p)
n−n+1
n
= npn−1 (1 − p).
probabilité P (B) = n−1
pn−1 (1 − p)
(iii) Supposons qu’on puisse lancer cette pièce une infinité de fois (ce n’est bien sûr qu’une expérience virtuelle, même
N
pour une infinité dénombrable ! !). L’univers pour cette expérience est Ω = {P, F } ; où l’on numérote les lancers 1,
N
2, ... À une bijection près, Ω peut être assimilé à {0, 1} , et, selon l’exercice 1.1, il est infini non dénombrable. On
associe à cet expérience un espace probabilisé (Ω, A, P ) implicite. On peut, cependant, faire des calculs probabilistes
corrects sur des événements « raisonnables ». Par exemple, soit à calculer la probabilité de l’événement A : « obtenir
pile à tous les lancers ». notons pour tout n ∈ N∗ , An l’événement : « obtenir pile à tous les lancers de 1 à n » et
faisons l’hypothèse que A et tous les An sont des éléments de la tribu A.
Il est clair que (An )n∈N∗ est une suite décroissante pour l’inclusion et que A =
T
n∈N∗
An
D’où par la propriété de continuité monotone décroissante : P (A) = lim P (An ).
n→+∞
Maintenant, d’après les considération du (ii), on a : ∀ n ∈ N∗ , P (An ) =
n−n
n n
= pn
n p (1 − p)
Comme 0 < p < 1, P (A) = 0. L’événement A est négligeable. Autrement dit l’événement contraire B = A :
”obtenir face au moins une fois” est un événement presque sûr (on s’en doutait fort bien ! !).
3
Conditionnement
Au cours d’une expérience aléatoire la réalisation de certains événements peut influence celle d’autres. Il s’agit
d’étudier mathématiquement cette influence pour améliorer les outils probabilistes.
Dans ce paragraphe, (Ω, A, P ) est un espace probabilisé et tous les événements évoqués dedans sont des événements
de cet espace.
3.1
Probabilité conditionnelle
définition 3.1
Soit A et B deux événements tel que P (B) > 0 (c’est à dire que B est un événement non négligeable.
P (A ∩ B)
On appelle probabilité de A sachant B le réel noté P (A|B) défini par : P (A|B) =
P (B)
Commentaire
Cette définition se justifie justement bien sous l’hypothèse d’équiprobabilité ; en effet, en réalisant N fois l’expérience,
nA∩B
nA∩B
P (A ∩ B)
.
≈ nNA ≈
la fréquence de réalisation de A sachant que B est réalisé est :
nB
P (B)
N
23
Exemple 3.1
Dans un jeu de 32 cartes, on tire au hasard et simultanément deux cartes. L’univers pour cette expérience est
l’ensemble fini Ω formé des paires de cartes parmi les 32 du jeux et la tribu d’événements (mesurables) est la tribu
grossière P (Ω). De plus, les tirage se faisant par hasard, on munit l’espace probabilisable (Ω, P (Ω)) de la probabilité
card (A)
uniforme (on est bien sous l’hypothèse d’équiprobabilité) définie par : ∀ A ∈ P (Ω) , P (A) =
card (Ω)
On note A, B les événements tels que
A : ”obtenir deux figures”
On a : card (Ω) =
32
2
=
et B : ”obtenir deux cartes rouges”
32 × 31
= 496.
2
La moitié des 32 cartes du jeux son rouges ; donc card (B) =
16
2
=
16 × 15
= 120.
2
120 15
=
>0
496 62
Les figures (valets, dames et rois) sont au nombre de 3×4 = 12 dont la moitié sont rouges et l’autre moitié sont noires.
15
card
(A
∩
B)
15
1
6
×
5
15
Il vient : card (A ∩ B) = 62 =
= 15 et P (A ∩ B) =
=
. D’où : P (A|B) = 496 =
=
120
2
card (Ω)
596
120
8
496
Donc P (B) =
Exemple 3.2
On lance deux dés cubiques équilibrés en les maintenant cachés. L’univers pour cette expérience aléatoire est Ω =
2
J1, 6K .
On a dévoilé un dé et on trouvé qu’il affiche un nombre premier. Calculons la probabilité que l’autre affiche un
diviseur de 18.
Notons d’abord qu’avec des dés équilibrés, on est sous l’hypothèse d’équiprobabilité.
Soit B : ”obtenir un nombre premier”.
Les nombres premiers appartenant à J1, 6K sont 2, 3 et 5 ; donc :
B = ({1, 4, 6} × {2, 3, 5})
et card (B) = 9 + 9 + 9 = 27
card (B)
27
3
Alors P (B) =
=
= > 0.
card (Ω)
36
4
Soit A : ”obtenir un diviseur de 18”.
[
({2, 3, 5} × {1, 4, 6})
[
({2, 3, 5} × {2, 3, 5})
Les diviseurs de 18 dans J1, 6K sont 1, 2, 3 et 6 ; donc en traitant les quatre cas « diviseur de 18 et non premier »,
« premier et non diviseur de 18 », « diviseur de 18 et premier » et « ni diviseur de 18 ni premier » pour le résultat
du premier dé, on trouve :
A ∩ B = ({1, 6} × {2, 3, 5})
[
({5} × {1, 2, 3, 6})
[
({2, 3} × {1, 2, 3, 4, 5, 6})
24
2
d’où card (A ∩ B) = 6 + 4 + 12 + 2 = 24 et, de là : P (A ∩ B) =
= .
36
3
2
P (A ∩ B)
8
Il vient : PB (A) =
= 3 =
3
P (B)
9
4
24
[
({4} × {2, 3}) ;
Théorème et définition 3.2
Soit B un événement non négligeable.
Alors l’application PB qui à tout événement A associe P (A|B) est une autre probabilité sur l’espace probabilisable
(Ω, A) ; on l’appelle la probabilité conditionnée (ou conditionnelle) à A.
Preuve
• On a : ∀ A ∈ A, A ∩ B ⊂ B.
D’où, par croissance de P : ∀ A ∈ A, P (A ∩ B) ≤ P (B).
P (A ∩ B)
∈ [0, 1].
On en déduit que ∀ A ∈ A, PB (A) = P (A|B) =
P (B)
PB est une application de A dans [0, 1] bien définie.
P (Ω ∩ B)
P (B)
• On a : PB (Ω) = P (Ω|B) =
=
= 1.
P (B)
P (B)
PB charge l’univers.
• Soit (An )n∈N une suite d’événements deux deux incompatibles de (Ω, A).
!
T
S
T
S
B=
An
(An B).
On a, par distributivité :
n∈N
n∈N
T
Et comme les An B sont aussi deux à deux incompatibles, on a par σ- additivité de P :


+∞
[ \ X \ B =
B
P
P An
An
n=0
n∈N
D’où : PB
S
An
n∈N
!
P
=
S
n∈N
An
!
P (B)
T
B
!
=
T
+∞
+∞
P
T
P P (An B) +∞
P
1
P (An B) =
PB (An )
=
P (B) n=0
P (B)
n=0
n=0
PB est σ- additive ; ce qui achève la démonstration.
Convention importante :
Dans toute la suite, on convient que P (A|B) .P (B) = 0 si P (B) = 0 (alors que P (A|B) n’a pas de sens, dans cas,
à priori).
3.2
Propriétés des probabilités conditionnelles
3.2.1
Formules des probabilités composées
Cette formule tout à fait banale sert beaucoup en pratique un peu partout mais surtout dans les questions de
succession d’épreuves indépendantes ou non comme les tirages successifs avec ou sans remise.
Commençons par l’exemple du tirage successifs au hasard et sans remise de deux boules dans une urne contenant 4
boules rouges et 3 blanches.
On souhaite calculer la probabilité d’obtenir deux boules blanches. En notant Bk l’événement « obtenir une boule
blanche au k ième tirage, il s’agit de calculer P (B1 ∩ B2 ). Mais en introduisant les probabilités conditionnelles, on
1
3 2
a : P (B1 ∩ B2 ) = P (B1 ) .PB1 (B2 ) = . = .
7 6
7
Plus généralement :
Théorème 3.1
Pour tout entier n ∈ N ∖ {0, 1} et toute famille finie d’événements (A1 , ..., An ), on a :
P (A1 ∩ ... ∩ An ) = P (A1 ) .PA1 (A2 ) .PA1 ∩A2 (A3 ) ...PA1 ∩...∩An−1 (An )
Et cette probabilité est nulle dès que l’une des intersection A1 ∩ ... ∩ Ak est négligeable.
25
(3.1)
Preuve
La dernière affirmation découle immédiatement de la convention importante ci-dessus. Supposons dans la suite que toutes les intersections
A1 ∩ ... ∩ Ak , 1 ≤ k ≤ n − 1, sont non négligeables. Dans ce cas, le produit du second membre de (3.1) s’écrit :
P (A1 ) .
n−1
Y
k=1
PA1 ∩...∩Ak (Ak+1 ) = P (A1 )
n−1
Y
P (A1 ∩ ... ∩ Ak ∩ Ak+1 )
P (A1 ∩ ... ∩ Ak )
k=1
D’où, par télescopage :
P (A1 ) .
n−1
Y
k=1
PA1 ∩...∩Ak (Ak+1 ) = P (A1 ) .
P (A1 ∩ ... ∩ An )
= P (A1 ∩ ... ∩ An )
P (A1 )
CQFD.
Exemple 3.3
Reprenons l’urne à 4 boules rouges et 3 blanches. En effectuant au hasard 3 tirage successifs et sans remise, on
1
3 2 1
obtient avec les mêmes notations : P (B1 ∩ B2 ∩ B3 ) = P (B1 ) .PB1 (B2 ) .PB1 ∩B2 (B3 ) = . . =
.
7 6 5
35
Puis, avec 4 tirages successifs sans remise ou plus, on obtient : P (B1 ∩ B2 ∩ B3 ∩ B4 ) = 0 = P (B1 ∩ ... ∩ Bk )
(k ≥ 4).
Exercice 3.1
Démontrer le théorème 3.1 par récurrence.
3.2.2
Formule des probabilités totales
Théorème 3.2
Soit (Bi )i∈I un système complet d’événements. Alors pour tout événement A, on a :
P (A)
=
P
i∈I
=
P
i∈I
P (Bi ∩ A)
PBi (A) .P (Bi )
(3.2)
N.B
• la convention PBi (A) .P (Bi ) = 0 quand P (Bi ) = 0 est toujours d’usage.
• Dans le cas où I est dénombrable, les sommes sont celles de familles sommables.
Preuve
S
!
S
(Bi ∩ A), puis d’utiliser l’additivité ou la σ- additivité selon que I est fini ou infini
∩A =
i∈I
P
P (Bi ∩ A)
dénombrable pour obtenir la relation P (A) =
Il suffit d’écrire A = Ω ∩ A =
Quant à la relation P (A) =
P
i∈I
i∈I
Bi
i∈I
PBi (A) .P (Bi ), il suffit d’utiliser que
P (Bi ∩ A) = PBi (A) .P (Bi )
y compris dans le cas P (Bi ) = 0 (selon la convention citée ci-dessus)
Commentaire
La formule des probabilités totales traduit, pour un événement A, que la probabilité de A peut s’obtenir comme la
moyenne des ses probabilités conditionnées par les différents événements Bi d’un système complet pondérée par les
P (Bi ), en sorte que chacun de ces Bi contribue au calcul de P (A).
26
Généralisation à un système quasi complet
Définition 3.3
On appelle système quasi complet de (Ω, A, P ) toute famille au plus dénombrable(B
i )
i∈I d’événement deux à
S
S
deux incompatibles de cet espace telle que
Bi est quasi certain (c’est à dire P
Bi = 1)
i∈I
i∈I
Théorème 3.3
Soit (Bi )i∈I un système quasi complet d’événements. Alors pour tout événement A, on a :
P (A)
=
P
i∈I
=
P
i∈I
P (Bi ∩ A)
PBi (A) .P (Bi )
(3.3)
Preuve
P
P (Bi ∩ A) car l’autre s’en déduit comme avant par conditionnement.
Il suffit de montrer la relation P (A) =
i∈I
S
′
′
Bi , en sorte que P (Ω ) = 1.
Notons Ω =
i∈I
On a P (A) = P (A ∩ Ω) = P A ∩ Ω′ ∪ Ω′
= P (A ∩ Ω′ ) ∪ A ∩ Ω′ . Et comme A ∩ Ω′ et A ∩ Ω′ sont incompatibles, on obtient
(∗).
par additivité de P : P (A) = P (A ∩ Ω′ ) + P A ∩ Ω′
Mais A ∩ Ω′ ⊂ Ω′ ; d’où par croissance de P : 0 ≤ P A ∩ Ω′ ≤ P Ω′ = 1 − P (Ω′ ) = 0.
Donc P A ∩ Ω′ = 0. En portant cette valeur dans (∗), on trouve P (A) = P (A ∩ Ω′ ).
Maintenant, on a : A ∩ Ω′ = A ∩ ∪ Bi = ∪ (A ∩ Bi ). Alors, sachant que les A ∩ Bi sont deux à deux incompatibles et que I est au
i∈I
i∈I
P
P (A ∩ Bi ). CQFD.
plus dénombrable, on a par additivité et σ- additivité de P : P (A) = P (A ∩ Ω′ ) =
i∈I
Exemple 3.4
On dispose d’un dé cubique équilibré dont les faces sont numérotées de 1 à 6 et d’une pièce de monnaie où la
probabilité de « pile » est p ∈ ]0, 1[ . On lance le dé une fois et si k est le résultat on lance la pièce k fois. Calculons
la probabilité que le nombre de piles obtenus est égal au numéro affiché par le dé.
Notons A cet événement et, pour tout k ∈ J1, 6K, notons Bk l’événement « le dé affiche le numéro k »
La famille (Bk )1≤k≤6 est un système complet. D’où par la formule des probabilité totales :
P (A) =
6
X
PBk (A) .P (Bk )
k=1
Mais les Bk sont équiprobables car le dé est équilibré ; donc P (A) =
6
1 P
PBk (A)
6 k=1
Maintenant, pour tout k ∈ J1, 6K, PBk (A) est la probabilité d’obtenir k fois pile en lançant la pièce k fois, soit :
PBk (A) = pk (voir exemple 2.3). 6
1 − p6 p
1 P
.
D’où : P (A) =
pk =
6 k=1
1−p
1
1
63
.
Si p = (la pièce est équilibrée comme le dé), on trouve P (A) = 1 − 6 =
2
2
64
27
Exercice 3.2
On considère un groupe de 2q personnes (q ∈ N ∖ {0, 1}) ; le nombre k de femmes vérifie q ≤ k ≤ 2q et toutes les
valeurs de k sont équiprobables. On choisit une personne au hasard dans ce groupe. Quelle est la probabilité que ce
soit une femme ?
3.2.3
Formule de Bayes.
Il s’agit d’une formule aussi banale que les autres mais, là encore, très utile à remonter l’ordre chronologique des
événements et déterminer les causes ; d’ailleurs on l’appelait anciennement la formules des probabilités des causes.
Théorème 3.4
PB (A) .P (B)
.
P (A)
En particulier, si (Bi )i∈I est un système complet ou seulement quasi complet d’événements alors :
Soit A et B deux événements non négligeables. Alors PA (B) =
PB (A) P (Bj )
∀ j ∈ I, PA (Bj ) = P j
PBi (A) .P (Bi )
i∈I
Preuve
La première relation se déduit de : PA (B) .P (A) = P (A ∩ B) et PB (A) .P (B) = P (A ∩ B).
La deuxième applique la première au cas B = Bj et développe le dénominateur P (A) par la formule des probabilités totales.
Exemple 3.5
On dispose de trois urnes U1 , U2 et U3 composées de 5 boules blanches et 3 noires pour U1 , de 4 boules banche et 4
noires pour U2 et 3 boules blanche et 5 noires pour U3 . On choisit une urne au hasard parmi les trois et on y effectue
un tirage au hasard d’une boule. Sachant que la boule tirée est noire, calculons la probabilité qu’elle soit tirée dans
l’urne U1 [resp. U2 , resp. U3 ].
Notons pour tout i ∈ {1, 2, 3}, Bi l’événement « choisir l’urne Ui » et notons par ailleurs A l’événement « obtenir
une boule noire »
Le système (B1 , B2 , B3 ) étant complet, la formule des probabilités totales correspondante s’écrit :
P (A) = PB1 (A) .P (B1 ) + PB2 (A) .P (B2 ) + PB3 (A) .P (B3 )
1
.
3
D’autre part, en utilisant la composition de chacune des trois urnes et le fait que le tirage se fait au hasard, on a :
3
4
5
PB1 (A) = , PB2 (A) = et PB3 (A) = .
8
8
8
1 3 4 5
12
1
D’où : P (A) =
+ +
=
= .
3 8 8 8
24
2
Maintenant ; sachant que la boule tirée est noire, la probabilité qu’elle ait été tirée dans l’urne Ui est PA (Bi ). La
Le choix d’une urne se fait au hasard ; donc les événements Bi sont équiprobable : P (B1 ) = P (B2 ) = P (B3 ) =
formule de Bayes fournit :
3 1
.
PB1 (A) .P (B1 )
1
1. PA (B1 ) =
= 8 3 = = 0, 25
1
P (A)
4
2
28
4 1
.
PB2 (A) .P (B2 )
1
= 8 3 = ≈ 0, 33
2. PA (B2 ) =
1
P (A)
3
2
5 1
.
PB3 (A) .P (B3 )
5
3. PA (B3 ) =
= 8 3 =
≈ 0, 42
1
P (A)
12
2
Ces résultats semblent cohérents vu la composition des urnes en boules noires.
Le lecteur est invité à donner les résultats analogues sachant que la boule tirée est blanche, d’abord sans calcul
aucun, puis en le vérifiant par le calcul.
4
Indépendance d’événements
Dans ce paragraphe, (Ω, A, P ) est toujours un espace probabilisé et tous les événements étudiés sont relatifs à cet
espace.
4.1
Cas de deux événements
Définition 4.1
Deux événements A et B sont dits indépendants si et seulement si P (A ∩ B) = P (A) .P (B).
Remarque 4.1
• La relation d’indépendance de deux événements est symétrique.
• Si P (A) ̸= 0 alors A et B sont indépendants si et seulement si P (B|A) = P (B).
• De même, Si P (B) ̸= 0 alors A et B sont indépendants si et seulement si P (A|B) = P (A).
Vocabulaire
Quand les événements A et B sont indépendants, on dit chacun d’eux est indépendant de l’autre.
N.B
La notion d’indépendance dépend fortement de la probabilité P et il faut bien s’abstenir de s’appuyer uniquement
sur l’intuition pour montrer que deux événements sont indépendants. En revanche, c’est dans la définition même de
la probabilité que l’on peut faire en sorte que deux événements intuitivement indépendants le soient formellement.
Exemple 4.1
Dans un jeu de 32 cartes, on tire au hasard une carte. On note A l’événement « obtenir un roi », B l’événement
« obtenir un cœur » et C l’événement « obtenir une figure ».
Le tirage se fait au hasard, donc on peut se mettre dans l’hypothèse d’équiprobabilité.
card (A)
4
1
card (B)
8
1
card (C)
12
3
D’où d’une part : P (A) =
=
= , P (B) =
=
= et P (C) =
=
= .
card (Ω)
32
8
card (Ω)
32
4
card (Ω)
32
8
1
card (A ∩ C)
card (A)
1
card (A ∩ B)
=
, P (A ∩ C) =
=
=
et d’autre part : P (A ∩ B) =
card (Ω)
32
card (Ω)
card (Ω)
8
3
card (B ∩ C)
=
.
et P (B ∩ C) =
card (Ω)
32
On voit que P (A ∩ B) = P (A) .P (B), P (A ∩ C) ̸= P (A) .P (C) et P (B ∩ C) = P (B) .P (C).
On conclut que A et B sont indépendants, B et C sont indépendants, cependant A et C ne sont pas indépendants.
29
Remarque 4.2
Cet exemple montre que la relation d’indépendance de deux événements, déjà symétrique, n’est pas transitive.
Exercice 4.1
Déterminer les événements indépendants d’eux-mêmes.
Proposition 4.1
Soit A et B deux événements dont A est non négligeable.
Alors A et B sont indépendants si et seulement si PA (B) = P (B)
Preuve
Il suffit d’utiliser la relation P (A ∩ B) = PA (B) .P (A) et la définition de l’indépendance en remarquant que P (A) > 0.
Remarque 4.3
Par symétrie de l’indépendance de deux événements, on a aussi quand P (B) > 0, que A et B sont indépendants si
et seulement si PB (A) = P (A).
Proposition 4.2
Soit A et B deux événements. Alors les p.s.s.e :
1. A et B sont indépendants.
2. A et B sont indépendants.
3. A et B sont indépendants.
4. A et B sont indépendants.
Preuve
Par symétrie de la relation d’indépendance, il suffit de montrer que 1 entraîne 2.
Supposons que A et B sont indépendants. Montrons que A et B sont indépendants, c’est à dire P A ∩ B = P A .P (B) .
On a : P A ∩ B = P (B ∖ A) = P (B) − P (A ∩ B).
D’où par hypothèse, P A ∩ B = P (B) − P (A) .P (B) = (1 − P (A)) .P (B). Donc P A ∩ B = P A .P (B).
Proposition 4.3
1. L’événement certain et l’événement impossible sont indépendant de tout autre événement.
2. Tout événement presque certain ou presque impossible est indépendant de tout autre événement.
Preuve
1. Soit B un événement. Montrons que chacun des événements Ω et Ø sont indépendants de B.
On a Ω ∩ B = B, d’où P (Ω ∩ B) = P (B) = P (Ω) .P (B) car P (Ω) = 1.
Ainsi Ω et B sont indépendants.
Il vient, d’après la proposition 4.2 et sachant que Ω = Ø, que Ø et B sont également indépendants.
2. Soit A un événement presque certain. Montrons que A est indépendant de tout événement.
30
Soit B un événement ; on a P (A) = 1, d’où P (A) .P (B) = P (B).
D’autre part, B = Ω ∩ B = A ∪ A ∩ B = (A ∩ B) ∪ A ∩ B et A ∩ B et A ∩ B sont incompatibles, d’où
P (A) .P (B) = P (B) = P (A ∩ B) + P A ∩ B
Mais A ∩ B ⊂ A ; d’où par croissance de P , 0 ≤ P A ∩ B ≤ P A = 0. Donc P A ∩ B = 0.
On conclut que P (A) .P (B) = P (A ∩ B) et que A et B sont indépendants.
Si maintenant A est un événement presque impossible, A est presque certain ; donc d’après ce qu’on vient de démontrer A est indépendant
de tout événement B. On en déduit en appliquant la proposition 4.2 que A est indépendant de tout événement B. CQFD.
4.2
Cas d’une famille d’événements
Définition 2.2
Soit (Ai )i∈I une famille quelconque d’événements.
On dit que la famille (Ai )i∈I est mutuellement indépendante (ou simplement indépendante) si et seulement si
pour toute partie finie J de I, on a :
P
\
Ai
i∈J
!
=
Y
P (Ai )
i∈J
On dit aussi que (Ai )i∈I est une famille d’événements mutuellement indépendants.
N.B
• Le fait de se limiter aux parties finies J de I pour réaliser la condition P
T
i∈J
Ai
=
Q
P (Ai ) est dicté par la
i∈J
présence du produit au second membre qui, si J devait être infini, serait un produit infini à définir (et cela est une
histoire).
T
Q
Ai =
P (Ai ) est toujours vérifiée quand J est un singleton ou quand il est vide
• Cette même condition P
i∈J
i∈J
Q
T
Ai = Ω, élément neutre de l’intersection dans P (Ω) et
P (Ai ) = 1 élément neutre de la multiplication
(car
i∈Ø
i∈Ø
dans R) . Donc quand on veut montrer que la famille (Ai )i∈I est mutuellement indépendante, il suffit de réaliser
cette condition pour les partie finie J de I telles que card (J) ≥ 2.
Remarque 4.4
• Une famille formée d’un seul événement est mutuellement indépendante.
• Toute sous famille d’une famille mutuellement indépendante d’événements est, elle-même, mutuellement indépendante ; en effet, si K est une partie de I alors les partie finies de K sont des parties finies de I.
• Pour toute permutation σ de I, on a :
(Ai )i∈I est mutuellement indépendante si ⇐⇒ Aσ(i) i∈I est mutuellement indépendante.
• Pour une famille formée de deux événements A et B exactement, on a :
la famille (A, B) est mutuellement indépendante ⇐⇒ les événements A et B sont indépandants
Pour une famille formée de trois événements A, B et C, le fait que cette famille est mutuellement indépendante est
équivalent à ce que les quatre conditions suivantes soient vérifiées :
(i)
(iii)
P (A ∩ B) = P (A) .P (B)
P (B ∩ C) = P (B) .P (C)
;
(ii)
;
(iv)
31
P (A ∩ C) = P (A) .P (C)
P (A ∩ B ∩ C) = P (A) .P (B) .P (C)
Définition 4.3
Soit (Ai )i∈I une famille quelconque d’événements.
On dit que la famille (Ai )i∈I est deux à deux indépendante si et seulement si pour tout (i, j) ∈ I 2 tel que i ̸= j
on a : P (A ∩ B) = P (A) .P (B)
Autrement dit les événements de la famille sont deux à deux indépendants.
Proposition 4.4
Tout famille d’événements mutuellement indépendante est deux à deux indépendante.
Preuve
Il suffit d’écrire la condition P
T
i∈J
Ai
!
=
Q
i∈J
P (Ai ) pour les paires J = {i, j} de I.
Remarque 4.5
Excepté le cas d’une famille de deux événements exactement, la réciproque est fausse en général pour les famille
d’au moins 3 événements distincts. En guise de contre exemple voyons l’exemple suivant :
Exemple 4.2
On lance deux dés équilibrés discernables à six faces numérotées de 1 à 6. On considère les trois événements A, B
et C suivants :
A : ”le pemier dé amène un nombre pair”
;
B:”
le deuxième dé amène un nombre impair”
;
C : ”les deux dés amènent deux nombre de même parité”
2
On prend pour univers Ω = J1, 6K et on fait l’hypothèse d’équiprobabilité car les dés sont équilibrés. Alors sachant
que
2
2
A = {2, 4, 6} × J1, 6K , B = J1, 6K × {1, 3, 5} et C = {2, 4, 6} ∪ {1, 3, 5} ,
3×6
1
card (B)
6×3
1
card (C)
32 + 32
1
card (A)
=
= , P (B) =
=
= et P (C) =
=
=
card (Ω)
36
2
card (Ω)
36
2
card (Ω)
36
2
2
2
D’autre part A ∩ B = {2, 4, 6} × {1, 3, 5}, B ∩ C = {1, 3, 5} et A ∩ C = {2, 4, 6} .
9
1
= .
D’où P (A ∩ B) = P (B ∩ C) = P (A ∩ C) =
36
4
On en déduit P (A ∩ B) = P (A) .P (B), P (B ∩ C) = P (B) .P (C) et P (A ∩ C) = P (A) .P (C).
on a : P (A) =
La famille (A, B, C) est deux à deux indépendante. Cependant, elle n’est pas mutuellement indépendante ; en effet
1
P (A ∩ B ∩ C) = P (Ø) = 0 alors que P (A) .P (B) .P (C) = ̸= (voir remarque 4.3).
8
Proposition 4.5
Une famille d’événements est mutuellement indépendante si et seulement si toutes ses sous familles finies le sont
32
Preuve
Soit (Ai )i∈I une famille d’événements.
Supposons que cette famille est mutuellement indépendante.
D’après une remarque précédente, toute sous famille de (Ai )i∈I est mutuellement indépendante, en particulier les sous familles finies de
(Ai )i∈I .
Réciproquement, supposons que toute sous famille finie de (Ai )i∈I est mutuellement indépendante et montrons que la famille (Ai )i∈I
elle-même, l’est.
!
Q
T
Ai =
P (Ai ) est satisfaite.
Soit J une partie finie. Il s’agit de montrer que la condition P
i∈J
i∈J
Cette condition est évidemment vérifiée si J est vide ou est un singleton. Supposons que card (J) ≥ 2.
La famille (Ai )i∈J est une sous famille finie de (Ai )i∈I . Elle est donc, par hypothèse, mutuellement indépendante.
!
Q
T
Ai =
P (Ai ). En particulier pour K = J, on obtient P
Pour toute partie K (forcément finie) de J on a : P
i∈K
i∈K
!
Q
T
Q
P (Ai ).P
Ai =
P (Ai ).
i∈J
i∈J
T
i∈J
Ai
!
=
i∈J
CQFD.
Théorème 4.4
Soit (Ai )i∈I une famille d’événements mutuellement indépendante et (Bi )i∈I une famille d’événements telle que :
∀ i ∈ I, Bi ∈ Ai , Ai . Alors la famille (Bi )i∈I est mutuellement indépendante
Preuve
(Elle est non exigible).
En utilisant la proposition 4.4, qui ramène l’étude de l’indépendance mutuelle au cas des familles finies, et en utilisant l’invariance de
cette indépendance mutuelle par permutation (voir la remarque 4.3), il suffit de montrer que pour tout n ∈ N, la proposition P (n)
suivante est vraie :
P (n) : pour tout entier r ≥ n + 1 et pour toute famille finie (A1 , ..., Ar ) formée de r événements mutuellement indépendants, on a :
∀ p ∈ Jn, rK , P A1 ∩ ... ∩ An ∩ An+1 ∩ ... ∩ Ap = P A1 ...P An .P (An+1 ) ...P (Ap )
(4.1)
Pour cela, raisonnons par récurrence sur n.
Soit r un entier naturel non nul et (A1 , ..., Ar ) une famille finie de r événements mutuellement indépendants. La relation (4.1) s’écrit
pour n = 0 :
∀ p ∈ J0, rK , P (A1 ∩ ... ∩ Ap ) = P (A1 ) ...P (Ap )
et cela est vrai par indépendance mutuelle de la famille (A1 , ..., Ar ).
La proposition P (0) est vraie.
Soit n ∈ N. Supposons la proposition P (n) est vraie et montrons que P (n + 1) l’est également.
Soit r un entier naturel tel que r ≥ n + 2 et (A1 , ..., Ar ) une famille de r événements mutuellement indépendants. Il s’agit de montrer
que :
(4.2)
∀ p ∈ Jn + 1, rK , P A1 ∩ ... ∩ An+1 ∩ An+2 ∩ ... ∩ Ap = P A1 ...P An+1 .P (An+2 ) ...P (Ap )
Soit p ∈ Jn + 1, rK. On a :
P A1 ∩ ... ∩ An+1 ∩ An+2 ∩ ... ∩ Ap
=
=
P
P
A1 ∩ ... ∩ An ∩ An+2 ∩ ... ∩ Ap ∖ An+1
n
T
Ai
i=1
=
P
n
T
i=1
Ai
T
T
"
"
p
T
Ai
i=n+2
p
T
i=n+2
Ai
#!
#!
−P
n
T
−P
n
T
Ai
i=1
i=1
Ai
T
T
"
"
p
T
Ai
#
Ai
#!
i=n+2
p
T
i=n+1
T
An+1
!
La famille (A1 , ..., An , An+2 , ...Ar ) est mutuellement indépendante comme sous famille de (A1 , ..., Ar ) ; de plus, elle compte r − 1
événements et r − 1 ≥ n (car r ≥ n + 1). Alors, sachant que n ≤ p − 1 ≤ r − 1 et par hypothèse de récurrence, on a :


"
#
p
p
n
n
\
\
\
Y
Y


Ai
A i  =
P Ai .
P (Ai )
P
i=1
i=n+2
i=1
33
i=n+2
D’autre part, la famille (A1 , ..., Ar ) est mutuellement indépendante de r événements et r≥ n + 2 donc r ≥ n + 1. Là encore, sachant que
n ≤ n + 1 ≤ p ≤ r et par hypothèse de récurrence, on a :
"


#
p
p
n
n
\
\
Y
\
Y

Ai
A i  =
P Ai .
P (Ai )
P
i=1
i=n+1
D’où :
P A1 ∩ ... ∩ An+1 ∩ An+2 ∩ ... ∩ Ap
=
i=1
n
Q
P Ai .
n
Q
P Ai .
n
Q
P Ai .
n+1
Q
P Ai .
i=1
=
i=1
=
i=1
=
i=1
=
CQFD.
i=n+1
P Ai .
p
Q
P (Ai ) −
p
Q
P (Ai ) . [1 − P (An+1 )]
i=n+2
i=n+2
p
Q
n
Q
i=1
P (Ai ) .P An+1
i=n+2
p
Q
p
Q
P (Ai )
i=n+1
P (Ai )
i=n+2
P A1 ...P An+1 .P (An+2 ) ...P (Ap )
Théorème 4.5 (lemme des coalitions)
Soit (Ai )i∈I une famille mutuellement indépendante d’événements et (Iλ )λ∈Λ une partition de I.
Si pour tout λ ∈ Λ, Bλ est un événement obtenu à partie des événements de la sous famille (Ai )i∈Iλ par opérations
ensemblistes, alors la famille (Bλ )λ∈Λ est également mutuellement indépendante.
Preuve
Elle est admise.
Exercice 4.2
Soit (A, B, C) une famille de trois événements mutuellement indépendants.
Montrer directement que A est indépendant de chacun des événements B ∩ C, B ∪ C, B ∖ C. (ce qui montre le
lemme des coalitions dans un cas particulier simple)
5
Variables aléatoires réelles : généralités
(Ω, A, P ) est toujours un espace probabilisé
5.1
Premières notions
Définition 5.1
On appelle variable aléatoire réelle (en abrégé v.a.r) sur l’espace probabilisable (Ω, A) toute application X de Ω
dans R telle que :
∀ B ∈ B (R) , X −1 (B) ∈ A;
où B (R) est la tribu borélienne de R.
C’est un cas particulier d’une notion hors programme plus générale : Étant donné un autre espace probabilisable
(Ω′ , A′ ), on appelle variable aléatoire (ou application mesurable) de l’espace probabilisable (Ω, A) dans l’espace
34
probabilisable (Ω′ , A′ ) toute application X de Ω dans Ω′ telle que :
∀ B ∈ A′ , X −1 (B) ∈ A
Vocabulaire
Pour une v.a.r X sur l’espace probabilisable (Ω, A), l’ensemble X (Ω) = {X (ω) / ω ∈ Ω} est appelé l’univers image
de X.
Exemple 5.1
Soit X : Ω −→ R une application constante. Fixons un réel c tel que : ∀ ω ∈ Ω, X (ω) = c.
Soit B ∈ B (R). On a :
X −1 (B) =
et dans les deux cas X −1 (B) ∈ A.

Ø
Ω
; si c ∈
/B
; si c ∈ B
Cela montre que les applications constantes de Ω dans R sont des v.a.r sur (Ω, A) ; on les appelle les v.a.r sûres.
Exemple 5.2
Soit A ∈ A et X = φA la fonction caractéristique de A :
φA :
Ω
−→
ω
7−→
Étant donné un élément quelconque B de B (R), on a :
Dans tous les cas X −1 (B) ∈ A.



X −1 (B) = Ω




X −1 (B) = A


X −1 (B) = A




X −1 (B) = Ø

1
0
R
; si ω ∈ A
; si ω ∈
/A
; si 0 ∈ B et 1 ∈ B
; si 0 ∈
/ B et 1 ∈ B
; si 0 ∈ B et 1 ∈
/B
; si 0 ∈
/ B et 1 ∈
/B
Cela montre que toute fonction caractéristique d’un événement A ∈ A est une v.a.r sur (Ω, A) ; une telle v.a.r est
dite variable de Bernoulli.
Vocabulaire
Si P est une probabilité sur (Ω, A), toute v.a.r sur (Ω, A) est dite aussi une v.a.r sur l’espace probabilisé (Ω, A, P ).
Remarque 5.1
Si l’univers Ω est au plus dénombrable, on choisit conventionnellement comme tribu sur Ω la tribu grossière P (Ω).
Dans ce cas, toute application X de Ω dans R est une v.a.r sur (Ω, P (Ω)).
35
Théorème et Définition 5.2
Soit X une v.a.r sur l’espace probabilisable (Ω, A). Alors l’ensemble σX = B ∈ B (R) / X −1 (B) ∈ A est une
tribu sur R contenue dans B (R) ; on l’appelle la tribu engendrée par la v.a.r X.
Preuve
(i) Notons d’abord que σX ⊂ B (R).
(ii) On a : R ∈ B (R) et X −1 (R) = Ω ∈ A.
D’où R ∈ σX .
(iii) Soit B ∈ σX , en sorte que B ∈ B (R) et X −1 (B) ∈ A.
Mais, B = R ∖ B est aussi un élément de la tribu B (R) ; de plus X −1 B = X −1 (B) = Ω ∖ X −1 (B) ∈ A (par stabilité de la tribu A
par passage au complémentaire). Donc B∈ σX : σX est stable par passage au complémentaire.
(iv) Il reste à montrer la stabilité de σX par union dénombrable. Soit (Bn )n∈N une suite d’éléments de σX .
Chaque Bn ∈ B (R) et X −1 (Bn ) ∈ A. D’où, par stabilité des tribus B (R) et A :


[
[
[
Bn ∈ B (R) et X −1 
Bn  =
X −1 (Bn ) ∈ A
n∈N
Donc
S
n∈N
n∈N
n∈N
Bn ∈ σX . CQFD.
Théorème 5.1
Soit X : Ω −→ R une application. Alors les p.s.s.e :
(i)
(ii)
(iii)
(iv)
X est une v.a.r sur (Ω, A)
Pour tout intervalle I de R, X −1 (I) ∈ A
Pour tout réel x, X −1 (]−∞, x[) ∈ A
Pour tout réel x, X −1 (]−∞, x]) ∈ A
Preuve
Si X est une v.a.r sur (Ω, A) alors, par définition : ∀ B ∈ B (R) , X −1 (B) ∈ A.
Or, les intervalles sont des boréliens particuliers ; donc, dans ce cas : ∀ I ∈ I , X −1 (I) ∈ A.
Cela montre (i) =⇒ (ii).
D’autre part, les ]−∞, x[ (x ∈ R) sont des intervalles particulier de R. D’où (ii) =⇒ (iii).
L’implication (iii) =⇒ (iv) découle du fait que pour tout x ∈ R, on a :
\
\ 1
1
−∞, x +
−∞, x
=
−∞, x +
X −1
et donc X −1
−∞, x =
n
n
n∈N∗
n∈N∗
Pour achever la démonstration, il reste donc seulement à prouver que (iv) =⇒ (i) .
Supposons que :
∀ x ∈ R, X −1 −∞, x ∈ A
(5.1)
.Il s’agit de montrer que : ∀ B ∈ B (R) , X −1 (B) ∈ A.
Pour cela, il suffit de montrer que B ∈ B (R) / X −1 (B) ∈ A = B (R).
Observons que l’ensemble B ∈ B (R) / X −1 (B) ∈ A n’est rien d’autre que la tribu σX engendrée par X (voir le théorème-définition
précédent).
On a donc, déjà : σX ⊂ B (R) et σX est une tribu sur R. D’autre part, par l’hypothèse (5.1), σX contient l’ensemble I − des intervalles
de la forme −∞, x , x ∈ R. Il vient que σ I − ⊂ σX .
Mais d’après le théorème 2.2, σ I − = B (R). D’où σX ⊂ B (R) et B (R) ⊂ σX ; donc σX = B (R). CQFD.
Notations
Pour une application X : Ω −→ R et une partie B de R, on a : X −1 (B) = {ω ∈ Ω / X (ω) ∈ B} . On convient de
noter X ∈ B = X −1 (B).
36
En particulier, pour (a, b) ∈ R2 , on notera
a ≤ X ≤ b = X −1 a, b = {ω ∈ Ω / a ≤ X (ω) ≤ b}
a < X ≤ b = X −1 a, b = {ω ∈ Ω / a < X (ω) ≤ b}
a < X < b = X −1 a, b = {ω ∈ Ω / a < X (ω) < b}
a ≤ X < b = X −1 a, b = {ω ∈ Ω / a ≤ X (ω) < b}
X ≤ b = X −1 −∞, b = {ω ∈ Ω / X (ω) ≤ b}
X < b = X −1 −∞, b = {ω ∈ Ω / X (ω) < b}
Ces notations sont introduites pour leur simplicité et leurs avantages dans les calculs.
Observons qu’avec ces notations, on a, pour
X est une var sur (Ω, A)
⇐⇒
⇐⇒
5.2
∀ x ∈ R, X ≤ x ∈ A
(5.2)
∀ x ∈ R, X < x ∈ A
Opérations sur les variables aléatoires réelles
Théorème 5.2
Soit X et Y deux v.a.r sur l’espace probabilisable (Ω, A). Alors :
1. Pour tout λ ∈ R, λX est une v.a.r sur (Ω, A).
2. Pour tout (λ, µ) ∈ R2 , λX + µY est une v.a.r sur (Ω, A).
3. X 2 et XY sont deux v.a.r sur (Ω, A).
Preuve
1. Soit λ un réel. Montrons que λX est une v.a.r sur (Ω, A).
• Si λ = 0, il n’y a rien à démontrer, car dans ce cas λX est constante nulle.
• Supposons λ ̸= 0.
D’après (5.2), il suffit de montrer que : ∀ x ∈ R, λX ≤ x ∈ A.
x
x
et X ≤
∈ A, car X est une v.a.r sur (Ω, A).
Si λ > 0, pour tout x ∈ R, on a λX ≤ x = X ≤
λ
λ
D’où pour tout x ∈ R, λX ≤ x ∈ A.
x
x
et X ≥
∈ A, car X est une v.a.r sur (Ω, A).
Si λ < 0, pour tout x ∈ R, on a λX ≤ x = X ≥
λ
λ
D’où pour tout x ∈ R, λX ≤ x ∈ A.
CQFD.
2. D’après le résultat du 1, il suffit de montrer que X + Y est une v.a.r sur (Ω, A). Pour cela, on utilise toujours les caractérisations (5.2).
Plus exactement, on montre que pour tout x ∈ R, X + Y < x ∈ A.
Soit x ∈ R ; soit ω est un élément de X + Y < x . On a X (ω) + Y (ω) < x, c’est à dire X (ω) < x − Y (ω). D’où l’existence, par densité
de Q dans R,d’un rationnel r tel que X (ω) < r < x − Y (ω) donc X (ω) < r et Y (ω) < x − r.
T
S X<r
Y < x − r . L’inclusion réciproque étant visiblement vraie, on déduit que :
Il ressort de cela que X + Y < x ⊂
r∈Q
[ \
X<r
Y <x−r
X +Y <x =
r∈Q
Or, puisque X et Y sont des v.a.r sur (Ω, A), les événements X < r et Y < x − r sont des éléments de A ainsi que leur intersection ;
donc X + Y < x ∈ A par stabilité de la tribu A par union au plus dénombrable.
3. Commençons par montrer que X 2 est une v.a.r sur (Ω, A) en utilisant les caractérisations (5.2).
Soit x ∈ R. Il s’agit de montrer que X 2 ≤ x ∈ A. Écartons le cas trivial x < 0 où X 2 ≤ x = Ø et supposons x > 0. On a
√ √ 2
2
√ √
√ X ≤ x = X ≤ x = − x ≤ X ≤ x = X ∈ − x, x . Donc X ≤ x ∈ A.
En conclusion X 2 est une v.a.r sur (Ω, A).
1
1
Enfin, la relation XY = (X + Y )2 − (X − Y )2 prouve, en utilisant ce qui précède, que XY est une v.a.r sur (Ω, A).
4
4
37
Remarque 5.2
L’ensemble VR (Ω, A) de toutes les v.a.r sur (Ω, A) est une R-algèbre, sous algèbre de la R- algèbre RΩ .
Notations
Soit n ∈ N∗ et X1 , ..., Xn n applications définies sur Ω et à valeurs dans R.
Les applications :
Ω
ω
−→
7−→
R
min (X1 (ω) , ..., Xn (ω))
Ω
et
ω
−→
7−→
R
max (X1 (ω) , ..., Xn (ω))
sont notée respectivement min (X1 , ..., Xn ) et max (X1 , ..., Xn ).
Attention : Si pour des nombres réels a1 , ...an , min (a1 , ..., an ) [resp. max (a1 , ..., an )] coïncide avec l’un des ai , pour
des applications réelles X1 , ..., Xn , min (X1 , ..., Xn ) et max (X1 , ..., Xn ) ne coïncident pas en général avec l’une des
applications Xi .
Théorème 5.3
Soit n ∈ N∗ et X1 , ..., Xn n v.a.r sur (Ω, A).
Alors min (X1 , ..., Xn ) et max (X1 , ..., Xn ) sont des v.a.r sur (Ω, A)
Preuve
Notons Y = min (X1 , ..., Xn ) et Z = max (X1 , ..., Xn ).
Soit x un réel. Le lecteur est invité à vérifier que :
n
[
Xi ≤ x
Y ≤x =
et
i=1
n
\
Z≤x =
Xi ≤ x
i=1
Comme les Xi ≤ x sont tous dans A (car les Xi sont des v.a.r sur (Ω, A)), la stabilité de la tribu A par intersection finie et par union
finies achèvent de montrer que Y ≤ x ∈ A et Y ≤ x ∈ A.
x étant quelconque, l’une des caractérisations montrent que Y et Z sont des v.a.r sur (Ω, A).
5.3
Fonction d’une ou plusieurs v.a.r
• Étant donnés une v.a.r X sur (Ω, A), un intervalle I de R tel que X (Ω) ⊂ I et une application f : I −→ R,
l’application
Ω
ω
−→
7−→
R
f (X (ω))
est notée simplement f (X) ; elle dite une fonction de X . Notons que f (X) n’est rien d’autre que f oX.
• Plus généralement, étant donnés n ∈ N∗ , X1 , ..., Xn des v.a.r sur (Ω, A), des intervalles I1 ⊃ X1 (Ω) , ..., In ⊃ Xn (Ω)
et g : I1 × ... × In −→ R une application, l’application
Ω
ω
−→
7−→
R
g (X1 (ω) , ..., Xn (ω))
est notée g (X1 , ..., Xn ) ; elle est dite une fonction de (X1 , ..., Xn ). Elle la composée de ω 7−→ (X1 (ω) , ..., Xn (ω))
par g.
38
En guise d’exemples, λX = f1 (X) , X 2 = f2 (X) , |X| = f3 ,
√
X 2 + 1 = f4 (X) sont toutes des fonctions de X ; où
f1 , f2 , f3 et f4 sont les fonctions réelles définies sur R par :
∀ t ∈ R, f1 (t) = λt, f2 (t) = t2 , f3 (t) = |t| , f4 (t) =
p
t2 + 1
λX + µY = g1 (X, Y ), XY = g2 (X, Y ) sont des fonctions de (X, Y ) ; où pour tout (s, t) ∈ R2 , g1 (s, t) = λs + µt,
g2 (s, t) = st.
min (X1 , ..., Xn ) = g3 (X1 , ..., Xn ), max (X1 , ..., Xn ) = g4 (X1 , ..., Xn ) sont des fonctions de (X1 , ..., Xn ) ; où pour
tout (t1 , ..., tn ) ∈ Rn , g3 (t1 , ..., tn ) = min (t1 , ..., tn ), g4 (t1 , ..., tn ) = max (t1 , ..., tn ).
Théorème 5.4
Soit X une v.a.r sur l’espace probabilisable (Ω, A), I un intervalle de R tel que X (Ω) ⊂ I et f : I −→ R une
application monotone.
Alors f (X) est également une v.a.r sur (Ω, A)
Preuve
Elle n’est pas exigible.
Théorème 5.5
Soit X une v.a.r sur l’espace probabilisable (Ω, A), I un intervalle de R tel que X (Ω) ⊂ I et f : I −→ R une
application continue.
Alors f (X) est également une v.a.r sur (Ω, A)
Preuve
Elle n’est pas exigible
Elle utilise un résultat classique mais hors programme selon lequel tout ouvert de R est union au plus dénobrable d’intervalles ouverts.
Elle n’est pas exigible. Il suffit de montrer que pour tout y ∈ R, on a : f (X) < y ∈ A.
Soit y ∈ R. On a : f (X) < y = (f (X))−1 −∞, y = X −1 f −1 −∞, y .
Par continuité de f , f −1 −∞, y est un ouvert relatif de I. Posons f −1 −∞, y = U ∩ I ; où U est ouvert de R. Mais d’après le
S
Iλ ; où Λ est un ensemble au plus dénombrable et les Iλ sont des intervalles
résultat hors programme cité ci-dessus, on peut écrire U =
λ∈Λ
ouverts. On en déduit :
f
−1
−∞, y
puis :

=U ∩I =
f (X) < y = X
[
λ∈Λ

−1 

Iλ  ∩ I =
[
λ∈Λ
[
λ∈Λ
(Iλ ∩ I)

(Iλ ∩ I)
Or, chaque Iλ ∩ I est un intervalle de R éventuellement vide ; donc par stabilité de B (R) par union au plus dénombrable,
B (R).
Finalement, X étant une v.a.r sur (Ω, A), f (X) < y = X −1
S
λ∈Λ
(Iλ ∩ I)
!
S
λ∈Λ
(Iλ ∩ I) ∈
∈ A. CQFD.
Vocabulaire
Une fonction réelle f définie sur un segment [a, b] de R (où q < b) est dite monotone par morceaux s’il existe
une subdivision σ = (x0 , ..., xr ) de [a, b] telle que f est monotone sur chaque intervalle ouvert xk , xk+1 de cette
subdivision (le sens de monotonie de f dans ces différents intervalles n’étant pas forcément le même).
Une fonction réelle définie sur un intervalle quelconque I de R est dite monotone par morceaux si elle l’est sur chaque
segment inclus dans I.
39
Proposition 5.1
Soit X une v.a.r sur l’espace probabilisable (Ω, A), I un intervalle de R f : I −→ R une fonction monotone
par morceaux.
Alors f (X) est une v.a.r sur (Ω, A).
Preuve
Elle n’est pas exigible.
Proposition 5.2
Soit X une v.a.r sur l’espace probabilisable (Ω, A), I un intervalle de R f : I −→ R une continue sauf en un
nombre fini ou dénombrable de points isolés.
Alors f (X) est une v.a.r sur (Ω, A).
Preuve
Elle n’est pas exigible.
Exemple 5.3
Si X est une v.a.r sur (Ω, A, P ) alors X est également une v.a.r sur (Ω, A, P ), car la fonction partie entière est
continue partout dans R sauf en les point de Z qui est un ensemble infini dénombrable de points isolés.
On peut aussi, dans ce cas, avancer l’argument de la proposition 5.1, car la fonction partie entière est monotone par
morceaux.
N.B
• Si on note D l’ensemble des points de discontinuité de f dans I, l’hypothèse faite sur f entraîne que l’intersection
de D avec tout segment inclus dans I est un ensemble fini.
• Une telle fonction f n’est pas forcément continue par morceaux car ses discontinuités ne sont pas pas forcément
de première espèce.
5.4
Loi de probabilité d’une v.a.r
Dans ce paragraphe (Ω, A, P ) est un espace probabilisé
Théorème et définition 5.3
Soit X une v.a.r sur l’espace probabilisable (Ω, A, P ). Alors l’application
PX :
B (R)
B
−→
7−→
est une probabilité sur l’espace probabilisable (R, B (R)).
[0, 1]
P X −1 (B)
PX est appelée la loi de probabilité (ou simplement la loi) de X.
40
Preuve
• PX charge l′ univers R :
En effet, on a : PX (R) = P X −1 (R) = P (Ω) = 1.
• PX est σ − additive :
En effet, se donnant une suite (Bn )n∈N de boréliens deux à deux disjoints, on a :
!
!!
S
S
= P X −1
Bn
Bn
PX
n∈N
n∈N
!
S −1
X (Bn )
= P
n∈N
+∞
P
=
=
n=0
+∞
P
n=0
P X −1 (Bn )
PX (Bn )
[car P est σ−additive]
Remarque 5.3
Soit X une v.a.r sur l’espace probabilisable (Ω, A, P ). On admet que, partant du fait que la tribu borélienne de R
est engendrée par l’ensemble I des intervalles de R, la donnée de la loi PX de X est équivalente à la donnée de la
famille P X ∈ I I∈I .
Montrons que cette donnée est équivalente à celle de la famille P X ≤ x x∈R . Il s’agit donc de montrer que les
deux points suivants sont équivalents :
(i)
X ∈ I I∈I
la donnée de la famille P X ≤ x x∈R
la donnée de la famille P
(ii)
Montrons le.
On a :I − =
−∞, x / x ∈ R ⊂ I . D’où (i) =⇒ (ii).
Montrons que (ii) =⇒ (iii).
Supposons donnés les nombres P
X ≤ x , x ∈ R. Soit I ∈ I un intervalle de R. Montrons que P X ∈ I est
déterminé. Écartons les cas triviaux où I = Ø et I = R.
1. Si I est de la forme I = −∞, x , x ∈ R, on a : P X ∈ I = P X ≤ x est déterminé.
2. Si I est de la forme I = −∞, x , x ∈ R, on a :
P
X∈I
P X < x
S 1
P
X ≤x−
n n∈N∗ 1
lim P X ≤ x −
n→+∞
n
=
=
=
[continuité monotone croissante]
donc P X ∈ I est déterminé.
3. Si I = x, +∞ , x ∈ R, on a : P (X ∈ I) = P X ≥ x = 1 − P X < x est déterminé par 2.
4. Si I = x, +∞ , x ∈ R, on a : P (X ∈ I) = P X > x = 1 − P X ≤ x est déterminé par 1.
5. Si I = [x, y], x, y réels et x < y, on a :
P
X∈I
=
=
=
donc P
X∈I
x≤X≤y
P X≤y ∖ X<x
P X ≤y −P X <x
P
est déterminé par 1 et 2.
41
[car X < x ⊂ X ≤ y ]
6. Si I = x, y , x, y réels et x < y, on a :
P
X∈I
=
=
=
x≤X<y
P X<y ∖ X<x
P X <y −P X <x
P
Donc P X ∈ I est déterminé par 2.
7. Si I = x, y , x, y réels et x < y, on a :
P
X∈I
=
=
=
x<X≤y
P X≤y ∖ X≤x
P X ≤y −P X ≤x
[car X ≤ x ⊂ X ≤ y ]
x<X<y
P X<y ∖ X≤x
P X <y −P X ≤x
[car X ≤ x ⊂ X < y ]
P
Donc P X ∈ I est déterminé par 1.
8. Si I = x, y , x, y réels et x < y, on a :
P
X∈I
=
=
=
Donc P
X∈I
[car X < x ⊂ X < y ]
P
est déterminé par 1 et 2.
Remarque 5.4
Deux v.a.r peuvent avoir la même loi tout en étant définies sur des espaces probabilisés différents.
Deux v.a.r définies sur le même espace probabilisé peuvent avoir la même loi tout en étant distinctes.
Pour s’en convaincre, examinons les deux exemples suivants :
Exemple 5.4
1
2
On associe à ces deux lancers leur espace probabilisés finis (Ω, P (Ω) , P ) et (Ω′ , P (Ω′ ) , P ′ ) ; où Ω = {pile, face} et
q y
Ω′ = 1, 6 .
On lance une pièce équilibrée et un dé non équilibré où la probabilité de la face n°6 est
On note X : Ω −→ R et Y : Ω′ −→ R les applications telles que

X (pile) = 1
X (face) = 0
et

Y (6) = 1
Y (k) = 0
; si 1 ≤ k ≤ 5
X et Y sont des v.a.r sur (Ω, P (Ω) , P ) et (Ω′ , P (Ω′ ) , P ′ ) respectivement car ces deux espaces probabilisés sont finis.
Notons qu’elles sont toutes les deux des v.a de Bernoulli.
Les lois de X et Y sont données par les P X ≤ x et P Y ≤ x , x ∈ R. (voir Remarque 5.3). Plus exactement :
 
P X≤x =0


 1
P X≤x =P X=0 =
2



P X ≤ x = P X = 0 ∪ X = 1 = P X = 0 + P X = 1 = 1 + 1 = 1
2 2
42
; si x < 0
; si 0 ≤ x < 1
; si 1 ≤ x
et pour Y :
 
P Y ≤x =0


 q y 1
P Y ≤ x = P Y = 0 = P ”obtenir un k ∈ 1, 5 ” = 1 − P (”obtenir 6”) =

2


P X ≤ x = P ”obtenir un k ∈ q1, 6y” = P (Ω′ ) = 1
D’où : ∀ x ∈ R, P
X≤x
=P
; si x < 0
; si 0 ≤ x < 1
; si 1 ≤ x
Y ≤x .
Les variables X et Y ont la même loi. Cependant, elle sont définies sur des espaces probabilisés différents.
Exemple 5.5
Reprenons le lancer d’une pièce équilibrée et la v.a.r de Bernoulli X.
Soit Y : Ω = {pile, face} −→ R telle que :

Y (pile) = 0
Y (face) = 1
En sorte que Y = 1 − X. C’est une va sur le même espace probabilisé (Ω, P (Ω) , P ) que X, mais elle est différente de
celle-ci car là où X vaut 1, Y vaut 0 et vis-vers-ça. (en fait chacune des deux est une v. de Bernoulli mais le succès
de l’une est l’échec de l’autre).
Les mêmes calculs qu’avant conduisent à
 
P Y ≤x =0


 1
P Y ≤x =P Y =0 =

2


P Y ≤ x = P Y = 0 ∪ Y = 1 = P Y = 0 + P Y = 1 = 1 + 1 = 1
2 2
; si x < 0
; si 0 ≤ x < 1
; si 1 ≤ x
Donc : X et Y ont la même loi alors qu’elle sont distinctes.
5.5
Fonction de répartition d’une variable aléatoire réelle.
Définition 5.4
On appelle fonction de répartition de la variable réelle toute application F : R −→ [0, 1] ayant les trois propriétés
suivantes :
(i)
F est croissante sur R
(ii)
F admet la limite 0 en − ∞ et la limite 1 en + ∞
(iii)
F est continue à droite en tout point de R
Exemple 5.6
Le lecteur vérifiera aisément que les fonctions F et G définies sur R par :


F (x) = 0



1
F (x) =

3


F (x) = 1
; si x < −1
; si − 1 ≤ x < 0
et
; si 0 ≤ x


G (x) = 0



x+2
G (x) =

4


G (x) = 1
; si x < −2
; si − 2 ≤ x < 2
; si 2 ≤ x
sont des fonctions de répartition. Il remarquera au G est même continue en tout point de R.
43
Théorème et définition 5.5
Soit X une v.a.r sur l’espace probabilisé (Ω, A, P ). Alors la fonction notée FX définie sur R par :
∀ x ∈ R, FX (x) = P
X≤x
est une fonction de répartition ; on l’appelle la fonction de répartition de X.
Preuve
D’abord, puisque P est une probabilité, la fonction FX est à valeurs dans le segment [0, 1]. Montrons ensuite qu’elle est une fonction de
répartition en vérifiant les trois conditions de la définition 5.4.
(i) Pour tout couple (x, y) de réels tels que x < y, on a X ≤ x ⊂ X ≤ y ; d’où par croissance de P :
P
X≤x ≤P X≤y
Ainsi : ∀ (x, y) ∈ R2 , x < y =⇒ FX (x) ≤ FX (y).
La fonction FX est croissante sur R.
(ii) La fonction FX est croissante sur R et elle est minorée par 0 et majorée par 1. Le théorème de la limite monotone assure l’existence
de l = lim FX (x) et L = lim FX (x) dans R. Montrons que l = 0 et L = 1.
x→−∞
x→+∞
Pour tout n ∈ N, introduisons An = X ≤ −n et Bn = X ≤ n .
Puisque X est une v.a.r sur (Ω, A), les An et Bn sont des événements de la tribu A. De plus pour tout n, on a :
An+1 ⊂ An et Bn ⊂ Bn+1
La propriétés de continuité monotone permet de déduire que


\
FX (−n) = P (An ) −→ P 
An 
n→+∞
Or, classiquement,
T
n∈N
An =
T n∈N
FX (n) = P (Bn ) −→ P 
et
n→+∞
n∈N
S S
Bn =
X ≤ −n = Ø et
X ≤ n = Ω. D’où
n∈N

[
n∈N

Bn 
n∈N
FX (−n) −→ 0
n→+∞
et FX (n) −→ 1
n→+∞
Mais, par le critère séquentiel des limites de fonctions, on a : FX (−n) −→ l et FX (n) −→ L.
n→+∞
n→+∞
D’où, par unicité de la limite : l = 0 et L = 1.
(iii) Soit x ∈ R. Montrons que FX est continue à droite en x.
Comme x ∈ x, +∞ , il revient au même de montrer que : FX (t) −→ FX (x).
t→x+
D’abord, par croissance de FX sur R, le théorème de la limite monotone assure l’existence dans R de ℓ = lim FX (x)
x→x+
et il reste seulement à montrer que ℓ = FX (x). Pour cela, on raisonne, comme dans (ii), en utilisant la propriété de continuité monotone.
1
. Le fait que X est une v.a.r sur l’espace probabilisable (Ω, A), permet d’affirmer que les Cn
Pour tout n ∈ N∗ , soit Cn = X ≤ x +
n
∗
sont des événements de la tribu A. Ensuite, on observe que pour tout n ∈
!N , on a : Cn+1 ⊂ Cn . Alors, d’après la propriété de continuité
T
1
monotone décroissante, on a : FX x +
Cn .
= P (Cn ) −→ P
n→+
n
n∈N∗
T T
1
1 −→ P X ≤ x = FX (x).
Cn =
Mais
X ≤x+
= X ≤ x (classique) ; d’où FX x +
n→+
∗
∗
n
n
n∈N
n∈N
1
D’autre part, la suite x +
est une suite d’éléments de x, +∞ qui converge vers x ; donc, d’après le critère séquentiel des
n n∈N∗ 1
−→ ℓ.
limites de fonctions, on a : FX x +
n n→+
D’où, par unicité de la limite : ℓ = FX (x). CQFD.
Remarque 5.5
Deux v.a.r sur des espaces probabilisés différents peuvent avoir la même fonction de répartition. En effet les v.a.r X
et Y de l’exemple 5.4 vérifient :
P X ≤ x x∈R = P Y ≤ x x∈R
44
donc FX = FY . Cependant, elles sont définies sur des espaces probabilisés distincts.
Proposition 5.3
Soit X une v.a.r sur (Ω, A, P ) et x un réel. Alors :
1. FX (t) −→− P (X < x).
t→x
2. La fonction FX est continue au point x si et seulement si P (X = x) = 0.
Preuve
1. On raisonne comme dans le théorème-définition précédent :
La croissance de FX et le théorème
de la limite monotone permettent d’affirmer que FX admet une limite réelle ℓ à gauche en x.
1
est une suite d’éléments de −∞, x convergeant vers x, le critère séquentiel des limites de
De plus, puisque la suite x −
n n∈N
∗
1
−→ ℓ.
fonctions permet de déduire que FX x −
n n→+∞
1
, la suite (An )n∈N∗ est croissante pour l’inclusion et
Finalement, en posant pour tout n ∈ N∗ An = X ≤ x −
n
[ [
1 An =
= X<x
X ≤x−
n
n∈N∗
n∈N∗
D’après la propriété de continuité monotone croissante, FX
D’où par unicité de la limite : ℓ = P (X < x).
En conclusion, on a : FX (t) −→ P (X < x).
x−
1
n
= P (An ) −→ P (X < x).
n→
t→x−
2. FX est déjà continue à droite en x comme fonction de répartition ; donc la continuité de FX en x est équivalente à sa continuité à
gauche en x.
Il vient, d’après 1, que FX est continue en xsi et seulement si P (X < x) = FX (x), c’est dire P (X ≤ 0) − P (X < x) = 0.
Or :
P (X ≤ 0) − P (X < x) = P X ≤ x ∖ X < 0
[car X < 0 ⊂ X ≤ x ]
= P (X = x)
On conclut que FX est continue en x si et seulement si P (X = x) = 0.
Théorème 5.6
Deux variables aléatoires réelles, définies sur le même espace probabilisé ou non, ont la même loi si et seulement
si elle ont la même fonction de répartition.
Preuve
Ce résultat découle immédiatement des considérations de la remarque 5.3
Théorème 5.7
Soit F : R −→ [0, 1] une fonction de répartition de la variable réelle.
Alors il existe un espace probabilisé et une v.a.r sur cet espace telle que FX = F
Preuve
Elle est admise.
45
5.6
Indépendance des variables aléatoires réelles
Notations
Pour des v.a.r X, X1 , ..., Xn définies sur l’espace probabilisé (Ω, A, P ) et des intervalles I, I1 , ..., In de R, on adoptera,
dans un souci de simplification, les notations suivantes :
1. P X ∈ I sera noté simplement P (X ∈ I).
En guise d’exemples, P (X ≤ x), P (X < x), P (x ≤ X < y) désignent respectivement P
P x≤X<y .
X ≤x ,P X <x ,
La fonction de répartition de X peut donc s’exprimer par : ∀ x ∈ R, FX (x) = P (X ≤ x).
T T
2. P X1 ∈ I1
... Xn ∈ In sera simplement noté P (X1 ∈ I1 , ..., Xn ∈ In ).
T
0 < X2 ≤ 3
Ainsi, par exemple, P (X1 ≤ −2, 0 < X2 ≤ 3) désigne P X1 ≤ −2
5.6.1
Cas de deux v.a.r
Définition 5.5
Soit X et Y deux v.a.r sur l’espace probabilisé (Ω, A, P ).
On dit que X et Y sont indépendantes si et seulement si pour tout couple (I, J) d’intervalles de R on a :
P (X ∈ I, Y ∈ J) = P (X ∈ I) .P (Y ∈ J)
(∗)
Remarque 5.6
• L’indépendance de deux v.a.r X et Y est symétrique du couple (X, Y ).
• Les v.a.r X et Y sont indépendantes si et seulement si pour tout couple (I, J) d’intervalles de R, les événements
[X ∈ I] et [Y ∈ J] sont indépendants.
• L’indépendance de v.a.r, tout comme celle des événements dépend fortement de la probabilité P , et ne sera, en
aucun cas, le fruit de la seule intuition : même dans le cas d’une indépendance intuitive, le calcul formel doit confirmer
l’indépendance.
Théorème 5.8
Soit X et Y deux v.a.r sur l’espace probabilisé (Ω, A, P ). Alors les p.s.s.e :
(i)
X et Y sont indépendantes
(ii)
P our tout (x, y) ∈ R2 , P (X ≤ x, Y ≤ y) = P (X ≤ x) .P (Y ≤ y)
(∗∗)
Preuve
(i) =⇒ (ii)
Il suffit d’appliquer (i) aux intervalles particuliers I = −∞, x et J = −∞, y .
(ii) =⇒ (i)
En supposant la condition (∗∗) satisfaite, on montre que (∗) est vérifiée pour tout couple (I, J) d’intervalles de R en distinguant tous les
cas possibles concernant la forme des intervalles I et J (64=8×8 cas si on excepte les cas triviaux I = Ø ou R, J = Ø ou R). Raisonnons
46
seulement dans le cas I = −∞, x , J = a, b ; où x, a, b sont des réels et a < b :
P (X ∈ I, Y ∈ J)
=
=
=
=
=
=
=
=
=
=
P (X ≤ x, a < Y ≤ b)
T
P ([X ≤ x] ([Y ≤ b] ∖ [Y ≤ a]))
T
P ([X ≤ x] [Y ≤ b] ∖ [Y ≤ a])
T
T
T
P ([X ≤ x] [Y ≤ b]) − P ([X ≤ x] [Y ≤ b] [Y ≤ a])
P (X ≤ x, Y ≤ b) − P (X ≤ x, Y ≤ a)
P (X ≤ x) .P (Y ≤ b) − P (X ≤ x) .P (Y ≤ a)
P (X ≤ x) (P (Y ≤ b) − P (Y ≤ a))
P (X ≤ x) P ([Y ≤ b] ∖ [X ≤ a])
P (X ≤ x) P (q < Y ≤ b)
P (X ∈ I) .P (Y ∈ J)
[opération ensembliste]
[propriété P (A ∖ B) ...]
[car [Y ≤ a] ⊂ [Y ≤ b]]
[d′ après (∗∗)]
[car [Y ≤ a] ⊂ [Y ≤ b]]
Dans les autres cas, le raisonnement reprend des argument analogues en plus des propriétés de P dont la continuité monotone.
Théorème 5.9 (lemme des coalitions)
Soit X et Y deux v.a.r sur l’espace probabilisé (Ω, A, P ), I et J deux intervalles de R tels que X (Ω) ⊂ I et
Y (Ω) ⊂ J, f : I −→ R et g : J −→ R deux fonctions telles que f (X) et g (Y ) sont des v.a.r sur (Ω, A, P ).
Alors l’indépendance de X et Y entraîne celle de f (X) et g (Y ).
Preuve
Elle est admise.
Exemple 5.7
Si X et Y sont deux v.a.r indépendantes alors X − X 2 et Y 2 + 1 sont aussi indépendantes, il suffit de noter qu’elles
sont bien des v.a.r selon les considérations précédentes.
5.6.2
Cas d’une famille de v.a.r
Définition 5. 10
Soit (Xi )i∈E une famille quelconque de v.a.r sur l’espace probabilisé (Ω, A, P ).
On dit que cette famille est mutuellement indépendante (ou simplement indépendante) si et seulement si, pour
toute partie finie K de E, pour toute famille (Ii )i∈K d’intervalles de R indexée par K, on a :
P
\
i∈K
Xi ∈ I i
!
=
Y
i∈K
P (Xi ∈ Ii )
Autrement dit, pour toute famille (Ii )i∈E d’intervalles de R indexée par E, la famille d’événements
est mutuellement indépendantes.
X i ∈ Ii
i∈E
Vocabulaire
Une autre façon de dire que la famille (Xi )i∈E est mutuellement indépendante est de dire que (Xi )i∈E est une famille
de v.a.r mutuellement indépendantes (relativement aux variables aléatoires Xi et non à la famille)
47
Remarque 5.7
• Toute sous famille d’une famille mutuellement indépendante de v.a.r est mutuellement indépendante.
• Une famille de deux v.a.r est mutuellement indépendante si et seulement si ces deux v.a.r sont indépendantes.
• Soit (Xi )i∈E une famille de v.a.r sur (Ω, A, P ) et σ une permutation de l’ensemble E des indices. Alors la famille
(Xi )i∈E est mutuellement indépendante si et seulement si la famille Xσ(i) i∈E l’est.
Proposition 5.4
Soit (Xi )i∈E une famille de v.a.r sur (Ω, A, P ).
Alors la famille (Xi )i∈E est mutuellement indépendante si et seulement si toutes ses sous familles finies le sont.
Preuve
Elle est laissée en exercice.
Théorème 5.11
Soit (Xi )i∈E une famille de v.a.r sur (Ω, A, P ). Alors les ps.s.e :
(i)
la famille (Xi )i∈E est mutuellement indépendante
(ii)
pour toute partie finie K de E et toute famille (xi )i∈K de réels : P
T
i∈K
X i ≤ xi
=
Q
i∈K
P (Xi ≤ xi )
Preuve
Elle est admise.
Théorème 5.12 (lemme des coalitions [général])
Soit n ∈ N ∖ {0, 1} et r1 , ..., rn des entiers tels que 1 ≤ r1 < r2 < ... < rn et X1 , ..., Xr1 , ..., Xr2 , ..., Xrn−1 , ..., Xrn
une famille finie de rn v.a.r sur l’espace probabilisé (Ω, A, P ) mutuellement indépendantes.
Soit f1 : Rr1 −→ R, f2 : Rr2 −r1 −→ R, ...,fn : Rrn −rn−1 −→ R des fonctions telles que Y1 = f1 (X1 , ...Xr1 ),
Y2 = f2 (Xr1 +1 , ..., Xr2 ), ..., Yn = fn Xrn−1 +1 , ..., Xrn sont des v.a.r sur (Ω, A, P ).
Alors la famille (Y1 , ..., Yn ) est mutuellement indépendante.
Preuve
Elle est admise.
Définition 5.11
Soit (Xi )i∈E une famille de v.a.r sur (Ω, A, P ).
On dit que la famille (Xi )i∈E est deux à deux indépendante si et seulement si pour tout couple (i, j) ∈ E 2 tel que
i ̸= j, les v.a.r Xi et Xj sont indépendantes.
48
Proposition 5.5
Toute famille de v.a.r sur (Ω, A, P ) mutuellement indépendante est deux à deux indépendante.
Preuve
Elle est immédiate.
Remarque 5.8
Hormis le cas d’une famille d’exactement deux événements, la réciproque est fausse en général. En guise de contre
exemple, voir l’exercice suivant :
Exercice 5.1
q y2
On lance deux dés équilibrés discernables. Sur l’univers fini Ω = 1, 6 de cette expérience, on définit la v.a.r X
[resp. Y , resp. Z] qui vaut 1 si le premier dé amène un nombre pair [resp. le second amène un nombre impaire, resp.
les deux dés amènent deux nombres de même parité] et vaut 0 sinon. Montrer que les v.a.r X, Y , Z sont deux à
deux indépendantes mais ne sont pas mutuellement indépendantes.
6
Variables aléatoires réelles discrètes
Dans tout ce paragraphe, (Ω, A, P ) est un espace probabilisé.
6.1
Généralités
6.1.1
Définition et premières propriétés
Définition 6.1
On appelle variable aléatoire réelle discrète (en abrégé v.a.r.d) sur l’espace probabilisé (Ω, A, P ) toute v.a.r X sur
cet espace telle que X (Ω) est au plus dénombrable.
Exemple 6.1
Les v.a.r sûres et les v.a.r de Bernoulli sont des v.a.r.d.
Proposition 6.1
Si l’univers Ω est au plus dénombrable alors toute application X de Ω dans R est une v.a.r.d.
Preuve
Supposons Ω au plus dénombrable et notons Ω = {ωn / n ∈ N}. Comme convenu, la tribu d’événements est A = P (Ω).
Soit X : Ω −→ R une application quelconque ; on sait que X est une v.a.r sur (Ω, P (Ω)). De plus l’application :
N
n
−→
7−→
X (Ω)
X (ωn )
est clairement surjective. Donc X (Ω) est au plus dénombrable (voir cours de dénombrabilité). CQFD.
49
Théorème 6.1
Soit X : Ω −→ R telle que X (Ω) est au plus dénombrable. Alors les p.s.s.e :
(i)
(ii)
X est une v.a.r.d sur (Ω, A, P )
pour tout x ∈ X (Ω) , X = x ∈ A
Preuve
La condition (ii) est déjà nécessaire (et même pour des v.a.r non discrètes), car X = x = X ∈ {x} et les singletons {x} sont des
intervalles de R.
Montrons qu’elle est suffisante. Supposons donc que :
∀ x ∈ X (Ω) , X = x ∈ A
(6.1)
Montrons que pour tout I ∈ I , [X ∈ I] ∈ A ; ce qui montre que X est une v.a.r sur (Ω, A, P ) et, avec l’hypothèse X (Ω) au plus
dénombrable, achève de montrer que X est une v.a.r.d.
T
S
{ω ∈ Ω / X (ω) = x}.
Soit I un intervalle de R. On a : [X ∈ I] = {ω ∈ Ω / X (ω) ∈ I} = {ω ∈ Ω / ∃ x ∈ X (Ω) I, X (ω) = x} =
x∈X(Ω)∩I
S
C’est à dire : [X ∈ I] =
X=x .
x∈X(Ω)∩I
T
Or, d’une part, par (6.1) les X = x ∈ A et, d’autre part, X (Ω) I est au plus dénombrable comme partie X (Ω). Donc, par stabilité
de la tribu A : X ∈ I ∈ A. CQFD.
Théorème 6.2
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ), I un intervalle de R tel que X (Ω) ⊂ I.
Alors pour toute fonction f : I −→ R, f (X) est une v.a.r.d sur (Ω, A, P ).
Preuve
On rappelle que Y = f (X) est l’application
Ω
ω
−→
7−→
R
f (X (ω))
c’est à dire la composée f oX. En particulier Y (Ω) = f (X (Ω)). On en déduit : ∀y ∈ Y (Ω) , ∃ x ∈ X (Ω) , y = f (x).
L’application
g : X (Ω) −→ Y (Ω)
x
7−→ f (x)
est donc une surjection. Alors, comme X(Ω) est au plus dénombrable, Y (Ω) l’est également.
D’après le théorème 6.1, il suffit de montrer que : ∀y ∈ Y (Ω) , Y = y ∈ A.
Soit y ∈ Y (Ω). Notons Ly = g −1 ({y}) = {x ∈ X (Ω) / g (x) = y} = {x ∈ X (Ω) / f (x) = y}.
On a :
Y =y
= {ω ∈ Ω / Y (ω) = y}
= {ω ∈ Ω / f (X (ω)) = y}
= {ω ∈ Ω / ∃ x ∈ X (Ω) , f (x) = y et X (ω) = x}
= {ω ∈ Ω / ∃ x ∈ Ly , X (ω) = x}
S
{ω ∈ Ω / X (ω) = x}
=
x∈Ly
Ainsi, Y = y =
S x∈Ly
X=x .
Comme les [X = x] sont des éléments de A et l’union est au plus dénombrable (car Ly ⊂ X (Ω)), on a, par stabilité de A par union au
plus dénombrable, [X = x] ∈ A. CQFD.
Exemple 6.2
Si X est une v.a.r.d sur l’espace probabilisé (Ω, A, P ) alors X 2 , X ,exp (X),
(Ω, A, P ).
50
√
1 + X 2 ,....sont des v.a.r.d sur
Théorème 6.3
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) et (I, J) un couple de deux intervalles de R tels que
X (Ω) ⊂ I et Y (Ω) ⊂ J.
Alors pour toute fonction f : I × J −→ R, l’application f (X, Y ) est une v.a.r.d sur (Ω, A, P ).
Preuve
Z = f (X, Y ) est l’application :
Z:
Ω
ω
R
f (X (ω) , Y (ω))
−→
7−→
On a : ∀ z ∈ Z (Ω) , ∃ ω ∈ Ω, z = f (X (ω) , Y (ω)).
C’est à dire, en d’autres termes : ∀ z ∈ Z (Ω) , ∃ (x, y) ∈ X (Ω) × Y (Ω) , z = f (x, y).
On en déduit que l’application
h : X (Ω) × Y (Ω) −→
Z (Ω)
(x, y)
7−→ f (x, y)
est une surjection. Mais, sachant que X (Ω) × Y (Ω) est au plus dénombrable comme produit cartésien de deux ensembles au plus
dénombrables, l’ensemble Z (Ω) est au plus dénombrable. Selon le théorème 6.1, il reste seulement à montrer que pour tout z ∈ Z (Ω) ,on
a Z = z ∈ A.
Soit z ∈ Z (Ω). Notons
Lz = h−1 ({z}) = {(x, y) ∈ X (Ω) × Y (Ω) / h (x, y) = z} = {(x, y) ∈ X (Ω) × Y (Ω) / f (x, y) = z}
On a :
Z=z
=
=
=
=
{ω ∈ Ω / Z (ω) = z}
{ω ∈ Ω / f (X (ω) , Y (ω)) = z}
{ω ∈ Ω / ∃ (x, y) ∈ X (Ω) × Y (Ω) , f (x, y) = z et (X (ω) , Y (ω)) = (x, y)}
S
{ω ∈ Ω / X (ω) = x et Y (ω) = y}
(x,y)∈Lz
=
S
(x,y)∈Lz
X=x ∩ Y =y
Or, les X = x et Y = y sont des éléments de A car X et Y sont des v.a.r et l’union est au plus dénombrable car Lz ⊂ X (Ω) × Y (Ω) ;
donc, par stabilité de la tribu A par union au plus dénombrable, Z = z ∈ A. CQFD.
Corollaire 6.1
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors :
1. Pour tout λ ∈ R, λX est une v.a.r.d sur (Ω, A, P ).
2. Pour tout (λ, µ) ∈ R2 , λX + µY est une v.a.r.d sur (Ω, A, P ).
3. XY est une v.a.r.d sur (Ω, A, P ).
Preuve
1 Pour λ ∈ R,λX = f (X) ; où f : R −→ R,x 7−→ λx : on applique le théorème 6.2
2 Pour (λ, µ) ∈ R2 , λX + µY = f (X, Y ) ;où f : R2 −→ R, (x, y) 7−→ λx + µy : on applique le théorème 6.3
3 XY = f (x, y) ; où f : R2 −→ R, (x, y) 7−→ xy : on applique le théorème 6.3
Remarque 6.1
L’ensemble Vd (Ω, A, P ) des v.a.r.d sur l’espace probabilisé (Ω, A, P ) est une sous algèbre de la R- algèbre RΩ .
51
Théorème 6.4
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors la famille ([X = x])x∈X(Ω) est un système complet
d’événements. En particulier, on a :
X
P (X = x) = 1
x∈X(Ω)
Preuve
Elle est laissée en exercice.
6.1.2
Loi et fonction de répartition d’une v.a.r.d
Théorème 6.4
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors la loi de probabilité de X est complètement déterminée
par la famille au plus dénombrable (P (X = x))x∈X(Ω)
Preuve
En tant que v.a.r particulière, la loi de X est complètement déterminée par la famille (P (X ∈ I))I∈I .
Mais pour tout intervalle I de R, on a
X∈I
= {ω ∈ Ω / X (ω) ∈ I}
= {ω ∈ Ω / ∃ x ∈ X (Ω) ∩ I, X (ω) = x} ,
S
X=x
=
x∈X(Ω)∩I
d’où par σ- additivité de P :
P (X ∈ I) =
X
P (X = x)
x∈X(Ω)∩I
Cette relation montre que les P (X ∈ I), et par là même, la loi de X,est complètement déterminée par la donnée des « atomes » P(X = x),
x ∈ X (Ω).
Proposition 6.2
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors la fonction de répartition de X est donnée par :
∀ t ∈ R, FX (t) =
X
P (X = x)
x∈X(Ω)
x≤t
Preuve
En effet, soit t ∈ R. L’événement X ≤ t peut s’écrier :
X≤t
=
=
=
{ω ∈ Ω / X (ω) ≤ t}
{ω ∈ Ω / ∃ x ∈ X (Ω) , x ≤ t et X (ω) = x}
S
{ω ∈ Ω / X (ω) = x}
x∈X(Ω)
x≤t
=
S
x∈X(Ω)
x≤t
X=x
D’où, par σ- additivité et sachant que l’union est au plus dénombrable :
X
P (X = x)
FX (t) = P (X ≤ t) =
x∈X(Ω)
x≤t
52
(6.2)
Cas d’une v.a.r.d finie.
Ici, on considère une v.a.r.d X sur (Ω, A, P ) qu’on suppose finie, c’est à dire telle que X (Ω) est une partie finie de
l’ensemble R.
Notons X (Ω) = {x1 , ..., xr } ; où
r = card (X (Ω)) et x1 < ... < xr .
q y
• La loi de X est donnée par (xi )1≤i≤r , (qi )1≤i≤r ; où pour tout i ∈ 1, r , qi = P (X = xi ) est le iième atome.
Cette loi peut être résumée par le tableau :
xi
x1
x2
···
xr
Total
P (X = xi )
q1
q2
···
qr
1
• La fonction de répartition de X est, grâce à la relation (6.2), définie explicitement par :



FX (t) = 0



k

P
P (X = xi )
∀ t ∈ R, FX (t) =
i=1


r

P


P (X = xi ) = 1
FX (t) =
i=1
; si t < x1
q y
; si xk ≤ t < xk+1 pour un certain k ∈ 1, r , k < r
; si xr ≤ t
On peut la résumer par tableau annexé au tableau donnant la loi de X
où pour tout k ∈ J0, rK, sk =
k
P
x
]−∞, x1 [
[x1 , x2 [
[x2 , x3 [
···
[xr−1 , xr [
[xr , +∞[
FX (x)
s0 = 0
s1
s2
···
sr−1
sr = 1
qi (s0 = 0 car la somme est indexée par Ø)
i=1
Remarque 6.2
On peut exprimer la loi de X à l’aide de la fonction de répartition FX :
Exemple 6.3

P (X = x ) = F (x )
1
X
1
P (X = x ) = F (x ) − F (x
k
X
k
X
k−1 )
Une pièce de monnaie, où la probabilité de « pile » est de
On définit la v.a.r X égale au nombre de piles obtenus.
; si 2 ≤ k ≤ r
1
, est lancée 2 fois.
3
X est est bien une v.a.r.d sur l’espace probabilisé (Ω, P (Ω) , P ) associé à cette expérience car celui-ci est fini. Son
univers image est X (Ω) = {0, 1, 2}. Déterminons sa loi donnée par les atomes P (X = k), 0 ≤ k ≤ 2.
Notons pour tout k ∈ {0, 1, 2, }, Fk l’événement « obtenir face au kième lancer ». Il vient en appliquant la formule
53
des probabilités composées et l’indépendance des lancers :P (X = 0) = P (F1 ∩ F2 ) = P (F1 ) .PF1 (F2 ) =
P (X = 0)
=
=
=
=
P (X = 1)
=
=
=
=
=
P (X = 2)
=
=
=
=
P (F1 ∩ F2 )
P (F1 ) .PF1 (F2 )
2 2
.
3 3
4
9
P F1 ∩ F2 ∪ F1 ∩ F2
P F1 ∩ F2 + P F1 ∩ F2
P (F1 ) .PF1 F2 + P F1 PF1 (F2 )
2 1 1 2
. + .
3 3 3 3
4
9
P F 1 ∩ F2
P F1 .PF1 F2
1 1
.
3 3
1
9
La loi de X est résumée dans le tableau suivant :
[par additivité de P ]
xi
0 1 2
4 4 1
P (X = xi )
9 9 9
On peut représenter cette loi graphiquement par un diagramme en bâtons :
La fonction de répartition de X est donnée par : ∀ x ∈ R, FX (t) =
D’où :
1
P (X = x).
x∈X(Ω)
x≤t


FX (t) = 0





FX (t) = P (X = 0) = 4
9
8


F
(t)
=
P
(X
=
0)
+
P
(X = 1) =
X


9



FX (t) = 1
54
P
Total
; si t < 0
; si 0 ≤ t < 1
; si 1 ≤ t < 2
; si 2 ≤ t
1
1 1
. =
3 3
9
Lois conditionnelles d’une v.a.r.d
Définition 6.2
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ) et B un événement non négligeable.
La loi de la v.a.r.d X relativement à l’espace probabilisé (Ω, A, PB ) est appelée la loi de X conditionnelle à
l’événement B.
Remarque 6.3
Cette loi conditionnelle est donc déterminée par la famille (PB (X = x))x∈X(Ω)
Exemple 6.4
On reprend l’exemple 6.3 et la v.a.r.d X égale au nombre de piles obtenus au cours des deux lancers de la pièce.
(i) Notons B l’événement : « le nombre de piles obtenus est supérieur ou égal au nombre de faces ». .
5
On a B = X = 1 ∪ X = 2 ; donc, par additivité, P (B) = P (X = 1) + P (X = 2) = > 0. Déterminons la loi
9
de X conditionnelle à B
PB (X = 0)
=
PB (X = 1)
=
=
=
PB (X = 2)
=
=
=
0 P X =1 ∩B
P (B)
P (X = 1)
P (B)
4
5 P X =2 ∩B
P (B)
P (X = 2)
P (B)
1
5
[car, sachant que B est réalisé X ne peut prendre que les valeurs 1 ou 2]
[car X = 1 ⊂ B]
[car X = 2 ⊂ B]
La loi de X conditionnelle à B peut être résumée par le tableau :
55
xi
0
PB (X = xi )
0
1
4
5
2
1
5
Total
1
(ii) On note par ailleurs Y la v.a.r égale au nombre de faces obtenues.On a Y = 2 − X, d’où :
(i)
(ii)
(iii)
(iv)
Y (Ω) = {0, 1, 2}
1
9
4
P (Y = 1) = P (X = 1) =
9
4
P (Y = 2) = P (X = 0) =
9
P (Y = 0) = P (X = 2) =
La loi de X conditionnelle à Y = 1 est donnée par
(i)
(ii)
(iii)
(X = 0) = P (X = 0, Y = 1) = P (Ø) = 0
P (Y = 1)
P (Y = 1)
P (Y = 1)
P (X = 1, Y = 1)
=
=1
(X = 1) =
P
Y =1
P (Y = 1)
P (Y = 1)
(X = 2) = P (X = 2, Y = 1) = P (Ø) = 0
P
Y =1
P (Y = 1)
P (Y = 1)
P
Y =1
[car X = 1 = Y = 1 ]
On peut résumer cette loi conditionnelle de X dans le tableau suivant :
P
6.1.3
xi
0
1
2
Total
(X = xi )
0
1
0
1
Y =1
Indépendance des v.a.r.d
Théorème 6.5
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors les p.s.s.e :
1. X et Y sont indépendantes.
2. Pour tout (x, y) ∈ X (Ω) × Y (Ω) ,on a P (X = x, Y = y) = P (X = x) .P (Y = y)
Preuve
La condition est déjà nécessaire en appliquant la définition de l’indépendance de deux v.a.r aux intervalles ayant la forme d’un singleton.
Réciproquement, supposons que : ∀ (x, y) ∈ X (Ω) × Y (Ω) , P (X = x, Y = y) = P (X = x) .P (Y = y)
Montrons que les v.a.r.d X et Y sont indépendantes, c’est à dire que
∀ (I, J) ∈ I 2 , P (X ∈ I, Y ∈ J) = P (X ∈ I) .P (Y ∈ J)
Soit (I, J) un couple d’intervalles de R. On a, en reprenant un développement dans la démonstration du théorème 6.4 :

S

X=x

 X∈I =


 Y ∈J =
D’où par distributivité de l’intersection par rapport à l’union :
\
X∈I
Y ∈J =
x∈X(Ω)∩I
S
y∈Y (Ω)∩J
Y =y
[
(x,y)∈[X(Ω)×Y (Ω)]∩[I×J]
X=x ∩ Y =y
Alors, en utilisant que les événements X = x ∩ Y = y sont deux à deux incompatibles et que l’union est au plus dénombrable (car
l’ensemble des indices est inclus dans l’ensemble au plus dénombrable X (Ω) × Y (Ω)), on trouve par σ- additivité :
X
P (X = x, Y = y)
P (X ∈ I, Y ∈ J) =
(x,y)∈[X(Ω)×Y (Ω)]∩[I×J]
D’où par hypothèse :
P (X ∈ I, Y ∈ J) =
X
(x,y)∈[X(Ω)×Y (Ω)]∩[I×J]
56
P (X = x) .P (Y = y)
La somme étant celle d’une famille sommable, le théorème de Fubini s’applique :
P (X ∈ I, Y ∈ J)
P
P
=
x∈X(Ω)∩I
P (X = x) .P (Y = y)
y∈Y (Ω)∩J
P
=
P (X = x) .
x∈X(Ω)∩I
P
=
x∈X(Ω)∩I
P
=
P
P (Y = y)
y∈Y (Ω)∩J
!
(P (X = x) .P (Y ∈ J))
P (X = x)
x∈X(Ω)∩I
=
!
!
.P (Y ∈ J)
P (X ∈ I) .P (Y ∈ J)
CQFD.
Proposition 6.3
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors X et Y sont indépendantes si et seulement si
pour tout y ∈ Y (Ω) tel que P (Y = y) > 0, la loi de X conditionnelle à Y = y coïncide avec la loi de X
Preuve
Supposons que les v.a.r.d X et Y sont indépendantes. Soit y ∈ Y (Ω) tel que P (Y = y) > 0.
(X = x) = P (X = x).
Il suffit de montrer que ∀ x ∈ X (Ω) , P
Y =y
Or, par indépendance de X et Y les événements X = x et Y = y sont indépendants ; d’où
∀ x ∈ X (Ω) , P
Y =y
(X = x) = P (X = x)
Réciproquement, supposons que pour tout y ∈ Y (Ω), la loi de X conditionnelle à Y = y est égale à la loi de X.
Montrons que X et Y sont indépendantes, c’est à dire ;
∀ (x, y) ∈ X (Ω) × Y (Ω) , P (X = x, Y = y) = P (X = x) .P (Y = y)
Soit (x, y) ∈ X (Ω) × Y (Ω).
Si P (Y = y) > 0, l’hypothèse faite consiste en P
Y =y
(6.3)
(X = x) = P (X = x) ; ce qui entraîne que les événements X = x et Y = y
sont indépendants.
Si P (Y = y) = 0, Ces deux événements sont encore indépendants car Y = y est négligeable.
Dans les deux cas, on a la relation (6.3).
Théorème 6.6
Soit (Xi )i∈E une famille quelconque de v.a.r.d sur l’espace probabilisé (Ω, A, P ). Alors les p.s.s.e :
1. La famille (Xi )i∈E est mutuellement indépendante.
2. Pour tout n ∈ N∗ , pour tout n-uplet (i1 , ..., in ) d’éléments distincts de E et pour tout
(x1 , ..., xn ) ∈ Xi1 (Ω) × ... × Xin (Ω), on a :
P (Xi1 = x1 , ..., Xin = xn ) = P (Xi1 = x1 ) ...P (Xin = xn )
Preuve
Elle est non exigible ( on pourra raisonner par récurrence sur n).
57
6.2
Espérance d’une v.a.r.d
6.2.1
Définition et premières propriétés
Définition 6.3
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ).
On dit que X admet une espérance mathématique (ou simplement une espérance) si et seulement si la famille
(x.P (X = x))x∈X(Ω) est sommable ; et dans cas cas, la somme de cette famille est appelée l’espérance de X ; on
la note E (X).
Ainsi
X
E (X) =
x.P (X = x)
(6.4)
x∈X(Ω)
en cas de sommabilité.
Remarque 6.4
• Si la v.a.r.d X est finie alors elle admet une espérance et la somme dans (6.4) a le sens d’une somme finie.
Notons qu’en particulier dans le cas où X = c est une v.a.r sûre (c ∈ R), elle une v.a.r.d finie et la relation (6.4)
permet d’écrire :
E (c) = c
.
• Si la v.a.r.d X est infinie, ce qui veut dire que X (Ω) est infinie dénombrable, alors en paramétrant X (Ω) par
X (Ω) = {xn / n ∈ N} ; où les xn sont deux à deux distincts,
alors selon un théorème sur la sommabilité, on a :
X admet une espérance si et seulement si la série
X
xn P (X = xn ) converge absolument
n≥0
et dans ce cas
E (X) =
+∞
X
xn P (X = xn )
n=0
• Le nombre E (X) apparaît comme un barycentre des valeurs de X affecté des coefficients P (X = x), x ∈ X (Ω).
On l’appelle aussi la moyenne de X. La valeur de E (X) penche du côté des valeurs les plus probables de X.
Proposition 6.4
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ).
Si X est bornée alors X admet une espérance.
Preuve
Supposons que X est bornée sur Ω et fixons un réel M ≥ 0 tel que : ∀ ω ∈ Ω, |X (ω)| ≤ M .
Cela s’écrit aussi
∀ x ∈ X (Ω) , |x| ≤ M
58
D’où
∀ x ∈ X (Ω) , |xP (X = x)| = |x| P (X = x) ≤ M P (X = x)
Mais selon le théorème 6.4 la famille (M.P (X = x))x∈X(Ω) est sommable ; alors, d’après un critère de domination, la famille (xP (X = x))x∈X(Ω)
est sommable ; et cela montre que X admet une espérance.
Théorème 6.7 (positivité de l’espérance)
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ) admettant une espérance telle que :
(6.5)
∀ ω ∈ Ω, X (ω) ≥ 0
Alors :
(i)
E (X) ≥ 0
(ii)
E (X) = 0
et
⇐⇒
P (X = 0) = 1 (c′ est à dire que X est nulle presque sûrement)
Preuve
La relation (6.5) se traduit par :
∀ x ∈ X (Ω) , x ≥ 0
La famille sommable (x.P (X = x))x∈X(Ω) est donc positive. On en déduit que E (X) =
P
x∈X(Ω)
x.P (X = x) ≥ 0.
D’où (i).
Supposons que E (X) = 0. Dans ce cas, d’après une propriété des familles positives sommables, on a :
∀ x ∈ X (Ω) , xP (X = x) = 0
En particulier :
∀ x ∈ X (Ω) ∖ {0} , P (X = x) = 0
On en déduit, par σ- additivité de P et sachant que X ̸= 0 =
P (X ̸= 0) =
S
x∈X(Ω)∖{0}
X
X=x :
P (X = x) = 0
x∈X(Ω)∖{0}
Alors, d’après la règle de l’événement contraire : P (X = 0) = 1 − P (X ̸= 0) = 1.
Réciproquement, supposons que P (X = 0) = 1 ; ce qui veut dire aussi que P (X ̸= 0) = 0.
On peut alors observer que :
∀ x ∈ X (Ω) ∖ {0} , 0 ≤ P (X = x) ≤ P (X ̸= 0) = 0,
donc
∀ x ∈ X (Ω) ∖ {0} , P (X = x) = 0
Il vient en écrivant
E (X) =
X
x.P (X = x) =
x∈X(Ω)
X
x∈X(Ω)∖{0}
que E (X) = 0.
x.P (X = x) + 0.P (X = 0)
| {z }
=0
D’où (ii).
Exercice 6.1
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). On dit que X est presque sûrement positive s’il existe un
événement Ω′ ∈ A presque certain tel que : ∀ ω ∈ Ω′ , X (ω) ≥ 0
Montrer que si X admet une espérance et qu’elle est presque sûrement positive alors E (X) ≥ 0 avec égalité si et
seulement si X est presque sûrement nulle.
59
6.2.2
Théorèmes de transfert
Théorème 6.8 (Théorème de transfert à une variables)
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ), I un intervalle de Rtel que X (Ω) ⊂ R et f : I −→ R une
fonction.
Alors la v.a.r.d f (X) admet une espérance si et seulement si la famille (f (x) .P (X = x))x∈X(Ω) est sommable.
De plus, dans ce cas, on a :
X
E (f (X)) =
f (x) .P (X = x)
x∈X(Ω)
Preuve
Elle n’est pas exigible.
Posons Y = f (X), en sorte que, d’après le théorème 6.2, Y est une v.a.r.d sur (Ω, A, P ).
L’application g : X (Ω) −→ Y (Ω), x 7−→ f (x), est clairement surjective ; alors, en notant pour tout y ∈ Y (Ω)
Ly = g −1 ({y}) = {x ∈ X (Ω) / f (x) = y} ,
la famille (Ly )y∈Y (Ω) est une partition de (Ω). De plus, pour tout y ∈ Y (Ω), on a :
(|f (x) .P (X = x)|)x∈Ly = (|f (x)| .P (X = x))x∈Ly = (|y| .P (X = x))x∈Ly
Donc, cette famille est sommable comme produit de la famille sommable (P (X = x))x∈Ly par le réel |y| .
Calculons sa somme :
X
X
X
|f (x) .P (X = x)| =
|y| .P (X = x) = |y| .
P (X = x)
x∈Ly
D’où par σ- additivité de P :
P
x∈Ly
|f (x) .P (X = x)| = |y| .
x∈Ly
x∈Ly
P
S x∈Ly
P (X = x) = |y| .P
X =x
x∈Ly
Mais Y = y = {ω ∈ Ω / Y (ω) = y} = {ω ∈ Ω / f (X (ω)) = y} = {ω ∈ Ω / ∃ x ∈ Ly , X (ω) = x}.
S P
|f (x) .P (X = x)| = |y| .P (Y = y)
C’est à dire Y = y =
X = x . D’où
x∈Ly
!
x∈Ly
D’après le théorème de sommation par paquets (version familles positives), on a :
(|f (x)| .P (X = x))x∈X(Ω) est sommable si et seulement si (|y| .P (Y = y))y∈Y (Ω) est sommable
c’est à dire :
(f (x) .P (X = x))x∈X(Ω) est sommable si et seulement si (y.P (Y = y))y∈Y (Ω) est sommable
En d’autre termes :
(f (x) .P (X = x))x∈X(Ω) est sommable si et seulement si Y = f (X) admet une espérance
Finalement, en cas de sommabilité, le théorème de sommation par paquets (version familles quelconques) permet, avec la même partition
(Ly )y∈Y (Ω) de X (Ω), de faire les calcul suivants :
X
x∈X(Ω)
Soit
P
f (x) .P (X = x) =
X
y∈Y (Ω)


X
x∈Ly

f (x) .P (X = x) =
X
y.P (Y = y) = E (Y )
y∈Y (Ω)
f (x) .P (X = x) = E (f (X)). CQFD.
x∈X(Ω)
Remarque 6.5
En théorie comme en pratique, on rencontre, souvent, des v.a.r.d fonction d’une v.a.r.d X donnée par sa loi :
Y = f (X). L’intérêt du théorème de transfert précédent est qu’il permet de montrer que Y admet une espérance et
calcule son espérance sans avoir besoin de déterminer la loi de Y mais seulement à l’aide de la loi de X.
60
Proposition 6.5
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ).
Alors, X admet une espérance si et seulement si X admet une espérance. De plus, dans ce cas, on a :
E (X) ≤ E
X
(6.6)
Preuve
On sait, par définition de la sommabilité, que la famille (xP (X = x))x∈X(Ω) est sommable si et seulement si xP (X = x)
sommable.
Or : ∀ x ∈ X (Ω) , x.P (X = x) = x .P (X = x)
et, selon le théorème de transfert, x .P (X = x) x∈X(Ω) est sommable si et seulement si X admet une espérance.
On en déduit que X admet une espérance si et seulement si X admet une espérance.
Quant à la relation (6.6), elle découle de l’inégalité triangulaire
X
X
x.P (X = x) ≤
x.P (X = x)
x∈X(Ω)
x∈X(Ω)
est
x∈X(Ω)
valable en cas de sommabilité.
Théorème 6.9 (théorème de transfert à deux variables)
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ), I et J deux intervalles de R tels que X (Ω) ⊂ I et
Y (Ω) ⊂ J et f : I × J −→ R une fonction. Alors la v.a.r.d f (X, Y ) admet une espérance si et seulement si la
famille (f (x, y) .P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable. De plus, dans ce cas, on a :
X
E (f (X, Y )) =
f (x, y) .P (X = x, Y = y)
(x,y)∈X(Ω)×Y (Ω)
Preuve
Elle est hors programme.
Le raisonnement est le même que dans la démonstration précédente. Posons Z = f (X, Y ), en sorte que, selon le théorème 6.3, Z
est une v.a.r.d sur (Ω, A, P ). L’application h : X (Ω) × Y (Ω) −→ Z (Ω), (x, y) 7−→ f (x, y), est surjective et, en conséquence, la
famille h−1 ({z}) z∈Z(Ω) est une partition de X (Ω) × Y (Ω). Notons Lz = h−1 ({z}) pour tout z ∈ Z (Ω). Comme avant, les familles
f (x, y) .P (X = x, Y = y) (x,y)∈L , z ∈ Z (Ω), sont sommables et on a :
z
X
f (x, y) .P (X = x, Y = y) =
(x,y)∈Lz
X
z .P (X = x, Y = y) = z .
(x,y)∈Lz
la dernière égalité découlant de Z = z =
S
(x,y)∈Lz
X
P (X = x, Y = y) = z .P (Z = z) ,
(x,y)∈Lz
X = x ∩ Y = y et de la σ- additivité de P ( !).
Donc, d’après le théorème de sommation par paquets (version familles positives), on a :
f (x, y) .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) sommable ⇐⇒
z .P (Z = z) z∈Z(Ω) sommable
C’est à dire :
(f (x, y) .P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) sommable ⇐⇒ (z.P (Z = z))z∈Z(Ω) sommable
Ce qui veut dire
(f (x, y) .P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) sommable ⇐⇒ Z = f (X, Y ) admet une espérance
61
En outre, en cas de sommabilité, et d’après le théorème de sommation par paquets (version familles quelconques), on a :
!
P
P
P
f (x, y) .P (X = x, Y = y) =
f (x, y) .P (X = x, Y = y)
(x,y)∈X(Ω)×Y (Ω)
z∈Z(Ω)
(x,y)∈Lz
P
P
=
z∈Z(Ω)
P
=
z∈Z(Ω)
P
=
!
z.P (X = x, Y = y)
(x,y)∈Lz
z.
P
P (X = x, Y = y)
(x,y)∈Lz
!
z.P (Z = z)
z∈Z(Ω)
=
E (Z)
=
E (f (X, Z))
CQFD.
6.2.3
Autre propriétés de l’espérance
Théorème 6.10 (linéarité de l’espérance)
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) qui admettent une espérance.
Alors pour tout (λ, µ) ∈ R2 , la v.a.r.d λX + µY admet une espérance et on a :
E (λX + µY ) = λE (X) + µE (Y )
Preuve
L’idée est d’appliquer le théorème de transfert à deux variables aux v.a.r.d X et Y et la fonction f : R2 −→ R, (x, y) 7−→ λx + µy.
(i) Commençons donc par montrer la famille double F = ((λx + µy) P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable, auquel cas on
obtient que λX + µY admet une espérance.
Cette famille est une combinaison linéaire des deux familles
F1 = F = (x.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω)
et
F2 = (y.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω)
Il suffit donc de montrer que ces deux familles sont sommables. Faisons le raisonnement seulement pour F1 sachant que pour F2 le
raisonnement est symétrique.
Pour F1 , il s’agit de montrer que la famille positive x .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) est sommable. Pour cela utilisons le théorème
de Fubini (version étroite). Soit x ∈ X (Ω) ; la famille (P (X = x, Y = y))y∈Y (Ω) est sommable d’après la formule des probabilités totales
P
P (X = x, Y = y) = P (X = x).
appliqué avec le système complet Y = y y∈Y (Ω) , avec :
y∈Y (Ω)
Alors, comme produit de cette famille par le réel x , la famille x .P (X = x, Y = y) (x,y)∈X(Ω)×Y (Ω) est bien sommable et on a :
X
x .P (X = x, Y = y) = x .
y∈Y (Ω)
D’autre part, la famille
P
y∈Y (Ω)
x .P (X = x, Y = y)
X
P (X = x, Y = y) = x .P (X = x)
y∈Y (Ω)
!
espérance.
Cela montre que la famille F1 est sommable.
Ainsi, F1 et F2 et, par conséquent, F sont sommables.
=
x∈X(Ω)
x .P (X = x) x∈X(Ω) est à son tours sommable car X admet une
(ii) Maintenant que F est sommable et que λX + µY admet une espérance, le même théorème de transfert à deux variables permet
62
d’exprimer l’espérance de λX + µY :
E (λX + µY )
P
=
(λx + µy) .P (X = x, Y = y)
(x,y)∈X(Ω)×Y (Ω)
=
P
λ
(x,y)∈X(Ω)×Y (Ω)
=
λ
P
x∈X(Ω)
=
λ
P
x∈X(Ω)
=
λ
P
P
x.P (X = x, Y = y)
y∈Y (Ω)
x.
P
[par sommabilité de F1 et F2 ]
y.P (X = x, Y = y)
(x,y)∈X(Ω)×Y (Ω)
P (X = x, Y = y)
y∈Y (Ω)
x.P (X = x) + µ
x∈X(Ω)
=
P
x.P (X = x, Y = y) + µ
P
!
+µ
!
+µ
P
y∈Y (Ω)
P
y∈Y (Ω)
P
y.P (X = x, Y = y)
!
P (X = x, Y = y)
!
x∈X(Ω)
y.
P
x∈X(Ω)
y.P (Y = y)
[F ubini (version large)]
[Formule des probabilités totales]
y∈Y (Ω)
λE (X) + µE (Y )
CQFD.
Remarque 6.6
L’ensemble L1d (Ω, A, P ) de toutes les v.a.r.d sur (Ω, A, P ) ayant une espérance est un s.e.v du R-ev Vd (Ω, A, P ) et
l’application :
E:
L1d (Ω, A, P )
X
−→
7−→
R
E (X)
est une forme linéaire sur L1d (Ω, A, P ).
Théorème 6.11
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) telles que :
(i)
X et Y ont une espérance
(ii)
pour tout ω ∈ Ω, X (ω) ≤ Y (ω)
et
Alors E (X) ≤ E (Y ).
Preuve
On déduit de la condition (i) et du théorème 6.10 que la v.a.r.d Y − X admet une espérance ; et on déduit de la condition (ii)
que Y − X est positive sur Ω. Alors, par positivité de l’espérance, on a : E (Y − X) ≥ 0. Or, le théorème 6.10 affirme aussi que
E (Y − X) = E (Y ) − E (X). D’où E (Y ) ≥ E (X).
Exercice 6.2
Montrer qu’en remplaçant l’hypothèse (ii) par l’hypothèse plus faible
(ii′ )
il exite Ω′ ∈ A tel que

∀ ω ∈ Ω′ , X (ω) ≤ Y (ω)
P (Ω′ ) = 1
(qu’on peut exprimer par : X ≤ Y presque sûrement) alors on le résulte du théorème 6.11 est encore valable.
63
Théorème 6.12 (critère de domination pour l’espérance)
Soit X et Y deux v.a.r.d l’espace probabilisé (Ω, A, P ) dont Y est positive telles que :
(i)
∀ ω ∈ Ω, X (ω) ≤ Y (ω)
(ii)
Y admet une espérance
et
Alors X admet une espérance et on a : E (X) ≤ E (Y ).
Preuve
Elle n’est pas exigible.
(a) Montrons d’abord que :
∀ (x, y) ∈ X (Ω) × Y (Ω) , x .P (X = x, Y = y) ≤ y.P (X = x, Y = y)
(6.7)
En effet, soit (x, y) ∈ X (Ω)×Y (Ω) ; l’inégalité dans la relation (6.7) est clairement vraie dans le cas où x ≤ y, car P (X = x, Y = y) ≥ 0.
D’autre part, dans le cas contraire où x > y, elle reste vraie car dans ce cas P (X = x, Y = y) = 0, puisque X = x ∩ Y = y est
l’événement impossible compte tenu de l’hypothèse (i).
(b) Montrons ensuite que la famille (y.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable. Pour cela, et sachant que cette famille est
positive, il suffit d’appliquer le théorème de Fubini (version étroite) :
1. Pour tout y ∈ Y (Ω), la famille (y.P (X = x, Y = y))x∈X(Ω) est sommable comme produit par le réel y de la famille (P (X = x, Y = y))y∈Y (Ω) ,
qui est sommable car
Y =y
y∈Y (Ω)
X
est un système complet (voir le théorème 3.2 sur la formule des probabilités totales) :
y.P (X = x, Y = y) = y.
x∈X(Ω)
2. la famille
P
x∈X(Ω)
X
P (X = x, Y = y) = yP (Y = y)
x∈X(Ω)
y.P (X = x, Y = y)
!
= (yP (Y = y))y∈Y (Ω) est sommable car Y admet une espérance.
y∈Y (Ω)
Donc la famille (y.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est bien sommable.
(c) Maintenant que la famille (y.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable, la relation (6.7) démontrée ci-dessus entraîne que la
famille (x.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) est sommable (critère de domination pour les familles sommables). Alors, compte tenu du
!
P
x.P (X = x, Y = y)
est sommable. Or, en utilisant encore une fois la
théorème de Fubini (version large), la famille
y∈Y (Ω)
x∈X(Ω)
formule des probabilités totales, cette famille n’est rien d’autre que (xP (X = x))x∈X(Ω) . La sommabilité de cette famille traduit que X
admet une espérance. CQFD.
Théorème 6.13
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) telles que :
(i)
X et Y sont indépendantes
(ii)
X et Y ont une espérance
et
Alors XY admet une espérance et on a :
E (XY ) = E (X) .E (Y )
Preuve
Puisque les v.a.r.d X et Y sont indépendantes, on a :
∀ (x, y) ∈ X (Ω) × Y (Ω) , P (X = x, Y = y) = P (X = x) .P (Y = y) ,
64
la famille double (xy.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) = (xy.P (X = x) .P (Y = y))(x,y)∈X(Ω)×Y (Ω) est découplée.
D’autre part, les familles (x.P (X = x))x∈X(Ω) et (y.P (Y = y))y∈Y (Ω) sont sommables car X et Y ont une espérance.
D’après un théorème sur les familles doubles découplées (voir cours de sommabilité, corollaire 2.2), la famille (xy.P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω)
est sommable et on a :

 

X
X
X



xy.P (X = x, Y = y) =
x.P (X = x) .
y.P (Y = y) = E (X) .E (Y )
(x,y)∈X(Ω)×Y (Ω)
x∈X(Ω)
y∈Y (Ω)
D’après le théorème de transfert à deux variables appliqué aux v.a.r.d X et Y et à la fonction f : R2 −→ R, (x, y) 7−→ xy, XY = f (X, Y )
admet une espérance et on a :
X
xy.P (X = x, Y = y) = E (X) .E (Y )
E (XY ) =
(x,y)∈X(Ω)×Y (Ω)
CQFD.
Exercice 6.3
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ).
Montrer que X et Y sont indépendantes si et seulement si pour tout couple (f, g) de fonctions bornées de R dans
R, on a E (f (X) .g (Y )) = E (f (X)) .E (g (Y )).
6.3
Moments d’une v.a.r.d
6.3.1
Généralités
Définition 6.4
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ) et r ∈ N∗ .
On dit que X admet un moment d’ordre r si et seulement si la famille (xr .P (X = x))x∈X(Ω) est sommable ; et
dans ce cas, la somme de cette famille est appelée le moment d’ordre r de X.
Notation
Si la v.a.r.d X possède un moment d’ordre r, on notera µr (X) son moment d’ordre r :
µr (X) =
X
xr .P (X = x)
(6.8)
x∈X(Ω)
Remarque 6.7
• Selon le théorème de transfert à une variable, la v.a.r.d X admet un moment d’ordre r si et seulement si la v.a.r.d
X r admet une espérance ; de plus dans ce cas, on a : µr (X) = E (X r ).
• Toute v.a.r.d finie (c’est à dire telle que X (Ω) est un ensemble fini) admet des moments à tout ordre et, dans la
relation (6.8) la somme a le sens d’une somme finie.
• La v.a.r.d X admet un moment d’ordre 1 si et seulement si la v.a.r.d X admet une espérance ; et dans ce cas, on
a µ1 (X) = E (X).
Proposition 6.6
Toute v.a.r.d bornée admet des moments à tout ordre.
65
Preuve
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ). Supposons que X est bornée en tant qu’application de Ω dans R et fixons un réel
M ≥ 0 tel que :
∀ ω ∈ Ω, X (ω) ≤ M
On a donc : ∀ x ∈ X (Ω) , x ≤ M
Soit r ∈ N∗ .
r
On a : ∀ x ∈ X (Ω) , x ≤ M r
r
et de là : ∀ x ∈ X (Ω) , x .P (X = x) ≤ M r .P (X = x)
c’est à dire : ∀ x ∈ X (Ω) , xr .P (X = x) ≤ M r .P (X = x)
Comme la famille (M r .P (X = x))x∈X(Ω) est sommable, le critère de domination des familles sommables permet de conclure que la
famille (xr .P (X = x))x∈X(Ω) est sommable. Cela montre que X admet un moment d’ordre r.
Proposition 6.7
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ) et r ∈ N∗ .
q y
Si X admet un moment d’ordre r alors X admet un moment à tout ordre k ∈ 1, r .
Preuve
Supposons que X admet un moment à l’ordre r, c’est à dire que la famille (xr .P (X = x))x∈X(Ω) est sommable.
q
y
Il s’agit de montrer que pour tout k ∈ 1, r , la famille xk .P (X = x) x∈X(Ω) est sommable.
q
y
Soit k ∈ 1, r .
Soit x ∈ X (Ω). Si x > 1, on a
k
r
xk P (X = x) = x P (X = x) ≤ x P (X = x) ;
et si x ≤ 1, on a visiblement
k
xk P (X = x) = x P (X = x) ≤ P (X = x)
r
Donc, on peut conclure que : ∀ x ∈ X (Ω) , xk P (X = x) ≤ x P (X = x) + P (X = x).
r
Comme la famille x P (X = x) + P (X = x) x∈X(Ω) est sommable (elle somme de deux telles familles), le critère de domination des
familles sommables permet de conclure que la famille xk .P (X = x) x∈X(Ω) est sommable. CQFD.
Proposition 6.8
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ), c ∈ R et r ∈ N∗ .
Si X admet un moment d’ordre r alors X + c admet également un moment d’ordre r.
Preuve
Supposons que X admet un moment d’ordre r.
La formule du binôme de Newton permet d’écrire : (X + c)r =
r
P
r r−k k
X = cr +
c
k
r
P
r r−k k
X
c
k
k=0
k=1
q
y
cr est une v.a.r.d sûre ; elle est finie donc elle admet une espérance. En outre, pour tout k ∈ 1, r , X k admet également une espérance
car selon la proposition 6.7 X admet un moment d’ordre k.
Alors, par combinaison linéaire, (X + c)r admet une espérance.
Cela veut dire (voir la remarque 6.7) que X + c admet un moment d’ordre r. CQFD.
6.3.2
Moments d’ordre 2 et variance
Théorème 6.14
Soit X et Y deux v.a.r.d sur l’espace probabilisé (Ω, A, P ) admettant un moment d’ordre 2.
Alors la v.a.r.d XY admet une espérance et on a :
E (XY ) ≤
p
E (X 2 )
66
p
E (Y 2 )
(6.9)
Preuve
1
X 2 (ω) + Y 2 (ω)
2
1
X 2 + Y 2 en admet aussi par combinaison linéaire. On conclut par le critère
Mais comme par hypothèse X 2 et Y 2 ont une espérance,
2
de domination que XY admet une espérance.
Pour montrer l’inégalité (6.9), on considère la fonction f : R −→ R définie par
∀ λ ∈ R, f (λ) = E (X + λY )2
On a : ∀ ω ∈ Ω, X (ω) Y (ω) ≤
On a :
(i) f est une application bien définie car pour tout réel λ la v.a.r.d (X + λY )2 s’écrit
(X + λY )2 = X 2 + 2λXY + λ2 Y 2 ,
(6.10)
ce qui montre qu’elle admet une espérance comme C.L des v.a.r.d X 2 , XY et Y 2 , qui en ont.
(ii) Par positivité de l’espérance, on a : ∀ λ ∈ R, f (λ) ≥ 0.
(iii) D’après la relation (6.10) et par linéarité de l’espérance, on a : ∀ λ ∈ R, f (λ) = E X 2 + 2λE (X) + λ2 E Y 2
Dès lors on distingue deux cas :
1ier cas : E Y 2 ̸= 0
Dans ce cas, la fonction f est une fonction polynôme de degré 2 qui ne change pas de signe sur R ; son discriminant est donc inférieur ou
égal à 0 ; soit :
4. (E (XY ))2 − 4.E X 2 .E Y 2 ≤ 0
c’est à dire
. (E (XY ))2 ≤ E X 2 .E Y 2
√
ce qui montre la relation (6.9) en utilisant la croissance de l’application t7−→ t sur R+ .
2ième cas : E Y 2 = 0
Dans ce cas, on a : ∀ λ ∈ R, f (λ) = E X 2 + 2λ.E (XY )
f est une fonction polynôme de degré inférieur ou égal à 1 qui ne change pas de signe sur R ; elle ne peut donc être de degré 1. D’où
E (XY ) = 0.
Il vient avec E (XY ) = E Y 2 = 0, que la relation (6.9) est encore vraie. CQFD.
Remarque 6.8
On a montré au passage l’ensemble L2d (Ω, A, P ) des v.a.r.d sur (Ω, A, P ) ayant un moment d’ordre 2 est stable par
combinaison linéaire. il n’est, ensuite pas vide puisqu’il contient toutes les v.a.r.d finies sur (Ω, A, P ). Enfin, d’après
la proposition 6.7, L2d (Ω, A, P ) est une partie du R-ev L1d (Ω, A, P ). On conclut de tout cela que L2d (Ω, A, P ) est un
s.e.v de L1d (Ω, A, P ).
Remarque 6.9
L’application
L2d (Ω, A, P )
(X, Y )
2
R
−→
7−→
E (XY )
(bien définie en vertu du théorème 6.14) est une forme bilinéaire symétrique et positive. Elle n’est cependant pas un
produit scalaire puisqu’elle n’a pas le caractère « défini ».
Définition 6.5
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ).
On dit que X admet une variance si et seulement
elle admet une
espérance et la v.a.r.d X − E (X) admet un
moment d’ordre 2 ; dans ce cas, le nombre réel E (X − E (X))
67
2
est appelé la variance de X ; il est noté V (X).
Ainsi, pour une v.a.r.d sur (Ω, A, P ) admettant une espérance,
et compte tenu du théorème de transfert à une
2
variable, X admet une variance si et seulement si la famille (x − E (X)) P (X = x)
ce cas, on a :
2
V (X) = E (X − E (X)) =
X
x∈X(Ω)
x∈X(Ω)
est sommable ; et dans
2
(x − E (X)) P (X = x)
(6.11)
Remarque 6.9
L’expression V (X) =
P
x∈X(Ω)
2
(x − E (X)) P (X = x) fait de V (X) une valeur qui mesure la dispersion des valeurs
de X par rapport à la valeurs moyenne E (X) : il semble qu’elle est d’autant plus grande que les écarts quadratiques
2
(x − E (X)) le sont.
Ceci sera confirmé plus précisément par l’inégalité de Bienaymé - Tchebychev qu’on traitera ci-dessous.
Remarque 6.10
Toute v.a.r.d finie X admet une variance ; et dans la relation (6.9) la somme a le sens d’une somme finie.
Théorème 6.15
Soit X une v.a.r.d sur l’espace probabilisé (Ω, A, P ).
Alors, X admet une variance si et seulement si X admet un moment d’ordre 2 ; et dans ce cas, on a :
2
V (X) = E X 2 − (E (X))
(6.12)
Preuve
(i) Montrons d’abord que X admet une variance si et seulement si X admet un moment d’ordre 2.
Supposons que X admet une variance. Par définition :

X admet une espérance
(i)
X − E (X) admet un moment d′ ordre 2 (ii)
Mais d’après la proposition 6.8 appliquée à c = E (X) permet de déduire de (ii) que X = X − E (X) + E (X) admet un moment d’ordre
2.
Réciproquement, supposons que X admet un moment d’ordre 2. D’après la la proposition 6.7, X admet un moment d’ordre 1, c’est à
dire une espérance. Ensuite, d’après la proposition 6.8 appliquée à c = −E (X), la v.a.r.d X − E (X) = X + c admet, comme X, un
moment d’ordre 2. CQFD.
(ii) supposons que Xadmet une variance et montrons la relation (6.12).
On a :
V (X) = E (X − E (X))2
= E X 2 − 2.E (X) .X + (E (X))2
= E X 2 − 2.E (X) .E (X) + E (E (X))2
[par linéarité de l′ espérance en remarquant que
=
=
X 2 , X et la constante (E (X))2 ont une espérance]
E X 2 − 2. (E (X))2 + (E (X))2
E X 2 − (E (X))2
Vocabulaire
La relation (6.12) est connue sous le nom de formule de König-Huygens.
Elle est très utile pour le calcul de variance.
68
Remarque 6.11
• Toute v.a.r.d bornée admet une variance.
Théorème 6.16
Soit X une v.a.r.d sur (Ω, A, P ) admettant une variance. Alors
1. V (X) ≥ 0
2. V (X) = 0 si et seulement si X est presque sûrement constante.
3. Pour tout (a, b) ∈ R2 , aX + b admet une variance et on a :
V (aX + b) = a2 V (X)
(6.13)
Preuve
1. La v.a.r.d (X − E (X))2 est positive sur Ω, donc par positivité de l’espérance, V (X) = E (X − E (X))2 ≥ 0
2. Toujours parce que la v.a.r.d (X − E (X))2 est positive et par positivité de l’espérance, si V (X) = 0 alors (X − E (X))2 = 0 presque
sûrement ; donc X = E (X) est constante presque sûrement.
Réciproquement, supposons donnés un réel c et un événement Ω′ ∈ A tels que :

P (Ω′ ) = 1
∀ ω ∈ Ω′ , X (ω) = c
La famille (x.P (X = x))x∈X(Ω) est sommable car X admet implicitement une espérance. D’où par sommation par paquets :
E (X)
=
P
x.P (X = x)
x∈X(X)
P
=
x.P (X = x) + c.P (X = c)
x∈X(X)∖{c}
P
=
x.P (X = x) + c
x∈X(X)∖{c}
[car Ω′ ⊂ X = c , donc P (X = c) = 1 par croissance de P ]
D’autre pour tout x ∈ X (X) ∖ {c}, X = x ⊂ Ω′ donc, par croissance de P , P (X = x) = 0.
D’où : E (X) = c.
2
′
Il vient que la variable (X − E (X))2 = (X
− c) , nulle sur
Ω , est nulle presque sûrement. Par positivité de l’espérance (ou en reprenant
2
le raisonnement ci dessus avec c = 0), E (X − E (X)) = 0. Donc V (X) = 0.
3. Prenons deux réels a et b et posons Y = aX + b, en sorte que Y est également une v.a.r.d sur (Ω, A, P ). En outre, elle admet un
moment d’ordre 2 comme C.L de X et de la v.a.r.d finie 1. Ainsi Y admet une variance. Calculons :
V (Y ) = E (Y − E (Y ))2
[par linéarité de l′ espérance]
= E ((aX + b) − (aE (X) + b))2
= E (a (X − E (X)))2
= E a2 (X − E (X))2
[par linéarité de l′ espérance]
= a2 E (X − E (X))2
Soit : V (aX + b) = a2 V (X). CQFD.
Notation et vocabulaire
Soit X une v.a.r.d sur (Ω, A, P ) admettant un moment d’ordre 2.
p
Sachant que V (X) ≥ 0, on pose σ (X) = V (X). Ce nombre positif ou nul est appelé l’écart-type de X.
N.B
On a σ (X) =
r P
x∈X(Ω)
2
(x − E (X)) P (X = x). Donc l’écart-type de X mesure mieux la dispersion des valeurs de
X par rapport à sa valeur moyenne E (X), car il est du même genre (unité) que les valeurs x de X.
69
7
Lois discrètes usuelles : rappels
(Ω, A, P ) est toujours un espace probabilisé donné.
7.1
Lois discrètes usuelles finies
Il s’agit de la loi uniforme, la loi de Bernoulli et de la loi binomiale.
7.1.1
Loi uniforme.
Soit n ∈ N∗ .
On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi uniforme sur une partie finie A = {a1 , ..., an } de cardinal n si et
seulement si :
On écrit X ,→ UA .

X (Ω) = A
∀ k ∈ q1, ny, P (X = ak ) = 1
n
(7.1)
Notons qu’une telle v.a.r est discrète finie et que les relations (7.1) définissent bien une loi de probabilité, car les
n
n 1
P
P
1
P (X = ak ) = sont des réels positifs et
= 1.
P (X = ak ) =
n
k=1q
k=1 n
y
Un cas particulier très représentatif est A = 1, n , dans ce cas la loi est notée simplement Un . Ainsi :

q
y
X (Ω) = 1, n
X ,→ Un ⇐⇒
∀ k ∈ q1, ny, P (X = k) = 1
n
On rappelle que si c’est le cas alors X admet une espérance et une variance et que :
E (X) =
n+1
2
et
V (X) =
n2 − 1
12
Remarque 7.1
Cette loi peut être introduite à chaque fois n événements équiprobables forment un système complet
Exercice 7.1
Soit (m, n) ∈ Z2 tel que m < n.
Déterminer l’espérance et la variance d’une v.a.r X sur (Ω, A, P ) telle que X ,→ Uq
m,n
Indication : introduire deux réels a et b tels que Y = aX + b ,→ Ur ; où r = n − m
y.
Exercice 7.2
Préciser la fonction de répartition d’une v.a.r X sur (Ω, A, P ) suivant la loi uniforme Un
Exercice 7.3
On dispose d’une urne contenant n boules dont une et une seule est blanche et les autre sont rouges. On tire
successivement et sans remise toutes les boules de cette urne. On note X le numéro du tirage amenant la boule
blanche.
Montrer que X est une v.a.r.d et déterminer sa loi.
70
7.1.2
Loi de Bernoulli.
Soit p ∈ 0, 1 .
On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi de Bernoulli de paramètre p si et seulement si :

X (Ω) = {0, 1}
P (X = 0) = q
On écrit X ,→ B (p).
et P (X = 1) = p
; où q = 1 − p
(7.2)
Notons qu’une telle v.a.r est discrète finie et que les relations (7.2) définissent bien une loi de probabilité, car
P (X = 0) = q et P (X = 1) = p sont des réels positifs et P (X = 0) + P (X = 1) = q + p = 1.
Bien entendu, si c’est le cas, X admet une espérance et une variance et on a :
E (X) = p
et
V (X) = pq (où q = 1 − p)
Remarque 7.2
Cette loi peut être introduite dès qu’une expérience est de Bernoulli par rapport à un événement (appelé « succès »)
de probabilité p ∈ 0, 1 .
Remarque 7.3
La loi de Bernoulli B
1
n’est rien d’autre la loi uniforme U{0,1} .
2
Exercice 7.4
Préciser la fonction de répartition d’une v.a.r X sur (Ω, A, P ) suivant la loi de Bernoulli B (p)
7.1.3
Loi binomiale.
Soit n ∈ N∗ et p ∈ 0, 1 .
On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi binomiale de paramètre (n, p) si et seulement si :
On écrit X ,→ B (n, p).

X (Ω) = q0, ny
∀ k ∈ q0, ny, P (X = k) =
n k n−k
k p q
; où q = 1 − p
(7.3)
Notons qu’une telle v.a.r est discrète finie et que les relations (7.3) définissent bien une loi de probabilité, car les
n
P
n
n k n−k
= (p + q) = 1.
P (X = k) = nk pk q n−k sont des réels positifs et
k p q
k=1
Si c’est le cas, X admet une espérance et une variance et on a :
E (X) = np
et
V (X) = npq (où q = 1 − p)
2
2
Pour V (X) on utilisera : V (X) = E X 2 − (E (X)) = E (X (X − 1)) + E (X) − (E (X))
Remarque 7.4
On peut introduire la loi Binomiale B (n, p) dès qu’une expérience de Bernoulli dont l’échec est de probabilité p est
répétée n fois dans les mêmes conditions et qu’on s’intéresse au nombre de succès obtenus.
71
Remarque 7.5
La loi binomiale B (1, p) n’est rien d’autre que la loi de Bernoulli B (p).
7.2
Lois discrètes infinies usuelles
7.2.1
Loi géométrique
Soit p ∈ N∗ .
On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi géométrique de paramètre p si et seulement si :

X (Ω) = N∗
∀ k ∈ N∗ , P (X = k) = p.q k−1
On écrit X ,→ G (p).
(7.4)
; où q = 1 − p
Une telle v.a.r est discrète infinie et les relations (7.4) définissent bien une loi de probabilité, car les P (X = k) =
+∞
P
p
= 1 (la série étant une série géométrique convergente).
p.q k−1 =
p.q k−1 sont des réels positifs et
1
−
q
k=1
P r
Si c’est le cas, X admet des moments à tout ordre r ∈ N∗ car les séries
k .p.q k−1 convergent (absolument !),
k≥1
r ∈ N∗ . En particulier, X admet une espérance et une variance. Un calcul simple, par exemple à l’aide des séries
entières dérivées d’ordre 1 et 2, permet de calculer :

+∞
+∞
P
P


kP (X = k) = p
k.q k−1 =
E (X) =
k=1


E (X (X − 1)) =
+∞
P
k=1
p
2
(1 − q)
+∞
P
k (k − 1) P (X = k) = p.q.
k (k − 1) q k−2 =
k=1
k=1
2p.q
(1 − q)
3
2
2
D’où en utilisant V (X) = E X 2 − (E (X)) = E (X (X − 1)) + E (X) − (E (X))
E (X) =
1
p
et
V (X) =
q
p2
Remarque 7.6
Typiquement, on introduit la loi géométrique quand on répète indéfiniment et dans les mêmes conditions une
expérience de Bernoulli dont l’échec est de probabilité p et que l’on s’intéresse au nombre de séquences qu’il faut
réaliser avant d’obtenir pour la première fois un succès.
C’est pour cette raison que la loi géométrique est dite aussi la loi du premier succès.
Théorème 7.1 (propriété d’absence de mémoire)
Soit X une v.a.r sur (Ω, A, P ) telle que X (Ω) ⊂ N presque sûrement.
Alors X suit une loi géométrique si et seulement si

∀ m ∈ N, P (X > m) > 0
(i)
∀ (m, n) ∈ N2 , P (X > n + m|X > m) = P (X > n)
72
(ii)
(7.5)
Preuve
Supposons que X suit une loi géométrique de paramètre p ∈ 0, 1 .
On a

X (Ω) = N∗ (donc X (Ω) ⊂ N)
∀ k ∈ N∗ , P (X = k) = p.q k−1
On sait pour tout m ∈ N∗ , X > m = X ≥ m + 1 =
P (X > m) =
+∞
S
k=m+1
+∞
X
; où q = 1 − p
X = k et donc, par additivité, on a :
P (X = k) =
k=m+1
+∞
X
p.q k−1 =
k=m+1
p.q m
= qm
1−q
On en déduit d’abord que ∀ m ∈ N∗ , P (X > m) > 0.
Ensuite, on en tire que pour tout (m, n) ∈ N∗2 :
P (X > n + m|X > m)
=
P (X > n + m, X > m)
P (X > m)
=
P (X > n + m)
P (X > m)
=
=
=
[car X > n + m ⊂ X > m ]
q n+m
qm
qn
P (X > n)
Réciproquement, supposons que les conditions (7.5) sont satisfaites. Posons pour tout n ∈ N, un = P (X > n).
Pour tout n ∈ N, on a :
P (X > n + 1) = P (X > n + 1|X > 1) P (X > 1)
et donc d’après (7.5)
P (X > n + 1) = P (X > n) P (X > 1)
Ainsi en posant q = P (X > 1), on a :
∀ n ∈ N, un+1 = q.un
La suite (un )n∈N est géométrique de raison q et on en déduit :
∀ n ∈ N, un = q n .u0
(∗)
D’autre part
q
=
=
=
=
P (X > 1)
P (X > 1|X > 0) P (X > 0)
P (X > 1) .P (X > 0)
q.u0
[d′ après (7.5)]
Mais par hypothèse q = P (X > 1) > 0, d’où u0 = P (X > 0) = P (X ≥ 1) = 1.
X prend donc ses valeurs presque sûrement dans N∗ .
De plus, pour k ∈ N∗ , et sachant que X > k ⊂ X > k − 1 , on a :
P (X = k)
=
=
=
=
P (X > k − 1) − P (X > k)
uk−1 − uk
q k−1 − q k
(1 − q) .q k−1
[d′ après (∗)]
Il reste à poser p = 1 − q et vérifier que 0 < p < 1 pour conclure que X ,→ G (p).
On constate que p < 1, car q > 0. Ensuite, p > 0 car p = 0 =⇒ q = 1 =⇒ ∀ k ∈ N
p=0
=⇒
=⇒
=⇒
q=1
∀ k ∈ N∗ , P (X = k) = 0
+∞
P
u0 = P (X > 1) =
P (X = k) = 0
k=1
CQFD
73
[d′ après (7.6)]
[et cela est absurde]
(7.6)
Commentaire
Les relations (7.5) constituent ce qu’on appelle la propriété d’absence de mémoire. Pour expliquer ce qualificatif,
imaginons que dans une population saine où une certaine maladie C est très rare, une personne de cette population
a vécu sain depuis m années ; alors la probabilité de ne contracter cette maladie qu’après n autre années est la même
aussi bien pour lui que pour tout nouveau né.
7.2.2
Loi de Poisson.
Soit λ ∈ R∗+ .
On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi Poisson de paramètre λ si et seulement si :


X (Ω) = N
On écrit X ,→ P (λ).
e

∀ k ∈ N, P (X = k) =
(7.7)
−λ k
λ
k!
Une telle v.a.r est discrète infinie et les relations (7.7) définissent bien une loi de probabilité, car les P (X = k) =
+∞
+∞
P e−λ λk
P λk
e−λ λk
sont des réels positifs et
= e−λ
= e−λ eλ = 1 (la série étant une série exponentielle).
k!
k!
k=0
k=0 k!
Si c’est le cas, X admet des moments à tout ordre r ∈ N∗ car, en utilisant par exemple la règle de D’Alembert, les
P r e−λ λk
séries
convergent (absolument !), r ∈ N∗ . En particulier, X admet une espérance et une variance. Un
k .
k!
k≥0
calcul simple permet de calculer :

+∞
+∞
+∞
+∞
P
P e−λ λk +∞
P e−λ λk
P e−λ λk+1
P e−λ λk


=
=
= λ.
=λ
kP (X = k) =
k.
E (X) =
k!
k!
k!
k=0
k=0
k=1 (k − 1)!
k=0
k=0
+∞
+∞
+∞
P
P
P e−λ λk
P e−λ λk+2
e−λ λk +∞


E (X (X − 1)) =
=
=
= λ2
k (k − 1) P (X = k) =
k (k − 1)
k!
k!
k=0
k=2
k=2 (k − 2)!
k=0
2
2
D’où en utilisant V (X) = E X 2 − (E (X)) = E (X (X − 1)) + E (X) − (E (X))
E (X) = λ
et
V (X) = λ
N.B
Tout candidat doit connaître par cœur les définitions des cinq lois discrètes usuelles ainsi que les
valeurs de l’espérance et la variance pour chacune de ces lois et doit connaître les démonstrations
qui permettent de calculer ces valeurs (à noter que, concernant les v.a.r.d infinie usuelles, les séries
entères permettent d’obtenir rapidement les démonstration) .
8
Couples aléatoires discrètes
(Ω, A, P ) est toujours un espace probabilisé donné.
Définition 8.1
On appelle couple aléatoire discret sur (Ω, A, P ) toute application
Z:
Ω
ω
−→
7−→
R2
(X (ω) , Y (ω))
où X et Y sont deux v.a.r.d sur (Ω, A, P ). On le note Z = (X, Y ).
74
;
Remarque 8.1
Si Z = (X, Y ) est un couple aléatoire discret sur (Ω, A, P ) alors Z (Ω) ⊂ X (Ω) × Y (Ω), donc Z (Ω) est au plus
dénombrable.
8.1
Loi conjointe, lois marginales d’un couple aléatoire discret.
Définition 8.2
Soit Z = (X, Y ) un couple aléatoire discret sur (Ω, A, P ).
On appelle loi conjointe (ou simplement loi jointe) de Z la donné de la famille (P (X = x, Y = x))(x,y)∈X(Ω)×Y (Ω) .
On appelle lois marginales de Z les lois des v.a.r.d X et Y .
Remarque 8.2
On sait que chacune des familles
X=x
formule des probabilités totales, on a :
∀ x ∈ X (Ω)
x∈X(Ω)
;
et Y = y y∈Y (Ω) est un système complet. Alors, d’après la
P (X = x)
=
P (X = x, Y = y)
y∈Y (Ω)
et
∀ y ∈ Y (Ω)
P
;
P (Y = y)
=
P
(8.1)
P (X = x, Y = y)
x∈X(Ω)
On en déduit que les lois marginales de Z se déduisent de la loi conjointe de Z.
On en déduit aussi, moyennant le théorème de Fubini, que la famille (P (X = x, Y = x))(x,y)∈X(Ω)×Y (Ω) , qui définit
la loi conjointe de Z, est sommable et que :
X
P (X = x, Y = x) =
(x,y)∈X(Ω)×Y (Ω)
X
x∈X(Ω)

X

y∈Y (Ω)

P (X = x, Y = x) =
X
P (X = x) = 1
x∈X(Ω)
Remarque 8.3
Soit Z = (X, Y ) un couple aléatoire discret sur (Ω, A, P ).
On constate que les v.a.r.d X et Y sont indépendantes si et seulement si la loi conjointe de Z est découplée :
(P (X = x, Y = y))(x,y)∈X(Ω)×Y (Ω) = (P (X = x) .P (Y = y))(x,y)∈X(Ω)×Y (Ω)
Proposition 8.1
Étant donnée deux parties de R non vides au plus dénombrables I et J et une famille sommable (qi,j )(i,j)∈I×J de
réels positifs de somme égale à 1, il existe un espace probabilisé (Ω, A, P ) et un couple aléatoire discret Z = (X, Y )
sur cet espace tel que :
X (Ω) = I
,
Y (Ω) = J
∀ (i, j) ∈ I × J
;
P (X = i, Y = j) = qi,j
et
Preuve
Elle est admise.
75
Exemple 8.1
On considère un réel a > 0 et la famille
a
i
2 .j!
. Cette famille est une suite double positive sommable car
(i,j)∈N∗ ×N
elle est le produit par le réel a d’une famille découplée définie à partir les séries convergentes positives
P 1
. De plus, on a :
n≥0 n!
P
(i,j)∈N∗ ×N
a
2i .j!
=
P
a.
(i,j)∈N∗ ×N
=
a.
=
a.
!
+∞
P
+∞
P
P 1
1 +∞
2i j=0 j!
1
i .j!
2
j=0
i=1
[d′ après le théorème de F ubini]
!
+∞
P
e
i
i=1 2
=
a.
=
ae.
=
1
2i .j!
+∞
P
i=1
P 1
et
n
n≥1 2
[car
+∞
P
1
j=0 j!
= e]
+∞
P
1
i
2
i=1
+∞
P
1
[car
=
i
2
i=1
ae
1
2
1−
1
2
= 1]
a
1
Alors la famille
définit une loi conjointe si et seulement si ae = 1, c’est à dire a = .
i
2 .j! (i,j)∈N∗ ×N
e
Supposons cette condition satisfaite. D’après la proposition 8.1, soit (Ω, A,
P ) un espace
probabilisé
Z
= (X, Y ) un
1
couple aléatoire discret sur cet espace dont la loi conjointe est donnée par
, c’est à dire :
e.2i .j! (i,j)∈N∗ ×N
∀ (i, j) ∈ N∗ × N, P (X = i, Y = j) =
1
e.2i .j!
Déterminons les lois marginales de Z en utilisant les formules (8.1) :
∀ i ∈ N∗ ,
P (X = i)
∀ j ∈ N,
P (Y = j)
=
+∞
P
P (X = i, Y = j)
j=0
et
=
+∞
P
i=1
76
P (X = i, Y = j)
d’où
∀ i ∈ N∗ ,
P (X = i)
=
=
=
+∞
P
1
i .j!
e.2
j=0
P 1
1 +∞
.
i
e.2 j=0 j!
1
2i
et
∀ j ∈ N,
P (Y = j)
=
=
=
+∞
P
1
i .j!
e.2
i=1
P 1
1 +∞
.
e.j! i=1 2i
1
e.j!
1
et Y ,→ P (1).
2
On constate que la loi conjointe de Z est découplée :
On voit X ,→ G
(P (X = i, Y = j))(i,j)∈N∗ ×N =
1
e.2i .j!
(i,j)∈N∗ ×N
= (P (X = i) .P (Y = j))(i,j)∈N∗ ×N
Donc les v.a.r.d X et Y sont indépendantes.
Définition 8.3
Soit Z = (X, Y ) un couple aléatoire discret sur (Ω, A, P ). On appelle fonction de répartition de Z la fonction
notée FZ = F(X,Y ) de R2 et à valeurs dans le segment [0, 1] définie par :
∀ (x, y) ∈ R2 , F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y)
Remarque 8.4
Si les v.a.r.d X et Y sont indépendantes alors :
∀ (x, y) ∈ R2 , F(X,Y ) (x, y) = P (X ≤ x) .P (Y ≤ y) = FX (x) .FY (y) ;
où FX [resp. FY ] est la fonction de répartition de la v.a.r.d X [resp. Y ].
8.2
Loi d’une fonction réelle d’un couple aléatoire discret.
Théorème 8.1
Soit Z = (X, Y ) un couple aléatoire discret sur (Ω, A, P ), I et J deux intervalles de R tels que X (Ω) ⊂ I et
Y (Ω) ⊂ J et f : I × J −→ R une fonction quelconque. Alors T = f (Z) = f (X, Y ) est une v.a.r.d sur (Ω, A, P )
dont la loi est donnée par :
∀ t ∈ T (Ω) , P (T = t) =
X
P (X = x, Y = y) ;
(x,y)∈Lt
où pour tout t ∈ T (Ω), Lt = {(x, y) ∈ X (Ω) × Y (Ω) / f (x, y) = t}
77
Preuve
T est l’application définie sur Ω et à valeurs dans R définie par : ∀ ω ∈ Ω, T (ω) = f (Z (ω)) = f (X (ω) , Y (ω)).
On observe que T (Ω) = {T (ω) / ω ∈ Ω} = {f (X (ω) , Y (ω)) / ω ∈ Ω} = {f (x, y) / (x, y) ∈ X (Ω) × Y (Ω)}.
L’application
ϕ : X (Ω) × Y (Ω) −→
T (Ω)
(x, y)
7−→ f (x, y)
est donc surjective. Comme X (Ω) × Y (Ω) est au plus dénombrable, on en déduit que T (Ω) est également au plus dénombrable.
De plus, pour tout t ∈ T (Ω), on a :
T =t
=
=
=
=
=
{ω ∈ Ω / T (ω) = t}
{ω ∈ Ω / f (X (ω) , Y (ω)) = t}
{ω ∈ Ω / ∃ (x, y) ∈ X (Ω) × Y (Ω) , f (x, y) = t, X (ω) = x, et Y (ω) = y}
{ω ∈ Ω / ∃ (x, y) ∈ Lt , X (ω) = x et Y (ω) = y}
S
{ω ∈ Ω / X (ω) = x et Y (ω) = y}
(x,y)∈Lt
=
S
(x,y)∈Lt
X=x ∩ Y =y
Alors, sachant que chaque X = x ∩ Y = y ∈ A (car X et Y sont des v.a.r), que Lt est au plus dénombrable (car inclus dans
X (Ω) × Y (Ω)) et que la tribu A est stable par union au plus dénombrable, on déduit que : [T = t] ∈ A.
T est donc une v.a.r.d sur (Ω, A, P ) (voir le théorème 6.1). De plus les événements X = x ∩ Y = y , (x, y) ∈ Lt , sont deux à deux
incompatibles ; donc par σ- additivité de P , on a :
!
S
P (T = t) = P
X=x ∩ Y =y
(x,y)∈Lt
=
P
P (X = x, Y = y)
(x,y)∈Lt
Cela définit la loi de la v.a.r.d T = f (X, Y ).
Remarque 8.5
• Ainsi, la loi conjointe du couple aléatoire discret Z = (X, Y ) détermine la loi de des fonctions f (X, Y ) de ce
couple.
• Le théorème de transfert à deux variables déjà démontré montre que lorsque f (X, Y ) admet une espérance,
E (f (X, Y )) est déterminée également par cette loi conjointe.
• La loi de X conditionnelle à un événement Y = y non négligeable est également déterminée par la loi conjointe
de (X, Y ) car
∀ x ∈ X (Ω) , P
Y =y
(X = x) = P (X = x, Y = y)
P (Y = y)
Exercice 8.1
Soit X et Y deux v.a.r.d sur (Ω, A, P ) indépendantes et suivant toutes les deux la loi de Poisson de paramètre λ > 0.
X
admet une espérance et la calculer.
Montrer que la v.a.r.d T =
1+Y
Exercice 8.2
Les variables aléatoires sont définies sur un espace probabilisé (Ω, A, P ). Soit X une variable aléatoire qui suit
la loi de Poisson de paramètre λ > 0, et soit Y une variable aléatoire indépendante de X telle que : Y (Ω) =
1
{1, 2} , P (Y = 1) = P (Y = 2) = .
2
On pose Z = XY .
1. Déterminer la loi de Z.
2. Quelle est la probabilité que Z prenne des valeurs paires ?
78
Cas particulier de la somme de deux v.a.r.d
Étant données deux v.a.r.d X et Y sur (Ω, A, P ), la somme S = X + Y n’est rien d’autre que la fonction f (X, Y )
du couple aléatoire discret Z = (X, Y ), où f est la fonction de R2 dans R définie par : ∀ (x, y) ∈ R2 , f (x, y) = x + y.
Sa loi est donc donnée par :
∀ s ∈ S (Ω) , P (S = s) =
X
P (X = x, Y = y) ;
(x,y)∈Ls
où Ls = {(x, y) ∈ X (Ω) × Y (Ω) / x + y = s}
On constate que Ls peut s’écrire :
Ls = {(x, s − x) / x ∈ X (Ω)} = {(s − y, y) / y ∈ Y (Ω)}
La loi de S = X + Y est donc donnée par chacune des formules
(i)
(ii)
∀ s ∈ S (Ω) ,
P (S = s)
∀ s ∈ S (Ω) ,
P (S = s)
=
=
P
x∈X(Ω)
P (X = x, Y = s − x)
y∈Y (Ω)
P (X = s − y, Y = y)
P
On les appelle les formules de convolution de deux lois discrètes. Notons que lorsque lorsque X et Y sont indépendantes, ces formules s’écrivent :
(i′ )
(ii′ )
8.3
∀ s ∈ S (Ω) ,
P (S = s)
∀ s ∈ S (Ω) ,
P (S = s)
=
=
P
x∈X(Ω)
P (X = x) .P (Y = s − x)
y∈Y (Ω)
P (X = s − y) .P (Y = y)
P
Covariance, coefficient de corrélation
Proposition et définition 8.4
Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2.
Alors la v.a.r.d (X − E (X)) (Y − E (Y )) admet une espérance et le nombre réel E ((X − E (X)) (Y − E (Y ))) est
appelée la covariance du couple aléatoire (X, Y ) ; elle est notée Cov (X, Y ).
2
Ainsi, pour (X, Y ) ∈ L2d (Ω, A, P ) ,
Cov (X, Y ) = E ((X − E (X)) (Y − E (Y )))
Preuve
Puis que X et Y ont un moment d’ordre 2, elles ont une espérance (d’après la proposition 6.7) et X −E (X) et Y −E (Y ) ont également un
moment d’ordre 2 (d’après la proposition 6.8). Il vient en utilisant le théorème 6.14 que (X − E (X)) (Y − E (Y )) admet une espérance.
Remarque 8.6
Si X [resp. Y ] est constante presque sûrement alors X − E (X) = 0 [resp. Y − E (Y ) = 0] et donc Cov (X, Y ) = 0
Théorème 8.2
Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2.
Alors on a :
Cov (X, Y ) = E (XY ) − E (X) .E (Y )
79
(8.2)
Preuve
Selon les propositions 6.7 et 6.8 et le théorème 6.14, les quantités E (X), E (Y ) et E (XY ) ont un sens. En outre en développant
Cov (X, Y ) en utilisant la linéarité de l’espérance, on trouve :
Cov (X, Y )
=
=
=
=
E ((X − E (X)) (Y − E (Y )))
E (XY − E (Y ) X − E (X) Y + E (X) .E (Y ))
E (XY ) − E (Y ) .E (X) − E (X) .E (Y ) + E (X) .E (Y )
E (XY ) − E (X) .E (Y )
D’où le résultat.
Vocabulaire
• La formule (8.2) est dite la formule de König - Huygens pour le covariance.
• Deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2 sont dites non corrélées si et seulement si elles
ont une covariance nulle. Dans le cas contraire on dit qu’elles sont corrélées.
Remarque 8.7
La loi conjointe du couple aléatoire discret (X, Y ) permet de calculer E (XY ) via la formule de transfert à deux
variables, donc permet le calcul de Cov (X, Y ).
Corollaire 8.1
Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2.
Si X et Y sont indépendantes alors elles sont non corrélées.
Preuve
Supposons que X et Y sont indépendantes.
Comme elles ont une espérance, on a ,d’après le théorème 6.13 : E (XY ) = E (X) .E (Y ) .
La formule 8.2 de König - Huygens permet alors de conclure que Cov (X, Y ) = 0. CQFD.
Remarque 8.8
En raisonnant dans le sens de la contraposée, on déduit qu’une façon de montrer que deux v.a.r.d X et Y ne sont
pas indépendantes est de montrer que Cov (X, Y ) ̸= 0.
N.B
Si Cov (X, Y ) = 0 entraîne que X et Y sont indépendantes, la réciproque est fausse en général : deux v.a.r.d éléments
de L2d (Ω, A, P ) non corrélées ne sont pas forcément indépendantes.
En guise de contre exemple, prenons une v.a.r X sur (Ω, A, P ) de loi : suivant la loi UA où A = {−1, 0, 1}. On a
donc :
X (Ω) = {−1, 0, 1} et P (X = −1) = P (X = 0) = P (X = 1) =
1
3
Considérons maintenant la v.a.r définie sur (Ω, A, P ) comme étant l’indicatrice (fonction caractéristique) de l’évé
nement X = 0 :

Y = 0 ; si X ̸= 0
Y = 1 ; si X = 0
80
X et Y sont clairement des v.a.r.d sur (Ω, A, P ), X suit la loi uniforme sur {−1, 0, 1} et Y suit la loi de Bernoulli
1
de paramètre p = P (Y = 1) = P (X = 0) = .
3
On a XY = 0 car quand Y est non nul (c’est à dire quand il vaut 1) X est nulle. De plus
E (X) = −P (X = −1) + 0.P (X = 0) + P (X = 1) = 0
Donc Cov (X, Y ) = E (XY ) − E (X) E (Y ) = 0 : X et Y sont non corrélées.
Cependant, elles ne sont pas indépendantes ; en effet,
P (X = 0, Y = 1) = P (X = 0) =
mais
1
(car X = 0 = Y = 1 )
3
P (X = 0) .P (Y = 1) =
1
9
Donc P (X = 0, Y = 1) ̸= P (X = 0) .P (Y = 1)
L’exercice suivant montre que pour des deux v.a de Bernoulli il y a exception.
Exercice 8.3
Soit X et Y deux v.a.r sur (Ω, A, P ) suivant des loi de Bernoulli de paramètre p et q respectivement.
Montrer que X et Y sont indépendantes si et seulement si elle sont non corrélées
Théorème 8.3
Soit X, Y et Z trois v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2. Alors :
1. Cov (X, X) = V (X).
2. Cov (X, Y ) = Cov (Y, X) .
3. Pour tout (λ, µ) ∈ R2 , on a :
(i)
Cov (X, λY + µZ)
=
λCov (X, Y ) + µCov (X, Z)
(ii)
Cov (λX + µY, Z)
=
λCov (X, Z) + µCov (Y, Z)
2
−→
et
Preuve
Elle est laissée en exercice.
Remarque 8.9
L’application
Cov :
L2d (Ω, A, P )
(X, Y )
7−→
R
Cov (X, Y )
est une forme bilinéaire symétrique sur le R-ev L2d (Ω, A, P ).
Théorème 8.4
Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2.
Alors :
1. V (X + Y ) = V (X) + V (Y ) + 2Cov (X, Y )
2. V (X + Y ) = V (X) + V (Y ) si et seulement si X et Y sont non corrélées.
81
Preuve
1. On a : V (X + Y ) = Cov (X + Y, X + Y )
D’où par bilinéarité de la covariance :
V (X + Y )
=
=
Cov (X, X) + Cov (X, Y ) + Cov (Y, X) + Cov (Y, Y )
V (X) + V (Y ) + Cov (X, Y ) + Cov (Y, X)
Ensuite, par symétrie de la covariance :
V (X + Y ) = V (X) + V (Y ) + 2Cov (X, Y )
2. C’est immédiat.
Remarque 8.10
La condition « X et Y sont indépendantes » est suffisante pour que V (X + Y ) = V (X) + V (Y )
Plus généralement :
Théorème 8.5
Soit n ∈ N∗ et X1 , ..., Xn n v.a.r.d éléments de L2d (Ω, A, P ).
Alors:
n
n
P
P
1. V
Xi =
V (Xi ) + 2
i=1
i=1
P
Cov (Xi , Xj ).
1≤i<j≤n
2. Si X1 , ..., Xn sont deux à deux non corrélées alors V
n
P
i=1
Xi
=
n
P
V (Xi )
i=1
Preuve
Elle est laissée en exercice.
Remarque 8.11
• Si n ≥ 3, et contrairement au théorème 8.4,
le
8.5 la condition que « les Xi sont deux à deux non
théorème
dans
n
n
P
P
corrélées » n’est que suffisante pour avoir V
Xi =
V (Xi ) ; elle n’est pas nécessaire.
i=1
i=1
• La relation entre l’indépendance et la non corrélation
que si les Xi sont deux à deux indépendantes (en
nfait n
P
P
particulier si elles le sont mutuellement) alors on a : V
Xi =
V (Xi )
i=1
i=1
Théorème 8.6
Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2.
Alors :
Cov (X, Y ) ≤ σ (X) .σ (Y )
Preuve
Les v.a.r.d X − E (X) et Y − E (Y ) ont un moment d’ordre 2 comme X et Y . Alors d’après le théorème 6.14, on a
r r E ((X − E (X)) (Y − E (Y ))) ≤
E (X − E (X))2
Soit
Cov (X, Y ) ≤
Ce qui est l’inégalité
p
V (X)
p
V (Y )
Cov (X, Y ) ≤ σ (X) .σ (Y )
82
E (Y − E (Y ))2
Définition 8.5
Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2 d’écarts-type strictement positifs.
On appelle coefficient de corrélation de (X, Y ) le nombre réel noté ρX,Y défini par :
ρX,Y =
Cov (X, Y )
σ (X) .σ (Y )
(8.3)
Remarque 8.12
Compte tenu de la bilinéarité de la covariance et de la relation V (aX + b) = a2 V (X), on peut remarquer que
ρ−X,Y = ρX,−Y = −ρX,Y
Théorème 8.7
Soit X et Y deux v.a.r.d sur (Ω, A, P ) admettant chacune un moment d’ordre 2 d’écarts-type strictement positifs.
Alors :
1. ρX,Y = ρY,X .
2. −1 ≤ ρX,Y ≤ 1.
3. ρX,Y = 1 si et seulement si Y est presque sûrement une fonction affine strictement croissante de X.
4. ρX,Y = −1 si et seulement si Y est presque sûrement une fonction affine strictement décroissante de X.
Preuve
1. C’est immédiat.
2. Découle de l’inégalité (8.3).
3. Supposons ρX,Y = 1.
Considérons la fonction f : R −→ R définie par :
∀ λ ∈ R, f (λ) = V (λX + Y )
Pour tout λ ∈ R, on a en développant :
f (λ)
=
=
=
V (λX) + V (Y ) + 2.Cov (λX, Y )
λ2 V (X) + 2λ.Cov (X, Y ) + V (Y )
λ2 σ 2 (X) + 2λ.Cov (X, Y ) + σ 2 (Y )
[On rappelle la relation V (λX + µ) = λ2 V (X)]
On en déduit, sachant σ 2 (X) > 0 par hypothèse, que f est une fonction polynôme du second degré. De plus, son discriminant est :
h
i
∆ = 4 (Cov (X, Y ))2 − 4.σ 2 (X) .σ 2 (Y ) = 4σ 2 (X) .σ 2 (Y ) ρ2X,Y − 1 = 0
Ce trinôme f admet donc une seule racine α dans R. Notons que le terme constant σ 2 (Y ) de f est non nul, donc la racine α est non
nulle. Maintenant, en exprimant que f (α) = 0, on trouve V (αX + Y ) = 0. Alors, d’après les propriétés de la variance, il existe un réel
b tel que αX + Y = b presque sûrement. En posant a = −α, on a : Y = aX + b presque sûrement. Observons que
=0
z }| {
a.Cov (X, X) + Cov (X, b)
a.V (X)
a.σ (X)
Cov (X, aX + b)
=
=
=
1 = ρX,Y =
σ (X) σ (Y )
σ (X) σ (Y )
σ (X) σ (Y )
σ (Y )
Cela impose à a d’être de signe strictement positif et la fonction affine t 7−→ at + b est strictement croissante.
Ainsi, si ρX,Y = 1 alors Y est presque sûrement une fonction affine strictement croissante de X.
Réciproquement, supposons donné (a, b) ∈ R∗+ × R, tel que Y = aX + b presque sûrement. Les relations suivantes sont alors vérifiées
presque sûrement :
(i) Y − E (Y ) = (aX + b) − (aE (X) + b) = a (X − E (X))
(ii) (X − E (X)) (Y − E (Y )) = a (X − E (X))2
On en déduit
r
r
p
E (Y − E (Y ))2 = a2 E (X − E (X))2 = a V (X)
(ii) Cov (X, Y ) = E (− (X − E (X)) (Y − E (Y ))) = a.E (X − E (X))2 = aV (X)
(i) σ (Y ) =
p
V (V ) =
83
[car a > 0]
Donc ρX,Y =
Cov (X, Y )
a.V (X)
p
= 1. Ce qui achève de démontrer l’équivalence.
= p
σ (X) σ (Y )
V (X).a V (X)
4. Compte tenu de la remarque 8.12, on a ρX,Y = −1 si et seulement si ρX,−Y = 1.
Alors, en utilisant l’équivalence du 3, on a : ρX,Y = −1 si et seulement si il existe (α, β) ∈ R∗+ × R tel que −Y = αX + β presque
sûrement.
D’où en considérant a = −α et b = −β : ρX,Y = −1 si et seulement si il existe (a, b) ∈ R∗− ×R tel que Y = aX +b presque sûrement.CQFD.
Commentaire
Le coefficient de corrélation ρX,Y de deux v.a.r.d X et Y mesure leur degré de dépendance affine. Plus il est proche
des valeurs extrêmes 1 et −1, plus cette dépendance affine est forte et, plus il est proche du centre 0, plus cette
dépendance affine est faible.
9
Stabilité de quelques familles de lois discrètes
Quand les lois de deux v.a.r.d indépendantes sont d’une même nature L, il est intéressant pour certaines utilisations
liées à ces v.a que la loi de leur somme soit de cette nature L. On dit que ce type (ou famille) L de lois discrètes est
stable.
À ce titre, nous montrons que les familles de lois L1 = (P (λ))λ∈R∗ et, pour p ∈ 0, 1 quelconque, L2 = (B (n, p))n∈N∗
+
sont stables.
Théorème 8.4
Soit X et Y deux v.a.r sur (Ω, A, P ) telles que :
(i)
X ,→ B (n, p) , Y ,→ B (m, p)
(ii)
X et Y sont indépendantes
et
; où (n, m) ∈ N∗2 et p ∈ 0, 1 .
Alors X + Y ,→ B (n + m, p)
Preuve
On pose S = X + Y .
q
y
q
y
q
y
On a X (Ω) = 0, n et Y (Ω) = 0, m ; donc, clairement S (Ω) = 0, n + m .
q
y
Soit k ∈ 0, n + m . Par indépendance de X et Y , la formule de convolution (i′ ) s’applique ; d’où :
P (S = k)
=
=
n
P
i=0
P (X = i) .P (Y = k − i)
n
P
n i n−i m k−i m−k+i
q
pq
p
i
k−i
n
P
n
m k n+m−k
. k−i
p q
i
i=0
=
i=0
=
n
P
i=0
=
n
m . k−i
i
[où q = 1 − p]
pk q n+m−k
n+m k n+m−k
p q
k
[selon la relation dite de V andermonde
n
P
i=0
Donc S = X + Y ,→ B (n + m, p). CQFD.
84
n
m . k−i
=
i
n+m
]
k
Corollaire 8.1
Soit r ∈ N∗ et X1 , ..., Xr r v.a.r mutuellement indépendantes sur (Ω, A, P ) telles que :
q y
∀ k ∈ 1, r , Xk ,→ B (nk , p) ; où (n1 , ..., nr ) ∈ N∗r et p ∈ 0, 1 .
Alors X1 + ... + Xr ,→ B (n1 + ... + nr , p).
Preuve
Elle est laissée en exercice (raisonner par récurrence en utilisant le lemme des coalitions).
Remarque 8.8
Soit p ∈ 0, 1 et n ∈ N∗ .
On sait que B (p) = B (1, p) (voir les loi de Bernoulli et les lois binomiales).
Alors, d’après le corollaire 8.1, si l’on dispose de n v.a.r X1 , ..., Xn mutuellement indépendantes et de même loi de
Bernoulli B (p) alors la v.a.r X = X1 + ... + Xn suit la loi binomiale B (n, p).
Ainsi, dans l’expérience aléatoire de lancer n fois une pièce où la probabilité de « pile » est égale à p, si pour tout
q
y
i ∈ 1, n , on introduit la v.a Xi égale à 1 si le iième lancer amène « pile » et 0 s’il amène « face », la v.a X égale
au nombre de « piles » obtenus n’est rien d’autre que X = X1 + ... + Xn , et on retrouve que X ,→ B (n, p).
Théorème 8.5
Soit X et Y deux v.a.r sur (Ω, A, P ) telles que :
(i)
et
(ii)
X ,→ P (λ) , Y ,→ P (µ)
X et Y sont indépendantes
; où (λ, µ) ∈ R∗2
+.
Alors X + Y ,→ P (λ + µ).
Preuve
On pose S = X + Y . On a X (Ω) = N et Y (Ω) = N ; donc on a S (Ω) = N.
Soit k ∈ N. Par indépendance de X et Y , la formule de convolution (i′ ) s’applique :
P (S = k)
=
+∞
P
P (X = i) P (Y = k − i)
k
P
P (X = i) P (Y = k − i)
i=0
=
i=0
=
=
=
=
=
[car pour i > k, k − i < 0 donc Y = k − i = Ø]
k e−λ λi e−µ µk−i
P
.
i!
(k − i)!
i=0
e−(λ+µ)
k
P
1
i=0 i! (k − i)!
λi µk−i
k
e−(λ+µ) P
k!
λi µk−i
k!
i=0 i! (k − i)!
k
e−(λ+µ) P
k!
i=0
k i k−i
λµ
i
e−(λ+µ)
(λ + µ)k
k!
[d′ après la formule du binôme de N ewton]
85
Donc S = X + Y ,→ P (λ + µ). CQFD.
Corollaire 8.2
Soit r ∈ N∗ et X1 , ..., Xr r v.a.r mutuellement indépendantes sur (Ω, A, P ) telles que :
q y
∀ k ∈ 1, r , Xk ,→ P (λk ) ; où (λ1 , ..., λr ) ∈ R∗r
+.
Alors X1 + ... + Xr ,→ P (λ1 + ... + λr ).
Preuve
Elle est laissée en exercice (procéder par récurrence et utiliser le lemme des coalitions).
10
Fonction génératrice d’une v.a.r à valeurs dans N
10.1
Généralités
Dans ce paragraphe, (Ω, A, P ) est un espace probabilisé.
Définition 10.1
Soit X une v.a.r sur (Ω, A, P ) telle que X (Ω) ⊂ N.
On appelle fonction génératrice de X la fonction notée GX de la variable réelle t définie par :
GX (t) =
+∞
X
P (X = k) .tk
(10.1)
k=0
Autrement dit, la fonction génératrice GX de la v.a.r X est la somme de la série entière
P
P (X = k) .tk de la
k≥0
variable réelle. Dans la suite on appellera cette série entière la série génératrice de X et on notera RX son rayon de
convergence et DX son ensemble de convergence simple. Notons au passage que DX est l’ensemble de définition de
GX et que

Si R
X = +∞
Si R
X < +∞
Remarque 10.1
, DX = R
, −RX , RX ⊂ DX ⊂ −RX , RX
Soit X une v.a.r.d finie à valeurs dans N. X (Ω) est une partie finie de N, Donc sa série génératrice
P
P (X = k) .tk
est à coefficients nuls à partir du rang m + 1 au moins, où m = max X (Ω) car pour tout k ≥ m + 1, X = k = Ø ;
k≥0
elle converge donc simplement sur R. cela entraîne que son rayon de convergence est RX = +∞, et que la fonction
m
P
génératrice GX est une fonction polynôme : GX : t 7−→
P (X = k) .tk .
Dans le cas général on a :
k=0
Proposition 10.1
Soit X une v.a.r.d sur (Ω, A, P ) à valeurs dans N. Alors :
1. la fonction génératrice de X est au moins définie sur le segment [−1, 1].
2. GX (1) = 1.
3. Pour tout t ∈ −RX , RX , la v.a.r.d tX admet une espérance et E tX = GX (t).
86
Preuve
On a : ∀ t ∈ [−1, 1] , ∀ k ∈ N, P (X = k) .tk = P (X = k) . t
P
P (X = k) converge dans R (de somme 1).
Et la série
k
≤ P (X = k)
k≥0
On en déduit que la série génératrice de X converge normalement, donc uniformément et simplement sur [−1, 1]. L’ensemble DX de
convergence simple (c’est à dire l’ensemble de définition de GX ) contient au moins le segment [−1, 1]. D’où 1.
+∞
P
P (X = k) = 1.
Quant au point 2, il découle de la relation
k=0
P
P (X = k) .tk converge absolument (par définition du rayon de convergence d’une
Finalement, pour tout t ∈ −RX , RX , la série
k≥0
série entière). Le résultat découle alors du théorème de transfert à une variable appliqué à f (X), où f : x 7−→ tx ; d’où 3.
Remarque 10.2
Le rayon de convergence RX de la série génératrice de X vérifie donc RX ≥ 1.
Si RX = 1 alors l’ensemble de définition de GX est DX = [−1, 1].
Si RX > 1 alors la relation −1, 1 ⊂ −RX , RX ⊂ DX la première inclusion est stricte.
Proposition 10.2
Soit X et Y deux v.a sur (Ω, A, P ) (ou même sur des espaces probabilisés différents) à valeurs dans N.
Alors GX = GY si et seulement si X et Y ont la même loi
Preuve
Supposons que GX = GY . Cela exige que RX = RX et DX = DY et qu’en particulier :
+∞
+∞
X
X
P (X = k) .tk =
P (Y = k) .tk
∀ t ∈ −1, 1 , GX (t) =
k=0
k=0
D’où par unicité du développement en série entière de GX sur −1, 1 : ∀ k ∈ N, P (X = k) = P (Y = k)
On en déduit que X et Y ont la même loi.
Réciproquement, si X et Y sont de même loi alors pour tout k ∈ N, P (X = k) = P (Y = k) ; elles définissent dans ce cas la même série
génératrice et donc la même fonction génératrice.
Remarque 10.3
La fonction génératrice d’une v.a à valeurs dans N détermine donc sa loi
10.2
Fonction génératrice et lois discrètes usuelles.
Théorème 10.1
Soit X une v.a.r sur (Ω, A, P ), n ∈ N∗ et p ∈ 0, 1 .
t + ... + tn
.
n
2. Si X ,→ B (p) alors GX est la fonction polynôme définie sur R par : ∀ t ∈ R, GX (t) = 1 − p + pt.
1. Si X ,→ Un alors GX est la fonction polynôme définie sur R par : ∀ t ∈ R, GX (t) =
3. si X ,→ B (n, p), GX est la fonction polynôme définie sur R par : ∀ t ∈ R, GX (t) = (1 − p + pt)
Preuve
Elle est laissée en exercice.
87
n
Théorème 10.2
Soit X une v.a.r sur (Ω, A, P ), p ∈ 0, 1 et λ ∈ 0, +∞ .
1 1
,
1. Si X ,→ G (p) alors GX est la fonction définie sur −
par :
1−p 1−p
1 p.t
1
,
∀t ∈ −
, GX (t) =
1−p 1−p
1 − (1 − p) .t
.
2. Si X ,→ P (λ) alors GX est la fonction définie sur R par :
∀ t ∈ R, GX (t) = e(λ−1).t
Preuve
Elle est laissée en exercice.
10.3
Fonction génératrice et moments d’ordres 1 et 2.
Théorème 10.3
Soit X une v.a.r sur (Ω, A, P ) à valeurs dans N.
Alors X admet une espérance si et seulement si sa fonction génératrice GX est dérivable au point 1.
De plus dans ce cas :
E (X) = G′X (1)
(10.2)
Preuve
=⇒ / Supposons que X admet une espérance, c’est à dire que la série
P
kP (X = k) est convergente. Montrons que GX est dérivable
k≥0
en 1.
• Si RX > 1 ceci est vrai car, en tant que somme d’une série entière de rayon de convergence RX , GX est dérivable sur −RX , RX
+∞
+∞
P
P
kP (X = k) .tk−1 ; en particulier, pour t = 1 : G′X (1) =
et 1 ∈ −RX , RX ; de plus, pour tout t ∈ −RX , RX , on a G′X (t) =
k=1
k=1
kP (X = k) = E (X).
• Supposons dans la suite que RX = 1, en sorte que −RX , RX = −1, 1 et DX = −1, 1 . Dans ce cas, montrer la dérivabilité de GX
en 1 revient à montrer sa dérivabilité à gauche en 1.
Pour tout t ∈ 0, 1 , on a :
+∞
P
k
−1
P (X = k) tt−1
GX (t) − GX (1)
=
k=0
!
(10.3)
t−1
+∞
k−1
P
P i
=
P (X = k) .
t
i=0
k=1
!
k−1
k−1
P i
P i
= P (X = k) .
t
t ≤ kP (X = k).
Or, on a : ∀ t ∈ [0, 1[ , ∀ k ∈ N∗ , P (X = k)
i=0
i=0
P
et la série
kP (X = k) est par hypothèse convergente ; d’où la convergence normale, donc uniforme, de la série de fonctions en question
k≥1
dans (10.2) sur 0, 1 . Le théorème d’interversion des limites s’applique et noue permet :
+∞
X
GX (t) − GX (1)
−→
t→1
t−1
k=1
c’est à dire
lim P (X = k)
t→1
k−1
X
i=0
ti
!!
+∞
X
GX (t) − GX (1)
−→
kP (X = k)
t→1
t−1
k=1
La fonction GX est bien dérivable à gauche en 1, donc dérivable en 1 et on a : G′X (1) =
+∞
P
k=1
kP (X = k) =
+∞
P
k=0
kP (X = k) = E (X)
⇐= / Réciproquement, supposons que GX est dérivable en 1 et montrons que X admet une espérance ; ce qui achève la démonstration.
88
Il s’agit de montrer que la série
P
kP (X = k) est convergente. La fonction
k≥0
t 7−→
+∞
GX (t) − GX (1) X
P (X = k)
=
t−1
k=1
est somme simple d’une série de fonctions positives sur 0, 1 ; d’où
∀ n ∈ N, ∀ t ∈ [0, 1[ ,
n
X
P (X = k)
k−1
X
i=0
k=1
ti
!
≤
k−1
X
i=0
ti
!
GX (t) − GX (1)
t−1
Comme les inégalités se conservent par passage à la limite, on a :
∀ n ∈ N, lim
t→1
n
X
P (X = k)
∀n ∈ N,
La suite des somme partielles de la série
P
i=0
k=1
c’est à dire
k−1
X
n
X
k=1
ti
!
≤ lim
t→1
GX (t) − GX (1)
t−1
kP (X = k) ≤ G′X (1)
kP (X = k) est donc majorée ; ce qui en fait, sachant qu’elle est à termes positifs, une série
k≥0
convergente. CQFD.
Application
On effectue une série de lancers indépendants d’une pièce de monnaie avec la probabilité p ∈ ]0, 1[ de faire « face »
et 1 − p de faire « pile ». Le jeu consiste à s’arrêter lorsqu’on obtient « face » deux fois de suite. On veut calculer le
nombre moyen de lancers nécessaires.
On note X la longueur de la liste de lancers nécessaires pour arrêter de jouer. On suppose qu’à l’expérience en
question est associé un espace probabilisé (Ω, A, P ) et on admet que X est une v.a.r.d sur cet espace et il s’agit de
montrer que X admet une espérance et la calculer.
Visiblement, X (Ω) ⊂ J2, +∞J donc la v.a X est à valeurs dans N. Examinons la loi de X.
On introduit les événements
Fi : ”Obtenir f ace au iième lancer′
On a, par indépendance mutuelle des événements Fi :
P (X = 2) = P (F1 ∩ F2 ) = P (F1 ) .P (F2 ) = p2
et P (X = 3) = P F1 ∩ F2 ∩ F3 = (1 − p) p2
Soit n ≥ 4 un entier. Le lecteur vérifiera aisément que la famille F1 , F1 ∩ F2 , F1 ∩ F2 est un système complet
d’événements. Il vient, en appliquant la formule des probabilités totales :
P (X = n) = PF1 (X = n) .P F1 + PF1 ∩F2 (X = n) .P (F1 ∩ F2 ) + PF1 ∩F2 (X = n) .P F1 ∩ F2
Mais, selon le protocole du jeu, PF1 ∩F2 (X = n) = 0. D’où
P (X = n) = PF1 (X = n) .P (F1 ) + PF1 ∩F2 (X = n) .P F1 ∩ F2
D’autre part, sachant que F1 [resp. F1 ∩ F2 ] est réalisé, il reste n − 1 [resp. n − 2] lancers pour réaliser [X = n]. Donc

 P (X = n) = P (X = n − 1)
F1
 P
(X = n) = P (X = n − 2)
F1 ∩F2
D’où
P (X = n) = P F1 .P (X = n − 1) + P F1 ∩ F2 .P (X = n − 2)
89
Soit
P (X = n) = (1 − p) .P (X = n − 1) + p. (1 − p) .P (X = n − 2)
En définitive, la loi de X est définie par la récurrence

P (X = 2) = p2 , P (X = 3) = (1 − p) .p2
P (X = n) = (1 − p) .P (X = n − 1) + p. (1 − p) .P (X = n − 2)
; si n ≥ 4
La fonction génératrice de X est définie au moins sur le segment [−1, 1]. Calculons la dans ce segment.
Soit t ∈ [−1, 1]. On a
GX (t) =
+∞
X
P (X = n) .tn = P (X = 2) .t2 + P (X = 3) .t3 +
n=2
+∞
X
P (X = n + 2) .tn+2
n=2
Il vient en appliquant la récurrence précédente :
GX (t) = p2 t2 + (1 − p) p2 t3 +
+∞
X
n=2
((1 − p) .P (X = n + 1) + (1 − p) p.P (X = n)) tn+2
Alors, par convergence des séries en présence :
GX (t) = p2 t2 + (1 − p) p2 t3 + (1 − p) t.
C’est à dire
+∞
X
n=2
P (X = n + 1) tn+1 + (1 − p) pt2 .
+∞
X
P (X = n) tn
n=2
GX (t) = p2 t2 + (1 − p) p2 t3 + (1 − p) t. GX (t) − p2 t2 + (1 − p) pt2 GX (t)
On en déduit la valeur de GX (t)
GX (t) =
p2 t2 + (1 − p) p2 t3 − (1 − p) p2 t3
p2 t2
=
1 − (1 − p) t − (1 − p) pt2
1 − (1 − p) t − (1 − p) pt2
Notons que la fraction rationnelle du membre de droite a deux pôles simples qu’on peut calculer :
λ=
−q −
p
−q + q 2 + 4pq
q 2 + 4pq
et µ =
2pq
2pq
p
où l’on a posé q = 1 − p.
p2 t2
est donc développable en série entière au voisinage de 0 de rayon de convergence
1 − qt − qpt2
R = min (|λ| , |µ|) = |µ| dont on vérifie aisément qu’il est > 1 et ce DSE est celui GX . Tout cela prouve que le rayon
La fonction t 7−→
de convergence RX de la série génératrice de X est > 1 et donc GX est dérivable en 1 (la somme d’une série entière
est dérivable en tout point de son intervalle de convergence). Cela montre, d’après le théorème 10.3, que X admet
une espérance et que E (X) = G′X (1).
Calculons G′X (t) pour t ∈ ]−RX , RX [ :
G′X (t) =
p 2 t2
1 − qt − pqt2
′
=
D’où, tout calcul fait
G′X (t) =
p2 1 − qt − pqt2 − p2 t2 (−q − 2pqt)
(1 − qt − pqt)
2p2 t − p2 qt2
(1 − qt − pqt)
90
2
2
On en déduit
E (X) =
2p2 − p2 q
(1 − q − pq)
2 =
2−q
1+p
=
p2
p2
Théorème 10.4
Soit X une v.a.r sur (Ω, A, P ) à valeurs dans N.
Alors X admet une variance si et seulement si sa fonction génératrice GX est deux fois dérivable au point 1.
De plus dans ce cas, on a :
V (X) = G′′X (1) + G′X (1) − (G′X (1))
2
(10.4)
Preuve
Elle n’est pas exigible et elle est laissée en exercice.
• Supposons que X admet une variance.
Cela est équivaut à ce que X admet un moment d’ordre 2, ou encore à ce que :

X admet une espérance
X 2 − X = X (X − 1) admet une espérance
(i)
(ii)
Il s’agit de montrer que GX est deux fois dérivable en 1. D’après (i), et en appliquant le théorème 10.3, GX est déjà dérivable en 1 et
+∞
P
kP (X = k). Et comme est elle est déjà dérivable sur 0, 1 en tant que somme d’une série entière de rayon de
G′X (1) = E (X) =
k=1
convergence RX ≥ 1, on déduit que GX est dérivable sur 0, 1 avec :
+∞
X
kP (X = k) .tk−1
∀ t ∈ 0, 1 , G′X (t) =
k=1
y compris pour t = 1. Il suffit de montrer que G′X est dérivable en 1.
Comme dans la démonstration du théorème 10.3, on traite deux cas :
1ier cas : RX > 1. Dans ce cas, et comme somme d’une série entière GX est deux fois dérivable sur −RX , RX et on a :
+∞
X
k (k − 1) P (X = k) tk−2
∀ t ∈ −RX , RX , G′′
X (t) =
k=2
En particulier, et sachant que dans ce cas 1 ∈ −RX , RX , G′X est bien dérivable en 1 et on a ;
G′X
′
(1) = G′′
X (1) =
+∞
X
k=2
k (k − 1) P (X = k)
+∞
P
k (k − 1) P (X = k) = E (X (X − 1)).
De plus, la relation (ii) et le théorème de transfert assurent que
k=2
′
Donc G′X est dérivable au point 1 et G′X (1) = G′′
X (1) = E (X (X − 1)).
2ième cas : RX = 1
Dans ce cas, et comme avant, on étudie la limite en 1 à gauche de t 7−→
On a :
G′X (t) − G′X (1)
.
t−1
k−2
X
X
X
tk−1 − 1 +∞
G′ (t) − G′X (1) +∞
=
=
∀ t ∈ 0, 1 , X
kP (X = k)
kP (X = k)
ti
t−1
t
−
1
i=0
k=1
k=2
(10.5)
puis en constatant que :
k−2
k−2
X
X
∀ t ∈ 0, 1 , ∀ k ≥ 2, kP (X = k)
ti = kP (X = k)
ti ≤ k (k − 1) P (X = k)
i=0
i=0
On conclut à la convergence normale et uniforme de la série de fonctions du (10.5) et à la possibilité d’appliquer le théorème d’interversion
des limites ; d’où
+∞
X
G′X (t) − G′X (1)
k (k − 1) P (X = k) = E (X (X − 1)) ;
−→
t→1
t−1
k=2
′
ce qui montre que dans ce cas aussi, G′X est dérivable en 1 et que : G′X (1) = G′′
X (1) = E (X (X − 1)).
Dans les deux cas, on conclut que GX est bien deux fois dérivable en 1 et que G′′
X (1) = E (X (X − 1)).
91
On conclut que si X admet une variance alors GX est deux fois dérivable en 1 et que :
V (X) = E X 2 − (E (X))2
= E (X (X − 1)) + E (X) − (E (X))2
2
′
′
= G′′
X (1) + GX (1) − GX (1)
• Pour achever la démonstration, il reste à montrer que si GX est deux fois dérivable en 1 alors X admet une espérance.
Supposons donc que GX est deux fois dérivable en 1. On a :


GX est dérivable en 1, donc sur 0, 1
(iii)
G′X (t) − G′X (1)

t ∈ 0, 1 7−→
admet une limite L ∈ R au point 1 (iv)
t−1
D’après le théorème 10.3, (iii) entraîne que X admet une espérance et que G′X (1) = E (X) =
+∞
P
kP (X = k)
k=1
k−2
P
P i
G′ (t) − G′X (1) +∞
=
kP (X = k)
t est la somme simple d’une série de fonctions positives.
D’autre part, la fonction t ∈ 0, 1 7−→ X
t−1
i=0
k=2
D’où :
!
k−2
n
X
X
G′ (t) − G′X (1)
kP (X = k)
ti ≤ X
∀ n ≥ 2, ∀ t ∈ [0, 1[ ,
t−1
i=0
k=2
On en déduit par passage à la limite quand t tend vers 1 :
∀ n ≥ 2,
La suite des sommes partielles de la série à termes positifs
n
X
k (k − 1) P (X = k) ≤ L
P
k (k − 1) P (X = k) est donc majorée. On conclut que cette série converge
k=2
k≥2
et converge absolument ; ce qui montre en utilisant le théorème de transfert que la v.a.r.d X (X − 1) = X 2 − X admet une espérance.
Ainsi :

X admet une espérance
X 2 − X = X (X − 1) admet une espérance
Donc X 2 = X 2 − X + X admet une espérance, c’est à dire que X admet un moment d’ordre 2. CQFD.
Exercice 10.1
Retrouver, en utilisant les fonctions génératrices, les valeurs de l’espérance et la variance dans le cas d’une v.a.r
suivant l’une des lois discrètes usuelles.
Théorème 10.5
Soit X et Y deux v.a.r sur (Ω, A, P ) et à valeurs dans N.
Si X et Y sont indépendantes alors pour tout t ∈ [−1, 1], GX+Y (t) = GX (t) .GY (t).
Preuve
Supposons que X et Y sont indépendantes et soit t ∈ [−1, 1]. Les v.a.r tX , tY et tX+Y = tX .tY sont bornées (car prennent leurs
valeurs dans [−1, 1]). Elle ont donc une espérance chacune. Il vient en utilisant le lemme des coalitions les v.a.r tX et tY sont également
indépendantes. D’où E tX .tY = E tX .E tY . Soit : E tX+Y = E tX .E tY .
Cela montre que GX+Y (t) = GX (t) .GY (t).
Plus généralement :
Théorème 10.6
Soit n ∈ N∗ et X1 , ..., Xn n v.a.r sur (Ω, A, P ) et à valeurs dans N.
Si la famille (X1 , ..., Xn ) est une famille mutuellement indépendante alors pour tout t ∈ [−1, 1], on a
GX1 +...+Xn (t) = GX1 (t) ...GXn (t)
92
Preuve
Raisonnons par récurrence sur n.
• Pour n = 1, il n’y a rien à démontrer.
• Soit n ∈ N∗ ; supposons le résultat vrai au rang n et montrons qu’il l’est au rang n + 1/
Soit (X1 , ..., Xn+1 ) une famille mutuellement indépendante de n + 1 v.a à valeurs dans N sur (Ω, A, P ). Soit t ∈ [−1, 1]. On a :
GX1 +...+Xn+1 (t) = GY +Xn+1 (t) ;
où Y = X1 + ... + Xn . Les v.a Y et Xn+1 sont à valeurs dans N et, selon le lemme des coalitions, elles sont indépendantes. Alors, en
appliquant le théorème 10.5, on a :
GY +Xn+1 (t) = GY (t) .GXn+1 (t)
Mais (X1 , ..., Xn ) est mutuellement indépendante comme sous famille de la famille mutuellement indépendante (X1 , ..., Xn+1 ) ; d’où par
hypothèse de récurrence :
GY (t) = GX1 +...+Xn (t) = GX1 (t) ...GXn (t)
D’où
CQFD.
GX1 +...+Xn+1 (t) = GX1 (t) ...GXn (t) GXn+1 (t) = GX1 (t) ...GXn+1 (t)
Exemple 10.1
On dispose d’une urne contenant quatre boules numérotées 0, 1, 1 et 2 respectivement. On effectue n tirages successifs
d’une boule avec remise. On note X la v.a égale à la somme des nombres obtenus dans les n tirages. On se propose
de calculer la loi de X en exploitant le théorème précédent.
q
y
q
y
Pour cela, commençons par remarquer que X (Ω) = 0, 2n et introduisons pour tout i ∈ 1, n , la v.a Xi égale au
nombre obtenu au iième tirage. Toute ces v.a Xi ont la même loi :

Xi (Ω) = {0, 1, 2}
P (Xi = 0) = P (Xi = 2) = 1 et P (Xi = 1) = 2
4
4
De plus, il est clair que : X = X1 + ... + Xn . Enfin, par indépendance des tirages, la famille (X1 , ..., Xn ) est
mutuellement indépendante. Alors, en appliquant le théorème 10.6, on obtient :
n
∀ t ∈ −1, 1 , GX (t) = GX1 (t) ...GXn (t) = (GX1 (t))
Mais, on a : GX1 (t) = P (X1 = 0) + P (X1 = 1) .t + P (X1 = 2) .t2 =
D’où
1 + 2t + t2
(1 + t)
=
4
4
2
2n
(1 + t)
∀ t ∈ −1, 1 , GX (t) =
4n
puis, par la formule du binôme de N ewton :
∀ t ∈ −1, 1 , GX (t) =
On a donc :
n
X
k=0
q
y
∀ k ∈ 0, 2n , P (X = k) =
2n
k
4n
tk
2n
k
4n
Exercice 10.2
Redémontrer les propriétés de stabilité de lois du paragraphe 9 à l’aide des théorèmes 10.5 et 10.6
93
11
Variables aléatoires continues à densité
Dans ce paragraphe, (Ω, A, P ) est un espace probabilisé.
11.1
V.a continues, v.a absolument continues, densité de probabilité
Il s’agit d’étudier un type de v.a.r autre que les v.a.r.d ; c’est des v.a.r pouvant prendre toutes les valeurs dans un
intervalle de R
11.1.1
V.a continues
Définition 11.1
Soit X une v.a.r sur (Ω, A, P ).
On dit que la v.a.r X est continue si et seulement si sa fonction de répartition est continue sur R.
En abrégé, on écrira X est une v.a.r.c sur (Ω, A, P ).
Exemple 11.1
Le plan est assimilé à R2 . O désigne le point (0, 0) et R est un réel > 0.
Une puce se déplace aléatoirement dans le disque D (O, R) de centre O et de rayon R. On note X la distance de la
puce au centre O du disque.
L’univers est l’ensemble des positions possible de la puce : Ω = D (O, R). On vérifie (le faire en exercice) que
A = A ∩ Ω / A ∈ B R2
est une tribu sur Ω ; où B R2 est la tribu borélienne de R2 . On admet que A est la tribu sur Ω engendrée par
les rectangles [a, b] × [c, d] inclus dans Ω et que cette tribu contient, en particulier, les fermés et ouverts relatifs de
aire (B)
aire (B)
=
se prolonge en une unique
Ω. On admet aussi que l’application qui à chaque disque B associe
aire (Ω)
πR2
probabilité P sur l’espace probabilisable (Ω, A).
X n’est rien d’autre que l’application
D (O, R)
M = (a, b)
Pour tout x ∈ R, on a :
donc, dans les trois cas, [X ≤ x] ∈ A.
−→
7−→
OM =



[X ≤ x] = Ø


[X ≤ x] = D (O, x)



[X ≤ x] = Ω
R
√
a 2 + b2
; si x < 0
; si 0 ≤ x ≤ R
; si R < x
Cela montre que X est une v.a.r sur l’espace probabilisé (Ω, A, P ). De plus sa fonction de répartition est donnée
par :



FX (x) = P (X ≤ x) = 0



x 2
πx2
aire (D (O, x))
∀ x ∈ R, FX (x) = P (X ≤ x) =
=
=

aire (D (O, R))
πR2
R



F (x) = P (X ≤ x) = P (Ω) = 1
X
On voit que FX est continue sur R ; donc X est une v.a.r.c sur (Ω, A, P ).
94
; si x < 0
; si 0 ≤ x ≤ R
; si R < x
Remarque 11.1
Pour construire théoriquement une v.a.r.c, il suffit de se donner une fonction de répartition F : R −→ R continue (et
pas seulement continue à droite). Le théorème 5.7 , assure qu’il existe un espace probabilisé (Ω, A, P ) et une v.a.r
X sur cet espace telle que FX = F . Une telle v.a est continue.
1
.
1 + e−x
F est croissante, continue sur R et de limites 0 et 1 en −∞ et +∞ respectivement. Elle est une fonction de répartition
En guise d’exemple, prenons la fonction F définie de R dans R par : ∀ x ∈ R, F (x) =
continue.
Remarque 11.2
• D’après la proposition 5.3, la v.a.r X est continue si et seulement si pour tout x ∈ R, P (X = x) = 0.
• Si X est une v.a.r continue sur (Ω, A, P ) alors pour tout couple (a, b) de réels, on a :
P (X ≤ b)
X<b ∪ X=b
=
P
=
P (X < b) + P (X = b)
=
P (X < b)
(11.1)
[par additivité]
et, de même :
P (X ≥ a) = P (X > a)
et P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b)
(11.2)
C’est à dire que pour tout intervalle I de R, la probabilité P (X ∈ I) est la même, quelque soit la nature de I : qu’il
soit ouvert ou semi-ouvert ou fermé
Remarque 11.3
Une v.a.r discrète X sur (Ω, A, P ) ne peut être continue, car on ne peut réunir
 P


P (X = x) = 1
x∈X(Ω)
Proposition 11.1

∀ x ∈ X (Ω) , P (X = x) = 0
Soit X une v.a.r.c sur (Ω, A, P ). Alors, pour tout réel non nul λ, λX est une v.a.r.c sur (Ω, A, P ).
Preuve
Y = λX est déjà une v.a.r sur (Ω, A, P ). On traite deux pour expliciter FY (x) , x ∈ R :
x

x
FY (x) = P (λX ≤ x) = P X ≤
= FX
λ
λ
x
F (x) = P (λX ≤ x) = P X ≥ x = 1 − P X < x = 1 − P X ≤ x = 1 − F
Y
X
λ
λ
λ
λ
; si λ > 0
; si λ < 0
Dans les deux cas, les théorèmes généraux sur les fonctions continues montrent que FY est une fonction continue sur R. Donc la v.a.r
Y = λX est continue.
Remarque 11.4
• Le produit d’une v.a.r.c par 0 est la v.a nulle ; elle n’est pas une v.a.r.c car elle est discrète (v.a sûre).
95
• Soit X une v.a.r.c sur (Ω, A, P ). D’après la proposition 11.1, la v.a Y = −X est aussi une v.a.r.c sur (Ω, A, P ).
Cependant X + Y = 0 n’est pas une v.a.r.c sur (Ω, A, P ).
De tout cela, on déduit que l’ensemble Vc (Ω, A, P ) des v.a.r..c sur (Ω, A, P ) n’est pas stable ni par la loi externe ni
par addition interne. Donc, contrairement à Vd (Ω, A, P ) ,il n’est pas un s.e.v de V (Ω, A, P ).
11.1.2
V.a.r absolument continues
a) Fonctions continues presque partout, extension de la notion d’intégrale
Vocabulaire
Soit f : R −→ R une fonction.
• On dit que f est continue presque partout sur R si elle ne présente qu’un nombre fini de points de discontinuité
dans R.
• On dit que f est de classe C 1 presque partout sur R si elle est de classe C 1 sur tout intervalle inclus dans R ∖ A
pour une certaine partie finie A de R.
Remarque 11.5
Toute fonction f : R −→ R continue [resp. de classe C 1 ] est continue presque partout [resp. de classe C 1 presque
partout].
N.B
• Ne pas confondre la notion de continuité presque partout avec la notion de continuité par morceaux sur R. En
effet une fonction continue par morceaux de R dans R peut présenter une infinité de points de discontinuité dans R.
Néanmoins, si une fonction f : R −→ R est continue par morceaux et présente un nombre fini de point de discontinuité
alors elle est continue presque partout. La réciproque est fausse en général : En l’absence des conditions d’existence
des limites réelles à droite et à gauches en les points de discontinuité, une fonction continue presque partout n’est
pas forcément continue par morceaux sur R.
• Ne pas confondre les termes « presque partout » et « presque sûrement » ; en effet, le premier vocabulaire est lié à
l’analyse réelle alors que le deuxième est lié à la probabilité d’un espace probabilisé.
Définition 11.2
Soit f : R −→ R une fonction continue presque partout et non continue. On note x1 , ..., xr les points de disconti-
nuité de f numérotés dans le sens strictement croissant des indices. Si f est intégrable sur chacun des intervalles
]−∞, x1 [ , ]x1 , x2 [ , ..., ]xr−1 , xr [ et ]xr , +∞[, on dit qu’elle est intégrable sur R et on note
Z +∞
−∞
f (t) dt =
Z x1
−∞
f (t) dt +
r−1 Z xi+1
X
i=1
xi
f (t) dt +
Z +∞
f (t) dt
xr
Ce nombre est appelé l’intégrale de f sur R (ou de −∞ à +∞).
Si I est un intervalle non vide de R d’extrémités a et b (−∞ ≤ a ≤ b ≤ +∞), on définit l’intégrabilité de f sur I et
Z
Z b
son intégrale sur I,
f (t) dt (qu’on peut aussi noter
f (t) dt), de la même façon si I contient quelques uns des
I
a
points xi ; sinon ces notions sont celles classiques d’une fonction continue sur I.
Il est clair que f est intégrable sur R (resp. sur un intervalle I) si et seulement si la fonction |f | l’est.
96
On montre aisément, comme pour les fonctions continue ou continue par morceaux, que si f est intégrable sur R
alors elle l’est sur tout intervalle I de R ; De plus quand f est une fonction positive, on a, dans cas cas :
0≤
Z
I
Z +∞
f (t) dt ≤
f (t) dt
−∞
On vérifie, comme pour le cas des fonctions continues, les résultats suivants :
• Pour pour (a, b) ∈ (R ∪ {−∞}) × (R ∪ {+∞}), on a :
Z x
a
f (t) dt −→
x→+∞
Z +∞
f (t) dt,
a
Z x
a
f (t) dt −→ 0,
x→a
Z b
x
f (t) dt −→ 0 et
x→b
Z b
x
f (t) dt −→
x→−∞
Z b
f (t) dt
−∞
• L’additivité et la relation de Chasles s’étendent à cette notion d’intégrale.
• Les critères d’intégrabilité s’étendent également à cette notion d’intégrale
• Si la fonction continue presque partout f est intégrable et positive sur l’intervalle I alors
Z
I
f (t) dt = 0 ⇐⇒ f est nulle presque partout dans I
• Si dans la définition 11.2 f est de plus positive sur R alors l’intégrabilité sur R de f est équivalente à la convergence
de ses intégrales sur les intervalles ]−∞, x1 [ , ]x1 , x2 [ , ..., ]xr−1 , xr [ et ]xr , +∞[.
Remarque 11.6
L’intégrabilité et la valeur de l’intégrale sur R, ou sur un intervalle I de R, d’une fonction f : R −→ R continue
presque partout généralise celles d’une fonction continue ou continue par morceaux.
Convention importante :
Pour une fonction f : R −→ R continue presque sûrement et positive, on notera
Z +∞
f (t) dt le nombre élément de
−∞
R+ ∪ {+∞} égal à l’intégrale sur R de f si elle est intégrable, et égal à +∞, sinon.
Proposition 11.2
Soit f : R −→ R une fonction continue presque partout et soit g : R −→ R une fonction obtenue à partir de f en
changeant les valeurs de celle-ci en un nombre fini de points. Alors
1. g est aussi une fonction continue presque partout.
2. la fonction g est intégrable sur R si et seulement si la fonction f l’est. De plus dans ce cas, on a :
Z +∞
g (t) dt =
−∞
Z +∞
f (t) dt
−∞
Preuve
Elle est laissée en exercice.
Proposition 11.3
Soit f : R −→ R une fonction de classe C 1 presque partout et non de classe C 1 .
Alors, tout prolongement de la fonction dérivée f ′ de f à R est une fonction continue presque partout.
97
Preuve
Elle est laissée en exercice.
Proposition 11.4
Soit f : R −→ R une fonction continue presque partout. Alors la fonction
φ:
R
−→
x
7−→
Z x
R
f (t) dt
−∞
est continue sur R et est de classe C 1 presque partout.
De plus, pour tout réel x où f est continue, on a φ′ (x) = f (x).
Preuve
Elle est laissée en exercice (elle est seulement technique).
Définition 11.3
On appelle fonction de densité (ou simplement densité) toute fonction f : R −→ R continue presque partout,
Z +∞
f (t) dt = 1.
positive et telle que
−∞
Remarque 11.7
• Toute densité f est intégrable sur R d’intégrale égale à 1.
• Toute fonction g obtenue à partir d’une densité f en modifiant les valeurs de celle-ci en un nombre fini de points
par d’autres valeurs positives est encore une densité.
Exemple 11.2 :
Soit f la fonction réelle définie sur R par :
∀ x ∈ R,

2
f (x) = −xe− x2
; si x ≤ 0
f (x) = 0
; si x > 0
On voit que f est positive sur R et qu’elle est continue en tout point de R∗ . De plus, en passant par les limites à
droite et à gauche en 0, on vérifie que f est continue aussi en 0 et de là sur R. Montrons qu’elle est intégrable sur R
d’intégrale égale à 1.
f est déjà intégrable sur [0, +∞[ et
Z +∞
f (t) dt = 0, car f est nulle sur [0, +∞[. En outre, pour tout a < 0 on a :
0
Z 0
f (t) dt
Z 0
e− 2
0
=
a
t2
a
=
=
e
t2
−2
a
a2
1 − e− 2
98
′
dt
D’où :
Z 0
f (t) dt −→ 1.
a→−∞
Z 0
l’intégrale
f (t) dt est donc convergente. cela suffit pour que f soit intégrable sur R, étant donné qu’elle est
a
positive.
−∞
En résumé f est intégrable sur R et
f est bien une densité.
Z +∞
f (t) dt =
−∞
Z 0
f (t) dt +
−∞
Z +∞
f (t) dt = 1 + 0 = 1
0
Exemple 11.3
Soit f la fonction réelle définie sur R par :


f (x) = 0



1
f (x) = √
2 x




f (x) = 0
; si x ≤ 0
; si 0 < x ≤ 1
; si 1 < x
f est continue en tout point de R sauf en 0 et en 1 ; ce qui fait de f une fonction continue presque partout sur R
(remarquons qu’elle n’est cependant pas continue par morceaux car f (x) −→+ +∞) . De plus elle est positive.
x→0
Z 0
Z 1
Finalement on vérifie que les trois intégrales
f (t) dt,
f (t) dt et
−∞
0
Z +∞
f (t) dt = 1. f est une densité.
tivement 0, 1 et 0. D’où
Z +∞
f (t) dt convergent et valent respec-
1
−∞
Exemple 11.4
1
La fonction f : t 7−→
est une continue, positive et intégrable sur R avec
π (1 + t2 )
Donc f est une densité.
Z +∞
f (t) dt = 1 (le vérifier).
−∞
Exercice 11.1
Chercher des v.a.r continue mais non absolument continues
b) V.a.r continues à densité
Théorème et définition 11.4
Soit X une v.a.r sur (Ω, A, P ). Alors les p.s.s.e :
(i)
(ii)
La fonction de répartition de X est continue sur R et est de classe C 1 presque partout dans R
Z x
il existe une densité f telle que pour tout x ∈ R, on ait FX (x) =
f (t) dt
−∞
Dans ce cas, X est dite une v.a absolument continue (ou continue à densité) et une telle fonction f est dite une
densité de probabilité (ou simplement une densité) de X.
Preuve...
′ à R en lui donnant la valeur 0, par exemple, aux points
Elle est seulement technique (pour (i) =⇒ (ii), on prolonge la fonction dérivéeFX
où elle n’est pas définie pour obtenir une densité f qui vérifie (ii), et pour (ii) =⇒ (i), on applique directement la proposition 11.4)
99
Visualisation de la fonction de répartition d’une v.a.r.c à densité
En notant f une densité de la variable X, la fonction de la répartition FX évaluée en a correspond à la probabilité
P (X ≤ a) et représente l’aire du domaine sous la courbe de f jusqu’au point d’abscisse a.
Notation
D’après les considérations précédentes, il n’y a pas unicité dans la notion de densité de probabilité d’une v.a.r
absolument continue X : si f est une densité de X alors toute modification des valeurs de f en un nombre fini de
points par d’autres valeurs positive amène une autre densité de X.
Toutefois, on notera fX toute densité de probabilité de X.
Remarque 11.8
• La donnée d’une densité pour une v.a.r absolument continue détermine complètement sa fonction de répartition,
donc sa loi.
′
• Pour une v.a.r absolument continue X de fonction de répartition FX et de densité fX , on a fX = FX
presque
partout, c’est à dire qu’elles sont égales dans R sauf, peut-être en un nombre fini de points.
Proposition 11.5
Soit f : R −→ R une fonction de densité.
Alors, il existe un espace probabilisé (Ω, A, P ) et une v.a.r. absolument continue X sur (Ω, A, P ) tels que f est
une densité de probabilité de X.
Preuve
On note F la fonction de R dans R définie par : ∀ x ∈ R, F (x) =
Z x
f (t) dt .
−∞
(i) Cette fonction F est bien définie car la densité f est intégrable sur R et, de là, sur tout intervalle de la forme ]−∞, x].
(ii) Montrons que F est une fonction de répartition.
D’après la proposition 11.5, la fonction F est continue sur R, en particulier, elle est continue à droite en tout point de R.
D’autre part, la positivité de la densité f nous permet de déduire :
Z +∞
Z x
f (t) dt ≤
f (t) dt = 1
− ∀ x ∈ R, 0 ≤ F (x) =
−∞
et
−
−∞
∀ (x, y) ∈ R, x < y =⇒ F (x) =
100
Z x
−∞
f (t) dt ≤
Z y
−∞
f (t) dt = F (y)
Donc, F prend ses valeurs dans [0, 1] et elle est croissante.
Z x
Z x
En outre, F (x) =
f (t) dt −→ 0 et F (x) =
f (t) dt −→
−∞
x→−∞
x→+∞
−∞
Z +∞
f (t) dt = 1.
−∞
En conclusion, F est une fonction de répartition.
(iii) Conclusion : D’après le théorème 5.7, il existe un Zespace probabilisé (Ω, A, P ) et une v.a.r. X sur (Ω, A, P ) tels que FX = F . Cette
x
v.a.r est absolument continue car : ∀ x ∈ R, FX (x) =
f (t) dt. CQFD
−∞
Théorème 11.1
Soit X une v.a.r sur (Ω, A, P ). Alors les p.s.s.e :
(i)
X est absolument continue
(ii)
il existe une densité f telle que pour tout intervalle I de R, on ait P (X ∈ I) =
Z
f (t) dt
I
De plus, dans ce cas, f est une densité de X.
Preuve
Supposons donnée d’une fonction de densité f telle que pour I ∈ I ,on ait P (X ∈ I) =
Z
f (t) dt
ZI x
f (t) dt.
En appliquant cela aux intervalles ]−∞, x], on obtient : ∀ x ∈ R, FX (x) = P (X ≤ x) =
−∞
Alors, d’après la définition 11.4, X est une v.a.r absolument continue.
Réciproquement, supposons que X est absolument continue et soit f une densité de X. On a, par définition :
Z x
f (t) dt
∀ x ∈ R, FX (x) =
−∞
Montrons que : ∀ I ∈ I , P (X ∈ I) =
Z
f (t) dt
I
Soit I un intervalle de de R.
Traitons d’abord le cas où I est un intervalle borné. Notons ses extrémités réels a et b, avec où a ≤ b. Dans ce cas, sachant que X est
une var continue, les relation (11.2) permettent d’affirmer que quelque soit la nature de cet intervalle borné I,on a :
P (X ∈ I)
=
P (a < X ≤ b)
=
P
=
P (X ≤ b) − P (X ≤ a)
=
FX (b) − FX (a)
=
Z b
f (t) dt −
Z b
Z
X≤b ∖ X≤a
−∞
D’où par la relation de Chasles : P (X ∈ I) =
a
f (t) dt =
Z a
[car X ≤ a ⊂ X ≤ b ]
f (t) dt
−∞
f (t) dt.
I
Ensuite dans le cas où I est majoré et non minoré, qu’il soit de la forme ]−∞, b] ou ]−∞, b[ (b ∈ R), on selon les relations (11.1) :
P (X ∈ I)
=
P (X ≤ b)
=
Z b
f (t) dt
−∞
=
Z
f (t) dt
I
Finalement, dans le cas où I est un intervalle minoré et non majoré de la forme [a, +∞[ ou ]a, +∞[ (a ∈ R), on a aussi pour les mêmes
101
raisons, P (X ∈ I) = P (X > a), d’où :
P (X ∈ I)
[d′ après la loi de l′ événement contraire]
=
1 − P (X ≤ a)
=
Z +∞
f (t) dt −
Z +∞
f (t) dt
−∞
=
Z a
f (t) dt
[car f est une densité]
−∞
[d′ après la relation de Chasles]
a
Z
=
Dans tous les cas on a : P (X ∈ I) =
CQFD.
Z
f (t) dt
I
f (t) dt
I
Théorème 11.2
Soit X une v.a.r continue à densité sur l’espace probabilisé (Ω, A, P ).
Alors pour tout (a, b) ∈ R∗ × R, la v.a.r Y = aX + b est continue à densité et une densité de Y est donnée par :
1
fX
∀ x ∈ R, fY (x) =
|a|
x−b
a
Preuve
Soit x ∈ R. On a : = P (Y ≤ x) = P (aX ≤ x − b)
FY (x)
=
P (Y ≤ x)
=
P (aX ≤ x − b)
=
Mais on a : P
X≥
x−b
a
=1−P
X<
x−b
a
D’où
 x−b

P
X
≤



a

; si a > 0




P X ≥ x − b
a
=1−P
X≤
; si a < 0
x−b
.
a

x−b

FY (x) = FX



a

; si a > 0




FY (x) = 1 − FX x − b
a
; si a < 0
Il ressort de cela, en utilisant les opérations sur les fonctions continues et sur les fonctions dérivables, que dans les deux cas, a > 0 et
a < 0, la fonction FY est continue sur R et de classe C 1 presque partout (les singularité éventuelles yi de FY , pour la dérivation, sont
reliées aux singularités xi de X par yi = axi + b). Donc Y est une v.a.r continue à densité sur (Ω, A, P ). De plus, une densité de Y est
donnée par tout prolongement positif g de la dérivée FY′ . Or pour réel x où FY est dérivable on a :

′
1
1 ′
x−b
x−b
x−b


= fX
= FX
FY′ (x) = FX


a
a
a
a
a


′
′


1
1 ′
x−b
x−b
x−b
x−b


FY′ (x) = 1 − FX
= − fX
= − FX
= − FX
a
a
a
a
a
a
On peut résumer cela par
FY′ (x) =
On prend : ∀ x ∈ R, fY (x) = g (x) =
1
fX
|a|
x−b
.
a
1
fX
|a|
102
x−b
a
; si a > 0
; si a < 0
Proposition 11.6
Soit X une v.a.r continue à densité sur l’espace probabilisé (Ω, A, P ).
Alors pour tout k ∈ N∗ , la v.a.r Y = X k est à densité.
Preuve
Notons fX une densité de X et soit k ∈ N∗ .
Montrons que la v.a.r Y = X k est à densité. Pour cela, On distingue deux cas :
1ier cas : k est un nombre impair
Dans ce cas, on sait que la fonction u : x 7−→ xk est une bijection strictement croissante de R sur R de bijection
√
réciproque la fonction v : x 7−→ k x, qui est, elle aussi, strictement croissante sur R. De plus u est de classe C ∞ sur
R et v est continue sur R et est de classe C ∞ sur ]−∞, 0[ et ]0, +∞[.
√
√
On a, pour tout x ∈ R : FY (x) = P (Y ≤ x) = P (u (X) ≤ x) = P (X ≤ k x) = FX ( k x) = FX (v (x))
On voit que par composition, FY est continue sur R et qu’elle est de classe C 1 presque partout (si c1 , ..., cr sont les
′
singularités éventuelles de FX
alors celles de FY′ sont u (c1 ) , ..., u (cr ) ).
2ième cas : k est un nombre pair
Dans ce cas, la fonction u : x 7−→ xk est de classe C ∞ sur R, est à valeurs dans R+ , strictement décroissante sur
R− , strictement croissante sur R+ et sa restriction u1 à R+ est une bijection strictement croissante de R+ sur R+
√
de bijection réciproque la fonction v1 : x 7−→ k x, qui est, elle aussi, strictement croissante sur R+ . De plus, v1 est
continue sur R+ et est de classe C ∞ sur R∗+ .
Soit x ∈ R. On a : FY (x) = P (Y ≤ x) = P X k ≤ x .
D’où :
D’où



si x < 0, FY (x) = P (Ø) = 0


si x = 0, FY (0) = P X k ≤ 0 = P (X = 0) = 0 [car X est une v.a.r continue]


√

si x > 0 F (x) = P X k ≤ x = P X k ≤ x = P (− √
k
x ≤ X ≤ k x)
Y



F (x) = 0

 Y
; si x ≤ 0


√

F (x) = F ( √
k
x) − FX (− k x)
Y
X
; si x > 0
Comme FX est continue sur R et de classe C 1 presque partout, elle l’est en particulier dans R∗+ et dans R∗− . De
√
√
plus les fonction v1 : x 7−→ k x et −v1 : x 7−→ − k x sont de classe C ∞ sur R∗+ et à valeurs dans R∗+ et dans R∗−
√
√
respectivement et sont strictement monotones les fonctions x 7−→ FX ( k x) et x 7−→ FX (− k x) sont continues sur
R∗+ et de classe C 1 presque partout. Alors, par différence, la fonction FY est continue sur R∗+ et de classe C 1 presque
partout dans R∗+ . Comme FY est nulle sur R− , FY est continue sur R (le cas singulier 0 se traite aisément par limites
à droite et à gauche) et est de classe C 1 presque partout.
En conclusion, et dans les deux cas, FY est continue sur R et est de classe C 1 presque partout. Donc la v.a.r Y = X k
est continue à densité.
c) Somme de deux v.a.r à densité
On a noté ci-dessus qu’en général la somme de deux v.a.r.c peut ne pas être continue. Ici, on se crée des conditions
pour que la somme de deux v.a.r continues à densité soit aussi continue à densité.
103
Vocabulaire et notation
Pour f, g : R −→ R continues presque partout, on note f ∗ g la fonction en tout réel x par :
f ∗ g (x) =
Z +∞
−∞
f (t) g (x − t) dt
sous réserve d’existence dans R (c’est à dire de convergence de l’intégrale). Cette fonction f ∗ g est appelée le produit
de convolution (ou la convoluée) de f et g. Son ensemble de définition est l’ensemble des réels x pour lesquels
Z +∞
f (t) g (x − t) dt est convergente.
l’intégrale
−∞
Remarque 11.9
• On vérifie moyennant le changement de variables u = x − t que pour tout réel x, f ∗ g (x) existe si et seulement si
g ∗ f (x) existe et que, dans ce cas, on a f ∗ g (x) = g ∗ f (x)
• Si f1 [resp. g1 ] est une fonction égale à f [resp. g] presque partout dans R alors les fonctions f1 ∗ g1 et f ∗ g sont
le même ensemble de définition D et sont égales sur D.
Théorème 11.3
Soit X et Y deux v.a.r sur (Ω, A, P ) absolument continues de densités respectives fX et fY telles que :
(i)
X et Y sont indépendantes
(ii)
la convoluée fX ∗ fY est définie sur R et est continue presque partout
et
Alors la v.a.r X + Y est absolument continue et la fonction fX ∗ fY en est une densité
Preuve
Elle est admise.
N.B
Dans ce théorème 11.3, et en vertu du deuxième point de la remarque 11.9 précédente, la loi de X + Y définie pa la
densité fX ∗ fY est bien définie car indépendante du choix des densité fX et fY des v.a.r X et Y respectivement.
Exercice 11.2
Soit X et Y deux v.a.r à densité et indépendantes sur (Ω, A, P ).
Montrer que X + Y est à densité et en préciser une densité dans les cas suivants :
(i)
(ii)
fX = fY : t 7−→ e−t .φ[0,+∞[ (t)
fX = fY : t 7−→ φ[0,1] (t)
;
où φ[0,+∞[ est la fonction caractéristique de [0, +∞[
;
où φ[0,1] est la fonction caractéristique de [0, 1]
104
11.2
Espérance, moments et variance
11.2.1
Espérance d’une v.a.r continue à densité
Définition 11.5
Soit X une v.a.r continue à densité sur l’espace probabilisé (Ω, A, P ). On dit que X admet une espérance si et
seulement si la fonction t 7−→ tfX (t) est intégrable sur R ; où fX est une densité de probabilité de f .
Z +∞
tfX (t) dt est appelé l’espérance de X ; il est noté E (X) .
Dans ce le nombre réel égal à
−∞
Ainsi, en cas d’intégrabilité :
E (X) =
Z +∞
tfX (t) dt
−∞
Remarque 11.10
• Cette définition ne dépend pas de la densité fX de X choisie car pour toute autre densité gX de X les fonctions
t 7−→ tfX (t) et t 7−→ tgX (t) sont égales presque partout dans R, donc ont la même nature d’intégrabilité et la même
intégrale.
• Vu que la fonction t 7−→ tfX (t) est de signe constant sur chacun des intervalles ]−∞, 0] et [0, +∞[, on peut dire
Z 0
Z +∞
que X admet une espérance si et seulement si les intégrales
tfX (t) dt et
tfX (t) dt convergent, c’est à dire
−∞
0
Z +∞
tfX (t) dt converge (ce qui est moins contraignant que l’intégrabilité de la fonction t 7−→ tfX (t)
que l’intégrale
−∞
sur R).
• La fonction t 7−→ t est bornée sur tout intervalle borné I de R, donc la fonction t 7−→ tfX (t) est dominée par la
densité fX sur tout tel intervalle. Il ressort de cela que pour que la v.a.r à densité X admette une espérance il faut
et il suffit que la fonction t 7−→ tfX (t) soit intégrable sur un intervalle de la forme ]−∞, a] et sur un intervalle de la
forme [b, +∞[ ; a et b étant arbitrairement choisis.
Exemple 11.5
La v.a.r X de densité la fonction
f : t 7−→

2
−te− t2
0
(voir l’exemple 11.2) admet une espérance car les intégrales
Z +∞
Z +∞
0.dt convergent. De plus, on a
tf (t) dt = 0 et :
0
; si t ≤ 0
; si t > 0
Z 0
−∞
tf (t) dt = −
Z 0
t2
t2 e− 2 dt et
−∞
Z +∞
tf (t) dt =
0
0
Z 0
−∞
tf (t) dt = −
Z 0
t2
2 −2
t e
dt =
−∞
Z 0
−∞
t −te
dt =
t2
−2
)
t2
−2
Z 0
t e
−∞
t2
−2
′
′
Z 0 t2
−2
dt = lim
t e
dt
x→−∞
x
D’où par intégration par parties :
Z 0
−∞
tf (t) dt = lim
x→−∞
(
te
t2
−2
0
x
−
Z 0
e
x
dt
= lim
x→−∞
−xe
x2
− 2
−
Z 0
√
D’autre part, avec le changement de variable t = −u 2, on a :
Z 0
x
e
t2
−2
√
√ Z 0
√ Z −x/ 2 −u2
−u2
dt = − 2
e
(du) = 2
e
du
√
−x/
0
2
105
x
e
t2
−2
dt
=
D’où :
Z 0
tf (t) dt = lim
x→−∞
−∞
Donc E (X) =
Z 0
tf (t) dt +
−∞
Z +∞
0
−xe
x2
− 2
−
Z 0
e
t2
−2
x
dt
√
√ Z +∞ −u2
2π
=− 2
e
du = −
2
0
√
2π
(on rappelle la valeur
tf (t) dt = −
2
Z +∞
e
−u2
du =
0
√
π
)
2
Exemple 11.6
Soit X la v.a.r à densité la fonction
f : t 7−→


0
1

 √
2 t
; si t ≤ 0 ou t > 1
; si 0 < t ≤ 1
(voir l’exemple 11.3). La fonction t 7−→ tf (t) est nulle sur ]−∞, 0] et ]1, +∞[, les intégrales
Z +∞
tf (t) dt convergent et valent 0. D’après la remarque 11.9, X admet une espérance et on a :
Z 0
tf (t) dt et
−∞
0
E (X) =
Z +∞
tf (t) dt =
−∞
Z 0
tf (t) dt +
−∞
Z 1
tf (t) dt +
0
Z +∞
tf (t) dt =
0
Z 1
0
1
t
√ dt =
2
2 t
Z 1√
tdt
0
1
2 √
2
t t = .
3
3
0
0
1
Donc : E (X) = .
3
Or
Z 1
√
tdt =
Exemple 11.7
Soit X la v.a.r de densité la fonction f : t 7−→
1
1
(voir l’exemple 11.4). On a : tf (t) ∼
t→±∞ πt
π (1 + t2 )
Cela montre que la fonction t 7−→ tf (t) n’est pas intégrable sur R, donc X n’admet pas une espérance.
Proposition 11.6
Soit X une v.a.r à densité sur (Ω, A, P ) telle que X est bornée presque sûrement sur Ω.
Alors X admet une espérance.
Preuve
Soit f une densité de X. Supposons donné (a, b) ∈ R2 telle que P (a ≤ X ≤ b) = 1.
On a a ≤ X ≤ b = X < a ∪ X > b . On en déduit que :
Donc
Z a
−∞
f (t) dt = P (X < a) = 0 et
Z +∞

0 ≤ P (X < a) ≤ P a ≤ X ≤ b = 0
0 ≤ P (X > b) ≤ P a ≤ X ≤ b = 0
f (t) dt = P (X > b) = 0, ce qui montre que f est nulle presque partout dans chacun des
b
intervalles ]−∞, a] et [b, +∞[, de même que la fonction t 7−→ tf (t). Cette dernière est donc intégrable sur ces deux intervalle donc sur
R. La v.a.r X admet donc une espérance (voir la remarque 11.10).
106
Théorème 11.4 (positivité de l’espérance)
Soit X une v.a.r à densité sur (Ω, A, P ) telle que :
(i)
X admet une espérance
(ii)
X est positive presque sûrement sur Ω
et
Alors E (X) > 0.
Preuve
Notons f une densité de X.
Avec l’hypothèse (ii), on a P (X < 0) = 0. D’où
Z 0
f (t) dt = 0.
−∞
Alors, comme f est intégrable et positive, on a f est nulle presque partout dans ]−∞, 0[. On en déduit que l’application t 7−→ tf (t) est
nulle presque partout dans ]−∞, 0[et donc, pour l’espérance de X :
Z 0
Z +∞
Z +∞
Z +∞
tf (t) dt =
tf (t) dt +
tf (t) dt =
tf (t) dt
E (X) =
−∞
−∞
0
0
Alors E (X) ≥ 0 comme intégrale d’une fonction positive.
Montrons que l’inégalité est stricte. Pour cela, raisonnons par l’absurde et supposons que E (X) = 0. On a selon le calcul précédent :
Z +∞
tf (t) dt = 0
0
Comme la fonction t 7−→ tf (t) est continue presque partout et positive, elle est nulle presque partout dans [0, +∞[. Cela montre que f
Z +∞
f (t) dt = 1
l’est sur ]0, +∞[. Et, sachant que l’est déjà dans ]−∞, 0[, on a : f est presque partout nulle dans R. Cela est absurde car
−∞
Donc E (X) > 0.
Théorème 11.5
Soit X une v.a.r à densité sur (Ω, A, P ) admettant une espérance.
Alors pour (a, b) ∈ R2 , la v.a.r aX + b admet également une espérance et on a E (aX + b) = aE (X) + b
Preuve
Notons fX une densité de X. Soit (a, b) ∈ R2 . Posons Y = aX + b
Écartons le cas trivial a = 0, où Y = b est une v.a.r.d sûre.
Supposons dans la suite que a ̸= 0. D’après le théorème 11.2, la Y est à densité sur (Ω, A, P ) et une densité de Y est la fonction fY
définie sur R par :
1
x−b
fX
∀ x ∈ R, fY (x) =
|a|
a
Montrons que Y admet une espérance et que E (Y ) = aE (X) + b
Z +∞
Pour cela, et d’après la remarque 11.10, il suffit de montrer que l’intégrale
Z +∞
−∞
Soit (x, y) ∈ R2 tel que x < y.
On a :
Z y
x
tfY (t) dt = a
tfY (t) dt =
Z +∞
Z y
x
−∞
−∞
tfX (t) dt + b
t
fX
|a|
107
tfY (t) dt converge et que
t−b
a
dt
D’où en effectuant le changement de variables affine u =
Z y
tfY (t) dt
Z y−b
a au + b f (u) (adu)
X
x−b
|a|
a
=
x
=
Ainsi quand x tend vers −∞ et y tend vers +∞,
t−b
:
a
a2
|a|
Z y
Z y−b
Z y−b
a uf (u) du + ab
a f (u) du
X
X
x−b
|a| x − b
a
a
tfY (t) dt tend vers la limite réelle L donnée par :
x

Z +∞
Z +∞


L
=
a
uf
(u)
du
+
b
fX (u) du

X


−∞
−∞


Z −∞
Z −∞




L = −a
ufX (u) du − b
fX (u) du
+∞
; si a > 0
; si a < 0
+∞
Dans les deux cas L = aE (X) + b. CQFD
Théorème 11.6
Soit X et Y deux v.a.r à densité sur (Ω, A, P ) admettant une espérance telles que X + Y est discrète ou à densité.
Alors X + Y admet une espérance et on a E (X + Y ) = E (X) + E (Y )
Preuve
Elle est admise.
Remarque 11.11
Le théorème 11.6 et le théorème 11.5, combinés, prouvent que si X et Y sont deux v.a.r à densité sur (Ω, A, P )
admettant une espérance alors pour tout (λ, µ) ∈ R2 , la v.a.r λX + µY admet une espérance dès qu’elle est discrète
ou à densité et on a : E (λX + µY ) = λE (X) + µE (Y ).
On admet que cette formule s’étend au cas général de deux v.a.r X et Y discrète ou à densité. On parlera encore
de linéarité de l’espérance tout en sachant que ce n’est qu’un abus de langage car l’ensemble des v.a.r discrètes ou
continues à densité n’est pas un R-ev.
Corollaire 11.1 (croissance de l’espérance)
Soit X et Y sont deux v.a.r à densité sur (Ω, A, P ) admettant une espérance telles que X ≤ Y presque sûrement
et la v.a.r Y − X est discrète ou à densité.
Alors E (X) ≤ E (Y ).
Preuve
Par hypothèse, on a P (X ≤ Y ) = 1, c’est à dire P (Y − X ≥ 0) = 1. Cela veut dire que la v.a.r Y − X est positive presque sûrement.
Mais d’après les deux théorèmes précédents, Y −X admet une espérance et E (Y − X) = E (Y )−E (X). D’où par positivité de l’espérance
d’une v.a.r discrète ou à densité, E (Y ) − E (X) ≥ 0, soit : E (X) ≤ E (Y ).
On a la généralisation suivante de ce corollaire :
108
Proposition 11.7
Soit X et Y deux v.a.r discrètes ou à densité sur (Ω, A, P ) admettant une espérance telle que X ≤ Y presque
sûrement.
Alors E (X) ≤ E (Y )
Preuve
Elle est admise.
N.B
La généralisation ne concerne pas uniquement la nature des v.a.r X et Y (discrètes ou à densité) mais par rapport
à la nature de la v.a.r Y − X ; en effet, dans la proposition 11.7, il n’est spécifié si Y − X est discrète ou à densité
ou autre.
Théorème 11.7
Soit n ∈ N∗ et X1 , ..., Xn n v.a.r discrètes ou à densité sur (Ω, A, P ) telles que

(i)
(ii)
q
y
Pour tout k ∈ 1, n , Xk admet une espérance
la famille (X1 , ..., Xn ) est mutuellement indépendante
Alors la v.a.r produit X1 ...Xn admet une espérance et on a : E (X1 ...Xn ) = E (X1 ) ...E (Xn )
Preuve
Elle est admise.
N.B
Ce résultat a été démontré dans le cas de v.a.r.d quand n = 2. On peut étendre la démonstration au cas de n v.a.r.d
en raisonnant par récurrence. Le lecteur est invité à le faire en exercice.
11.2.2
Théorème de transfert à une variable continue à densité
Théorème 11.8 (de transfert)
Soit X une v.a.r à densité sur (Ω, A, P ) et f une densité de X. Soit I un intervalle de R tel que X (Ω) ⊂ I
et φ : I −→ R une fonction continue presque partout dans I telle que la v.a.r φ (X) est discrète ou continue à
densité. Alors


(i) φ (X) admet une espérance si et seulement si la fonction t 7−→ φ (t) f (t) est intégrable sur R
Z

φ (t) f (t) dt
(ii) Si φ (X) admet une espérance alors E (φ (X)) =
I
Preuve
Elle est admise.
109
Remarque 11.12
Comme le théorème de transfert à une v.a.r discrète, le théorème de transfert à une v.a.r à densité permet de calculer
l’espérance d’une fonction d’une v.a.r à densité X en utilisant seulement la loi de X.
Remarque 11.13
Une fonction d’une v.a.r à densité n’est pas forcément à densité ; elle peut même être non continue. En effet, soit
1
X une v.a.r absolument continue dont une densité est la fonction f : x 7−→ φ[0,4] (x) (vérifier que f est bien une
4
densité)
On constate que :
P (X ∈ [0, 1]) =
Z
f (t) dt =
[0,4]
1
4
Z 4
dt = 1
0
Ce dont on peut déduire que X prend ses valeurs dans [0, 4] presque sûrement.
Soit φ : [0, 4] −→ R la fonction partie entière. Elle est continue presque partout dans [0, 4] car elle n’est discontinue
qu’en 1, 2,3 et 4. On constate que la v.a.r φ (X), bien définie presque sûrement, est discrète finie puisqu’elle ne prend
que les valeurs 0, 1, 2, 3 et 4. Cette v.a.r n’est donc pas continue, et encore moins à densité. Le lecteur est invité à
calculer son espérance, d’abord en déterminant et utilisant sa loi discrète, puis, en guise de vérification, en utilisant
le théorème 11.8 précédent.
Exercice 11.3
Démontrer le théorème de transfert à une variable à densité dans le cas particulier où la fonction φ est de classe C 1
et φ′ strictement positive.
11.2.3
Moments d’ordres supérieurs d’une v.a.r à densité
Définition 11.6
Soit X une v.a.r à densité sur (Ω, A, P ) et fX une densité de X. Soit r ∈ N∗ .
On dit que X admet un moment d’ordre r si et seulement si la fonction t −→ tr fX (t) est intégrable sur R. Dans
Z +∞
tr fX (t) dt est appelé le moment d’ordre r de X ; il est noté µr (X).
ce cas, le nombre réel
−∞
Ainsi, sous réserve d’intégrabilité, µr (X) =
Z +∞
tr fX (t) dt
−∞
N.B
La définition est cohérente car aussi bien l’existence du moment d’ordre r que sa valeur µr (X) est indépendante du
choix de la densité fX se X.
Remarque 11.14
• Soit X une v.a.r à densité sur (Ω, A, P ) et r ∈ N∗ . D’après le théorème de transfert à une v.a.r à densité, X admet
un moment d’ordre r si et seulement si X r admet une espérance ; de plus, dans ce cas : µr (X) = E (X r )
En particulier pour r = 1, X admet un moment d’ordre 1 si et seulement si X admet une espérance ; et dans ce cas,
on a : µ1 (X) = E (X)
• Soit X une v.a.r à densité sur (Ω, A, P ) et fX une densité de X. Soit r ∈ N∗ . Comme dans la remarque 11.10,
la fonction t 7−→ tr fX (t) garde un signe constant dans chacun des intervalles ]−∞, 0] et [0, +∞[ et, de ce fait, on
110
se ramène à ce que son intégrabilité est équivalente à la convergence de l’intégrale
Z +∞
tr fX (t) dt. De plus, cette
−∞
fonction étant dominée par la densité fX sur tout intervalle borné (car la fonction polynôme t 7−→ tr est bornée sur
tout tel intervalle) ; donc, l’existence du moment d’ordre r pour X se trouve équivalente à seulement la convergence
Z +∞
Z a
tr fX (t) dt et
tr fX (t) dt, où (a, b) est un couple de réels arbitraire.
de deux intégrales
−∞
b
• Soit X une v.a.r à densité sur (Ω, A, P ) et fX une densité de X. Pour tout entier naturel non nul et pair r, la
fonction t 7−→ tr fX (t) est positive sur R tout entier. Donc les moments d’ordre pairs, s’ils existent, sont tous positifs.
Exercice 11.4
Soit X une v.a.r à densté sur (Ω, A, P ) admettant un moment d’ordre un entier r pair.
Montrer que µr (X) > 0.
Proposition 11.8
Soit X une v.a.r à densité sur (Ω, A, P ) telle que X est bornée presque sûrement sur Ω.
Alors X admet un moment à tout ordre.
Preuve
Soit f une densité de X. Supposons donné (a, b) ∈ R2 telle que P (a ≤ X ≤ b) = 1. Soit r ∈ N∗ .
On a [a ≤ X ≤ b] = [X < a] ∪ [X > b]. On en déduit que :

0 ≤ P (X < a) ≤ P [a ≤ X ≤ b] = 0
0 ≤ P (X > b) ≤ P [a ≤ X ≤ b] = 0
Donc
Z a
f (t) dt = P (X < a) = 0 et
−∞
Z +∞
f (t) dt = P (X > b) = 0, ce qui montre que f est nulle presque partout dans chacun des
b
intervalles ]−∞, a] et [b, +∞[, de même que la fonction t 7−→ tr f (t). Cette dernière est donc intégrable sur ces deux intervalle donc sur
R. La v.a.r X admet donc un moment d’ordre r (voir la remarque 11.14).
Proposition 11.9
Soit X une v.a.r à densité sur (Ω, A, P ) et r ∈ N∗ tels X admet un moment d’ordre r.
Alors X admet un moment à tout ordre k ∈ J1, rK.
Preuve
Soit f une densité de X et soit k ∈ J1, rK.
On a, en utilisant que les valeurs de la densité f sont positives :

|t| ≤ 1 =⇒ |t|k f (t) ≤ f (t)
∀ t ∈ R,
|t| > 1 =⇒ |t|k f (t) ≤ |t|r f (t)
D’où, en conséquence :
∀ t ∈ R, tk f (t) ≤ f (t) + |tr f (t)|
Comme les fonctions f : t 7−→ f (t) et t 7−→ tr f (t) sont intégrables sur R, le critère de domination s’applique et montre que t 7−→ tk f (t)
est intégrable sur R également. Ce qui achève de montrer que X admet un moment d’ordre k.
Proposition 11.10
Soit X une v.a.r à densité sur (Ω, A, P ) et r ∈ N∗ tels X admet un moment d’ordre r.
Alors pour tout réel c, la v.a.r X + c admet un moment à tout ordre r.
111
Preuve
Soit c ∈ R. La v.a.r X + c est à densité selon le théorème 11.2. Il s’agit, pour le reste, de montrer que (X + c)r admet une espérance.
Par la formule du binôme de Newton, on a :
(X + c)r =
r X
r
k
k=0
cr−k X k = cr +
r X
r
k=1
k
cr−k X k
(∗)
D’après la proposition 11.6, chacune des v.a.r X k (1 ≤ k ≤ r) est à densité et, selon la proposition 11.8, admet une espérance. Donc, par
r
r
P
P
r r−k k
r r−k k
C.L, la v.a.r
X admet une espérance, étant donné qu’elle est à densité en vertu de la relation
X = (X + c)r −cr ,
c
c
k
k
k=1
k=1
du théorème 11.2 et de la proposition 11.6. Finalement, d’après le théorème 11.2, la relation (∗) montre que la v.a.r (X + c)r admet une
espérance. CQFD
11.2.4
Moments d’ordre 2 et variance
Définition 11.8
Soit X une v.a.r à densité sur (Ω, A, P ) .
2
On dit que X admet une variance
si et seulement
si X admet une espérance et (X − E (X)) admet une espérance.
Dans ce cas le nombre réel E (X − E (X))
2
est appelé la variance de X ; on le note V (X).
2
Ainsi, et sous réserve d’existence : V (X) = E (X − E (X))
Remarque 11.15
Soit X une v.a.r à densité sur (Ω, A, P ) et fX une densité de X.
Supposons que X admet une variance. Alors, selon le théorème de transfert à une v.a.r à densité, on a :
V (X) =
Z +∞
−∞
2
(t − E (X)) fX (t) dt
Théorème 11.9 (formule de König-Huygens)
Soit X une v.a.r à densité sur (Ω, A, P ).
Alors la v.a.r X admet une variance si et seulement si elle admet un moment d’ordre 2.
De plus, dans ce cas, on a :
2
V (X) = E X 2 − E (X)
(11.3)
La relation (11.3) est connue sous le nom de formule de König-Huygens. Nous l’avons déjà démontrée dans le cadre
des v.a.r discrète ; ici, il s’agit de l’étendre aux v.a.r à densité. Elle s’écrit explicitement :
V (X) =
Z +∞
−∞
t2 fX (t) dt −
Z +∞
−∞
tfX (t) dt
2
Preuve
• Supposons que X admet une variance. Pa définition, elle admet une espérance et X − E (X) admet un moment d’ordre 2. Il vient en
appliquant la proposition 11.9 à la constante c = E (X) et à la v.a.r à densité X = E (X), on affirme que X = (X − E (X)) + E (X)
admet un moment d’ordre 2.
Réciproquement, supposons que la v.a.r X admet un moment d’ordre 2. D’après la proposition 11.8, X admet en conséquence un moment
d’ordre 1, c’est à dire une espérance. Ensuite, en appliquant la proposition 11.10 à la constante c = −E (X) et à la v.a.r à densité X, on
obtient que X − E (X) admet un moment d’ordre 2. Ainsi :

X admet une espérance
(X − E (X))2 admet une espérance
112
Ce qui veut dire que X admet une variance.
Cela achève de montrer l’équivalence du fait que X admet une variance et le fait qu’elle admet un moment d’ordre 2
• Supposons que X admet une variance et montrons la relation de König-Huygens. Pour cela, développons :
V (X) = E (X − E (X))2 = E X 2 − 2E (X) .X + (E (X))2
D’où par C.L (s’assurer des conditions) :
V (X) = E X 2 − 2E (X) .E (X) + (E (X))2 = E X 2 − (E (X))2
CQFD
Théorème 11.10
Soit X une v.a.r à densité sur (Ω, A, P ) admettant une variance . Alors :
1. V(X) > 0.
2. Pour tout (a, b) ∈ R2 tel que a ̸= 0, la v.a.r aX + b admet également une variance et on a :
V (aX + b) = a2 V (X)
Preuve
La v.a.r (X − E (X))2 est à densité en vertu du théorème 11.2 et de la proposition 11.6. De plus elle est positive sur Ω et admet une
espérance. Par positivité de l’espérance, on a V (X) > 0. d’où 1.
D’autre part, pour (a, b) ∈ R2 tel que a ̸= 0, la v.a.r Y = aX + b admet une espérance avec E (Y ) = aE (X) + b et on a :
(Y − E (Y ))2 = ((aX + b) − (aE (X)) + b)2 = a2 (X − E (X))2
donc (Y − E (Y ))2 admet une espérance avec E (Y − E (Y ))2 = a2 E (X − E (X))2 .
En conclusion Y admet une variance et on a : V (Y ) = a2 V (X)
D’où 2.
Vocabulaire et notation
Pour une v.a.r X à densité sur (Ω, A, P ) admettant une variance, on a :
p
• V (X) est un réel strictement positif bien défini car V (X) > 0 ; ce réel est appelé l’écart-type de X ; il est noté
σ (X).
• En posant m = E (X) et σ = σ (X), la v.a.r
X∗ =
X −m
σ
admet une variance et vérifie E (X ∗ ) = 0 et σ (X ∗ ) = 1
X ∗ est appelée la v.a.r centrée réduite associée à X.
Théorème 11.11
Soit n ∈ N∗ et X1 , ..., Xn n v.a.r discrète ou à densité sur (Ω, A, P ) telles que

(i)
(ii)
r
z
Pour tout k ∈ 1, n , Xk admet une variance
la famille (X1 , ..., Xn ) est deux à deux indépendante
Alors la v.a.r somme X1 + ... + Xn admet une variance et on a : V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn )
Preuve
Elle est admise.
113
N.B
Si les n v.a.r Xk sont toutes discrètes, le résultat est déjà démontré grâce à la notion de covariance d’un couple
aléatoire discret.
11.3
Lois continues à densité usuelles
11.3.1
Loi uniforme sur un segment.
Densité
Soit (a, b) ∈ R2 tel que a < b.
On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi uniforme sur le segment [a, b] si elle est absolument continue et que
1
φ[a,b] (x) en est une densité ; où φ[a,b] est la fonction caractéristique du segment [a, b].
la fonction f : x 7−→
b−a
On écrit X ,→ U[a,b] .
Explicitement f est la fonction :
f:
R
−→
x
7−→
Le lecteur vérifiera que f est bien une densité.
R
 1

b−a

0
; si x ∈ [a, b]
; sinon
Remarque 11.16
Si X ,→ U[a,b] alors X prend ses valeurs dans [a, b] presque sûrement ; en effet :
P
X < a ∪ X > b = P (X < a) + P (X > b) =
Donc P (a ≤ X ≤ b) = 1 − P
Fonction de répartition
Z a
X<a ∪ X>b =1
f (t)dt +
−∞ |{z}
=0
Z +∞
b
f (t)dt = 0
|{z}
=0
Supposons donnée une v.a.r X sur (Ω, A, P ) telle que X ,→ U[a,b] . Pour tout réel x, on a : FX (x) =
Alors, par définition de f , on distingue les cas suivants :
Si x < a,
FX (x) =
Z x
Z x
f (t) dt
−∞
0.dt = 0
−∞
Si a ≤ x ≤ b,
Si b < x,
FX (x) =
Z x
−∞
FX (x) =
Z x
−∞
En résumé :
f (t) dt =
f (t) dt =
Z a
Z x
1
f (t) dt +
f (t) dt =
b
−
a
−∞
a
Z x
Z a
Z b
1
f (t) dt =
b−a
f (t) dt +
−∞
f (t) dt +
a


FX (x) = 0



x−a
FX (x) =

b−a


F (x) = 1
X
114
; si x < a
; si a ≤ x ≤ b
; si b < x
Z +∞
b
a
dt =
x−a
b−a
Z b
a
dt = 1
Espérance et variance
Proposition 11.11
Soit X une v.a.r sur (Ω, A, P ) telle X ,→ U[a,b] ; où (a, b) ∈ R2 tel que a < b.
2
a+b
(b − a)
et V (X) =
Alors X admet des moments à tout ordre et particulier : E (X) =
2
12
Preuve
D’après la remarque 11.16, X prend ses valeurs dans le segment [a, b] presque sûrement ; Elle donc bornée presque sûrement sur Ω.
D’après la proposition 11.7, X admet des moments à tout ordre. En particulier, elle a une espérance et une variance.
On a d’abord :
E (X) =
Z +∞
tf (t) dt =
−∞
Z +∞
−∞
t
b−a
Z +∞
−∞
t
φ[a,b] (t) dt =
b−a
Z b
a
t
dt =
b−a
t2
2 (b − a)
b
a
=
a+b
b2 − a 2
=
2 (b − a)
2
Ensuite, par le théorème de transfert :
E X2 =
Z +∞
t2 f (t) dt =
−∞
Z +∞
−∞
t2
dt =
b−a
Z +∞
−∞
t2
φ[a,b] (t) dt =
b−a
Z b
a
t2
dt =
b−a
t3
3 (b − a)
b
a
=
b3 − a 3
3 (b − a)
a2 + ab + b2
D’où en utilisant la relation b3 − a3 = (b − a) a2 + ab + b2 : E X 2 =
3
Il vient, d’après la formule de König-Huygens :
a2 + ab + b2
a2 + ab + b2
a2 + 2ab + b2
a2 − 2ab + b2
(a − b)2
a+b 2
V (X) =
=
−
−
=
=
3
2
3
4
12
12
11.3.2
Loi exponentielle
Densité
Soit λ > 0. On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi exponentielle de paramètre λ si X est absolument continue
de densité la fonction f : x 7−→ λe−λx φ[0,+∞[ (x), où φ[0,+∞[ est la fonction caractéristique de l’intervalle [0, +∞[.
On écrit X ,→ E (λ).
Explicitement f est donnée par :
f:
R
−→
x
7−→
R

λe−λx ; si x ≥ 0
0
; si x < 0
Le lecteur vérifiera que f est bien une densité et que si X ,→ E (λ) alors X prend ses valeurs dans [0, +∞[ presque
sûrement.
115
Fonction de répartition
Supposons que la v.a.r suit la loi E (λ). Soit x ∈ R ; on a :
FX (x) = P (X ≤ x) =
Z x
f (t) dt
−∞
D’où, tenant compte de la définition de f :
Si x < 0,
FX (x) =
Si 0 ≤ x,
FX (x) =
Z x
f (t)dt = 0
−∞ |{z}
Z x =0
f (t) dt =
−∞
Z 0
En résumé :
FX (x) = 1 − e
f (t)dt +
−∞ |{z}
−λx
=0
Z x
f (t) dt =
0
.φ[0,+∞[ (x) =
Représentation graphique
Z x
0

0
x
λe−λt dt = −e−λt 0 = 1 − e−λx
; si x < 0
1 − e−λx
; si 0 ≤ x
Étant donné que f = fX et FX sont nulles sur ]−∞, 0[, on se contente de la représentation graphique sur [0, +∞[
Espérance et variance
Proposition 11.12
Soit X une v.a.r sur (Ω, A, P ) telle que X ,→ P (λ) ; où λ ∈ R et λ > 0.
1
Alors X admet des moments à tout ordre et en particulier : E (X) =
λ
et V (X) =
Preuve
Une densité de X est la fonction f définie sur R par :
f (x) = λe−λx φ[0,+∞[ (x) =

f (x) = 0
f (x) = λe−λx
116
; si x < 0
; si x ≥ 0
1
λ2
Soit r ∈ N∗ . La fonction g : t 7−→ tr f (t) est intégrable sur ]−∞, 0] car elle y est presque partout nulle (nulle sauf en 0).
De plus pour tout t≥ 1, t2 g (t) = λtr+2 e−λt . Et on a tr+2 e−λt −→ 0.
t→+∞
1
1
. Cela montre, sachant que t 7−→ 2 est intégrable sur [1, +∞[, que g est intégrable sur [1, +∞[ .
D’où g (t) = oV(+∞)
t2
t
Ainsi pour tout r ∈ N∗ , la fonction g : t 7−→ tr f (t) est intégrable sur R (voir la remarque 11.14). Ceci montre que X admet des
Z +∞
tf (t) dt et
moments à tout ordre. Calculons l’espérance et la variance de X, pour cela, on commence par le calcul des intégrales
−∞
Z +∞
t2 f (t) dt.
−∞
On a pour k ∈ {1, 2} :
Z +∞
tk f (t) dt =
−∞
Z +∞
−∞
λtk e−λt φ[0,+∞[ (t) dt = λ
Z +∞
tk e−λt dt
0
Le changement de variables λt = s conduit sans trop de détails à ce que
Z +∞
Z +∞ Z +∞
1
Γ (k + 1)
k!
s k −s 1
ds = k+1
tk e−λt dt =
e
sk e−s ds =
= k+1
λ
λ
λ
λk+1
λ
0
0
0
Donc
Z +∞
−∞
tk f (t) dt =
k!
λk
On en déduit d’abord que E (X) =
Z +∞
te−λt dt =
0
V (X)
=
1
, puis en utilisant la formule de König-Huygens, que :
λ
Z +∞
−∞
=
2
−
λ2
=
1
λ2
t2 f (t) dt −
Z +∞
−∞
tf (t) dt
2
2
1
λ
CQFD.
11.3.3
Loi normale
Soit (m, σ) ∈ R × R∗+ . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi normale de paramètre m, σ 2 si elle est
2
1 x−m
1
− .
σ
. On écrit X ,→ N m, σ 2 .
absolument continue de densité la fonction f : x 7−→ √ e 2
σ 2π
√
Z +∞
π
2
de l’intégrale de Gauss
Il est laissé au lecteur de vérifier que f est bien une densité (utiliser la valeur
e−t dt)
2
0
117
Cas particulier : m = 0 et σ = 1
Dans ce cas, la loi normale N (0, 1) est dite aussi la loi normale (ou gaussienne) centrée réduite. Sa densité est notée
φ et sa fonction de répartition est notée Φ :
x2
1
φ : x 7−→ √ e− 2
2π
et
1
Φ : x 7−→ √
2π
Z x
t2
e 2 dt
−
−∞
Remarque 11.17
On ne peut exprimer Φ à l’aide des fonctions usuelles (ce fait est démontré par Liouville en 1840). Pour des calculs
numériques, on utilise la table de valeur de la loi normale centrée réduite fournie en fin de ce cours ainsi que la
proposition suivante :
Proposition 11.13
Pour tout réel x, on a Φ (−x) = 1 − Φ (x).
1
En particulier Φ (0) =
2
118
Preuve
2
t
1
Observons d’abord que la densité φ : t 7−→ √ e− 2 de X est une fonction paire.
2π
On a, pour x ∈ R :
Z −x
φ (t) dt
Φ (−x) =
−∞
=
=
=
=
lim
Z −x
lim
Z x
lim
Z −a
Z +∞
φ (s) ds
Z +∞
φ (s) ds −
a→−∞ a
a→−∞ −a
a→−∞ x
φ (t) dt
φ (−s) (−ds)
[et cela, en effectuant le changement de variables t = −s]
φ (s) ds
x
=
=
|
−∞
{z
=1
1 − Φ (x)
}
Z x
φ (s) ds
−∞
Finalement, en appliquant la relation démontrée à x = 0, on trouve : Φ (0) =
1
2
Proposition 11.14
Si X ,→ N m, σ 2 alors pour tout (a, b) ∈ R∗ × R, on a :
En particulier
2
aX + b ,→ N am + b, (|a| σ)
X −m
,→ N (0, 1)
X ,→ N m, σ 2 ⇐⇒
σ
Preuve
(i) Supposons que X est une v.a.r sur (Ω, A, P ) telle que X ,→ N m, σ 2 et soit (a, b) ∈ R2 tel que a ̸= 0.
On sait, d’après le théorème 11.2, que Y = aX + b est une v.a.r sur (Ω, A, P ) absolument continue et qu’une densité de Y est donnée
par :
1
x−b
fX
∀ x ∈ R, fY (x) =
|a|
a
119
D’où pour tout x ∈ R :
fY (x)
=

x−b
2 
 1  a − m 
1
√
exp 
 
− 2 

σ
|a| σ 2π
=
1
√
exp
|a| σ 2π
−
1
2
x − (am + b)
aσ
=
1
√
exp
|a| σ 2π
−
1
2
x − (am + b)
|a| σ
2 !
2 !
[car a2 = |a|2 ]
Donc Y = aX + b ,→ N m′ , σ ′2 ; où m′ = am + b et σ ′ = |a| σ.
X −m
et montrons que X ,→ N m, σ 2 ⇐⇒ Y ,→ N (0, 1)
(ii) Posons Y =
σ
−m
1
et b =
Supposons que X ,→ N m, σ 2 . On peut écrire Y = aX + b, avec a =
σ
σ
D’après (i), Y ,→ N m′ , σ ′2 , où m′ = am + b et σ ′ = |a| σ.
On constate que m′ = 0 et σ ′ = 1. D’où Y ,→ N (0, 1).
Réciproquement, supposons que Y ,→ N (0, 1). On a X = σY + m ; donc en appliquant (i), on a X ,→ N σ.0 + m; (|σ| .1)2 .
Soit : X ,→ N m, σ 2 . CQFD
Remarque 11.18
Ce résultat qu’on vient de démontrer est très précieux pour éviter des calculs très compliqués sur la loi normale
N (m, σ), car il permet de se ramener à la loi N (0, 1) où ces calculs s’avèrent moins compliqués.
La proposition suivante en une illustration
Espérance et variance
Proposition 11.15
Soit X une v.a.r sur (Ω, A, P ) telle que X ,→ N m, σ 2 ; où (m, σ) ∈ R2 et σ > 0.
Alors X admet des moments à tout ordre et en particulier : E (X) = m et V (X) = σ 2 .
Preuve
• La densité de X est f : t 7−→
1
√
exp
σ 2π
−
1
2
t−m
σ
2 !
. Pour r ∈ N∗ , la fonction g : t 7−→ tr f (t) est négligeable devant la fonction
1
t 7−→ 2 ; ce qui, moyennant la règle de Riemann, montrer que g est intégrable sur chacun des intervalles ]−∞, −1] et [1, +∞[ et cela
t
suffit pour qu’elle soit intégrable sur R. Donc X admet des moments à tout ordre.
• Montrons maintenant les résultats E (X) = m et V (X) = σ 2 . Pour cela, traitons d’abord le cas de la loi N (0, 1) ; où m = 0 et σ = 1.
t2
1
Dans ce cas, la densité de X est φ : t 7−→ √ e− 2 . Il s’agit de montrer que E (X) = 0 et V (X) = 1.
2π
La fonction g : t 7−→ tφ (t) étant intégrable sur R, on peut écrire :
Z +a
Z +∞
tφ (t) dt =
lim
tφ (t) dt
a→+∞ −a
−∞
Z +a
g (t) dt
=
lim
a→+∞ −a
Z a
[car g est impaire, donc pour tout a > 0,
g (t) dt = 0]
=
lim 0
a→+∞
=
−a
0
Donc E (X) = 0.
Pour calculer V (X), commençons par calculer le moment d’ordre 2,
Z +∞
−∞
120
t2 φ (t) dt, de X. Là aussi, et sachant que la fonction g : t 7−→
t2 φ (t) est intégrable sur R, écrivons :
Z +∞
t2 φ (t) dt
=
−∞
=
=
Soit a > 0. On a :
Z a
lim
Z +a
t2 φ (t) dt
lim
Z +a
g (t) dt
a→+∞ −a
a→+∞ −a
2. lim
g (t) dt
=
Z a
g (t) dt
[car g est paire]
0
On effectue le changement de variable t2 = 2s (c’est à dire t =
g (t) dt
g (t) dt
a→+∞ 0
0
Z a
Z +a
=
0
=
Z a
=
1
√
2π
√
√ √
2s = 2 s)
0
Z a
√
2
2se−s √ ds
2 s
Z a
se−s ds
1
√
2π
1
√
π
t2
t2 e− 2 dt
0
√
0
Z +∞
√ −s
3
1
2
2
1
t2 φ (t) dt = √
se ds = √ Γ
= √ Γ
= 1 (on rappelle que pour tout réel x > 0, Γ (x + 1) = xΓ (x)
π 0
π
2
π
2
−∞
√
1
= π ).
et que Γ
2
Z +∞
2
Z +∞
t2 φ (t) dt −
tφ (t) dt
= 1 − 02 = 1.
Maintenant, V (X) =
−∞
−∞
On bien montré que dans le cas où X ,→ N (0, 1), E (X) = 0 et V (X) = 1. Passons à présent au cas général où X ,→ N m, σ 2 .
Il vient :
Z +∞
On sait que la v.a.r X ∗ =
X −m
σ
suit la loi normale N (0, 1). Alors, d’après ce qui précède, E (X ∗ ) = 0 et V (X ∗ ) = 1. On en déduit :

E (X) = E (σX ∗ + m) = σE (X ∗ ) + m = m
V (X) = V (σX ∗ + m) = σ 2 V (X ∗ ) = σ 2
CQFD.
11.3.4
Loi gamma.
Soit ν ∈ R∗+ . On dit qu’une v.a.r X sur (Ω, A, P ) suit la loi gamma de paramètre ν si elle est absolument continue
xν−1 e−x
.φ]0,+∞[ (x) ; où φ]0,+∞[ est la fonction caractéristique de l’intervalle ouvert
de densité la fonction f : x 7−→
Γ (ν)
]0, +∞[. On écrit X ,→ γ (ν).
Plus explicitement f est donnée par :



f (x) = 0



; si x ≤ 0


xν−1 e−x


f (x) =
Γ (ν)
; si x > 0
Comme avant, on vérifie f est bien une densité et que si la v.a.r X suit la loi gamma alors elle prend ses valeurs
dans ]0, +∞[ presque sûrement.
Représentation graphique (uniquement sur ]0, +∞[ car sur ]−∞, 0] la densité est nulle)
121
Remarque 11.12
• pour 0 < ν < 1, la fonction f est continue presque partout mais pas continue par morceaux sur R.
• Dans le cas ν = 1, la densité f est celle de la loi E (1). En d’autre terme la loi γ (1) n’est rien d’autre que la loi
E (1).
Proposition 11.16
Soit X une v.a.r sur (Ω, A, P ) telle que X ,→ γ (ν) ; où ν > 0.
Alors X admet des moments à tout ordre et en particulier : E (X) = V (X) = ν
Preuve
• Une densité de X est la fonction


0
tν−1 e−t
φ]0,+∞[ (t) = tν−1 e−t
f : t 7−→

Γ (ν)

Γ (ν)
; si t ≤ 0
, si t > 0
Soit r ∈ N∗ . La fonction g : t 7−→ tr f (t) est intégrable sur ]−∞, 0] car elle y est nulle. D’autre part, pour tout t ≥ 1, t2 g (t) =
!
1
2
; ce qui montre que g est intégrable sur [1, +∞[, donc sur R tout entier.
D’où t g (t) −→ 0. Donc g (t) = oV(+∞)
t→+∞
t2
On conclut que X admet des moments à tout ordre.
• Calculons à présent E (X) et V (X).
On a :
Z +∞ ν−1 −t
Z +∞
Z +∞
t
1
Γ (ν + 1)
e
φ]0,+∞[ (t) dt =
=ν
tf (t) dt =
t
tν e−t dt =
E (X) =
Γ (ν)
Γ (ν) 0
Γ (ν)
−∞
−∞
Pour V (X), on commence par le moment d’ordre 2 :
Z +∞
Z +∞
Z +∞
1
Γ (ν + 2)
tν−1 e−t
t2 f (t) dt =
t2
tν+1 e−t dt =
φ]0,+∞[ (t) dt =
= ν (ν + 1)
Γ (ν)
Γ (ν) 0
Γ (ν)
−∞
−∞
D’où :
V (X) =
Z +∞
−∞
t2 f (t) dt −
Z +∞
tf (t) dt
−∞
CQFD.
122
2
= ν (ν + 1) − ν 2 = ν
tν+1 e−t
.
Γ (ν)
Exercice 11.5
Soit X et Y deux v.a.r indépendantes sur (Ω, A, P ) telles que X ,→ γ (ν1 ) et Y ,→ γ (ν2 ).
Montrer que X + Y ,→ γ (ν1 + ν2 ).
12
Introduction à la notion de convergence d’une suite de v.a.r
12.1
Inégalités de concentration
Dans ce sous paragraphe, (Ω, A, P ) est un espace probabilisé donné.
12.1.1
Inégalité de Markov
Théorème 12.1
Soit X une v.a.r discrète ou à densité sur (Ω, A, P ) telle que

X admet une espérance
Alors pour tout a > 0, on a :
X est positive presque sûrement dans Ω
P (X ≥ a) ≤
E (X)
(inégalité de M arkov)
a
Preuve
Soit a > 0.
i) U ne démonstration dans le Cas où X est discrète
Dans ce cas, on a : X ≥ a = {ω ∈ Ω / X (ω) ≥ a} = {ω ∈ Ω / ∃ x ∈ X (Ω) , x ≥ a et X (ω) = x}
Notons L = {x ∈ X (Ω) / x ≥ a}. On a donc
[
X≥a =
X=x
x∈L
Mais L est au plus dénombrable comme partie de X (Ω) ; d’où par σ- additivité de P :
X
P (X = x)
P (X ≥ a) =
x∈L
D’où
a.P (X ≥ a) =
Alors, sachant que pour tout x ∈ L, a ≤ x, on a :
a.P (X ≥ a) ≤
X
a.P (X = x)
X
x.P (X = x) ,
x∈L
(12.1)
x∈L
la somme du second membre étant celle de la famille (x.P (X = x))x∈L qui est sommable en tant que sous famille de la famille sommable
(x.P (X = x))x∈X(Ω) (la sommabilité de cette dernière traduit en effet que X admet une espérance). On observe que :
X
x∈L
x.P (X = x) ≤
X
x∈L∩R+
x.P (X = x) ≤
123
X
x∈X(Ω)∩R+
x.P (X = x)
(12.2)
D’autre part, P (X < 0) = 1 − P (X ≥ 0) = 0. D’où :
| {z }
=1
∀ x ∈ X (Ω) ∩ R∗− , 0 ≤ P (X = x) ≤ P (X < 0) = 0
donc : x ∈ X (Ω) ∩ R∗− , P (X = x) = 0.
Il s’ensuit que
X
X
x.P (X = x) =
x∈X(Ω)∩R+
X
x.P (X = x) +
x∈X(Ω)∩R∗
−
x∈X(Ω)∩R+
C’est à dire, en utilisant la sommation par paquets :
X
x.P (X = x) =
x∈X(Ω)∩R+
|
X
x.P (X = x)
| {z }
{z
=0
=0
}
x.P (X = x) = E (X)
x∈X(Ω)
Il vient en reprenant (12.1) et (12.2) :
a.P (X ≥ a) ≤ E (X)
D’où l’inégalité
P (X ≥ a) ≤
E (X)
a
ii) U ne démonstration dans le Cas où X est à densité
Dans ce cas, on note f une densité de X et on constate au départ que
Z 0
f (t) dt = P (X ≤ 0) = P (X < 0) = 0 [car P (X ≥ 0) = 1 par hypothèse]
−∞
Ce dont on déduit que f est nulle presque partout dans ]−∞, 0[ (car f est continue presque partout et positive).
Il vient
E (X) =
Z +∞
tf (t) dt =
−∞
car la fonction t 7−→ tf (t) est positive sur R+ .
Maintenant, on a :
Z 0
t.f (t).dt +
−∞ | {z }
=0
a.P (X ≥ a) = a.
Z +∞
tf (t) dt =
0
Z +∞
Z +∞
0
f (t) dt =
a
Z +∞
tf (t) dt ≥
Z +∞
tf (t) dt
a
a.f (t) dt
a
et on a par positivité de la densité f :
∀ t ∈ [a, +∞[ , a.f (t) ≤ t.f (t)
D’où par croissance de l’intégrale :
a.P (X ≥ a) ≤
Z +∞
tf (t) dt
a
Donc
a.P (X ≥ a) ≤ E (X)
donc
P (X ≥ a) ≤
E (X)
a
CQFD.
iii) U ne démonstration dans le cas général
On rappelle que pour une v.a de Bernoulli φA (fonction caractéristique d’un événement A qui indique le succès) l’espérance est égale à
la probabilité de A : E (φA ) = P (A)
On a donc P (X ≥ a) = E φ[X≥a] . Par linéarité de l’espérance d’une v.a.r.d, on en déduit que
a.P (X ≥ a) = a.E φ[X≥a] = E a.φ[X≥a]
Or, presque sûrement dans Ω, on a :
a.φ[X≥a] (ω) ≤ X (ω)
(12.3)
En effet cette majoration est vraie si X (ω) ≥ a, car dans ce cas a.φ[X≥a] (ω) = a. Et elle est encore vraie si X (ω) < a, car dans ce cas
la relation (12.3) s’écrit 0 ≤ X (ω) et cela est vrai presque sûrement par hypothèse.
Il vient maintenant par croissance de l’espérance (proposition 11.7, valable que X soit continue ou à densité) :
aP (X ≥ a) = E a.φ[X≥a] ≤ E (X)
124
D’où
E (X)
a
P (X ≥ a) ≤
Exemple 12.1
2
. On note X le nombre
3
de lancers nécessaires pour obtenir « pile » pour la première fois. On associe à cette expérience un espace probabilisé
On lance un nombre infini de fois une pièce de monnaie où la probabilité de « pile » est p =
(Ω, A, P ).
2
1
3
. Elle admet une espérance et E (X) = = .
3
p
2
On veut estimer la probabilité qu’il y ait besoin d’au moins 30 lancers pour voir apparaître le premier « pile ».
E (X)
1
Il s’agit de P (X ≥ 30). D’après l’inégalité de Markov, P (X ≥ 30) ≤
=
.
30
20
La probabilité demandée ne dépasse pas 0, 05.
On sait que X est une v.a.r.d sur (Ω, A, P )et que X ,→ G
En fait on peut trouver une meilleure estimation en utilisant le calcul direct :
P (X ≥ 30) =
+∞
X
P (X = n) =
n=30
n−1
+∞
X
2 1
n=30
3
3
2
=
3
30−1
1
3
1
1
1−
3
=
1
< 1, 4571.10−14
329
Exemple 12.2
Le taille moyenne d’une population est de 1m72. On admet que la taille X d’une personne choisie au hasard dans
cette population suit une loi exponentielle. On s’intéresse à la probabilité que la taille d’une personne soit au moins
égale à 2m.
Cette probabilité est P (X ≥ 200cm). Or par hypothèse, E (X) = 172cm. D’où d’après l’inégalité de Markov :
P (X ≥ 200cm) ≤
172
= 0, 86
200
Là encore on peut trouver une estimation bien meilleure en calculant directement. En effet, notons λ le paramètre
1
1
de la loi exponentielle de X. On a E (X) = = 172cm. On en déduit la valeur de λ : λ =
. Il vient :
λ
172
P (X ≥ 200) =
Z +∞
200
λe
−λt
φ[0,+∞[ (t) dt =
Z +∞
200
λe−λt dt = e−200λ = e− 172 < 0, 313
200
Remarque 12.1
On observe que dans les deux exemples précédents l’estimation donnée par l’inégalité de Markov est beaucoup
imprécise par rapport à la réalité. Cela ne discrédite pas, cependant, l’inégalité de Markov qui donne une estimation
d’une telle probabilité indépendamment de la loi. Et cela est très précieux dans les études théoriques.
N.B
En pratique, pour appliquer correctement l’inégalité de Markov, il faut d’abord :
1. s’assurer que la v.a X prend des valeurs positives (au moins presque sûrement).
2. chercher l’espérance de X (en général sous forme d’une valeur moyenne des valeurs de X).
3. appliquer l’inégalité.
Exercice 12.1
En 2015, le salaire brut mensuel moyen en France était de 2442€. On choisit une salarié et on note X son salaire.
Quelle est la probabilité que son salaire soit au moins 6048€ ?
125
Exercice 12.2
Aux Maldives, où la température n’a jamais en dessous de 0°c, la température moyenne est de 28,4°c.
Pour les besoins d’une enquête dans les archives, estimer la probabilité que la température d’un jour donné soit
inférieure à 20°c.
Exercice 12.3
Sur une autoroute du Maroc, la vitesse moyenne est de 12O km.h−1 . Un gendarme piste par sa caméra un automobiliste sur cette autoroute.
1. Estimer la probabilité que sa vitesse soit d’au moins 150 km.h−1 .
2. Estimer la probabilité que sa vitesse soit inférieure à 100 lm.h−1 .
Exercice 12.4
Montrer que la part d’une population recevant un salaire 10 fois le salaire moyen est au maximum 10%
Exercice 12.5
En utilisant la loi normale centrée réduite N (0, 1) et en s’aidant de l’inégalité de Markov, montrer que pour tout
réel x > 0, on a :
Z x
0
12.1.2
t2
e− 2 dt ≥
r
1
π
−
2
x
Inégalité de Bienaymé - Tchebychev
Théorème 12.2
Soit X une v.a.r discrète ou à densité sur (Ω, A, P ) admettant une variance.
Alors pour tout réel ε > 0, on a :
P
V (X)
X − E (X) ≥ ε ≤
(inégalité de Bienaymé − T chebychev)
ε2
Preuve
Soit ε > 0.
Il est clair que X − E (X) ≥ ε = (X − E (X))2 ≥ ε2 , si bien que : P
X − E (X) ≥ ε = P (X − E (X))2 ≥ ε2 .
Or la v.a.r (X − E (X))2 est discrète ou à densité selon X, est positive sur Ω et admet une espérance avec
E (X − E (X))2 = V (X)
L’inégalité de Markov s’applique et permet d’écrire :
P (X − E (X))2 ≥ ε2 ≤
Soit
P
CQFD.
E (X − E (X))2
ε2
V (X)
X − E (X) ≥ ε ≤
ε2
Remarque 12.2
À ε > 0 fixé, l’écartement des valeurs de X par rapport à la valeur moyenne d’une distance ε est de moins en moins
probable que la variance V (X) est de plus en plus petite. Ce qui confirme la vocation de la variance V (X) à mesurer
126
la dispersion des valeurs de X par rapport à E (X).
Exemple 12.3
2
Reprenons l’exemple 12.1 ci-dessus, où la v.a.r X suit la loi géométrique G
3
3
En utilisant le simple fait que X admet une espérance E (X) =
et en utilisant l’inégalité de Markov, on avait
2
estimé :
1
.
P (X ≥ 30) ≤
20
1
1−p
3
Or on sait que X admet même une variance et que V (X) =
= 3 = . L’inégalité de Bienaymé - Tchebychev
2
4
p
4
9
permet d’écrire, pour tout ε > 0 :
V (X)
P X − E (X) ≥ ε ≤
ε2
Soit
P
3
3
X−
≥ε ≤ 2
2
4ε
S
S
3
3
3
3
3
3
≥ε = X− ≥ε
X − ≤ −ε , c’est à dire X −
≥ ε = X ≥ +ε
X ≤ − ε . Alors
2
2
2
2
2
2
3
3
3
3
en choisissant ε > , on obtient : X −
≥ ε = X ≥ + ε (car X ≤ − ε = Ø). D’où :
2
2
2
2
3
3
P X ≥ +ε ≤ 2
2
4ε
Mais
X−
Et avec ε = 30 −
57
3
=
, on trouve :
2
2
P (X ≥ 30) ≤
Soit
P (X ≥ 30) ≤
3
572
1
< 0, 001
1080
C’est une estimation bien meilleure que celle donnée par l’inégalité de Markov.
Exercice 12.6
1
On note Φ la fonction de répartition de la loi normale centrée réduite N (0, 1) : Φ (x) = √
2π
1
1. Montrer à l’aide de l’inégalité de Bienaymé - Tchebychev que : ∀ x > 0, 1 − Φ (x) ≤ 2
2x
Z
Z x
t2
e− 2 dt
−∞
+∞
2. En déduire que l’intégrale
0
(1 − Φ (t)) dt converge et calculer sa valeur (procédez par intégration par parties)
Exercice 12.7
Soit t ∈ R. Soit (Xn )n∈N∗ une suite de variables aléatoires indépendantes définies sur un même espace probabilisé
(Ω, A, P ), qui suivent toutes la même loi telle que E (Xn ) = V (Xn ) = 1. Pour tout n ∈ N∗ , on pose Tn = X1 +...+Xn .
1. Pour tout entier
n > t, comparer
les événements Tn < t et Tn − n ≥ n − t .
T 2. Calculer P
Tn < t .
n∈N∗
127
12.1.3
Inégalité de Jensen.
lemme 12.1
Soit I un intervalle non vide et non réduit à un point et f : I −→ R une fonction convexe. Alors :
o
1. f est dérivable à droite et à gauche en tout point a de I et on a :
∀ x ∈ I,
o
2. f est continue sur I.

f (a) + f ′ (a) . (x − a) ≤ f (x)
d
f (a) + f ′ (a) . (x − a) ≤ f (x)
(12.4)
g
Preuve
f (x) − f (a)
est croissante sur I ∖ {a} ,en particulier sur chacun des intervalle
x−a
ouverts non vides Ia− = I ∩ ]−∞, a[ et Ia+ = I ∩ ]a, +∞[. En fixant x1 ∈ Ia− et x2 ∈ Ia+ , il vient que la restriction g1 de g à Ia− est majorée
par g (x2 ) et la restriction g2 de g à Ia+ est minorée par g (x1 ). Le théorème de limite monotone permet de conclure que g admet une
limite à gauche et une limite à droite en a. Cela veut dire évidemment que f est dérivable à gauche et à droite en a. De plus, on a :
o
1. Soit donc a ∈ I. Par convexité de f , la fonction g : x 7−→
fg′ (a) = lim
x→a−
f (x) − f (a) (1)
f (x) − f (a)
= sup
x−a
x−a
−
x∈I
fd′ (a) = lim
et
x→a+
a
f (x) − f (a) (2)
f (x) − f (a)
= inf
+
x−a
x−a
x∈Ia
Notons que par croissance de g, on a fg′ (a) ≤ fd′ (a). En effet il suffit d’écrire que :
f (x1 ) − f (a)
= g (x1 ) ≤ fd′ (a) = inf g (x)
+
x1 − a
x∈Ia
puis d’exploiter que x1 ∈ Ia− est quelconque et le faire tendre vers a pour obtenir fg′ (a) ≤ fd′ (a).
Soit x ∈ I. Montrons que f (a) + fg′ (a) . (x − a) ≤ f (x).
f (x) − f (a)
≤ fg′ (a) et , de là, f (x) ≥
Écartons le cas trivial x = a et supposons x ̸= a. Si x < a, x ∈ Ia− donc, selon (1),
x−a
f (x) − f (a)
≥ fd′ (a) ≥ fg′ (a), et alors f (x) ≥ f (a)+fg′ (a) . (x − a),
f (a)+fg′ (a) . (x − a), car x−a < 0. Si x > a, x ∈ Ia+ donc, selon (2),
x−a
car x − a > 0. Dans tous les cas, on a bien f (a) + fg′ (a) . (x − a) ≤ f (x).
On montre de même que pour tout x ∈ I, on a : f (a) + fd′ (a) . (x − a) ≤ f (x).
o
o
2. La dérivabilité à droite et à gauche en tout point a de I, établie en 1, entraîne sa continuité à droite et à gauche en tout point de I.
o
Donc f est continue en tout point de I.
Remarque 12.3
Pour f : I −→ R convexe, on a :
• En synthèse des relations (12.4), on peut énoncer que :
o
∀ a ∈ I, ∃ m ∈ R, ∀ x ∈ I, f (a) + m (x − a) ≤ f (x)
(12.5)
• Si X est une v.a.r sur (Ω, A, P ) telle que X (Ω) ⊂ I, alors f (X) est une v.a.r sur (Ω, A, P ), car, selon le lemme
précédent, f est continue presque partout dans I (voir la proposition 5.2).
Théorème 12.3
Soit X une v.a.r sur (Ω, A, P ) et f : R −→ R une fonction convexe telles que les v.a.r X et f (X) sont discrètes
ou à densité et qu’elle admettent une espérance. Alors :
f (E (X)) ≤ E (f (X))
(inégalité de Jensen)
128
Preuve
Posons a = E (X).
Selon (12.5), on dispose d’un réel m tel que :
∀ t ∈ R, f (a) + m (t − a) ≤ f (t)
On en déduit :
∀ ω ∈ Ω, f (a) + m (X (ω) − a) ≤ f (X (ω))
Comme les v.a.r f (a) + m (X − a) et f (X) sont discrètes et admettent une espérance, la croissance de l’espérance (voir la proposition
11.7) et sa linéarité prouvent que :




f (a) + m E (X) − a ≤ E (f (X))
| {z }
=0
C’est à dire
f (E (X)) ≤ E (f (X))
CQFD.
12.2
Convergence en probabilité
12.2.1
Définition et premières propriétés
Définition 12.1
Soit (Xn )n∈N une suite de v.a.r et X une autre v.a.r sur l’espace probabilisé (Ω, A, P ).
On dit que la suite (Xn )n∈N converge en probabilité vers X si et seulement si pour tout ε > 0, la suite réelle
P
P Xn − X ≥ ε n∈N converge vers 0. On écrit : (Xn ) −→ X
Ainsi
P
(Xn ) −→ X ⇐⇒ ∀ ε > 0, P
Xn − X ≥ ε −→ 0
n→+∞
Proposition 12.1
Soit (Xn )n∈N une suite de v.a.r et X une autre v.a.r sur l’espace probabilisé (Ω, A, P ). Alors les p.s.s.e :
(i)
(ii)
P
(Xn ) −→ X
∀ ε > 0, P
Xn − X > ε −→ 0
n→+∞
Preuve
P
(i) =⇒ (ii) / Supposons que (Xn ) −→ X.
Soit ε > 0. Montrons que P Xn − X > ε −→ 0.
n→+∞
Pour tout n ∈ N, on a :
donc par croissance de P :
Xn − X > ε ⊂ Xn − X ≥ ε
0≤P
Alors, d’après un critère d’encadrement :
Xn − X > ε ≤ P
Xn − X > ε
P
(ii) =⇒ (i) / Supposons que : ∀ ε > 0, P
Soit ε > 0. Montrons que P
On a :
Xn − X > ε
Xn − X ≥ ε −→ 0.
n→+∞
∀ n ∈ N,
Xn − X ≥ ε
−→ 0
n→+∞
−→ 0.
n→+∞
ε
Xn − X ≥ ε ⊂ Xn − X >
2
129
D’où
ε
Xn − X ≥ ε ≤ P Xn − X >
2
∀ n ∈ N, 0 ≤ P
Comme par hypothèse P
Xn − X >
ε
−→ 0, le critère d’encadrement permet de conclure que
2 n→+∞
P Xn − X ≥ ε −→ 0
n→+∞
CQFD.
Théorème 12.4 (unicité de la limite en probabilité)
Soit (Xn )n∈N une suite de v.a.r et X et Y deux autres v.a.r sur l’espace probabilisé (Ω, A, P ) telles que
P
(Xn ) −→ X
P
(Xn ) −→ Y
et
Alors X = Y presque sûrement.
Preuve
Il s’agit de montrer que P (X = Y ) = 1 ou, ce qui revient qu même, P (X ̸= Y ) = 0.
On a clairement X ̸= Y = X − Y > 0 et le lecteur pourra vérifier par double inclusion que
D’où
[ 1
X −Y >0 =
X −Y ≥
k
k∈N∗
[ 1
X −Y ≥
X ̸= Y =
k
∗
k∈N
Il vient en appliquant la propriété de continuité monotone croissante que
1
P (X ̸= Y ) = lim P Xn − X ≥
k→+∞
k
Il suffit, pour conclure, de montrer que : ∀ k ∈ N∗ , P
Soit k ∈ N∗ . Pour tout n ∈ N, on a :
Xn − X ≥
1
k
= 0.
∀ ω ∈ Ω, X (ω) − Y (ω) ≤ X (ω) − Xn (ω) + Xn (ω) − Y (ω)
On en déduit que pour n ∈ N, on a :
∀ ω ∈ Ω,

1

X (ω) − Xn (ω) <



2k



 X (ω) − Y (ω) < 1
n
2k
=⇒
X (ω) − Xn (ω) + Xn (ω) − Y (ω) <
=⇒
X (ω) − Y (ω) <
1
k
1
k
D’où par contraposée
∀ ω ∈ Ω, X (ω) − Y (ω) <
Cela montre que :
∀ n ∈ N, 0 ≤ P
X (ω) − Xn (ω) <
1
2k
ou
Xn (ω) − Y (ω) <
X −Y ≥
1 [
1 1 Xn − Y ≥
⊂ X − Xn ≥
k
2k
2k
X −Y ≥
1
k
∀ n ∈ N,
Alors, par croissance et additivité de P :
1
=⇒
k
≤P
X − Xn ≥
1
2k
Il vient par passage à la limite quand n tend vers +∞ :
0≤P
X −Y ≥
130
1
k
≤0
+P
Xn − Y ≥
1
2k
1
2k
Soit : P
X −Y ≥
1
k
=0
CQFD.
12.2.2
Opérations sur la convergence en probabilité
a) transformation par une fonction continue
Théorème 12.5
Soit (Xn )n∈N une suite de v.a.r sur l’espace probabilisé (Ω, A, P ) et X une autre v.a.r sur cet espace telles que
P
P
(Xn ) −→ X. Alors our toute fonction continue f : R −→ R, on a : (f (Xn )) −→ f (X)
Preuve
Elle est admise.
Notons d’abord que puisque f est continue, les f (Xn ) et f (X) sont bien toutes des v.a.r sur (Ω, A, P ).
Soit ε > 0 et δ > 0. On va montrer qu’il existe n0 ∈ N tel que
∀n ≥ n0 , P
f (Xn ) − f (X) > ε ≤ δ
δ
X > r ≤ , ce qui est toujours possible car
2
P X > x = 1 − F|X| (x) −→ 0
Choisissons d’abord un réel r > 0 tel que P
x−→+∞
Sur le compact [−2r, 2r], la fonction f est uniformément continue d’après le théorème de Heine. Choisissons alors un réel η > 0 tel que :
∀ (x, y) ∈ [−2r, 2r]2 , x − y ≤ η =⇒ f (x) − f (y) ≤ ε
et remarquons, en conséquence, que
2
∀ (x, y) ∈ R ,
Donc


x ≤r
=⇒
 x − y ≤ min (r, η)
2
∀ (x, y) ∈ R ,


x ≤r
 x − y ≤ min (r, η)

 (x, y) ∈ [−2r, 2r]2

x−y ≤η
=⇒ f (x) − f (y) ≤ ε
Il vient alors, par contraposée f (x) − f (y) > ε entraîne x > r ou x − y > min (r, η).
En notant An = f (Xn ) − f (X) > ε , on obtient
[
Xn − X > min (r, η)
An ⊂ X > r
D’où par croissance et additivité de P :
P (An ) ≤ P
X >r +P
Donc
P (An ) ≤
δ
+P
2
Xn − X > min (r, η)
Xn − X > min (r, η)
P
Finalement, puisque (Xn ) −→ X, on dispose d’un entier n0 tel que :
∀ n ∈ N, n ≥ n0 =⇒ P
δ
Xn − X > min (r, η) ≤
2
∀ n ∈ N, n ≥ n0 =⇒ P
f (Xn ) − f (X) > ε ≤ δ
Donc
La suite (f (Xn ))n∈N converge bien en probabilité vers f (X).
131
b) Opérations algébriques
Théorème 12.6
Soit (Xn ) et (Yn ) deux suites de v.a.r sur l’espace probabilisé (Ω, A, P ) et X et Y deux autres v.a.r sur cet espace
P
P
telles que (Xn ) −→ X et (Yn ) −→ Y . Alors :
P
1. pour tout (λ, µ) ∈ R2 , (λXn + µYn ) −→ λX + µY .
P
2. (Xn Yn ) −→ XY .
Preuve
1. Quitte à appliquer le théorème 12.5 aux fonctions continues f : x 7−→ λx et g : x 7−→ µx, il suffit de raisonner dans le cas λ = µ = 1
P
et montrer que (Xn + Yn ) −→ X + Y .
Soit donc ε > 0 et n ∈ N ; on a : (Xn + Yn ) − (X + Y ) = (Xn − X) + (Yn − Y )
Et comme Xn − X + Yn − Y ≥ (Xn − X) + (Yn − Y ) , il vient
ε [
ε
(Xn + Yn ) − (X + Y ) > ε = (Xn − X) + (Yn − Y ) > ε ⊂ Xn − X >
Yn − Y >
2
2
D’où, par croissance et sous-additivité de P :
0≤P
ε
ε
+ P Yn − Y >
(Xn + Yn ) − (X + Y ) > ε ≤ P Xn − X >
2
2
Alors, sachant que n est quelconque et que le second membre de cette inégalité tend vers 0 quand n tend vers +∞ (par convergence en
probabilité de (Xn ) vers X et de (Yn ) vers Y ), on a :
P
(Xn + Yn ) − (X + Y ) > ε
−→ 0
n→+∞
P
ε étant arbitraire, on a (Xn + Yn ) −→ X + Y .
2. En appliquant le résultat du 1, qu’on vient de démontrer, on a

P
(Xn + Yn ) −→
X +Y
P
(Xn − Yn ) −→
X −Y
Il vient, en appliquant le théorème 12.5 à la fonction continue f : x 7−→ x2 , on déduit :

P
(Xn + Yn )2 −→
(X + Y )2
P
(Xn − Yn )2 −→ (X − Y )2
puis, par le résultat du 1 encore une fois,
1
1
1
P 1
(Xn + Yn )2 − (Xn − Yn )2 −→ (X + Y )2 − (X − Y )2
4
4
4
4
Soit
P
Xn Yn −→ XY
CQFD.
Exercice 12.8
P
P
∗
∗
Montrer,
enutilisant une transformation continue adéquate que si (Xn ) −→ X, (Yn ) −→ Y , Yn ⊂ R et Y (Ω) ⊂ R
Xn
P X
alors
−→ .
Yn
Y
12.3
Convergence en loi
12.3.1
Définition et premières propriétés
On rappelle la notation FX qui indique la fonction de répartition d’une v.a.r X.
132
Définition 12.2
Soit (Xn )n∈N une suite de v.a.r et X une autre v.a.r.
On dit que la suite (Xn )n∈N converge en loi vers X si et seulement si pour tout réel x où FX est continue, la suite
L
réelle (FXn (x))n∈N converge vers FX (x). On écrit (Xn ) −→ X
L
Ainsi, (Xn ) −→ X si et seulement si la suite de fonctions (FXn )n∈N converge simplement vers la fonction FX sur
l’ensemble CX des points de continuité de FX .
Remarque 12.4
• Dans cette notion de convergence en loi, il n’est pas nécessaire que les v.a.r Xn et la v.a.r X soient définies sur le
même espace probabilisé.
• Si pour tout n, Yn est une v.a.r ayant la même loi que Xn et Y est une v.a.r ayant la même loi que X alors
L
(Xn ) −→ X
L
⇐⇒
(Xn ) −→ Y
⇐⇒
(Yn ) −→ X
⇐⇒
L
(Yn ) −→ Y
L
Donc il s’agit plus exactement d’une convergence d’une suite de lois vers une loi. D’où le vocabulaire de convergence
en « loi ». En particulier, si une suite de v.a.r (Xn )n∈N converge en loi vers une v.a.r X alors X n’est pas unique ;
c’est sa loi qui l’est.
Proposition 12.2
Soit (Xn )n∈N une suite de v.a.r et X une autre v.a.r. toutes définies sur le même espace probabilisé (Ω, A, P )
L
telles que (Xn ) −→ X
Alors pour tout couple (a, b) de réels en lesquels FX est continue et a < b, on a P (a < Xn ≤ b)
P (a < X ≤ b)
−→
n→+∞
Preuve
Il suffit d’écrire
P (a < Xn ≤ b) = FXn (b) − FXn (a)
et de passer à la limite quand n tend vers +∞ en utilisant que
FX (b) − FX (a) = P (a < X ≤ b)
Théorème 12.7
Soit (Ω, A, P ) un espace probabilisé et Xn , X : Ω −→ R(n ∈ N) des v.a.r sur cet espace, toutes à valeurs dans Z.
Alors les p.s.s.e :
(i)
(ii)
L
(Xn ) −→ X
∀ k ∈ Z, P (Xn = k) −→ P (X = k)
n→+∞
Preuve
Elle est admise.
133
L
(i) =⇒ (ii) / Supposons que (Xn ) −→ X et soit k ∈ Z ; il s’agit de montrer que P (Xn = k)
On a
∀ n ∈ N, P (Xn = k) = FXn
1
2
k+
− F Xn
k−
−→
n−→+∞
1
2
P (X = k)
1 1
en effet Xn = k −
⊂ Xn = k +
et, sachant que Xn (Ω) ⊂ Z, on a
2
2
Xn = k +
1 1 \ Xn = k −
= Xn = k
2
2
Et pour les mêmes raisons
P (X = k) = FX
k+
1
2
− FX
1
2
k−
1
1
1
1
=P k−
= 0. Et cela fait de ces deux point des points de
et k − ne sont pas des entiers et, à fortiori, P X = k +
2
2
2
2
continuité de la fonction de répartition de X. Il s’ensuit par convergence en loi de la suite (Xn ) vers X que :

1
1

F
−→
k
+
k
+
F

X
X
n


2 n−→+∞
2

Or k +



1
1

 FX
−→ FX k −
k−
n
2 n−→+∞
2
D’où
FXn
k+
1
2
− FXn
k−
1
2
−→
FX
−→
P (X = k)
n−→+∞
k+
1
2
− FX
k−
1
2
C’est à dire
P (Xn = k)
n−→+∞
(ii) =⇒ (i) / Réciproquement, supposons que
∀ k ∈ Z, P (Xn = k)
−→
n−→+∞
P (X = k)
L
et montrons que (Xn ) −→ X, c’est à dire que pour tout réel x où FX est continue on a FXn (x)
Nous allons montré, particulièrement dans ce cas, que cela est vrai sans condition sur le réel x.
Soit donc x ∈ R et ε > 0. L’objectif est d’exhiber un entier N tel que
−→
n−→+∞
FX (x).
∀ n ≥ N, FXn (x) − FX (x) ≤ ε
On commence par exploiter que FX (t)
−→
t−→−∞
0 et FX (t)


−→
t−→+∞
(12.6)
1 en se donnant deux réels strictement positifs A et B tels que :
ε
2
 ∀ t ≥ B, 1 − F (t) ≤ ε
X
2
∀ t ≤ −A, FX (t) ≤
(12.7)
Et puisque ces deux réels peuvent être choisis aussi grands que l’on veut, on les choisit tels que A ≥ 1 − x et B ≥ 1 + x ; ce qui permet
d’écrire :
−A ≤ x − 1 ≤ x ≤ x + 1 ≤ B
(12.8)
Fixons deux réels a et b tels que a ≤ −A et b ≥ B et observons que d’après (12.7) on a :


D’autre part d’après (12.8), on a :
ε
2
 1 − F (b) ≤ ε
X
2
FX (a) ≤

b − x ≥ B − x > (x + 1) − x = 1
x − a ≥ x − (−A) > x − (x − 1) = 1
Donc b − x > 1 et x − a > 1.
T
T
T
On en déduit que les ensembles finis [a, x] Z et [x, b] Z sont non vides. Posons [a, x] Z = {k1 , . . . , kr } ; où r est le cardinal.
On a

r
P


P (Xn = ki )
∀ n ∈ N, FXn (x) − FXn (a) =
i=1
r
P


P (X = ki )
FX (x) − FX (a) =
i=1
134
(12.9)
Il vient par hypothèse : FXn (x) − FXn (a) −→ FX (x) − FX (a).
n−→+∞
T
Z : FXn (b) − FXn (x) −→ FX (b) − FX (x).
De même, en raisonnant sur [x, b]
n−→+∞
On dispose donc de deux entiers naturels n0 et n1 vérifiant

ε

∀ n ≥ n0 , (FXn (x) − FXn (a)) − (FX (x) − FX (a)) ≤



2
(12.10)


ε

 ∀ n ≥ n1 , (F
Xn (b) − FXn (x)) − (FX (b) − FX (x)) ≤
2
On note alors N = max (n0 , n1 ). Montrons que cet entier naturel N convient, c’est à dire qu’il vérifie (12.6).
Soit donc n ∈ N tel que n ≥ N . On a d’après (12.10)

ε
ε

(i)
FXn (a) − FX (a) − ≤ FXn (x) − FX (x) ≤ FXn (a) − FX (a) +



2
2


ε
ε

 F
≤ FXn (x) − FX (x) ≤ FXn (b) − FX (b) +
Xn (b) − FX (b) −
2
2
(ii)
Alors en tenant compte de la première inégalité de (i) et de la deuxième inégalité de (ii), on obtient
FXn (a) − FX (a) −
ε
ε
≤ FXn (x) − FX (x) ≤ FXn (b) − FX (b) +
2
2
Finalement, sachant que 0 ≤ FXn (a) et FXn (b) ≤ 1, on déduit
−FX (a) −
ε
ε
≤ FXn (x) − FX (x) ≤ 1 − FX (b) +
2
2
Donc, en utilisant (12.9)
−ε ≤ FXn (x) − FX (x) ≤ ε
C’est à dire
FXn (x) − FX (x) ≤ ε
CQFD.
Exercice 12.9
Donner une démonstration plus simple de l’implication (ii) =⇒ (i) dans le cas où les v.a Xn (n ∈ N) et X sont à
valeurs dans N.
Exemple 12.4
Soit (Xn )n∈N∗ une suite de v.a sur (Ω, A, P ) telles que pour tout n ∈ N∗ , Xn ,→ U[− 1 , 1 ] .
n n
L
Montrons que Xn −→ 0.
Notons Fn [resp. F ] la fonction de répartition de la v.a Xn [resp. X = 0], en sorte que



F (x) = 0

 n
Fn (x) = n2 x + n1



F (x) = 1
n
; si x < − n1
; si − n1 ≤ x ≤ n1
et
; si x > n1

F (x) = 0 ; si x < 0
F (x) = 1 ; si x ≥ 0
On voit que F est continue partout excepté en 0. Soit x ∈ R∗ ; on a :


Fn (x) −→ 0
n→+∞

Fn (x) −→ 1
n→+∞
si x < 0
si x > 0
Donc, dans tous les cas : Fn (x) −→ F (x). CQFD
n→+∞
Remarque 12.4
C’est un exemple d’une suite de v.a.r à densité qui converge en loi vers une v.a.r.d
135
Exemple 12.5
Soit (Xn )n∈N∗ une suite de v.a sur (Ω, A, P ) telles que pour tout n ∈ N∗ , Xn ,→ U{ 1 , 2 ,..., n−1 , n } .
n n
n
n
L
Montrons que Xn −→ X ; où X est une v.a suivant la loi U[0,1] .
On note Fn [resp. F ] la fonction de répartition de la v.a Xn [resp. X], en sorte que pour tout x ∈ R :



F (x) = 0

 n
Fn (x) = nk



F (x) = 1
n



F (x) = 0


F (x) = x



F (x) = 1
si x < n1
si nk ≤ x < k+1
(k ∈ J1, n − 1K)
n
et
si x ≥ 1
si x < 0
si 0 ≤ x ≤ 1
si x > 1
Puisque F est continue dans R (ce qui est découle déjà de la nature de X comme v.a à densité), il s’agit de montrer
que :
∀ x ∈ R, Fn (x) −→ F (x)
n→+∞
(12.11)
Soit x ∈ R. On distingue quatre cas possibles :
P remier cas : x < 0
Dans ce cas (12.11) est vérifiée car

∀ n ∈ N∗ , F (x) = 0
n
F (x) = 0
Deuxième cas : x = 0
Dans ce cas aussi (12.11) est vérifiée car

∀ n ∈ N∗ , F (x) = F (0) = 0
n
n
F (x) = F (0) = 0
T roisième cas : x ≥ 1
Dans ce cas également (12.11) est vérifiée car

∀ n ∈ N∗ ,
Quatrième cas : 0 < x < 1
F (x) = 1
Fn (x) = 1
(y compris pour x = 1 par continuité de F )
1
1
Dans ce cas, et comme la suite
a pour limite 0, soit n0 ∈ N∗ tel que : ∀ n ∈ N∗ , n ≥ n0 =⇒ ≤ x.
n n∈N∗
n
Soit n ∈ N∗ tel que n ≥ n0 .
1 k k + 1
q
y
1
≤ x < 1 et
, 1 est union disjointe des intervalles
,
On a
(k ∈ 1, n − 1 ) ; donc, il existe un unique
n
n
n
n
q
y
k0 k0 + 1 ,
. Il vient :
indice k0 ∈ 1, n − 1 tel que x ∈
n
n
Fn (x) − F (x) =
k0 + 1 k0
k0
−x ≤
−
n
n
n
Ainsi
∀ n ≥ n0 , Fn (x) − F (x) ≤
Donc, par encadrement : Fn (x) −→ F (x).
n→+∞
CQFD.
136
1
n
Remarque 12.5
C’est un exemple d’une suite de v.a.r.d qui converge en loi vers une v.a.r à densité (donc non discrète).
Exemple 12.6
Soit (Un )n∈N∗ une suite de v.a.r sur (Ω, A, P ) indépendantes et à densité telles que pour tout n ∈ N∗ , Un ,→ U[0,1] .
On note pour tout n ∈ N∗ , Mn = max (U1 , ..., Un ) et Xn = n (1 − Mn ).
L
Observons d’abord que les Mn et Xn sont des v.a.r sur (Ω, A, P ). Montrons que Xn −→ X ; où X est une v.a.r sur
(Ω, A, P ) suivant la loi E (1).
Sachant que FX est continue sur R, il s’agit de montrer que : ∀ x ∈ R, FXn (x) −→ FX (x).
n→+∞
Soit x ∈ R et n ∈ N∗ . On a :



F (x) = 0 si x < 0

 Un
FUn (x) = x si 0 ≤ x ≤ 1



F (x) = 1 si x > 1
Un
Déterminons FXn (x). On a :
FXn (x)
= P (Xn ≤ x)
= P 1 − Mn ≤ nx
= P Mn ≥ 1 − nx
= 1 − P Mn < 1 − nx
Mais par définition de Mn :
(12.12)
n
Mn < 1 −
\
x
x
Uk < 1 −
=
n
n
k=1
et les v.a Un (n ∈ N∗ ) sont supposées mutuellement indépendantes ; donc
FXn (x)
=
1−
=
1−
=
1−
Qn
k=1 P
Uk < 1 −
x
n
x
P
U
≤
1
−
k
k=1
n
Qn
x
F
1
−
k=1 Uk
n
Qn
Alors compte tenu de (12.12), on a en distinguant les cas 1 −
x
x
x
< 0, 0 ≤ 1 − ≤ 1 et 1 − > 1 :
n
n
n



F (x) = 0

 Xn
n
FXn (x) = 1 − 1 − nx



F (x) = 1
Xn
Comme pour x < 0, on a :
[car les Uk sont continues à densité]
; si x < 0
; si 0 ≤ x ≤ n
; si x > n
∀ n ∈ N∗ , FXn (x) = 0
on déduit que FXn (x) −→ 0
n→+∞
et pour x ≥ 0, on a en posant nx = x + 1 :
x n
∀ n ≥ nx , FXn (x) = 1 − 1 −
n
d’où : FXn (x) −→ 1 − e−x .
n→+∞
137
On note alors X une v.a.r sur (Ω, A, P ) telle que X ,→ E (1), en sorte que

F (x) = 0
X
F (x) = 1 − e−x
; si x < 0
; si x ≥ 0
X
D’après ce qui précède, on a : ∀ x ∈ R, FXn (x) −→ FX (x)
n→+∞
CQFD.
Remarque 12.6
x n−1
φ[0,n] (x) ; ce
On vérifie aisément que chaque v.a.r Xn est à densité et qu’une densité en est fXn : x 7−→ 1 −
n
qui entraîne que l’exemple 12.6 est celui d’une suite de v.a.r à densité qui converge en loi vers une v.a.r à densité.
Exemple 12.7
Soit (Xn )n∈N∗ une suite de v.a.r, (pn )n∈N∗ une suite d’éléments de 0, 1 et λ un réel strictement positif tels que :

∀ n ∈ N∗ , Xn ,→ B (n, pn )
n.pn −→ λ
n→+∞
Soit X une v.a.r sur (Ω, A, P ) telle que X ,→ P (λ). Montrons que la suite (Xn )n∈N∗ converge en loi vers X.
Les v.a Xn (n ∈ N∗ ) et X sont à valeurs dans N, alors il suffit de montrer que :
∀ k ∈ N, P (Xn = k) −→ P (X = k)
n→+∞
Soit donc k ∈ N. On a pour tout n ≥ k :
P (Xn = k)
n
=
k
!
pkn (1 − pn )
=
n (n − 1) ... (n − k + 1) k
n−k
pn (1 − pn )
k!
=
(1 − pn )
k!
n−k
k−1
Y
j=0
D’autre part (1 − pn )n−k
n−k
∼
n→+∞
npn et npn −→ λ.
n→+∞
[(n − j) pn ] −→ λk
n→+∞
= exp ((n − k) ln (1 − pn )) , alors comme pn
(n − k) ln (1 − pn )
Donc (1 − pn )
Qk−1
j=0 [(n − j) pn ]
r
z
On constate que pour tout j ∈ 0, k − 1 , on a (n − j) pn
D’où
n−k
∼
n→+∞
− (n − k) pn
∼
n→+∞
−→ exp (−λ), donc
n→+∞
λk
exp (−λ)
n→+∞ k!
P (Xn = k) −→
138
∼ λ −→ 0, on a :
n→+∞ n n→+∞
−λ (n − k)
n
Soit
P (Xn = k) −→ P (X = k)
n→+∞
CQFD.
Remarque 12.7
On a là un exemple d’une suite de v.a.r.d converge en loi vers une v.a.r.d.
12.3.2
Lien avec la convergence en probabilité
Théorème 12.8
Soit (Ω, A, P ) un espace probabilisé, (Xn )n∈N une suite de v.a.r et X une autre v.a.r toutes définies sur cet espace
P
L
telles que (Xn ) −→ X. Alors (Xn ) −→ X.
Preuve
Elle est admise.
Il s’agit de montrer que pour tout réel x où FX est continue, on a : Fn (x) = P (Xn ≤ x) −→ F (x) = P (X ≤ x).
n−→+∞
S
Xn − X < −ε .
Soit x un tel réel. Soit ε > 0 et n ∈ N arbitraire. On a Xn = X + (Xn − X), donc Xn ≤ x ⊂ X ≤ x + ε
D’où par croissance et sous-additivité de P :
P (Xn ≤ x) ≤ P (X ≤ x + ε) + P (Xn − X < −ε)
Et comme Xn − X < −ε ⊂ Xn − X > ε , on a :
P (Xn ≤ x) ≤ P (X ≤ x + ε) + P
Xn − X > ε
Et cela est vrai pour tout ε > 0 et pour tout n ∈ N.
Soit η > 0 ; montrons qu’il existe N ∈ N tel que
(12.13)
∀ n ∈ N, n ≥ N =⇒ FXn (x) − FX (x) ≤ η
ce qui achève la démonstration.
Par continuité de FX en x, on dispose d’un réel ε0 > 0 tel que
FX (x) ≤ FX (x + ε0 ) ≤ FX (x) +
η
2
(12.14)
η
Xn − X > ε0 ≤ .
2
On en déduit, en appliquant (12.13) à ε = ε0 et en utilisant (12.14), que pour tout entier n ≥ n0 on a :
P
D’autre part, par hypothèse, (Xn ) −→ X ; alors pour ce ε0 , soit n0 ∈ N tel que : ∀ n ≥ n0 , P
FXn (x) ≤ FX (x + ε0 ) + P
η
η
Xn − X > ε0 ≤ FX (x) + +
2
2
c’est à dire :
FXn (x) ≤ FX (x) + η
Avec un raisonnement analogue partant de X = Xn + (X − Xn ) et des inégalités
P (X ≤ x − ε) ≤ P (Xn ≤ x) + P (X − Xn < −ε) ≤ P (Xn ≤ x) + P
desquelles on tire P (Xn ≤ x) ≥ P (X ≤ x − ε) − P
pour tout n ≥ n1 , on a :
X − Xn > ε
X − Xn > ε , on montre l’existence d’un entier n1 ∈ N, dépendant de η, tel que
FXn (x) ≥ FX (x) − η
En notant N = max (n0 , n1 ), on a en synthèse :
∀ n ∈ N, n ≥ N =⇒ FXn (x) − FX (x) ≤ η
CQFD.
139
Remarque 12.8
L
P
La réciproque est fausse en général : (Xn ) −→ X ⇏ (Xn ) −→ X
∗
En guise de contre
exemple, considérons une suite (Xn )n∈N∗ de v.a.r sur
(Ω,
A, P ) telle que pour tout n ∈ N ,
1
1
1
+
et une v.a.r X sur ce même espace telle que X ,→ B
. On a :
Xn ,→ B
2 2n
2

1
1

P (Xn = 1) = +



2 2n
On constate que
(n ∈ N)



P (X = 0) = 1 − 1
n
2 2n
et

1

P (X = 1) =



2



P (X = 0) = 1
2


 P (Xn = 0) −→


1
= P (X = 0)
n→+∞ 2
P (Xn = 1) −→ 12 = P (X = 1)
n→+∞
L
Alors, puisque X et les Xn sont à valeurs dans N, (Xn ) −→ X.
P
Montrons que, cependant, (Xn ) ↛ X, c’est à dire qu’il existe ε > 0 tel que P
Soit n ∈ N. On a :
1
P Xn − X >
2
=
P
h
=
P
=
P
1 i Sh
1i
Xn − X >
Xn − X < −
2
2
1
Xn − X >
2
Xn > X +
1
2
+P
1
Xn − X < −
2
+P
Xn < X −
1
2
Xn − X > ε
↛
n→+∞
0.
[par additivité de P ]
Maintenant, grâce à la formule des probabilités totales on a :
P
1
Xn > X +
2
et de même :
1
P Xn < X −
2
=
P
Xn > X + 1 P (X = 0) + P
Xn > X + 1 P (X = 1)
X=0
X=1
2
2
1
+ P
2
=
1
P
2
=
1
1
P (Xn = 1) + P (Ø)
2
2
=
1
1
+
4 4n
=
P
1
Xn >
2
3
Xn >
2
[car Xn ne prend que les valeurs 0 et 1]
Xn < X − 1 P (X = 0) + P
Xn < X − 1 P (X = 1)
X=0
X=1
2
2
=
1
P
2
=
1
1
P (Ø) + P (Xn = 0)
2
2
=
1
1
−
4 4n
1
Xn < −
2
1
+ P
2
1
Xn <
2
[car Xn ne prend que les valeurs 0 et 1]
140
D’où P
1
Xn − X >
2
=
1
1
1
1
1
+
+ −
= . Il vient, sachant que n est arbitraire :
4 4n 4 4n
2
P
1
2
Xn − X >
↛
n→+∞
0
CQFD.
U ne situation particulière où la réciproque est vraie
Théorème 12.9
Soit (Ω, A, P ) un espace probabilisé, (Xn )n∈N une suite de v.a.r sur cet espace et c une constante réelle telle que
L
P
(Xn ) −→ c. Alors (Xn ) −→ c.
Preuve
Il s’agit de montrer que : ∀ε > 0, P
Soit ε > 0. On a :
Xn − c > ε
D’où par croissance et sous-additivité de P
h
−→ 0 .
n−→+∞
i h
i h
i
Xn − c > ε = Xn < c − ε ∪ Xn > c + ε
∀ n ∈ N, 0 ≤ P
Xn − c > ε ≤ P (Xn < c − ε) + P (Xn > c + ε)
(12.15)
L
D’autre part, par hypothèse (Xn ) −→ c ; alors, sachant que la fonction Fc = φ[c,+∞[ de répartition de la v.a.r sûre c est continue en
c − ε et c + ε (elle n’est discontinue qu’en 0), on a


 FXn (c − ε) −→ Fc (c − ε) = 0

 FXn (c + ε)
Il vient
n−→+∞
−→
n−→+∞
Fc (c + ε) = 1
P (Xn > c + ε) = 1 − P (Xn ≤ c + ε) = 1 − FXn (c + ε)
−→
n−→+∞
0
On a aussi
0 ≤ P (Xn < c − ε) ≤ P (Xn ≤ c − ε) = FXn (c − ε)
donc, par encadrement :
P (Xn < c − ε)
On en déduit en utilisant l’encadrement (12.15) que P
12.3.3
Xn − c > ε
−→
n−→+∞
0
−→ 0 . CQFD
n−→+∞
Opérations sur la convergence en loi
a) Transformation par une fonction continue
Théorème 12.10
L
Soit Xn (n ∈ N) et X des v.a.r non forcément définies sur le même espace probabilisé telles que (Xn ) −→ X et
L
f : R −→ R une fonction continue. Alors (f (Xn )) −→ f (X).
Preuve
Elle est admise.
141
b) Opérations algébriques : Théorèmes de Slutsky
Théorème 12.11 (de Slutsky)
L
L
Soit (Xn )n∈N et (Yn )n∈N deux suites de v.a.r et X une autre v.a.r telles que (Xn ) −→ X et (Yn ) −→ 0.
L
Alors (Xn + Yn ) −→ X.
Preuve
Elle est admise.
Soit t un réel où FX est continue en t. Il s’agit de montrer que FXn +Yn (x) −→ FX (x), c’est à dire que
n→+∞
∀ ε > 0, ∃ N ∈ N, ∀ n ∈ N, n ≥ N =⇒ FXn +Yn (t) − FX (t) ≤ ε
Soit ε > 0. Par continuité de FX en t, on peut se donner deux réels strictement positifs α et β tels que :
FX (t) −
ε
ε
≤ F (t − β) ≤ FX (t) ≤ FX (t + α) ≤ FX (t) +
3
3
(12.16)
De plus ces réels α et β peut être choisis aussi petit que l’on veut. on peut donc les choisir de telle sorte que FX soit continue en t − β
et t + α. En effet, par croissance de FX l’ensemble de ses points de discontinuité est au plus dénombrable (c’est classique), et alors
l’ensemble de ses point de continuité est dense dans R.
Ces réel α et β étant ainsi choisis, on a par convergence en loi de (Xn ) vers X et de (Yn ) vers 0


−→ FX (t − β)

FXn (t − β) n→+∞





FXn (t + α) −→ FX (t + α)


n→+∞












FYn (−α) −→ F0 (−α) = P 
(12.17)
|0 ≤{z−α}  = 0 [car F0 = φ[0,+∞[ est continue en − α]
n→+∞





=Ø












[car F0 = φ[0,+∞[ est continue en β]
FYn (β) −→ F0 (β) = P  0 ≤ β  = 1

n→+∞

| {z }

=Ω
Fixons quatre entiers naturels n0 , n1 , n2 et n3 tels que pour tout n ∈ N :

ε

n ≥ n0 =⇒ FXn (t − β) − FX (t − β) ≤



3


ε

n ≥ n1 =⇒ FXn (t + α) − FX (t + α) ≤
3
ε


n ≥ n2 =⇒ FYn (−α) ≤


3



n ≥ n3 =⇒ 1 − FY (β) ≤ ε
n
3
Soit N = max (n0 , n1 , n2 , n3 ). Montrons que N convient. Soit donc n ∈ N tel que n ≥ N
En raisonnant par implication contraposée, on vérifie aisément que

 Xn + Yn ≤ t ⊂ Xn ≤ t + α ∪ Yn ≤ −α
 X n ≤ t − β ⊂ X n + Y n ≤ t ∪ Y n > β D’où par croissance et sous-additivité de P :

F
F
ou, ce qui revient au même

F
F
On en déduit :
Xn +Yn (t) ≤ FXn (t + α) + FYn (−α)
Xn (t − β) ≤ FXn +Yn (t) + P (Yn > β)
Xn +Yn (t) ≤ FXn (t + α) + FYn (−α)
Xn (t − β) ≤ FXn +Yn (t) + 1 − FYn (β)
FXn (t − β) + 1 − FYn (β) ≤ FXn +Yn (t) ≤ FXn (t + α) + FYn (−α)
puis, en utilisant les relations (12.18) :
FX (t − β) −
2ε
2ε
≤ FXn +Yn (t) ≤ FX (t + α) +
3
3
142
(12.18)
Et, finalement, en utilisant les relations (12.16)
FX (t) − ε ≤ FXn +Yn (t) ≤ FX (t) + ε
c’est à dire
FXn +Yn (t) − FX (t) ≤ ε
CQFD.
Exercice 12.10
Trouver une démonstration plus simple du théorème 12.11, dans le cas où la convergence en loi de (Xn ) vers X est
remplacée par l’hypothèse plus forte de convergence en probabilité
Le théorème suivant est une généralisation du théorème 12.11
Théorème 12.12 (de Slutsky)
L
Soit (Xn )n∈N et (Yn )n∈N deux suites de v.a.r, X une autre v.a.r et c une constante réelle telles que (Xn ) −→ X
L
L
et (Yn ) −→ c. Alors (Xn + Yn ) −→ X + c.
Preuve
Le résultat se déduit du théorème 12.11 en remarquant que pour des v.a.r Un (n ∈ N),U et pour un réel c, on a
L
(Un ) −→ U
⇐⇒
L
(Un − c) −→ U − c
en effet
Un − c = f (Un ) et Un = g (Un − c)
où f est la fonction x 7−→ x − c et g est la fonction x 7−→ x + c.
Et le théorème 12.10 permet de conclure.
Exercice 12.11
Montrer par un contre exemple que

L
(X ) −→
X
n
L
(Y ) −→
Y
n
en général.
12.4
⇏
L
(Xn + Yn ) −→ X + Y
Théorèmes limites
Notations et vocabulaire
X1 + ... + Xn
• À toute suite de v.a.r (Xn )n∈N∗ on associe la suite de v.a.r Xn n∈N∗ , où pour tout n ∈ N∗ : Xn =
n
Les Xn s’appellent les moyennes empiriques de la suite (Xn )n∈N∗
• Si une suite (Xn )n∈N∗ de v.a.r est telle que toutes les v.a Xn suivent la même loi on dit que la suite (Xn )n∈N∗
est identiquement distribuée (en abrégé i.d ou i.i.d si elle est en outre mutuellement indépendante). Dans ce cas, si
cette loi admet une espérance µ [resp. une variance σ 2 ] alors µ [resp. σ 2 ] est dit l’espérance [resp. la variance] de la
suite (Xn )n∈N∗ .
143
12.4.1
Loi faible des grands nombres (LFGN)
Théorème 12.13 (LFGN)
Soit X une v.a.r discrète ou à densité sur l’espace probabilisé (Ω, A, P ) admettant une variance et soit (Xn )n∈N∗
une suite i.i.d de v.a.r de loi celle de X. Alors sa suite des moyennes empiriques Xn n∈N∗ converge en loi vers la
v.a sûre E (X).
Ce qui veut dire concrètement : ∀ ε > 0, P
X1 + ... + Xn
− E (X) ≥ ε
−→ 0
n→+∞
n
Preuve
E (X1 ) + ... + E (Xn )
On a, par linéarité de l’espérance, E Xn =
= E (X), car les Xk ont la même loi que X. D’autre part, sachant
n
qu’elles sont mutuellement indépendantes, les Xk sont deux à deux indépendantes ; donc, selon le théorème 11.11 :
V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn ) = nV (X)
Il vient :
V Xn = V
1
(X1 + ... + Xn )
n
=
1
V (X)
V (X1 + ... + Xn ) =
n2
n
Soit ε > 0.
L’inégalité de Bienaymé - Tchebychev appliquée à Xn permet d’écrire :
∀ n ∈ N∗ , P
Soit
∀ n ∈ N∗ , P
Et cette relation prouve que P
Xn − E (X) ≥ ε
Xn − E Xn
V Xn
≥ε ≤
ε2
V (X)
Xn − E (X) ≥ ε ≤
nε2
−→ 0. CQFD
n→+∞
Remarque 12.9
L’idée intuitive est que si on mesure une même quantité aléatoire au cours d’une expérience qui consiste en une
suite d’épreuves indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l’espérance.
Comme cas particulier, quand on veut veut estimer la probabilité d’un événement A lié à une expérience aléatoire
donnée, on n’a qu’à répéter cette expérience un grand nombre de fois (d’où la terminologie « loi des grands nombres »)
et observer le nombre de réalisation de l’événement A. En notant Xk = φA l’indicatrice de A à la k ième épreuve,
les Xk sont indépendantes et suivent la loi de Bernoulli de paramètre p = P (A) et Sn = X1 + ... + Xn représente
Sn
X1 + ... + Xn
=
est la fréquence
le nombre de réalisation de A au cours des n premières épreuve et Xn =
n
n
expérimentale de A. La loi des grand nombre explique pourquoi cette fréquence « tend vers p », ce qui permet
d’estimer p.
Exemple 12.8 : estimation de la probabilité d’un événement
i h
Soit p ∈ 0, 1 . On lance N fois de suite une pièce qui a une probabilité p de tomber sur "face" et 1 − p de tomber
r
z
sur "pile". Pour k ∈ 1, N , on note Ak l’événement « la pièce est tombée sur "face" au k-ième lancer » . La variable
n
P
aléatoire Sn =
φAk (1 ≤ n ≤ N ) est le nombre de fois où la pièce est tombée sur "face" au cours des n premiers
k=1
Sn
se concentre autour p lorsque tend n devient
lancers. D’après la loi faible des grands nombres, la loi de Xn =
n
∗
grand . Plus précisément, pour tout ε > 0 et n ∈ N , on a :
P
Sn
p (1 − p)
1
−p ≥ε ≤
≤
n
nε2
4nε2
Illustration de l′ approximation
144
(V (φAk ) = p (1 − p) ≤
1
)
4
6
5
= p et P (X = 0) =
= 1 − p.
On donne la loi de v.a de Bernoulli X : P (X = 1) =
11
11
30
5
et V (X) = p (1 − p) =
On a E (X) = p =
11
121
Soit X1 = φA1 , ..., Xn = φAn les n réalisations (on dit aussi copies) de X. Voici une illustration par des diagrammes
Sn
pour trois valeurs de n.
en bâtons de la loi de Xn =
n
Remarque 12.10
p
V (X)
√
, où c > 0 est arbitraire. On a :
• Dans la dernière inégalité de la démonstration précédente, prenons ε =
n
c
P
Xn − E (X) ≥
c
p
V (X)
√
n
!
≤
1
c2
X1 + ... + Xn
1
est √ .
n
n
• À l’adresse du cours sur l’estimation (hors programme MP), la LFGN montre que la moyenne empirique Xn est
On dit que l’ordre de l’erreur commise en approchant E (X) par la moyenne Xn =
un estimateur convergent de l’espérance.
• À l’adresse de la théorie, Alexandre Khintchine (mathématicien russe) a montré une version plus forte de la LFGN
où l’hypothèse « X admet une variance » est remplacée par l’hypothèse plus faible « X admet une espérance » en
montrant qu’avec cette dernière hypothèse on obtient la convergence en loi de Xn n∈N∗ vers la v.a sûre E (X), ce
qui permet d’obtenir la convergence en probabilité selon le théorème 12.9.
12.4.2
Théorème central limite (TCL)
Vocabulaire et notation
• Pour une v.a.r X est dite centrée si et seulement si elle admet une espérance égale à 0 ; elle est dite réduite si et
seulement si elle admet une variance égale à 1.
• Si la v.a.r X admet une espérance µ et une variance σ 2 > 0 alors la v.a.r X ∗ =
l’appelle la v.a centrée réduite associée à X.
X −µ
est centrée réduite ; on
σ
Remarque 12.11
Si (Xn )n∈N∗ est une suite i.i.d de v.a.r admettant une espérance µ et une variance σ2 > 0 alors le lecteur vérifiera
√
n Xn − µ
∗
est centrée réduite.
que pour tout n ∈ N , la v.a
σ
Théorème 12.14 (TCL)
Soit (Xn )n∈N∗ une suite i.i.d de v.a.r admettant une espérance
µ et une variance σ 2 > 0.
!
√
n Xn − µ
Alors la suite de v.a centrées réduites
converge en loi vers une v.a.r X suivant une loi
σ
∗
normale centrée réduite N (0, 1).
n∈N
145
Preuve
Elle est admise.
Remarque 12.11
Soit (Xn )n∈N∗ une suite i.i.d de v.a.r admettant une espérance µ et une variance σ 2 > 0.
D’après le TCL il existe une v.a X telle que



X ,→ N (0, 1)




!
√


n
X
−
µ
n
L


−→ X


σ
Z x
t2
1
e− 2 dt ; elle est continue. Donc, d’après la proposition 12.2,
La fonction de répartition de X est Φ : x 7−→ √
2π −∞
2
on a pour tout couple (a, b) ∈ (R ∪ {−∞, +∞}) tels que a ≤ b :
P
a≤
Soit
P
a≤
√
√
!
n Xn − µ
≤b
−→ P (a ≤ X ≤ b)
n→+∞
σ
!
Z b
t2
n Xn − µ
1
≤b
−→ √
e− 2 dt
n→+∞
σ
2π a
Exemple 12.9
Une chaîne de montage produit des pièces défectueuses dans une proportion de 10%. On prélève 400 pièces. Quelle
est la probabilité d’obtenir plus de 50 pièces défectueuse parmi les 400.
On modélise la situation par une succession d’épreuves de Bernoulli indépendantes où le succès est de probabilité
µ = 0, 1 (probabilité de trouver une pièce défectueuse) ; le nombre d’épreuve est de n = 400. On note Xk la v.a égale
à 1 si le k ième test amène une pièce défectueuse et 0 sinon.
Les Xk sont indépendantes et de même loi, B (µ) ; elles sont d’espérance µ et de variance σ2 = µ (1 − µ) =
(0, 1) . (0, 9) = 0, 09.
On pose Sn = X1 + ... + Xn , en sorte que
la probabilité qu’on veut calculer est P (Sn ≥ 50).
√
n Xn − µ
√
Sn
Sn − nµ
√ . Comme nµ = 40 et σ n = 0, 3 × 20 = 6, on a
Notons Xn =
et Tn =
=
n
σ
σ n
5
Sn ≥ 50 = 6Tn + 40 ≥ 50 = Tn ≥
3
Vu que le nombre 400 est « grand », le TCL permet l’approximation
P (Sn ≥ 50) = P
5
Tn ≥
3
1
≃√
2π
Z +∞
5/3
e
t2
−2
5
≃ 0, 0485
dt ≃ 1 − Φ
3
La valeur approchée est fournie par la table de valeur de Φ.
Il y a donc un peu moins que 5% de chance de trouver plus que 50 pièces défectueuses parmi 400.
146
Download