Statistiques à deux variables et probabilités

Statistiques à deux variables Lois de probabilités Corrélation Nuage de points Un nuage de points est la donnée de n points du plan (que l’on supposera distincts). Point moyen Lois discrètes Variable aléatoire discrète 𝑥̅ = Covariance 𝑛 𝑛 𝑖=1 𝑖=1 1 1 ∑ 𝑥𝑖 𝑒𝑡 𝑦̅ = ∑ 𝑦𝑖 𝑛 𝑛 𝒏 𝒄𝒐𝒗(𝒙, 𝒚) = 𝟏 ̅)( 𝒚𝒊 − 𝒚 ̅) ∑(𝒙𝒊 − 𝒙 𝒏 𝒊=𝟏 Propriétés : 1. 2. 3. ̅𝒚 ̅ 𝒄𝒐𝒗(𝒙, 𝒚) = ( ∑𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 ) − 𝒙 𝒏 𝒄𝒐𝒗(𝒙, 𝒙) = 𝑽(𝒙) ∀(𝜶, 𝜷, 𝝀, 𝝁) ∈ ℝ, 𝒄𝒐𝒗(𝜶𝒙 + 𝜷, 𝝀𝒚 + 𝝁) = 𝜶𝝀𝒄𝒐𝒗(𝒙, 𝒚) Coefficient de corrélation Définition : Soient 𝝈𝒙 et 𝝈𝒚 les écarts-types des deux caractères, 𝒄𝒐𝒗(𝒙, 𝒚) la covariance du couple (𝒙, 𝒚). Le coefficient de corrélation noté 𝝆(𝒙, 𝒚) de la série statistique à deux variables est par définition le réel : 𝒄𝒐𝒗(𝒙, 𝒚) 𝒓= 𝝈𝒙 𝝈𝒚 Théorème : |𝒓| ≤ 𝟏 Ajustement linéaire Principe On dispose d'un certain nombre de points (𝒙𝒊 , 𝒚𝒊), 𝟏 ≤ 𝒊 ≤ 𝒏, formant un nuage statistique, et on cherche à traduire la dépendance entre 𝒙 et 𝒚 par une relation de la forme 𝒚 = 𝒂𝒙 + 𝒃 ou 𝒙 = 𝒂′𝒙 + 𝒃′ où 𝒂, 𝒃, 𝒂′ et 𝒃′ sont des réels. Méthode des moindres carrés - Soient 𝑴𝒊 les points du nuage de coordonnées, dans un repère orthonormal et 𝑫 une droite d'équation : 𝒚 = 𝒂𝒙 + 𝒃. - Désignons par 𝑯𝒊 le point de 𝑫 d'abscisse 𝒙𝒊. - La méthode des moindres carrés consiste à choisir pour une droite d'ajustement celle pour laquelle la quantité : 𝒏 𝒇(𝒂, 𝒃) = ∑ 𝑴𝒊 𝑯𝒊 ² 𝒊=𝟏 𝑐𝑜𝑣(𝑥, 𝑦) 𝑉(𝑥) 𝑏 = 𝑦̅ − 𝑎𝑥̅ 𝑎= Equation de la variance Variance résiduelle 𝒏 𝑽𝒓 = 𝟏 ∑(𝒚𝒊 − 𝒚̂𝒊 )² 𝒏 𝒊=𝟏 Variance expliquée 𝒏 𝑽𝒆 = 𝟏 ̅)² ∑(𝒚̂𝒊 − 𝒚 𝒏 𝒊=𝟏 Théorème de la variance 𝑉(𝑦) = 𝑉𝑟 + 𝑉𝑒 𝑛 𝑉(𝑦) = 1 ∑(𝑦𝑖 − 𝑦̅)² 𝑛 𝑖=1 1. 2. 3. 4. Espérance ℙ𝑋 (𝑥) = ℙ[𝑋 = 𝑥], ∀𝑥 ∈ 𝑋(Ω) 𝑁 Expression de 𝑉𝑒 et 𝑉𝑟 en fonction de 𝑉(𝑦) et 𝑟 𝑉𝑒 𝑟2 = 𝑉 𝑉𝑒 = 𝑟²𝑉 𝑉𝑟 = 𝑉 − 𝑉𝑒 = 𝑉(1 − 𝑟 2 ) Interprétation du coefficient de corrélation Si |𝑟| = 1, il y a une dépendance linéaire totale (corrélation linéaire parfaite et les points de nuage sont alignés). Si |𝑟| ≈ 1, il y a une dépendance linéaire de 𝑥 et 𝑦 d’autant plus forte que 𝑟 est voisin de 1). Si |𝑟| = 0, il y a une indépendance totale de 𝑥 et 𝑦. Si |𝑟| ≈ 0, on a une corrélation linéaire très faible ou inexistante. 𝑁 𝔼[𝑋] = ∑ 𝑝𝑖 𝑥𝑖 = ∑ 𝑥𝑖 ℙ[𝑋 = 𝑥𝑖 ] 𝑖=1 𝟏 est minimale. Détermination de 𝒂 et 𝒃 Ω→ℝ 𝑋: { 𝜔 → 𝑋(𝜔) Loi de probabilité d’une variable aléatoire discrète 𝑖=1 Variance La variance mesure ainsi la déviation moyenne autour de la moyenne espérée E[X], et est définie par 𝑵 𝑽(𝑿) = 𝔼[(𝑿 − 𝔼[𝑿])𝟐 ] = ∑ 𝒑𝒊 (𝒙𝒊 − 𝔼[𝑿])² 𝒊=𝟏 𝑽(𝑿) = 𝔼[𝑿𝟐 ] − (𝔼[𝑿])² Théorème de la non-linéarité de la variance Pour toute variable aléatoire 𝑋 et 𝑎, 𝑏 ∈ 𝑅, on a 𝑉(𝑎𝑋 + 𝑏) = 𝑎²𝑉(𝑋) Ecart-type Etant donnée une variable aléatoire discrète X qui possède une espérance 𝔼[𝑿] et une variance 𝑽(𝑿), on appelle écart-type de 𝑿 le réel 𝝈(𝑿) = √𝑽(𝑿) Pour mesurer la dispersion d’une variable aléatoire 𝑿 autour de sa moyenne, on considère souvent en statistiques l’écart-type. En effet, la variance était homogène à 𝑿² tandis que l’écart-type est homogène à 𝑿. Propriété 𝜎(𝑎𝑋 + 𝑏) = |𝑎|𝜎(𝑋) Inégalité de Markov 𝔼[𝑋] = 𝑚 𝑚 ∀𝑎 > 0, ℙ[𝑋 ≥ 𝑎] ≤ 𝑎 Inégalité de Bienaymé-Tchebychev 𝔼[𝑋] = 𝑚 𝜎² ∀𝑏 > 0, ℙ[|𝑋 − 𝑚| ≥ 𝑏] ≤ 𝑏² Lois classiques discrètes Loi uniforme Situation modèle : Tirage, ds le cas d’équiprobabilité, d’un élément parmi n éléments numérotés de 1 à n et X = num tiré. Définition : 𝑋 → 𝑈(𝑛) ou 𝑋 → 𝑈({1, 2,· · · , 𝑛}) si 1 𝑋(Ω) = {1,2, … , 𝑛}, ∀𝑘 ∈ {1,2, … , 𝑛}, ℙ[𝑋 = 𝑘] = 𝑛 𝑛+1 𝑛2 −1 Espérance et Variance : 𝔼[𝑋] = et 𝑉(𝑋) = 2 12 Loi de Bernoulli Situation modèle : Epreuve de Bernoulli, p = probabilité de succès, X = nombre de succès. Définition : Epreuve de Bernoulli = expérience aléatoire →2 éventualités « succès » et « échec » 𝑋 → 𝐵(𝑝) ou 𝑋 → 𝐵(1, 𝑝) si 𝑋(Ω) = {0,1}, ℙ[𝑋 = 1] = 𝑝, ℙ[𝑋 = 0] = 1 − 𝑝 Espérance et Variance : 𝔼[𝑋] = 𝑝 et 𝑉(𝑋) = 𝑝(1 − 𝑝) Loi binomiale Définition : Répétition en nbr fini d’une épreuve de Bernoulli ds les mêmes condit° et de manière indé. 𝑋 → 𝐵(𝑛, 𝑝) si 𝑋(Ω) = {1, … , 𝑛}, 𝑛 ∀𝑘 ∈ {1,2, … , 𝑛}ℙ[𝑋 = 𝑘] = ( ) 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 𝑘 Proba d’échec : 𝑞 = 1 − 𝑝 Espérance et Variance : 𝔼[𝑋] = 𝑛𝑝 et 𝑉(𝑋) = 𝑛𝑝(1 − 𝑝) Loi de Poisson Situation modèle : Il n’y en a pas vraiment. Les lois de Poisson mesurent par exemple des flux d’individus pendant un temps donné : nombre de clients à une caisse de supermarché pendant une heure, ou nombre de voitures se présentant à un péage d’autoroute pendant une période fixée ou le nombre d’appels reçus par un standard téléphonique, etc. Définition : Une variable aléatoire discrète X suit la loi de Poisson de paramètre 𝝀 ∈]𝟎, +∞[, ce que l’on note 𝑿 → 𝑷(𝝀), si 𝑿(𝛀) = ℕ, ∀𝒌 ∈ ℕ, ℙ[𝑿 = 𝒌] = Espérance et Variance : 𝔼[𝑿] = 𝝀 et 𝑽(𝑿) = 𝝀 𝝀𝒌 𝒌! 𝒆−𝝀 Lois continues Fonction de répartition Définition : 1. 2. 3. 4. 5. Loi normale générale 𝑵(𝝁, 𝝈) Définition : 𝑋 → 𝑁(𝜇, 𝜎 2 ) si 𝑍 = 𝐹𝑋 (𝑥) = ℙ[𝑋 ≤ 𝑥] = ℙ[𝑋 < 𝑥] Propriétés : 0 ≤ 𝐹𝑋 ≤ 1 𝐹𝑋 tend vers 0 en −∞ et vers 1 en +∞ 𝐹𝑋 est croissante 𝐹𝑋 est continue à droite ℙ[𝑎 < 𝑋 ≤ 𝑏] = 𝐹𝑋 (𝑏) − 𝐹𝑋 (𝑎) Densité de probabilité Densité : 𝑓(𝑥) = 𝑏 𝑎 3. Propriétés : ∀𝑥 ∈ ℝ, 𝑓(𝑥) ≥ 0 +∞ ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1 √2𝜋𝜎 𝑒 𝜎 suit une loi normale centre réduite. Espérance et Variance : 𝔼[𝑋] = 𝜇 et 𝑉(𝑋) = 𝜎² Théorème Cas discret : X et Y indé ssi ℙ[𝑋 = 𝑥, 𝑌 = 𝑦] = ℙ[𝑋 = 𝑥]ℙ[𝑌 = 𝑦] Cas continu : X et Y indé ssi 𝑓(𝑠, 𝑡) = 𝑓(𝑠)𝑓(𝑡) Théorèmes limites Loi des grands nombres Soient 𝑋1 , … , 𝑋𝑛 des VAR indé, de même loi 𝜇 = 𝔼[𝑋1 ], ∀𝜖 > 0, 𝑋1 + ⋯ + 𝑋𝑛 ℙ (𝑎 − 𝜇 > 𝜖) → 0 𝑛→+∞ 𝑛 Théorème central limite ℙ[𝑎 ≤ 𝑋 ≤ 𝑏] = ∫ 𝑓(𝑡) 𝑑𝑡 1. 2. 1 𝑋−𝜇 −(𝑥−𝜇)2 2𝜎2 𝐿 Soit (𝑌𝑛 )𝑛∈ℕ une suite de VAR et Y une VAR admettant une var. (𝑌𝑛 )𝑛∈ℕ → 𝑌 si en tt pt 𝑥0 , on a : 𝐹𝑌𝑛 (𝑥0 ) = ℙ[𝑌𝑛 ≤ 𝑥0 ] → 𝐹𝑌(𝑥0 ) = ℙ[𝑌 ≤ 𝑥0 ] 𝑏 𝑛→+∞ ℙ[𝑎 < 𝑋 ≤ 𝑏] = 𝐹𝑋 (𝑏) − 𝐹𝑋 (𝑎) = ∫𝑎 𝑓(𝑥)𝑑𝑥 Si VA X a une densité f, alors ∀𝑎, 𝑃[𝑋 = 𝑎] = 0. Paramètres d’une loi continue Espérance : Théorème (TCL) Soient 𝑋1 , … , 𝑋𝑛 des VAR indé, de même loi, admettant une var. On note 𝜇 = 𝔼[𝑋1 ] et 𝜎 2 = 𝑉(𝑋1 ). Alors 𝑋1 + ⋯ + 𝑋𝑛 − 𝑛𝜇 𝐿 → 𝑁(0,1) 𝑙𝑜𝑟𝑠𝑞𝑢𝑒 𝑛 → +∞ 𝜎√𝑛 Approximation d’une loi binomiale Approximation par une loi normale 𝔼[𝑋] = ∫ 𝑡𝑓(𝑡)𝑑𝑡 ℝ Soit g(x) une fct quelconque : On peut approcher la loi de la VAR 𝔼[𝑔(𝑋)] = ∫ 𝑔(𝑡)𝑓(𝑡)𝑑𝑡 ℝ Variance : 𝑉(𝑋) = 𝔼[(𝑋 − 𝔼[𝑋])2 ] = ∫ (𝑡 − 𝔼[𝑋])2 𝑓(𝑡)𝑑𝑡 ℝ 2 𝑌−𝑛𝑝 √𝑛𝑝(1−𝑝) par une loi 𝑁(0,1)  approcher la loi de 𝑌 par 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝)). Pr que cette approx st bonne, il faut que la moy de la binomiale soit suffisamment grde devant son écart-type, donc 𝑛𝑝 ≫ √𝑛𝑝(1 − 𝑝), donc 𝑛𝑝 ≫ 1 − 𝑝. Ds la pratique, on considère que l’approx est bonne lorsque 𝑛 ≥ 30, 𝑛𝑝 ≥ 5 et 𝑛(1 − 𝑝) > 5. 𝑝 ne doit dc pas être trop proche de 0 ou de 1. 𝑉(𝑋) = 𝔼[𝑋 2 ] − (𝔼[𝑋])2 = ∫ 𝑡²𝑓′𝑡)𝑑𝑡 − (∫ 𝑡𝑓(𝑡)𝑑𝑡) ℝ • • • ℝ Propriétés : 𝑉(𝜆) = 0 𝑉(𝑋 + 𝜆) = 𝑉(𝑋) 𝑉(𝜆𝑋) = 𝜆²𝑉(𝑋) Ecart-type : Soit 𝑌𝑛 une VAR binomiale (n,p). On suppose que 𝑛 → +∞ et 𝑝 = ∀𝑘 ∈ ℕ, lim ℙ[𝑌𝑛 = 𝑘] = 𝜎(𝑋) = √𝑉(𝑋) 𝑛→+∞ Quantile q : 𝑖 𝐹𝑋−1 ( ) , 𝑖 ∈ {1,2, … , 𝑞 − 1} 𝑞 Lois usuelles Loi uniforme 𝑋 → 𝑈([𝑎, 𝑏]) si sur [a,b] : 1 𝑠𝑖 𝑥 ∈ [𝑎, 𝑏] 0 𝑠𝑖𝑛𝑜𝑛. 𝑏+𝑎 (𝑏−𝑎)² Espérance et Variance : 𝔼[𝑋] = et 𝑉(𝑋) = Densité : 𝑓(𝑥) = {𝑏−𝑎 2 12 0 𝑠𝑖 𝑥 ≤ 𝑎 𝑠𝑖 𝑥 ∈ [𝑎, 𝑏] 𝑥−𝑎 Fonction de répartition : 𝐹𝑋 (𝑥) = {𝑏−𝑎 1 𝑠𝑖 𝑥 ≥ 𝑏 Loi exponentielle Définition : 𝜆 > 0, 𝑋 → E(λ) −𝜆𝑥 𝑠𝑖 𝑥 ≥ 0 Densité : 𝑓(𝑥) = 𝜆𝑒 −𝜆𝑥 1ℝ+ (𝑥) = {𝜆𝑒 0 𝑠𝑖𝑛𝑜𝑛 1 1 Espérance et Variance : 𝔼 = et 𝑉(𝑋) = 𝜆 𝜆² Fonction de répartition : 𝑥 −𝜆𝑥 𝑠𝑖 𝑥 ≥ 0 𝐹𝑋 (𝑥) = ∫ 𝑓(𝑡)𝑑𝑡 = {1 − 𝑒 0 𝑠𝑖𝑛𝑜𝑛 −∞ La loi exp est utilisée en fiabilité. 𝜆 rép le taux moyen de défaillance alors 1 que 𝜃 = est le temps moyen de bon fonctionnement. 𝜆 Loi normale Loi normale centrée réduite (loi gaussienne) 𝑵(𝟎, 𝟏) Définition : 𝑋 → 𝑁(0,1) Densité : 𝑓(𝑥) = Approximation par une loi de Poisson Lorsque 𝑝 est très petit, 𝑝 < 0.1 et 𝑛 > 50. 1 √2𝜋 𝑥2 𝑒− 2 Fonction de répartition : 𝑥 𝐹𝑋 (𝑥) = ∫ 1 𝑡2 𝑒 − 2 𝑑𝑡 −∞ √2𝜋 Espérance et Variance : 𝔼[𝑋] = 0 et 𝑉(𝑋) = 1 𝜆𝑘 −𝜆 𝑒 𝑘! 𝜆 𝑛 où 𝜆 > 0.

Statistiques à deux variables et probabilités

Related documents

Products

Support

Statistiques à deux variables et probabilités

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib