Uploaded by Hadil Dhifi

Exercice ACP (1)

advertisement
Module : Analyse et Fouille de Données
Auditoire: D-LSI-ADBD
A-U: 2020-2021
Responsable du Cours: Souhir Bouaziz Affes
Exercice Corrigé : ACP
Enoncé :
Soit le tableau de données suivant :
Noam
Jean
Li
Informatique
4
6
8
Gestion
5
7
0
Où les lignes représentent les individus (noms de quelques étudiants) et les colonnes les
variables (notes en informatique et gestion). Ce tableau de données peut être représenté par la
matrice 𝑋 de données brutes :
4 5
𝑋 = ( 6 7)
8 0
1. Calculer la matrice 𝑀 = 𝑋 − 𝑋Ė… des données centrées et la matrice 𝑍 de données
centrées et réduites.
2. Calculer la matrice đļ(𝑋) des covariances de 𝑋 et la matrice 𝑅 (𝑋) des corrélations de 𝑋.
3. Vérifier que λ 1 ī€Ŋ 10.152 et λ 2 ī€Ŋ 1.188 sont deux valeurs propres associées à đļ(𝑋).
Puis vérifier que les vecteurs unitaires :
−0.407
0.914
𝑉1 = (
) 𝑒𝑡 𝑉2 = (
)
0.914
0.407
sont les vecteurs propres de đļ(𝑋) associés à 𝜆1 𝑒𝑡 𝜆2 respectivement.
4. À partir des résultats précédents, déterminer les deux composantes principales de l’ACP
du nuage des individus associé au tableau 𝑋. Pour chacun de ces axes, préciser le
pourcentage de la quantité d’information projetée sur l’axe considéré, et le pourcentage
cumulé.
5. Déterminer la matrice des scores des individus.
Correction :
1. ff
18
12
đ‘Ĩ1 = 3 = 6
Ė…Ė…Ė…
đ‘Ĩ2 = 3 = 4
Ė…Ė…Ė…
𝜎(đ‘Ĩ1 ) = 1.633 𝜎 (đ‘Ĩ2 ) = 2.944
1
−2 1
𝑀 = 𝑋 − 𝑋Ė… = ( 0 3 )
2 −4
−1.225
𝑍 = (0
1.225
0.34
1.02 )
−1.36
2.
116
𝑉𝑎𝑟(x1 ) = 3 − 62 = 2.67
74
𝑉𝑎𝑟(x1 ) = 3 − 42 = 8.67
Cov(x1 , x2 ) =
đļ (𝑋 ) = (
((−2)×1)+(0×3)+(2×(−4))
2.67
−3.33
3
−3.33
)
8.67
= −3.33
𝑅 (𝑋 ) = (
1
−0.69
)
−0.69
1
3. La matrice de covariances đļ de taille 𝑝 đ‘Ĩ 𝑝, elle admet p valeurs propres et 𝑝 vecteurs
propres associés, tels que :
đļ 𝑉𝑗 = 𝜆𝑗 𝑉𝑗
Dans notre exemple à deux variables, đļ admet 2 valeurs propres et 2 vecteurs propres
tels que soit vérifié les égalités suivantes :
(
đ‘Ŗ11
2.67 −3.33 đ‘Ŗ11
) (đ‘Ŗ ) = 𝜆1 (đ‘Ŗ )
−3.33 8.67
12
12
(
đ‘Ŗ21
2.67 −3.33 đ‘Ŗ21
) (đ‘Ŗ ) = 𝜆2 (đ‘Ŗ )
−3.33 8.67
22
22
ī‚ˇ
Résolution de l’équation 𝑑𝑒𝑡(đļ – 𝜆đŧ) = 0
īƒĻ 2.67 - 3.33īƒļ īƒĻ 1 0 īƒļ
īƒˇīƒˇ ī€­ λ īƒ§īƒ§
īƒˇīƒˇ
C ī€­ λI ī€Ŋ īƒ§īƒ§
īƒ¨ - 3.33 8.67 īƒ¸ īƒ¨ 0 1 īƒ¸
īƒĻ 2.67 ī€­ λ - 3.33 īƒļ
īƒˇīƒˇ
C ī€­ λI ī€Ŋ īƒ§īƒ§
īƒ¨ - 3.33 8.67 ī€­ λ īƒ¸
det(C ī€­ λI) ī€Ŋ ī€¨2.67 ī€­ λ ī€Šī€¨8.67 ī€­ λ ī€Š ī€­ 3.332 ī€Ŋ 0
λ 2 ī€­ 11.34 λ ī€Ģ 12.06 ī€Ŋ 0
Δ ī€Ŋ b2 ī€­ 4ac ī€Ŋ 80.3556
λ1 ī€Ŋ
ī€­bī€Ģ Δ
ī€Ŋ 10.152
2a
ī‚ˇ
λ2 ī€Ŋ
ī€­bī€­ Δ
ī€Ŋ 1.188
2a
Résolution des 2 systèmes d’équations đļ𝑉𝑗 − 𝜆𝑗 𝑉𝑗 = 0
īƒŦ 2.67 ī‚´ v 11 - 3.33 ī‚´ v 12 ī€­ 10.152 ī‚´ v 11 ī€Ŋ 0
(I)
īƒ­
īƒŽī€­ 3.33 ī‚´ v 11 ī€Ģ 8.67 ī‚´ v 12 ī€­ 10.152 ī‚´ v 12 ī€Ŋ 0
2
īƒŦ 2.67 ī‚´ v 21 - 3.33 ī‚´ v 22 ī€­ 1.188 ī‚´ v 21 ī€Ŋ 0
(II)
īƒ­
īƒŽī€­ 3.33 ī‚´ v 21 ī€Ģ 8.67 ī‚´ v 22 ī€­ 1.188 ī‚´ v 22 ī€Ŋ 0
ī‚ˇ
Une solution possible : les vecteurs unitaires :
2
v ī€Ģ v 12
ī€Ŋ 1 et v 221 ī€Ģ v 222 ī€Ŋ 1
2
11
īƒ˜ Prenons l’équation : 2.67 ī‚´ v11 - 3.33 ī‚´ v12 ī€­ 10.152 ī‚´ v11 ī€Ŋ 0 du
système (I)
- 7.482 ī‚´ v 11 - 3.33 ī‚´ v 12 ī€Ŋ 0 īƒ  v 11 ī€Ŋ -0.445 ī‚´ v 12
2
2
Remplacer dans : v 11
ī€Ģ v 12
ī€Ŋ1
2
2
0.4452 v 12
ī€Ģ v 12
ī€Ŋ1 īƒ 
Solution possible : v 12 ī€Ŋ 0.914
v 11 ī€Ŋ ī€­0.407
īƒ˜ Prenons l’équation : 2.67 ī‚´ v 21 - 3.33 ī‚´ v 22 ī€­ 1.188 ī‚´ v 21 ī€Ŋ 0 du
système (II)
1.482 ī‚´ v 21 - 3.33 ī‚´ v 22 ī€Ŋ 0 īƒ  v 21 ī€Ŋ 2.247 ī‚´ v 22
Remplacer dans : v 221 ī€Ģ v 222 ī€Ŋ 1
2.2472 v 222 ī€Ģ v 222 ī€Ŋ 1 īƒ 
Solution possible : v 22 ī€Ŋ 0.407
v 21 ī€Ŋ 0.914
4.
īƒĻ ī€­ 0.407
Q ī€Ŋ īƒ§īƒ§
īƒ¨ 0.914
0.914 īƒļ
īƒˇ : Matrice des deux composantes principales de l’ACP
0.407 īƒˇīƒ¸
λ 1 ī€Ģ λ 2 ī€Ŋ Var(x 1 ) ī€Ģ Var(x 2 )
10.152 + 1.188 = 2.67 + 8.67 = 11.34
Valeur propre
Pourcentage
Pourcentage cumulé
CP1
10.152
89,524
89,524
CP2
1.188
10,476
100
5.
−2 1
1.728 −1.42
−0.407 0,914
Ė… ) 𝑄 = 𝑀 𝑄 = [0
] = [ 2.742 1.221 ]
𝑌 = (đ‘ŋ − đ‘ŋ
3] × [
0,914 0,407
2 −4
−4.47
0.2
3
Download