Module : Analyse et Fouille de Données Auditoire: D-LSI-ADBD A-U: 2020-2021 Responsable du Cours: Souhir Bouaziz Affes Exercice Corrigé : ACP Enoncé : Soit le tableau de données suivant : Noam Jean Li Informatique 4 6 8 Gestion 5 7 0 Où les lignes représentent les individus (noms de quelques étudiants) et les colonnes les variables (notes en informatique et gestion). Ce tableau de données peut être représenté par la matrice đ de données brutes : 4 5 đ = ( 6 7) 8 0 1. Calculer la matrice đ = đ − đĖ des données centrées et la matrice đ de données centrées et réduites. 2. Calculer la matrice đļ(đ) des covariances de đ et la matrice đ (đ) des corrélations de đ. 3. Vérifier que λ 1 īŊ 10.152 et λ 2 īŊ 1.188 sont deux valeurs propres associées à đļ(đ). Puis vérifier que les vecteurs unitaires : −0.407 0.914 đ1 = ( ) đđĄ đ2 = ( ) 0.914 0.407 sont les vecteurs propres de đļ(đ) associés à đ1 đđĄ đ2 respectivement. 4. À partir des résultats précédents, déterminer les deux composantes principales de l’ACP du nuage des individus associé au tableau đ. Pour chacun de ces axes, préciser le pourcentage de la quantité d’information projetée sur l’axe considéré, et le pourcentage cumulé. 5. Déterminer la matrice des scores des individus. Correction : 1. ff 18 12 đĨ1 = 3 = 6 Ė Ė Ė đĨ2 = 3 = 4 Ė Ė Ė đ(đĨ1 ) = 1.633 đ (đĨ2 ) = 2.944 1 −2 1 đ = đ − đĖ = ( 0 3 ) 2 −4 −1.225 đ = (0 1.225 0.34 1.02 ) −1.36 2. 116 đđđ(x1 ) = 3 − 62 = 2.67 74 đđđ(x1 ) = 3 − 42 = 8.67 Cov(x1 , x2 ) = đļ (đ ) = ( ((−2)×1)+(0×3)+(2×(−4)) 2.67 −3.33 3 −3.33 ) 8.67 = −3.33 đ (đ ) = ( 1 −0.69 ) −0.69 1 3. La matrice de covariances đļ de taille đ đĨ đ, elle admet p valeurs propres et đ vecteurs propres associés, tels que : đļ đđ = đđ đđ Dans notre exemple à deux variables, đļ admet 2 valeurs propres et 2 vecteurs propres tels que soit vérifié les égalités suivantes : ( đŖ11 2.67 −3.33 đŖ11 ) (đŖ ) = đ1 (đŖ ) −3.33 8.67 12 12 ( đŖ21 2.67 −3.33 đŖ21 ) (đŖ ) = đ2 (đŖ ) −3.33 8.67 22 22 īˇ Résolution de l’équation đđđĄ(đļ – đđŧ) = 0 īĻ 2.67 - 3.33īļ īĻ 1 0 īļ īˇīˇ ī λ ī§ī§ īˇīˇ C ī λI īŊ ī§ī§ ī¨ - 3.33 8.67 ī¸ ī¨ 0 1 ī¸ īĻ 2.67 ī λ - 3.33 īļ īˇīˇ C ī λI īŊ ī§ī§ ī¨ - 3.33 8.67 ī λ ī¸ det(C ī λI) īŊ ī¨2.67 ī λ īŠī¨8.67 ī λ īŠ ī 3.332 īŊ 0 λ 2 ī 11.34 λ īĢ 12.06 īŊ 0 Δ īŊ b2 ī 4ac īŊ 80.3556 λ1 īŊ ībīĢ Δ īŊ 10.152 2a īˇ λ2 īŊ ībī Δ īŊ 1.188 2a Résolution des 2 systèmes d’équations đļđđ − đđ đđ = 0 īŦ 2.67 ī´ v 11 - 3.33 ī´ v 12 ī 10.152 ī´ v 11 īŊ 0 (I) ī īŽī 3.33 ī´ v 11 īĢ 8.67 ī´ v 12 ī 10.152 ī´ v 12 īŊ 0 2 īŦ 2.67 ī´ v 21 - 3.33 ī´ v 22 ī 1.188 ī´ v 21 īŊ 0 (II) ī īŽī 3.33 ī´ v 21 īĢ 8.67 ī´ v 22 ī 1.188 ī´ v 22 īŊ 0 īˇ Une solution possible : les vecteurs unitaires : 2 v īĢ v 12 īŊ 1 et v 221 īĢ v 222 īŊ 1 2 11 ī Prenons l’équation : 2.67 ī´ v11 - 3.33 ī´ v12 ī 10.152 ī´ v11 īŊ 0 du système (I) - 7.482 ī´ v 11 - 3.33 ī´ v 12 īŊ 0 ī v 11 īŊ -0.445 ī´ v 12 2 2 Remplacer dans : v 11 īĢ v 12 īŊ1 2 2 0.4452 v 12 īĢ v 12 īŊ1 ī Solution possible : v 12 īŊ 0.914 v 11 īŊ ī0.407 ī Prenons l’équation : 2.67 ī´ v 21 - 3.33 ī´ v 22 ī 1.188 ī´ v 21 īŊ 0 du système (II) 1.482 ī´ v 21 - 3.33 ī´ v 22 īŊ 0 ī v 21 īŊ 2.247 ī´ v 22 Remplacer dans : v 221 īĢ v 222 īŊ 1 2.2472 v 222 īĢ v 222 īŊ 1 ī Solution possible : v 22 īŊ 0.407 v 21 īŊ 0.914 4. īĻ ī 0.407 Q īŊ ī§ī§ ī¨ 0.914 0.914 īļ īˇ : Matrice des deux composantes principales de l’ACP 0.407 īˇī¸ λ 1 īĢ λ 2 īŊ Var(x 1 ) īĢ Var(x 2 ) 10.152 + 1.188 = 2.67 + 8.67 = 11.34 Valeur propre Pourcentage Pourcentage cumulé CP1 10.152 89,524 89,524 CP2 1.188 10,476 100 5. −2 1 1.728 −1.42 −0.407 0,914 Ė ) đ = đ đ = [0 ] = [ 2.742 1.221 ] đ = (đŋ − đŋ 3] × [ 0,914 0,407 2 −4 −4.47 0.2 3