Analisis Regresi 2 Pokok Bahasan : Mendeteksi pencilan dan penanganannya TUJUAN INSTRUKSIONAL KHUSUS : Mahasiswa dapat mendeteksi adanya pencilan pada regresi linier berganda Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB Pencilan “Pencilan adalah pengamatan yang nilai mutlak sisaannya jauh lebih besar daripada sisaan-sisaan lainnya” Bisa jadi terletak pada tiga atau empat simpangan baku atau lebih jauh lagi dari rata-rata sisaannya. Keberadaan pencilan harus diperiksa dengan seksama, apakah pencilan itu merupakan kesalahan dalam pencatatan amatan atau pencilan tersebut muncul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB Mendeteksi Adanya Pencilan Sisaan Terbakukan (Standardized residuals) Jarak Cook (Cook’s distance ) Jarak Cook (Cook’s distance) 1 Di = k+1 hi 1 - hi Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB (standardized residual)2 Mendeteksi Adanya Pencilan (lanjutan) SISAAN TERBAKUKAN Yi ei • Hitung nilai ri s 1 hii dengan hii 1 n xi x 2 n xk x 2 i 1 • Jika nilai |ri|>2, amatan tsb dapat dikatakan sebagai pencilan Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB Xi ri 7.46 10 -0.46018 6.77 8 -0.19633 12.74 13 2.99999 7.11 9 -0.33085 7.81 11 -0.59695 8.84 14 -1.13497 6.08 6 0.07042 5.39 4 0.3807 8.15 12 -0.75518 6.42 7 -0.06974 5.73 5 0.21188 Pencilan (lanjutan) DATA LENGKAP DATA TANPA PENCILAN Scatterplot of Y tnp pclan vs X tnp pclan 13 12 12 11 11 10 10 Y tnp pclan Y-3 Scatterplot of Y-3 vs X-3 13 9 8 9 8 7 7 6 6 5 5 5,0 7,5 10,0 12,5 15,0 5,0 7,5 X-3 Coef 3.002 0.4997 S = 1.23631 SE Coef 1.124 0.1179 12,5 Y = 4.01 + 0.345 X Y = 3.00 + 0.500 X Predictor Constant X 10,0 X tnp pclan T P 2.67 0.026 4.24 0.002 R-Sq = 66.6% Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB Predictor Constant X Coef 4.00565 0.345390 S = 0.00308168 SE Coef 0.00292 0.000321 P 0.000 0.000 R-Sq = 100.0% 15,0 Pencilan (lanjutan) Plot sisaan baku (ri) vs dugaan Y Data Lengkap Data Tanpa Pencilan Scatterplot of sisaan2 vs dugaan-Y2 Scatterplot of s baku tnp pcl vs dugaan tnppcl 2.0 3 1.5 1.0 s baku tnp pcl sisaan2 2 1 0.5 0.0 -0.5 0 -1.0 -1 -1.5 5 6 7 8 9 dugaan-Y2 Tebaran berpola, karena (1) ada pencilan, atau (2) model tidak pas 10 5 6 7 dugaan tnppcl 8 Tebaran tidak berpola, menyebar di sekitar nilai nol, lebar pita relatif sama Mengeluarkan data pencilan dari analisis: • mampu memperbaiki pola tebaran sisaan yang tadinya berpola (garis lurus) • harus dilakukan dengan kehati-hatian yang tinggi. Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB 9 Amatan Berpengaruh AMATAN BERPENGARUH : berkaitan dengan besarnya perubahan yang terjadi pada dugaan parameter regresi jika pengamatan tersebut disisihkan X1 1 1 1 1,2 1,2 1,2 1,3 1,3 1,3 1,4 1,4 1,4 1,5 1,5 1,5 1,6 1,6 1,6 4,0 Y1 2,11 1,39 0,78 2,02 2,46 3,67 2,56 1,74 1,88 5,15 2,41 2,00 3,56 3,09 0,78 4,29 3,33 3,10 15,00 Unusual Observations Scatterplot of Y1 vs X1 16 14 Obs X1 Y1 Fit 10 1,40 5,147 2,895 15 1,50 0,776 3,345 19 4,00 15,000 14,576 12 Y1 10 8 6 SE Fit 0,244 0,243 1,009 Residual 2,252 -2,569 0,424 St Resid 2,19 R -2,50 R 1,34 X 4 2 0 1,0 1,5 2,0 2,5 X1 3,0 3,5 4,0 Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Amatan Berpengaruh (lanjutan) OUTPUT MINITAB The regression equation is Y1 = - 3,39 + 4,49 X1 S = 1,05749 R-Sq = 88,8% R-Sq(adj) = 88,1% Analysis of Variance Source DF SS Regression 1 150,10 Residual Error 17 19,01 Total 18 169,11 Unusual Observations Obs X1 Y1 Fit 10 1,40 5,147 2,895 15 1,50 0,776 3,345 19 4,00 15,000 14,576 MS 150,10 1,12 SE Fit 0,244 0,243 1,009 F P 134,22 0,000 Residual 2,252 -2,569 0,424 St Resid 2,19 R -2,50 R 1,34 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB Hasil analisis regresi dari data tersebut menunjukkan bahwa ada 3 amatan yg aneh, yaitu amatan ke 10,15, dan 19. Amatan 10 dan 15 berpotensi sebagai pencilan. Amatan 19 berpotensi sebagai amatan berpengaruh Bandingkan dg data tanpa amatan 19. Apakah perubahan dugaan parameter regresi cukup nyata? Amatan Berpengaruh (lanjutan) Statistik Uji untuk Mendeteksi Amatan Berpengaruh Pengaruh titik data ke-i diukur dengan jarak Cook ( Cook’s Distance) : ei Di 1 2 s1 hii 2 2 hii 1 1 h ii p Keterangan: s2 = dugaan bagi ragam Yi = KTsisaan hii = unsur diagonal ke-i matriks H = X(X’X)-1X’ Nilai Di dibandingkan dengan F (p,n-p; 1-α). Dengan n = banyaknya pengamatan dan p = banyaknya parameter Di > F (p,n-p;1-α). menandakan bahwa amatan ke-i berpengaruh. Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB X (i) Y (i) e (i) r (i) D (i) 1 2,11 1,01 1,00 0,30 1 1,39 0,30 0,29 0,09 1 0,78 -0,32 -0,32 -0,09 1,2 2,02 0,02 0,02 0,01 1,2 2,46 0,46 0,45 0,11 1,2 3,67 1,68 1,64 0,45 1,3 2,56 0,11 0,11 0,03 1,3 1,74 -0,71 -0,69 -0,17 1,3 1,88 -0,56 -0,55 -0,13 1,4 5,15 2,25 2,19 0,59 1,4 2,41 -0,49 -0,47 -0,11 1,4 2,00 -0,90 -0,87 -0,21 1,5 3,56 0,21 0,21 0,05 1,5 3,09 -0,26 -0,25 -0,06 1,5 0,78 -2,57 -2,50 -0,72 1,6 4,29 0,50 0,49 0,11 1,6 3,33 -0,47 -0,45 -0,11 1,6 3,10 -0,70 -0,68 -0,16 4 15,00 0,42 1,34 4,40 Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB Amatan Berpengaruh CONTOH PENGGUNAAN Di (lanjutan) Dugaan persamaan regresi DATA LENGKAP : Y1 = - 3,39 + 4,49 X1 Banyaknya parameter = 2 p = 2 Banyaknya pengamatan = 19 n = 19 Pengamatan ke -19 memiliki nilai D19 = 4,40 Dengan α = 5% Nilai tabel F(p,n-p; 1-α) = F (2,17; 0,95) = 3,59 D19 > F (2,17; 0,95) Dengan α = 5%, amatan ke 19 (terakhir) merupakan amatan berpengaruh.