Uploaded by henniekasari

4-Mendeteksi pencilan

advertisement
Analisis Regresi 2
Pokok Bahasan :
Mendeteksi pencilan dan
penanganannya
TUJUAN INSTRUKSIONAL KHUSUS :
Mahasiswa dapat mendeteksi adanya pencilan pada regresi linier
berganda
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
Pencilan
“Pencilan adalah pengamatan yang nilai mutlak sisaannya jauh lebih besar daripada sisaan-sisaan lainnya”

Bisa jadi terletak pada tiga atau empat simpangan
baku atau lebih jauh lagi dari rata-rata sisaannya.

Keberadaan pencilan harus diperiksa dengan
seksama, apakah pencilan itu merupakan kesalahan
dalam pencatatan amatan atau pencilan tersebut
muncul dari kombinasi keadaan yang tidak biasa
yang mungkin saja sangat penting dan perlu
diselidiki lebih jauh.
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
Mendeteksi Adanya Pencilan
 Sisaan Terbakukan (Standardized residuals)
 Jarak Cook (Cook’s distance )
Jarak Cook (Cook’s distance)
1
Di =
k+1
hi
1 - hi
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
(standardized residual)2
Mendeteksi Adanya Pencilan
(lanjutan)
SISAAN TERBAKUKAN
Yi
ei
• Hitung nilai ri 
s 1  hii 
dengan hii 
1
n

 xi  x 2
n
  xk  x 
2
i 1
• Jika nilai |ri|>2, amatan tsb
dapat dikatakan sebagai
pencilan
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
Xi
ri
7.46
10 -0.46018
6.77
8 -0.19633
12.74
13
2.99999
7.11
9 -0.33085
7.81
11 -0.59695
8.84
14 -1.13497
6.08
6
0.07042
5.39
4
0.3807
8.15
12 -0.75518
6.42
7 -0.06974
5.73
5
0.21188
Pencilan (lanjutan)
DATA LENGKAP
DATA TANPA PENCILAN
Scatterplot of Y tnp pclan vs X tnp pclan
13
12
12
11
11
10
10
Y tnp pclan
Y-3
Scatterplot of Y-3 vs X-3
13
9
8
9
8
7
7
6
6
5
5
5,0
7,5
10,0
12,5
15,0
5,0
7,5
X-3
Coef
3.002
0.4997
S = 1.23631
SE Coef
1.124
0.1179
12,5
Y = 4.01 + 0.345 X
Y = 3.00 + 0.500 X
Predictor
Constant
X
10,0
X tnp pclan
T
P
2.67 0.026
4.24 0.002
R-Sq = 66.6%
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
Predictor
Constant
X
Coef
4.00565
0.345390
S = 0.00308168
SE Coef
0.00292
0.000321
P
0.000
0.000
R-Sq = 100.0%
15,0
Pencilan (lanjutan)
Plot sisaan baku (ri) vs dugaan Y
Data Lengkap
Data Tanpa Pencilan
Scatterplot of sisaan2 vs dugaan-Y2
Scatterplot of s baku tnp pcl vs dugaan tnppcl
2.0
3
1.5
1.0
s baku tnp pcl
sisaan2
2
1
0.5
0.0
-0.5
0
-1.0
-1
-1.5
5
6
7
8
9
dugaan-Y2
Tebaran berpola, karena (1) ada
pencilan, atau (2) model tidak pas
10
5
6
7
dugaan tnppcl
8
Tebaran tidak berpola, menyebar di sekitar nilai nol, lebar pita relatif sama
Mengeluarkan data pencilan dari analisis:
• mampu memperbaiki pola tebaran sisaan yang tadinya berpola (garis lurus)
• harus dilakukan dengan kehati-hatian yang tinggi.
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
9
Amatan Berpengaruh
AMATAN BERPENGARUH :
berkaitan dengan besarnya perubahan yang terjadi pada
dugaan parameter regresi jika pengamatan tersebut disisihkan
X1
1
1
1
1,2 1,2 1,2 1,3 1,3 1,3 1,4 1,4 1,4 1,5 1,5 1,5 1,6 1,6 1,6
4,0
Y1 2,11 1,39 0,78 2,02 2,46 3,67 2,56 1,74 1,88 5,15 2,41 2,00 3,56 3,09 0,78 4,29 3,33 3,10 15,00
Unusual Observations
Scatterplot of Y1 vs X1
16
14
Obs X1
Y1
Fit
10 1,40 5,147 2,895
15 1,50 0,776 3,345
19 4,00 15,000 14,576
12
Y1
10
8
6
SE Fit
0,244
0,243
1,009
Residual
2,252
-2,569
0,424
St Resid
2,19 R
-2,50 R
1,34 X
4
2
0
1,0
1,5
2,0
2,5
X1
3,0
3,5
4,0
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large
influence.
Amatan Berpengaruh
(lanjutan)
OUTPUT MINITAB
The regression equation is
Y1 = - 3,39 + 4,49 X1
S = 1,05749 R-Sq = 88,8% R-Sq(adj) = 88,1%
Analysis of Variance
Source
DF
SS
Regression
1
150,10
Residual Error 17
19,01
Total
18 169,11
Unusual Observations
Obs X1
Y1
Fit
10
1,40 5,147 2,895
15
1,50 0,776 3,345
19
4,00 15,000 14,576
MS
150,10
1,12
SE Fit
0,244
0,243
1,009
F
P
134,22 0,000
Residual
2,252
-2,569
0,424
St Resid
2,19 R
-2,50 R
1,34 X
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large influence.
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
Hasil analisis regresi dari
data tersebut menunjukkan
bahwa ada 3 amatan yg
aneh, yaitu amatan ke
10,15, dan 19. Amatan 10
dan 15 berpotensi sebagai
pencilan. Amatan 19
berpotensi sebagai amatan
berpengaruh
Bandingkan dg data tanpa
amatan 19. Apakah
perubahan dugaan parameter regresi cukup nyata?
Amatan Berpengaruh
(lanjutan)
Statistik Uji untuk Mendeteksi Amatan Berpengaruh
Pengaruh titik data ke-i diukur dengan jarak Cook ( Cook’s Distance) :


ei
Di  
1 
2
 s1  hii  
2
2
 hii  1


1

h
ii  p

Keterangan:
s2 = dugaan bagi ragam Yi = KTsisaan
hii = unsur diagonal ke-i matriks H = X(X’X)-1X’
Nilai Di dibandingkan dengan F (p,n-p; 1-α). Dengan n = banyaknya pengamatan
dan p = banyaknya parameter
Di > F (p,n-p;1-α). menandakan bahwa amatan ke-i berpengaruh.
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
X (i)
Y (i)
e (i)
r (i)
D (i)
1
2,11
1,01
1,00
0,30
1
1,39
0,30
0,29
0,09
1
0,78
-0,32
-0,32
-0,09
1,2
2,02
0,02
0,02
0,01
1,2
2,46
0,46
0,45
0,11
1,2
3,67
1,68
1,64
0,45
1,3
2,56
0,11
0,11
0,03
1,3
1,74
-0,71
-0,69
-0,17
1,3
1,88
-0,56
-0,55
-0,13
1,4
5,15
2,25
2,19
0,59
1,4
2,41
-0,49
-0,47
-0,11
1,4
2,00
-0,90
-0,87
-0,21
1,5
3,56
0,21
0,21
0,05
1,5
3,09
-0,26
-0,25
-0,06
1,5
0,78
-2,57
-2,50
-0,72
1,6
4,29
0,50
0,49
0,11
1,6
3,33
-0,47
-0,45
-0,11
1,6
3,10
-0,70
-0,68
-0,16
4
15,00
0,42
1,34
4,40
Itasia Dina S & Dian K, Departemen Statistika FMIPA IPB
Amatan Berpengaruh
CONTOH PENGGUNAAN Di
(lanjutan)
Dugaan persamaan regresi DATA LENGKAP
: Y1 = - 3,39 + 4,49 X1
Banyaknya parameter = 2  p = 2
Banyaknya pengamatan = 19  n = 19
Pengamatan ke -19 memiliki nilai D19 = 4,40
Dengan α = 5%
Nilai tabel F(p,n-p; 1-α) = F (2,17; 0,95) = 3,59
D19 > F (2,17; 0,95)
Dengan α = 5%, amatan ke 19 (terakhir)
merupakan amatan berpengaruh.
Download