Uploaded by cloudyamontolalu4

Regresi

advertisement
POLITEKNIK STATISTIKA STIS
For Better Official Statistics
Pertemuan 1
KONSEP DASAR
REGRESI
Referensi
Utama
1. Kutner, M.H. et al, “Applied Linear Regression Models”, 4th ed., McGraw -Hill,
Singapore. 2004
2. Montgomery, Douglas C., Elizabeth A. Peck, G. Geoffrey Vining, “Introduction to
Linear Regression Analysis”, 5th ed., John Wiley & Sons, Inc., Hoboken, New
Jersey. 2012
3. Weisberg, Sanford, “Applied Linear Regression”, 4th ed., New York: John Wiley &
Sons, 2013
4. Fahrmeir, Ludwig, Thomas Kneib, Stefan Lang, & Brian Marx, “Regression: Models,
Methods and Applications”, Springer-Verlag Berlin Heidelberg, 2013
Pendukung
1. Draper, N.R and Smith, H, “Applied Regression Analysis”, John Wiley & Sons.Inc,
New York. 1998
2. Field, Andi, “Discovering Statistics Using SPSS”, 3rd ed., SAGE, 2009
3. Fox, John & Sanford Weisberg, “An R Companion to Applied Regression”, 3rd ed.,
SAGE Publications, Inc. Los Angeles, 2019.
© Politeknik Statistika STIS
2
Pendahuluan
• Regression analysis is a statistical tool that utilizes the relation between two or
more quantitative variables so that one variable can be predicted from the
other, or others (Kutner, M.H. et al, 2004)
• Regression analysis answers questions about the dependence of a response
variable on one or more predictors, including prediction of future values of a
response, discovering which predictors are important, and estimating the
impact of changing a predictor or a treatment on the value of the response
(Sanford, W., 2005)
• Regression analysis is a statistical technique for investigating and modelling the
relationship between variables. (Montgomery, C. et al, 2012).
© Politeknik Statistika STIS
3
HUBUNGAN
ANTAR VARIABEL
HUBUNGAN ANTAR VARIABEL
For Better Official Statistics
HUBUNGAN
ANTAR VARIABEL
HUB. FUNGSIONAL/
MATEMATIS, y = f(x)
HUB. SECARA
STATISTIK, y = f(x) + 
MODEL LINIER
MODEL REGRESI
Transformasi
MODEL NON LINIER
INTRINSIK
NON INTRINSIK
MODEL EXP. DESIGN
DLL
5
HUBUNGAN ANTAR VARIABEL
For Better Official Statistics
Contoh Hubungan Fungsional / Matematis :
Hubungan antara penjualan (dolar) dan produk yang terjual
6
HUBUNGAN ANTAR VARIABEL
For Better Official Statistics
Contoh Hubungan Statistik :
Hubungan antara evaluasi performa tengah tahun dan akhir tahun
7
HUBUNGAN ANTAR VARIABEL
For Better Official Statistics
Contoh Hubungan Statistik :
Hubungan antara umur dan level steroid pada wanita sehat
8
REGRESI DAN KORELASI
For Better Official Statistics
❖ Keduanya mempelajari hubungan antar variabel
KORELASI
▪ Mempelajari keeratan hubungan antar 2 variabel (kuantitatif dan
kualitatif) yang bisa dilihat dari besarnya angka, bukan tandanya
▪ Dapat mengetahui arah hubungan yang terjadi (berbanding lurus
jika tandanya positif, dan berbanding terbalik jika tandanya negatif)
▪ Nilainya berkisar −1 sampai dengan 1
▪ Tidak bisa menyatakan hubungan sebab akibat
Korelasi yang tinggi tidak selalu berarti bahwa suatu variabel
menyebabkan/memengaruhi variabel yang lain
9
REGRESI DAN KORELASI
For Better Official Statistics
KORELASI
Contoh:
(1) Banyak kematian karena kekeringan di musim panas.
Banyak minuman ringan yang dikonsumsi di musim panas.
High positive correlation
Apakah minuman ringan menyebabkan kematian?
(2) Banyaknya gigi yang rusak pada anak usia SD.
Jumlah kosa kata anak SD semakin banyak.
High positive correlation
Apakah kosa kata anak harus dibatasi agar giginya tidak rusak?
10
REGRESI DAN KORELASI
For Better Official Statistics
REGRESI
▪ Mempelajari bentuk hubungan antar variabel melalui suatu
persamaan (RLS, RLB, Regresi non Linier). Hubungan bisa berupa
hubungan sebab akibat.
▪ Dapat mengukur seberapa besar suatu variabel memengaruhi
variabel lain
▪ Dapat digunakan untuk melakukan peramalan (prediksi) nilai suatu
variabel berdasarkan variabel lain
11
REGRESI
DEPENDENT AND INDEPENDENT VARIABLE
For Better Official Statistics
➢
Dependent Variable/Variabel Tak Bebas (Y): Variabel yang nilainya
ditentukan oleh variabel lain. Diasumsikan bersifat
random/stochastic
➢
Independent Variable/Variabel Bebas (X): Variabel yang nilainya
ditentukan secara bebas (variabel yang diduga mempengaruhi
variabel tak bebas). Diasumsikan bersifat fixed/non stochastic.
➢
Syarat :
Y: Berjenis data kuantitatif
X: Berjenis data kuantitatif atau kualitatif/kategorik
13
DEPENDENT AND INDEPENDENT VARIABLE
For Better Official Statistics
JENIS DATA UNTUK Y
1. Data Observasi
diperoleh tanpa melakukan kontrol thd var. X
→ tdk kuat menyatakan cause-effect relationships
Misal :
▪ Sebuah perusahaan ingin mempelajari tentang hubungan antara
umur karyawan (X) dan jumlah hari sakit karyawan tersebut
selama setahun (Y)
▪ Umur tidak bisa di kontrol
▪ Jumlah hari sakit seorang karyawan tidak langsung disebabkan
oleh umur, bisa ada penyebab lain.
▪ Harus dipertimbangkan variabel penjelas lain yang lebih
menyebabkan secara langsung
14
DEPENDENT AND INDEPENDENT VARIABLE
For Better Official Statistics
JENIS DATA UNTUK Y
2. Data Eksperimen
diperoleh dengan melakukan kontrol thd var. X
→ dapat menyatakan cause-effect relationships
Misal :
▪ Sebuah perusahaan asuransi ingin mempelajari tentang
produktivitas analisnya (Y) dalam memproses claim dan lamanya
pelatihan (X). Sampel acak 10 orang analis. Setiap 3 orang analis
dilatih dengan durasi berbeda. Selama 10 minggu
produktifitasnya diamati.
▪ Data eksperimen yang dihasilkan memberikan informasi lebih
kuat tentang hubungan sebab-akibat daripada data observasi.
▪ Alasannya adalah bahwa pengacakan cenderung
menyeimbangkan efek dari variabel lain yang mungkin
mempengaruhi variabel respons.
15
KONSEP DASAR REGRESI
For Better Official Statistics
Pada suatu nilai X tertentu akan
terdapat banyak kemungkinan nilainilai Y (Y akan terdistribusi
mengikuti suatu fungsi peluang
tertentu → Distribusi Normal dengan
Nilai rata-rata E(Y) dan Nilai varians
2 tertentu
➢ Nilai rata-rata E(Y) diasumsikan
berubah secara sistematik mengikuti
perubahan nilai X, yg digambarkan
dalam bentuk garis linier/kurva
tertentu
➢
16
CONTOH
For Better Official Statistics
1. Pengaruh usia mobil terhadap harga jualnya (seberapa besar
usia mobil mampu memprediksi harga jualnya)
2. Pengaruh usia seseorang terhadap kemampuan menghafal
kata/istilah (seberapa besar usia mampu memprediksi tingkat
kemampuan menghafal)
3. Pengaruh tinggi badan terhadap berat badan seseorang
(seberapa besar tinggi badan seseorang mampu memprediksi
berat badannya)
4. Pengaruh pendapatan rumah tangga terhadap pengeluaran
untuk konsumsi (seberapa besar pendapatan rumah tangga
mampu memprediksi pengeluaran untuk konsumsi)
5. Pengaruh motivasi belajar mahasiswa terhadap hasil belajar
(seberapa besar motivasi belajar mahasiswa mampu
memprediksi hasil belajarnya)
6. dan lain-lain
17
PROSEDUR DALAM ANALISIS REGRESI
1. Identifikasi dan pembentukan model
* Eksplorasi data: sebaran data, missing
value, pencilan (outlier), dsb.
* Identifikasi pola hubungan antar
variabel
2. Pendugaan parameter model
* Estimasi titik
* Estimasi interval
3. Pengujian keberartian parameter model
* Uji Simultan (Simultan Test)
* Uji Parsial (Partial Test)
4. Penilaian ketepatan model (goodness of
fit) dan pemeriksaan asumsi
For Better Official Statistics
18
IDENTIFIKASI MODEL
For Better Official Statistics
Scatter plot
(diagram pencar)
Scatter plot Berat Badan vs Tinggi Badan
120
100
➢
Berguna utk mengidentifikasi model
hubungan antara variabel X dan Y.
Bila pencaran titik-titik pada plot ini
menunjukkan adanya suatu
kecenderungan (trend) yang linier,
maka model regresi linier layak
digunakan.
Contoh Plot Tinggi Badan (cm) vs Berat Badan (kg)
Berat Badan
➢
80
60
40
20
0
140
145
150
155
160
165
170
175
180
Tinggi Badan (cm)
Relationship can be represented by
line of best fit
19
IDENTIFIKASI MODEL
For Better Official Statistics
Keterangan :
▪ Ternyata titik-titik (plotting data)
tersebut terlihat mengelompok di
sekitar garis lurus
▪ Pada scatter plot tersebut,
sebenarnya bisa ditarik beberapa
garis yang dekat terhadap titik-titik
tersebut
▪ Tujuan kita di sini adalah
1. Memperoleh garis yang paling tepat
(yang dapat digunakan untuk
melakukan peramalan)
2. Mengetahui hubungan yang terjadi
(seberapa besar pengaruh tinggi
badan terhadap berat badan)
Relationship can be represented by
line of best fit
20
IDENTIFIKASI MODEL
For Better Official Statistics
𝑌෠𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝑏11 𝑋𝑖2
𝑌෠𝑖 = 𝑏0 + 𝑏1 𝑋𝑖
𝑌෠𝑖 = 𝑏0 = 𝑌ത
𝑌෠𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝑏11 𝑋𝑖2 + 𝑏111 𝑋𝑖3
21
MODEL REGRESI
For Better Official Statistics
Beberapa Contoh Model Regresi
▪ Model Regresi Linier Sederhana (Simple Linear Regression
Model):
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
▪ Model Regresi Linier Berganda (Multiple Linear Regression
Model) dg p-1 variabel bebas:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑝−1 𝑋𝑖(𝑝−1) + 𝜀𝑖
▪ Model Regresi Polinomial Ordo-2 (Kuadratik) dg satu variabel
bebas (Second-Order Polynomial Regression Model)
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑋𝑖2 + 𝜀𝑖
▪ dsb
22
For Better Official Statistics
Terima kasih
23
Download