POLITEKNIK STATISTIKA STIS For Better Official Statistics Pertemuan 1 KONSEP DASAR REGRESI Referensi Utama 1. Kutner, M.H. et al, “Applied Linear Regression Models”, 4th ed., McGraw -Hill, Singapore. 2004 2. Montgomery, Douglas C., Elizabeth A. Peck, G. Geoffrey Vining, “Introduction to Linear Regression Analysis”, 5th ed., John Wiley & Sons, Inc., Hoboken, New Jersey. 2012 3. Weisberg, Sanford, “Applied Linear Regression”, 4th ed., New York: John Wiley & Sons, 2013 4. Fahrmeir, Ludwig, Thomas Kneib, Stefan Lang, & Brian Marx, “Regression: Models, Methods and Applications”, Springer-Verlag Berlin Heidelberg, 2013 Pendukung 1. Draper, N.R and Smith, H, “Applied Regression Analysis”, John Wiley & Sons.Inc, New York. 1998 2. Field, Andi, “Discovering Statistics Using SPSS”, 3rd ed., SAGE, 2009 3. Fox, John & Sanford Weisberg, “An R Companion to Applied Regression”, 3rd ed., SAGE Publications, Inc. Los Angeles, 2019. © Politeknik Statistika STIS 2 Pendahuluan • Regression analysis is a statistical tool that utilizes the relation between two or more quantitative variables so that one variable can be predicted from the other, or others (Kutner, M.H. et al, 2004) • Regression analysis answers questions about the dependence of a response variable on one or more predictors, including prediction of future values of a response, discovering which predictors are important, and estimating the impact of changing a predictor or a treatment on the value of the response (Sanford, W., 2005) • Regression analysis is a statistical technique for investigating and modelling the relationship between variables. (Montgomery, C. et al, 2012). © Politeknik Statistika STIS 3 HUBUNGAN ANTAR VARIABEL HUBUNGAN ANTAR VARIABEL For Better Official Statistics HUBUNGAN ANTAR VARIABEL HUB. FUNGSIONAL/ MATEMATIS, y = f(x) HUB. SECARA STATISTIK, y = f(x) + MODEL LINIER MODEL REGRESI Transformasi MODEL NON LINIER INTRINSIK NON INTRINSIK MODEL EXP. DESIGN DLL 5 HUBUNGAN ANTAR VARIABEL For Better Official Statistics Contoh Hubungan Fungsional / Matematis : Hubungan antara penjualan (dolar) dan produk yang terjual 6 HUBUNGAN ANTAR VARIABEL For Better Official Statistics Contoh Hubungan Statistik : Hubungan antara evaluasi performa tengah tahun dan akhir tahun 7 HUBUNGAN ANTAR VARIABEL For Better Official Statistics Contoh Hubungan Statistik : Hubungan antara umur dan level steroid pada wanita sehat 8 REGRESI DAN KORELASI For Better Official Statistics ❖ Keduanya mempelajari hubungan antar variabel KORELASI ▪ Mempelajari keeratan hubungan antar 2 variabel (kuantitatif dan kualitatif) yang bisa dilihat dari besarnya angka, bukan tandanya ▪ Dapat mengetahui arah hubungan yang terjadi (berbanding lurus jika tandanya positif, dan berbanding terbalik jika tandanya negatif) ▪ Nilainya berkisar −1 sampai dengan 1 ▪ Tidak bisa menyatakan hubungan sebab akibat Korelasi yang tinggi tidak selalu berarti bahwa suatu variabel menyebabkan/memengaruhi variabel yang lain 9 REGRESI DAN KORELASI For Better Official Statistics KORELASI Contoh: (1) Banyak kematian karena kekeringan di musim panas. Banyak minuman ringan yang dikonsumsi di musim panas. High positive correlation Apakah minuman ringan menyebabkan kematian? (2) Banyaknya gigi yang rusak pada anak usia SD. Jumlah kosa kata anak SD semakin banyak. High positive correlation Apakah kosa kata anak harus dibatasi agar giginya tidak rusak? 10 REGRESI DAN KORELASI For Better Official Statistics REGRESI ▪ Mempelajari bentuk hubungan antar variabel melalui suatu persamaan (RLS, RLB, Regresi non Linier). Hubungan bisa berupa hubungan sebab akibat. ▪ Dapat mengukur seberapa besar suatu variabel memengaruhi variabel lain ▪ Dapat digunakan untuk melakukan peramalan (prediksi) nilai suatu variabel berdasarkan variabel lain 11 REGRESI DEPENDENT AND INDEPENDENT VARIABLE For Better Official Statistics ➢ Dependent Variable/Variabel Tak Bebas (Y): Variabel yang nilainya ditentukan oleh variabel lain. Diasumsikan bersifat random/stochastic ➢ Independent Variable/Variabel Bebas (X): Variabel yang nilainya ditentukan secara bebas (variabel yang diduga mempengaruhi variabel tak bebas). Diasumsikan bersifat fixed/non stochastic. ➢ Syarat : Y: Berjenis data kuantitatif X: Berjenis data kuantitatif atau kualitatif/kategorik 13 DEPENDENT AND INDEPENDENT VARIABLE For Better Official Statistics JENIS DATA UNTUK Y 1. Data Observasi diperoleh tanpa melakukan kontrol thd var. X → tdk kuat menyatakan cause-effect relationships Misal : ▪ Sebuah perusahaan ingin mempelajari tentang hubungan antara umur karyawan (X) dan jumlah hari sakit karyawan tersebut selama setahun (Y) ▪ Umur tidak bisa di kontrol ▪ Jumlah hari sakit seorang karyawan tidak langsung disebabkan oleh umur, bisa ada penyebab lain. ▪ Harus dipertimbangkan variabel penjelas lain yang lebih menyebabkan secara langsung 14 DEPENDENT AND INDEPENDENT VARIABLE For Better Official Statistics JENIS DATA UNTUK Y 2. Data Eksperimen diperoleh dengan melakukan kontrol thd var. X → dapat menyatakan cause-effect relationships Misal : ▪ Sebuah perusahaan asuransi ingin mempelajari tentang produktivitas analisnya (Y) dalam memproses claim dan lamanya pelatihan (X). Sampel acak 10 orang analis. Setiap 3 orang analis dilatih dengan durasi berbeda. Selama 10 minggu produktifitasnya diamati. ▪ Data eksperimen yang dihasilkan memberikan informasi lebih kuat tentang hubungan sebab-akibat daripada data observasi. ▪ Alasannya adalah bahwa pengacakan cenderung menyeimbangkan efek dari variabel lain yang mungkin mempengaruhi variabel respons. 15 KONSEP DASAR REGRESI For Better Official Statistics Pada suatu nilai X tertentu akan terdapat banyak kemungkinan nilainilai Y (Y akan terdistribusi mengikuti suatu fungsi peluang tertentu → Distribusi Normal dengan Nilai rata-rata E(Y) dan Nilai varians 2 tertentu ➢ Nilai rata-rata E(Y) diasumsikan berubah secara sistematik mengikuti perubahan nilai X, yg digambarkan dalam bentuk garis linier/kurva tertentu ➢ 16 CONTOH For Better Official Statistics 1. Pengaruh usia mobil terhadap harga jualnya (seberapa besar usia mobil mampu memprediksi harga jualnya) 2. Pengaruh usia seseorang terhadap kemampuan menghafal kata/istilah (seberapa besar usia mampu memprediksi tingkat kemampuan menghafal) 3. Pengaruh tinggi badan terhadap berat badan seseorang (seberapa besar tinggi badan seseorang mampu memprediksi berat badannya) 4. Pengaruh pendapatan rumah tangga terhadap pengeluaran untuk konsumsi (seberapa besar pendapatan rumah tangga mampu memprediksi pengeluaran untuk konsumsi) 5. Pengaruh motivasi belajar mahasiswa terhadap hasil belajar (seberapa besar motivasi belajar mahasiswa mampu memprediksi hasil belajarnya) 6. dan lain-lain 17 PROSEDUR DALAM ANALISIS REGRESI 1. Identifikasi dan pembentukan model * Eksplorasi data: sebaran data, missing value, pencilan (outlier), dsb. * Identifikasi pola hubungan antar variabel 2. Pendugaan parameter model * Estimasi titik * Estimasi interval 3. Pengujian keberartian parameter model * Uji Simultan (Simultan Test) * Uji Parsial (Partial Test) 4. Penilaian ketepatan model (goodness of fit) dan pemeriksaan asumsi For Better Official Statistics 18 IDENTIFIKASI MODEL For Better Official Statistics Scatter plot (diagram pencar) Scatter plot Berat Badan vs Tinggi Badan 120 100 ➢ Berguna utk mengidentifikasi model hubungan antara variabel X dan Y. Bila pencaran titik-titik pada plot ini menunjukkan adanya suatu kecenderungan (trend) yang linier, maka model regresi linier layak digunakan. Contoh Plot Tinggi Badan (cm) vs Berat Badan (kg) Berat Badan ➢ 80 60 40 20 0 140 145 150 155 160 165 170 175 180 Tinggi Badan (cm) Relationship can be represented by line of best fit 19 IDENTIFIKASI MODEL For Better Official Statistics Keterangan : ▪ Ternyata titik-titik (plotting data) tersebut terlihat mengelompok di sekitar garis lurus ▪ Pada scatter plot tersebut, sebenarnya bisa ditarik beberapa garis yang dekat terhadap titik-titik tersebut ▪ Tujuan kita di sini adalah 1. Memperoleh garis yang paling tepat (yang dapat digunakan untuk melakukan peramalan) 2. Mengetahui hubungan yang terjadi (seberapa besar pengaruh tinggi badan terhadap berat badan) Relationship can be represented by line of best fit 20 IDENTIFIKASI MODEL For Better Official Statistics 𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝑏11 𝑋𝑖2 𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 𝑌𝑖 = 𝑏0 = 𝑌ത 𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝑏11 𝑋𝑖2 + 𝑏111 𝑋𝑖3 21 MODEL REGRESI For Better Official Statistics Beberapa Contoh Model Regresi ▪ Model Regresi Linier Sederhana (Simple Linear Regression Model): 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 ▪ Model Regresi Linier Berganda (Multiple Linear Regression Model) dg p-1 variabel bebas: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑝−1 𝑋𝑖(𝑝−1) + 𝜀𝑖 ▪ Model Regresi Polinomial Ordo-2 (Kuadratik) dg satu variabel bebas (Second-Order Polynomial Regression Model) 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑋𝑖2 + 𝜀𝑖 ▪ dsb 22 For Better Official Statistics Terima kasih 23