menuju…Universitas Indonesia Maju BIOSTATISISTIKA tailored by adiwjj-STIKIM 2013 adiwjj@gmail.com @adiwjj Statistika dalam keseharian kita… Statistika dalam keseharian kita… Statistika dalam keseharian kita… Tapi… STATISTIK Arti sempitnya: “data ringkasan berbentuk angka ( kuantitatif )” Pengertiannya: “metode ilmiah untuk menyusun, meringkas, menyajikan dan menganalisa data, sehingga dapat ditarik suatu KESIMPULAN yang benar dan dapat dibuat KEPUTUSAN yang masuk akal berdasarkan data tersebut” Pembagian Ilmu Statistik • Statistik Deskriptif Menjelaskan/menggambarkan berbagai karakteristik data; seperti: rata-rata (mean), median, modus, standar deviasi, dll • Statistik Induktif (Inferensi) Membuat inferensi/kesimpulan. Termasuk: perkiraan besaran populasi, uji hipotesis, peramalan, dsb STATISTIK DESKRIPTIF (@ glance…) Biasanya berupa ANALISA UNIVARIAT • Analisis terhadap satu variabel • Biasanya dilakukan analisis untuk mengetahui: – Distribusi frekuensi – Ukuran Kecenderungan tengah (central tendency measurement) [mean, median, modus] – Ukuran Lokasi (Location Measurement) [persentil, kuartil, desil] – Ukuran Penyebaran (dispersion measurement) [range, standard deviasi, varians] STATISTIK INDUKTIF (INFERENSIAL) let’s START… Elemen Statistik • POPULASI : SEMUA individu / unit-unit yang menjadi obyek penelitian. • SAMPEL : SEBAGIAN individu / unit-unit yang diambil dari populasi untuk diteliti. • VARIABEL : Satu atau beberapa ciri/karakteristik dari populasi yang perlu diketahui. Jenis DATA Menurut Sifatnya: 1. Data Kualitatif - Tidak berbentuk angka. - Tidak dapat diberikan operasi aritmatika (*, /, +, -) 2. Data Kuantitatif - Data dalam bentuk angka. - Dapat diberikan operasi aritmatika (*, /, +, -) Tipe Data Statistik • Kualitatif – Nominal – Ordinal Hanya ada 1 kemungkinan isi data Adanya tingkatan isi data (sangat, cukup, kurang,dll) Adanya interval angka • Kuantitatif – Interval – Rasio Angka murni contoh tipe data… NOMINAL Contohnya: • Jenis Kelamin (Laki-laki dan Perempuan) • Golongan Darah (A, B, O, AB) • Suku Bangsa (Jawa, Betawi, Sunda, dll) • Bentuk Obat (Tablet, Syrup, Kapsul) …Hanya label, biasanya huruf, tak ada tingkatan antar kategori… contoh tipe data… ORDINAL Contohnya: • Skala SIKAP (SS, S, R, TS, STS) • Kondisi BARANG (Sangat Baik, Baik, Cukup, buruk) …sudah ada tingkatan antar kategori, namun jarak antar tingkatan belum jelas… misal SS ke S belum tentu sama dengan R ke TS! contoh tipe data… INTERVAL Contohnya: • Suhu Ruang (misal: -10oC, 5oC, 0oC, 90oC) • Nilai Ujian MK Biostat (misal: 10, 0, 5, 70, 100) • IPK (misal: 0, 0.7, 2.7, 3.5, 4) …sudah ada tingkatan antar kategori, sudah ada jarak yang jelas antar kategori, namun tidak punya 0 (nol) MUTLAK! Contoh: suhu=0oC, ..masih ada suhu dan lebih hangat dari -10oC contoh tipe data… RASIO Contohnya: • Jumlah Mobil (misal: 0, 1, 5, 11) • Usia (misal: 10, 15, 35 tahun) • Tinggi Badan (misal: 100, 135, 160, 170 cm) …sudah ada tingkatan antar kategori, sudah ada jarak yang jelas antar kategori, dan punya 0 (nol) MUTLAK! Nol (0) berarti memang tidak ada atau kosong atau empty! Latihan… Berikut data KOTA asal MHS STIKIM: Jakarta, Depok, Bogor, Bekasi, Bandung Type data KOTA adalah… a. NOMINAL b. ORDINAL c. INTERVAL d. RASIO Jawab: A Latihan… Berikut data BERAT BADAN (dalam Kg) MHS STIKIM: 50, 65, 70, 48, 62, 54, 45, 66, 51, 53 Type data BERAT BADAN adalah… a. NOMINAL b. ORDINAL c. INTERVAL d. RASIO Jawab: D Latihan… Berikut data PENGETAHUAN MHS STIKIM tentang UJI STATISTIK yang diukur melalui 10 pertanyaan, jika benar diberi skor 1, jika salah diberi skor 0. Sehingga rentang skor akan berkisar antara 0 (jika salah semua) hingga 10 (jika benar semua) Type data PENGETAHUAN adalah… a. NOMINAL b. ORDINAL c. INTERVAL d. RASIO Jawab: C Jenis Pengujian • Uji Asosiasi – Mencari hubungan, asosiasi, korelasi – ALAT Uji: Chi-Square, Korelasi (Pearson, Kendall/rank Spearman) • Uji Beda – Mencari perbedaan rata-rata dari beberapa sample – ALAT Uji: Uji t, Uji z, Uji F Jenis Pengujian REGRESI…kok gak ada? Ya, REGRESI juga salah satu alat uji statistik… Di REGRESI, ada UJI ASOSIASI dan UJI BEDA sekaligus… UJI ASOSIASI: KORELASI UJI BEDA: Uji F dan Uji t Skema Metode Uji Asosiasi • Type data “Nominal” Uji Chi-Square • Type data “Ordinal” Uji Korelasi Kendall dan rank Spearman • Type data “Interval” dan “Rasio” Uji Korelasi Pearson Please, remain this stuff! Uji Chi-Square • Digunakan untuk mencari hubungan/asosiasi antar variabel yang bertype “Nominal”. • Uji Chi-Square hanya dapat menentukan ada tidaknya hubungan antar variabel tersebut. [hanya pada level ini saja!] Contoh Uji Chi-Square Sekelompok orang diambil data-datanya (tinggi dan gender) untuk melihat ada tidaknya hubungan antara tinggi dan gendernya No Tinggi Gender No Tinggi Gender 1 170.2 Pria 14 170.4 Wanita 2 172.5 Pria 15 168.9 Wanita 3 180.3 Pria 16 168.9 Wanita 4 172.5 Pria 17 177.5 Wanita 5 159.6 Wanita 18 174.5 Pria 6 168.5 Wanita 19 168.6 Wanita 7 168.5 Pria 20 164.8 Wanita 8 172.5 Pria 21 170.4 Pria 9 174.5 Pria 22 168.9 Pria 10 159.6 Wanita 23 164.8 Wanita 11 170.4 Wanita 24 167.2 Wanita 12 161.3 Wanita 25 167.2 Wanita 13 172.5 Pria - - - HASIL UJI CHI-SQUARE… P-value = 0.144 Ho = “Tidak ada hubungan antara Tinggi dengan Gender” Karena p-value > 0.05, maka Ho gagal ditolak! Kesimpulan = “Tidak ada hubungan antara Tinggi dengan Gender” Uji Korelasi • Digunakan untuk menentukan ada tidaknya hubungan antar variabel dan seberapa jauh hubungan tersebut (erat/tidak erat) • Type Data: Ordinal dan Interval/Rasio – Ordinal: Uji Korelasi Kendall/rank Spearman – Interval/Rasio: Uji Korelasi Pearson • Koefisien Korelasi (-1 s/d 1) – -1 atau 1 : Korelasi sempurna – >= ± 0.5 : Erat – < ± 0.5 : Tidak Erat • Tanda • Tanda + : menyatakan hubungan berlawanan : menyatakan hubungan lurus Contoh Uji Korelasi • Seorang peneliti ingin mengetahui ada tidaknya hubungan antara jumlah MOBIL dengan jumlah TILANG dan seberapa jauh/erat hubungan antar variabel tersebut. Kota Tilang Mobil 1 20 258 2 24 265 3 25 249 4 18 125 5 15 - 6 16 124 7 - 251 8 10 - 9 12 124 10 17 159 Hasil uji KORELASI… P-value = 0.015 | koefisien korelasi = 0.852 Ho = “Tidak ada hubungan antara jumlah MOBIL dengan jumlah TILANG” Karena p-value < 0.05, maka Ho di-TOLAK! Kesimpulan = “ADA hubungan antara jumlah MOBIL dengan jumlah TILANG” Koefisien korelasi > 0.5, sehingga hubungannya ERAT Hubungannya juga positif (+ 0.852) sehingga hubungannya SEARAH / LINIER! [jumlah mobil >> maka jumlah tilang juga >>] REGRESI • Kegunaan: – Mengetahui ada/tidaknya hubungan antar variabel dan keeratannya – Menghasilkan suatu persamaan regresi (regression equation) yang berguna untuk melakukan PERAMALAN [forecasting/prediction] • Istilah: – Variabel Independent – Variabel Dependent Variabel bebas; tidak terikat; mempengaruhi variabel dependent Variabel tidak bebas; tergantung; dipengaruhi oleh variabel independent • Jenis Regresi – Regresi Sederhana (simple regression) – Regresi Berganda (multiple regression) Hanya melibatkan 1 var. independent Melibatkan > 1 var. independent case sudy regresi sederhana Daerah Penjualan Promosi Jakarta 205 26 Tangerang 206 28 Bekasi 254 35 Bogor 246 31 Bandung 201 21 Semarang 291 49 Solo 234 30 Yogya 209 30 Surabaya 204 24 Purwokerto 216 31 Madiun 245 32 Tuban 286 47 Malang 312 54 Kudus 265 40 Pekalongan 322 42 Hasil uji REGRESI… P-value = 0.000 | koefisien korelasi = 0.916 Ho = “Tidak ada hubungan antara PROMOSI dengan PENJUALAN ” Karena p-value < 0.05, maka Ho di-TOLAK! Kesimpulan = “ADA hubungan antara PROMOSI dengan PENJUALAN” Model REGRESI bisa digunakan, karena ada HUBUNGAN/KORELASI… Jika tidak ada HUBUNGAN/KORELASI, maka model REGRESI tidak bisa digunakan! Hasil uji REGRESI…[lanjutan] Dari output Variabel Entered/Removed, variabel PROMOSI tidak di remove Dengan kata lain, variabel PROMOSI berpengaruh terhadap PENJUALAN. This is good news #2 for our model! Note: #1 is there’s correlation between them! Hasil uji REGRESI…[lanjutan] Dari output Model Summary, didapatkan nilai R-square = 0.839 Hal ini berarti PROMOSI mampu mempengaruhi PENJUALAN sebesar 83.9% Berarti 16.1 % [100 % - 83.9 %] PENJUALAN di tentukan atau dipengaruhi faktor lain selain PROMOSI. Hasil uji REGRESI…[lanjutan] Dari output Anova, nilai p-value = 0.000 Hal ini bermakna nilai b atau slope PROMOSI thd PENJUALAN > 0. This is good news #3 for our model! b or slope > 0 ! Slope = laju kenaikan y [PENJUALAN], per unit kenaika x[PROMOSI] Hasil uji REGRESI…[lanjutan] Dari output Coefficient, kita bisa analisa: • signifikansi dari PROMOSI thd PENJUALAN • persamaan REGRESI P-value = 0.000 pada PROMOSI … berarti PROMOSI signifikan pengaruhnya thd PENJUALAN. Persamaan REGRESI: y = 111.523 + 3.891 x Dimana, y = PENJUALAN, x = PROMOSI Significant means we can generalize to population! Hasil uji REGRESI…[lanjutan] Residual artinya selisih Antara PENJUALAN aktual dgn PENJUALAN prediksi. Semakin kecil residual, Semakin bagus model Regresi yang dihasilkan! Case study Regresi Berganda Daerah Penjualan Promosi Outlet Jakarta 205 26 159 Tangerang 206 28 164 Bekasi 254 35 198 Bogor 246 31 184 Bandung 201 21 150 Semarang 291 49 208 Solo 234 30 184 Yogya 209 30 154 Surabaya 204 24 149 Purwokerto 216 31 175 Madiun 245 32 192 Tuban 286 47 201 Malang 312 54 248 Kudus 265 40 166 Pekalongan 322 42 287 Hasil uji REGRESI… Ho = “Tidak ada hubungan antara PROMOSI dengan PENJUALAN ” P-value = 0.000, karena p-value < 0.05, maka Ho di-TOLAK! Kesimpulan = “ADA hubungan antara PROMOSI dengan PENJUALAN” Ho = “Tidak ada hubungan antara OUTLET dengan PENJUALAN ” P-value = 0.000, karena p-value < 0.05, maka Ho di-TOLAK! Kesimpulan = “ADA hubungan antara OUTLET dengan PENJUALAN” Model REGRESI bisa digunakan, karena ada HUBUNGAN/KORELASI… Hasil uji REGRESI…[lanjutan] Dari output Variabel Entered/Removed, all variabel tidak di remove Dengan kata lain, variabel PROMOSI dan OUTLET berpengaruh terhadap PENJUALAN. This is good news #2 for our model! Note: #1 is there’s correlation between them! Hasil uji REGRESI…[lanjutan] Dari output Model Summary, didapatkan nilai R-square = 0.952 Hal ini berarti PROMOSI dan OUTLET mampu mempengaruhi PENJUALAN sebesar 95.2 %. Berarti 4.8 % [100 % - 95.2 %] PENJUALAN di tentukan atau dipengaruhi faktor lain selain PROMOSI dan OUTLET. Hasil uji REGRESI…[lanjutan] Dari output Anova, nilai p-value = 0.000 Hal ini bermakna nilai b atau slope PROMOSI,OUTLET thd PENJUALAN > 0. Makna lain: PROMOSI dan OUTLET secara bersama2 berpengaruh thd PENJUALAN This is good news #3 for our model! b or slope > 0 ! Slope = laju kenaikan y [PENJUALAN], per unit kenaikan x1 [PROMOSI] dan x2 [OUTLET] Hasil uji REGRESI…[lanjutan] Dari output Coefficient, kita bisa analisa: • signifikansi dari PROMOSI dan OUTLET thd PENJUALAN • persamaan REGRESI P-value = 0.000 pada PROMOSI … berarti PROMOSI signifikan pengaruhnya thd PENJUALAN. P-value = 0.000 pada OUTLET … berarti OUT:ET signifikan pengaruhnya thd PENJUALAN. Persamaan REGRESI: y = 64.639 + 2.342 x1 + 0.535 x2 dimana, y = PENJUALAN, x1 = PROMOSI, x2 = OUTLET. menuju…Universitas Indonesia Maju #UJI BEDA Uji T by adiwjj-STIKIM 2013 adiwjj@gmail.com @adiwjj Uji beda de-facto @ statistics software… • Uji T • Uji F Uji Z? …use uji T Uji T [t-test] Digunakan untuk mencari perbedaan rata-rata antar variabel dari satu sampel atau beda sampel Variasi pembeda… Bisa 1 sample, 1 variabel, beda kategori/kelompok Bisa 1 sample, 1 kategori/kelompok, beda variabel Bisa 1 kategori/kelompok, 1 variabel, beda sampel So, of course, it needs 2 things that will be compared… Uji t • Maksimal untuk 2 sample • Terdapat 3 jenis uji t: – Paired sample t test – One sample t test – Independent sample t test Uji t Paired sample t test Sebuah sample dengan: Obyek/orang sama, perlakuan beda; Atau bisa juga… Obyek/orang sama, waktu pengukuran beda. CONTOH Kasus “Paired sample t test” Suatu perusahaan yang bergerak dibidang farmasi mengembangkan suatu obat penurun berat badan. Sebelum obat ini dijual di pasar, perusahaan tersebut menguji terlebih dulu dengan sekelompok orang. Orang Berat (Kg) Sebelum Sesudah 1 76.8 76.2 2 77.9 77.9 3 78.6 79 4 79.3 80.2 5 82.7 82.6 Berikut ini adalah hasil pengukurannya! 6 88.2 82.5 7 92.5 92.6 Dari hasil pengukuran, efektifkah/manjurkah obat penurun berat badan tersebut? 8 96.2 92.3 9 84.5 85.2 10 88.3 84.5 OUTPUTNYA… Interpretasinya… Ukuran sampel: 10 Sekilas….rata-rata berat badan sesudah minum obat lebih kecil daripada Rata-rata berat badan sebelum minum obat… Apakah memang ada perbedaan?...ojo kesusu! We, simply, cannot answer from this fact [yet]! Interpretasinya… Perbedaan rata2 [sebelum vs sesudah]: 1.2 Ho: “Tidak ada perbedaan rata-rata berat badan antara sebelum minum obat dengan setelah minum obat.” p-value = 0.140…karena > 0.025 maka Ho di-TERIMA! Kesimpulan: Tidak ada perbedaan rata-rata berat badan antara sebelum minum obat dengan setelah minum obat. note: = 0.025, karena 2-tail (0.05 dibagi 2) Perhatian…info pentig …[kurang n, ya] Ada null value diantara LOWER dan UPPER, hal ini menyebabkan Perbedaannya tidak signifikan secara statistik… Ada null value [0, nol] biasanya disebabkan karena ukuran sample yang kecil… Keputusannya gmn?…see pertanyaan penelitian… Kesimpulan: Tidak ada perbedaan rata-rata berat badan antara sebelum minum obat dengan setelah minum obat. Ok…hasilnya TIDAK ADA Perbedaan. So, obat TIDAK MANJUR?...eit, ntar dulu… Karena ada null value, maka secara statistik TIDAK SIGNIFIKAN… Artinya…hasil ini not good enough to judge the result…. Need more test with more sample size… contoh Kasus “One sample t test” Diduga rata-rata berat badan suatu kota adalah sebesar 84.5 Kg. Untuk mengetahui kebenaran dari dugaan ini, maka diukurlah berat badan beberapa orang sebagai sample. Dari hasil perhitungan, benarkan dugaan tersebut? Orang Berat (Kg) 1 76.8 2 77.9 3 78.6 4 79.3 5 82.7 6 88.2 7 92.5 8 96.2 9 84.5 10 88.3 OUTPUTNYA… Interpretasinya… Ho: “Tidak ada perbedaan antara nilai berat dugaan (84.5 kg) dengan rata-rata berat sample.” p-value = 1.000…karena > 0.025 maka Ho di-TERIMA! Kesimpulan: Tidak ada perbedaan antara nilai berat dugaan (84.5 kg) dengan rata-rata berat sample.” Ada null value diantara LOWER dan UPPER…maknanya kesimpulan ini tidak bisa Kita generalisasi ke populasi…karena TIDAK SIGNIFIKAN! contoh Kasus “Independent sample t test” Seorang mahasiswa ingin meneliti apakah terdapat perbedaan antara tinggi seorang mahasiswa (lakilaki) dengan mahasiswi (perempuan) Berikut ini adalah data hasil pengukuran sejumlah sample! MHS Tinggi Gender 1 174.5 P 2 178.6 P 3 170.8 P 4 168.2 P 5 159.7 P 6 167.8 P 7 165.5 P 8 154.7 W 9 152.7 W 10 155.8 W 11 154.8 W 12 157.8 W 13 156.7 W 14 154.7 W OUTPUTNYA… Interpretasinya… Dari output ini secara sekilas ada perbedaan tinggi badan Antara MHSa dengan MHSi. Tapi secara statistik apakah demikian? Kita lihat hasil uji t… Interpretasinya… First, we must check it’s variance equality… See Levene’s Test… Ho: “Tidak ada perbedaan varians antara kelompok MHSa dengan MHSi” P-value = 0.037…jika 1-tail, so < 0.05, maka Ho di-TOLAK! Berarti ADA PERBEDAAN VARIANS… Maka output uji t lihat yang baris…”Equal Variances not assumed” Interpretasinya… Oke…begin interprete t-test result… Ho: “Tidak ada perbedaan rata-rata tinggi antara kelompok MHSa dengan MHSi” P-value = 0.001…jika 1-tail, so < 0.05, maka Ho di-TOLAK! Berarti ADA PERBEDAAN rata-rata TINGGI antara MHSa dgn MHSi… menuju…Universitas Indonesia Maju #UJI BEDA Uji F by adiwjj-STIKIM 2013 Thanks to: http://osaomarsharif.blog.imtelkom.ac.id adiwjj@gmail.com @adiwjj Uji F [f-test] Digunakan untuk mencari perbedaan rata-rata variabel dari 3 sampel atau lebih… VARIASI uji F Variasi nya… • • • • ANOVA MANOVA ANCOVA MANCOVA One-Way Analysis of Variance One-Way Analysis of Variance (ANOVA) F-test parametrik Tukey-Kramer test non parametrik Peraturan Umum Mengenai ANOVA • Mengatur satu atau lebih variabel independen – Disebut faktor (atau variabel pengontrol) – Setiap faktor mengandung dua atau lebih tingkatan (atau kelompok/kategori/klasifikasi) • Mencari pengaruh terhadap variabel dependen – Kaitannya dengan setiap tingkat variabel independen • Desain Eksperimen: menguji sekumpulan data yang telah dikumpulkan One-Way Analysis of Variance • Mengevaluasi perbedaan rata – rata dari tiga atau lebih kelompok Contoh: Tingkat kecelakaan dari shift 1, 2 dan 3 yang diharapkan dari pengujian terhadap ban mobil • Asumsi – Populasi berdistribusi dengan normal – Populasi memiliki varians yang sama – Sampel dipilih secara acak dan independen Hipotesis untuk Uji ANOVA Satu Arah • H 0 : μ1 μ 2 μ 3 μ c – Rata – rata semua populasi adalah sama – Varians semua populasi adalah sama (hasil pengujian terbukti rata2 populasi sama) • H1 : Tidak semua rata – rata populasi bernilai sama – Paling sedikit rata – rata dari satu populasi yang berbeda – Hasil pengujian membuktikan bahwa rata – rata populasi berbeda – Tidak berarti bahwa semua rata – rata populasi berbeda (beberapa populasi bisa jadi sama) ANOVA Satu Arah (lanjutan) H 0 : μ1 μ 2 μ 3 μ c H 1 : tidak semua μ j sama Paling sedikit satu rata – rata yang beda: Pernyataan H0 TIDAK benar (yang benar pernyataan H1) atau μ1 μ 2 μ 3 μ1 μ 2 μ 3 Interpretasi Uji F untuk ANOVA Satu Arah • Estimasi berdasarkan rasio uji F untuk varians antar dan dalam kelompok – Angka rasio HARUS selalu bernilai positif – df1 = c -1 bernilai kecil – df2 = n - c bernilai besar Aturan Umum: TolakH0 jika F > FU, sebaliknya jangan tolak H0 = .05 0 Terima H0 Tolak H0 FU Contoh Anda ingin melihat apakah jarak tempuh mobil dari tiga perusahaan travel jakartaBandung memiliki jarak tempuh yang sama. Anda secara acak memilih lima pengukuran dari jarak tempuh mobil untuk setiap travel. Pada tingkat signifikansi 0.05, apakah ada perbedaan dalam jarak tempuh? Travel 1 254 263 241 237 251 Travel 2 234 218 235 227 216 Travel 3 200 222 197 206 204 Hasil hitung via SPSS… Nilai Uji F… Solusi dan Kesimpulan H0: μ1 = μ2 = μ3 H1: μj tidak semua sama = 0.05 df1= 2 df2 = 12 Uji F : F Nilai Kritis: = .05 Terima H0 Tolak H0 FU = 3.89 MSW 2358.2 25.275 93.3 Keputusan: Reject H0 at = 0.05 FU = 3.89 0 MSA F = 25.275 Kesimpulan: Terdapat bukti bahwa paling sedikit satu μj berbeda LATIHAN Sebuah sekolah melakukan penelitian untuk mengetahui apakah 2 macam metode pengajaran baru (X dan Y) memberikan hasil yang berbeda atau tidak terhadap kemampuan akademik siswa. Untuk mengetahui efektivitas kedua metode, penelitian ini juga mengikutsertakan metode yang saat ini digunakan, yaitu metode standar. Sebanyak 15 siswa dipilih secara acak dari sekolah tersebut untuk diikutsertakan dalam penelitian ini. Setiap metode diterapkan terhadap 5 orang siswa. No 1 2 3 4 5 METODE STANDAR 49 60 57 59 55 METODE METODE X Y 71 83 60 87 65 89 59 92 69 95 Penelitian ini dilakukan tiga bulan untuk kemudian dilihat apakah terdapat perbedaan dalam kemampuan akademik siswa. (=0.05). Manakah metode yang berbeda? Hasil via spss… Demikian… see you in the next episode…