STATISTIKA TERAPAN Rangkuman dari 5-02, 5-55, 5-58 Dosen : Sakti Prabowo (Dosko) TM 9 Estimasi dan Ukuran Sampel A. Konsep Utama 1. Perkiraan/Estimasi Titik(Point Estimate) Didefinisikan sebagai nilai tunggal(atau titik) yang digunakan untuk memperkirakan parameter populasi 2. Proporsi Sampel Proporsi sampel adalah estimasi titik terbaik dari proporsi populasi p Contoh: Pertanyaan : Dalam Bab Masalah kami mencatat bahwa dalam jajak pendapat Pew Research Center, 70% dari 1501 orang dewasa yang dipilih secara acak di Amerika Serikat percaya pada pemanasan global, jadi proporsi sampelnya adalah 0,70. Temukan perkiraan terbaik dari proporsi semua orang dewasa di Amerika Serikat yang percaya pada pemanasan global. Jawaban : Karena proporsi sampel adalah perkiraan titik terbaik dari proporsi populasi, kami menyimpulkan bahwa perkiraan titik terbaik padalah 0,70. Saat menggunakan hasil sampel untuk memperkirakan persentase semua orang dewasa di Amerika Serikat yang percaya pada pemanasan global, perkiraan terbaik adalah 70%. 3. Interval Keyakinan Didefinisikan sebagai rentang (atau interval) nilai yang digunakan untuk memperkirakan nilai sebenarnya dari parameter populasi. Interval kepercayaan terkadang disingkat CI. 4. Tingkat Keyakinan Didefinisikan sebagai probabilitas 1-α (sering dinyatakan sebagai persentase ekuivalen), bahwa interval keyakinan sebenarnya mengandung parameter populasi dengan asumsi bahwa proses estimasi diulangi berkali-kali. Tingkat keyakinan juga disebut degree of confidence atau confidence coefficient. Nilai tingkat keyakinan berkisar 1 – 0, dimana apabila nilai mendekati 1 maka akan semakin baik interval keyakinannya. Confidence coefficient yang paling umum yaitu 90% (α = 10%), 95% (α= 5%), dan 99% (α=1%). B. Mengestimasi Proporsi Populasi 1. Critical Value(Nilai Kritis) SUPLEMEN BREGADASATYA 2020 1 STATISTIKA TERAPAN Nilai kritis adalah standar z score yang dapat digunakan untuk membedakan antara statistik sampel yang cenderung terjadi dan yang tidak mungkin terjadi. Nilai kritis didasarkan pada pengamatan berikut:Dalam kondisi tertentu, distribusi sampling dari proporsi sample dapat diperkirakan dengan distribusi normal. Z-score yang terkait dengan proporsi sampel memiliki kemungkinan α/2 berada di sisi kiri dan kanan ekor. Notasi untuk nilai kritis Nilai kritis z/2 adalah yang positif z nilai yang ada di batas vertikal yang memisahkan suatu area /2 di ekor kanan distribusi normal standar. (Nilai dari -z/2 berada di batas vertikal untuk area dari /2 di ekor kiri.) Subskrip /2 adalah hanya sebagai pengingat bahwa z skor memisahkan suatu daerah dari /2 di ekor kanan distribusi normal standar. Temuan z2 untuk 95% Tingkat kepercayaan diri = 5% 2 = 2,5% = 0,025 Temuan z2 untuk 95% Confidence Level – lanjutan SUPLEMEN BREGADASATYA 2020 2 STATISTIKA TERAPAN 2. Margin of error Margin of error adalah perbedaan kemungkinan maksimum (dengan probabilitas 1α) antara proporsi yang diamati dan nilai sebenarnya dari proporsi populasi p. Notasi: Keterangan: E = Margin of error p = population proportion n = jumlah sample values Zα/2 = z-score yang memisahkan area α/2 di sisi kanan dari distribusi normal standar. Ketika data dari sampel acak sederhana digunakan untuk memperkirakan proporsi populasi p, itu margin of error, dilambangkan dengan E, adalah perbedaan kemungkinan maksimum (dengan probabilitas 1 - , seperti 0,95) antara proporsi yang diamati dan nilai sebenarnya dari proporsi penduduk p. Margin kesalahan E juga disebut kesalahan maksimum dari perkiraan dan dapat ditemukan dengan mengalikan nilai kritis dan deviasi standar dari proporsi sampel. 3. Interval Keyakinan untuk Memperkirakan Proporsi Populasi p 1. Sampel adalah sampel acak sederhana. 2. Kondisi untuk distribusi binomial terpenuhi: ada sejumlah uji coba tetap, uji coba independen, ada dua kategori hasil, dan probabilitas tetap konstan untuk setiap uji coba. 3. Setidaknya ada 5 keberhasilan dan 5 kegagalan. Rumus: SUPLEMEN BREGADASATYA 2020 3 STATISTIKA TERAPAN Prosedur-Interval Keyakinan 1. Pastikan bahwa asumsi yang diperlukan terpenuhi. (Sampel adalah sampel acak sederhana, kondisi untuk distribusi binomial terpenuhi, dan distribusi normal dapat digunakan untuk memperkirakan distribusi proporsi sampel karena np lebih besar sama dengan 5, dan nq lebih besar sama dengan 5) 2. Lihat Tabel Z-Score dan temukan nilai kritis zα/2 yang sesuai dengan confidence level yang diinginkan. 3. Mengevaluasi margin kesalahan 4. Dengan menggunakan nilai margin kesalahan yang dihitung, E dan nilai proporsi sampel, p, cari nilai p - E dan p + E. Ganti nilai-nilai tersebut dalam format umum untuk confidence interval: 5. Aturan Pembulatan: Bulatkan nilai tersebut menjadi tiga angka dibelakang koma Contoh Soal: Pow Research Center dari 1501 orang dewasa AS yang dipilih secara acak menunjukkan bahwa 70% responden percaya pada pemanasan global. Hasil sampel adalah n = 1501, dan p ˆ = 0.70 a. Temukan margin kesalahan E yang sesuai dengan confidence interval 95%. b. Temukan estimasi confidence interval 95% dari proporsi populasi p c. Berdasarkan hasil, dapatkah kita menyimpulkan bahwa mayoritas orang dewasa percaya pada pemanasan global? d. Dengan asumsi bahwa Anda adalah seorang reporter surat kabar, tulislah pernyataan singkat yang secara akurat menjelaskan hasil dan mencakup semua informasi yang relevan. Jawaban a. Pemeriksaan persyaratan: sampel acak sederhana; jumlah percobaan tetap, 1501; uji coba bersifat independen; dua kategori hasil (percaya atau tidak); probabilitas tetap konstan. Catatan: jumlah keberhasilan dan kegagalan minimal 5. SUPLEMEN BREGADASATYA 2020 4 STATISTIKA TERAPAN Gunakan rumus untuk menemukan margin error b. Interval kepercayaan 95% c. Berdasarkan interval kepercayaan yang diperoleh pada bagian (b), terlihat bahwa proporsi orang dewasa yang percaya pada pemanasan global lebih besar dari 0,5 (atau 50%), sehingga dapat disimpulkan bahwa mayoritas orang dewasa percaya pada pemanasan global. Karena batas 0,677 dan 0,723 kemungkinan besar memuat proporsi penduduk yang sebenarnya, maka tampak bahwa proporsi penduduk bernilai lebih dari 0,5. d. 70% orang dewasa Amerika Serikat percaya bahwa bumi semakin hangat. Persentase itu didasarkan pada jajak pendapat Pew Research Center terhadap 1501 orang dewasa yang dipilih secara acak di Amerika Serikat. Secara teori, dalam 95% jajak pendapat semacam itu, persentase seharusnya berbeda tidak lebih dari 2,3 poin persentase di kedua arah dari persentase yang akan ditemukan dengan mewawancarai semua orang dewasa di Amerika Serikat. Saat menganalisis, pertimbangkan: 1. Sampel harus berupa sampel acak sederhana, bukan sampel yang tidak sesuai (seperti sampel respons sukarela). 2. Tingkat kepercayaan harus disediakan. (Seringkali 95%, tetapi laporan media sering lalai untuk mengidentifikasinya.) 3. Ukuran sampel harus disediakan. (Biasanya disediakan oleh media, tetapi tidak selalu.) 4. Kecuali untuk kasus yang relatif jarang, kualitas hasil polling tergantung pada metode pengambilan sampel dan ukuran sampel, tetapi ukuran populasi biasanya bukan merupakan faktor. C. Menentukan Ukuran Sampel SUPLEMEN BREGADASATYA 2020 5 STATISTIKA TERAPAN Apabila kita berencana untuk mengambil data sampel dengan tujuan menaksir proporsi populasi, cara untuk mengetahui berapa banyak sampel yang harus diambil adalah sebagai berikut: Aturan Pembulatan untuk Menentukan Ukuran Sampel Jika ukuran sampel dihitung n bukan bilangan bulat, dibulatkan dengan nilai n hingga bilangan bulat besar berikutnya. Contoh Soal Internet memengaruhi kita semua dengan berbagai cara, jadi ada banyak alasan untuk memperkirakan proporsi orang dewasa yang menggunakannya. Asumsikan bahwa seorang manajer E-Bay ingin menentukan persentase saat ini dari orang dewasa A.S. yang sekarang menggunakan Internet. Berapa banyak orang dewasa yang harus disurvei agar ia memiliki 95% keyakinan bahwa persentase sampel error dari populasi dengan tidak lebih dari tiga poin persentase? a. Pada tahun 2006, 73% orang dewasa menggunakan Internet. b. Tidak ada nilai proporsi yang diketahui. Jawaban: a. Keterangan: Agar 95% yakin bahwa persentase sampel kami berada dalam tiga poin persentase dari persentase sebenarnya untuk semua orang dewasa, kami harus memperoleh sampel acak sederhana dari 842 orang dewasa. SUPLEMEN BREGADASATYA 2020 6 STATISTIKA TERAPAN b. Keterangan : Untuk menjadi 95% yakin bahwa persentase sampel kami berada dalam tiga poin persentase dari persentase sebenarnya untuk semua orang dewasa, kami harus memperoleh sampel acak sederhana sebanyak 1.068 orang dewasa. Menemukan Perkiraan/Estimasi Titik dan E dari Interval Keyakinan D. Mengestimasi Mean Populasi: α Diketahui Rata-rata sampel x adalah perkiraan poin terbaik dari rata-rata populasi µ = rata-rata populasi = deviasi standar populasi X bar= rata-rata sampel n = jumlah nilai sampel E = margin error z/ 2 = z skor memisahkan suatu area Sebuah/ 2 di ekor kanan distribusi normal standar(z score yang menjadi critical value) Asumsi yang harus dipegang: 1. Sampel adalah simple random sampling. (Semua sampel dengan ukuran yang sama memiliki peluang yang sama untuk dipilih.) 2. Nilai standar deviasi populasi diketahui. 3. Salah satu atau kedua kondisi ini terpenuhi: Populasi terdistribusi normal atau n> 30. Formula Interval Keyakinan untuk Memperkirakan Rata-rata Populasi (dengan Diketahui) SUPLEMEN BREGADASATYA 2020 7 STATISTIKA TERAPAN Prosedur-Confidence Interval/Interval Keyakinan 1. Pastikan bahwa asumsi yang diperlukan terpenuhi. 2. Lihat Tabel Z-Score dan temukan nilai kritis zα/2 yang sesuai dengan confidence level yang diinginkan. 3. Mengevaluasi margin error 4. Temukan nilai confidence interval 5. Bulatkan. Apabila mengetahui nilai asli data, bulatkan satu angka decimal lebih banyak. Apabila hanya mengetahui summary statistics maka bulatkan sebanyak desimal mean Contoh Soal: Dalam beberapa dekade terakhir, berat rata-rata pria telah meningkat secara signifikan, jadi kami perlu memperbarui perkiraan kami tentang hal itu sehingga kapal, pesawat terbang, lift, dan perangkat lain tidak menjadi kelebihan muatan. Kami memperoleh statistik sampel ini untuk sampel acak sederhana: n = 40 dan = 172,55 lb. Penelitian dari beberapa sumber lain menunjukkan bahwa populasi bobot pria memiliki standar deviasi = 26 lb. a. Temukan point testimate terbaik dari berat rata-rata populasi semua pria. b. Buatlah perkiraan confidence interval 95% dari berat rata-rata semua pria. c. Apa hasil yang disarankan tentang berat rata-rata 166,3 lb yang digunakan untuk menentukan kapasitas penumpang yang aman dari kapal air pada tahun 1960 (seperti yang diberikan dalam rekomendasi keselamatan Dewan Keselamatan dan Transportasi Nasional M-04-04)? Jawaban a. Rata-rata sampel 172,55 lb adalah perkiraan titik terbaik dari berat rata-rata populasi semua pria. b. SUPLEMEN BREGADASATYA 2020 8 STATISTIKA TERAPAN c. Berdasarkan interval kepercayaan ada kemungkinan bahwa berat rata-rata 166,3 lb yang digunakan pada tahun 1960 bisa menjadi berat rata-rata laki-laki saat ini. Namun, perkiraan titik terbaik dari 172,55 lb menunjukkan bahwa berat rata-rata laki-laki sekarang jauh lebih besar dari 166,3 lb. Mempertimbangkan bahwa perkiraan yang terlalu rendah dari rata-rata berat laki-laki dapat mengakibatkan hilangnya nyawa melalui kapal dan pesawat yang kelebihan muatan, hasil ini sangat menyarankan bahwa data tambahan harus dikumpulkan. (Data tambahan telah dikumpulkan, dan asumsi berat badan rata-rata pria telah ditingkatkan.) Menemukan Ukuran Sampel untuk Memperkirakan Rata-rata Populasi Menemukan Ukuran Sampel n Kapan tidak diketahui 1. Gunakan aturan praktis kisaran (lihat Bagian 3- 3) untuk memperkirakan deviasi standar sebagai berikut: jarak / 4. 2. Memulai proses pengumpulan sampel tanpa mengetahuinya dan, dengan menggunakan beberapa nilai pertama, hitung simpangan baku sampel s dan gunakan sebagai pengganti . Nilai perkiraan kemudian dapat ditingkatkan karena lebih banyak data sampel diperoleh, dan ukuran sampel dapat disempurnakan. 3. Perkirakan nilai dengan menggunakan hasil beberapa studi lain yang telah dilakukan sebelumnya Contoh Soal Asumsikan bahwa kami ingin memperkirakan skor IQ rata-rata untuk populasi siswa statistik. Berapa banyak statistik yang harus dipilih secara acak untuk tes IQ jika kita ingin keyakinan 95% bahwa rerata sampel berada dalam 3 poin IQ dari rerata populasi? Jawaban = 0.05 /2 = 0.025 z / 2 = 1.96 SUPLEMEN BREGADASATYA 2020 9 STATISTIKA TERAPAN E=3 = 15 Keterangan: Dengan sampel acak sederhana yang hanya terdiri dari 97 siswa statistik, kami akan 95% yakin bahwa rata-rata sampel berada dalam 3 poin IQ dari rata-rata populasi sebenarnya. E. Memperkirakan Rata-rata Populasi: Tidak diketahui Bagian ini menyajikan metode untuk memperkirakan rata-rata populasi saat deviasi standar populasi adalah tidak diketahui. Dengan σ tidak diketahui, dapat menggunakan Student t distribusi dengan asumsi bahwa persyaratan yang relevan terpenuhi. 1. Distribusi t student adalah distribusi untuk semua sampel ukuran n dan digunakan untuk menemukan nilai kritis yang ditunjukkan oleh tα/2. (untuk mencari tα/2 dapat menggunakan table A-3). Rumus: 2. Degree of Freedom Nilai degree of freedom untuk pengumpulan data sampel adalah jumlah nilai sampel yang dapat bervariasi setelah pembatasan tertentu diberlakukan pada semua nilai data. Pada t distribution: df = n-1 Margin of Error E untuk Estimasi (Dengan σ Tidak diketahui) SUPLEMEN BREGADASATYA 2020 10 STATISTIKA TERAPAN Keterangan: Prosedur – Confidence Interval 1. Pastikan bahwa asumsi yang diperlukan terpenuhi. 2. Lihat Tabel t-Score dan temukan nilai kritis tα/2 yang sesuai dengan confidence level yang diinginkan dan gunakan df yang sesuai. 3. Mengevaluasi margin kesalahan. 4. Temukan nilai confidence interval x bar -E dan x bar +E 5. Bulatkan. Apabila mengetahui nilai asli data, bulatkan satu angka decimal lebih banyak. Apabila hanya mengetahui summary statistics maka bulatkan sebanyak desimal mean Contoh soal Klaim umum adalah bawang putih menurunkan kadar kolesterol. Dalam tes efektivitas bawang putih, 49 subjek diobati dengan dosis bawang putih mentah, dan kadar kolesterol mereka diukur sebelum dan sesudah perawatan. Perubahan kadar kolesterol LDL mereka (dalam mg / dL) memiliki rata-rata 0,4 dan standar deviasi 21,0. Gunakan statistik sampel n = 49, = 0,4 dan s = 21,0 untuk mengestimasi confidence interval 95% dari perubahan bersih rata-rata kolesterol LDL setelah pengobatan bawang putih. Apa yang disarankan oleh confidence interval tentang efektivitas bawang putih dalam mengurangi kolesterol LDL? Jawaban SUPLEMEN BREGADASATYA 2020 11 STATISTIKA TERAPAN Keterangan: Kami 95% yakin bahwa batas –5.6 dan 6.4 benar-benar mengandung nilai , itu rata-rata perubahan kolesterol LDL untuk populasi. Karena batasan interval kepercayaan mengandung nilai 0, maka hal tersebut sangat memungkinkan bahwa ratarata perubahan kolesterol LDL sama dengan 0, menunjukkan bahwa pengobatan bawang putih tidak mempengaruhi kadar kolesterol LDL. Sepertinya tidak pengobatan bawang putih efektif dalam menurunkan kolesterol LDL. Karakteristik t distribution: 1. Distribusi t Student berbeda untuk ukuran sampel yang berbeda (lihat slide berikut, untuk kasus n = 3 dan n = 12). 2. Distribusi t Student memiliki bentuk lonceng simetris umum yang sama dengan distribusi normal standar tetapi mencerminkan variabilitas yang lebih besar (dengan distribusi yang lebih luas) yang diharapkan dengan sampel kecil. 3. Distribusi t Student memiliki rata-rata t = 0 (seperti halnya distribusi normal standar memiliki rata-rata z = 0). 4. Deviasi standar dari distribusi t Student bervariasi dengan ukuran sampel dan lebih besar dari 1 (tidak seperti distribusi normal standar, yang memiliki σ = 1). 5. Ketika ukuran sampel n semakin besar, distribusi Student t semakin mendekati distribusi normal. Perbandingan t distribution: F. Memilih Distribusi yang Tepat SUPLEMEN BREGADASATYA 2020 12 STATISTIKA TERAPAN Keterangan: Menemukan Perkiraan Titik dan E dari Interval Keyakinan G. Memperkirakan Varians Populasi 1. Chi-Square Distribution Dalam populasi yang terdistribusi normal dengan varian 2 asumsikan bahwa kita secara acak memilih sampel independen ukuran n dan, untuk setiap sampel, menghitung varians sampel s 2 (yang merupakan kuadrat dari standar deviasi sampel s). Statistik sampel 2 (diucapkan chi-square) memiliki distribusi sampel yang disebut distribusi chi-square. SUPLEMEN BREGADASATYA 2020 13 STATISTIKA TERAPAN Jenis-jenis Distribusi Chi-Square 1. Distribusi chi-kuadrat tidak simetris, tidak seperti yang normal dan Pelajar t distribusi. Distribusi Chi-Square Distribusi Chi-Square untuk df = 10 dan df = 20 Ketika jumlah derajat kebebasan meningkat, maka distribusi menjadi lebih simetris. 2. Nilai chi-square bisa nol atau positif, tetapi tidak boleh negatif. 3. Distribusi chi-square berbeda untuk setiap nilai degrees of freedom. Saat df semakin membesar, distribusi Chi-Square akan mendekati distribusi normal. Contoh Soal: Sampel acak sederhana dari sepuluh level tegangan diperoleh. Pembuatan interval kepercayaan untuk deviasi standar populasi membutuhkan nilai kritis kiri dan kanan 2 sesuai dengan tingkat kepercayaan 95% dan ukuran sampel n = 10. Temukan nilai kritis 2 memisahkan area 0,025 di ekor kiri, dan mencari nilai kritis 2 memisahkan area seluas 0,025 di ekor kanan. Jawaban: SUPLEMEN BREGADASATYA 2020 14 STATISTIKA TERAPAN Deviasi standar sampel s adalah perkiraan titik yang umum digunakan (meskipun ini merupakan perkiraan yang bias). Persyaratan: 1. Sampel adalah sampel acak sederhana. 2. Populasi harus memiliki nilai yang terdistribusi normal (meskipun sampelnya besar) Prosedur: 1. Pastikan bahwa asumsi yang diperlukan terpenuhi. 2. Dengan menggunakan n - 1 degree of freedom, lihat Tabel A-4 atau gunakan teknologi untuk menemukan nilai kritis 2 R dan 2 L yang sesuai dengan tingkat kepercayaan yang diinginkan. 3. Tentukan batas confidence interval atas dan bawah menggunakan format confidence interval ini: SUPLEMEN BREGADASATYA 2020 15 STATISTIKA TERAPAN 4. Akarkan kedua sisi tersebut untuk mendapatkan standar deviasi. 5. Bulatkan. Apabila mengetahui nilai asli data, bulatkan satu angka decimal lebih banyak. Apabila hanya mengetahui summary statistics maka bulatkan sebanyak desimal variance Contoh Soal: Pengoperasian yang tepat dari peralatan rumah tangga yang umum membutuhkan level voltase yang tidak jauh berbeda. Di bawah ini tercantum sepuluh level tegangan (dalam volt) yang direkam di rumah penulis pada sepuluh hari yang berbeda. Sepuluh nilai ini memiliki standar deviasi s = 0,15 volt. Gunakan data sampel berikut untuk mengestimasi confidence interval 95% dari standar deviasi dari semua level tegangan. 123.3 123.5 123.7 123.4 123.6 123.5 123.5 123.4 123.6 123.8 Jawaban SUPLEMEN BREGADASATYA 2020 16 STATISTIKA TERAPAN Kalau untuk pekerjaan yang sederhana saja kita tidak mampu untuk memebrikan yang terbaik, maka jangan harap kita akan mampu melakukan hal yang jauh lebih besar.Iman Usman SUPLEMEN BREGADASATYA 2020 17 STATISTIKA TERAPAN Rangkuman dari 5-24 Dosen : Robinson TM 9 Estimasi dan Ukuran Sampel (Estimates and Sample Sizes) PREVIEW Statistik Inferensial Dua aktivitas utama statistik inferensial adalah (1) menggunakan data sampel untuk memperkirakan nilai parameter populasi, dan (2) untuk menguji hipotesis atau klaim yang dibuat tentang parameter populasi. ESTIMATING A POPULATION PROPORTION Definisi 1. Point estimate Sebuah nilai (point) yang digunakan untuk menebak nilai parameter yang ada di populasi 2. Confidence Interval (CI) Sebuah range (atau interval) dari nilai-nilai yang digunakan untuk mengestimasi nilai sebenarnya dariparameter milik populasi 3. Margin of error Sebuah nilai maksimum yang menghitung selisih (perbedaan) dengan probabilitas tertentu (seperti 1- α) diantara nilai yang diestimasi dan parameter populasi Critical Value dan Confidence Level Confidence Level Berbentuk probabilitas 1 – α yang dinotasikan dengan persentase yang menekankan tingkat kepercayaan bahwa confidence interval mengandung nilai parameter milik populasi Most common choices are 90% (α=10%), 95% (α=5%), or 99% (α=1%) SUPLEMEN BREGADASATYA 2020 18 STATISTIKA TERAPAN Critical Value Dinotasikan dengan Zα/2 dan merupakan pembatas antara nilai usual dan unusual dari sebuah distribusi. Finding Zα/2 for a 95% Confidence Level Margin of Error for Proportions Margin of error, dilambangkan dengan E, adalah perbedaan kemungkinan maksimum (dengan probabilitas 1 - α, seperti 0,95) antara proporsi yang diamati dan nilai sebenarnya dari proporsi penduduK. E z 2 ˆˆ pq n SUPLEMEN BREGADASATYA 2020 19 STATISTIKA TERAPAN Confidence Interval for Estimating a Population Proportion p 1. Sampel adalah simple random sample. 2. Kondisi untuk distribusi binomial terpenuhi: ada sejumlah uji coba, uji coba independen, ada dua kategori hasil, dan probabilitas tetap konstan untuk setiap uji coba. 3. Setidaknya ada 5 keberhasilan dan 5 kegagalan Confidence Interval for Estimating a Population Proportion p Round-Off Rule for Confidence Interval Estimates of p Bulatkan confidence interval limits for p three significant digits (tiga angka di belakang koma) Procedure for Constructing a Confidence Interval for p 1. Verifikasi bahwa asumsi yang diperlukan sudah dipenuhi. (Sampel adalah sampel acak sederhana, kondisi distribusi binomial terpenuhi, dan distribusi normal dapat digunakan untuk mendekati distribusi proporsi sampel karena np ≥ 5, dan nq ≥5). 2. Lihat Tabel A-2 dan temukan nilai kritisnya Zα/2 yang sesuai dengan tingkat kepercayaan yang diinginkan. 3. Evaluasi margin of error. SUPLEMEN BREGADASATYA 2020 20 STATISTIKA TERAPAN 4. Dengan menggunakan nilai margin kesalahan yang dihitung, E dan nilai proporsi sampel, p, cari nilai p - E dan p + E. Ganti nilai-nilai tersebut dalam format umum untukconfidence interval 5. Bulatkan nilai tersebut menjadi tiga angka di belakang koma Contoh soal Pow Research Center dari 1501 orang dewasa AS yang dipilih secara acak menunjukkan bahwa 70% responden percaya pada pemanasan global. Hasil sampel adalah n = 1501, dan a. Temukan margin kesalahan E yang sesuai dengan confidence interval 95%. b. Temukan estimasi confidence interval 95% dari proporsi populasi hal Jawaban a. Tentukan Zα/2 Dengan tabel A-2 atau dengan excel Rumus Excel Zα/2 =abs(NORM.S.INV(0,025)) Tentukan E ˆˆ pq 1.96 n E 0.023183 E z 2 0.70 0.30 1501 b. confidence interval 95% SUPLEMEN BREGADASATYA 2020 21 STATISTIKA TERAPAN Sample Sizes Misal kita ingin mengumpulkan data sampel untuk memperkirakan beberapa proporsi populasi. Pertanyaannya adalah berapa banyak barang sampel harus diperoleh? Determining Sample Size Jika ukuran sampel dihitung n bukan bilangan bulat, dibulatkan dengan nilai n hingga bilangan bulat besar berikutnya. Finding the Point Estimate and E from a Confidence Interval ESTIMATING A POPULATION MEAN: σ KNOWN The sample mean is the best point estimate of the population mean µ. Asumsi 1. Sampel adalah simple random sampling. (Semua sampel dengan ukuran yang sama memiliki peluang yang sama untuk dipilih.) 2. Nilai standar deviasi populasi diketahui. SUPLEMEN BREGADASATYA 2020 22 STATISTIKA TERAPAN 3. Salah satu atau kedua kondisi ini terpenuhi: Populasi terdistribusi normal atau n> 30 Confidence Interval for Estimating a Population Mean (with σ Known) Notasi Confidence Interval Sample mean 1. Untuk semua populasi, mean sampel adalah unbiased estimator dari rata-rata populasi µ, artinya distribusi mean sampel cenderung berpusat pada nilai mean populasi. 2. Untuk banyak populasi, distribusi mean sampel cenderung lebih konsisten (dengan variasi yang lebih sedikit) daripada distribusi statistik sampel lainnya. Procedure for Constructing a Confidence Interval for µ (with Known σ ) 1. Pastikan bahwa asumsi yang diperlukan terpenuhi. 2. Lihat Tabel Z-Score dan temukan nilai kritis zα/2 yang sesuaidengan confidence level yang diinginkan. 3. Mengevaluasi margin kesalahan. 4. Temukan nilai confidence interval x-E dan x+E SUPLEMEN BREGADASATYA 2020 23 STATISTIKA TERAPAN 5. Bulatkan. Apabila mengetahui nilai asli data, bulatkan satu angka decimal lebih banyak. Apabila hanya mengetahui summary statistics maka bulatkan sebanyak desimal mean Contoh soal Dalam beberapa dekade terakhir, berat rata-rata pria telah meningkat secara signifikan, jadi kami perlu memperbarui perkiraan kami tentang hal itu sehingga kapal, pesawat terbang, lift, dan perangkat lain tidak menjadi kelebihan muatan. Kami memperoleh statistik sampel ini untuk sampel acak sederhana: n = 40 dan X bar = 172,55 lb. Penelitian dari beberapa sumber lain menunjukkan bahwa populasi bobot pria memiliki standar deviasi = 26 lb. a. Temukan point estimate terbaik dari berat rata-rata populasi semua pria. b. Buatlah perkiraan confidence interval 95% dari berat rata-rata semua pria. Jawaban a. Rata-rata sampel 172,55 pon b. Confidence Interval Finding a Sample Size for Estimating a Population Mean E where E z 2 n SUPLEMEN BREGADASATYA 2020 24 STATISTIKA TERAPAN Jika ukuran sampel dihitung n bukan bilangan bulat, dibulatkan dengan nilai n hingga bilangan bulat besar berikutnya. Finding the Sample Size n When σ is Unknown 1. Gunakan range rule of thumb untuk mengestimasi standard deviation σ ≈ range/4 2. Memulai proses pengumpulan sampel tanpa mengetahui σ dan, dengan menggunakan beberapa nilai pertama, hitung simpangan baku sampel s dan gunakan sebagai pengganti σ. 3. Eatimasikan nilai σ dengan menggunakan hasil beberapa studi lain yang telah dilakukan sebelumnya. Contoh soal Asumsikan bahwa kami ingin memperkirakan skor IQ rata-rata untuk populasi siswa statistik. Berapa banyak statistik yang harus dipilih secara acak untuk tes IQ jika kita ingin keyakinan 95% bahwa rerata sampel berada dalam 3 poin IQ dari rerata populasi? ESTIMATING A POPULATION MEAN: σ NOT KNOWN Student t Distribution Apabila distribusi populasi berbentuk normal maka distribusi: SUPLEMEN BREGADASATYA 2020 25 STATISTIKA TERAPAN Adalah Student t Distribution untuk semua sampel pada size n. Distribusi ini juga seringkali disebut t distribution dimana ia dipakai untuk menghitung critical value tα/2 Degree of Freedom Nilai degree of freedom untuk pengumpulan data sampel adalah jumlah nilai sampel yang dapat bervariasi setelah pembatasan tertentu diberlakukan pada semua nilai data. Pada t distribution: df = n-1 Margin of Error E for Estimate of µ (With σ Not Known) Confidence Interval for the Estimate of μ (With σ Not Known) Procedure for Constructing a Confidence Interval for µ (With σ Unknown) 1. Pastikan bahwa asumsi yang diperlukan terpenuhi. 2. Lihat Tabel t-Score dan temukan nilai kritis tα/2 yang sesuai dengan confidence level yang diinginkan dan gunakan df yang sesuai. 3. Mengevaluasi margin kesalahan. 4. Temukan nilai confidence interval x-E dan x+E Contoh soal Klaim umum adalah bawang putih menurunkan kadar kolesterol. Dalam tes efektivitas bawang putih, 49 subjek diobati dengan dosis bawang putih mentah, dan kadar kolesterol mereka diukur sebelum dan sesudah perawatan. Perubahan kadar kolesterol LDL mereka (dalam mg / dL) memiliki rata-rata 0,4 dan standar deviasi 21,0. Gunakan statistik sampel n = 49, x bar= 0,4 dan SUPLEMEN BREGADASATYA 2020 26 STATISTIKA TERAPAN s = 21,0 untuk mengestimasi confidence interval 95% dari perubahan bersih rata-rata kolesterol LDL setelah pengobatan bawang putih. Jawaban Persyaratan terpenuhi: sampel acak sederhana dan n = 49 (yaitu, n > 30). 95% menyiratkan Sebuah = 0,05. Dengan n = 49, df = 49 - 1 = 48 Df terdekat adalah 50, dua ekor, jadi tα/2 = 2.009 Menggunakan tα/2 = 2.009, s = 21.0 dan n = 49 margin of error adalah: Confidence Interval Karakteristik t distribution 1. Distribusi t Student berbeda untuk ukuran sampel yang berbeda (lihat slide berikut, untuk kasus n = 3 dan n = 12). 2. Distribusi t Student memiliki bentuk lonceng simetris umum yang sama dengan distribusi normal standar tetapi mencerminkan variabilitas yang lebih besar (dengan distribusi yang lebih luas) yang diharapkan dengan sampel kecil. 3. Distribusi t Student memiliki rata-rata t = 0 (seperti halnya distribusi normal standar memiliki rata-rata z = 0). SUPLEMEN BREGADASATYA 2020 27 STATISTIKA TERAPAN 4. Deviasi standar dari distribusi t Student bervariasi dengan ukuran sampel dan lebih besar dari 1 (tidak seperti distribusi normal standar, yang memiliki σ = 1). 5. Ketika ukuran sampel n semakin besar, distribusi Student t semakin mendekati distribusi normal Student t Distributions for n = 3 and n = 12 Choosing the Appropriate Distribution Finding the Point Estimate and E from a Confidence Interval SUPLEMEN BREGADASATYA 2020 28 STATISTIKA TERAPAN ESTIMATING A POPULATION VARIANCE Chi-Square Distribution Dalam populasi yang terdistribusi normal dengan varian σ asumsikan bahwa kita secara acak memilih sampel independenukuran n dan, untuk setiap sampel, menghitung varians sampel s2 (yang merupakan kuadrat dari standar deviasi sampel s). Statistiksampel x 2 (diucapkan chisquare) memiliki distribusi sampel yang disebut distribusi chi-square. Properties of the Distribution of the Chi-Square Statistic 1. Distribusi chi-square tidak simetris, tidak seperti yang normal dan Pelajar t distribusi. Ketika jumlah derajat kebebasan meningkat, maka distribusi menjadi lebih simetris. SUPLEMEN BREGADASATYA 2020 29 STATISTIKA TERAPAN 2. Nilai chi-square bisa nol atau positif, tetapi tidak boleh negatif. 3. Distribusi chi-square berbeda untuk setiap derajat kebebasan, yaitu df = n - 1. Ketika jumlah derajat kebebasan meningkat, distribusi chi-kuadrat mendekati distribusi normal. Pada Tabel A-4, masing-masing nilai kritis x2 sesuai dengan area yang diberikan di baris atas tabel, dan area itu mewakili area kumulatif terletak di sebelah kanan dari nilai kritis. Contoh Sampel acak sederhana dari sepuluh level tegangan diperoleh. Pembuatan interval kepercayaan untuk deviasi standar σ populasi membutuhkan nilai kritis kiri dan kanan x2 sesuai dengan tingkat kepercayaan 95% dan ukuran sampel n = 10. Temukan nilai kritis x2 memisahkan area 0,025 di ekor kiri, dan mencari nilai kritis x2 memisahkan area seluas 0,025 di ekor kanan. Rumus Excel Ekor kiri =CHISQ.INV(0.025,9) Ekor kanan =CHISQ.INV(0.975,9) Estimators of σ2 SUPLEMEN BREGADASATYA 2020 30 STATISTIKA TERAPAN 2 The sample variance s is the best point estimate of the population variance σ2. Estimators of σ Deviasi standar sampel s adalah estimate point yang umum digunakan σ (meskipun ini merupakan perkiraan yang bias). Confidence Interval for Estimating a Population Standard Deviation or Variance Confidence Interval for the Population Variance Confidence Interval for the Population Standard Deviation Procedure for Constructing a Confidence Interval for σ2 or σ 1. Pastikan bahwa asumsi yang diperlukan terpenuhi. 2. Dengan menggunakan n - 1 degree of freedom, lihat Tabel A-4 atau gunakan excel untuk menemukan nilai kritis x2L dan x2R yang sesuai dengan tingkat kepercayaan yang diinginkan. 3. Tentukan batas confidence interval atas dan bawah menggunakan format confidence interval ini 4. Akarkan kedua sisi tersebut untuk mendapatkan standar deviasi. 5. Bulatkan. Apabila mengetahui nilai asli data, bulatkan satu angka decimal lebih banyak. Apabila hanya mengetahui summary statistics maka bulatkan sebanyak desimal variance SUPLEMEN BREGADASATYA 2020 31 STATISTIKA TERAPAN Contoh soal Pengoperasian yang tepat dari peralatan rumah tangga yang umum membutuhkan level voltase yang tidak jauh berbeda. Di bawah ini tercantum sepuluh level tegangan (dalam volt) yang direkam di rumah penulis pada sepuluh hari yang berbeda. Sepuluh nilai ini memiliki standar deviasi s = 0,15 volt. Gunakan data sampel berikut untuk mengestimasi confidence interval 95% dari standar deviasi dari semua level tegangan. 123.3 123.5 123.7 123.4 123.6 123.5 123.5 123.4 123.6 123.8 Jawaban 0.010645 2 0.075000 0.10 volt 0.27 volt. Berdasarkan hasil ini, kami memiliki keyakinan 95% bahwa batas 0,10 volt dan 0,27 volt mengandung nilai sebenarnya σ. Determining Sample Sizes SUPLEMEN BREGADASATYA 2020 32 STATISTIKA TERAPAN Contoh soal Kami ingin memperkirakan deviasi standar dari semua level tegangan di rumah. Kami ingin 95% yakin bahwa perkiraan kami berada dalam 20% dari nilai sebenarnya . Seberapa besar sampelnya? Asumsikan bahwa populasi berdistribusi normal. Jawaban Dari Tabel di atas kita dapat melihat bahwa kepercayaan 95% dan kesalahan 20% untuk sesuai dengan sampel berukuran 48. Kita harus mendapatkan sampel acak sederhana dari 48 level tegangan dari populasi level tegangan. SUPLEMEN BREGADASATYA 2020 33 STATISTIKA TERAPAN TM 10 Uji Hipotesis Awal A. Preview Dalam statistik, hipotesis adalah klaim atau pernyataan tentang properti suatu populasi. Uji hipotesis (atau uji signifikansi) adalah prosedur standar untuk menguji klaim tentang properti suatu populasi. Contoh hipotesis yang dapat dilakukan pengujian di bidang : Genetik : The Genetics & IVF Institute mengklaim bahwa metode XSORT memungkinkan pasangan meningkatkan kemungkinan memiliki bayi perempuan. Business : Sebuah headline surat kabar menyatakan bahwa sebagian besar pekerja mendapatkan pekerjaan melalui networking. Medicine : Peneliti medis mengklaim bahwa ketika orang yang masuk angin diobati dengan echinacea, pengobatan tersebut tidak berpengaruh. Aircraft Safety : Federal Aviation Administration mengklaim bahwa berat rata-rata penumpang maskapai (termasuk bagasi kabin) lebih besar dari 185 ponds. Quality Control : Perusahaan teknologi A mengklaim bahwa mobil V keluaran 2020 lebih efisien karena variabel kesalahan di produk sebelumnya sudah diperbaiki. Catatan : “Saat melakukan pengujian hipotesis, daripada langsung beralih ke prosedur dan penghitungan, pastikan untuk mempertimbangkan konteks datanya, sumber data, dan metode pengambilan sampel.” B. Dasar Pengujian Hipotesis Rare Event Rule, jika dengan asumsi tertentu, probabilitias terjadinya suatu peristiwa sangat kecil, dapat disimpulkan bahwa asumsi tersebut mungkin salah. Null Hypothesis (H0) Merupakan pernyataan bahwa nilai parameter populasi (proporsi, rata-rata, atau standar deviasi) sama (=) dengan beberapa nilai yang diklaim, dimana H0 diformulasikan untuk ditolak atau tidak ditolak sesuai pengujian. Pada pengujian ini, kita menguji hipotesis nol secara langsung dengan kesimpulan menolak H0 atau gagal menolak H0. Apabila H0 tidak ditolak atau diterima, hal itu menunjukkan bahwa berdasarkan data sampel, ternyata tidak terdapat cukup bukti untuk menolak H0. SUPLEMEN BREGADASATYA 2020 1 STATISTIKA TERAPAN Alternative Hypothesis (H1) Merupakan pernyataan bahwa parameter memiliki nilai yang berbeda dari hipotesis nol (H0). Bentuk simbolis menggunakan salah satu dari simbol berikut: tidak sama dengan (≠), kurang dari (<), atau lebih dari (>). Catatan : “Jika kita melakukan studi dan ingin menggunakan uji hipotesis untuk mendukung klaim kita, klaim tersebut harus dibuat dalam kata-kata sehingga menjadi hipotesis alternatif” Tes Statistics Merupakan nilai yang digunakan dalam membuat keputusan tentang hipotesis nol, dan ditemukan dengan mengonversi statistik sampel menjadi skor dengan asumsi bahwa hipotesis nol itu benar. Critical Region (Rejection Region) Merupakan himpunan semua nilai uji statistik yang menyebabkan kita menolak hipotesis nol Significance Level () Probabilitas bahwa statistik uji akan jatuh di wilayah kritis ketika hipotesis nol sebenarnya benar. Pilihan umum untuk alfa (α) adalah 0.05; 0.01; dan 0.1. Pada pengujian kali ini, kita membandingkan nilai test Statistics yang kita dapat dengan rumus sebelumnya dengan nilai test statistic yang berdasar pada tingkat signifikansi. Critical Value Nilai apa pun yang memisahkan critical region (tempat menolak hipotesis nol) dari nilai statistik uji yang tidak mengarah pada penolakan hipotesis nol. Critical value bergantung pada sifat hipotesis nol, distribusi sampling yang berlaku, dan Significance Level () SUPLEMEN BREGADASATYA 2020 2 STATISTIKA TERAPAN P-Value Probabilitas untuk mendapatkan nilai uji statistik yang setidaknya sama ekstrimnya dengan yang mewakili data sampel, dengan asumsi hipotesis nol (H0) benar. Hipotesis nol ditolak (reject) jika P-value sangat kecil (kurang dari 0.05) Jika nilai P rendah menolak H0 Jika nilai P tinggi gagal menolak Ho P-Value VS Proporsi (p) P-value = probabilitas untuk mendapatkan statistik pengujian setidaknya sama ekstrimnya dengan yang mewakili data sampel p = proporsi populasi Langkah-Langkah menguji Hipotesis 1. Tentukan H0 dan H1 2. Tentukan alpha (α) -> peluang kita tolak H0 padahal H0 benar (error tipe 1) Biasanya 1% (bidang medis) ,5%,10% 3. Tentukan nilai uji yang dipakai a. Proporsi Np>5, Nq>5 SUPLEMEN BREGADASATYA 2020 3 STATISTIKA TERAPAN b. Rata-rata Jika standar deviasi diketahui Jika standar deviasi tidak diketahui c. Standar deviasi 4. Tentukan wilayah kritis atau wilayah tolak 5. Keputusan Contoh Soal The genetics & IVF Institute melakukan uji klinis metode YSORT yang dirancang untuk meningkatkan kemungkinan mengandung anak laki-laki. Pada tulisan ini, 291 bayi yang dilahirkan dari orang tua dengan metode YSORT, dan 239 di antaranya adalah laki-laki. menggunakan tingkat signifikansi 0,01 untuk menguji klaim bahwa metode YSORT efektif dalam meningkatkan kemungkinan bayi laki-laki. Langkah-langkah : 1. Tentukan klaim dan alternatif klaim Klaim = Metode YSORT dapat meningkatkan kemungkinan mengandung anak laki-laki (P>0.5) Alt. Klaim = Metode YSORT tidak dapat meningkatkan kemungkinan 𝑝= 𝑥 𝑛 𝑝= 239 291 𝑝 = 0.8213 mengandung anak laki-laki (P=0.5) 2. Menulis hipotesis H0 P = 0.5 H1 P > 0.5 3. Mencari proporsi 4. Melakukan Tes Statistic 𝑧= 𝑧= 𝑝−𝑝 𝑝𝑞/𝑛 0.8213 − 0.5 0.5(1 − 0.5)/291 𝑧 = 10.96 SUPLEMEN BREGADASATYA 2020 4 STATISTIKA TERAPAN 5. Mencari nilai P-Value dan membandingkan dengan Significance Level (0.01) Nilai P-Value untuk z = 10.96 P = 1 – 0.9999 P = 0.0001 0.0001 < 0.01 Menolak H0 karena nilai P di bawah significance level 6. Kesimpulan Terdapat cukup bukti untuk mendukung klaim bahwa metode YSORT dapat meningkatkan probabilitas mengandung anak laki-laki C. Jenis-Jenis Tes Hipotesis Penentuan P-Value dan Critical Value dipengaruhi oleh apakah suatu wilayah kritis berada pada two-tailed, left-tailed, atau right-tailed (dilihat dari H1). Oleh karena itu, menjadi penting untuk mengkarakterisasi uji hipotesis dengan benar sebagai twotailed, left-tailed, atau right-tailed. 1. Two-tailed 2. Left-tailed SUPLEMEN BREGADASATYA 2020 5 STATISTIKA TERAPAN 3. Right-tailed Kesimpulan dari uji hipotesis ini ada 2, yaitu : 1. Menolak H0 (reject H0), atau 2. Gagal menolak H0 (fail to reject H0) D. Decision Criterion a. P Value Method : menggunakan significance level α Apabila P Value ≤ α reject H0 Apabila P Value > α fail to reject H0 b. Traditional Method Apabila hasil test statistic terletak pada critical region reject H0 Apabila hasil test statistik tidak terletak pada critical region fail to reject H0 c. Opsi Lainnya: Tidak dengan menggunakan significance level seperti 0.05, identifikasikan saja P Value-nya, lalu biarkan pembaca sendiri yang mengambil kesimpulan d. Confidence Interval Apabila confidene interval tidak memuat nilai dari klaim, maka tolak klaim tersebut. SUPLEMEN BREGADASATYA 2020 6 STATISTIKA TERAPAN e. Langkah Mengambil Kesimpulan Apakah Klaim mengandung kondisi ekualiti (H0 = Klaim) YA YA Apakah H0 ditolak? Tidak terdapat bukti yang cukup untuk menolak klaim bahwa … TIDAK TIDAK (Sehingga Klaim menjadi H1) YA Apakah H0 ditolak? TIDAK Terdapat bukti yang cukup untuk menolak klaim bahwa … Sample data mendukung klaim bahwa … Tidak terdapat sample data yang cukup untuk membuktikan klaim bahwa … Type I Error Kesalahan dimana peneliti menolak H0 ketika sebenarnya saharusnya tidak ditolak. Simbol (α) digunakan untuk merepresentasikan error tipe I ini. Type II Error Kesalahan dimana peneliti gagal menolak H0 ketika sebenarnya nilai tersebut seharusnya ditolak. Simbol (β) digunakan untuk merepresentasikan error tipe II ini. SUPLEMEN BREGADASATYA 2020 7 STATISTIKA TERAPAN Controlling Error Type I and Type II Untuk nilai α yang tetap, peningkatan jumlah sample akan mengurangi β. Untuk sample size n yang tetap, peningkatan α akan mengurangi β, begitupun sebaliknya. Untuk mengurangi α dan β, tambah jumlah sample. Contoh soal 1. Populasi Survei produk, diasumsikan 50% orang suka, n=100, X=60 0rg (suka produk). Ujilah apakah dpaat dikatakan saat ini produk tsb disukai lebih dari 50%? Jawaban H0 p=0,5 H1 p>0,5 α = 5% p^ = x/n = 60/100 =0,6 Z=2 Z terima> z tolak 1,645 (berada di wilayah reject H0) 2. Diketahui nilai uts mahasiwa stan Varian populasi 2,25 , Sampel 150 mahasiswa Rata2 = 7,9 Ujilah apakah rata-rata=8? Jawaban H0 µ =8 H1 µ ≠ 8 α = 5% Z = 0,4 Z untuk α=5% (two tailed) -> z = -1,96 dan z = 1,96 Sehingga z 0,4 berada di wilayah fail to reject H0 SUPLEMEN BREGADASATYA 2020 8 STATISTIKA TERAPAN 3. Ajang lempar lembing Jarak 1,3 m. Dari 25 sampel, terdapat rata-rata 1,2m degan std deviasi 0,3. Tentukan apakah rata-rata sekarang kurang dr rata-rata sebelumnya? Jawaban H0 µ >1,3 H1 µ <1,3 α = 10% t = -1,6 Karena H1 kurang dari maka lakukan uji satu arah Df = 25-1 =24 Cari t dengan derajat bebas = 24 α = 0,1 Tentukan t berada di wilayah reject atau failed to reject H0 SUPLEMEN BREGADASATYA 2020 9 STATISTIKA TERAPAN Rangkuman dari 5-02, 5-55, 5-58 Dosen : Sakti Prabowo (Dosko) TM 11 Uji Hipotesis Lanjutan A. Review Hypothesis Test P-Value Method Hypothesis Test – Traditional Method P Value Method : menggunakan significance level α Apabila P Value ≤ α reject H0 Apabila P Value > α fail to reject H0 SUPLEMEN BREGADASATYA 2020 1 STATISTIKA TERAPAN Traditional Method Apabila hasil test statistic terletak pada critical region reject H0 Apabila hasil test statistik tidak terletak pada critical region fail to reject H0 B. Pengujian untuk Klaim Proporsi Persyaratan: 1. Observasi diambil dari sampel acak sederhana 2. Memenuhi ketentuan binomal distribution 3. np ≥ 5 dan nq ≥ 5 terpenuhi sehingga bisa diaproksimasi dengan normal distribution. Note: Confidence interval baik digunakan saat mengestimasi proporsi populasi, namun yang kita gunakan P-value atau traditional method untuk menguji hipotesis seperti yang kita pelajari pada bab ini. Contoh: 57 dari 104 wanita hamil dapat menebak jenis kelamin bayi mereka. Dengan menggunakan klaim tersebut, ujilah klaim bahwa kesuksesan menebak jenis kelamin itu tidak berbeda dari 50%. Gunakan signifikan level 0.05 Penyelesaian: (P-value method) Identifikasi Klaim awal Original Klaim: Tingkat kesuksesan menebak jenis kelamin bayi tidak berbeda dari 50% (p = 0.5) berbeda Alternatif klaim: Tingkat kesuksesan menebak jenis kelamin bayi dari 50% (p ≠ 0.50) Tentukan hipotesis, pastikan H0 yang memiliki tanda equal H0 : p = 0.5 H1 : p ≠ 0.50 significance level is = 0.05 Uji Statistik proporsi z p̂ p pq n 57 0.50 104 0.98 0.50 0.50 104 Mencari nilai P-value dan membandingkannya dengan signifikance level 0.05 SUPLEMEN BREGADASATYA 2020 2 STATISTIKA TERAPAN Nilai P-value untuk z = 0.98 (lihat tabel A2) p = 1 – 0.8365 = 0.1635 Karena H1 mengandung tidak sama dengan, maka gunakan two tailed test (area dua sisi). P-value nya dikali 2. P-value = 0.1635 x 2 = 0.3270 Karena P-value > α fail to reject (gagal tolak) H0. Kesimpulan Karena original klaim mengandung equality dan hasilnya gagal tolak H0, maka kesimpulannya adalah tidak terdapat cukup bukti untuk menolak klaim bahwa Tingkat kesuksesan menebak jenis kelamin bayi tidak berbeda dari 50%. C. Pengujian Klaim untuk Rata-Rata Populasi (mean) ketika σ diketahui Persyaratan: 1. Merupakan simple random sample 2. σ diketahui 3. Salah satu dari kedua kondisi terpenuhi: Populasinya berdistribusi normal atau n > 30 Contoh: Orang orang meninggal dalam kecelakaan kapal karena perkiraan usang tentang rata rata bobot pria digunakan . Kami memperoleh statistik sampel ini : n = 40 dan x = 172,55 lb. Penelitian dari beberapa sumber lain menunjukkan bahwa populasi bobot pria memiliki standar deviasi yang diberikan σ = 26 lb. Gunakan hasil ini untuk menguji klaim bahwa pria memiliki berat rata rata lebih besar dari 166,3 lb , yang merupakan bobot dalam rekomendasi Dewan Transportasi dan Keselamatan Nasional. Gunakan tingkat signifikansi 0,05, dan gunakan metode P-value. Penyelesaian: Identifikasi klaim awal Original Klaim: Berat badan rata-rata penumpang > 166.3 Alternatif Klaim: Berat badan rata-rata penumpang ≤ 166.3 Tentukan hipotesis, pastikan H0 yang memiliki tanda equal H0 : = 166.3 H1 : >166.3 significance level is = 0.05 Uji Statistik Rata-Rata SUPLEMEN BREGADASATYA 2020 3 STATISTIKA TERAPAN z x x 172.55 166.3 1.52 26 n 40 Mencari nilai P-value dan membandingkannya dengan signifikance level 0.05 Nilai P-value untuk z = 1.52 (lihat tabel A2) Karena H1 > maka gunakan right tailed test, P-value adalah area kanan dari z = 1.52 P-value = 1 – 0.9357 = 0.0643 Karena P-value > α fail to reject (gagal tolak) H0. Kesimpulan Karena original klaim tidak mengandung equality dan hasilnya gagal tolak H0, maka kesimpulannya adalah tidak terdapat cukup bukti untuk mendukung klaim bahwa Berat badan rata-rata penumpang lebih besar dari 166.3 lb Mendapatkan proporsi sample •Traditional Method (Dengan menggunakan z = 1.645, z = 1.52 tidak jatuh pada critical region) Zstatistic < Z critical value → 1.52 < 1.645 → Fail to reject •Confidence Interval (Gunakan one tailed test dengan α = 0.05, 90% confidence interval). 165.8 < < 179.3 karena nilai 166.3 berada diantara range ini maka fail to reject D. Pengujian Klaim Rata-Rata (mean) ketika σ tidak diketahui Syarat: 1) Pengamatan sampel adalah sampel acak sederhana. 2) Nilai standar deviasi populasi tidak diketahui 3) Salah satu dari kedua kondisi terpenuhi: populasi terdistribusi normal atau n>30 n= jumlahsampel x = rata-rata sampel µ = rata-rata populasi untuk semua sampel s = standar deviasi sampel t = t statistic dengan df = n-1 SUPLEMEN BREGADASATYA 2020 4 STATISTIKA TERAPAN Sifat penting dari distribusi t student: a. Ukuran sampel yang berbeda menghasilkan distribusi t student yang berbeda juga. b. Berbentuk lonceng seperti distribusi normal standar. Bentuk yang lebih lebar mencerminkan variabilitas yang lebih besar dari yang diharapkan ketika σ yang digunakan adalah σ yang diperkirakan. c. Rata-rata dari t = 0 (seperti distribusi normal standar yang rata-rata z nya adalah 0) d. Standar deviasi beragam ukuran sampel nya dan lebih besar dari 1 ( tidak seperti distribusi normal standar yang memiliki σ = 1). e. Semakin besar ukuran sampel, distribusi t student semakin menyerupai distribusi normal. Contoh: Orang orang meninggal dalam kecelakaan kapal karena perkiraan usang tentang rata rata bobot pria digunakan . Kami memperoleh statistik sampel ini : n = 40 dan x = 172,55 lb. Penelitian dari beberapa sumber lain menunjukkan bahwa populasi bobot pria memiliki standar deviasi yang diberikan . oleh s = 26.33 lb. Gunakan hasil ini untuk menguji klaim bahwa pria memiliki berat rata rata lebih besar dari 166,3 lb , yang merupakan bobot dalam rekomendasi Dewan Transportasi dan Keselamatan Nasional. Gunakan tingkat signifikansi 0,05, dan gunakan metode tradisional. Jawaban: Asumsi yang dimiliki terpenuhi 1 simple randome sample, 2 standar deviasi populasi diketahui 26 lb 3 sampel size lebih dari 30. Identifikasi klaim awal Klaim awal (original claim) adalah µ > 166.3 Klaim alternative dimana µ ≤ 166.3 Tentukan hipotesis, pastikan H0 yang memiliki tanda equal H0 : µ=166.3 H1 : µ>166.3 Level signifikansi adalah = 0.05 Uji Statistik Sampel melibatkan rata rata populasi dimana standar deviasi tidak diketahui maka gunakan t statistics. t x x 172.55 166.3 1.501 s 26.33 n 40 Table A-3. df = n – 1 = 39, area of 0.05, one-tail yields t = 1.685; SUPLEMEN BREGADASATYA 2020 5 STATISTIKA TERAPAN t = 1.501 tidak jatuh pada critical region dengan batas t = 1.685 → gagal tolak H0 Kesimpulan Klaim awal tidak mengandung equality, hasil gagal tolak H0, maka kesimpulan adalah Tidak terdapat cukup bukti untuk mendukung bahwa bahwa rata rata populasi lebih besar dari 166.3 E. Pengujian Klaim untuk Standar Deviasi atau Varians Syarat: 1) Pengamatan sampel adalah sampel acak sederhana 2) Populasi harus teridistribusi normal n 1s 2 2 2 Sifat dari distribusi Chi-Square: 1. Nilai dari x2 selalu positif, dan distribusi nya tidak simetris 2. Ada perbedaan distribusi x2 untuk setiap angka dari degree of freedom 3. Nilai kritis dapat dicari pada Table A-4 dengan menggunakan: degrees of freedom = n – 1 SUPLEMEN BREGADASATYA 2020 6 STATISTIKA TERAPAN Notes : Tes 2 pada bagian ini tidak kuat terhadap penyimpangan dari normalitas , yang berarti bahwa tes tersebut tidak berfungsi dengan baik jika populasi memiliki distribusi yang jauh dari normal (tingkat kesalahan lebih besar). Oleh karena itu , kondisi populasi yang terdistribusi secara normal merupakan persyaratan yang jauh lebih ketat daripada pengujian rata rata. Tabel A-2 untuk distribusi normal standar menyediakan area kumulatif dari kiri, namun tabel A-4 untuk distribusi Chi-Square menggunakan area kumulatif dari kanan. ). Nilai kritis ditemukan tabel ini dengan terlebih dahulu menemukan baris yang sesuai dengan jumlah derajat kebebasan yang sesuai (di mana df = n 1). Selanjutnya , level signifikansi α digunakan untuk menentukan kolom yang benar . Contoh contoh berikut didasarkan pada tingkat signifikansi α = 0,05, tetapi tingkat signifikansi lainnya dapat digunakan dengan cara yang sama. Pada Table A-4 : Tes right tailed: Karena area di sebelah kanan critical value adalah 0,05, cari 0,05 di bagian atas Tabel Chi square. Tes left tailed: Dengan area left tailed 0,05 , area di sebelah kanan critical value adalah 0,95, jadi cari 0,95 di bagian atas Tabel Chi square. Tes Two tail: Tidak seperti distribusi standard normal dan t student , critical value dalam uji Chi square ini akan menjadi dua nilai positif yang berbeda bukan sesuatu seperti 1,96). Bagilah tingkat signifikansi 0,05 antara ekor kiri dan kanan , sehingga area di sebelah kanan dua critical value masing masing adalah 0,975 dan 0,025. Temukan 0,975 dan 0,025 di bagian atas table A-4 Contoh: Pertimbangkan sampel acak sederhana dari 37 berat uang pasca 1983 yang tercantum dalam Data Set 20 dalam Lampiran B. 37 bobot itu memiliki rata SUPLEMEN BREGADASATYA 2020 7 STATISTIKA TERAPAN rata 2,49910 g dan standar deviasi 0,01648 g. Spesifikasi A.S. Mint mengharuskan koin diproduksi sehingga berat rata rata adalah 2.500 g. Tes hipotesis akan memverifikasi bahwa sampel tampaknya berasal dari populasi dengan rata rata 2,500 g seperti yang diperlukan , tetapi menggunakan tingkat signifikansi 0,05 untuk menguji klaim bahwa populasi bobot memiliki standar deviasi kurang dari spesifikasi 0,0230 g. Penyelesaian: Identifikasi klaim awal Klaim : < 0.0230 Alt. Klaim : ≥ 0.0230 Tentukan hipotesis, pastikan H0 yang memiliki tanda equal significance level is = 0.05 Uji Statistik Sampel menguji standar deviasi maka kita menggunakan Chi Square distribution. n 1 s 2 37 1 0.01648 2 18.483 2 2 0.02302 Berdasarkan hipotesis nol diketahui bahwa kita menguji left tailed Selanjutnya maka kita bisa melihat nilai t table dengan df = n-1 = 36 dan area 0.95. Karena di tabel tidak terdapat 36 degree of freedom, maka kita bisa menggunakan nilai antara 18.493 dan 26.509. (Using technology, the critical value is 23.269.) Karena nilai Chi square statistic, 18.483 lebih kecil dari Chi square di tabel 18.493 (karena left tail maka cari yang lebih kecil lihat gambar) → Maka reject H0. SUPLEMEN BREGADASATYA 2020 8 STATISTIKA TERAPAN Nilai Chi square statistic jatuh di dalam region → tolak H0. Kesimpulan: Terdapat cukup bukti untuk mendukung klaim bahwa standar deviasi dari berat adalah lebih kecil dari 0 0230. Dikarenakan variasi lebih kecil dari 0.0230 g maka proses manufaktur dapat diterima. SUPLEMEN BREGADASATYA 2020 9 STATISTIKA TERAPAN SUPLEMEN BREGADASATYA 2020 10 STATISTIKA TERAPAN SUPLEMEN BREGADASATYA 2020 11 STATISTIKA TERAPAN SUPLEMEN BREGADASATYA 2020 12 STATISTIKA TERAPAN Rangkuman dari 5-24 Dosen : Robinson TM 11 STATISTIKA INFERENSIAL 2 SAMPEL (INFERENCES FROM TWO SAMPLES) A. Uji statistik 2 Proporsi Notasi untuk 2 proporsi p1 = proposi populasi n1 = ukuran sampel x1 = jumlah sukses dalam sampel p1 = x1/n1 (proporsi sampel) q1 = 1 - p1 *juga berlaku untuk populasi 2 Pooled Sample Proportion Test Statistic for Two Proportions Syarat: Proporsi sampel berasal dari 2 sampel acak yang independen SUPLEMEN BREGADASATYA 2020 13 STATISTIKA TERAPAN Untuk tiap sampel, terdapat kegagalan (np ≥ 5 dan nq ≥ 5) setidaknya 5 kesuksesan dan 5 Confidence Interval Estimate of p1 – p2 Contoh Soal Tabel di bawah ini mencantumkan hasil dari sampel acak sederhana dari penumpang di kursi depan yang terlibat dalam kecelakaan mobil. Gunakan tingkat signifikansi 0,05 untuk menguji klaim bahwa tingkat kematian penumpang lebih rendah untuk mereka yang berada di dalam mobil yang dilengkapi Airbag. Jawaban H0: p1 = p2 H1: p1 < p2 α = 0,05 SUPLEMEN BREGADASATYA 2020 14 STATISTIKA TERAPAN Luas α = 0,05 di ekor kiri sesuai dengan nilai kritis z= –1,645. Statistik pengujian tidak termasuk dalam wilayah kritis yang dibatasi oleh nilai kritisz = –1,645. Reject H0 B. Uji Statistik 2 Mean : Sampel Independen σ1 dan σ2 tidak diketahui dan diasumsikan tidak sama df = n1 – 1 atau n2 – 1 (pilih yang nilainya lebih kecil) Syarat: σ 1 dan σ 2 tidak diketahui dan tidak sama Sampel independen Simple random sample n1 > 30 dan n2 > 30 atau kedua sampel berdistribusi normal Confidence Interval SUPLEMEN BREGADASATYA 2020 15 STATISTIKA TERAPAN σ1 dan σ2 tidak diketahui dan diasumsikan sama Syarat: σ 1 dan σ 2 tidak diketahui Sampel independen Simple random sample n1 > 30 dan n2 > 30 atau kedua sampel berdistribusi normal Confidence Interval σ1 dan σ2 diketahui P-values and critical values: Lihat Table A-2. Syarat SUPLEMEN BREGADASATYA 2020 16 STATISTIKA TERAPAN σ 1 dan σ 2 diketahui Sampel independen Simple random sample n1 > 30 dan n2 > 30 atau kedua sampel berdistribusi normal Confidence Interval C. Uji Statistik 2 Mean : Sampel Dependen d = perbedaan nilai masing-masing pasangan Miu d = rata-rata nilai perbedaan data mesing-masing pasangan Sd = standar deviasi perbedaan (d) pasangan data n = jumlah pasang data Syarat: Sampel dependen Simple random sample n1 > 30 dan n2 > 30 atau kedua pasangan data berasal dari distribusi normal Confidence Interval SUPLEMEN BREGADASATYA 2020 17 STATISTIKA TERAPAN SUPLEMEN BREGADASATYA 2020 18 STATISTIKA TERAPAN TM 12 Statistika Inferensial untuk 2 Sampel A. Uji Statistik 2 Proporsi 1. Notasi p1 = proporsi populasi n1 = jumlah sampel yang ada x1 = jumlah sukses dalam sampel 2. Persyaratan a. Memiliki proporsi dari 2 simple random samples yang independent b. Berdasarkan 2 samepl, setidaknya terhadap jumlah kesuksesan 5 dan jumlah kegagalan 5 3. Uji Statistik P-Value: Gunakan Tabel A-2. (Gunakan nilai yang dihitung dari statistik uji z dan temukan nilai-P dengan mengikuti prosedur yang diringkas oleh Gambar 8-5 dalam teks.) SUPLEMEN BREGADASATYA 2020 1 STATISTIKA TERAPAN Critical Value: Gunakan Tabel A-2. (Berdasarkan tingkat signifikansi α, temukan nilai kritis dengan menggunakan prosedur yang diperkenalkan pada Bagian 8-2 dalam teks.) Confidence Interval: Contoh Soal: Tabel di bawah daftar hasil dari sampel acak sederhana penghuni kursi depan yang terlibat dalam kecelakaan mobil. Gunakan tingkat signifikansi 0,05 untuk menguji klaim bahwa tingkat kematian penghuni lebih rendah bagi mereka yang menggunakan airbag. Jawaban Asumsi yang dimiliki terpenuhi: 1. 2 simple random sample, 2. 2 sampel bersifat independen, 3. Setiap populasi memiliki 5 sukses dan 5 kegagalan. Tahap 1: Klaim awal (original claim) adalah: p1 < p2 Tahap 2:Buatlah klaim alternative dimana p1 >= p2 Tahap 3: p1 < p2 tidak mengandung equality maka ia adalah H1. H0: p1 >= p2 dan H1: p1 < p2 Tahap 4: Level signifikansi adalah a = 0.05 Tahap 5: Sampel melibatkan distribusi normal sebagai perkiraan terhadap distribusi binomial SUPLEMEN BREGADASATYA 2020 2 STATISTIKA TERAPAN Tahap 6 : Temukan nilai statistik uji z p̂1 p̂2 p1 p2 pq pq n1 n2 52 41 11, 541 9, 853 0 0.004347 0.995653 0.004347 0.995653 11, 541 9, 853 z 1.91 Tahap 7 : Karena P.-value 0,0281 lebih kecil dari tingkat signifikansi = 0,05, kami menolak hipotesis nol p1 = p2 Karena kami menolak hipotesis nol, kami menyimpulkan bahwa terdapat cukup bukti untuk mendukung klaim bahwa proporsi kematian akibat kecelakaan pada penumpang mobil dengan kantung udara lebih kecil daripada proporsi kematian pada penumpang mobil tanpa kantung udara. Berdasarkan hasil ini, tampaknya kantung udara efektif dalam menyelamatkan nyawa. Jika menggunakan metode tradisional SUPLEMEN BREGADASATYA 2020 3 STATISTIKA TERAPAN Dengan tingkat signifikansi a = 0,05 dalam tes arah kiri berdasarkan distribusi normal,kita mengacu pada Tabel A-2 dan menemukan bahwa luas a = 0,05 di ekor kiri sesuai dengan nilai kritis z= –1,645. Statistik pengujian tidak termasuk dalam wilayah kritis yang dibatasi oleh nilai kritis: z=–1,645. Contoh soal : Gunakan data sampel yang diberikan dalam contoh sebelumnya untuk membangun estimasi interval kepercayaan 90% dari perbedaan antara dua proporsi populasi. (Seperti yang ditunjukkan pada Tabel 8-2 di halaman 406, tingkat kepercayaan 90% sebanding dengan tingkat signifikansi α = 0,05 yang digunakan dalam uji hipotesis ekor kiri sebelumnya.) Apa yang disarankan hasil tentang efektivitas airbag di kecelakaan? Batas interval kepercayaan tidak mengandung 0, menyiratkan bahwa ada perbedaan yang signifikan antara kedua proporsi. Interval kepercayaan menunjukkan bahwa tingkat kematian lebih rendah untuk penumpang di mobil dengan kantung udara daripada untuk penumpang di mobil tanpa kantung udara. Interval kepercayaan juga memberikan perkiraan jumlah perbedaan antara dua tingkat kematian. SUPLEMEN BREGADASATYA 2020 4 STATISTIKA TERAPAN B. Uji statistik 2 rata-rata sampel bebas(independent) 1. σ Tidak Diketahui a. Persyaratan Standar deviasi kedua sampel tidak diketahui dan tidak ada asumsi bahwa keduanya sama Memiliki proporsi dari 2 sampel yang independent Kedua sampel simple random sampel Antara sampel size > 30 atau populasi distribusi normal b. Notasi 1 = rata-rata populasi σ1 = deviasi standar populasi n1 = ukuran sampel pertama x1 = rata-rata sampel s1 = sampel deviasi standar c. Uji statistik untuk 2 proporsi Test Statistik untuk 2 Rata-rata P-Value: Gunakan Tabel A-2. (Gunakan nilai yang dihitung dari statistik uji z dan temukan nilai-P dengan mengikuti prosedur yang diringkas oleh Gambar 85 dalam teks.) SUPLEMEN BREGADASATYA 2020 5 STATISTIKA TERAPAN Critical Value: Gunakan Tabel A-2. (Berdasarkan tingkat signifikansi α, temukan nilai kritis dengan menggunakan prosedur yang diperkenalkan pada Bagian 8-2 dalam teks.) Confidence Interval: Contoh soal: Sebuah tajuk utama di USA Today menyatakan bahwa “Pria, wanita adalah pembicara yang setara.” Judul itu merujuk pada studi tentang jumlah kata yang diucapkan oleh sampel pria dan wanita dalam sehari. Diberikan di bawah ini adalah hasil dari penelitian ini. Gunakan tingkat signifikansi 0,05 untuk menguji klaim bahwa pria dan wanita mengucapkan jumlah rata-rata kata yang sama dalam sehari. Apakah ada perbedaan? • Jawaban: Asumsi yang dimiliki terpenuhi: 1. standar deviasi tidak diketahui 2. 2 simple random sample, 3. 2 sampel bersifat independen, 4. sampel cukup banyak Tahap 1: Klaim awal (original claim) adalah: m1 = m2. Tahap 2: Buatlah klaim alternative dimana m1 ≠ m2 Tahap 3: m1 ≠ m2 tidak mengandung equality maka ia adalah H1. H0: m1 = m2 dan H1: m1 ≠ Tahap 4: Level signifikansi adalah a = 0.05 Tahap 5: Sampel menggunakan t distribusi karena standar deviasi tidak diketahui Tahap 6 : Hitunglah nilai : SUPLEMEN BREGADASATYA 2020 6 STATISTIKA TERAPAN Berdasarkan hipotesis alternatif, diketahui bahwa kita menguji two tailed. Dengan nilai tersebut, maka kita harus mencari t-critical dari dua area yaitu kurang dari -1.972 atau lebih dari 1.972. Tahap 7: Nilai t-value -0.676 berada diantara -1.972 dan 1.972 Maka tidak berhasil mereject hypothesis Tahap 8 : Tidak terdapat cukup bukti untuk menolak kesimpulan bahwa terdapat persamanaan rata-rata jumlah kata yang diucapkan oleh laki laki dan perempuan. Contoh soal: Dengan menggunakan data sampel yang diberikan dalam contoh sebelumnya, buat perkiraan interval kepercayaan 95% dari perbedaan antara jumlah rata-rata kata yang diucapkan oleh pria dan jumlah rata-rata kata yang diucapkan oleh wanita. Jawaban: SUPLEMEN BREGADASATYA 2020 7 STATISTIKA TERAPAN Langkah selanjutnya a. Tingkat signifikansi=0,05 b. Gunakan t student c. Hitung uji statistic Gunakan Tabel A-3: luas dua ekor adalah 0,05, df = 185, yang tidak ada dalam tabel, nilai terdekatnya adalah: Langkah terakhir : Karena statistik pengujian tidak termasuk dalam wilayah kritis, gagal tolak hipotesis nol. Tidak ada cukup bukti untuk menjamin penolakan klaim bahwa pria dan wanita berbicara dengan jumlah kata yang sama rata-rata dalam sehari. Tampaknya tidak ada perbedaan yang signifikan antara kedua sarana tersebut. SUPLEMEN BREGADASATYA 2020 8 STATISTIKA TERAPAN 2. Metode alternative A. Sampel Independen dengan σ1 dan σ2 Diketahui. Persyaratan: 1. Standar deviasi kedua keduanya sama sampel diketahui dan tidak ada asumsi bahwa 2. Memiliki proporsi dari 2 sampel yang independent 3. Kedua sampel simple random sampel 4. Antara sampel size > 30 atau populasi distribusi normal SUPLEMEN BREGADASATYA 2020 9 STATISTIKA TERAPAN C. Uji statistik 2 rata-rata sampel berpasangan Persyaratan: 1. Sampel data bersifat dependent 2. Sampel bersifat simple random sample 3. Salah satu diantara dua kondisi ini terpenuhi: jumlah lebih dari 30 atau populasi terdistribusi normal Notasi : Contoh soal: Gunakan sampel data pada Tabel 9-1 dengan tingkat signifikansi 0,05 untuk menguji klaim bahwa untuk populasi siswa, perubahan rata-rata berat badan dari September ke April adalah sama dengan 0 kg. Catatan: Syarat terpenuhi SUPLEMEN BREGADASATYA 2020 10 STATISTIKA TERAPAN Jawaban: Asumsi yang dimiliki terpenuhi: 1. standar deviasi tidak diketahui 2. 2 simple random sample, 3. 2 sampel bersifat independen, 4. sampel cukup banyak Tahap 1: Klaim awal (original claim) adalah: md = 0. Tahap 2:Buatlah klaim alternative dimana md ≠ 0 Tahap 3: md ≠ 0 tidak mengandung equality maka ia adalah H1. H0: md = 0 dan H1: md ≠ 0 Tahap 4: Level signifikansi adalah a = 0.05 Tahap 5: Sampel menggunakan t distribusi karena standar deviasi tidak diketahui Tahap 6 : Hitunglah nilai t Berdasarkan hipotesis alternatif, diketahui bahwa kita menguji two tailed. Dengan nilai tersebut, maka kita harus mencari t-critical dari dua area yaitu kurang dari -2.776 atau lebih dari 2.776. Tahap 7: Nilai 0.186 berada diantara -2.776 dan 2.776 Maka tidak berhasil mereject hypothesis Tahap 8 : Tidak terdapat cukup bukti untuk menolak kesimpulan bahwa perubahan berat badan siswa dari September ke April sama dengan 0 kg P-value mehod Berdasarkan test statistic t=0.186 dan df=4. Maka nilai P-value lebih besar dari 0.20 dimana significant level = 0.05. Karena 0.20 > 0.05 maka not reject H0 Confidence Interval SUPLEMEN BREGADASATYA 2020 11 STATISTIKA TERAPAN D. Membandingkan Variasi dalam 2 sampel Notasi: Persyaratan: 1. Kedua populasi tersebut independen 2. Kedua sampel tersebut adalah sampel acak sederhana 3. Kedua populasi tersebut masing-masing ber distribusi normal Uji statistik: Karakteristik F Distribusi: Distribusi F tidak simetris Nilai dari F distribusi tidak boleh negative Bentuk F distribusi bergantung pada dua derajat kebebasan(degree of freedom) yang berbeda Menemukan nilai kritis F distribusi Untuk menemukan kritis F nilai yang sesuai dengan tingkat signifikansi 0,05, lihat Tabel A-5 dan gunakan arah kanan 0,025 atau 0,05, tergantung pada jenis pengujian: Uji dua sisi: gunakan 0,025 di ekor kanan Uji satu sisi: gunakan 0,05 di ekor kanan SUPLEMEN BREGADASATYA 2020 12 STATISTIKA TERAPAN Contoh soal: Kumpulan Data 20 di Lampiran B mencakup bobot (dalam g) kuartal yang dibuat sebelum tahun 1964 dan bobot kuartal yang dibuat setelah tahun 1964. Contoh statistik tercantum di bawah ini. Saat merancang mesin penjual koin, kita harus mempertimbangkan deviasi standar dari kuartal pra-1964 dan pasca-1964. Gunakan tingkat signifikansi 0,05 untuk menguji klaim bahwa bobot kuartal pra-1964 dan bobot kuartal pasca-1964 berasal dari populasi dengan deviasi standar yang sama. Jawaban: Persyaratan terpenuhi: populasi independen; sampel acak sederhana; dari populasi dengan ber distribusi normal SUPLEMEN BREGADASATYA 2020 13 STATISTIKA TERAPAN Gunakan varians sampel untuk menguji klaim varians populasi yang sama, tetap nyatakan kesimpulan dalam istilah deviasi standar. Langkah 1: klaim deviasi standar yang sama adalah ekuivalen dengan klaim varian 2 yang sama 2 1 2 Langkah 2 : Jika klaim asli salah, maka 12 22 Langkah 3 : Langkah 4 : tingkat signifikansi 0,05 Langkah 5 : melibatkan dua varian populasi, gunakan F varians distribusi Langkah 6 : Hitung uji statistik s12 0.087002 F 2 1.9729 s2 0.0161942 Untuk nilai kritis dalam uji dua sisi ini, lihat Tabel A-5 untuk luas 0,025 di ekor kanan. Karena kita menetapkan bahwa varian yang lebih besar ditempatkan di pembilang statistik uji F, kita hanya perlu menemukan nilai kritis arah kanan. Dari Tabel A-5 kita melihat bahwa nilai kritis F adalah antara 1.8752 dan 2.0739, tetapi lebih mendekati 1.8752. Interpolasi memberikan nilai kritis 1,8951, tetapi STATDISK, Excel, dan Minitab memberikan nilai kritis yang akurat 1,8907. SUPLEMEN BREGADASATYA 2020 14 STATISTIKA TERAPAN Langkah 7: Statistik uji F= 1,9729 tidak termasuk dalam wilayah kritis, jadi kami menolak hipotesis nol dari varian yang sama. Ada cukup bukti untuk menjamin penolakan klaim deviasi standar yang sama. Ada cukup bukti untuk menjamin penolakan klaim bahwa kedua deviasi standar itu sama. Variasi antara bobot kuartal yang dibuat setelah tahun 1964 sangat berbeda dengan variasi bobot kuartal yang dibuat sebelum tahun 1964. "Tidak ada kenyamanan di masa tua bagi orang yang malas di masa muda." - Bob Sadino SUPLEMEN BREGADASATYA 2020 15 STATISTIKA TERAPAN Rangkuman dari 5-02, 5-55, 5-58 Dosen : Sakti Prabowo (Dosko) TM 13 Korelasi dan Regresi A. Korelasi Korelasi adalah hubungan antara dua variabel dimana nilai salah satunya memiliki kaitan dengan nilai dari variabel lainnya. Koefisien Korelasi Linier (r) adalah ukuran kekuatan hubungan linier antara sepasang variabel x dan y dalam sampel. Persyaratan 1. Sepasang data kuantitatif (x, y) bersifat simple random sample. 2. Tampilan scatterplot mendukung. 3. Outliers harus dikeluarkan. n : Jumlah pasang data ∑ : Sigma melambangkan penjumlahan ∑x : Melambangkan penjumlahan seluruh nilai x ∑x2 : Melambangkan kuadrat dari x lalu dijumlahkan CREAM BREGADASATYA 2021 1 STATISTIKA TERAPAN (∑x)2 : Melambangkan penjumlahan seluruh x lalu dikuadratkan ∑xy : Melambangkan nilai x dan nilai y lalu dijumlahkan r : korelasi linier untuk data sampel ρ : korelasi linier untuk data populasi Properti dari Koefisien Korelasi Linier 1. -1 ≤ r ≤ 1 2. Jika variabel yang dimasukkan diubah skala nilainya, nilai r tidak akan berubah 3. Jika x dan y ditukar nilai r tidak akan berubah 4. r mengukur kekuatan dari hubungan linier 5. r sangat sensitif terhadap Dalam varians dilambangkan r2 menggambarkan proporsi variasi dalam y yang dijelaskan oleh hubungan linier antara x dan y. Pengujian menggunakan t-Test H0 : ρ = 0 (Tidak terdapat korelasi linier) H1 : ρ ≠ 0 (Terdapat korelasi linier) Tes satu sisi dapat terjadi dengan klaim korelasi linier positif atau klaim korelasi linier negatif. Dalam kasus seperti ini, hipotesis dari klaim akan seperti berikut. CREAM BREGADASATYA 2021 2 STATISTIKA TERAPAN B. Regresi Regresi adalah hubungan antara variabel x (disebut sebagai explanatory variable/predictor variable/ independent variable), dan ŷ (disebut sebagai response variable/dependent variable). Persamaan regresi adalah sebuah koleksi dari pasangan data yang dapat ditulis dalam persamaan Asumsi dan Notasi 1. Sepasang data kuantitatif (x, y) bersifat simple random sample 2. Tampilan scatterplot mendukung 3. Outliers harus dikeluarkan Outliers Dalam sebaran, outliers adalah titik yang terletak jauh dari titik data lainnya. CREAM BREGADASATYA 2021 3 STATISTIKA TERAPAN Data sampel berpasangan dapat mencakup satu atau lebih titik berpengaruh, yang merupakan titik yang sangat mempengaruhi grafik garis regresi. Residu Untuk sepasang sampel x dan nilai y, residual adalah perbedaan antara nilai sampel yang diamati dari y dan nilai y yang diprediksi dengan menggunakan persamaan regresi sebagai berikut CREAM BREGADASATYA 2021 4 STATISTIKA TERAPAN Analisis plot residual Saat menganalisis plot residu, cari pola dalam cara titik-titik dikonfigurasi, dan gunakan kriteria sebagai berikut: Plot residual seharusnya tidak memiliki pola yang jelas dan bukan pola garis lurus; plot residual tidak boleh menjadi lebih tebal (atau lebih tipis) jika dilihat dari kiri ke kanan. Analisis regresi 1. Buat sebaran scatter dan verifikasi bahwa pola titik-titiknya kira-kira merupakan pola garis lurus tanpa outlier. 2. Bangun plot residual dan verifikasi bahwa tidak ada pola (selain pola garis lurus) dan juga verifikasi bahwa plot residual tidak menjadi lebih tebal atau tipis 3. Gunakan histogram dan / atau normal quantile plot untuk mengkonfirmasi bahwa nilai residu memiliki distribusi yang mendekati normal 4. Pertimbangkan efek dari suatu pola dari waktu ke waktu C. Peringkat Korelasi CREAM BREGADASATYA 2021 5 STATISTIKA TERAPAN Tes korelasi peringkat (atau uji korelasi peringkat spearman) adalah tes nonparametrik yang menggunakan peringkat data sampel yang terdiri dari pasangan yang cocok. Kelebihan 1. Metode korelasi peringkat nonparametrik dapat digunakan dalam berbagai keadaan yang lebih luas daripada metode parametrik korelasi linier. Dengan korelasi peringkat, kita dapat menganalisis data berpasangan yang peringkat atau dapat dikonversi ke peringkat. 2. Korelasi peringkat dapat digunakan untuk mendeteksi beberapa hubungan yang tidak linier Kekurangan – Tingkat efisiensi yang lebih rendah Asumsi 1. Sepasang data sampel harus diambil secara random 2. Tidak ada asumsi distribusi normal Menentukan signifikansi CREAM BREGADASATYA 2021 6 STATISTIKA TERAPAN 1. Jika n ≤ 30 maka lihat tabel peringkat korelasi dan bandingkan dengan nilai rs 2. Jika n > 30 maka hitung nilai critical value dengan formula di bawah dan bandingkan dengan nilai rs sebelumnya CREAM BREGADASATYA 2021 7 STATISTIKA TERAPAN Rangkuman dari 5-24 Dosen : Robinson TM 13 Korelasi dan Regresi (Correlation and Regression) Correlation Correlation adalah hubungan antara dua variabel dimana nilai salah satunya memiliki kaitan dengan nilai dari variabel lainnya. Korelasi melihat keeratan Hubungan antar variabel yang menunjukkan jika X naik maka y naik atau x naik maka y turun. Tetapi bukan hubungan sebab akibat (x menyebabkan y naik atau turun) Linear Correlation Coefficeint (r) adalah ukuran kekuatan hubungan linear antara sepasang variabel x dan y dalam sampel. Scatterplots of Paired Data Asumsi CREAM BREGADASATYA 2021 8 STATISTIKA TERAPAN 1. Sepasang data kuantitatif (x,y) bersifat simple random sample 2. Tampilan scatterplot mendukung 3. Outliers harus dikeluarkan Rumus Rounding the Linear Correlation Coefficient r Bulatkan menjadi tiga desimal Properties of the Linear Correlation Coefficient r 1. -1 ≤ r £ ≤ 1 2. Jika variabel yang dimasukkan diubah skala nilainya, nilai r tidak akan berubah, 3. Jika x dan y ditukar nilai r tidak akan berubah 4. r mengukur kekuatan dari hubungan linear 5. r sangat sensitive terhadap outliers Interpreting r: Explained Variation CREAM BREGADASATYA 2021 9 STATISTIKA TERAPAN Nilai r2 adalah proporsi variasi dalam y yang dijelaskan oleh hubungan linear antara x dan y. Formal Hypothesis Test Hypothesis Test for Correlation Hypotheses Hypothesis Test for Correlation P-Value from a t Test One-Tailed Test Tes satu sisi dapat terjadi dengan klaim korelasi linier positif atau klaim korelasi linear negatif Regression Regresi adalah hubungan antara variabel x (disebut sebagai explanatory variable, predictor variable atau independent variable), dan y (disebut sebagai response variable atau dependent variable) CREAM BREGADASATYA 2021 10 STATISTIKA TERAPAN Persamaan Regresi adalah sebuah koleksi dari pasangan data yang dapat ditulis dalam persamaan: Garis Regresi adalah grafik persamaan regresi yang dapat disebut sebagai garis regresi. Asumsi 1. Sepasang data kuantitatif (x,y) bersifat simple random sample 2. Tampilan scatterplot mendukung 3. Outliers harus dikeluarkan Notasi Rumus Strategy for Predicting Values of Y CREAM BREGADASATYA 2021 11 STATISTIKA TERAPAN Beyond the Basics of Regression Outliers Dalam sebar sebaran, outlier adalah titik yang terletak jauh dari titik data lainnya.Data sampel berpasangan dapat mencakup satu atau lebih titik berpengaruh, yang merupakan titik yang sangat mempengaruhi grafik garis regresi CREAM BREGADASATYA 2021 12 STATISTIKA TERAPAN Residuals residual adalah perbedaan antara nilai sampel yang diamati dari y dan nilai y yang diprediksi dengan menggunakan persamaan regresi CREAM BREGADASATYA 2021 13 STATISTIKA TERAPAN Residual Plot Analysis Saat menganalisis plot residu, cari pola dalam cara titik-titik dikonfigurasi, dan gunakan kriteria ini: 1. Plot residual seharusnya tidak memiliki pola yang jelas dan bukan pola garis lurus. 2. Plot residual tidak boleh menjadi lebih tebal (atau lebih tipis) jika dilihat dari kiri ke kanan. Analisa Regresi 1. Buat sebaran scatter dan verifikasi bahwa pola titik-titiknya kira-kira merupakan pola garis lurus tanpa outlier. 2. Bangun plot residual dan verifikasi bahwa tidak ada pola (selain pola garis lurus) dan juga verifikasi bahwa plot residual tidak menjadi lebih tebal (atau lebih tipis). 3. Gunakan histogram dan / atau normal quantile plot untuk mengonfirmasi bahwa nilai residu memiliki distribusi yang mendekati normal. 4. Pertimbangkan efek dari suatu pola dari waktu ke waktu. CREAM BREGADASATYA 2021 14 STATISTIKA TERAPAN Korelasi Rank Tes korelasi peringkat (atau uji korelasi peringkat Spearman) adalah tes non- parametrik yang menggunakan peringkat data sampel yang terdiri dari pasangan yang cocok. Kelebihan: Metode korelasi rank nonparametrik dapat digunakan dalam berbagai keadaan yang lebih luas daripada metode parametrik korelasi linier. Dengan korelasi peringkat, kita dapat menganalisis data berpasangan yang peringkat atau dapat dikonversi ke peringkat. Korelasi rank dapat digunakan untuk mendeteksi beberapa (tidak semua) hubungan yang tidak linier. Kekurangan: Tingkat efisiensi lebih rendah (0.91) Asumsi Sepasang data sampel harus diambil secara random Tidak ada asumsi distribusi normal Rumus Formula – Menentukan Signifikansi Jika n ≤ 30 maka lihat Table A-9 dan bandingkan nilai rs Jika n > 30 maka hitung nilai critical value dengan formula dan bandingkan nilainya dengan rs sebelumnya. CREAM BREGADASATYA 2021 15 STATISTIKA TERAPAN CREAM BREGADASATYA 2021 16 STATISTIKA TERAPAN TM 14 Chi Square dan Analisis Varian A. Goodness Of Fit 1. Definisi dan Konsep Sebuah tes hipotesis yang digunakan untuk menguji apakah sebuah distribusi frekuensi yang diamati (dihitung) sesuai atau sama dengan distribusi yang diklaim. Syarat: a. Data telah dipilih secara acak b. Data sampel terdiri dari jumlah frekuensi untuk masing-masing kategori yang berbeda c. Untuk setiap kategori, frekuensi yg diharapkan minimal 5 Notasi Uji Statistik O mewakili frekuensi hasil yg teramati. E mewakili frekuensi hasil yg diharapkan. k mewakili jumlah kategori atau hasil yg berbeda. n mewakili jumlah observasi atau total percobaan. Jika semua frekuensi yang diharapkan adalah sama Jika semua frekuensi yang diharapkan tidak sama, p = probabilitas kategori Menggunakan Critical Values: - Gunakan tabel A-4 dengan menggunakan degree of freedom = k-1, dimana k=jumlah kategori. - Hipotesis Goodness of fit selalu uji right tailed Menggunakan P-Value: P - value biasanya disediakan oleh perangkat lunak computer (ex: excel), atau kisaran P – value dapat ditemukan dari Tabel A-4. Kesimpulan - Closed agreement antara nilai yang diamati dan yang diharapkan akan mengarah pada nilai x2 yang kecil dan nilai P yang besar. O = E (tidak berbeda signifikan) → sesuai harapan → Gagal tolak Ho P-Value > SUPLEMEN BREGADASATYA 2020 1 STATISTIKA TERAPAN 2 stat < 2 table - Large disagreement antara nilai yang diamati dan yang diharapkan akan menyebabkan nilai x2 besar dan nilai P kecil. O ≠ E (berbeda signifikan) → tidak sesuai harapan → Tolak Ho P-Value ≤ 2 stat > 2 table - Jika nilai P kecil, tolak hipotesis nol bahwa distribusinya seperti yang diklaim 2. Hubungan antara 2 test statistic, P-value, dan Goodness of fit 3. Contoh Uji Kecocokan Model (Goodness of fit) Data di samping mencakup bobot dari 40 pria dewasa yang dipilih secara acak dan 40 wanita dewasa yang dipilih secara acak. Bobot tersebut diperoleh sebagai bagian dari Survei Pemeriksaan Kesehatan Nasional. Ketika orang melaporkan bobot, mereka biasanya membulatkan ke bilangan bulat, sehingga bobot yang dilaporkan cenderung memiliki banyak digit terakhir yang terdiri dari 0. Sebaliknya, jika orang benar-benar ditimbang dengan skala yang memiliki presisi hingga 0,1 pon terdekat, bobot tersebut cenderung memiliki digit terakhir yang didistribusikan secara seragam, dengan 0, 1, 2,…, 9 semuanya terjadi dengan frekuensi yang kira-kira sama. Tabel 11-2 menunjukkan distribusi frekuensi digit terakhir dari 80 bobot yang tercantum. SUPLEMEN BREGADASATYA 2020 2 STATISTIKA TERAPAN (Misalnya, berat 201,5 lb memiliki digit terakhir dari 5, dan ini adalah salah satu nilai data yang termasuk dalam Tabel 11-2.) Uji klaim bahwa sampel berasal dari populasi bobot di mana digit terakhir tidak terjadi dengan frekuensi yang sama. Berdasarkan hasil, apa yang bisa kita simpulkan tentang prosedur yang digunakan untuk mendapatkan bobot? Jawaban: Persyaratan terpenuhi: subjek yang dipilih secara acak, jumlah frekuensi, frekuensi yang diharapkan adalah E=n/k=80/10=8 (> 5) Langkah 1: setidaknya satu dari probabilitas p0, p1, ... p9, berbeda dari yang lain Langkah 2: setidaknya salah satu probabilitasnya sama: p0 = p 1 = p 2 = p 3 = p 4 = p 5 = p 6 = p 7 = p 8 = p 9 Langkah 3: hipotesis nol mengandung equality H0: p0 = p1 = p2 = p3 = p4 = p5 = p6 = p7 = p8 = p9 H1: Setidaknya satu probabilitas berbeda Langkah 4: tidak ada signifikansi yang ditentukan, gunakan ᾳ = 0,05 Langkah 5: menguji apakah distribusi yang seragam (varians) jadi gunakan uji goodness of-fit: 2 Sebelumnya tentukan dulu nilai E (E= n/k = 80/10 = 8 (karena semua frekuensi yang diharapkan sama)). SUPLEMEN BREGADASATYA 2020 3 STATISTIKA TERAPAN Langkah 6: Hasil perhitungan statistik uji 2 = 11.250, menggunakan ᾳ = 0,05 dan k - 1 = 9 derajat kebebasan (df), nilai kritisnya adalah 2 = 16,919. Langkah 7: Karena statistik uji tidak jatuh di wilayah kritis, gagal tolak H 0, tidak ada cukup bukti untuk menolak hipotesis nol. Langkah 8: Tidak ada bukti yang cukup untuk mendukung klaim bahwa digit terakhir berat badan tidak memiliki kesamaan frekuensi relatif Tes good-of-fit ini menunjukkan bahwa digit terakhir memberikan kesesuaian yang cukup baik dengan distribusi frekuensi yang kemungkinan sama-sama diklaim. Alih-alih bertanya kepada subjek berapa beratnya, tampaknya bobot mereka sebenarnya diukur sebagaimana mestinya. 4. Tabel Contingency Contingency table (Two-way frequency table) adalah sebuah tabel yang berisi frekuensi sebagai respon dari dua variabel. Satu variabel mengisi baris dan satu variabel mengisi kolom. Contingency table setidaknya terdiri dari dua baris dan setidaknya dua kolom Notasi: O mewakili observed frequency dalam sel tabel kontingensi. E mewakili expected frekuensi dalam sel, ditemukan dgn mengasumsikan bahwa variabel baris dan kolom bersifat independen r mewakili jumlah baris dalam tabel kontingensi (tidak termasuk label). c mewakili jumlah kolom dlm tabel kontingensi (tidak termasuk label). Syarat: a. Data sampel dipilih secara acak. b. Data sampel direpresentasikan sebagai jumlah frekuensi dalam tabel dua arah. c. Untuk setiap sel dalam tabel kontingensi, frekuensi yang diharapkan (E) setidaknya 5. d. H0: Variabel baris dan kolom independen. H1: Variabel baris dan kolom dependen. SUPLEMEN BREGADASATYA 2020 4 STATISTIKA TERAPAN Uji Statistik: Bagian 1: Uji Independence Uji independensi menguji hipotesis nol bahwa dlm tabel kontingensi, variabel baris dan kolom bersifat independen Di mana O adalah frekuensi yang diamati dalam sel dan E adalah frekuensi yang diharapkan ditemukan dengan mengevaluasi. Menggunakan Critical Value Terdapat pada Tabel A-4 menggunakan derajat kebebasan (df) = (r - 1) (c - 1) r adalah jumlah baris dan c adalah jumlah kolom, ingat-ingat jika tes indepndensi selalu right-tailed Menggunakan P-Value: P - value biasanya disediakan oleh perangkat lunak komputer (ex:excel), atau kisaran P – value dapat ditemukan dari Tabel A-4. Kesimpulan (Hubungan antar Komponen dalam Test of Independen) Contoh Pilek biasa biasanya disebabkan oleh rhinovirus. Dalam uji keefektifan echinacea, beberapa subjek uji diobati dengan echinacea yang diekstraksi 20% dengan etanol, beberapa diobati dengan echinacea yang diekstrak 60%, dengan etanol dan yang lainnya diberi plasebo. Semua subjek tes kemudian terkena rhinovirus. Hasil dirangkum dalam Tabel 11-6 dan temukan frekuensi yang SUPLEMEN BREGADASATYA 2020 5 STATISTIKA TERAPAN diharapkan untuk sel pertama, di mana frekuensi yang diamati adalah 88. Gunakan tingkat signifikansi 0,05 untuk menguji klaim bahwa mendapatkan infeksi (pilek) tidak tergantung pada kelompok perlakuan. Lalu tentukanlah mengenai efektifitas echinacea sebagai treatment pilek? Sel pertama terletak di baris pertama (dengan frekuensi total 178) dan kolom pertama (dengan frekuensi total 103). “Grand total” adalah jumlah semua frekuensi dalam tabel, yaitu 207. Frekuensi yang diharapkan dari sel pertama adalah Sel pertama memiliki frekuensi yang diamati dari O = 88 dan frekuensi yang diharapkan dari E = 88,570. Kita dapat menginterpretasikan nilai yang diharapkan dengan menyatakan bahwa jika kita berasumsi bahwa mendapatkan infeksi tidak tergantung pada perawatan, maka kita berharap menemukan bahwa 88.570 dari subyek akan diberi plasebo dan akan mendapatkan infeksi. Ada perbedaan antara O = 88 dan E = 88.570, dan perbedaan tersebut merupakan komponen utama dari uji statistik. Jawaban Persyaratan terpenuhi: distribusi secara acak ke kelompok perlakuan, jumlah frekuensi, frekuensi yang diharapkan semuanya setidaknya 5 H0: Mendapatkan infeksi tidak tergantung pada perawatan (indepeden) H1: Mendapatkan infeksi tergantung pada perawatan (dependen) Level signifikansi adalah = 0,05. Tabel Contingency : menggunakan distribusi 2 karena nilai yang dicari adalah nilai varians 2 O E 2 E 2 2 88 88.570 10 7.285 ... 88.570 7.285 2.925 Nilai kritis 2 = 5.991 didapatkan dari Tabel A-4 dengan ᾳ = 0,05 righttailed dan jumlah degree of freedom adalah (r - 1) (c - 1) = (2 - 1) (3 - 1) = 2. SUPLEMEN BREGADASATYA 2020 6 STATISTIKA TERAPAN Gagal tolak H0 karena uji statistik tidak berada dalam wilayah kritis. Kesimpulan: Tampaknya infeksi tidak tergantung pada kelompok perlakuan. Hal ini menunjukkan bahwa echinacea bukanlah pengobatan yang efektif untuk pilek. B. Uji Homogenitas dan Uji Fisher Exact a. Uji Homogenitas Test for homogeneity adalah sebuah tes hipotesis mengenai klaim bahwa populasi yang berbeda memiliki karakteristik yang sama. Prosedurnya sama persis dengan tes independensi hanya hipotesis saja yang berubah. Perbedaan uji homogenitas dengan uji independen: Pada uji homogen, sample size sudah ditentukan di awal (predermined) untuk populasi yang berbeda. H0 : Populasi yang berbeda memiliki proporsi yg sama H1 : Populasi yang berbeda memiliki proporsi yg berbeda, Sedangkan uji independensi sample size ditentukan secara random. H0: Variabel baris dan kolom independen. H1: Variabel baris dan kolom dependen. Syarat: a. Data sampel dipilih secara acak. b. Data sampel direpresentasikan sebagai jumlah frekuensi dalam tabel dua arah. c. Untuk setiap sel dalam tabel kontingensi, frekuensi yang diharapkan (E) setidaknya 5. Metode yang digunakan : P-value : disediakan dengan teknologi atau temukan di tabel A-4 Critical value : Nilai critical value ditemukan di tabel A-4 dengan (df) = (r - 1) (c 1). r adalah jumlah baris dan c adalah jumlah kolom. Ingat! Tes independensi selalu right-tailed. H0: Populasi yang berbeda memiliki proporsi karakteristik yang sama H1: Populasi yang berbeda memiliki proporsi karakteristik yang berbeda SUPLEMEN BREGADASATYA 2020 7 STATISTIKA TERAPAN Contoh Kami akan menganalisis pengaruh gender pada subjek survei pria saja. Tabel 11-8 didasarkan pada respons pria yang disurvei. Asumsikan bahwa survei dirancang sedemikian rupa sehingga pewawancara pria diperintahkan untuk memperoleh 800 tanggapan dari subjek pria, dan pewawancara wanita diperintahkan untuk mendapatkan 400 respons dari subjek pria. Dengan menggunakan tingkat signifikansi 0,05, uji klaim bahwa proporsi tanggapan setuju / tidak setuju adalah sama untuk hal yang diwawancarai oleh laki-laki dan perempuan. Jawaban: Persyaratan terpenuhi: data acak, jumlah frekuensi dalam tabel dua arah, frekuensi yang diharapkan semuanya setidaknya 5 H0: Proporsi setuju / tidak setuju sama diantara responden yang diinterview oleh laki laki dan perempuan H1: Proporsi berbeda Level signifikansi adalah ᾳ = 0,05. Sampel menggunakan Chi square distribusi karena nilai yang dicari adalah nilai varians. Kali ini menggunakan MINITAB Tentukan nilai Chi Square setelah dihitung Chi Squarenya 6,529 dan PValue 0.011 SUPLEMEN BREGADASATYA 2020 8 STATISTIKA TERAPAN Tampilan Minitab menunjukkan frekuensi yang diharapkan dari 578.67, 289.33, 221.33, dan 110.67. Ini juga termasuk uji statistik x2 = 6,529 dan P - value 0,011. Dengan menggunakan pendekatan P - value untuk pengujian hipotesis, karena P-Value < ᾳ (0.011<0.05) maka Tolak H0. Terdapat cukup bukti untuk menolak klaim bahwa proporsi tanggapan setuju / tidak setuju adalah sama untuk hal yang diwawancarai oleh laki-laki dan perempuan. Tampaknya respons dan jenis kelamin pewawancara berpengaruh. Meskipun analisis statistik ini tidak dapat digunakan untuk membenarkan pernyataan apa pun tentang kausalitas, kelihatannya pria dipengaruhi oleh jenis kelamin pewawancara. b. Uji Exact Fisher Prosedur untuk menguji hipotesis dengan tabel kontingensi dengan dua baris dan dua kolom (2 x 2) memiliki persyaratan bahwa setiap sel harus memiliki frekuensi yang diharapkan setidaknya 5. Persyaratan ini diperlukan untuk distribusi x2 untuk menjadi pendekatan yang cocok untuk distribusi uji statistik yang tepat. Uji Exact Fisher sering digunakan untuk tabel kontingensi 2 x 2 dengan satu atau lebih frekuensi yang diharapkan di bawah 5. Uji eksak Fisher memberikan P value yang tepat dan tidak memerlukan teknik perkiraan. Karena perhitungannya cukup rumit, sebaiknya gunakan perangkat lunak komputer saat menggunakan uji eksak Fisher. STATDISK dan Minitab keduanya memiliki kemampuan untuk melakukan tes eksak Fisher. c. Mcnemar’s Test Uji McNemar menggunakan penghitungan frekuensi dari pasangan data nominal yang cocok dari dua kategori untuk menguji hipotesis nol bahwa untuk tabel 2 x 2 seperti Tabel 11-9 di atas, frekuensi b dan c terjadi dalam proporsi yang sama. Notasi a, b, c, dan d mewakili jumlah frekuensi dari tabel 2 x 2 yang terdiri dari jumlah frekuensi dari pasangan yang cocok. (Jumlah total subjek adalah a + b + c + d). Pada pengujian ini kita fokus pada discordant (yang berbeda) yaitu b dan c. SUPLEMEN BREGADASATYA 2020 9 STATISTIKA TERAPAN Syarat 1. Data dipilih secara random (acak) 2. Data sampel terdiri dari pasangan data dalam perhitungan frekuensi. 3. Data merupakan data nominal dan setiap observasi dapat dikelompokkan dengan dua cara: (1) Menurut kategori yg membedakan nilai dg masing-masing pasangan yg cocok, dan (2) menurut kategori lain dengan dua nilai yg mungkin. 4. Untuk tabel tersebut. Frekuensi b + c >= 10 H0: Proporsi frekuensi b dan c (seperti pada Tabel 11-9) adalah sama. H1: Proporsi frekuensi b dan c (seperti pada Tabel 11-9) berbeda. Uji Statistik dimana frekuensi b dan c diperoleh dari tabel 2 x 2 dgn format yang mirip dengan Tabel 11-9. Menggunakan Critical Values Gunakan tabel A-4 dengan menggunakan degree of freedom = 1. Hipotesistes independent selalu right tailed Menggunakan P-value P-value biasanya disediakan oleh perangkat lunak komputer, atau kisaran P-value dapat ditemukan dari Tabel A-4. Contoh Sebuah uji coba dirancang untuk menguji efektivitas pelindung pinggul dalam mencegah patah tulang pinggul pada orang tua. Sebagian penghuni panti jompo masing-masing mengenakan perlindungan, sebagian tidak. Hasilnya diringkas dalam Tabel 11-8. Jika seseorang menggunakan hip protector di kaki kirinya dan tidak menggunakan di kaki kanannya dan di tabel 11-8 berikut adalah proporsi keretakan hipnya. Dengan menggunakan tingkat signifikansi 0.05, apakah hip protector efektif mencegah keretakan pada hip-nya? Dengan menggunakan tingkat signifikansi 0,05, terapkan uji McNemar untuk menguji hipotesis nol bahwa dua proporsi berikut adalah sama: Proporsi subjek tanpa fraktur pinggul pada pinggul yang dilindungi dan fraktur pinggul pada pinggul yang tidak terlindungi. Proporsi subjek dengan fraktur pinggul pada pinggul yang dilindungi dan tidak ada fraktur pinggul pada pinggul yang tidak terlindungi. SUPLEMEN BREGADASATYA 2020 10 STATISTIKA TERAPAN Jawaban: Persyaratan dipenuhi: subjek yang dipilih secara acak; pasangan jumlah frekuensi yang cocok; tingkat pengukuran nominal, dikategorikan menurut dua variabel, satu adalah "hip protector dipakai" atau "tidak", yang lain adalah "patah tulang pinggul" atau "tidak"; b + c = 10 + 15 = 25, yang setidaknya 10. H0: Proporsi kedua kelompok (i) dan (ii) sama H1: Proporsi kedua kelompok (i) dan (ii) berbeda Data berasal dari pasangan yang cocok jadi gunakan uji McNemar: b = 10 dan c = 15 ( b c 1)2 (10 15 1)2 0.640 bc 10 15 2 Tabel A-4 dengan tingkat signifikansi 0,05 dan derajat kebebasan = 1, tes right-tailed : x2 = 3,841 Uji Statistik x2 = 0,640 tidak melebihi nilai kritis x2 = 3,841, jadi gagal untuk menolak H0. Karena uji statistik tidak masuk dalam wilayah kritis, maka gagal menolak hipotesis nol. Tampaknya proporsi patah tulang pinggul dengan pelindung yang dikenakan tidak berbeda secara signifikan dari proporsi patah pinggul tanpa pelindung yang dikenakan. Pelindung pinggul tampaknya tidak efektif dalam mencegah patah tulang pinggul. C. Analysis of Variance (ANOVA) Analisis varians satu arah (ANOVA) adalah metode untuk menguji hipotesis bahwa tiga atau lebih populasi dengan cara menganalisis sampel varian. Dalam ANOVA satu arah, setiap sampel hanya dibedakan oleh satu faktor, sehingga ada satu karakteristik yang digunakan untuk memisahkan sampel data ke dalam kategori yang berbeda. Syarat: a. Dua populasi independen. b. Dua sampel merupakan sampel acak sederhana dan independen satu sama lain. c. Dua populasi masing-masing terdistribusi normal. d. Sampel merupakan bagian dari populasi yang sama (memiliki varian/standar deviasi populasi yang sama). e. Perbedaan antar sampel berasal dari populasi yang hanya memiliki satu kategori (One-way) Formula: F variance between samples variance within samples H0: μ1 = μ2 = μ3 =. . . μk SUPLEMEN BREGADASATYA 2020 11 STATISTIKA TERAPAN H1: Setidaknya ada satu μi ≠ μj ; dengan i ≠ j ; i,j = 1,2,3, ..., k (Setidaknya salah satu berbeda) Tambahan–Formula jika n berbeda x= mean of all sample scores combined k= number of population means being compared ni= number of values in the ith sample xi= mean of values in the ith sample si= variance of values in the ith sample Jika P-value ≤ α, tolak hipotesis nol dengan cara yang sama dan simpulkan bahwa setidaknya satu dari mean populasi berbeda dari yang lain. Jika nilai P> α, gagal menolak hipotesis nol dengan mean yang sama. Contoh: Gunakan pengukuran trauma dada yang tercantum pada Tabel 12-1 dan tingkat signifikansi α = 0,05 untuk menguji klaim bahwa ketiga sampel berasal dari populasi dengan sarana yang sama. Jawab: Persyaratan dipenuhi: distribusi kira-kira normal (plot quantile normal); varians populasi tampaknya hampir sama; sampel acak sederhana; sampel independen, tidak cocok; dikategorikan menurut satu faktor ukuran. H0: 1 = 2 = 3 H1: Setidaknya salah satu sarana berbeda dari yang lain significance level is = 0.05 Langkah 1: Gunakan teknologi untuk mendapatkan hasil ANOVA Langkah 2 : Menampilkan semua show P-value = 0.28 saat dibulatkan SUPLEMEN BREGADASATYA 2020 12 STATISTIKA TERAPAN Langkah 3 : Karena nilai P-0,028 kurang dari tingkat signifikansi = 0,05, kita menolak hipotesis nol dengan mean yang sama. Ada cukup bukti untuk menjamin penolakan klaim bahwa ketiga sampel berasal dari populasi dengan sarana yang sama. Relationship Between F Test Statistic / P-Value SUPLEMEN BREGADASATYA 2020 13