Statistika Terapan dengan Aplikasi R

[Tanggal] STATISTIKA TERAPAN DISERTAI PENGGUNAAN APLIKASI R Soffan Marsus POLITEKNIK KEUANGAN NEGARA STAN DAFTAR ISI BAB I PEROLEHAN DAN MANAJEMEN DATA .......................................................... 4 1. Pendahuluan ..................................................................................................................... 4 2. Himpunan Data ................................................................................................................ 4 2.1. Karakteristik Himpunan Data ....................................................................................... 4 2.2. Jenis Data ...................................................................................................................... 5 2.3. Sumber Data dan Pengertian Data Primer dan Sekunder ............................................. 6 3. Metode Memperoleh Data Primer: Studi Eksperimen dan Observasi ............................. 7 4. Perolehan Dan Manajemen Data ..................................................................................... 8 4.1. Prosedur Perolehan Data ............................................................................................... 8 4.2. Manajemen Data Terkomputerisasi ............................................................................ 10 BAB II POLA DAN UKURAN PERINGKASAN DATA ............................................... 12 1. Pendahuluan ................................................................................................................... 12 2. Penyajian Data Kuantitatif ............................................................................................. 12 2.1. Urutan (Arrays) ........................................................................................................... 12 2.2. Display Batang dan Daun (Stem-snd-Leaf Display) ................................................... 12 2.3. Latihan ........................................................................................................................ 14 3. Distribusi Frekuensi ....................................................................................................... 15 3.1. Pengertian ................................................................................................................... 15 3.2. Penyusunan Distribusi Frekuensi ................................................................................ 16 3.2.1. Penyusunan Distribusi Frekuensi secara Manual .................................................... 18 3.2.1. Penyusunan Distribusi Frekuensi Menggunakan Aplikasi R................................... 20 3.3. Properti Ditribusi Frekuensi ........................................................................................ 27 3.4. 27 BAB III PROBABILITAS ................................................................................................. 31 1. Pendahuluan ................................................................................................................... 31 2. Konsep-Konsep Dasar Probabilitas ............................................................................... 31 2.1. Percobaan, Ruang Sampel dan Elemen ...................................................................... 31 2.2. Even, Jenis-Jenis Even dan Visualisasi Even ............................................................. 32 2.3. Menentukan Probabilitas ............................................................................................ 34 2.4. Latihan ........................................................................................................................ 35 3. Aturan Penjumlahan dan Perkalian Probabilitas............................................................ 36 3.1. Aturan Penjumlahan.................................................................................................... 36 3.2. Aturan Perkalian ......................................................................................................... 38 3.3. Independensi Statistik ................................................................................................. 40 3.4. Teorema Bayes............................................................................................................ 42 3.5. Latihan ........................................................................................................................ 44 4. Permutasi dan Kombinasi .............................................................................................. 46 4.1. Permutasi..................................................................................................................... 46 4.2. Kombinasi ................................................................................................................... 48 4.3. Latihan ........................................................................................................................ 49 BAB IV VARIABEL ACAK............................................................................................. 51 1. Pendahuluan ................................................................................................................... 51 2. Distribusi Probabilitas Dan Variabel Acak .................................................................... 51 2.1. Pengertian Distribusi Probabilitas.............................................................................. 51 2.2. Jenis-Jenis Distribusi Probabilitas .............................................................................. 52 1 2.3. Pengertian Variabel Acak ........................................................................................... 52 2.4. Jenis-Jenis Variabel Acak ........................................................................................... 53 2.5. Karakteristik Distribusi Probabilitas Variabel Acak................................................... 53 2.6. Jenis-Jenis Distribusi Probabilitas Variabel Acak ...................................................... 55 2.7. Latihan ........................................................................................................................ 56 3. Ukuran-Ukuran Karakteristik Variabel Acak ................................................................ 57 3.1. Nilai Harapan Variabel Acak ...................................................................................... 57 3.2. Varians Dan Deviasi Standar Variabel Acak .............................................................. 59 3.3. Fungsi Variabel Acak ................................................................................................. 60 3.4. Kovarians Dan Korelasi .............................................................................................. 65 3.5. Latihan ........................................................................................................................ 67 BAB V DISTRIBUSI PROBABILITAS UMUM ............................................................. 71 1. Pendahuluan ................................................................................................................... 71 2. Distribusi Probabilitas Variabel Acak Diskrit ............................................................... 71 2.1. Distribusi Seragam Diskrit .......................................................................................... 71 2.2. Distribusi Binomial ..................................................................................................... 71 2.4. Latihan ........................................................................................................................ 76 3. Distribusi Probabilitas Variabel Acak Kontinyu ........................................................... 80 3.1. Distribusi Seragam Kontinyu ...................................................................................... 80 3.2. Distribusi Normal........................................................................................................ 81 3.3. Latihan ........................................................................................................................ 90 4. Lampiran ........................................................................................................................ 92 BAB VI PENDUGAAN TITIK DAN DISTRIBUSI PENYAMPELAN Ẍ ..................... 93 1. Pendahuluan ................................................................................................................... 93 3. 91 2.1. Pengertian ................................................................................................................... 93 2.1. Syarat-Syarat Penduga Titik Yang Baik ..................................................................... 94 2.2. Latihan ........................................................................................................................ 97 3. Distribusi Probabilitas X .............................................................................................. 98 3.1. Studi Experimen atas X ............................................................................................. 98 3.2. Hasil Teoretis Distribusi Penyampelan X ............................................................... 101 3.3. Teorema Batas Memusat........................................................................................... 103 3.4. Penggunaan Teorema Batas Memusat ...................................................................... 104 3.5. Latihan ...................................................................................................................... 107 BAB VIII PENDUGAAN INTERVAL........................................................................... 108 4.2. INTERVAL KEYAKINAN UNTUK  SAMPEL BESAR .................................... 111 4.3. INTERVAL KEYAKINAN UNTUK  SAMPEL KECIL ..................................... 114 4.4. LATIHAN ................................................................................................................. 117 2 BAB I PEROLEHAN DAN MANAJEMEN DATA 1. Pendahuluan Statistik memainkan peranan penting terhadap hampir setiap bidang kegiatan manusia, khususnya di era teknologi informasi saat ini. Metode statistik digunakan untuk memperbaiki hasil-hasil pertanian, mendesain arsitektur kota dan bangunan, mengendalikan kualitas produksi, merencanakan pengendalian lalu lintas, meramalkan perekonomian atau epidemi suatu penyakit, serta mencapai manajemen terbaik untuk perusahaan maupun pemerintahan Bagian terpenting dalam konsep statistik adalah data. Analisis statistik mengharuskan agar fakta yang menjadi obyek suatu penelitian atau analisis disusun dan diorganisasi dengan cara yang paling baik. Fakta dimaksud inilah yang biasa disebut sebagai data. Suatu data yang tidak tersusun dan terorganisasi dengan baik akan menyebabkan penarikan kesimpulan yang keliru. Bab pertama dari buku statistik jilid I ini akan membahas tentang perolehan dan manajemen data. 2. Himpunan Data Data yang sudah tersusun untuk kepentingan tertentu disebut sebagai himpunan data. Himpunan data dapat ditemukan di sekeliling kita. Lembar bisnis dan keuangan pada surat kabar harian berisi data harga efek, saham, komoditas atau kurs mata uang; Laporan ekonomi menunjukkan data tingkat inflasi beberapa negara yang berbeda; File komputer pada suatu perguruan tinggi berisi data-data akademik mahasiswa, dan lain sebagainya. Berikut contoh himpunan data tentang profil latihan atlit Pelatnas cabang olahraga atletik. Kasus Nama Jk Umur 1 2 Irman Andre L L 18 21 3 4 5 6 Risa Ahmad Anne Ali P L P L 22 19 17 18 Asal Daerah Jakarta Jawa Barat Jogja Jakarta Manado Medan Tekanan Darah Sistolik 120 118 Tekanan Darah Diastolik 80 75 138 121 141 123 90 75 95 75 Jumlah Sit-up Ranking Fitness 100 35 1 3 45 29 18 75 4 5 6 2 2.1. Karakteristik Himpunan Data Suatu himpunan data memiliki karakteristik sebagai berikut: 3 1. Elemen data. Suatu himpunan data menyajikan data tentang kumpulan elemen. Setiap elemen berisi informasi tentang satu atau lebih karakteristik yang menjadi perhatian. Pada contoh di atas elemen datanya adalah atlit cabang atletik. 2. Variabel. Variabel adalah salah satu karakteristik yang menjadi perhatian dari suatu elemen dan dapat mengambil nilai yang berbeda. Pada contoh di atas salah satu karakteristik yang menjadi perhatian adalah usia atlit. Karakteristik ini memiliki nilai yang berbeda untuk setiap atlit. Usia merupakan contoh variabel kuantitatif, sementara asal daerah merupakan variabel kualitatif. 3. Kasus. Informasi tentang keseluruhan variabel untuk satu elemen dalam himpunan data dinamakan kasus atau record. Pada contoh di atas informasi untuk ketujuh variabel untuk setiap atlet Pelatnas atletik merupakan suatu kasus. 4. Hasil. Informasi tentang variabel tunggal untuk satu elemen data dinamakan hasil, amatan, observasi, atau ukuran. Sebagai contoh nilai 120 merupakan hasil tentang tekanan darah sistolik dari atlet Pelatnas bernama Irman. 2.2. Jenis Data Data statistik terdiri dari beberapa jenis yang berbeda. Data yang menunjukkan pengukuran tentang suatu jumlah, kapasitas atau ciri-ciri serupa lainnya dinamakan data ukuran (measurement data). Sebagai contoh data tekanan darah pada contoh di atas merupakan data ukuran karena diperoleh dengan menggunakan alat medis untuk mengukur tekanan darah. Data yang dihitung atau menunjukkan frekuensi, dan karenanya pasti berupa angka penuh, disebut sebagai data hitungan (count data). Sebagai contoh data jumlah sit-up pada contoh di atas merupakan data hitungan karena diperoleh dari perhitungan. Contoh lain data jumlah pilot yang disewa suatu maskapai penerbangan merupakan data hitungan. Data yang diperoleh melalui perangkingan atau pengurutan disebut data rangking (rank data) atau data urutan (ordinal data). Sebagai contoh data rangking fitness pada contoh di atas merupakan data rangking karena diperoleh dari perangkingan dengan atlet dengan hasil fitness terbaik mendapat rangking 1 dan terjelek mendapat rangking 6. Terakhir, jika kelas atau kategori disusun dan data ditempatkan pada kelas-kelas yang sesuai, maka data tersebut dinamakan data klasifikasi (classification data) atau data nominal. Sebagai contoh data jenis kelamin pada contoh di atas adalah data klasifikasi karena setiap atlet ditempatkan ke salah satu dari dua kategori, yaitu laki-laki atau perempuan. 4 2.3. Sumber Data dan Pengertian Data Primer dan Sekunder Statistik tidak hanya berkaitan dengan pengorganisasian dan penganalisaan data tetapi juga berkaitan dengan sumber data dan bagaimana data dikumpulkan dalam suatu studi/penelitian. Tahap pertama dari penelitian apapun adalah merumuskan spesifikasi atau definisi dari permasalahan yang akan dipelajari. Spesifikasi permasalahan - selanjutnya akan memandu pada identifikasi tentang jenis data apa saja yang diperlukan untuk menangani permasalahan tersebut. Pertanyaannya kemudian adalah dimana dan bagaimana memperoleh data yang diperlukan. Beberapa data tersedia pada sumber internal. Sebagai contoh jika seorang peneliti pemasaran menghendaki mempelajari pengaruh dari lokasi pelanggan terhadap kecenderungan untuk membeli produk suatu perusahaan, maka peneliti tersebut akan memperoleh data yang cukup banyak dari sumber internal seperti catatan akuntansi perusahaan. Data lain hanya tersedia dari sumber eksternal. Data tersebut misalnya diterbitkan dalam buku referensi atau laporan statistik. Data ekternal di negara-negara maju seringkali sudah tersedia dalam format yang terkomputerisasi, seperti pada CD atau disket atau dapat diakses secara on-line melalui internet. Organisasi penyedia data eksternal dapat berupa instansi pemerintah (BPS), asosiasi perdagangan, atau perusahaan data swasta. Kedua jenis data di atas biasa juga dinamakan data sekunder. Menurut pengertiannya, data sekunder merupakan berbagai informasi yang telah ada sebelumnya, baik dari sumber internal maupun eksternal, yang dengan sengaja dikumpulkan oleh peneliti dan digunakan untuk melengkapi kebutuhan data penelitian. Biasanya data-data ini berupa diagram, grafik, atau tabel yang berisi informasi penting seperti sensus penduduk. Data sekunder bisa dikumpulkan melalui berbagai sumber seperti buku, situs, atau dokumen pemerintah. Jenis data kedua adalah data primer. Pengertian data primer adalah jenis data yang dikumpulkan secara langsung dari sumber utamanya seperti melalui wawancara, survei, eksperimen, dan sebagainya. Data primer biasanya selalu bersifat spesifik karena disesuaikan dengan kebutuhan peneliti. 3. Metode Memperoleh Data Primer: Studi Eksperimen dan Observasi Data primer perlu dikumpulkan atau dibuat, jika data yang diperlukan untuk diinvestigasi tidak tersedia pada sumber-sumber yang ada. Beberapa metode perolehan untuk memperoleh data primer harus dipertimbangkan. Dua metode utama pengumpulan 5 data primer adalah studi eksperimen dan studi observasi. Sebagai ilustrasi asumsikan suatu perusahaan menyelenggarakan program pelatihan yang bersifat sukarela kepada para karyawannya. Manajer perusahaan kemudian membandingkan tingkat perkembangan kinerja dari karyawan yang mengikuti pelatihan, yang katakanlah berjumlah sekitar setengah dari karyawan yang ada, dengan yang tidak mengikuti pelatihan. Secara umum ditemukan bahwa karyawan yang mengikuti training menunjukkan perkembangan kinerja yang lebih besar dibanding karyawan yang tidak mengikuti pelatihan. Dalam studi ini, variabel yang menjadi perhatian adalah perkembangan kinerja, sementara faktor yang efeknya atas perkembangan kinerja diinvestigasi adalah program pelatihan. Namun, desain dari studi ini tidak menerapkan perlakuan yang tegas untuk efek program pelatihan terhadap perkembangan kinerja, karena karyawan dipersilakan secara sukarela mengikuti atau tidak mengikuti pelatihan tersebut. Fakta bahwa program pelatihan bersifat sukarela, sehingga tidak terdapat kendali (kontrol) apapun terhadap faktor-faktor lain yang mungkin mempengaruhi perkembangan kinerja, membuat studi ini menjadi merupakan studi obserrvasi. Selanjutnya asumsikan bahwa perusahaan melakukan kembali program pelatihan, namun kali ini diperuntukkan bagi 25 pegawai yang baru direkrut yang seluruhnya berjumlah 50 orang. Penentuan pegawai baru yang harus mengikuti pelatihan dilakukan secara acak. Hasil studi menunjukkan bahwa perkembangan kinerja para karyawan baru tidak jauh berbeda untuk kedua kelompok tersebut. Studi ini merupakan studi eksperimen, karena dijalankan pengendalian (kontrol) terhadap faktor yang tengah ditelaah dan dilakukan randomisasi untuk menyeimbangkan habis faktor-faktor lain yang tidak terkontrol yang mungkin mempengaruhi perkembangan kinerja, seperti motivasi, usia, pengalaman dan faktor-faktor lainnya. Baik studi eksperimen maupun studi observasi dapat sangat berguna untuk menelaah efek dari satu atau lebih faktor terhadap variabel yang menjadi perhatian. Namun, studi eksperimen memberikan bukti yang lebih kuat tentang efek tersebut dibandingkan studi observasi. Eksperimen khususnya berguna dalam meninjau pola hubungan sebab-akibat (cause and effect relation). Di balik kebaikan dari studi eksperimen, terdapat kekurangan. Kekurangan ini dapat dilihat dari kenyataan bahwa kebanyakan analisis statistik dalam bisnis, ekonomi, dan ilmu sosial didasarkan pada studi observasi. Salah satu alasannya adalah karena kebanyakan data yang tersedia, seperti data internal dari operasional perusahaan dan data eksternal perekonomian dan perilaku konsumen, merupakan data observasional. Alasan lainnya 6 adalah bahwa seringkali dalam permasalahan ilmu ekonomi dan sosial tidak memungkinkan untuk menjalankan suatu kendali eksperimen sebagaimana yang dipersyaratkan dalam studi eksperimen. 4. Perolehan Dan Manajemen Data 4.1. Prosedur Perolehan Data Terdapat berbagai prosedur untuk memperoleh data yang dipergunakan baik dalam studi eksperimen maupun observasional. Tiga jenis prosedur perolehan data yang umum digunakan adalah observasi, wawancara dan survey. 4.1.1. Observasi Perolehan data dengan observasi adalah perolehan data melalui pemeriksaan langsung dan pencatatan aktivitas yang berjalan. Misalkan dalam studi pengambilan keputusan dalam keluarga, periset mengamati dan mencatat interaksi antara suami, istri dan anak pada saat mereka memutuskan untuk membeli seperangkat komputer untuk keperluan rumah mereka. Contoh lain misalkan dalam riset keuangan, analis melakukan pengamatan atas harga penutupan harian beberapa saham perusahaan go-public. Prosedur perolehan data melalui observasi memiliki beberapa kelebihan sebagai berikut: 1. Sifat langsung dari prosedur menghindarkan permasalahan-permasalahan seperti ketidaklengkapan atau ditorsi informasi. 2. Data dapat dikumpulkan lebih banyak atau lebih sedikit secara terus-menerus sepanjang periode waktu yang dapat diperpanjang. Sementara keterbatasan dari prosedur ini adalah sebagai berikut: 1. Pengamat/pengobservasi harus dapat mencatat secara akurat peristiwa yang menjadi perhatian. Pengamat pada umumnya memerlukan latihan menyeluruh untuk dapat mencatat dengan jelas apa yang mereka amati sedemikian rupa sehingga pengamat yang berbeda akan mencatat peristiwa yang sama dengan cara yang sama. 2. Individu yang menjadi obyek pengamatan atau mengetahui bahwa mereka tengah diamati dapat mengubah perilaku mereka, sehingga hasil observasi menjadi bias. 4.1.2. Wawancara Dalam wawancara, pewawancara menanyakan pertanyaan dari kuesioner dan mencatat jawaban responden. Wawancara dapat dilakukan secara langsung atau melalui telepon. Baik manfaat maupun keterbatasan wawancara timbul dari kontak langsung antara responden dengan pewawancara. Manfaat wawancara di antaranya adalah sebagai berikut: 7 1. Responden akan cenderung memberi jawaban saat mereka diwawancarai secara langsung atau melalui telepon. 2. Kontak langsung pada umumnya memungkinkan pewawancara menghindari kesalahahpahaman responden atas pertanyaan, mengamati reaksi responden atas pertanyaan tertentu, dan mengumpulkan informasi pelengkap yang relevan. Sementara itu beberapa keterbatasan wawancara adalah sebagai berikut: 1. Pewawancara dapat tidak mengikuti arahan tentang pemilihan responden. Sebagai contoh, pewawancara dapat saja memilih anggota keluarga selain yang telah didesain, yang akan menyebabkan bias terhadap hasil riset. 2. Pewawancara dapat mempengaruhi responden dengan cara tertentu dalam pengajuan pertanyaan atau dengan tindakan lain baik secara sengaja atau tidak sengaja. 3. Pewawancara dapat melakukan kesalahan dalam merekam jawaban responden. 4.1.3. Survey Dengan survey, responden menjawab pertanyaan yang tercetak pada kuesioner atau yang tertayang pada monitor komputer. Survey dilakukan misalnya saat pengunjung toko diminta mengisi kuesioner tentang tingkat harga barang-barang di toko, tingkat pelayanan dari petugas toko, tingkat ketersediaan barang yang dibutuhkan dan lain-lain termasuk data demografi mereka. Manfaat dari melaksanakan survey adalah kebalikan dari keterbatasan dari melaksanakan wawancara. Namun digantinya wawancara dengan survey akan menimbulkan permasalahan berikut: 1. Saat kuesioner dikirim kepada orgainsasi atau rumah tangga, tidak ada cara untuk mengontrol apakah orang yang menjawab survey adalah orang yang dituju. 2. Survey akan menyebabkan tingkat respon yang rendah dari responden, apalagi jika respondennya adalah orang-orang yang sibuk. 4.2. Manajemen Data Terkomputerisasi Kebanyakan himpunan data yang akan dijadikan bahan untuk investigasi statistik dibuat dan digunakan dalam bentuk file data komputer dalam sistem aplikasi komputer statistik atau manajemen data. Meski prosedur penanganan data sangat bervariasi dari satu sistem ke sistem yang lain, terdapat beberapa ciri penting yang serupa pada kebanyakan sistem. Kedua ciri tersebut adalah entry data serta penanganan data. 4.2.1. Entri Data 8 Data dientri dengan berbagai cara dalam berbagai sistem yang berbeda. Namun, tujuan umumnya adalah untuk memperoleh data yang terorganisasi sehingga dapat ditayangkan dalam susunan berurut kasus-kasus x variabel-variabel, seperti tertayang pada tabel contoh himpunan data di muka (hal per tama bab ini). Metode pengentrian dapat kasus per kasus, dapat pula variabel per variabel. Pengentrian data mensyaratkan pengentri untuk memberikan nama pada variabel yang tengah dibuat dan jika mungkin mengidentifikasi di depan berapa banyak variabel dan kasus yang akan ada dalam himpunan data. Konvensi penamaan variabel berbeda-beda, tapi pada umumnya membedakan antara variabel kualitatif dengan kuantitatif. Operasi aritmetika atas data hanya dimungkinkan untuk variabel kuantitatif. 4.2.2. Penanganan Data Kebanyakan sistem manajemen data memiliki fasilitas untuk mentransfer file data dari sistem komputer berbeda kepada sistem komputer pengguna yang siap digunakan. Demikian pula sebaliknya. Dalam investigasi statistik sering diperlukan membuat variabel baru dari variabel asal dalam himpunan data melalui suatu operasi matematika atau logika. Pengoperasian ini dinamakan transformasi data. Sebagai contoh katakan himpunan data pegawai pada suatu perusahaan memiliki variabel “usia pegawai saat ini” serta variabel “usia saat pegawai bekerja pertama kali”. Jika misalkan suatu telaahan statistik membutuhkan data baru seperti “lama bekerja pegawai”, maka variabel tersebut dapat diperoleh dengan menjalankan operasi: “lama bekerja pegawai” = “usia pegawai saat ini” - “usia saat pegawai bekerja pertama kali”. 9 Latihan 1. Film Avatar diberi rating 4 bintang dalam skala 5 bintang. Tentukan mana dari 4 tingkat pengukuran (nominal, ordinal, interval, rasio) yang paling tepat! 2. Milgram Research ingin mempelajari reaksi terhadap stres. Dilakukan survei di mana surveyor berpura-pura marah dengan subjek survei. Pada satu titik tertentu, surveyor berteriak kepada subjek survei “Bagaimana bisa seseorang memiliki pendapat bodoh seperti itu?”. Berdasarkan deskripsi di atas, tentukan mana dari 2 metode memperoleh data primer (eksperimen, observasi) yang paling tepat! 3. Dalam sebuah penelitian yang disponsori oleh Coca-Cola, 12.500 orang ditanya hal apa yang sebagian besar berkontribusi terhadap kebahagiaan yang mereka rasakan. Sebanyak 77% responden menjawab bahwa hal itu adalah keluarga atau pasangan mereka. Berdasarkan deskripsi di atas, tentukan mana dari 2 metode memperoleh data primer (eksperimen, observasi) yang paling tepat! 4. Dalam jajak pendapat Gallup baru-baru ini, jajak pendapat secara acak memilih orang dewasa dan bertanya mereka apakah mereka merokok. Di antara orang dewasa yang menjawab pertanyaan survei, 21% mengatakan demikian mereka memang merokok. Apakah data di atas hasil dari studi observasional atau eksperimen? 5. Dalam pemilihan umum terakhir, 132.312 orang dewasa memberikan suara di Dutchess Country, New York. Anda berencana untuk melakukan survei pasca pemilu terhadap 500 pemilih tersebut. Setelah mendapatkan daftar mereka yang memberikan suara, Anda memberi nomor daftar dari 1 hingga 132.312, dan kemudian Anda menggunakan komputer untuk menghasilkan 500 angka secara acak antara 1 dan 132.312. Sampel Anda terdiri pemilih yang sesuai dengan nomor yang dipilih. Berdasarkan deskripsi di atas, Tentukan apakah sampel tersebut adalah sampel acak sederhana dan berikan penjelasannya? 10 BAB II POLA DAN UKURAN PERINGKASAN DATA 1. Pendahuluan Setelah data yang diperlukan untuk suatu riset telah dimiliki, investigasi statistik dapat dimulai. Investigasi statistik tersebut biasanya diawali dengan mempelajari pola yang mendasari data tersebut. Namun, pertama kali himpunan data harus diorganisasikan dan dikurangi dalam proporsi yang dapat dikelola dan disajikan dengan bentuk yang efektif. Pikiran manusia sangat terbatas dalam menyerap dan menginterpretasi sejumlah besar fakta dan angka dalam bentuk mentah. Pada Bab ini akan dijelaskan beberapa metode untuk mengorganisasi dan menyajikan himpunan data sehingga pola pada data tersebut dapat dianalisis, diinterpretasi dan dilaporkan. 2. Penyajian Data Kuantitatif Pertama kali akan dibahas metode sederhana penyajian data untuk variabel kuantitatif, yaitu variabel yang memiliki hasil numerik. 2.1. Urutan (Arrays) Langkah awal yang cukup berguna untuk memahami pola dari data kuantitatif –jika jumlah observasinya tidak terlalu banyak– adalah dengan mengurutkan observasian secara menaik atau menurun. Pengurutan semacam ini, yang hasilnya disebut urutan (array) dapat sangat berguna untuk memeriksa data. Kebanyakan dari sistem aplikasi manajemen data memiliki prosedur untuk pengurutan data kuantitatif. 2.2. Display Batang dan Daun (Stem-snd-Leaf Display) Display batang dan daun (stem and leaf display) memberikan informasi lebih banyak dibandingkan urutan. Dengan display batang dan daun akan diketahui (1) konsentrasi atau klaster nilai-nilai tertentu, (2) observasi yang menyimpang (outlyer) atau ekstrim, (3) tingkat kesimetrian dalam distribusi observasian. Untuk menggambarkan display batang dan daun akan digunakan suatu contoh. Asumsikan seorang analis yang diminta untuk mempelajari karakteristik dari pengunjung suatu gedung pertunjukan teater pada suatu kota melakukan pengujian permulaan dengan menyebarkan kuesioner kepada sampel 70 pengunjung gedung pertunjukan tersebut. Salah satu pertanyaan kuesioner adalah menanyakan usia pengunjung. Urutan jawaban pengunjung 11 terhadap pertanyaan tersebut adalah sebagai berikut (hanya bagian awal dan akhir yang disajikan): 20, 25, 25, 25, 29, 30, …, 76, 77 Gambar berikut menyajikan display batang dan daun untuk urutan usia di atas. Digit di sebelah kiri garis vertikal pada display tersebut menunjukkan batang (stem) dan digit di sebelah kanan menunjukkan daun (leaves). Digit pertama 2 menunjukkan batang pertama. Seluruh jawaban umur responden yang dimulai dengan angka 2, yaitu dari 20 sampai 29, dicatat pada batang ini dengan urutan menaik sesuai besarnya. Hanya digit kedua dari setiap jawaban usia yang dicatat pada bagian daun karena digit pertamanya sudah diberikan oleh batangnya. Kita lihat daun pada batang pertama berisi digit 0, 5, 5, 5, 9 yang merepresentasi jawaban umur responden masing-masing 20, 25, 25, 25, dan 29. Demikian seterusnya. 2 3 4 5 6 7 05559 001233455678 000012234455677899 0000011233455567889 0023455679 015567 Berdasarkan sajian display batang dan daun di atas analis menyimpulkan bahwa pola data usia pengunjung gedung pertunjukan tersebut sesuai dengan yang diharapkan. Pola data usia menunjukkan pola yang kompak, simetris dan terpusat pada usia sekitar 50 tahun. Usia dalam himpunan data tersebar dari 20 sampai 77 tahun. Dari tayangan tersebut diperoleh pula informasi bahwa jumlah angka 0 dan 5 cukup besar secara tidak proporsional di antara angka-angka pada digit kedua. Hasil ini tidak diperkirakan sebelumnya, karena setiap angka dari 0 sampai 9 secara kasar akan terwakili secara berimbang pada angka digit kedua data usia tersebut. INBOX Statistik dengan R R mampu membaca data dari berbagai format file, termasuk file yang dibuat dalam paket statistik lain, misal Excel (dalam format CSV, XLSX, atau TXT), SAS, Stata, SPSS, atau aplikasi lainnya. R juga memiliki dua format data asli, yaitu Rdata (terkadang disingkat menjadi Rda) dan Rds. Format ini digunakan ketika objek R disimpan untuk digunakan nanti. Rdata digunakan untuk menyimpan beberapa objek R, sedangkan Rds digunakan untuk menyimpan satu objek R. Atur Direktori Kerja Sebelum membaca data apa pun, Anda harus mengatur direktori kerja R ke lokasi data. 12 setwd("...") akan mengatur direktori kerja saat ini ke lokasi tertentu getwd() akan mencetak direktori saat ini. Misal di PC penulis: > getwd() [1] "C:/Users/HP/Documents" Silakan akses file Notepad pada bit.ly/StatistikSoffan nama file StemLeafOK.txt Simpan pada working directory aplikasi R Anda. Kemudian ketik perintah berikut. > visitor <- read.csv("StemLeafOK.txt", header = TRUE) > stem(visitor$ages) The decimal point is 1 digit(s) to the right of the | 2 | 05559 3 | 001233455678 4 | 000012234455677899 5 | 0000011233455567889 6 | 0023455679 7 | 015567 2.3. Latihan 1. Besar pengeluaran tahunan untuk telepon SLJJ dari 18 belas tenaga penjualan suatu perusahaan adalah sebagai berikut (dalam ratusan ribu): 6.2 5.4 6.7 5.8 4.5 4.7 7.1 6.3 6.5 3.4 5.6 3.1 6.4 5.0 6.1 6.1 5.6 5.1 a. Susunlah data amatan di atas dengan urutan secara menaik! b. Sajikan data dalam display batang-daun! c. Berapa jumlah penjual yang mengeluarkan biaya telpon SLJJ kurang dari 400.000 untuk satu tahun tersebut? Apakah besar pengeluaran ini terlihat tidak biasa dibanding yang lainnya? Jelaskan! 2.4. Jumlah kamar dari 16 hotel cabang Cathay adalah sebagai berikut: 200 252 182 352 364 180 226 164 192 477 315 600 296 249 110 117 a. Susunlah data amatan di atas dengan urutan secara menaik! b. Sajikan data dalam display batang-daun! 13 c. Berapa jumlah kamar terbanyak dan tersedikit yang dimiliki cabang hotel? Apakah beralasan untuk menyatakan bahwa kebanyakan cabang hotel ini memiliki kamar antara 100 dan 400 kamar? Jelaskan! 3. Distribusi Frekuensi 3.1. Pengertian Saat jumlah amatan dari suatu variabel kuantitatif cukup besar, mengkategorikan amatan pada distribusi tabular cukup membantu mempelajari pola data variabel tersebut. Sebagai contoh misalkan sebuah Bank yang memiliki 30.794 rekening tabungan tengah merencanakan untuk mengubah jadwal pembebanan biaya administrasi pada rekeningrekening tabungan tersebut. Analis yang mendapat tugas menyimpulkan bahwa urutan (array) dari jumlah saldo rekening-rekening tersebut akan terlalu panjang untuk dapat diperiksa secara efektif karena begitu banyaknya amatan, demikian pula display batang dan daun. Alih-alih, analis tersebut memutuskan untuk menyiapkan presentasi tabular yang menunjukkan saldo rekening dalam lima kategori sebagaimana dapat dilihat pada kolom 1 gambar berikut (dalam ribuan rupiah). Jumlah Saldo 0 < 5.000 5.000 < 10.000 10.000 < 15.000 15.000 < 20.000 20.000 < 25.000 Total Jumlah Rekening 10.196 15.335 1.812 1.798 1.653 30.794 Persentase 33.1 49.8 5.9 5.8 5.4 Suatu perintah rutin dalam software statistik atau program pengolah data lain dapat diterapkan untuk membaca jumlah saldo setiap rekening pada file data, memberikan angka kelas yang sesuai, dan menghitung jumlah rekening pada setiap kelas. Hasil hitungan jumlah rekening terdapat pada kolom 2 presentasi tabular di atas. Jumlah total hitungan tersebut, 30.794, sama dengan jumlah rekening pada file data. Perintah rutin tersebut juga dapat menghitung persentase seluruh rekening dalam setiap kelas sebagaimana dicantumkan pada kolom ketiga presentasi tabular di atas. Presentasi tabular sebagaimana digambarkan di atas secara umum disebut distribusi frekuensi. Distribusi frekuensi dengan demikian dapat didefinisikan sebagai klasifikasi elemen-elemen himpunan data dengan variabel kuantitatif. Distribusi frekuensi di atas sebagai contoh, memiliki 5 kelas. Angka pada setiap elemen kelas dinamakan frekuensi, sehingga kelas pertama distribusi frekuensi di atas dikatakan memiliki frekuensi sebanyak 10.196. Frekuensi kelas yang dinyatakan dalam persentase dari jumlah elemen seluruhnya 14 dinamakan frekuensi persentase atau frekuensi relatif. Jadi frekuensi relatif untuk kelas pertama adalah sebesar 33.1%. 3.2. Penyusunan Distribusi Frekuensi Distribusi frekuensi dibuat dengan tujuan (1) untuk dapat meringkas kumpulan data yang besar, (2) untuk dapat menganalisis data sehingga dapat melihat distribusi dan mengidentifikasi outlier, dan (3) untuk dapat memiliki dasar guna membuat grafik (seperti histogram). Meskipun teknologi dapat menghasilkan distribusi frekuensi, langkah-langkah untuk membangunnya secara manual adalah sebagai berikut: 1. Pilih jumlah kelas, biasanya antara 5 dan 20. Jumlah kelas mungkin dipengaruhi oleh kenyamanan penggunaan angka bulat. Jumlah kelas juga dapat ditentukan dengan rumus Sturges k = 1 + 3.322 log N dimana k = jumlah kelas 2. Hitung lebar kelas. Bulatkan hasil perhitungan ini untuk mendapatkan angka yang nyaman (biasanya yang terbaik adalah dengan dibulatkan). Menggunakan jumlah kelas tertentu tidak terlalu penting, dan biasanya bijaksana untuk mengubah jumlah kelas sehingga digunakan nilai yang nyaman untuk batas kelas. 3. Pilih nilai untuk batas kelas bawah pertama dengan menggunakan nilai minimum atau nilai yang sesuai di bawah minimum. 4. Dengan menggunakan batas kelas bawah pertama dan lebar kelas, buat daftar batas kelas bawah lainnya. (Tambahkan lebar kelas ke batas kelas bawah pertama untuk mendapatkan batas kelas bawah kedua. Tambahkan lebar kelas ke batas kelas bawah kedua untuk mendapatkan batas kelas bawah ketiga, dan seterusnya.) 5. Buat daftar batas kelas bawah dalam kolom vertikal dan kemudian tentukan dan masukkan batas kelas atas. 6. Ambil setiap nilai data individu dan beri tanda penghitungan di kelas yang sesuai. Tambahkan tanda penghitungan untuk menemukan frekuensi total untuk setiap kelas. Saat membangun distribusi frekuensi, pastikan kelas tidak tumpang tindih. 15 Setiap nilai asli harus milik tepat satu kelas. Sertakan semua kelas, bahkan kelas dengan frekuensi nol. Cobalah untuk menggunakan lebar yang sama untuk semua kelas, meskipun terkadang tidak mungkin untuk menghindari interval terbuka, seperti “65 tahun atau lebih.” Data Set yang akan digunakan adalah skor IQ dari kelompok anak-anak yang tinggal di dekat tempat peleburan timah. Kepada anak-anak diukur tingkat kadar timah di dalam darah mereka. Anak-anak dibagi ke dalam tiga kelompok, yaitu yang kandungan timah di dalam darahnya rendah (yaitu kurang dari 40 micrograms/100 mL dalam kedua tahun pengamatan), yang kandungan timah dalam darahnya medium (yaitu paling tidak sebesar 40 micrograms/100 mL dalam salah satu dari kedua tahun pengamatan), dan yang kadar timah dalam darahnya tinggi (yaitu paling tidak 40 micrograms/ 100 mL in dalam kedua tahun pengamatan tersebut). IQ anak-anak untuk kelompok yang kadar timah dalam darahnya rendah, adalah sebagaimana pada tabel 1 berikut: Tabel 1 Skor IQ Anak-Anak dengan Kadar Timah dalam Darahnya yang Rendah 70 141 105 80 104 85 88 96 111 85 86 96 50 104 76 76 96 99 85 95 84 107 85 94 86 96 86 88 75 89 94 80 120 73 76 56 107 93 76 96 115 101 87 107 101 97 91 98 88 108 77 125 78 89 102 128 96 100 96 77 99 99 105 72 74 80 99 87 97 92 118 115 94 76 86 106 89 107 Berikut pelaksanaan langkah-langkah untuk menyusun distribusi frekuensi dengan data set di atas. Langkah 1: Pilih 5 sebagai jumlah kelas yang diinginkan. Atau gunakan rumus Sturges k = 1 + 3,322 log N K = 1 + 3,322 log 78 = 7,28 atau 7 Tapi tetap kita gunakan 5 sebagai jumlah kelas. Langkah 2: Hitung lebar kelas. = 18,2 untuk nyamannya kita bulatkan menjadi 20 Langkah 3: 16 Nilai data minimum adalah 50 dan ini adalah titik awal yang nyaman, jadi gunakan 50 sebagai batas kelas bawah pertama (jika nilai minimumnya adalah 52 atau 53, kita akan bulatkan ke bawah ke titik awal yang lebih nyaman yaitu 50). Langkah 4: Tambahkan lebar kelas 20 kepada 50 untuk mendapatkan batas kelas bawah kedua 70. Lanjutkan menambahkan lebar kelas 20 hingga kita memiliki lima batas kelas bawah. Oleh karena itu, batas kelas bawah adalah 50, 70, 90, 110, dan 130. Langkah 5: Buat daftar limit kelas bawah secara vertikal sehingga diperoleh kira-kira seperti tampilan pada daftar berikut: 50 – 70 – 90 – 110 – 130 – Dari daftar ini, kita mengidentifikasi batas kelas atas yang sesuai sebagai 69, 89, 109, 129, dan 149. Langkah 6: Masukkan tanda penghitungan untuk setiap nilai data di kelas yang sesuai. Kemudian tambahkan data hasil penghitungan untuk menemukan frekuensi yang ditunjukkan pada Tabel 2 sebagai hasil penyusunan distribusi frekuensi kita. Tabel 2 Distribusi Frekuensi Skor IQ untuk Anak-Anak dengan Tingkat Kadar Timah Rendah Kelas Frekuensi 50 – 69 2 70 – 89 33 90 – 109 35 110 – 129 7 130 – 149 1 3.2.1. Penyusunan Distribusi Frekuensi secara Manual Meskipun distribusi frekuensi dapat dihasilkan melalui teknologi, berikut adalah langkahlangkah pembuatannya secara manual : 1. Pilih jumlah kelas, umumnya digunakan antara 5 hingga 20. Jumlah kelas dipengaruhi oleh kemudahan penggunaan angka bulat. 2. Tentukan jangkauan data (range) Jangkauan data = (nilai data maksimum – nilai data minimum) 17 3. Hitung lebar kelas Lebar kelas = (nilai data maksimum – nilai data minimum) : (jumlah kelas) Atau Lebar kelas = (jangkauan data) : (jumlah kelas) Bulatkan hasil ini untuk mendapatkan angka yang sesuai. Menggunakan sejumlah kelas tertentu tidak terlalu penting, dan bijaksanalah dalam penentuan jumlah kelas sehingga memudahkan proses penyusunan distribusi frekuensi. 4. Pilih nilai untuk batas kelas bawah pertama dengan menggunakan nilai minimum atau nilai praktis di bawah minimum. 5. Dengan menggunakan batas kelas bawah pertama dan lebar kelas, lanjutkan dengan batas kelas bawah lainnya. (Tambahkan lebar kelas ke batas kelas bawah pertama untuk mendapatkan batas kelas bawah kedua. Tambahkan lebar kelas ke batas kelas bawah kedua untuk mendapatkan batas kelas bawah ketiga, dan seterusnya.) 6. Tuliskan batas kelas bawah dalam kolom vertikal kemudian tentukan dan masukkan batas kelas atas. 7. Amati setiap nilai data yang dimiliki lalu kelompokkan sesuai dengan kelasnya. Tentukan frekuensi total setiap kelas. Saat membuat distribusi frekuensi, pastikan kelas tidak tumpang tindih. Setiap data nilai harus hanya dimiliki tepat oleh satu kelas. Sertakan semua kelas, termasuk kelas dengan frekuensi nol. Cobalah untuk menggunakan lebar yang sama untuk semua kelas, meskipun terkadang tidak mungkin untuk menghindari interval terbuka, seperti “75 atau lebih”. Contoh : Data (usia penghuni indekos) yang tersedia setelah diurutkan dari terkecil hingga terbesar: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 1. Tentukan jumlah kelas : 5 (umumnya antara 5 hingga 15) 2. Tentukan jangkauan data : 58 - 12 = 46 3. Tentukan panjang kelas (Width) : 10 (46/5 then round up) 4. Tentukan nilai batas bawah pertama : 10 (nilai praktis di bawah nilai minimum) 5. Tentukan batas kelas (Limits) :10, 20, 30, 40, 50, 60 6. Tuliskan batas kelas bawah dalam kolom vertikal kemudian tentukan dan masukkan batas kelas atas. Data Usia 18 10 – 19 20 – 29 30 – 39 40 – 49 50 – 59 7. Tentukan frekuensi setiap kelas Data Usia Frekuensi 10 – 19 3 20 – 29 6 30 – 39 5 40 – 49 4 50 – 59 2 8. Hitung titik tengah kelas : 15, 25, 35, 45, 55 9. Lakukan observasi terhadap distribusi frekuensi data 3.2.1. Penyusunan Distribusi Frekuensi Menggunakan Aplikasi R Menggunakan Aplikasi R, dapat disusun suatu Tabel Distribusi Frekuensi. Berikut ini akan dijelaskan langkah penyusunan Tabel Distribusi Frekuensi menggunakan aplikasi R berdasarkan kasus berikut: Suatu penelitian terhadap nilai mata kuliah Kalkulus pada jurusan Matematika di suatu kampus, dari hasil pengambilan sampel secara random, terambil sampel sebanyak 30 dengan distribusi nilai sebagai berikut: 75 80 30 70 20 35 65 65 70 57 55 25 58 70 40 35 36 45 40 25 15 55 35 65 40 15 30 30 45 40 Berdasarkan kasus di atas, langkah-langkah penyusunan Tabel Distribusi Frekuensi adalah sebagai berikut, 1. Melakukan input data ke Aplikasi R. Tuliskan di aplikasi >namadata=c(xx,yy,zz) 19 >datanilai=c(75,80,30,70,20,35,65,65,70,57,55,25,58,70,40,35,36,45,40,25,15,55,35,65,4 0,15,30,30,45,40) 2. Setelah itu tekan enter. Untuk memastikan data yang diinput benar lakukan pengecekan. Tuliskan di aplikasi >datanilai Maka akan keluar kumpulan angka yang telah kita input. Spasi juga dihitung sebagai karakter. 3. Berikutnya mengurutkan data yang telah diinput. Gunakan perintah berikut. >sort(datanilai) Maka ketika ”datanilai” dimunculkan kembali akan berada dalam kondisi yang telah diurutkan 4. Pembuatan tabel distribusi frekuensi memerlukan beberapa komponen yang harus dicari seperti Panjang data � untuk menentukan jumlah kelas Data tertinggi dan terendah � untuk menentukan interval dalam kelas Jumlah kelas � Penentuan jumlah kelas dilakukan menggunakan perintah : >length(datanilai) Misalkan panjang data tersebut sebagai n. Jadi saat kita panggil n akan muncul angka 30 sebagai panjang data. >n=length(datanilai) 20 Jumlah kelas(k) ditentukan dengan rumus k = 1 + 3.3log(panjang data) maka pada aplikasi R kita tuliskan >k=1+(3.3*log10(n)) Jika dituliskan ”>k”, maka nilai jumlah kelas adalah 5.8745 dan harus dibulatkan menggunakan perintah round. Gunakan huruf kapital besar sebagai pembeda karakter >K=round(k) Setelah itu akan didapat nilai jumlah kelas sama dengan 6 5. Menentukan lebar kelas dengan mencari data tertinggi dan data terendah terlebih dahulu. Rumus mencari interval kelas adalah p = (xmax-xmin)/K Data tertinggi (xmax) dicari menggunakan perintah >max(datanilai) dan kita misalkan sebagai xmax >xmax=max(datanilai) Data terendah (xmin) dicari menggunakan perintah >min(datanilai) dan kita misalkan sebagai xmin >xmin=min(datanilai) Maka didapatkan xmax = 80 dan xmin = 15 untuk mencari lebar kelas gunakan perintah >p=(xmax-xmin)/K Dan lakukan pembulatan ke atas >P=ceiling(p) Maka P sebagai lebar kelas adalah 11 21 Dari langkah-langkah yang telah dilakukan maka didapatkan Jumlah kelas = 6 Lebar kelas = 11 Data tertinggi = 80 Data terendah = 15 6. Langkah selanjutnya, menentukan frekuensi data kelompok Tuliskan rumus > frekuensi=function(x,y,z) Berikutnya tuliskan + {a=0 + for(i in 1:n) + {if(x[i]>=y&&x[i]<=z) + {a=a+1}} + print(a)} x = nama data(diisi dengan “datanilai”) y = data kelas bawah z = data kelas atas Contoh mencari frekuensi antara 15-25 >frekuensi(datanilai,15,25) Angka 5 yang muncul memiliki arti terdapat 5 angka dalam rentang kelas 15-25 Lanjutkan sampai rentang kelas terakhir 22 7. Setelah melakukan perintah mencari semua frekuensi kelompok, nilai frekuensi semua kelompok adalah 5,7,6,4,3,5 Kita misalkan sebagai f >f=c(5,7,6,4,3,5) Maka f akan berisikan frekuensi data 8. Selanjutnya, membuat data tabel menggunakan perintah >tabel=edit(data.frame()) Tekan enter maka akan muncul bentuk tabel seperti berikut: ganti nama ”var1” menjadi ”nilai” untuk meletakan kelas dalam data berikutnya isikan rentang kelas ke dalam tabel 23 maka saat kita tulis >tabel, akan muncul kelas seperti berikut 9. Langkah terakhir adalah menambahkan kolom frekuensi menggunakan perintah >tabel$frekuensi=f Dan akan muncul Memunculkan histogram dari data yang telah diinput dapat menggunakan perintah >hist(datanilai) 24 Untuk melihat persebaran titik plot, cukup tuliskan perintah >plot(datanilai) Penyajian Grafis Ditribusi Frekuensi Distribusi frekuensi adalah alat yang berguna untuk meringkas data dan memahami distribusi data. Untuk mempermudah pemahaman dan penafsiran atas distribusi data, distribusi frekeuensi disajikan dalam bentuk grafis yang disebut histogram. 25 Histogram adalah grafik distribusi frekuensi yang terdiri dari batang-batang (bar) dengan lebar yang sama yang ditarik berdekatan satu sama lain (kecuali jika ada celah dalam data). Skala horizontal mewakili kelas nilai data kuantitatif dan skala vertikal mewakili frekuensi. Ketinggian bar sesuai dengan nilai frekuensi. Frekuensi kelas digunakan untuk skala vertikal seperti pada Gambar di atas. Lokasi batang pada skala horizontal biasanya diberi label dengan salah satu dari berikut ini: (1) batas kelas (seperti yang ditunjukkan pada Gambar), (2) titik tengah kelas, atau (3) batas kelas bawah. 3.3. Properti Ditribusi Frekuensi Properti dari Distribusi Frekuensi adalah sebagai berikut: 1. Limit kelas bawah (lower class limit) adalah bilangan terkecil yang dapat dimiliki oleh kelas yang berbeda. (Tabel 2 memiliki batas kelas bawah 50, 70, 90, 110, dan 130.) 2. Limit kelas atas (upper class limit) adalah bilangan terbesar yang dapat dimiliki oleh kelas yang berbeda. (Tabel 2 memiliki batas kelas atas 69, 89, 109, 129, dan 149.) 3. Batas kelas (class boundary) adalah angka yang digunakan untuk memisahkan kelas, tetapi tanpa celah yang dibuat oleh limit kelas. Gambar 2 berikut menunjukkan kesenjangan yang diciptakan oleh batas kelas dari Tabel 2. Pada Gambar 2 terlihat bahwa nilai 69,5, 89,5, 109,5, dan 129,5 berada di tengah-tengah celah tersebut, dan mengikuti pola limit kelas tersebut, terlihat bahwa batas kelas terendah adalah 49,5 dan batas kelas tertinggi adalah 149,5. Dengan demikian daftar batas kelas yang lengkap adalah 49,5, 69.5, 89,5, 109,5, 129,5, dan 149,5. 26 Gambar 1 Limit Kelas dan Batas Kelas 4. Titik tengah kelas (class midpoint) berada di tengah-tengah kelas. Tabel 2 memiliki titik tengah kelas 59,5, 79,5, 99,5, 119,5, dan 139,5. Setiap titik tengah kelas dihitung dengan menambahkan batas kelas bawah ke batas kelas atas dan membagi jumlahnya dengan 2. 5. Lebar kelas adalah selisih antara dua batas kelas bawah yang berurutan (atau dua batas kelas bawah yang berurutan) dalam suatu distribusi frekuensi. Tabel 2 menggunakan lebar kelas 20. 3.4. Latihan 1. Disajikan data sebagai berikut: Umur Pemenang Best Actor Piala Oscar Frekuensi 20-29 1 30-39 26 40-49 35 50-59 13 60-69 6 70-79 1 Tentukan: a. Panjang kelas b. Titik tengah kelas c. Batas kelas 2. Data di bawah ini merupakan distribusi frekuensi dari tinggi badan dari orang-orang di Vassar Road Elementary School: Tinggi Badan (dalam inci) Frekuensi 35-39 6 40-44 31 45-49 67 27 50-54 21 55-59 0 60-64 0 65-69 6 70-74 10 Apa yang dapat disimpulkan dari distribusi frekuensi di atas? 3. Disajikan data sebagai berikut: Skor IQ Frekuensi 50-59 4 60-69 10 70-79 25 80-89 43 90-99 26 100-109 8 110-119 3 120-129 2 Apakah data distribusi frekuensi di atas merupakan distribusi normal? Jelaskan. 4. Akan disusun distribusi frekuensi biaya sewa rumah bulanan. Biaya sewa bulanan merupakan kelipatan $100 dengan rentang $1.000 s.d. $1.900. Interval kelas ditetapkan sebesar $200. Berapa batas kelas yang paling tepat? Mengapa? 5. Disajikan data sebagai berikut: 5 24 36 2 1 3 19 55 1 2 4 20 4 1 24 30 0 1 8 2 27 0 2 22 Tentukan: a. Apakah kelas data memiliki panjang yang sama? b. Berapa nilai tengah dari kelas kedua? c. Apakah terdapat open-end class? 28 29 BAB III PROBABILITAS 1. Pendahuluan Bab ini akan membahas tentang probabilitas. Pengertian tentang probabilitas menjadi suatu syarat penting dalam memahami statistik inferensial yang akan dibahas pada bab-bab berikutnya. Bagian pertama akan membahas konsep-konsep dasar dari probabilitas, seperti tentang percobaan, ruang sampel dan even. Bagian kedua membahas aturan penjumlahan dan perkalian dalam probabilitas termasuk independensi dan teorema Bayes. Bagian terakhir bab probabilitas ini akan membahas tentang Permutasi dan Kombinasi. 2. Konsep-Konsep Dasar Probabilitas 2.1. Percobaan, Ruang Sampel dan Elemen Percobaan (experiment atau trial) adalah sebarang proses pengukuran atau pengamatan atas hasil-hasil yang berbeda. Suatu percobaan dapat terjadi sesungguhnya (riil) atau hanya merupakan konsep saja. Kumpulan dari keseluruhan hasil (outcome) yang mungkin dari suatu eksperimen dinamakan ruang sampel (sample space). Obyek dari ruang sampel dinamakan elemen atau titik sampel atau karena merupakan hasil percobaan disebut juga hasil dasar (basic outcomes). Ruang sampel dinotasikan sebagai S, elemen-elemennya disajikan di antara dua kurung kurawal Dalam pelemparan mata uang tunggal, terdapat dua hasil yang mungkin, yaitu angka (A) atau gambar (G). Sehingga: S= {A, G} Jika mata uang tersebut dilempar dua kali, terdapat empat kemungkinan: S = {(A, A), (A, G), (G, A), (G, G)} Pada kasus pertama, eksperimen dilakukan dengan satu percobaan (one trial); pada kasus kedua dua percobaan. Kedua eksperimen dapat benar-benar dilakukan atau hanya dibayangkan saja. Hasil suatu percobaan pada umumnya tidak pasti sehingga biasa disebut sebagai percoban acak (random trial). Seorang auditor yang akan memeriksa sebuah voucher akan menghadapi ketidakpastian dalam hal apakah voucher tersebut mengandung kesalahan atau tidak. Suatu perusahaan jasa pengiriman akan memiliki ketidakpastian apakah suatu barang akan sampai tepat waktu atau terlambat. Kedua contoh tersebut melibatkan gambaran percobaan acak. 30 2.2. Even, Jenis-Jenis Even dan Visualisasi Even Suatu even (event) adalah kumpulan dari elemen-elemen yang masing-masingnya merupakan elemen dari ruang sampel. Komplemen dari even A adalah kumpulan dari elemen yang bukan merupakan even A. Komplemen even A dinotasikan sebagai A’. Dua even A1 dan A2 dikatakan saling lepas (mutually exclusive), jika ketika salah satu even terjadi, even yang lain tidak akan terjadi. Contoh even munculnya angka 1 dengan even munculnya angka ganjil bukan merupakan even yang saling lepas, tetapi even munculnya angka ganjil dengan even munculnya angka genap merupakan even yang saling lepas. Even A dengan komplemennya (A’) merupakan even saling lepas, namun dua even yang saling lepas tidak harus saling komplemen. Beberapa even dikatakan keseluruhannya menghabiskan (collectively exhaustive) jika gabungan dari even-even tersebut membentuk keseluruhan ruang sampel. Beberapa even yang keseluruhannya menghabiskan tidak harus saling lepas. Suatu even dengan komplemennya akan selalu keseluruhannya menghabiskan. Terdapat dua jenis even yaitu even sederhana (simple event) serta even bersama (joint event). Even sederhana terjadi jika hasil percobaan yang mungkin hanya terdiri dari satu karakteristik. Even bersama terjadi jika hasil percobaan yang mungkin terdiri dari dua karakteristik secara bersamaan (simultan). Even terambilnya kartu merah dari setumpuk kartu merupakan contoh even sederhana. Sementara even terambilnya kartu merah yang merupakan kartu As merupakan contoh even bersama. Suatu even bersama dapat divisualisasikan dengan tiga cara, yaitu dengan metode koordinat, diagram pohon serta dengan tabel kontijensi. Pada dua cara pertama hanya akan diperoleh seluruh elemen yang membentuk ruang sampel percobaan. Pada cara ketiga selain akan diperoleh seluruh elemen yang membentuk ruang sampel juga akan diperoleh frekuensi seluruh kemungkinan even dari setiap elemen ruang sampel tersebut. Sebagai contoh, asumsikan dalam suatu riset pasar, perbedaan di antara konsumen digolongkan menurut (1) kelompok pendapatan: tinggi, sedang, rendah dan (2) apakah mereka membeli atau tidak membeli produk selama satu bulan tertentu. Visualisasi kejadian bersama riset ini dengan cara koordinat adalah sebagai berikut: 31 Membeli Produk Tidak Membeli Produk Pendapatan Rendah Pendapatan Sedang Pendapatan Tinggi Visualisasi kejadian bersama dengan cara diagram pohon adalah sebagai berikut: Membeli Produk Pendapata n Rendah Pendapata n Sedang Tdk Membeli Produk Pendapata n Tinggi Membeli Produk Tdk Membeli Produk Membeli Produk Tdk Membeli Produk Berdasar kedua visualisasi tersebut terlihat bahwa ruang sampel percobaan terdiri dari enam elemen even bersama. Jika diketahui berapa frekuensi setiap elemen ruang sampel, dapat dibuat tabel kontijensi yang lebih lanjut dapat digunakan untuk menghitung probabilitas kejadian setiap elemen. Misalkan tabel kontijensi untuk contoh di atas jika frekuensinya diketahui, adalah sebagai berikut: Pendapatan rendah Pendapatan sedang Pendapatan tinggi Total Membeli Produk 65 orang 25 orang 20 orang 110 orang Tdk Membeli Produk 115 orang 205 orang 70 orang 390 orang Total 180 orang 230 orang 90 orang 500 orang Berdasarkan tabel kontijensi di atas kita dapat melihat bahwa jumlah pelanggan yang diriset ada sebanyak 500 orang. Setiap sel pada tabel menunjukkan even bersama. Dengan demikian even bersama: ● pelanggan yang berpendapatan rendah sekaligus membeli produk memiliki frekuensi sebanyak 65 pelanggan, 32 ● pelanggan yang berpendapatan sedang sekaligus membeli produk memiliki frekuensi sebanyak 25 pelanggan, dst. Lalu bagaimana kita mengetahui even sederhananya? Even sederhana ditunjukkan pada sel total, baik pada total baris maupun pada total kolom, sehingga even sederhana: ● pelanggan yang berpendapatan rendah memiliki frekuensi sebanyak 180 pelanggan ● pelanggan yang membeli produk memiliki frekuensi sebanyak 110 pelanggan, dst. Karena diperoleh sebagai hasil penjumlahan even-even bersama yang membentuknya, even sederhana pada tabel kontijensi biasa juga disebut sebagai even marginal. 2.3. Menentukan Probabilitas Visualisasi even dalam tabel kontijensi cukup bermanfaat untuk menjelaskan cara menentukan atau menghitung probabilitas even. Probabilitas ditentukan sebagai hasil perbandingan antara frekuensi hasil dari even dengan total frekuensi hasil seluruh even. frekuensi hasil even total hasil frekuensi seluruh even f P(E) = n P(E) = Nilai probabilitas berkisar antara 0 sampai 1. Probabilitas sebesar 0 merupakan probabilitas untuk even yang tidak mungkin terjadi (impossible event) sedangkan probabilitas sebesar 1 menunjukkan probabilitas untuk even yang pasti terjadi (certain event) Berdasarkan rumus probabilitas tersebut, maka untuk tabel kontijensi sebelumnya dapat ditentukan probabilitas even bersama: ● pelanggan yang berpendapatan rendah sekaligus membeli produk adalah sebesar 65/500 = 0,13, ● pelanggan yang berpendapatan sedang sekaligus membeli produk adalah sebesar 25/500=0,05; dst. Secara lengkap probabilitas untuk setiap sel tabel kontijensi di atas adalah sebagai berikut: Pendapatan rendah (A1) Pendapatan sedang (A2) Pendapatan tinggi (A3) Total Membeli Produk (B1) 0,13 0,05 0,04 0,22 Tdk Membeli Produk (B2) 0,23 0,41 0,14 0,78 Total 0,36 0,46 0,18 1 Dalam notasi matematis contoh probabilitas bersama sebelumnya dinotasikan sebagai berikut: 33 ● P(A1 dan B1) = 65/500 = 0,13 P(A2 dan B1) = 25/500 = 0,05; dst. ● Tabel kontijensi yang isi selnya sudah merupakan nilai probabilitas seperti di atas, dinamakan tabel probabilitas bersama (joint probability tables). 2.4. Latihan 1. Data dari Badan Koordinasi Pasar Modal terkait penanaman modal asing dari Jepang dan Inggris pada tiga industri spesifik adalah sebagai berikut: Negara Jepang (J) Inggris (I) Total Kimia (K) 19 8 27 Industri Elektronika (E) 13 6 19 Stationery (S) 2 2 4 Total 34 16 50 1. Jika dipilih satu perusahaan yang termasuk pada daftar di atas, hitunglah probabilitas bahwa perusahaan tersebut merupakan: a. Perusahaan stationery dari Inggris b. Perusahaan Kimia dari Jepang c. Perusahaan elektronika d. Perusahaan Inggris 2. Seorang manajer pemasaran memberitahukan kepada stafnya bahwa terdapat kesempatan 50:50 bahwa model promosi baru akan meningkatkan penjualan sampai 30%. Apakah pernyataan manajer pemasaran tersebut merupakan pernyataan tentang probabilitas? Jelaskan perbedaannya dengan pernyataan probabilitas yang lazim! 3. Jika angka “0” menunjukkan tidak memberi jawaban atas soal ujian dan angka “1” menunjukkan memberi jawaban, sebutkan elemen-elemen ruang sampel S dari kemungkinan seorang mahasiswa menjawab 3 dari 4 soal ujian! 4. Manakah pasangan-pasangan even berikut yang saling lepas (mutually exclusive)? a. Munculnya angka 3 (even 1) dengan munculnya angka-angka yang berjumlah 4 (even 2) dalam dua kali pelemparan sebuah dadu. b. Munculnya angka 4 (even 1) dengan munculnya angka-angka yang berjumlah 3 (even 2) dalam dua kali pelemparan sebuah dadu. c. Salah satu dadu berangka 6 (even 1) dengan jumlah dua dadu 5 (even 2) dalam sekali pelemparan 3 dadu. 34 5. Sebuah produk makanan diperiksa di bagian pengolahan oleh seorang pemeriksa atau inspector dan diketahui beberapa grade kualitas makanan yaitu A, B, C, dan D. Toko makanan besar/utama hanya menjual produk makanan grade A, sedangkan produk makanan grade B, C, dijual melalui outlet-outlet diskon, produk makanan grade D tidak cocok untuk dikonsumsi manusia sehingga dijual kepada industri pengolah makanan hewan. a. Deskripsikan ruang sampel untuk produk makanan yang sudah diperiksa untuk: (1) hasil kualitas yang berbeda; (2) distribusi pasar tempat makanan dijual yang berbeda; (3) apakah produk makanan tersebut layak dikonsumsi manusia atau tidak. b. Apakah ruang sampel pada pertanyaan a merupakan univariate atau bivariate? Jelaskan! 3. Aturan Penjumlahan dan Perkalian Probabilitas 3.1. Aturan Penjumlahan Teori probabilitas pada umumnya diterapkan terhadap penggabungan probabilitas: baik penjumlahan atau perkalian. Untuk penjumlahan berlaku: P (A atau B) = P(A) + P(B) – P(A dan B) Atau, jika A dan B saling mutually exclusive berlaku kasus khusus dalam aturan penjumlahan probabilitas, yaitu: P (A atau B) = P(A) + P(B) Aturan penjumlahan yang dirumuskan di atas dapat dimisalkan dengan operasi himpunan untuk penggabungan (union). Jika himpunan A dan B memiliki irisan, maka gabungan himpunan A dengan B ( A ∪ B ) diperoleh dari seluruh elemen himpunan A ditambah seluruh elemen B dikurang elemen (A ∩ B). Namun jika antara A dan B tidak ada irisan, gabungan himpunan A dan B ( A ∪ B ) diperoleh dari seluruh elemen himpunan A ditambah seluruh elemen B. Dalam diagram venn operasi ini digambarkan sebagai berikut: 35 A ∪ B = A + B – (A ∩ B) A∪ B=A+B Kasus khusus aturan penjumlahan probabilitas dapat digunakan untuk keperluan menguji apakah suatu even A dengan even B saling bebas (mutually exclusive) atau tidak, yaitu dengan menguji: ● jika P (A atau B) = P(A) + P(B), maka even A dan B saling lepas. ● jika P (A atau B) ≠ P (A) + P (B), maka even A dan B tidak saling lepas. Aturan penjumlahan jika diterapkan pada contoh tabel probabilitas bersama sebelumnya dapat ditunjukkan sebagai berikut: P (A1 atau B1) = P (A1) + P (B1) – P (A1 dan B1) = 0,36 + 0,22 – 0,13 = 0,45 Jadi, probabilitas pelanggan yang berpendapatan rendah atau membeli produk adalah sebesar 0,45. Even yang probabilitasnya diproleh sebagai hasil penjumlahan dinamakan even majemuk (compound event). Dalam probabilitas even majemuk seperti ini tercakup baik probabilitas even A1 (pelanggan berpendapatan rendah), B1 (pelanggan yang membeli produk), maupun A1 dan B1 (pelanggan yang berpendapatan rendah dan membeli produk). Dalam rumus aturan penjumlahan, penjumlahan antar even yang memiliki even bersama (dalam contoh di atas A1 dan B1) probabilitas even bersamanya (P[A1 dan B1]) dikurangkan dari penambahan P(A1) + P(B1). Prosedur ini dilakukan untuk menghilangkan penghitungan dua kali. Prosedur terakhir tidak dilakukan pada kasus khusus aturan penjumlahan probabilitas. Kasus khusus ini pada contoh di atas dapat dilihat pada saat menentukan nilai probabilitas marginal (probabilitas sederhana). Kembali berdasarkan tabel kontijensi sebelumnya, karena (A1 dan B1) saling lepas dengan (A1 dan B2) maka: P ([A1 dan B1] atau [A1 dan B2]) = P (A1 dan B1) + P (A1 dan B2) = 0,13 + 0,23 36 = 0,36 = P(A1) Jadi probabilitas pelanggan berpendapatan rendah dan membeli produk atau berpendapatan rendah dan tidak membeli produk adalah sebesar 0,36 yaitu sama dengan probabilitas pelanggan berpendapatan rendah (probabilitas marginal). Pada kasus ini antara even yang dijumlahkan tidak terdapat probabilitas bersama (yaitu P([A1 dan B1] dan [A1 dan B2] = 0) sehingga penjumlahan antara kedua even tersebut tidak dikurangi probabilitas even bersamanya. Kelima probabilitas marginal lain pada tabel probabilitas bersama yang kita miliki sebelumnya dapat diperoleh dengan cara yang sama seperti yang telah dilakukan di atas. Berikut contoh untuk probabilitas marginal yang diperoleh dari kolom tabel probabilitas bersama. P ([A1 dan B1] atau [A2 dan B1] atau [A3 dan B1]) = P(A1 dan B1) + P(A2 dan B1) + P(A3 dan B1) = 0,13 + 0,05 + 0,04 = 0,22 = P(B1) Jadi probabilitas pelanggan berpendapatan rendah dan membeli produk atau berpendapatan sedang dan membeli produk atau berpendapatan tinggi dan membeli produk adalah sebesar 0,22 yaitu sama dengan probabilitas pelanggan yang membeli produk (probabilitas marginal). Dua contoh di atas disajikan untuk menjelaskan tentang aturan penjumlahan. Penjelasan tentang aturan penjumlahan ini ternyata bersambung dengan konsep probabilitas marginal yang telah diperkenalkan sebelumnya. Dengan demikian kita dapat mengambil kesimpulan dari arah sebaliknya, yaitu untuk memperoleh nilai dari suatu probabilitas marginal (sederhana) kita dapat menentukannya dengan menjumlahkan seluruh probabilitas bersama yang melibatkan even marginal (sederhana) yang bersangkutan. Dengan demikian untuk contoh kita di atas: ● P(A1) = P (A1 dan B1) + P (A1 dan B2) ● P(B1) = P(B1 dan A1) + P(B1 dan A2) + P(B1 dan A3); dst. 3.2. Aturan Perkalian Aturan perkalian probabilitas baru akan muncul jika terhadap even-even yang terlibat kita perhatikan pula saat atau waktu terjadinya even tersebut. Untuk itu terlebih dahulu dahulu harus diketahui konsep tentang probabilitas bersyarat (conditional 37 probability). Mari kita perhatikan contoh tabel kontijensi dari percobaan pengambilan kartu. Jika atas percobaan pengambilan kartu kita perhatikan dua karakteristik kartu tersebut, yaitu apakah muncul kartu As atau bukan As serta apakah muncul kartu merah atau bukan merah (hitam), maka tampilan tabel kontijensi kita adalah sebagai berikut: As Bukan As Total Merah 2 24 26 Hitam 2 24 26 Total 4 48 52 Suatu probabilitas bersyarat yang dinotasikan sebagai P (As / Merah) berarti probabilitas dari even terambilnya kartu As sesudah sebelumnya terambil kartu merah. Notasi “/” dibaca sebagai dengan syarat (given), sehingga P (As / Merah) dibaca sebagai probabilitas terambilnya kartu As dengan syarat sebelumnya terambil kartu merah. Dengan demikian berdasarkan tabel kontijensi di atas: ● P(As / Merah) = 2/26 ● P(Merah / As) = 2/4 Bandingkan probabilitas tersebut dengan: ● P(As dan Merah) = 2/52 Selain itu: ● P(Bukan As / Hitam) = 24/26 ● P(Hitam / Bukan As) = 24/48 Bandingkan kedua probabilitas terakhir tersebut dengan: ● P(Bukan As dan Hitam) = 24/52 Kesimpulan dari contoh-contoh di atas adalah terdapat hubungan antara probabilitas bersyarat dengan probabilitas bersamanya (yaitu nilai pembilangnya sama besar). Sesungguhnya suatu probabilitas bersyarat memang dapat ditentukan dari probabilitas bersamanya. Karena probabilitas bersyarat hakikatnya adalah probabilitas bertingkat (probabilitas kejadian sesudah terjadinya sesuatu kejadian), maka dia dapat diperoleh dari probabilitas bersama dibagi probabilitas kejadian syaratnya. Dengan demikian P(As/Merah) dengan P(Merah/As) sama-sama dapat diperoleh dengan membagi probabilitas bersama P(As dan Merah) dengan probabilitas even syaratnya masing-masing. Hubungan ini yang menyebabkan pembilang kedua probabilitas bersyarat tersebut sama besar. Mari kita terapkan rumus baru tersebut untuk probabilitas bersyarat yang sebelumnya sudah kita peroleh nilainya. 38 2 P(As dan Merah) 52 2 = = P(As / Merah) = 26 26 P(Merah) 52 Sementara untuk 24 P(Hitam dan Bukan As) 52 24 P(Hitam / Bukan As) = = = 48 48 P(Bukan As) 52 Berdasarkan penjelasan di atas, secara umum suatu probabilitas bersyarat dapat ditentukan dengan formulasi sebagai berikut: P(A/B) = P(A dan B) dan P(B) P(B/A) = P(A dan B) P(A) Dari rumus probabilitas bersyarat inilah muncul aturan perkalian dalam probabilitas. Aturan ini diturunkan dengan memandang rumus probabilitas bersyarat dari probabilitas bersamanya. Dengan demikian dari kedua rumus di atas: P(A dan B) = P(B) x P(A/B) dan P(A dan B) = P(A) x P(B/A) Ka r e n a a t u r a n p e r k a l i a n i n i b e r l a k u u n t u k e v e n b e r s a ma (A d a n B) a t a u d a p a t d i n y a t a k a n s e b a g a i (A ∩ B), ma k a a t u r a n p e r k a l i a n p r o b a b i l i t a s j u g a b i a s a d i s e b u t s e b a g a i probabilitas kejadian interseksi. 3.3. Independensi Statistik Sebelumnya sudah dinyatakan bahwa probabilitas bersyarat hanya akan muncul pada even-even yang saat atau waktu terjadinya berbeda. P(B/A) adalah probabilitas kejadian B dengan syarat sebelumnya didahului kejadian A. Dengan demikian pada perkalian P(B) x P(A/B), suku pertama P(B) adalah probabilitas even B tanpa sebelumnya didahului oleh even A, tetapi suku kedua P(A/B) adalah probabilitas even A sesudah sebelumnya didahului oleh even B. Jadi pada P(A/B) even A terjadi berikutnya sesudah even A. Pada P(A/B) terdapat kemungkinan bahwa even A tidak dipengaruhi oleh even B yang terjadi sebelumnya. Jadi pada even A tersebut, apakah didahului atau tidak didahului even B, tidak berbeda. Untuk even A seperti ini nilai probabilitas bersyarat P(A/B) akan sama dengan P(A). Even A dengan demikian dikatakan independen dari even B. 39 Demikian pula pada perkalian P(A) x P(B/A), suku pertama P(A) adalah probabilitas even A tanpa sebelumnya didahului oleh even B, tetapi suku kedua P(B/A) adalah probabilitas even B sesudah sebelumnya didahului oleh even A. Jadi pada P(B/A) even B terjadi berikutnya sesudah even B. Pada P(B/A) ini terdapat kemungkinan bahwa even B tidak dipengaruhi oleh even A. Jadi pada even B tersebut, apakah didahului atau tidak didahului even A, tidak berbeda sehingga nilai P(B/A) tersebut akan sama dengan P(B). Even B dikatakan independen dari even A. Dua kejadian yang saling independen ini merupakan kasus khusus dalam aturan perkalian, sebagaimana kejadian saling lepas merupakan kasus khusus dari aturan penjumlahan. Agar senada dengan kejadian saling lepas, dua kejadian saling independen biasa juga disebut sebagai kejadian saling bebas. Aturan perkalian untuk probabilitas kejadian interseksi yang tadinya sebagai berikut: P(A dan B) = P(B) x P(A/B) dan P(A dan B) = P(A) x P(B/A) untuk kejadian saling bebas (independen) karena P(A/B) = P(A) dan P(B/A) = P(B) menjadi sebagai berikut: P(A dan B) = P(B) x P(A) = P(A) x P(B) Jika ditinjau dari arah sebaliknya, untuk menguji apakah dua kejadian saling bebas, dilakukan dengan menguji apakah P(A dan B) = P(A) x P(B). Jika sama, maka even A dengan B saling bebas. Jika berbeda berarti even A dengan B tidak saling bebas. Kejadian saling bebas dan tidak saling bebas dapat diilustrasikan dalam percobaan pengambilan kartu sebanyak misalkan dua kali. Misalkan P(A) adalah probabilitas terambilnya kartu As pada pengambilan pertama kali. Nilai P(A) dengan demikian adalah 4/52. Sementara P(B/A) adalah probabilitas terambilnya kartu As dengan syarat sebelumnya terambil kartu As dan tidak dikembalikan 1. Nilai P(B/A) dengan demikian adalah 3/52. Probabilitas kejadian interseksi untuk kedua kejadian ini adalah: P(A dan B) = P(A) x P(B/A) = 4 3 12 x = 52 51 2652 Namun jika P(B/A) adalah adalah probabilitas terambilnya kartu As dengan syarat sebelumnya terambil kartu As tetapi kartu As tersebut dikembalikan, maka nilai P(B/A) 1 Meskipun A dan B sama-sama merupakan kejadian terambilnya kartu As, karena B terjadi sesudah A, kejadian B tidak identik dengan A sehingga tidak dapat dinotasikan sama sebagai A. 40 sama dengan P(B) yang dalam hal ini sama dengan P(A) juga yaitu sebesar 4/52. Even A dan B merupakan kejadian saling bebas. Dengan demikian: P(A dan B) = P(A) x P(B) = 4 4 16 x = 52 52 2704 Pada percobaan pengambilan kartu, dua kejadian berturutan dapat menjadi saling bebas atau tidak saling bebas hanya dengan tindakan melakukan pengembalian atau tidak melakukan pengembalian dalam pelaksanaan percobaan. Tindakan melakukan pengembalian atau tidak melakukan pengembalian dalam percobaan dengan demikian menjadi suatu konsep yang penting karena akan membedakan hasil probabilitas kejadian interseksi. Secara umum dalam statistik tindakan ini dinamakan sebagai dengan atau tanpa pengembalian (with or without replacement). Pada percobaan-percobaan tertentu pengembalian tidak mungkin dilakukan, misalnya pada percobaan pelemparan koin atau dadu. Pada percobaan lain, pengaruh pengembalian dianggap tidak material, yaitu jika ruang sampel percobaan sedemikian banyak sehinga dikembalikan atau tidak dikembalikan dianggap tidak terlalu berpengaruh. 3.4. Teorema Bayes Teorema Bayes tidak lebih dari pernyataan lain probabilitas bersyarat dan aturan perkalian pada probabilitas kejadian interseksi. Untuk memahami teorema ini asumsikan bahwa 1% dari penduduk suatu kota mengidap suatu penyakit tertentu dan terhadap penduduk tersebut dipilih seseorang secara acak. Jika kita notasikan even memiliki penyakit sebagai A1 dan tidak memiliki penyakit sebagai A2, maka P(A1) probabilitas terpilih penduduk yang memiliki penyakit dan P(A2) yang tidak memiliki penyakit masing-masing adalah 0,01 dan 0,99. Kedua probabilitas ini (P[A1] dan P[A2]) dinamakan probabilitas awal (prior probability). Selanjutnya asumsikan bahwa suatu hasil penelitian menemukan alat uji untuk menentukan apakah seseorang mengidap penyakit tersebut atau tidak. Hasil pengujian alat tersebut, namun demikian, belum begitu akurat. Jika seseorang benar-benar mengidap penyakit tersebut, kemungkinan alat tersebut dapat mendeteksinya adalah sebesar 97%. Di lain pihak jika seseorang benar-benar tidak mengidap penyakit tersebut, alat tersebut mungkin masih akan mendeteksi yang bersangkutan sebagai mengidap penyakit dengan kemungkinan sebesar 5%. Probabilitas kedua even ini jika dinotasikan masing-masing adalah P(B/A1) = 0,97 dan P(B/A2) = 0,05 dimana even B menunjukkan alat mendeteksi seseorang sebagai memiliki penyakit. 41 Teorema Bayes memanfaatkan informasi tambahan untuk merevisi probabilitas awal. Jadi yang ingin ditentukan dengan teorema Bayes adalah setelah seorang penduduk terpilih dan alat menentukan orang tersebut memiliki penyakit, berapa probabilitas bahwa orang tersebut betul-betul mengidap penyakit. Probabilitas ini dinotasikan sebagai P(A1/B). Teorema Bayes juga dapat diterapkan dari arah lain, yaitu setelah seorang penduduk terpilih dan alat menentukan orang tersebut memiliki penyakit, berapa probabilitas bahwa orang tersebut tidak mengidap penyakit atau P(A2/B). Per definisi P(A1/B) = P(A1 dan B) / P(B) dan P(A2/B) = P(A2 dan B) / P(B). Namun masalah yang kita hadapi tidak memiliki baik informasi tentang P(A1 dan B) maupun P(B). Informasi yang kita ketahui tentang masalah tersebut adalah P(A1), P(A2), P(B/A1) serta P(B/A2). Suku-suku inilah yang harus masuk ke dalam formula penentuan P(A1/B) dan P(A2/B). Mari kita jabarkan lebih lanjut: P(A1/B) = P(A1 dan B) P(A1 dan B) P(A1 ) x P(B/A1 ) = = P(B) P(A1 dan B) + P(A 2 dan B) P(A1 ) x P(B/A1 ) + P(A 2 ) x P(B/A 2 ) dan P(A 2 /B) = P(A 2 dan B) P(A 2 dan B) P(A 2 ) x P(B/A 2 ) = = P(B) P(A1 dan B) + P(A 2 dan B) P(A1 ) x P(B/A1 ) + P(A 2 ) x P(B/A 2 ) Untuk permasalahan di atas: P(A1/B) = = 0,16 0,01x0,97 0,01x0,97 + 0,99 x0,05 dan P(A 2 /B) = 0,99 x0,05 = 0,84 0,01x0,97 + 0,99 x0,05 Jadi, probabilitas bahwa seseorang terpilih betul-betul mengidap penyakit setelah alat menentukan dia memiliki penyakit adalah 16%. Dengan demikian adanya informasi tambahan memberikan tambahan keyakinan bahwa seseorang benar memiliki penyakit, dari tadinya hanya 1% menjadi 16%. Sementara probabilitas bahwa seseorang terpilih betul-betul tidak mengidap penyakit setelah alat menentukan dia memiliki penyakit adalah 84% yang merupakan komplemen dari even sebelumnya (100%-16%). Kedua probabilitas hasil teorema Bayes ini dinamakan probabilitas akhir (posterior probability). Pemahaman atas perhitungan teorema Bayes akan lebih terbantu dengan melakukan analisis melalui tabel berikut: 42 Prob Inf Awal Tamb. P(Ai) Even Prob Bersama Probabilitas Akhir P(B/Ai) P(Ai) P(B/Ai) P(Ai/B) A1 Kena Penyakit 0,01 0,97 0,0097 0,0097/0,0592 = 0,16 A2 Tdk Kena Penyakit 0,99 0,05 0,0495 0,0495/0,0592 = 0,84 P(B) 0,0592 1,00 Dengan melakukan perhitungan-perhitungan terlebih dahulu melalui aturan perkalian, teorema Bayes juga dapat disajikan dalam tabel kontijensi biasa. Namun untuk itu, even B harus dibedakan antara B1 alat menentukan seseorang mengidap penyakit dan B2 alat menentukan seseorang tidak mengidap penyakit. Berikut perhitungan-perhitungannya: P(A1 dan B1) = P(A1) P(B1/A1) = 0,01 x 0,97 = 0,0097 P(A2 dan B1) = P(A2) P(B1/A2) = 0,99 x 0,05 = 0,0495 P(A1 dan B2) = P(A1) – P(A1 dan B1) = 0,01 – 0,0097 = 0,0003 P(A2 dan B2) = P(A2) – P(A2 dan B1) = 0,05 – 0,0495 = 0,005 B1 B2 Total A1 0,0097 0,0003 0,01 A2 0,0495 0,0005 0,05 Total 0,0592 0,0008 0,06 3.5. Latihan 1. Data dari Badan Koordinasi Pasar Modal terkait penanaman modal asing dari Jepang dan Inggris pada tiga industri spesifik adalah sebagai berikut: Negara Jerman (G) Jepang (J) Total Kimia (K) 19 8 27 Industri Elektronika (E) 13 6 19 Stationery (S) 2 2 4 Total 34 16 50 Jika dipilih satu perusahaan yang termasuk pada daftar di atas, hitunglah probabilitas bahwa perusahaan tersebut merupakan: a. Perusahaan stationery, dengan syarat dari Inggris. b. Baik perusahaan Jepang atau perusahaan stationery. b. Tentukan apakah asal negara perusahaan investor dengan bidang industri dimana perusahaan bergerak saling bebas! 43 2. Kejadian A dan B memiliki struktur probabilitas sebagai berikut: P (A dan B) = 1/6 P(A dan B’) = 2/9 P(A’ dan B) =1/3 a. b. c. Berapakah P(A’ dan B’)? Apakah A dan B merupakan even saling bebas? Apakah A dan B merupakan even saling lepas? 3. Suatu perusahaan mengadakan “tes bakat menjual” sebagai media untuk membantu memilih staf marketing bagi perusahaan. Pengalaman masa lalu menunjukkan bahwa hanya 65% dari seluruh pelamar untuk posisi marketing yang berhasil meraih klasifikasi “memuaskan” dalam penjualan aktual yang mereka lakukan, sisanya digolongkan “tidak memuaskan”. Dari mereka yang diklasifikasikan “memuaskan”, 80%-nya lulus “tes bakat menjual”. Hanya 30% dari mereka yang dinyatakan ”tidak memuaskan” yang lulus tes tersebut. Berdasarkan informasi tersebut, berapakah probabilitas bahwa seorang pelamar yang lulus tes akan dinyatakan memuaskan dalam penjualan aktual yang akan mereka lakukan. 4. Sebanyak 2 orang reviewer/pengulas (1,2) sebuah penerbit secara independen meninjau naskah yang diterimanya melalui pos. Setiap reviewer memberikan nilai Baik (B), Cukup (C) , atau Buruk (D) untuk naskah-naskah yang diterimanya. a. Deskripsikan ruang sampel dari hasil ulasan bersama atau joint review dari sebuah naskah b. Apakah ruang sampel bagian dari univariate atau bivariate? Jelaskan c. Hitunglah hasil dari kejadian/event (E) berikut: 1) E1 ∩ E2 2) E1 ⋃ E2 3) 4) 5. E’1 ∩ E2 E’1 ⋃ E’2 Sebuah alat untuk memeriksa pengelasan internal pada tong logam didesain untuk memberikan sinyal ketika logam yang diperiksa tersebut cacat. Distribusi peluang status logam dan respon alat pendeteksi tersebut adalah sebagai berikut: Status Logam Signal (B1) Alat Pendeteksi Tidak Ada Sinyal (B2) Total 44 Cacat (A1) 0,2 0,0 0,2 Tidak Cacat (A2) 0,1 0,7 0,8 0,3 0,7 1.0 Total a. Berikan simbol atau notasi untuk peluang: (1) logam yang cacat; (2) logam yang cacat dan alat pendeteksi memberi sinyal; (3) Alat pendeteksi memberi sinyal, diketahui bahwa logamnya cacat; (4) Logam cacat, diketahui bahwa alat pendeteksi memberikan sinyal b. J e l a s k a n ma k s u d d a r i p e l u a n g b e r i k u t : (1) P(A1 ∩ B2) ; (2) P(B1 | A2); P(B2) c. Berapakah peluang dari masing-masing soal a dan b. 4. Permutasi dan Kombinasi 4.1. Permutasi Pada bagian 2.2. sudah dijelaskan bagaimana cara koordinat dan diagram pohon dapat digunakan untuk memvisualisasikan ruang sampel dari percobaan yang menghasilkan kejadian bersama yang menjadi perhatian. Contoh yang dijelaskan pada bagian tersebut adalah ilustrasi dari suatu riset pasar yang menggolongkan perbedaan di antara konsumen menurut (1) kelompok pendapatan: tinggi, sedang, rendah dan (2) apakah mereka membeli atau tidak membeli produk selama satu bulan tertentu. Visualisasi penting untuk mengetahui elemen-elemen yang termasuk dalam ruang sampel. Namun jika yang ingin kita ketahui hanya informasi mengenai berapa jumlah elemen ruang sampel, cara visualisasi tentu saja sangat tidak efisien. Jumlah elemen ruang sampel pada percobaan tersebut dapat diperoleh dengan hanya mengalikan jumlah kemungkinan kelompok pendapatan (3 kemungkinan) dengan jumlah kemungkinan pembelian produk (2 kemungkinan) sehingga jumlah seluruh ruang sampelnya adalah 3x2=6 elemen ruang sampel (6 kemungkinan even bersama yang akan dihasilkan). Penentuan jumlah ruang sampel suatu percobaan dengan cara perkalian tersebut dikatakan menerapkan prinsip berhitung (counting principle) aturan perkalian (multiplication rule) 2. 2 Istilah aturan perkalian di sini diterapkan untuk prinsip berhitung, sehingga harus dibedakan dengan aturan perkalian pada probabilitas 45 Prinsip berhitung secara umum adalah cara menghitung jumlah seluruh cara penyusunan (elemen ruang sampel) yang mungkin dari n1 obyek untuk tempat pertama, n2 obyek untuk tempat kedua, dst. sampai dengan nk obyek untuk tempat ke-k. Jumlah seluruh cara penyusunan yang mungkin dapat diperoleh dari hasil perkalian antara n1, n2, ..., nk. Pada masalah riset pasar di atas, terdapat sebanyak 3 obyek untuk tempat pertama (pendapatan rendah, sedang, tinggi) dan 2 obyek untuk tempat kedua (membeli, tidak membeli), sehingga jumlah cara penyusunan yang mungkin adalah 3x2 =6 cara (elemen ruang sampel). Permutasi adalah kasus khusus dari penerapan prinsip berhitung. Permutasi sama-sama merupakan cara menghitung jumlah seluruh cara penyusunan yang mungkin dari obyekobyek untuk menempati tempat pertama, kedua, ketiga dst. dalam suatu susunan. Namun dalam permutasi obyek yang akan menempati tempat pertama, kedua, ketiga dst. dalam susunan tersebut, berasal dari set obyek yang sama, dan jika sudah digunakan pada satu tempat tidak dapat digunakan lagi di tempat yang lain. Contoh masalah permutasi misalnya adalah cara penyusunan yang mungkin dari empat orang A, B, C, dan D, untuk menempati susunan kursi pertama, kedua, ketiga dan keempat. Jumlah seluruh cara penyusunan yang mungkin untuk masalah ini dapat diperoleh dari hasil perkalian antara jumlah obyek yang dapat menempati kursi pertama yaitu 4 orang, dengan jumlah obyek yang dapat menempati kursi kedua yaitu 3 orang, dengan jumlah obyek yang dapat menempati kursi ketiga yaitu 2 orang, dan dengan jumlah obyek yang dapat menempati kursi keempat yaitu tinggal 1 orang, yaitu sebanyak 4x3x2x1=24 susunan yang mungkin. Kita dapat mendaftar ke-24 susunan tersebut dengan diagram pohon sebagai berikut: A B C D D C B D D B B C C B C D D C C A D D A D A C C D B A C D B D D A B C A B B A A D D A A B B A B C C B A C C A A B 46 C A B A Suatu permutasi atas 4 obyek tidak harus disusun ke 4 tempat, tapi dapat hanya ke misalnya 2 tempat saja. Permutasi ini dinamakan permutasi 4 obyek setiap dipilih 2 obyek dan dinotasikan sebagai 4P2. Jika disusun ke 4 tempat permutasinya adalah 4P4 dengan hasil sebagaimana sudah dihitung di atas adalah sebanyak 24 susunan. Sementara hasil dari 4P2 adalah sebanyak 4x3=12 susunan, yang dalam diagram pohon digambarkan sebagai berikut: A B B C D A C D C D A B D A B C Suatu permutasi dari n obyek dipilih setiap r obyek secara umum dapat diperoleh dengan: nPr = n! (n - r)! Jika r = n, maka permutasi menjadi nPn, yang merupakan kasus khusus dari nPr, dan diperoleh secara umum sebagai: nPn = n! n! = = n! (n - n)! 0! Rumus ini jika diterapkan pada dua kasus permutas di atas masing-masing adalah sebagai berikut: 4! 4! = = 4 x3 = 12 (4 - 2)! 2! 4 P2 = 4 P4 = 4!= 4 x3 x 2 x1 = 24 4.2. Kombinasi Pada contoh masalah permutasi dari empat orang A, B, C, dan D, untuk menempati susunan kursi pertama dan kedua (4P2), antara pasangan susunan AB dengan BA, BC dengan CB, AC dengan CA dan seterusnya, merupakan suatu susunan yang berbeda sehingga masingmasing dihitung satu susunan. Pada permasalahan pemilihan lain, misalnya pemilihan dua orang seperti di atas, dapat saja dilakukan tanpa memperhatikan urutan susunan yang 47 terpilih, sehingga antara pasangan susunan AB dengan BA, BC dengan CB, AC dengan CA dan seterusnya, merupakan suatu susunan yang tidak berbeda sehingga masing-masing pasangarn harus dihitung sebagai satu susunan. Permasalahan seperti ini tidak lagi disebut sebagai permutasi, tetapi merupakan contoh dari masalah kombinasi. Pada kasus di atas, permasalahan menjadi masalah kombinasi jika terhadap empat orang A, B, C, D dipilih dua orang, untuk misalnya bertemu dengan dosen statistik. Ketika masalah permutasi 4P2 menjadi kombinasi 4K2, maka jumlah susunan yang mungkin yang tadinya 12 susunan, berkurang menjadi setengahnya yaitu menjadi hanya 6 susunan, akibat dari tidak berbedanya setiap pasangan susunan AB dengan BA, BC dengan CB dan seterusnya. Secara umum hubungan antara kombinasi dengan permutasi dan formula untuk menentukan kombinasi adalah sebagai berikut: n! nPr (n - r)! n! = = nKr = r! r! (n - r)!r! Sebagai contoh untuk kasus 4K2 di atas diperoleh 6 susunan melalui perhitungan sebagai berikut: 4K2 = 4! 4 x3 = =6 (4 - 2)!2! 2! 4.3. Latihan 1. Nomor pemenang untuk lotre California Fantasy secara berurutan adalah 13,18, 22, 24, dan 32. Apakah penghitungan untuk kemenangan lotre menggunakan permutasi? Jelaskan! 2. Perusahaan Teknomill harus menunjuk presiden, Chief Executive Officer, Chief Operating Officer, dan Chief Financial Officer masing-masing satu orang. Selain itu, harus melakukan penunjukkan Komite Perencanaan dengan 4 anggota yang berbeda. Terdapat 12 kandidat yang memenuhi kualifikasi, dan officers dapat merangkap sebagai komite. a. Berapa banyak cara yang digunakan untuk menunjuk officers? b. Berapa banyak cara yang digunakan untuk menunjuk komite? c. Berapa peluang memilih anggota komite secara acak mendapatkan hasil 4 orang kandidat yang termuda dan memenuhi kualifikasi? 48 3. Dengan sisa waktu yang singkat dalam satu hari, pengemudi FedEx memiliki waktu untuk melakukan pengiriman di tiga lokasi di antara delapan lokasi yang tersisa. Berapa banyak rute berbeda yang mungkin? 4. Seorang penulis memiliki brankas tempat menyimpan ide tulisan untuk edisi buku selanjutnya. Kombinasi kunci brankas tersebut terdiri dari 4 angka antara 0 sampai 99 dan boleh berulang angkanya. Jika penulis lain berusaha masuk dan mencuri ide tulisan, berapa peluang penulis tersebut mendapatkan kombinasi yang tepat pada percobaan pertama? Asumsikan angka dipilih secara acak. Mengingat jumlah peluang, apakah percobaan membuka brankas dengan menebak angka secara acak dapat berhasil? 5. Sautu publikasi menyebutkan bahwa lotere Mega Millions dijalankan di 42 negara bagian di Amerika Seriakt. Memenangkan jackpot mengharuskan Peserta memilih lima angka yang tepat antara 1 dan 56 dan, dalam pengundian terpisah, Peserta juga harus memilih satu angka yang benar antara 1 dan 46. Temukan probabilitas memenangkan jackpot. 49 BAB IV VARIABEL ACAK 1. Pendahuluan Pada bab sebelumnya telah dibicarakan tentang probabilitas. Bab ini akan melanjutkan topik tentang probabilitas tersebut, khususnya dalam hal distribusi probabilitas dan variabel acak. Suatu distribusi probabilitas dapat bersifat umum –yaitu yang hasil-hasilnya berupa variabel kuantitatif maupun kualitatif– maupun yang bersifat khusus yang hasilnya hanya merupakan variabel kuantitatif. Hasil dari suatu percobaan acak yang merupakan variabel kuantitatif dinamakan variabel acak. Bab ini juga akan membahas distribusi probabilitas variabel acak. 2. Distribusi Probabilitas Dan Variabel Acak 2.1. Pengertian Distribusi Probabilitas Suatu pemerkiraan probabilitas harus menyajikan nilai probabilitas untuk setiap hasil dasar (elemen) dari ruang sampel. Nilai probabilitas ini harus merupakan angka antara 0 sampai 1, dan jumlahnya harus 1, karena salah satu dari elemen pasti akan muncul. Suatu distribusi probabilitas menunjukkan bagaimana probabilitas total sebesar 1 ini dialokasikan –dengan pemerkiraaan probabilitas– di antara hasil-hasil dasar dari ruang sampel. Hasil alokasi dengan demikian menunjukkan kesempatan relatif dari keterjadian setiap elemen dalam ruang sampel. Dalam kasus riset pasar pada bab sebelumnya yang membedakan konsumen menurut (1) kelompok pendapatan: tinggi, sedang, rendah dan (2) apakah mereka membeli atau tidak membeli produk selama satu bulan tertentu, tabel probabilitas bersama dari tabel kontijensi merupakan distribusi probabilitas. Pada tabel probabilitas tersebut, probabilitas diperkirakan berdasarkan frekuensi relatif di masa lampau. Dalam tabel probabilitas tersebut terlihat bahwa tidak ada nilai probabilitas yang kurang dari 0 dan jumlah seluruh probabilitas sama dengan 1. Pendapatan rendah (A1) Pendapatan sedang (A2) Pendapatan tinggi (A3) Total Membeli Produk (B1) 0,13 0,05 0,04 0,22 Tdk Membeli Produk (B2) 0,23 0,41 0,14 0,78 Total 0,36 0,46 0,18 1 50 2.2. Jenis-Jenis Distribusi Probabilitas Jenis-jenis distribusi probabilitas mengikuti jenis-jenis even. Karena suatu even dapat merupakan even sederhana atau even bersama, maka distribusi probabilitas pun bisa berupa distribusi probabilitas even-even sederhana maupun distribusi probabilitas even-even bersama. Distribusi probabilitas even sederhana biasa disebut sebagai distribusi probabilitas univariat (univariate probability distribution) karena distribusi tersebut didasarkan atas suatu ruang sampel univariat. Sementara distribusi probabilitas even bersama biasa disebut distribusi probabilitas bivariat (bivariate probability distribution) atau secara umum distribusi probabilitas multivariat (multivariate probability distribution). Distribusi probabilitas univariat untuk kasus di atas adalah distribusi probabilitas even sederhananya atau even marginalnya, yang dalam representasi tabular dan grafis sebagai berikut: P(x) x P(x A1 0,36 A2 0,46 A3 0,18 0,46 0,36 0,18 A1 A2 A3 x 2.3. Pengertian Variabel Acak Ketika hasil dari suatu percobaan acak bersifat kuantitatif (angka), kita mennyatakan hasil tersebut sebagai variabel acak. Sebagai contoh dalam percobaan pelemparan koin, hasil munculnya sisi angka atau gambar bukan merupakan variabel acak. Percobaan tesebut baru akan menghasilkan variabel acak jika yang menjadi perhatian dalam percobaan menjadi munculnya sisi gambar dalam misalnya dua kali pelemparan koin dengan variabel acaknya masing-masing 0, yang menunjukkan kuantitas 0 kali munculnya sisi gambar, 1 yang menunjukkan kuantitas 1 kali munculnya sisi gambar serta 2 yang menunjukkan kuantitas 2 kali munculnya sisi gambar. Pada percobaan pelemparan dadu dengan hasil keluarnya angka 1, 2, 3 sampai 6, meski angka tersebut tidak merepresentasi kuantitas, biasanya dianggap sebagai variabel acak juga karena hasilnya sudah berupa angka. Demikian pula jika yang menjadi perhatian dalam percobaan pelemparan dadu tersebut berganti misalnya menjadi munculnya angka 6 dalam dua kali pelemparan dadu. Variabel acaknya adalah 0, 1, atau 2. 51 Dalam variabel acak cukup berguna untuk membedakan secara notasional antara variabel acak itu sendiri dengan nilai yang mungkin dimiliki oleh variabel acak tersebut. Pada umumnya digunakan huruf besar, seperti X, untuk menunjuk kepada variabel acak dan huruf kecil yang bersesuaian, yaitu x pada contoh ini, untuk menunjuk nilai khusus yang dimiliki variabel acak. Pada contoh percobaan pelemparan dadu di atas, X menunjukkan variabel acak jumlah angka 6 yang muncul pada dua kali pelemparan dadu dan x menunjukkan jumlah aktual munculnya angka 6, yaitu dalam hal ini bisa 0, 1, atau 2. 2.4. Jenis-Jenis Variabel Acak Variabel acak diklasifikasikan antara variabel acak diskrit dengan variabel acak kontinyu. Variabel acak diskrit (discrete random variable) adalah variabel acak yang dapat memiliki hanya nilai yang berbeda pada suatu skala. Sebagai contoh, jumlah kemenangan tim sepakbola dalam 9 pertandingan merupakan variabel acak diskrit yang dapat memiliki 1 dari 10 nilai yang berbeda (0, 1, ..., 9) dan tidak ada nilai antaranya (pecahannya). Suatu variabel acak diskrit dapat memiliki nilai yang terbatas seperti pada contoh kemenangan tim sepakbola di atas, atau nilai yang tak terbatas. Sebagai contoh, variabel acak diskrit jumlah pelanggaran lalu lintas yang terjadi pada suatu kota besar selama periode satu tahun tertentu memiliki hasil yang tak terbatas (1, 2, 3, ..., tak terbatas). Variabel acak kontinyu (continuous random variable) adalah variabel acak yang dapat memiliki sebarang nilai dalam suatu continuum. Sebagai contoh, suhu dalam suatu ruangan dapat berupa sebarang nilai dalam continuum suhu, misalnya antara -40○ C dan 45○ C. Jika nilai variabel acak diskrit diperoleh melalui penghitungan, maka nilai variabel acak kontinyu diperoleh melalui pengukuran. Contoh variabel pengukuran lain yang sering diperlakukan sebagai variabel acak kontinyu adalah peghasilan keluarga, IQ, dan tinggi badan seseorang. 2.5. Karakteristik Distribusi Probabilitas Variabel Acak Suatu distribusi probabilitas variabel acak memiliki ciri-ciri sebagai berikut: 1. f(x) ≥ 0 untuk seluruh nilai real dari X; 2. ∑ f(x) = 1 x Ciri pertama menyatakan bahwa probabilitas lebih besar dari atau sama dengan nol. Ciri kedua menyatakan bahwa jumlah probabilitas dalam distribusi probabilitas sama dengan satu. 52 Ciri kedua dari distribusi probabilitas variabel acak menurunkan perhitungan yang dikenal sebagai distribusi probabilitas kumulatif (cumulative probability distribution) atau fungsi distribusi kumulatif (cumulative distribution function). Distribusi probabilitas kumulatif dinotasikan sebagai P(X ≤ c ) atau F(c). Nilai dari distribusi probabilitas kumulatif diperoleh dari hasil penjumlahan f(x) untuk seluruh nilai x yang kurang dari atau sama dengan c yang dinotasikan sebagai berikut: F(c) = P(X ≤ c ) = ∑ f ( x) x≤c Jika c sama dengan x yang paling maksimum dalam suatu variabel acak diskrit, maka: ∑ f ( x) =∑ f ( x) =1 yang merupakan ciri distribusi probabilitas variabel acak kedua di x≤c x atas. Distribusi probabilitas kumulatif untuk variabel acak diskrit sering pula disebut sebagai fungsi kumpulan probabilitas (probability mass function) atau fungsi kumpulan karena probabilitas dikumpulkan pada titik khusus sepanjang sumbu x. Sementara distribusi probabilitas variabel acak kontinyu biasa juga disebut sebagai fungsi kepadatan probabilitas (probability density functions) atau fungsi densitas. Contoh berikut akan menunjukkan bagaimana suatu perhitungan distribusi probabilitas kumulatif diterapkan. Asumsikan PT Sejahtera Makmur TV mempertimbangkan untuk mengakuisisi PT Visual Mandiri TV. Untuk menentukan harga yang harus dibayar PT Sejahtera Makmur TV, Anda selaku Direktur Keuangan menyusun distribusi probabilitas harga saham dari PT Visual Mandiri TV sebagai berikut: Harga Saham PT Visual Mandiri TV x 33.000 34.000 35.000 36.000 37.000 Probabilitas f(x) 0,10 0,25 0,50 0,10 0,05 Probabilitas Kumulatif F(x) 0,10 0,35 1 Berdasarkan data tersebut maka Anda dapat menentukan probabilitas misalnya harga saham akan mencapai Rp 33.000 atau kurang P(X≤ 33.000) = F(33.000) = 0,10; Rp 34.000 atau kurang P(X ≤ 34.000) = F(34.000) = 0,35 dan seterusnya bisa Anda tentukan sendiri. Sesudah diperhitungkan seluruhnya, distribusi probabilitas kumulatif dapat dibuat dalam bentuk grafik sebagaimana dapat dilihat pada gambar berikut. Grafik tersebut merupakan 53 fungsi tangga; yaitu bahwa nilai-nilainya berubah dalam tahap-tahap terputus pada nilai variabel acak X. 1,00 0,80 0,60 0,40 0,20 0,00 33.000 34.000 35.000 36.000 37.000 2.6. Jenis-Jenis Distribusi Probabilitas Variabel Acak Dalam jenis-jenis distribusi probabilitas disebutkan bahwa distribusi probabilitas even sederhana, biasa disebut sebagai distribusi probabilitas univariat (univariate probability distribution), sementara distribusi probabilitas even bersama, biasa disebut distribusi probabilitas bivariat (bivariate probability distribution). Ketika hasil dari suatu distribusi probabilitas bersifat kuantitatif, yaitu merupakan variabel acak, distribusi univariate dan bivariate berperan serupa seperti pada bukan variabel acak. Sebagai contoh distribusi probabilitas bivariat untuk dua variabel acak diskrit diilustrasikan pada tabel berikut. Jumlah Truk pada Divisi Perbaikan pada Malam Pertama 0 1 2 3 Total Jumlah Truk pada Divisi Perbaikan pada Malam Kedua 0 1 2 3 0,58 0,06 0,01 0,00 0,06 0,10 0,03 0,01 0,01 0,03 0,05 0,01 0,00 0,01 0,01 0,03 0,65 0,20 0,10 0,05 Total 0,65 0,20 0,10 0,05 1,00 54 Kedua variabel acak tersebut adalah jumlah truk pemadam kebakaran Dinas Kebakaran Pemda DKI Jakarta yang berada pada Divisi Perbaikan Kendaraan Pemda DKI dari 3 truk pemadam kebakaran yang ada pada dua malam berturutan. Distribusi probabilitas X menunjukkan jumlah truk yang yang berada pada pada Divisi Perbaikan Kendaraan pada malam pertama dan Y menunjukkan jumlah truk yang yang berada pada Divisi Perbaikan Kendaraan pada malam kedua. Hasil yang mungkin baik untuk X maupun Y adalah 0, 1, 2, dan 3. Notasi untuk menunjukkan probabilitas bersama (bivariat) untuk variabel acak diskrit mengikuti yang digunakan pada even yang telah dibahas pada bab probabilitas. Probabilitas bersama bahwa x truk berada pada Divisi Perbaikan Kendaraan pada malam pertama dan y truk berada pada Divisi Perbaikan Kendaraan pada malam kedua dinotasikan P(X = x dan Y = y) atau P(X = x ∩ Y = y ). Sebagai contoh dapat kita lihat pada tabel bahwa P(X = 1 ∩ Y = 2) = 0,03. Notasi untuk probabilitas marginal (yang merupakan probabilitas univariat) maupun probabilitas bersyarat juga mengikuti yang digunakan pada even yang telah dibahas pada bab probabilitas. Sebagai contoh untuk probabilitas 0 truk berada pada Divisi Perbaikan Kendaraan pada malam kedua, dengan syarat 1 truk berada pada Divisi Perbaikan Kendaraan pada malam pertama adalah: P(Y = 0 / X = 1) = P(X = 1 ∩ Y = 0) 0,06 = = 0,30 P(X = 1) 0,20 2.7. Latihan 1. Buktikan bahwa distribusi variabel acak X memiliki karakteristik distribusi probabilitas, jika diketahui bahwa: f(x) = x 2 + 2 untuk x = 1, 2, 3 20 2. Distribusi probabilitas X, untuk X adalah jumlah kapal yang tiba di suatu pelabuhan setiap hari, adalah: f(0) = 0,4; f(1) = 0,2; f(2) = 0,2; f(3) = 0,1. Tentukanlah distribusi probabilitas kumulatif dan gambarkanlah dalam grafik! 3. Tentukanlah k, sehingga persamaan-persamaan berikut merupakan fungsi probabilitas: a. kx2 untuk x = 0, 1, 2, 3 b. k untuk x = 1, 2, 3 x 55 4. Dalam setiap situasi dibawah ini, tentukan peristiwa mana saja yang merupakan variabel acak diskrit atau kontinyu dan jelaskan ruang sampelnya (yaitu himpunan hasil yang mungkin terjadi) a. Jumlah penumpang pada penerbangan yang sudah dijadwalkan berkapasitas 220 penumpang. b. Jumlah karyawan yang tidak hadir karena sakit dihari tertentu, jumlah karyawan yang dimiliki perusahaan sebanyak 200 karyawan. c. Berapa lama mesin menganggur selama delapan jam kerja. 5. Pelamar kerja. Distribusi dari probablitas X, banyaknya jumlah posisi yang dipegang oleh pelamar kerja sebelumnya adalah sebagai berikut: a. b. c. x: 0 1 2 3 4 P (x): 0,60 0,20 0,10 0,05 0,05 Interpretasikan setiap pernyataan berikut: (1) P(0), (2) P(X ⪯ 1), (3) P(1⪯ X⪯ 3). Cari probabilitas yang ada di part A Dengan menggunakan data yang ada di nomor 4. d. Buatlah grafik distribusi probablitas e. Buatlah grafik distribusi probabilitas kumulatif. Dari grafik ini, tentukan P(X ⪯ 3). Interpretasikan probabilitas ini. 3. Ukuran-Ukuran Karakteristik Variabel Acak 3.1. Nilai Harapan Variabel Acak Dalam permasalahan variabel acak, seringkali kita tertarik dengan mean hasil variabel acak dari beberapa percobaan. Sebagaimana pada himpunan data, mean variabel acak merupakan ukuran pemusatan variabel acak tersebut. Ukuran mean ini dinamakan nilai harapan dari variabel acak (expected value of random variable). Nilai harapan dari variabel acak diskrit X dinotasikan dengan E{X} dan didefinisikan sebagai: E{X} = ∑ xP( x) x Notasi E{ } dibaca sebagai “harapan dari.” Sebagai contoh, dengan menggunakan contoh akuisisi PT Sejahtera Makmur TV terhadap PT Visual Mandiri TV sebelumnya (bagian 2.4. buku ini) dapat ditentukan nilai harapan dari harga saham PT Visual Mandiri TV sebagai berikut: 56 E{X} = 33.000(0,1) + 34.000(0,25) + 35.000(0,5) +36.000(0,1) + 37.000(0,05) = 34.750 Hitungan nilai harapan ini dapat pula dituangkan dalam suatu daftar yang memperagakan tiga langkah perhitungan manual atau penyajian di software spreadsheet komputer (formula yang dimasukkan di software spreadsheet tidak dicantumkan) sebagai berikut: (1) X 33.000 34.000 35.000 36.000 37.000 (2) P(x) 0,10 0,25 0,50 0,10 0,05 E{X} (3) x.P(x) 3300 8500 17500 3600 1850 34750 Contoh lain, misalkan seorang analis kesehatan memperoleh distribusi probabilitas X jumlah kunjungan bulanan keluarga-keluarga pada suatu Puskesmas di suatu kecamatan sebagai berikut. P(x) x 0,37 0 0,40 1 0,15 2 0,03 3 Berdasarkan distribusi tersebut maka nilai harapan X adalah: E{X} = 0(0,37) + 1(0,40) + 2(0,15) + 3(0,03) = 0,97 kunjungan per keluarga. Nilai harapan X sesungguhnya merupakan mean tertimbang untuk hasil yang mungkin dengan nilai probabilitas sebagai timbangan (bobot)-nya. Terdapat cara lain untuk memahami E{X} ini. Dalam contoh kunjungan ke Puskesmas di atas dengan nilai harapan X = 0,97 per keluarga, kita dapat mengasumsikan bahwa jika percobaan acak jumlah kunjungan keluarga ke Puskesmas dilakukan berulang-ulang secara saling bebas dalam jumlah yang cukup banyak, sehingga diperoleh frekuensi relatif 0 kunjungan = 37%, 1 kunjungan = 40% dan seterusnya, mean hasil dari percobaan secara saling bebas tersebut adalah sekitar E{X} = 0,97 kunjungan per keluarga. Seperti pada ukuran-ukuran mean lain, E{X} dapat merupakan angka yang tidak bersesuaian dengan hasil-hasil yang mungkin. Pada contoh di atas kunjungan keluarga sebesar 0,97 bukan merupakan contoh hasil yang mungkin. 57 3.2. Varians Dan Deviasi Standar Variabel Acak Hasil dari suatu variabel acak bervariasi dari satu percobaan ke percobaan lainnya. Oleh karena itu, sebagaimana juga pada himpunan data yang memerlukan baik ukuran pemusatan maupun ukuran dispersi, atas variabel acak berguna pula untuk diketahui ukuran dispersinya melalui varians dan deviasi standar selain ukuran pemusatan melalui nilai harapan. Varians dari suatu variabel acak diskrit X dinotasikan dengan σ2{X} dan didefinisikan sebagai berikut. σ 2{ X } = ∑ ( x − E{ X }) 2 P( x) x Notasi σ2{X} berarti ”varians dari.” Pada contoh akuisisi PT Sejahtera Makmur TV terhadap PT Visual Mandiri TV sebelumnya dapat ditentukan varians dari harga saham PT Visual Mandiri TV sebagai berikut: σ2{X} = (33000-34750)2(0,10) + (34000-34750)2(0,25) + (35000-34750)2(0,50) + (36000-34750)2(0,10) + (37000-34750)2(0,05) = 887.500 Seperti hitungan nilai harapan, hitungan varians dapat pula dituangkan dalam suatu daftar yang memperagakan empat langkah untuk perhitungan manual atau penyajian di software spreadsheet komputer, yang melanjutkan hitungan nilai harapan sebelumnya, sebagai berikut: (1) x 33.000 34.000 35.000 36.000 37.000 (2) P(x) 0,10 0,25 0,50 0,10 0,05 E{X} (3) x.P(x) 3300 8500 17500 3600 1850 34750 (4) (x-E{X})2.P(x) 306.250 140.625 31.250 156.250 253.125 887.500 Varians σ2{X} diekspresikan dengan satuan kuadrat dari X. Jika kita ambil nilai akar kuadrat dari σ2{X}maka kita mengembalikan satuan ukuran dispersi ke satuan asal X dan diperoleh deviasi standar X. Pada contoh akuisisi PT Sejahtera Makmur TV terhadap PT Visual Mandiri TV sebelumnya dapat ditentukan deviasi standar dari harga saham PT Visual Mandiri TV sebagai 58 σ{X} = σ 2 ( X ) = 887500 = 942,0722 3.3. Fungsi Variabel Acak Seringkali kita menemukan varabel acak yang merupakan fungsi dari variabel acak yang lain. Pada bagian ini akan dibahas dua jenis fungsi yang sering muncul dalam penerapan, yaitu variabel acak yang merupakan fungsi linear variabel acak lain serta variabel acak yang merupakan penjumlahan atau selisih dari variabel acak lain. 3.3.1. Nilai Harapan Fungsi Linear Variabel acak W merupakan fungsi linear dari variabel acak X dinotasikan sebagai W = a + bX, untuk a dan b merupakan konstanta. Sebagai contoh, asumsikan X adalah jumlah panggilan telepon premium dan W adalah pendapatan harian dari panggilan telepon premium tersebut dari suatu penyedia jasa layanan telepon premium. Jika biaya telepon premium adalah Rp 2500 per panggilan maka W = 2500X. Dalam hal ini a = 0 dan b = 2500. Jika jumlah panggilan dalam satu hari, misal adalah 3 panggilan telepon, maka pendapatan pada hari tersebut adalah w = 2500(3) = Rp7500. Untuk contoh tersebut misalkan diketahui distribusi probabilitas jumlah panggilan telepon premium X sebagai berikut: x P(x) 0 0,2 1 0,4 2 0,3 3 0,1 Karena biaya setiap panggilan adalah Rp2500, maka distribusi probabilitas untuk pendapatan harian dari panggilan telepon premium tersebut (W) harus bersesuaian dengan jumlah panggilan X, yaitu sebagai berikut: w P(w) 0 0,2 2500 0,4 5000 0,3 7500 0,1 Dari distribusi probabilitas W ini dapat kita peroleh nilai harapan E{W}, yaitu: E{W} = 0(0,2) + 2500(0,4) + 5000(0,3) + 7500(0,1) = Rp3.250. yang dapat kita peroleh dalam hitungan dalam bentuk tabel untuk memudahkan perhitungan manual atau penyajian di software spreadsheet sebagai berikut: w P(w) w.P(w) 0 0,2 - 2500 0,4 1.000 5000 0,3 1.500 7500 0,1 750 E{W} 3.250 59 Jika nilai harapan dari X sudah diketahui, untuk memperoleh nilai harapan W tidak diperlukan lagi menentukan distribusi probabilitas W terlebih dahulu. Hubungan berikut dapat langsung digunakan: E{a + bX} = a + bE{X} Karena W = a + bX, hubungan ini menyatakan bahwa E{W} adalah fungsi linear yang sama dari E{X} sebagaimana W merupakan fungsi linear dari X. Dengan demikian pada contoh panggilan telepon di atas karena E{X} = 1,3, maka dengan menggunakan hubungan di atas kita peroleh: E{W} = 2500 (1,3) = Rp3.250. Kita dapat mengecek kedua hasil perhitungan tersebut dengan bantuan tabel untuk perhitungan manual atau penyajian di software spreadsheet, sebagai berikut: Untuk E{X} x P(x) X.P(x) 0,20 - 1 0,40 0,40 2 0,30 0,60 3 0,10 0,30 1,30 0,20 - 2.500 0,40 1.000 5.000 0,30 1.500 7.500 0,10 750 3.250 Untuk E{W} w P(w) w.P(w) Contoh lain misalkan X menunjukkan tingkat produksi dari suatu pabrik dalam satu hari dan W menunjukkan biaya total produksi dalam satu hari. Dari pengalaman diketahui bahwa W = 20000 + 400X untuk a = Rp20000 adalah biaya tetap set-up produksi dan b = Rp400 adalah biaya perunit produksi. Jika diketahui E{X} = 50, maka nilai harapan biaya total produksi dalam satu hari dapat diperoleh sebagai berikut. E{W} = 20000 + 400(50) = Rp40000. 3.3.2. Varians Fungsi Linear Untuk memperoleh varians W, kita dapat kembali menggunakan distribusi probabilitas W yang diturunkan dari distribusi probabilitas X dan menerapkan rumus varians terhadap distribusi tersebut. Alternatif lainnya, jika nilai varians X sudah diketahui, 60 sebagaimana juga pada nilai harapan kita dapat memperoleh nilai varians secara langsung melalui hubungan berikut: σ2{a + bX} = b2σ2{X} Berdasarkan hubungan tersebut maka untuk contoh panggilan telepon premium di atas, jika varians X diketahui sebesar 0,81, maka varians W dapat kita tentukan sebagai berikut: σ2{W} = 25002 (0,81) = 5.062.500. Untuk mengecek kedua hasil perhitungan tersebut dengan melanjutkan tabel di atas adalah sebagai berikut: Untuk E{X} x P(x) X.P(x) (x-E{x})2.P(x) 0,20 0,34 1 0,40 0,40 0,04 2 0,30 0,60 0,15 3 0,10 0,30 0,29 1,30 0,81 0,20 2.112.500 2.500 0,40 1.000 225.000 5.000 0,30 1.500 918.750 7.500 0,10 750 1.806.250 3.250 5.062.500 Untuk E{W} w P(w) w.P(w) (w-E{w})2.P(w) Sementara untuk contoh tingkat produksi pabrik di atas, jika diketahui σ2{X} = 300, maka varians untuk W = 20000 + 400X adalah sebagai berikut: σ2{W} = 4002(300) = 160.300. 3.3.3. Nilai Harapan dan Varians Fungsi Penjumlahan dan Selisih Berikut tiga ilustrasi untuk menjelaskan fungsi penjumlahan dan selisih dari variabelvariabel acak yang bersifat saling bebas (independen). Ketiga ilustrasi ini akan digunakan untuk menjelaskan cara menentukan nilai harapan dan varians untuk fungsi penjumlahan dan selisih tersebut baik dengan cara tidak langsung dengan menurunkan dari distribusi asalnya maupun dengan cara langsung. 1. Misalkan X menunjukkan jumlah bonus yang diterima oleh petugas penjualan Ahmad dan Y menunjukkan jumlah bonus yang diterima oleh petugas penjualan Budi. Maka T = X + Y menunjukkan total bonus yang diterima kedua petugas penjualan tersebut. 2. Misalkan X menunjukkan jumlah respon terhadap iklan penjualan di kota Bandung dan Y menunjukkan jumlah respon terhadap iklan penjualan di kota Jakarta. Maka T = X + Y menunjukkan total jumlah respon terhadap iklan penjualan di kedua kota tersebut. 61 3. Misalkan X menunjukkan pendapatan penjualan kuartalan dan Y menunjukkan biaya langsung kuartalan. Maka W = X – Y menunjukkan laba kotor kuartalan. Distribusi probabilitas dari jumlah atau selisih dari dua variabel acak dapat diperoleh dengan menurunkannya dari distribusi probabilitas masing-masing variabel acaknya. Misalkan untuk contoh 1 di atas diketahui distribusi probabilitas X dan Y masing-masing adalah sebagai berikut: Bonus x P(x) 0 0,6 500.000 0,4 Bonus y P(y) 0 0,6 500.000 0,4 Karena X dan Y merupakan variabel acak yang saling bebas, maka distribusi probabilitas bersama X dan Y adalah: x 0 0,36 0,24 0,6 0 500 Total y 500 0,24 0,16 0,4 Total 0,6 0,4 1,0 dimana probabilitas bersama P(X = 0 ∩ Y = 0) = P(X=0) P(Y=0) = 0,6 (0,6) = 0,36, dst. Kita sekarang dapat memperoleh distribusi probabilitas untuk total bonus, T = X + Y, yaitu sebagai berikut: Total Bonus t P(t) 0 0,36 500.000 0,48 1000.000 0,16 Setelah distribusi probabilitas total bonus diketahui, maka nilai harapan dan varians dari fungsi penjumlahan tersebut dapat diperoleh dengan cara biasa, yaitu sebagai berikut: E{T} = 0(0,36) + 500.000(0,48) + 1000.000(0,16) = Rp400.000. σ2{T} = (0 – 400.000)2(0,36)+(500.000-400.000)2(0,48)+(1000.000 – 400.000)2(0,16) = 120.000.000.000 atau dalam bentuk tabel untuk perhitungan manual atau penyajian di software spreadsheet sebagai berikut: Total Bonus t P(t) t.P(t) (t-E{t})2.P(t) 0,36 57.600.000.000 500.000 0,48 240.000 4.800.000.000 1.000.000 0,16 160.000 400.000 57.600.000.000 120.000.000.000 Cara menentukan nilai harapan dan varians melalui distribusi probabilitas fungsi penjumlahan seperti di atas merupakan cara tidak langsung. Jika nilai harapan dan varians kedua variabel acak asal sudah diketahui, maka kita dapat memperoleh nilai harapan dan 62 varians fungsi penjumlahan dan selisih dengan cara langsung, yaitu dengan memanfaatkan hubungan sebagai berikut: Untuk fungsi penjumlahan Nilai harapan E{X + Y} = E{X} + E{Y} Varians σ2{X + Y} = σ2{X} + σ2{Y} Untuk fungsi selisih Nilai harapan E{X - Y} = E{X} - E{Y} Varians σ2{X - Y} = σ2{X} + σ2{Y} Dengan demikian nilai harapan (atau varians) dari penjumlahan dua variabel acak saling bebas dapat diperoleh dengan mudah dari penjumlahan nilai harapan (atau varians) dari setiap kedua variabel acak tersebut. Demikian pula nilai harapan (atau varians) dari selisih dua variabel acak saling bebas dapat diperoleh dengan mudah dari selisih nilai harapan (atau penjumlahan varians) dari setiap kedua variabel acak tersebut. Penerapan cara langsung untuk ketiga contoh di atas adalah sebagai berikut: 1. Pada contoh bonus penjualan dapat diketahui bahwa E{X} = E{Y} = 200.000 dan σ2{X} = σ2{Y} = 60.000.000.000 yang dapat kita peroleh dari daftar untuk perhitungan manual atau penyajian di software spreadsheet sebagai berikut: Bonus x 0 500.000,00 P(x) 0,60 0,40 x.P(x) - 200.000,00 24 x 109 36 x 109 x-E{x}.P(x) Bonus y 0 500.000,00 P(y) 0,60 0,40 200.000,00 y.P(y) - 200.000,00 200.000,00 60 x 109 y-E{y}.P(y) 24 x 109 36 x 109 60 x 109 Dengan menggunakan hubungan di atas untuk fungsi penjumlahan total bonus T = X + Y dapat diperoleh: E{T} = 200.000 + 200.000 = Rp 400.000. σ2{T}= 60 x 109 + 60 x 109 = 120.000.000.000 yang kedua-duanya sama dengan yang telah diperoleh dengan cara tidak langsung. 2. Pada contoh jumlah respon atas iklan, jika diketahui bahwa E{X} = 40, E{Y} = 70, σ2{X}= 15, σ2{Y}= 10, dan X dan Y saling bebas, maka untuk total jumlah respon R = X + Y, dapat diperoleh: E{R} = 40 + 70 = 110 respon. σ2{R}= 15 + 10 = 25 Deviasi standar R adalah σ{R} = 25 = 5 63 3. Pada contoh laba kotor, jika diketahui bahwa E{X} = Rp10.000.000, E{Y} = 7.000.000, σ2{X}= 800.000.000, σ2{Y}= 400.000.000, dan X dan Y saling bebas, maka untuk laba kotor W = X – Y, dapat diperoleh: E{W} = 10.000.000 – 7.000.000 = Rp 3.000.000. σ2{R}= 800.000.000 + 400.000.000 = 1.200.000.000. Deviasi standar W adalah σ{W} = 1.200.000.000 = Rp34.641 3.4. Kovarians Dan Korelasi Dalam permasalahan-permasalahan statistik kita sering tertarik pada sejauhmana dua variabel acak saling berhubungan secara linear satu sama lain. Terdapat dua ukuran yang biasa digunakan untuk mengetahui tingkat asosiasi dari suatu pasangan variabel acak, yaitu kovarians (covariance) dan koefisien korelasi (coefficient of correlation). Untuk memahami pengertian kovarians harus diawali dengan memahami pengertian kovariasi (covariation). Kovariasi untuk hasil X dan Y dari suatu percobaan didefinisikan sebagai berikut: Covariasi = (x – E{X})(y – E{Y}) Kovarians di sisi lain adalah nilai harapan dari kovariasi dari dua variabel acak – atau mean kovariasi dari percobaan-percobaan berulang. Dengan demikian kovarians yang dinotasikan sebagai σ{X, Y}(σ huruf Yunani, dibaca: sigma) dapat didefinisikan sebagai berikut: σ{X, Y} = ∑∑ ( x − E{ X })( y − E{Y }) P ( x, y ) x y dimana notasi σ{ } berarti ”kovarians dari” dan P(x, y) adalah probabilitas bersama P(X = x ∩ Y = y). Sebagai contoh asumsikan variabel acak X dan Y memiliki distribusi probabilitas bersama sebagai berikut: x 5 0,3 0,1 0,4 10 30 Total y 10 0,2 0,4 0,6 Total 0,5 0,5 1,0 Perhitungan kovarians atas distribusi di atas melalui daftar untuk perhitungan manual atau untuk software spreadsheet komputer (formula di spreadsheet tidak ditunjukkan) adalah sebagai berikut: X P(x) x.P(x) Y P(y) y.P(y) 64 10 0,5 5 5 0,4 2 30 0,5 15 10 0,6 6 E{X} 20 E{Y} 8 X Y P(x,y) x-E{X} y-E{Y} Kovariasi 10 10 30 30 5 10 5 10 0,3 0,2 0,1 0,4 (10) (10) 10 10 (3) 2 (3) 2 30 (20) (30) 20 σ{X, Y} Kovariasi Tertimbang 9,0 (4,0) (3,0) 8,0 10,0 Besarnya nilai ukuran kovarians σ{X, Y} (pada contoh di atas 10,0) pada umumnya tidak cukup berarti karena tergantung kepada satuan ukuran X dan Y dan akan berubah ketika satuan ukuran X dan Y berubah. Oleh karena itu informasi utama yang diberikan oleh suatu ukuran kovarians tentang asosiasi antara X dan Y adalah apakah σ{X, Y} positif, negatif atau nol. Namun terdapat salah satu sifat utama kovarians, yaitu: Ketika X dan Y saling bebas maka σ{X, Y} = 0. Sifat ini tidak berlaku sebaliknya. Mungkin saja suatu hubungan antara dua variabel acak dengan ukuran kovarians σ{X, Y} = 0, kedua variabel acaknya tidak saling bebas. Akibat besarnya ukuran kovarians σ{X, Y}tergantung kepada satuan ukuran X dan Y, ukuran kovarians tidak dapat digunakan untuk membandingkan tingkat asosiasi antar pasangan-pasangan variabel acak yang berbeda. Kelemahan tersebut diperbaiki dengan ukuran koefisien korelasi yang bersifat bebas satuan sehingga nilai-nilainya dapat saling diperbandingkan. Koefisien korelasi dari dua variabel acak X dan Y dinotasikan ρ{X, Y} (ρ huruf Yunani, dibaca: rho) dan didefinisikan sebagai: ρ ( X ,Y ) = σ {X ,Y } σ { X }σ {Y } untuk: σ{X} dan σ{Y}masing-masing deviasi standar X dan Y dan σ{X, Y} kovarians dari X dan Y. Perhatikan bahwa ρ{X, Y} dan σ{X, Y} akan dan harus selalu bertanda sama, karena deviasi standar pada penyebut formula korelasi di atas selalu bernilai positif. Untuk menentukan berapa nilai koefisien korelasi untuk contoh variabel acak X dan Y di atas, terlebih dahulu harus dicari nilai deviasi standar X dan Y, sebagai berikut (melanjutkan dari tabel sebelumnya dengan kedudukan kolom dan baris dibalik): x 10 30 y 5 10 65 P(x) x.P(x) (x-E{x})2P(x) 0,5 5,0 50 0,5 15,0 50 P(y) y.P(y) (x-E{x})2P(x) 20 100 0,4 2,0 3,6 0,6 6,0 2,4 8 6 Karena σ2{X} = 100 dan σ2{Y} = 6 maka σ{X} = √100 = 10 dan σ{Y} = √6 = 2,449 sehingga: ρ ( X ,Y ) = σ {X ,Y } 10 = = 0,41 σ { X }σ {Y } 10(2,449) Nilai koefisien korelasi akan berkisar antara -1 ≤ ρ{X, Y} ≤ 1. Koefisien korelasi -1 akan terjadi jika Y merupakan fungsi linear negatif dari X, atau jika Y = a + bX dan b bernilai negatif. Koefisien korelasi 1 terjadi jika Y merupakan fungsi linear positif dari X, atau jika Y = a + bX dan b bernilai postitif. Semakin dekat suatu nilai koefisien korelasi dengan -1 atau 1 menunjukkan bahwa asosiasi antara X dan Y semakin kuat. Ukuran kovarians dapat digunakan dalam menentukan varians dari fungsi penjumlahan dan selisih antara dua variabel acak yang tidak bersifat saling bebas (saling dependen). Jika dua variabel acak tidak saling bebas, maka untuk menentukan varians jumlah dan selisihnya akan mengandung suku kovarians, yaitu: σ2{X + Y} = σ2{X} + σ2{Y} + 2σ{X, Y} σ2{X – Y} = σ2{X} + σ2{Y} – 2σ{X, Y} 3.5. Latihan 1. Distribusi probabilitas X, yaitu jumlah jabatan yang sebelumnya dipegang oleh para pelamar untuk menjadi widyaiswara Departemen Keuangan adalah sebagai berikut: x 0 1 2 3 4 P(x) 0,60 0,20 0,10 0,05 0,05 x.P(x) E{X} s2 a. Tentukanlah: 1) P(0) 2) P(X ≤ 1) 3) P(1 ≤ x ≤ 3) b. Hitunglah E{X}dan interpretasikan hasilnya dengan pendekatan frekuensi relatif! c. Hitunglah varians dan deviasi standar distribusi probabilitas X! 2. Distribusi probabilitas X, yaitu jumlah pengunjung pesta yang diadakan sebuah restoran, adalah sebagai berikut: 66 x 1 2 3 4 5 6 P(x) 0,05 0,15 0,25 0,40 0,10 0,05 Restoran menetapkan biaya sebesar Rp 95.000 perorang. Asumsikan Y menunjukkan total biaya penyelenggaraan pesta tersebut: a. Tentukan E{X} dan σ{X}, lalu gunakan nilai tersebut untuk menentukan E{Y} dan σ{Y}! b. Verifikasikan hasil a dengan menentukan terlebih dahulu distribusi probabilitas Y! 3. Distribusi probabilitas dari X, yaitu jumlah penumpang pesawat dari Jakarta ke Makasar setiap hari yang transit di Surabaya pada hari Senin, dan X2 jumlah penumpang pesawat dari Jakarta ke Makasar setiap hari yang transit di Surabaya pada hari Selasa, adalah identik sebagai berikut: x 1 2 3 4 P(x) 0,10 0,20 0,3 0,4 a. Susunlah distribusi probabilitas bivariat untuk X1 dan X2! b. Tentukan probabilitas 1) P(X1 = 2 ∩ X2 = 1) 2) P(X2 = 4 | X1 = 2) 3) P(X2 = 4) dan 4) P(X1 ≤ 1 ∩ X2 ≤ 1) c. Jika T = X1 + X2 , menunjukkan jumlah total penumpang dalam dua hari yang transit di Surabaya, tentukan E{T} dan σ{T} serta verifikasikan hasilnya dengan menghitungnya dari distribusi probabilitas X1 dan X2! 4. Distribusi probabilitas dari X, yaitu jumlah filter keramik yang rusak dalam tiga pengiriman sebagai berikut: x 0 1 2 3 P(x) 0,90 0,02 0,02 0,06 Diberikan keterangan notasi untuk probabilitas pada (1) semua filter dalam pengiriman rusak, (2) beberapa filter dalam pengiriman rusak, (3) kurang dari tiga filter dalam pengiriman rusak. Dapatkan masing-masing probabilitas ini. a. Dapatkan P(0 < X< 3). Tafsirkan kemungkinan ini. b. Dua hasil yang paling mungkin untuk X adalah nol dan tiga filter rusak. Apa pertimbangan praktis dalam pengiriman filter keramik yang dapat menjelaskan fakta ini? c. Buatlah grafik distribusi probabilitas! 67 d. Buatlah grafik distribusi probabilitas kumulatif. Dari grafik ini, carilah peluang rusaknya dua atau lebih sedikit filter dalam pengiriman! 5. Sindikasi penjamin emisi akan mengasuransikan anjungan produksi gas lepas pantai selama satu tahun. Potensi kerugian sindikasi dari X (dalam $ juta) memiliki distribusi probabilitas sebagai berikut: x 0 20 150 P(x) 0,990 0,009 0,001 a. Berapa perkiraan kerugian sindikasi? Berapa probabilitas kerugian sindikat yang sebenarnya akan lebih kecil dari kerugian yang diharapkan? b. Manajer risiko perusahaan yang memiliki platform telah menyarankan bahwa $300.000 akan menjadi premi yang adil untuk dikenakan biaya oleh sindikasi karena menanggung potensi kerugian berdasarkan kontrak asuransi. Apa kamu setuju? c. Hitung varians dan standar deviasi dari distribusi probabilitas. Dalam satuan apa standar deviasi dinyatakan? d. Manakah dari tiga hasil yang mungkin dari X yang paling berkontribusi pada besarnya varians di bagian c? 6. Ketika kabel suspensi 200 meter putus, kemungkinan besar putusnya terjadi di titik manapun sepanjang kabel tersebut. Anggaplah X menunjukkan jarak dari satu ujung kabel ke kabel dengan kondisi putus; maka X memiliki fungsi kerapatan probabilitas: a. Buatlah grafik fungsi kerapatan probabilitas dari X. Apakah luas di bawah fungsi kerapatan sama dengan 1? b. Gunakan sifat geometris f(x) untuk memperoleh probabilitas berikut: (1) P(X ≤ 100), (2) P(X >50), (3) P(50 ≤ X ≤ 100). c. Dapatkan fungsi probabilitas kumulatif untuk X dan buat grafiknya. d. Dari grafik di bagian c. Dapatkan nilai (1) F(80), (2) F(150). Tafsirkan arti dari nilai-nilai tersebut.. 7. Variable Acak. Tabel dibawah menunjukkan probabilitas untuk jumlah bayi perempuan pada tiga kelahiran yang berbeda. Berapa variable acaknya? Jumlah Bayi Perempuan (x) P(x) 0 0.125 68 1 0.375 2 0.375 3 0.125 8. Dalam sebuah survey yang disponsori oleh Coca-Cola, subjek dengan umur 15-65 tahun ditanya apa yang paling berkontribusi pada kebahagiaan mereka. Tabel di bawah berisi tanggapan mereka. Berdasarkan hasil survei tersebut, apakah ada distribusi probabilitas? jika ada, carilah rata-rata dan standar deviasinya. P(x) Keluarga/pasangan 0.77 Teman 0.15 Pekerjaan/sekolah 0.08 Bersantai 0.08 Musik 0.06 Olahraga 0.04 9. Dalam permainan Texas Pick 3, anda bertaruh $1 dengan memilih tiga digit angka, masing-masing antara 0-9. Jika angka yang sama ditarik dalam urutan yang sama, maka Anda menang dan mendapat $500. a. Berapa banyak peluang perbedaan yang mungkin terjadi? b. Berapa probabilitas untuk menang? c. Jika menang, berapa laba bersih yang akan dihasilkan? d. Temukan nilai yang diharapkan. 69 BAB V DISTRIBUSI PROBABILITAS UMUM 1. Pendahuluan Pada modul sebelumnya telah dibicarakan tentang probabilitas, variabel acak dan distribusi probabilitas. Modul ini akan melanjutkan topik tentang distribusi probabilitas. Pada banyak situasi sangat berguna untuk merepresentasi ditribusi probabilitas variabel acak dengan ekspresi aljabar umum. Perhitungan probabilitas dengan demikian dapat dengan mudah dilakukan dengan mensubstitusi nilai yang sesuai ke dalam model aljabar yang telah dirumuskan. Model aljabar dalam ekspresi matematis ini merupakan ringkasan kompak dari proses yang menghasilkan distribusi probabilitas. Distribusi probabilitas dalam model aljabar yang umum dapat dibagi antara yang dibentuk oleh variabel acak diskrit dengan yang dibentuk oleh variabel acak kontinyu. 2. Distribusi Probabilitas Variabel Acak Diskrit 2.1. Distribusi Seragam Diskrit Terkadang probabilitas sama besar diberikan kepada seluruh nilai yang mungkin yang dapat dimiliki suatu variabel acak. Distribusi probabilitas semacam ini dinamakan distribusi seragam. Sebagai contoh sebuah dadu yang dilemparkan satu kali, probabilitas bahwa dadu akan menunjukkan salah satu permukaan angka yang mungkin adalah 1/6. Fungsi probabilitas kasus ini dengan demikian dapat ditulis sebagai: f(x) = 1 untuk x = 1, 2, 3, 4, 5, 6. 6 Contoh lain misalkan, PT Energi Uap Indonesia memerlukan waktu dua tahun untuk membangun fasilitas listrik tenaga uap dari uap geothermal. Dalam merencanakan strategi produksinya perusahaan menyimpulkan bahwa terdapat kemungkinan yang sama besar bahwa besar permintaan atas listrik tenaga uap pada dua tahun yang akan datang adalah masing-masing sebesar 80.000, 90.000, 100.000, 110.000 dan 120.000. Dengan demikian distribusi probabilitas yang dirumuskan PT Energi Uap Indonesia untuk permintaan energi uap 2 tahun yang akan datang adalah: f(x) = 0,20 untuk x = 80.000, 90.000, ..., 120.000 2.2. Distribusi Binomial Distribusi Binomial, distribusi ketika terdapat dua hasil yang mungkin dalam setiap percobaan, tidak diragukan lagi merupakan distribusi probabilitas variabel acak diskrit 70 yang diterapkan paling luas. Distribusi ini telah digunakan untuk menggambarkan berbagai variasi proses dalam dunia bisnis, ilmu sosial serta bidang-bidang lainnya. Proses yang menghasilkan distribusi Binomial sering diacu sebagai percobaan Bernoully (Bernoully trial) atau proses Bernoully (Bernoully process). Dalam suatu percobaan Bernoully diasumsikan: 1. Pada setiap percobaan, terdapat hasil yang saling lepas yang mungkin, yang diacu sebagai “sukses” dan “gagal.” Dalam bahasa lain dapat dikatakan bahwa ruang sampel untuk setiap percobaan adalah S={sukses; gagal}. 2. Probabilitas sukses, yang dinotasikan sebagai p, bersifat tetap dari satu percobaan ke percobaan lainnya. Probabilitas gagal, yang ditunjukkan sebagai q, dengan demikian adalah sebesar 1-p. 3. Percobaan-percobaan bersifat saling bebas (independen). Artinya bahwa hasil dari satu percobaan tidak akan mempengaruhi hasil percobaan lainnya. Sebagai contoh jika kita melempar suatu koin sebanyak 5 kali, maka setiap pelemparan dapat diperlakukan sebagai satu percobaan Bernoully. Hasil yang mungkin dari setiap pelemparan adalah munculnya sisi gambar dan sisi angka. Misalkan kita ingin mengetahui probabilitas diperolehnya tepat 2 sisi angka dalam percobaan pelemparan koin sebanyak 5 kali tersebut. Salah satu hasil yang mungkin misalnya adalah AGAGG dimana A adalah angka dan G adalah gambar. Dalam percobaan Bernoully, hasil yang sukses dan gagal biasa dikodekan masing-masing sebagai 1 dan 0. Misalkan bahwa munculnya sisi angka adalah sukses (tentu saja penentuan ini hanya bersifat kesepakatan saja dan tidak berlaku mutlak), maka hasil pelemparan uang AGAGG tersebut dapat dikodekan sebagai 10100. Karena probabilitas sukses dan gagal dalam percobaan Bernoully masing-masing sebesar p dan q, maka probabilitas dari munculnya hasil dengan urutan tertentu seperti di atas dapat ditentukan dengan menerapkan prinsip berhitung aturan perkalian sebagai berikut: P(10100) = pqpqq = p2q3 dimana P(10100) merupakan probabilitas bersama. Kita tidak tertarik terhadap salah satu hasil spesifik dengan urutan seperti di atas (AGAGG), tetapi kita tertarik terhadap probabilitas memperoleh jumlah x sukses dalam n percobaan (diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin). Terdapat 9 urutan lain yang memenuhi kriteria diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin, yaitu: 11000 10001 01010 00110 10010 01100 01001 00101 00011 71 Dengan penalaran yang sama dengan kasus 10100 sebelumnya, setiap hasil dari ke-9 hasil di atas akan memiliki probabilitas yang sama, yaitu sebesar p2q3. Dengan demikian keseluruhan probabilitas dari diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin adalah: P(diperoleh tepat 2 angka) = 10 p2q3 Dalam kasus ini karena p = P(diperoleh sisi angka) = 0,5 dan q = 1 – p = 0,5, maka P(diperoleh tepat 2 angka) = 10 p2q3 = 10 x 0,52 x 0,53 = 5 = 0,3125 16 Secara umum probabilitas memperoleh jumlah x sukses dalam n percobaan adalah P(X=x) = nKx p x q n - x = nKx p x (1 − p) n - x , untuk x = 0, 1, 2, ..., n Formulasi probabilitas ini merupakan distribusi probabilitas, karena memenuhi sifat-sifat distribusi probabilitas sebagai berikut. 1. f(x) ≥ 0 untuk seluruh nilai real dari X; 2. ∑ f(x) = 1 x Sifat pertama terpenuhi karena dengan p dan q yang nonnegatif, maka f(x) tidak mungkin akan negatif. Sifat kedua terpenuhi dengan memasukkan formulasi di atas ∑ f(x) = ∑ n Kx p q x x n-x = (p + q) n = 1n = 1 x Untuk kasus di atas tadi yaitu percobaan pelemparan koin dan diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin, probabilitasnya adalah 5K2(0,5)2(0,5)3 = 0,3125, yang tepat sama dengan yang telah diperoleh sebelumnya. Kesamaan ini wajar diperoleh, karena angka 10 yang kita peroleh sebelumnya sesungguhnya adalah hasil dari suku 5K2 dalam formula di atas. Istilah distribusi probabilitas Binomial, atau distribusi Binomial, biasa digunakan untuk mengacu kepada distribusi probabilitas yang diperoleh dari proses Bernoully. Nilai dari distribusi Binomial sendiri dalam buku-buku statistik biasa dicantumkan pada bagian belakang, yaitu menunjukkan nilai dari f(x) = P(X=x) untuk x = 1, 2, ..., n serta n dan p tertentu. Berikut contoh daftar tersebut yang dapat dijadikan rujukan saat melakukan perhitungan masalah Binomial secara manual. Pada daftar tersebut dicantumkan pula bagaimana probabilitas dari diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin pada kasus di atas, yaitu 0,3125, dapat diperoleh. 72 N 0 1 2 0,01 0,9801 0,0198 0,0001 0,02 0,9604 0,0392 0,0004 P 0,03 0,9409 0,0582 0,0009 0,04 0,9216 0,0768 0,0016 3 3 3 3 0 1 2 3 0,9703 0,0294 0,0003 0,0000 0,9412 0,0576 0,0012 0,0000 0,9127 0,0847 0,0026 0,0000 0,8847 0,1106 0,0046 0,0001 4 4 4 4 4 0 1 2 3 4 0,9606 0,0388 0,0006 0,0000 0,0000 0,9224 0,0753 0,0023 0,0000 0,0000 0,8853 0,1095 0,0051 0,0001 0,0000 0,8493 0,1416 0,0088 0,0002 0,0000 5 5 5 0 1 2 2 2 2 X 0,5 0,3125 Dengan maraknya penggunaan personal computer, daftar semacam tersebut sudah relatif tidak diperlukan lagi. Dengan bantuan software spreadsheet dengan beberapa kali klik kita akan memperoleh nilai probabilitas binomial yang diperlukan. Daftar di atas, sebagai contoh, dibuat melalui software Microsoft Excel dan menyertakan fungsi ”Binomdist(x; n; p; false)” pada setiap selnya. Misalnya pada sel pertama yang berisi nilai 0,9801, fungsi Excel yang disertakan adalah sebagai berikut: 1 2 3 A B n 2 x 0 C P 0,01 @Binomdist(b3;a3;c2;false) Dengan software spreadsheet kita juga tidak perlu lagi menghitung probabilitas kumulatif, tapi cukup dengan menyertakan fungsi yang sesuai, yaitu dalam hal ini mengganti ekspresi ”false” dengan ”true” sehingga fungsi di atas menjadi ”Binomdist(x; n; p; true)” untuk P(X ≤ x). Mean dan varians distribusi probabilitas Binomial masing-masing adalah sebagai berikut: E{X} = np σ2{X} = np(1 – p) 73 2.3. DISTRIBUSI POISSON Distribusi probabilitas Poisson berguna untuk berbagai fenomena acak yang berhubungan dengan jumlah even yang terjadi dalam interval waktu yang tetap. Variabel acak Poisson juga dapat diterapkan kepada kejadian acak yang tidak berhubungan langsung dengan waktu, seperti jumlah kesalahan tipografis dalam satu lembar halaman ketikan komputer. Variabel acak Poisson adalah variabel diskrit yang dapat mengambil nilai integer antara 0 sampai tak terbatas. Fungsi probabilitas Poisson adalah sebagai berikut: P( x) = λx e − λ x! untuk x = 0, 1, ... dan 0 < λ < ∞ Distribusi probabilitas Poisson hanya memiliki satu parameter yaitu λ (Yunani: lambda), yang dapat berupa sebarang angka positif. Sebagai contoh asumsikan jumlah peristiwa kriminal yang terjadi pada suatu kota dalam periode satu jam antara jam 01.00 s.d. 02.00 adalah berupa variabel acak Poisson dengan λ = 0,2. Kita dapat memperoleh probabilitas untuk tidak ada peristiwa kriminal, terdapat satu peristiwa kriminal, serta terdapat dua peristiwa kriminal, selama periode waktu tersebut, yaitu masing-masing P(0), P(1) dan P(2), dengan mensubstitusi ke dalam persamaan di atas: P(0) = 0,20 e −0, 2 1(0,8187) = = 0,8187 0! 1 P(1) = 0,21 e −0, 2 = 0,1637 1! P(2) = 0,22 e −0, 2 = 0,0164 2! Seperti distribusi Binomial, nilai dari distribusi Poisson biasa dicantumkan pada bagian belakang buku-buku statistik , yaitu menunjukkan nilai dari f(x) = P(X=x) untuk x = 1, 2, ..., n dan λ tertentu. Berikut contoh daftar tersebut yang di antaranya memuat nilai yang sama untuk P(0), P(1) dan P(2) untuk λ = 0,2 seperti pada contoh di atas. x 0 1 2 3 0,1 0,904837 0,090484 0,004524 0,000151 λ 0,2 0,818731 0,163746 0,016375 0,001092 0,3 0,740818 0,222245 0,033337 0,003334 74 Daftar seperti di atas, seperti juga untuk daftar distribusi Binomial, dapat dengan mudah diperoleh dengan bantuan software Microsoft Excel dengan menyertakan fungsi ”Poisson(λ; x; false)” pada setiap selnya. Mean dan varians distribusi probabilitas Poisson adalah sama yaitu sebesar λ. 2.4. Latihan 1. Jumlah mahasiswa yang mengikuti kuliah antikorupsi yang diselenggarakan BEM kampus mengikuti variabel acak seragam diskrit X dengan a + 1 = 0 dan s = 14. a. Plotkanlah bentuk distribusi probabilitas X! b. Tentukan nilai probabilitas dari: P(0), P(X > 10) dan P(1 ≤ X ≤ 5) c. Tentukan E{X} dan σ2{X} 2. Terdapat 9 peserta pemula pada lomba lari 10 km untuk kegiatan amal. Asumsikan bahwa Bi = 1 jika peserta pemula ke-i mampu menyelesaikan lari sampai finish, dan Bi = 0 jika peserta pemula ke-i tidak mampu menyelesaikan lari sampai finish. a. Syarat-syarat apa saja yang harus dipenuhi agar even B1...B9 merupakan suatu proses Bernoully? b. Jika pertanyaan a di atas merupakan pross Bernoully, berapa besar probabilitas bahwa seluruh pelari pemula, kecuali pelari ke-3 dan ke-8, menyelesaikan lari sampai garis finish? 3. Jumlah batu baterai yang tidak berfungsi dalam kemasan yang berisi 4 batu baterai yang diproduksi suatu pabrik merupakan variabel acak Binomial X dengan n = 4 dan p = 0,05. a. Jelaskan mana yang dimaksud dengan percobaan Bernoully dan nilai X berapa saja yang dapat dimiliki X (yaitu, sebutkan ruang sampel dari X)! b. Tentukan P(0), P(2) dan P(X ≤ 2)! c. Tentukan E{X} dan σ{X}! d. Plotkan distribusi probabilitas X. Apakah plot distribusi tersebut menceng? 4. Jumlah panggilan telepon ke kepolisian pada periode waktu antara pk 09.00 – 12.00 pada hari Senin merupakan variabel acak Poisson X dengan λ = 3,5. a. Tentukan nilai probabilitas 1) tidak ada panggilan selama periode waktu tersebut, 2) terdapat dua panggilan dan 3) terdapat 2 panggilan atau kurang! b. Tentukan E{X} dan σ{X}! c. Plotkan distribusi probabilitas X. Apakah plot distribusi menceng? 75 5. Menentukan apakah distribusi probabilitas diberikan. Jika distribusi probabilitas diberikan, temukan rata-rata dan standar deviasinya. Jika distribusi probabilitas tidak diberikan, identifikasi persyaratan yang tidak terpenuhi. a. Gangguan Genetik. Empat laki-laki dengan kelainan genetik terkait-X masingmasing memiliki satu anak. Variabel acak x adalah jumlah anak di antara empat anak yang mewarisi kelainan genetik terkait-X. b. Buta Warna pada Laki-Laki. Saat melakukan penelitian tentang buta warna pada laki-laki, seorang peneliti membentuk kelompok secara acak dengan lima laki-laki di setiap kelompok. Variabel acak x adalah jumlah laki-laki dalam kelompok yang memiliki bentuk buta warna (berdasarkan data dari National Institutes of Health). 6. Nilai yang Diharapkan untuk Deal or No Deal. Acara permainan televisi Deal or No Deal dimulai dengan koper individu yang berisi jumlah 1¢, $1, $5, $10, $25, $50, $75, $100, $200, $300, $400, $500, $750, $1000, $5000, $10.000, $25.000, $50.000, $75.000, $100.000, $200.000, $300.000, $400.000, $500.000, $750.000, dan $1.000.000. Jika seorang pemain mengadopsi strategi memilih opsi “No Deal” sampai satu koper tersisa, bayarannya adalah salah satu dari jumlah yang terdaftar, dan kemungkinannya sama. a. Temukan Expected Value untuk strategi ini. b. Carilah nilai standar deviasi. c. Gunakan aturan rentang praktis (the range rule of thumb) untuk mengidentifikasi rentang hasil yang biasa. d. Berdasarkan hasil sebelumnya, apakah hasil dari $750.000 atau $1.000.000 luar biasa tinggi? Mengapa atau mengapa tidak? 7. Tentukan apakah prosedur yang diberikan menghasilkan distribusi binomial (atau distribusi yang dapat diperlakukan sebagai binomial). Untuk yang bukan binomial, identifikasi setidaknya satu persyaratan yang tidak terpenuhi. a. Senat saat ini terdiri dari 83 laki-laki dan 17 perempuan. Empat puluh senator yang berbeda dipilih secara acak tanpa pengembalian, dan jenis kelamin setiap senator yang dipilih dicatat. b. Dalam survei Consumer Reports, 427 wanita berbeda dipilih secara acak tanpa penggantian, dan setiap wanita ditanya apa yang dia beli secara online. Tanggapan terdiri dari apakah pakaian diidentifikasi. 76 c. Dalam survei Komisi Kentang Idaho terhadap 1000 orang dewasa, subjek diminta untuk memilih sayuran favorit mereka, dan setiap respons dicatat sebagai "kentang" atau "lainnya". 8. Asumsikan bahwa tebakan acak dibuat untuk lima pertanyaan pilihan ganda pada tes ACT, sehingga ada n=5 percobaan, masing-masing dengan probabilitas keberhasilan (benar) diberikan oleh p=0,20. Gunakan tabel Probabilitas Binomial (Tabel A-1) untuk menemukan probabilitas yang ditunjukkan untuk jumlah jawaban yang benar. a. Temukan peluang bahwa jumlah x dari jawaban yang benar adalah tepat 3. b. Temukan probabilitas bahwa jumlah x dari jawaban yang benar setidaknya 3. c. Hitunglah peluang banyaknya x jawaban yang benar lebih dari 2. d. Temukan probabilitas bahwa jumlah x dari jawaban yang benar kurang dari 3. e. Temukan probabilitas tidak ada jawaban yang benar. f. Temukan probabilitas bahwa semua jawaban benar. 9. Distribusi Poisson berlaku untuk kejadian beberapa peristiwa selama interval tertentu, seperti waktu atau jarak. Probabilitas peristiwa yang terjadi x kali selama interval dinyatakan dengan di mana e = 2,71828 dan m adalah rata-rata jumlah kejadian selama interval. Selama 100 tahun terakhir, jumlah rata-rata gempa besar tahunan di dunia adalah 0,93. Dengan mengasumsikan bahwa distribusi Poisson adalah model yang sesuai, tentukan peluang banyaknya gempa bumi pada tahun yang dipilih secara acak adalah a. 0 b. 1 c. 2 f. 5 g. 6 h. 7 d. 3 e. 4 Berikut hasil aktualnya: 47 tahun (0 gempa besar); 31 tahun (1 gempa besar); 13 tahun (2 gempa besar); 5 tahun (3 gempa besar); 2 tahun (4 gempa besar); 0 tahun (5 gempa besar); 1 tahun (6 gempa besar); 1 tahun (7 gempa besar). Setelah membandingkan probabilitas yang dihitung dengan hasil aktual, apakah distribusi Poisson merupakan model yang baik? 10. Dalam setiap situasi berikut, tunjukkan apakah variabel acak itu diskrit atau kontinu dan gambarkan ruang tunggalnya (yaitu himpunan hasil yang mungkin) a. Tinggi tanaman yang tidak pernah tumbuh lebih tinggi dari 1 meter. b. Volume minyak sawit saat ini dalam tangki penyimpanan 4000 liter. c. Jumlah pil yang tersisa dari resep 20 pil. 77 3. Distribusi Probabilitas Variabel Acak Kontinyu 3.1. Distribusi Seragam Kontinyu Distribusi probabilitas seragam diskrit yang dibahas pada bagian 2.1. memiliki analogi dengan variabel acak kontinyu yang dikenal sebagai distribusi probabilitas seragam kontinyu (continuous uniform probability distribution). Variabel acak seragam kontinyu dapat mengambil sebarang nilai dalam suatu interval antara a dan b dan memiliki probabilitas kepadatan seragam (konstan) sepanjang interval tersebut. Titik akhir terendah a dan titik akhir tertinggi b dari interval merupakan parameter dari fungsi kepadatan (densitas) variabel acak tersebut. Fungsi densitas variabel acak seragam kontinyu adalah: f(x) = 1 unt uk a ≤ x ≤ b. b−a Sebagai contoh asumsikan bahwa seorang ahli geografi telah menemukan bahwa perkiraan terbaik untuk distribusi ukuran populasi penduduk suatu kota dengan populasi penduduk antara 5000 sampai 7500 penduduk adalah dengan distribusi seragam kontinyu. Fungsi densitas dalam hal ini dengan demikian adalah: f(x) = u n t u k 5000 ≤ x ≤ 7500. 1 2500 Grafik untuk fungsi densitas ini adalah sebagai berikut: f(x) 1 2500 0,40 0 a=5000 6000 b=7500 x Mean dan varians distribusi seragam kontinyu tergantung pada parameter a dan b, yaitu sebagai berikut: E{X} = b + a 2 dan σ2{X} = (b − a ) 2 12 Melanjutkan contoh di atas, means dan varians distribusi seragam kontinyu populasi dengan demikian adalah: 78 E{X} = 7500 + 5000 orang dan σ2{X} = (7500 − 5000) 2 = 6250 = 520,833 2 12 Untuk distribusi kontinyu lebih relevan untuk menentukan probabilitas dari interval x yang merupakan probabilitas kumulatif, daripada dari suatu titik x tertentu. Secara umum untuk menentukan probabilitas dari variabel acak kontinyu X yang mengambil batas-batas nilai pada interval tertentu dapat diperoleh dengan menentukan area yang bersesuaian di bawah fungsi densitas probabilitas f(x) dengan batas-batas nilai interval tersebut. Daerah tersebut menunjukkan fungsi probabilitas kumulatif. Fungsi probabilitas kumulatif F(x) untuk variabel acak seragam kontinyu yang dibatasi oleh a dan b adalah: F(x ) = P(X ≤ x ) = x − a u n t u k a ≤ x ≤ b . b−a Melanjutkan contoh di atas, jika diinginkan untuk mengetahui probabilitas bahwa populasi kota dengan jumlah penduduk antara 5000-7500 adalah 6000, maka nilai probabilitas tersebut adalah: F(x ) = P(X ≤ x ) = 6000 − 5000 = 0,40 7500 − 5000 probabilitas ini ditunjukkan dengan bagian daerah yang gelap pada plot grafik fungsi densitas di atas yang dibatasi dengan X=6000. Jika pada contoh distribusi populasi tersebut yang diinginkan adalah persentil ke-75 dari distribusi probabilitas, kita cukup menuliskannya sebagai: F(x ) = P(X ≤ x ) = x − 5000 = 0,75 7500 − 5000 Dengan menyelesaikannya untuk x, akan diperoleh bahwa persentil ke-75 distribusi probabilitas adalah sebesar 6875 penduduk. 3.2. Distribusi Normal Distribusi probabilitas normal merupakan salah satu distribusi terpenting dalam statistik. Banyak sekali fenomena yang melibatkan variabel acak yang bersifat normal. Selain untuk menggambarkan banyak fenomena bersifat acak, distribusi normal sering juga digunakan untuk pengambilan inferensi atas data melalui pendugaan atau pengujian hipotesis. Variabel acak normal adalah variabel acak kontinyu yang dapat mengambil sebarang nilai antara minus tak hingga sampai plus tak hingga. Fungsi densitas variabel acak normal adalah sebagai berikut: 79 f ( x) = dimana  1 2πσ e  1  x−µ 2  −     2  σ   3.14159; e: 2.71828  : mean populasi  : deviasi standar populasi X : nilai variabel acak : X   3.2.1. Ciri-Ciri Distribusi Probabilitas Normal Distribusi probabilitas normal memiliki dua parameter, yaitu μ (Yunani-myu) dan σ (Yunani-sigma), dengan σ positif. Setiap pasangan (μ dan σ) yang berbeda merupakan suatu distribusi probabilitas normal yang berbeda. Distribusi normal berbentuk lonceng dan simetris. Distribusi normal terpusat di μ, yang merupakan nilai mean dari distribusi dan menentukan posisi distribusi pada sumbu x. Parameter σ adalah deviasi standar distribusi normal dan menentukan variabilitas distribusi. Semakin besar nilai σ, semakin lebar spread distribusi. Distribusi normal pada gambar a dan b berikut memiliki μ yang sama (50) tetapi σ berbeda, tapi pada gambar a dan c, σ sama (10) tetapi μ berbeda. Distribusi normal dinotasikan dengan N(μ,σ). (a) (b) (c) 3.2.2. Distribusi Probabilitas Normal Standar 80 Distribusi probabilitas normal standar adalah salah satu anggota dari keluarga distribusi normal yang memiliki mean μ=0 dan deviasi standar σ=1. Variabel acak normal yang bersesuaian dengan distribusi normal standar disebut sebaga variabel normal standar. Distribusi normal standar memiliki peran penting karena setiap sebarang distribusi normal dapat ditransformasi menjadi distribusi normal standar melalui proses standardisasi. Bentuk yang distandardisasi dari suatu variabel acak normal X dengan mean μ dan deviasi standar σ adalah dinotasikan sebagai Z yang diperoleh melalui proses standardisasi sebagai berikut: Z= X −µ σ Bentuk yang distandardisasi (Z) dari sebarang variabel acak normal merupakan variabel acak normal standar karena alasan-alasan berikut: 1. Untuk setiap variabel acak yang distandardisasi, dua ciri berikut yaitu E{Z} = 0 dan σ=1, selalu akan terpertahankan. 2. Dari rumus standardisasi Z= X − µ dapat dilihat bahwa Z adalah fungsi linear σ dari X dengan menyusun ulang sebagai berikut: Z =− µ 1 + X σ σ 3. Untuk setiap fungsi linear berlaku hubungan: sebarang fungsi linear dari variabel acak normal juga merupakan variabel acak normal. 3.2.3. Menentukan Probabilitas dan Persentil untuk Distribusi Normal Standar Proses standardisasi memungkinkan kita untuk memperoleh probabilitas dan persentil untuk sebarang distribusi normal dari distribusi normal standar. Probabilitas distribusi normal standar kumulatif dapat diperoleh pada tabel yang biasa disertakan pada buku-buku teks statistik. Sebagian cuplikan dari tabel tersebut adalah sebagai berikut: z 0,00 0,01 0,02 0,03 0,0 0,5000 0,5040 0,5080 0,5120 0,1 0,5398 0,5438 0,5478 0,5517 0,2 0,5793 0,5832 0,5871 0,5910 0,3 0,6179 0,6217 0,6255 0,6293 0,4 0,6554 0,6591 0,6628 0,6664 81 Pada tabel di atas, z menunjukkan hasil tertentu dari variabel acak normal standar Z. Label baris dan kolom tabel tersebut memberikan hasil z yang berbeda, baris menunjukkan nilai angka desimal pertama, kolom menunjukkan nilai angka desimal kedua. Setiap isi sel untuk z tertentu merupakan probabilitas kumulatif P(Z ≤ z). Sebagai contoh pada tabel di atas dapat diperoleh probabilitas kumulatif untuk P(Z ≤ 0,32) = 0,6255. Nilai ini kira-kira adalah sebesar luas area yang dinotasikan sebagai a (huruf a kecil), yaitu daerah sebelah kiri garis vertikal z=0,32 dan di bawah kurva normal standar, sebagaimana yang diplotkan pada grafik berikut. a Berdasarkan tabel dan grafik di atas, dapat kita lihat bahwa kurva normal standar simetris pada nilai mean = 0. Luas area ke sebelah kiri mean sama dengan luas area ke sebelah kanan mean yaitu 0,5000. Untuk z = 0,32, karena lebih besar dari 0, maka luas area a nya adalah lebih besar dari 0,5000, yaitu dalam hal ini 0,6255. Meski nilai probabilitas normal standar dapat dengan mudah diperoleh melalui software spreadsheet di komputer, memperoleh nilai probabilitas tersebut dari tabel lebih sesuai untuk kepentingan praktis. Kita dapat menggunakan tabel tersebut dalam dua cara: 1) untuk menentukan luas area a yang bersesuaian dengan nilai z tertentu, dan 2) untuk memperoleh persentil z(a) yang bersesuaian dengan luas area a tertentu. Untuk contoh di atas a = 0,6255 dan z(a) = 0,32. Penggunaan pertama tabel tersebut akan diuraikan pada 4 contoh berikut. Tabel lebih lengkap dapat dilihat pada bagian lampiran dari modul ini. 1. Untuk memperoleh nilai P(Z ≤ 0,45) dari tabel akan kita peroleh luas area a=0,6736 yaitu nilai yang tersimpan pada baris 0,4 dan kolom 0,05. 2. Untuk memperoleh nilai P(Z ≥ 1,00), karena tabel hanya mencantumkan luas area untuk nilai z ke kiri, maka probabilitas tersebut dapat diperoleh dengan hubungan sebagai berikut. P(Z ≥ 1,00) = 1 – P(Z ≤ 1,00) 82 Dari tabel dapat kita peroleh bahwa luas area a untuk baris 1,0 dan kolom 0,00 adalah sebesar 0,8413, sehingga nilai P(Z ≥ 1,00) = 1 – 0,8413 = 0,1587. Jika diplot luas area a dari P(Z ≥ 1,00) adalah area ke sebelah kanan garis vertikal z=1 dan di bawah kurva normal standar, sebagaimana dapat dilihat pada grafik berikut. 3. Untuk memperoleh nilai P(Z ≤ -1,00), karena tabel tidak memberikan nilai probabilitas untuk nilai z negatif, maka kita bisa meminjamnya dari tabel untuk nilai z positif yang bersesuaian, yaitu dalam hal ini P(Z ≥ 1,00) yang sama dengan contoh 2 di atas, sehingga diperoleh nilai P(Z ≤ -1,00) = 0,1587. Kesamaan ini dapat kita lihat dengan membandingkan antara area a untuk P(Z ≤ -1,00) yaitu area ke kiri garis vertikal z=-1 dan di bawah kurva normal standar sebagaimana dapat dilihat pada plot grafik berikut, dengan area a untuk P(Z ≥ 1,00) yang telah digambarkan pada plot grafik pada contoh 2. 4. Untuk memperoleh nilai P(-1≤Z≤1) kita dapat memperolehnya dengan mengurangkan P(Z < -1) terhadap P(Z ≤ 1), yang kedua-duanya telah diperoleh dari contoh 2 dan 3, sehingga diperoleh P(-1 ≤ Z ≤ 1) = P(Z ≤ 1) - P(Z < -1) = 0,8413 – 0,1587 = 0,6826. 83 Dalam grafik pengurangan ini dapat diperlihatkan sebagai pengurangan atas 0,8413 dari grafik contoh 2 dengan area a = 0,1587 dari grafik contoh 3. Penggunaan kedua tabel normal standar adalah untuk memperoleh persentil z(a) yang bersesuaian dengan luas area a tertentu. Persentil z(a) dari distribusi normal standar adalah nilai z tertentu yang akan memberikan probabilitas kumulatif distribusi normal standar sebesar a (tepatnya: sebesar luas area a), yang dinotasikan sebagai berikut. P[ Z ≤ z (a )] = a Dengan demikian pencarian persentil z(a) tertentu sesungguhnya tidak lebih sebagai kebalikan dari pencarian probabilitas P(z). Penggunaan tabel normal standar untuk keperluan ini akan dijelaskan pada 2 contoh berikut: 1. Misalkan kita ingin memperoleh persentil distribusi normal standar ke-67,36 z(0,6736), atau dengan kata lain kita ingin mengetahui berapa nilai z yang akan memberikan probabilitas kumulatif pada distribusi normal standar sebesar 0,6736 atau 67,36%. Untuk keperluan itu kita harus mencari ke dalam isi tabel dimana letak 0,6736. Dengan pencarian saksama mengikuti isi tabel yang terurut sistematis akan kita peroleh bahwa nilai 0,6736 terletak pada baris 0,4 dengan kolom 0,05, sehingga persentil distribusi normal standar ke-67,36 [z(0,6736)] adalah sebesar 0,45 atau P(Z ≤ 0,45) = 0,6736. 2. Untuk memperoleh nilai z(0,04), maka kita harus meminjam ke persentil di atas 50% yang bersesuaian, yaitu dalam hal ini z(0,96). Prosedur ini diperlukan karena nilai probabilitas yang tercantum pada tabel hanya untuk probabilitas di atas 50% (di atas persentil ke-50) yaitu untuk nilai z positif. Untuk probabilitas di bawah 50%, dengan demikian harus diperoleh dengan meminjamnya dari probabilitas di atas 50% tapi dengan pilihan area ke kanan dari garis vertikal z(a). Luas pilihan area ke kanan dari garis vertikal z(a) akan identik dengan luas area ke kiri dari garis vertikal –z(a). Dengan demikian untuk contoh ini dan semacamnya [z(a) < 50%], berlaku hubungan: z(a) = – z(1 – a) Untuk kasus ini maka z(0,04) = –z(1– 0,04) = –z(0,96) Berdasarkan penelusuran ke tabel akan diperoleh z(0,96) = 1,75 sehingga z(0,04)=-1,75. Plot grafik untuk contoh ini adalah sebagai berikut. 84 3.2.4. Menentukan Probabilitas dan Persentil untuk Distribusi Normal Non Standar Probabilitas untuk sebarang distribusi normal dapat diperoleh dari distribusi normal standar dengan melakukan proses standardisasi. Proses standardisasi yang sama juga dilakukan untuk memperoleh persentil untuk sebarang distribusi probabilitas normal. Proses ini dapat digambarkan sebagai berikut: Dengan demikian apapun bentuk distribusi normal asalnya, semuanya dapat ditransformasi menjadi distribusi / kurva normal standar. Lebih jelasnya akan diuraikan dalam 2 contoh berikut: 1. Berat balok baja yang diproduksi pada suatu pabrik peleburan baja merupakan variabel acak X yang terdistribusi normal dengan mean dan deviasi standar masing-masing μ = 520 kg dan σ = 11 kg. Jika kita ingin mengetahui probabilitas bahwa berat suatu balok baja adalah sebesar 525 kg atau kurang maka terlebih dahulu kita harus melakukan proses standardisasi terhadap x = 525 menjadi nilai z sebagai berikut. z= x−µ σ = 525 − 520 0,45. = 11 Ni l a i 0,45 me n u n j u k k a n b a h wa 525 a d a l a h s e b e s a r 0,45 k a l i d e v i a s i s t a n d a r d a r i me a n k e k a n a n . Ak i b a t n y a a d a l a h P(X ≤ 525) = P(Z ≤ 0,45). Da r i t a b e l k i t a a k a n p e r o l e h p r o b a b i l i t a s n y a s e b e s a r 0,6736 y a n g s e l a r a s d e n g a n p e me c a h a n y a n g t e l a h k i t a p e r o l e h u n t u k c o n t o h 1 p a d a b a h a s a n p e r s e n t i l u n t u k d i s t r i b u s i n o r ma l s t a n d a r s e b e l u mn y a . 2. Untuk memperoleh persentil, misalnya persentil ke-96 pada contoh distribusi normal balok baja di atas, kita lakukan proses standardisasi sebagai berikut. z(0,96) = x(0,96) − µ σ = 1,75 Nilai 1,75 kita peroleh dari tabel selaras dengan contoh 2 pada bahasan sebelumnya. Selanjutnya persamaan di atas kita susun ulang menjadi sebagai berikut. 85 x(0,96) = μ + 1,75σ = 520 + 1,75(11) = 539,3. De n g a n d e mi k i a n p e r s e n t i l k e - 96 u n t u k d i s t r i b u s i b e r a t b a l o k b a j a t e r s e b u t a d a l a h s e b e s a r 539,3 k g . De n g a n k a t a l a i n a k a n di per ol eh pr obabi l i t as s ebes ar 0,96 u n t u k b e r a t bal ok baj a s e b e s a r 539,3 a t a u k u r a n g [ P(X ≤ 539,3) = 0,96] . Berdasarkan contoh ini secara umum untuk menemukan persentil ke-a dari sebarang distribusi normal adalah dengan hubungan berikut. x(a) = μ + z(a)σ untuk z(a) persentil ke-a dari distribusi normal standar. 3.2.5. Tiga Set Probabilitas Normal yang Penting Tiga set batas probabilitas tengah untuk distribusi normal sering sekali digunakan sehingga penting sekali untuk dicatat secara khusus. Ketiga set probabilitas normal tersebut adalah sebagai berikut. 1. μ + 1σ berisi sebesar 68,3% dari luas area di bawah kurva normal standar. 2. μ + 2σ berisi sebesar 95,4% dari luas area di bawah kurva normal standar. 3. μ + 3σ berisi sebesar 99,7% dari luas area di bawah kurva normal standar. 3.2.6. Menentukan Probabilitas dan Persentil dengan Software MS Excel Untuk menentukan probabilitas dan persentil dengan bantuan software spreadsheet komputer seperti MS Excel, kita harus menggunakan fungsi yang disediakan software secara tepat. Misalnya dalam MS Excel untuk distribusi normal ini disediakan masingmasing satu fungsi tersendiri untuk setiap permasalahan pencarian nilai probabilitas dan persentil baik untuk distribusi normal standar maupun untuk sebarang distribusi normal (distribusi normal non standar). Daftar fungsi tersebut dan penjelasan penggunaannya adalah sebagai berikut. No Fungsi Parameter 1. @NORMSDIST (z) 2. @NORMSINV 3. @NORMDIST 4. @NORMINV (probability) (x; mean; stand_dev; cumulative) (probability; mean; stand_dev) Penggunaan Mencari nilai probabilitas distribusi normal standar Mencari persentil ke-a distribusi normal standar Mencari nilai probabilitas distribusi normal non standar Mencari persentil ke-a distribusi normal non standar Parameter probability yang harus disertakan pada fungsi @NORMSINV dan 86 @NORMINV adalah setara dengan nilai luas area yang di bahasan di atas dinotasikan sebagai a (huruf a kecil). Salah satu penggunaan lain fungsi-fungsi yang tersedia dalam software MS Excel adalah untuk media pembelajaran. Misalnya kita sudah memperoleh penyelesaian untuk seluruh contoh kasus pada pembahasan distribusi normal ini dengan menggunakan bantuan tabel distribusi normal. Kita dapat menguji akurasi hasil-hasil penyelesaian dengan tabel tersebut dengan membandingkannya dengan penyelesaian dengan bantuan software MS Excel menggunakan fungsi-fungsi yang diberikan di atas. Berikut tabel yang memperlihatkan hasil penyelesaian atas seluruh contoh yang telah dibahas sebelumnya dengan menggunakan fungsi pada MS Excel. Kita lihat terdapat beberapa hasil yang sedikit berbeda antara hasil penyelesaian menggunakan software MS Excel dengan hasil penyelesaian menggunakan tabel, yang bersumber dari mekanisme pembulatan . No. 1. 2. 3. 4. Kasus P(Z ≤ 0,45) P(Z ≥ 1) P(Z ≤ - 1) P(- 1 ≤ Z ≤ 1) Fungsi MS Excel =NORMSDIST(0,45) =1-NORMSDIST(1) =NORMSDIST(-1) =NORMSDIST(1)-NORMSDIST(-1) Hasil 0,673645 0,158655 0,158655 0,682689 5. 6. 7. 8. z(0,6736) z(0,04) P(X ≤ 525) x(0,96) =NORMSINV(0,6736) =NORMSINV(0,04) =NORMDIST(525; 520; 11; TRUE) =NORMINV(0,96; 520; 11) 0,449876 -1,75069 0,675282 539,2575 3.3. Latihan 1. Dengan menggunakan tabel untuk variabel normal standar Z tentukan: a. Luas area a yang sesuai untuk nilai z sebesar 0; 1,06; dan 2,50 ke kiri. b. Pr o b a b i l i t a s P(Z ≤ 0) , P(Z ≥ 2,5) d a n P(- 1,06 ≤ Z ≤ 2,50) c. Persentil z(0,5000), z(0,9066), dan z(0,0934). d. Persentil z(0,99) dan z(0,05). 2. Skor tes aptitude untuk calon mahasiswa pada program pascasarjana dari sebuah universitas terdistribusi normal dengan mean 500 dan deviasi standar 60. a. Jika untuk diterima calon mahasiswa harus memiliki skor tes aptitude minimal sebesar 530, berapakah probabilitas calon mahasiswa yang akan diterima? b. Jika universitas ingin menetapkan batas skor tertentu untuk menerima hanya 10% terbaik dari para calon mahasiswa, berapakan nilai batas skor tes aptitude tersebut? 87 c. Berapa persen calon mahasiswa yang memiliki skor tes aptitude di antara 2 deviasi standar (antara -2 sampai dengan 2 deviasi standar di tengah). 3. Suatu perusahaan memiliki dua produk utama dengan nilai penjualan masing- masing terdistribusi normal yaitu X1 untuk produk pertama dengan N(38 juta, 5 juta) dan X2 untuk produk kedua dengan N(65 juta,7 juta). Jika T = X1 + X2, tentukan: a. Pr o b a b i l i t a s P(X1≤ 40) d a n P(X2 ≥ 49) b. Probabilitas penjualan total kedua produk melebihi 100 juta dan di antara 90 juta dan 110 juta. c. Berapakah persentil ke-10 dari distribusi probabilitas T? Interpretasikan hasil tersebut! 4. Asumsikan bahwa subjek yang dipilih secara acak diberi tes kepadatan tulang. Skor tes tersebut terdistribusi secara normal dengan rata-rata 0 dan standar deviasi 1. Dalam setiap kasus, buatlah grafik dan temukan probabilitas skor yang diberikan. a. Kurang dari -2,04 b. Lebih besar dari 0,82 c. Antara 0,25 dan 1,25 d. Kurang dari 3,65 5. Asumsikan bahwa subjek yang dipilih secara acak diberi tes kepadatan tulang. Skor tes kepadatan tulang berdistribusi normal dengan rata-rata 0 dan standar deviasi 1. Dalam setiap kasus, buatlah grafik, lalu temukan skor tes kepadatan tulang yang sesuai dengan informasi yang diberikan. a. Temukan P90, persentil ke-90. Ini adalah skor kepadatan tulang yang memisahkan 90% terbawah dari 10% teratas. b. Temukan P5, persentil ke-5. Ini adalah skor kepadatan tulang yang memisahkan 5% terbawah dari 95% teratas. c. Jika skor kepadatan tulang di 2,5% terbawah dan 2,5% teratas digunakan sebagai titik potong untuk level yang terlalu rendah atau terlalu tinggi, temukan dua bacaan yang merupakan nilai batas. d. Temukan skor kepadatan tulang yang dapat digunakan sebagai nilai batas yang memisahkan 1% paling ekstrim dari semua skor. 6. Temukan nilai kritis yang ditunjukkan oleh: a. Z0,025 b. Z0,05 88 c. Z0,01 d. Z0,03 89 4. Lampiran PROBABILITAS KUMULATIF DAN PERSENTIL DARI DISTRIBUSI NORMAL STANDAR 0,0 0,1 0,2 0,3 0,4 0,5 0,00 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,6 0,7 0,8 0,9 1,0 0,7257 0,7580 0,7881 0,8159 0,8413 0,7291 0,7611 0,7910 0,8186 0,8438 0,7324 0,7642 0,7939 0,8212 0,8461 0,7357 0,7673 0,7967 0,8238 0,8485 0,7389 0,7704 0,7995 0,8264 0,8508 0,7422 0,7734 0,8023 0,8289 0,8531 0,7454 0,7764 0,8051 0,8315 0,8554 0,7486 0,7794 0,8078 0,8340 0,8577 0,7517 0,7823 0,8106 0,8365 0,8599 0,7549 0,7852 0,8133 0,8389 0,8621 1,1 1,2 1,3 1,4 1,5 0,8643 0,8849 0,9032 0,9192 0,9332 0,8665 0,8869 0,9049 0,9207 0,9345 0,8686 0,8888 0,9066 0,9222 0,9357 0,8708 0,8907 0,9082 0,9236 0,9370 0,8729 0,8925 0,9099 0,9251 0,9382 0,8749 0,8944 0,9115 0,9265 0,9394 0,8770 0,8962 0,9131 0,9279 0,9406 0,8790 0,8980 0,9147 0,9292 0,9418 0,8810 0,8997 0,9162 0,9306 0,9429 0,8830 0,9015 0,9177 0,9319 0,9441 1,6 1,7 1,8 1,9 2,0 0,9452 0,9554 0,9641 0,9713 0,9772 0,9463 0,9564 0,9649 0,9719 0,9778 0,9474 0,9573 0,9656 0,9726 0,9783 0,9484 0,9582 0,9664 0,9732 0,9788 0,9495 0,9591 0,9671 0,9738 0,9793 0,9505 0,9599 0,9678 0,9744 0,9798 0,9515 0,9608 0,9686 0,9750 0,9803 0,9525 0,9616 0,9693 0,9756 0,9808 0,9535 0,9625 0,9699 0,9761 0,9812 0,9545 0,9633 0,9706 0,9767 0,9817 2,1 2,2 2,3 2,4 2,5 0,9821 0,9861 0,9893 0,9918 0,9938 0,9826 0,9864 0,9896 0,9920 0,9940 0,9830 0,9868 0,9898 0,9922 0,9941 0,9834 0,9871 0,9901 0,9925 0,9943 0,9838 0,9875 0,9904 0,9927 0,9945 0,9842 0,9878 0,9906 0,9929 0,9946 0,9846 0,9881 0,9909 0,9931 0,9948 0,9850 0,9884 0,9911 0,9932 0,9949 0,9854 0,9887 0,9913 0,9934 0,9951 0,9857 0,9890 0,9916 0,9936 0,9952 2,6 2,7 2,8 2,9 3,0 0,9953 0,9965 0,9974 0,9981 0,9987 0,9955 0,9966 0,9975 0,9982 0,9987 0,9956 0,9967 0,9976 0,9982 0,9987 0,9957 0,9968 0,9977 0,9983 0,9988 0,9959 0,9969 0,9977 0,9984 0,9988 0,9960 0,9970 0,9978 0,9984 0,9989 0,9961 0,9971 0,9979 0,9985 0,9989 0,9962 0,9972 0,9979 0,9985 0,9989 0,9963 0,9973 0,9980 0,9986 0,9990 0,9964 0,9974 0,9981 0,9986 0,9990 3,1 3,2 3,3 3,4 3,5 0,9990 0,9993 0,9995 0,9997 0,9998 0,9991 0,9993 0,9995 0,9997 0,9998 0,9991 0,9994 0,9995 0,9997 0,9998 0,9991 0,9994 0,9996 0,9997 0,9998 0,9992 0,9994 0,9996 0,9997 0,9998 0,9992 0,9994 0,9996 0,9997 0,9998 0,9992 0,9994 0,9996 0,9997 0,9998 0,9992 0,9995 0,9996 0,9997 0,9998 0,9993 0,9995 0,9996 0,9997 0,9998 0,9993 0,9995 0,9997 0,9998 0,9998 3,6 3,7 3,8 3,9 0,9998 0,9999 0,9999 1,0000 0,9998 0,9999 0,9999 1,0000 0,9999 0,9999 0,9999 1,0000 0,9999 0,9999 0,9999 1,0000 0,9999 0,9999 0,9999 1,0000 0,9999 0,9999 0,9999 1,0000 0,9999 0,9999 0,9999 1,0000 0,9999 0,9999 0,9999 1,0000 0,9999 0,9999 0,9999 1,0000 0,9999 0,9999 0,9999 1,0000 90 BAB VI PENDUGAAN TITIK DAN DISTRIBUSI PENYAMPELAN Ẍ 1. Pendahuluan Pada bab sebelumnya telah diuraikan bahwa salah satu tujuan dipilih sampel adalah untuk menyediakan informasi mengenai populasi, atau tepatnya statistik sampel digunakan untuk menginferensi parameter populasi. Pada bab ini kita akan mulai mempelajari penggunaan statistik sampel untuk menarik inferensi tentang parameter populasi. Pertama kali akan dibahas inferensi atas mean populasi, karena parameter populasi ini yang sering mendapat perhatian praktisi. 3. Pendugaan Titik 2.1. Pengertian Informasi yang diturunkan dari sampel mengenai parameter populasi, seperti mean populasi (µ), biasanya berbentuk statistik sampel, seperti mean sampel, yang dihitung dari observasi sampel. Mean sampel ini digunakan untuk menginferensi 3 mean populasi. Secara umum kita sebut statistik sampel sebagai dugaan (estimate) dari parameter populasi. Sebagai contoh suatu dugaan mean masa kerja dari populasi sebanyak 3850 pegawai sebuah perusahaan dilakukan dengan memilih sampel acak sederhana dari sebanyak 50 pegawai. Mean sampel masa kerja dari ke-50 pegawai misalnya = 6,3 tahun. Jadi 6,3 tahun dalam hal ini adalah dugaan dari mean populasi masa kerja. Secara umum proses pendugaan parameter populasi melalui nilai tunggal yang diperoleh dari sampel disebut pendugaan titik (point estimation). Dari contoh pendugaan masa kerja pegawai di atas kita dapat merumuskan ciri-ciri utama dari suatu pendugaan titik, yaitu sebagai berikut: 1. Parameter. Parameter populasi yang tidak diketahui menjadi target yang akan diduga/ diestimasi. Notasi θ (Yunani: theta) biasa digunakan untuk merepresentasi parameter. 2. Dugaan (estimate). Sampel dari observasi sebanyak n, yaitu X1, X2,......, Xn dipilih dari populasi. Beberapa statistik, yang merupakan fungsi dari n observasi sampel, digunakan sebagai penduga dari parameter θ. Statistik yang berfungsi sebagai penduga 3 Kata menginferensi ini harus diserap ke dalam bahasa Indonesia. Dalam metodologi riset menginferensi (to infer) adalah membuat kesimpulan dalam proses penalaran yang bersifat induktif (dari khusus ke umum). Menginferensi harus dibedakan dengan mengambil kesimpulan dalam penalaran deduktif (dari umum ke khusus) yang sudah lazim menggunakan istilah menyimpulkan (to conclude). 91 parameter secara umum dinotasikan dengan S 3. Distribusi Penyampelan. Sebelum pemilihan sampel aktual, observasi sampel X1, X2,......, Xn merupakan variabel acak, sehingga statistik sampel S yang akan dihitung juga merupakan variabel acak. Distribusi probabilitas dari statistik sampel biasa disebut sebagai distribusi penyampelan (sampling distribution) dari statistik sampel tersebut. Karena statistik sampel merupakan variabel acak sebelum pemilihan sampel, tetapi merupakan angka sederhana biasa sesudah terpilihnya sampel, maka ahli statistik menggunakan dua istilah berbeda untuk membedakan kedua situasi tersebut. Sebelum pemilihan sampel, statistik sampel adalah variabel acak dan disebut sebagai penduga titik (point estimator) dari parameter populasi. Setelah terpilihnya sampel, statistik sampel adalah sebuah angka dan disebut sebagai dugaan titik (point estimate) dari parameter populasi. Dengan demikian, pada contoh pendugaan masa kerja pegawai di atas, sebelum dipilih sampel, X merupakan penduga titik dari μ (mean populasi). Sesudah dipilih sampel, dan diperoleh X = 6,3 tahun, maka 6,3 tahun tersebut merupakan dugaan titik dari μ populasi. Untuk menyederhanakan penyebutan, penduga titik dan dugaan titik masingmasing biasa disebut sebagai penduga (estimator) dan dugaan (estimate). 2.1. Syarat-Syarat Penduga Titik Yang Baik Dari suatu sampel tersedia banyak statistik yang dapat menjadi penduga titik untuk menduga sesuatu parameter populasi. Kualitas suatu penduga titik tergantung pada distribusi penyampelan penduga tersebut. Pada bagian ini akan diuraikan beberapa kriteria yang dapat digunakan untuk membedakan penduga yang baik dengan penduga yang buruk berdasarkan distribusi penyampelan penduga tersebut. Kriteria-kriteria tersebut terdiri dari ketidakbiasan, efisiensi, dan konsistensi. 2.1.1. Ketidakbiasan Kriteria pertama, ketidakbiasan, adalah berdasarkan premis bahwa distribusi penyampelan dari sebuah penduga yang baik harus terletak dekat parameter populasi yang akan diestimasi. Jelasnya, suatu penduga S merupakan penduga tidak bias jika mean distribusi penyampelan-nya sama dengan parameter populasi θ yang akan diestimasi, atau, S menjadi penduga tak bias jika: E{S} = θ Jika estimator S menjadi bias, maka besar biasnya adalah : 92 Bias = E{S} - θ Ketidakbiasan dalam estimator titik mengacu pada kecenderungan dari kesalahan penyampelan terseimbangkan habis pada seluruh sampel yang mungkin. Namun, bagi satu sampel saja, tentunya, pendugaan sampelnya akan selalu berbeda dari parameter populasinya. Gambar berikut menunjukkan dua estimator, S1 yang tidak bias dan S2 yang memiliki bias yang substansial. Dari gambar terlihat jelas bahwa S2 akan cenderung memberikan penduga-penduga yang jauh dari θ, sedangkan penduga yang diperoleh dari S1 akan cenderung mendekati θ. E{S2} E{S1} Bias S2 Dengan pengertian ketidakbiasan seperti di atas, karena E{ X } = μ, maka X adalah penduga yang tidak bias dari μ. Namun median sampel Md adalah estimator bias dari μ, karena E{Md} ≠ μ. Sebuah penduga yang bias masih mungkin menjadi penduga yang diinginkan jika biasnya tidak besar, asalkan estimator tersebut memiliki sifat lain yang diinginkan. Pada bab sebelumnya, kita telah mengetahui bahwa formula untuk menghitung varians sampel s2 menggunakan pembagi n-1 dan bukan n untuk menghasilkan rata-rata deviasi kuadrat. Sekarang kita dapat menjelaskan mengapa pembagi n-1 yang digunakan. Alasannya adalah saat s2 menggunakan pembagi n-1, hasilnya merupakan penduga yang tidak bias dari varians populasi σ2 untuk populasi yang tak terbatas, oleh karena itu, E{s2} = σ2. 2.1.2. Efisiensi Kriteria efisiensi didasarkan pada premis bahwa, di antara dua penduga yang tidak bias, maka kita akan memilih penduga yang memiliki variabilitas lebih kecil (yaitu yang distribusi penyampelannya lebih sempit) karena hasilnya cenderung akan lebih mendekati parameter populasi. Kriteria efisiensi bersifat relatif karena adanya dua penduga yang 93 diperbandingkan. Efisiensi dari penduga yang tidak bias diukur dengan varians dari distribusi penyampelannya. Kesimpulannya, S1 relatif lebih efisien dibandingkan dengan S2, dalam pengestimasian θ, jika: σ2{S1} < σ2{S2} dan E{S1} = E{S2} = θ Sebagai contoh kita akan menduga daya tahan suatu produk sereal sarapan pagi. Distribusi dari daya tahan sereal diketahui berbentuk normal sehingga masalahnya adalah apakah kita menggunakan mean sampel atau median sampel untuk mengestimasikan μ. populasi. Berdasarkan teori statistika, kedua penduga tidak bias jika sampelnya berasal dari populasi yang normal. Kita juga mengetahui bahwa σ2{ }= σ2/n (pembuktian di belakang). Dari teori statistika dapat ditunjukkan bahwa σ2{Md} ≅ 1,57 σ2{ dari populasi normal jika n besar. Dengan demikian σ2{ } untuk penyampelan acak } < σ2{Md}, dan oleh karena itu X relatif lebih efisien dibandingkan Md dalam pendugaan μ di sini. Kasus di atas, yaitu σ2{ X } yang lebih kecil dari σ2{Md}, dapat digambarkan sebagai berikut: Distribusi Penyampelan Distribusi Penyampelan Md E{Md} = E{X} 2.1.3. Konsistensi Kriteria ke-3 yang dibutuhkan untuk mengidentifikasikan penduga titik yang baik adalah dengan melihat konsistensinya. Konsistensi didasarkan pada premis bahwa penduga yang baik seharusnya akan terletak semakin dekat dari parameter populasi dengan semakin besarnya ukuran sampel. Mean sample X merupakan penduga yang konsisten karena untuk penyampelan dari populasi normal, distribusi penyampelan X semakin merapat di sekitar µ dengan semakin meningkatnya ukuran sample. 2.1.4. Mean Squared Error (MSE) 94 Suatu kriteria keempat, kesalahan kuadrat mean (mean squared error), mengkombinasikan kriteria tidak bias dan efisiensi. Kriteria ini berguna sewaktu satu atau kedua-dua penduga yang digabungkan menjadi bias. Kesalahan kuadrat mean dari suatu estimasi S mengkombinasikan varians distribusi penyampelan S, yaitu σ2(S), dengan bias dari penduga, yaitu E(S)- θ, dengan cara berikut. Kesalahan Kuadrat Mean = σ2(S) + (E(S)- θ)2 Sebuah estimator yang sedikit bias tetapi memiliki distribusi penyampelan yang terkonsentrasi dekat parameter populasi θ akan lebih dipilih menurut kriteria ini daripada sebuah penduga tak bias yang memiliki distribusi penyampelan yang sangat bervariasi. Sebagai contoh, pertimbangkan dari dua penduga berikut ini: Estimator Si S1 S2 Varians σ2{Si} 20 80 Bias E{Si} - θ 5 0 Mean Squared Error σ2{Si}+ (E{Si}- θ)2 20 + 52 = 45 80 + 02 = 80 Maka S1 akan lebih dipilih daripada S2 berdasarkan kriteria kesalahan kuadrat mean. 2.2. Latihan 95 3. Distribusi Probabilitas X 3.1. Studi Experimen atas X Karena anggota suatu sampel merupakan variabel acak sebelum penyampelan dilakukan, nilai dari statistik sampel akan berbeda secara acak dari satu sampel ke sampel yang lain. Dengan kata lain, karena statistik sampel merupakan variabel acak, maka statistik sampel memiliki distribusi probabilitas, yaitu distribusi penyampelan (sampling distribution) statistik sampel tersebut. Di muka kita sudah menyinggung tentang distribusi penyampelan ini, tetapi belum menguraikannya secara mendalam. Untuk membahasnya akan digambarkan suatu eksperimen. Misalkan seorang auditor melakukan eksperimen berkaitan dengan sejumlah 8042 rekening piutang dari suatu perusahaan pembiayaan. Auditor bermaksud membandingkan hasil sensus dengan hasil penyampelan dalam menentukan mean populasi saldo audit dari ke8042 rekening tersebut. Saldo audit adalah saldo rekening yang menurut auditor tepat untuk sesuatu rekening. Saldo audit bisa berbeda dengan saldo rekening karena kesalahan penjumlahan, pembebanan biaya atau pemberian bunga. Anggaplah auditor tersebut telah mengaudit secara sensus dan menetapkan saldo audit untuk setiap rekening dari ke-8042 rekening piutang perusahaan sehingga mean populasi μ dari saldo audit rekening piutang diketahui. Berdasarkan hasil sensus diketahui bahwa mean populasi saldo audit μ adalah (semua angka dalam ribuan rupiah) sebesar 30,303 serta deviasi standar populasi saldo audit σ sebesar 30,334. Sebagai pembanding atas mean populasi tersebut, auditor melakukan 600 kali pengambilan sampel masing-masing untuk ukuran sampel sebesar 3, 10 dan 100. Dengan demikian total sampel yang akan dimiliki auditor adalah sebanyak 3 x 600 = 1800 sampel. Setiap sampel akan memiliki mean sampel masing-masing. Mean sampel dari masing-masing sampel, untuk setiap 600 sampel, akan membentuk distribusi penyampelan mean sampel (distribusi penyampelan ). Dengan demikian akan diperoleh 3 distribusi penyampelan setiap ukuran sampel. Selanjutnya setiap distribusi penyampelan untuk akan memiliki mean masing-masing yang merupakan mean dari ke-600 mean sampel atau singkatnya mean dari mean sampel. Mean dari mean sampel merupakan nilai harapan dari mean sampel atau E{ }. Dilihat dari sudut pandang distribusi penyampelan, mean dari mean sampel adalah mean dari distribusi penyampelan penyampelan atau nilai harapan dari distribusi . 96 3.1.1. Ukuran sampel 3 Dari ke-600 sampel untuk sampel dengan ukuran sampel 3, 5 sampel pertama tercantum pada daftar berikut (tabel tersebut jika memuat semua sampel tentunya akan memuat sebanyak 600 baris): 1 2 3 4 5 Sampel ke- Elemen dalam sampel 1 2 3 30,960 38,200 22,450 18,910 6,750 15,450 10,600 14,080 9,150 51,820 20,760 50,790 23,050 31,200 25,150 Berdasarkan tabel di atas perhatikan bahwa kelima mean sampel 30,537 13,703 11,277 41,123 26,467 berbeda satu sama lain dan tidak ada yang sama dengan mean populasi μ = 30,303. Faktanya bahkan beberapa mean sampel berbeda sangat jauh dengan mean populasi (misal X = 11,277). Perbedaan antara mean sampel dengan mean populasi dalam hal ini adalah akibat penyampelan dan merepresentasikan kesalahan penyampelan sebagaimana yang dibahas pada bab sebelumnya. Jika kesemua 600 sampel dengan ukuran sampel n = 3 dicantumkan, tidak hanya 5 sampel pertama seperti pada tabel di atas, maka kita akan dapat menarik tiga hasil penting sebagai berikut: 1. Meskipun ke-600 mean sampel berbeda satu sama lain (divergent) secara lebar, mean dari ke-600 mean sampel tersebut, yaitu sebesar 30,680 (yang diperoleh dari hasil lengkap yang tidak tercantum), sangat dekat dengan mean populasi µ = 30,303. 2. Deviasi standar dari ke-600 mean sampel yaitu 17,60 (yang juga diperoleh dari hasil lengkap yang tidak tercantum) menunjukkan bahwa variabilitas perbedaan antara mean sampel lebih kecil secara substansial dari variabilitas antar setiap saldo audit pada populasi (σ = 30,334). Besar deviasi standar untuk ke-600 mean sampel tersebut adalah sebesar sekitar 6/10 dari deviasi standar populasi.. 3. Jika dibuat distribusi frekuensi dan ditarik poligon frekuensi, ke-600 mean sampel memiliki poligon yang menceng ke kanan. Kemencengan pada poligon frekuensi mean sampel ini ini sama dengan kemencengan pada poligon frekuensi populasi. 3.1.2. Ukuran sampel 10 97 Selanjutnya dalam eksperimen tersebut, 600 sampel acak dengan ukuran sampel masingmasing n = 10 dipilih oleh auditor dari populasi sebanyak 8042 rekening hutang. Untuk eksperimen ini contoh sampel yang diperoleh, jika dimuat dalam tabel kira-kira akan sama dengan tabel sebelumnya tetapi dengan jumlah kolom elemen sampel sebanyak 10 sampel. Kita tertarik pada empat hasil penting sebagai bukti : 1. Ke-600 mean sampel untuk sampel berukuran n = 10 ini mempunyai mean sebesar 30,230. Nilai ini, sebagaimana pada ukuran sampel n = 3, sangat dekat dengan mean populasi µ = 30,303. 2. Deviasi standar ke-600 mean sampel, yaitu sebesar 9,13, lebih kecil dari deviasi standar populasi σ = 30,334, yaitu sekitar 3/10 dari deviasi standar populasi. Nilai ini masih lebih kecil dari deviasi standar ke-600 mean sampel dengan ukuran sampel 3, yaitu yang besarnya 6/10 dari deviasi standar populasi. 3. Berdasarkan hasil (2) ke-600 mean sampel yang berukuran n = 10 ini, variabilitas perbedaannya satu sama lain lebih sempit daripada ke-600 mean sampel yang berukuran n = 3. Hal ini dapat dilihat dari besarnya deviasi standarnya masing-masing, yaitu 9,13 dan 17,60. 4. Distribusi dari nilai ke-600 mean sampel yang berukuran n = 10 hanya sedikit menceng ke kanan, kontras dengan nilai positif kemencengan dari populasi. 3.1..3. Ukuran Sampel 100 Bagian akhir dari eksperimen ini adalah pemilihan secara acak 600 sampel terakhir dari 1800 sampel dengan ukuran n =100. Kesimpulan pentingnya adalah sebagai berikut: 1. Mean dari ke-600 mean sampel, yaitu 30,310, kembali sangat dekat dengan mean populasi µ = 30,303. 2. Deviasi standar dari ke-600 mean sampel, yaitu 3.05, lebih kecil baik dari ke-600 mean sampel yang berukuran n = 3 maupun dari yang berukuran n = 10. Deviasi standar ini kira-kira adalah sebesar 1/10 dari deviasi standar populasi. 3. Berdasarkan hasil (2) ke-600 mean sampel yang berukuran n = 100 ini, variabilitas perbedaannya satu sama lain lebih sempit daripada ke-600 mean sampel yang berukuran n = 10 maupun n = 3. Hal ini dapat dilihat dari besarnya deviasi standarnya masing-masing, yaitu 3,05; 9,13 dan 17,60. 4. Bentuk distribusi ke-600 mean sampel dengan ukuran sampel 100 cukup simetris dan tampak normal. 98 3.2. Hasil Teoretis Distribusi Penyampelan X Sebagaimana dibahas sebelumnya, statistik sampel adalah variabel acak sebelum penyampelan dilakukan dan distribusi probabilitas yang bersesuaian dengannya dinamakan distribusi penyampelan dari statistik. Untuk percobaan kita di atas, ke-600 nilai X yang diperoleh dari masing-masing ukuran sampel n merepresentasi 600 amatan dari distribusi penyampelan X (sampling distribution of X ) atau distribusi penyampelan mean sampel 4 . Terdapat distribusi penyampelan X yang berbeda-beda untuk setiap ukuran sampel dan untuk setiap populasi. Hasil teoretis distribusi penyampelan X , yang mencakup karakteristik dan bagaimana distribusi tersebut berhubungan dengan populasi yang disampel dan ukuran sampel, adalah sebagai berikut: 1. Nilai harapan X , atau mean dari distribusi penyampelan X , yang dinotasikan dengan E{ X } adalah sama dengan mean populasi μ pada penyampelan acak sederhana atau E{ X } = μ . Pada eksperimen di atas, karakteristik ini dibuktikan dengan nilai E{ X } masing-masing 30,680; 30,230; dan 30,310 masing-masing untuk E{ X } dengan ukuran sampel 3, 10 dan 100 yang perbedaannya dengan mean populasi μ dapat dianggap berasal dari kesalahan percobaan. 2. Deviasi standar dari X , atau deviasi standar dari distribusi penyampelan X , yang dinotasikan dengan σ{ X } adalah sama dengan varians populasi dibagi akar kuadrat ukuran sampel atau σ{ X } = σ/√n. Karena deviasi standar merupakan akar kuadrat dari varians, maka dapat pula dinyatakan bahwa varians dari X , atau varians dari deviasi standar X , atau σ2{ X } adalah sama dengan varians populasi dibagi ukuran sampel. Pada eksperimen kita di atas, karakteristik ini dapat dibuktikan dengan tabel berikut (khusus untuk deviasi standar, untuk varians mengikuti dengan sendirinya): Ukuran Sampel n 3 10 100 Deviasi Standar ke-600 nilai X σ{ X } 17,60 9,13 3,05 Deviasi Standar Populasi dibagi akar n σ/√ n 17,51 9,59 3,03 Dengan 4 Istilah distribusi penyampelan digunakan untuk mengindikasikan bahwa distribusi yang dibicarakan adalah berasal dari pengambilan sejumlah besar sampel, yang kemudian untuk masing-masing sampel dicari statistiknya, misalnya dalam hal ini mean sampelnya. 99 demikian apa yang dikemukan pada uraian eksperimen sebagai deviasi standar mean sampel yang masing-masing 6/10, 3/10, dan 1/10 lebih kecil dari deviasi standar populasi ternyata tepat sama dengan deviasi standar populasi dibagi akar kuadrat ukuran sampel (seperti sebelumnya sedikit perbedaan yang ada diasumsikan berasal dari kesalahan eksperimen). 3. Karakteristik 2 di atas mengindikasikan bahwa deviasi standar dari X menurun dengan berbanding terbalik terhadap akar kuadrat ukuran sampel. Jadi, semakin besar ukuran sampel, semakin kecil deviasi standar, yang berarti distribusi penyampelan X semakin terkonsentrasi. Hasil ini sejalan dengan intuisi kita bahwa sampel yang lebih besar akan menuntun kepada hasil yang lebih tepat. Namun demikian, karena deviasi standar X menurun berbanding terbalik terhadap akar kuadrat ukuran sample, maka akan semakin sulit untuk mengurangi σ{ X } dengan meningkatkan n. Misalkan, jika deviasi standar X yang berbasiskan ukuran s a mp e l n = 100 h e n d a k d i k u r a n g i s e t e n g a h n y a , ma k a j u ml a h s a mp e l h a r u s d i t a mb a h e mp a t k a l i l i p a t n y a (0,5 = 1/√4) y a i t u me n j a d i 400. J i k a a k a n d i k u r a n g k a n me n j a d i s e p e r e mp a t n y a , ma k a j u ml a h s a mp e l h a r u s d i t a mb a h e n a m b e l a s k a l i l i p a t n y a (0,25 = 1/√16) y a i t u me n j a d i 1600 s a mp e l . 4. Karakteristik 2 juga menunjukkan bahwa variabilitas distribusi penyampelan X berbanding lurus dengan variabilitas populasi. Jadi, untuk sebarang ukuran sampel n, X cenderung lebih bervariasi terhadap mean populasi μ pada populasi yang lebih bervariasi daripada pada populasi yang lebih terkonsentrasi. 5. Distribusi dari nilai X menjadi lebih simetris dengan semakin besarnya ukuran sampel n. Dalam eksperimen di atas hubungan ini ditunjukkan dengan lebih simetrisnya poligon frekuensi distribusi ke-600 nilai mean sampel pada ukuran sampel n = 100. Sebagai catatan, lima karakteristik hasil teoretis di atas berlaku untuk: 1. Populasi tak terbatas, 2. Populasi terbatas ketika ukuran sampel n relatif kecil terhadap ukuran populasi N. Kasus kedua berlaku untuk eksperimen yang telah didiskusikan, yaitu dengan N sama dengan 8042 dan n masing-masing 3, 10 dan 100. 3.3. DISTRIBUSI PENYAMPELAN X NYATA 100 Jika suatu populasi asal diketahui terdistribusi normal, teorema statistik menyatakan bahwa distribusi penyampelan dari populasi tersebut juga akan nyata-nyata terdistribusi normal. Selain itu untuk suatu populasi diskrit sederhana, distribusi penyampelan nyata dapat diperoleh dengan penyebutan satu-persatu seluruh sampel yang mungkin. 3.3. Teorema Batas Memusat Kebanyakan populasi di dunia nyata tidak terdistribusi normal. Dengan demikian jika kita mengetahui bentuk distribusi penyampelan hanya untuk populasi yang terdistribusi normal saja, maka statistika sebagai disiplin tidak akan banyak berguna. Kabar baiknya adalah terdapat suatu teorema lain dalam statistik yang sangat penting yang membuat statistik menjadi alat bantu riset yang paling luas digunakan. Teorema ini sesungguhnya telah dibuktikan dalam eksperimen kita di atas dan telah masuk sebagai karakteristik kelima hasil teoretis distribusi penyampelan X . Teorema ini berbunyi: Untuk hampir semua populasi, distribusi penyampelan X mendekati normal ketika ukuran sampel acak sederhana cukup besar. Kita dapat membuktikan teorema ini dengan melanjutkan eksperimen kita di atas. Pada eksperimen di atas kita mengetahui mean populasi µ = 30,303 dan deviasi standar populasi σ = 30,334. Sementara untuk distribusi penyampelan X untuk ukuran sampel n = 100, berdasarkan hasil teoretis kita peroleh: E{ X } = µ = 30,303 σ{ X } = σ 30,334 3,033 = = 100 n Jika distribusi penyampelan X untuk n = 100 mendekati normal, sesuai teorema batas memusat, maka kita dapat menentukan dengan tabel normal – proporsi / probabilitas nilai X yang diharapkan muncul pada sebarang interval. Sebagai contoh untuk interval 30,303 ± 3,50 deviasi standar; deviasi 3,5 sama dengan 3,5/ σ{ X } = 3,5/3,033 = 1,15 kali deviasi standar dari mean. Kita temukan pada tabel normal atau melalui fungsi di MS Excel bahwa P(-1,15 ≤ Z ≤ 1,15) = 0,750. Proporsi aktual ke-600 mean sampel yang muncul pada interval tersebut berdasarkan eksperimen (yang rinciannya tidak ditunjukkan di sini) adalah 0,752. Kedua hasil di atas secara meyakinkan menunjukkan tingkat kesamaan yang tinggi antara hasil eksperimen dengan hasil prediksi berdasarkan teorema batas memusat. Untuk lebih meyakinkan kesimpulan tersebut, berikut disajikan perbandingan probabilitas yang sama pada distribusi penyampelan X dengan ukuran sampel n =100 untuk beberapa 101 interval lain (betul-betul menurut hasil eksperimen, namun karena alasan teknis keterbatasan ruang, tidak dicantumkan pada bab ini). Hasil Eksperimen Interval Jumlah nilai X di Interval 451 559 594 599 30,3 +/- 3,50 30,3 +/- 5,50 30,3 +/- 7,50 30,3 +/- 9,50 Catatan: T.B.M. = Teorema Batas Memusat Proporsi nilai X di interval 0,752 0,932 0,990 0,998 Harapan teoretis berbasis T.B..M Probabilitas Distrbusi Normal 0,750 0,930 0,986 0,998 Tingkat kesamaan yang tinggi antara hasil eksperimen dengan hasil prediksi berdasarkan teorema batas memusat mendukung secara kuat penerapan teorema batas memusat dalam kasus ini. Berapa ukuran sampel yang cukup besar untuk teorema batas memusat agar bisa diaplikasikan? Jumlah yang dibutuhkan tergantung pada sifat dari populasi dan tingkat aproksimasi terhadap distribusi normal yang disyaratkan. Umumnya, untuk populasi yang menceng sebagaimana yang diilustrasikan dalam eksperimen di atas, suatu ukuran sampel acak yang lebih besar dibutuhkan agar distribusi sampel X mendekati normal, daripada 3.4. Penggunaan Teorema Batas Memusat Untuk menggunakan teorema batas memusat untuk membuat pernyataan probabilitas tentang X untuk ukuran sampel yang cukup besar, kita memerlukan variabel yang distandardisasi Z sebagai berikut: Z = X − E{ X } σ {X } = X −µ σ/ n Variabel Z ini bersesuaian dengan definisi pada bab sebelumnya tentang variabel normal standar, kecuali bahwa variabel yang distandardisasi saat ini adalah X bukan X. Berikut ilustrasi penggunaan teorema batas memusat. 1. Anggaplah kita telah memilih sampel acak sederhana dengan n = 25 amatan dari populasi dengan mean populasi μ = 80 dan deviasi standar populasi σ = 5. Diketahui bahwa distribusi populasi tidak menceng secara ekstrim. Asumsikan kita ingin mengetahui sket distribusi frekuensi serta probabilitas bahwa X akan lebih besar dari 82. Kita tidak mengetahui bentuk sebenarnya dari distribusi frekuensi relatif populasi, tapi kita tahu bahwa distribusi tersebut harus terpusat sekitar μ = 80 dengan sebaran sebesar σ = 5 102 dan tidak menceng secara ekstrim. Salah satu kemungkinan dari bentuk distribusi frekuensi populasi tersebut adalah sebagaimana ditunjukkan pada gambar (a) berikut: 70 75 80 85 90 77 Gambar a μ = 80 83 Gambar b Berdasarkan teorema batas memusat maka kita mengetahui bahwa distribusi penyampelan X akan mendekati normal karena populasi yang disampel tidak menceng secara ekstrim. Kita juga mengetahui bahwa distribusi penyampelan X akan memiliki nilai harapan dan deviasi standar masing-masing: E{ X } = μ = 80 dan σ { X } = σ 5 = =1 n 25 Kira-kira bentuk distribusi penyampelan X ditunjukkan pada gambar (b) di atas. Untuk mengetahui probabilitas bahwa X lebih besar dari 82, seperti telah dijelaskan pada bab sebelumnya, kita terlebih dahulu harus melakukan proses standardisasi terhadap X = 82 menjadi nilai z sebagai berikut. z = X − E{X } σ {X } = 82 − 80 2. = 1 Untuk memperoleh nilai P(Z ≥ 2), karena tabel hanya mencantumkan luas area untuk nilai z ke kiri, maka sebagaimana telah dibahas pada bab sebelumnya, probabilitas tersebut dapat diperoleh dengan hubungan sebagai berikut. P(Z > 2) = 1 – P(Z ≤ 2) Dari tabel normal dapat kita peroleh bahwa P(Z ≤ 2) = 0.9772, sehingga nilai P(Z > 2) = 1 – 0,9772 = 0,0228. Jika diplot luas area a dari P(Z ≥ 1,00) adalah area ke sebelah kanan garis vertikal z=2 dan di bawah kurva normal standar, sebagaimana dapat dilihat pada grafik berikut. 0.0228 0 2 103 2. Misalkan dalam contoh eksperimen di atas, auditor tidak melakukan eksperimen, alih-alih dia langsung melakukan satu kali penyampelan dengan ukuran sampel sebesar 250. Auditor kemudian ingin mengetahui probabilitas bahwa mean sampel akan berada di antara selisih (semua angka dalam ribuan rupiah) 4 di atas dan di bawah mean populasi, yaitu dalam hal ini antara 26,3 dan 34,3. Untuk memperoleh probabilitas yang diinginkan, kembali kita menggunakan teorema batas memusat. Berdasarkan teorema tersebut maka distribusi penyampelan X akan memiliki nilai harapan dan deviasi standar masing-masing: E{ X } = μ = 30,303 dan σ { X } = σ 30,334 = = 1,92 n 250 Untuk mengetahui probabilitas yaitu P(26,3 < X < 34,3), kita terlebih dahulu harus melakukan proses standardisasi terhadap X = 26,3 dan X = 34,3 menjadi nilai z sebagai berikut. z = X − E{X } σ {X } = dan 26,3 − 30,3 = −2,08 1,92 z = 34,3 − 30,3 = 2,08 1,92 Dengan bantuan tabel atau software MS Excel kita peroleh bahwa P(26,3 < X < 34,3) = P(-2.08 < Z < 2,08) = 0.96. 3. Untuk mengetahui efek ukuran sampel, jika ukuran sampel pada contoh 2 kita ubah menjadi 100, bukan lagi 250, maka deviasi standar distribusi penyampelan akan menjadi: σ {X } = σ 30,334 = = 3,03 n 100 Nilai z akan menjadi z = X − E{X } σ {X } = dan z = 26,3 − 30,3 26,3 − 30,3 = 1,32 = −1,32 3,03 3,03 Dan probabilitasnya P(26,3 < X < 34,3) = P(-1,32 < Z < 1,32) = 0,81. Bandingkan probabilitas ini dengan probabilitas pada ukuran sampel 250 sebesar 0,96. Hasil ini sesuai dengan intuisi kita bahwa mean sampel dari ukuran sampel yang lebih besar akan menjadi penduga yang lebih tepat (lebih presisi) terhadap mean populasi dibanding mean sampel dari ukuran sampel yang lebih kecil. 3.5. Latihan 104 BAB VIII PENDUGAAN INTERVAL 7.1. PENGERTIAN PENDUGAAN INTERVAL Pada bagian ini, kita akan membahas prosedur statistik untuk mengestimasi mean populasi dalam bentuk interval, dengan lebar interval menunjukkan keakuratan estimasi. Semua kesimpulan prosedur yang akan didiskusikan, mengasumsikan bahwa sampelnya adalah sampel acak sederhana. Ketika populasinya terbatas, prosedur seleksi probabilitasnya harus jelas supaya memenuhi persyaratan sebagaimana telah dibahas sebelumnya. Ketika yang menjadi perhatian adalah terhadap proses, sehingga populasi merupakan populasi tak terbatas, himpunan data harus diperiksa melalui prosedur diagnosis sebagaimana juga telah dibahas pada bab sebelumnya. Pendugaan interval (interval estimation) atas sebuah parameter populasi menggunakan sepasang batas yang menunjukkan rentang sebagai tempat dimana parameter populasi yang akan diestimasi terletak. Sebuah dugaan interval (interval estimate) dari parameter populasi θ terdiri dari dua batas L dan U sedemikian rupa sehingga: L≤ θ ≤ U dengan L (lower) sebagai batas bawah dan U (upper) sebagai batas atas. Sebagai contoh pendugaan interval mean populasi μ akan berbentuk: L≤ μ ≤ U Kembali ke contoh audit atas rekening piutang sebelumnya. Misalkan auditor telah memilih sampel acak sederhana 100 rekening dari 8042 rekening piutang dari perusahaan yang sama untuk memperkirakan mean populasi jumlah audit μ dari seluruh rekening piutang perusahaan tersebut. Sebagian dari ke-100 data sampel disajikan pada tabel berikut. I 1 2 3 ... 99 100 n =100 Xi 80,29 6,97 4,55 ... 51,51 10,30 3318,73 X = 3318,73 100 = 33,19 Xi – X 47,10 -26,22 -28,64 ... 18,32 -22,89 0 2 s = 117.674,67 100 − 1 = 1188,63 (Xi – X )2 2.218,41 687,49 820,25 ... 335,62 523,95 117.674,67 s = 34,48 Berdasarkan tabel tersebut kita peroleh mean sampel X = 33,19. Kita mengetahui bahwa perkiraan ini mempunyai beberapa sifat-sifat yang diinginkan seperti tidak bias dan 105 konsisten. Namun, kita juga tahu bahwa tentu saja X = 33,19 tidak sama dengan μ. Kita oleh karena itu berharap untuk membentuk pendugaaan interval atas μ. 4.1.1. Menduga Deviasi Standar X Untuk membentuk pendugaan interval yang mencerminkan ketelitian penduga X atas μ, kita perlu memperkirakan variabilitas (deviasi standar) dari distribusi penyampelan X . Sebagaimana telah diuraikan sebelumnya variabilitas distribusi penyampelan X mengindikasikan seberapa mungkin bahwa mean sampel X berada dekat dengan mean populasi μ. Dengan semakin kecilnya variabilitas distribusi penyampelan, maka semakin besarlah probabilitas bahwa X akan terletak pada interval spesifik apapun dari μ. Meskipun kita hanya mengambil satu sampel dari populasi, kita dapat memperkirakan variabilitas distribusi penyampelan X . Alasannya karena varians X , σ2{ X }, merupakan fungsi sederhana dari varians populasi σ2 sebagaimana ditunjukkan oleh formula σ2 { X } = σ 2 n Untuk menduga σ2( X ), kita oleh karena itu menggantikan secara sederhana varians populasi σ2 dalam formula ini dengan varians sampel s2. Penduga yang dihasilkan dinotasikan sebagai s2{ X } : s2 { X } = s 2 n Sejalan dengan itu, deviasi standar dari X yang diestimasikan dinotasikan sebagai s{ X } s{ X } = s 2{X} = s n Kedua penduga di atas (penduga atas varians dan deviasi standar distribusi penyampelan X ) layak digunakan untuk populasi tak terbatas dan juga untuk populasi terbatas selama nilai n/N cukup kecil (biasanya sebesar ≤ 5 %). Pada contoh rekening piutang usaha di atas, kita ingin mengestimasi variabilitas distribusi penyampelan X dari hasil sampel satu sampel dengan ukuran sampel 100 di atas. Kita memiliki s2 = 1188,63 dan n = 100. Karena itu kita dapat menggunakan formula baru di atas dan memperoleh : s2{ X } = 1188,62 = 11,886 100 dan s{ X } = 11,886 = 34,48 = 3,448 100 106 Karena ukuran sampel n = 100 adalah besar, maka distribusi penyampelan X mendekati normal berdasarkan teorema batas memusat. Misalkan kita hendak membentuk interval dengan lebar 4 deviasi standar, dari 2 deviasi standar di bawah mean sampel sampai 2 deviasi standar di atas mean sampel. Maka batas interval kita adalah: L = X - 2 s{ X } = 33,19 – 2(3,448) = 26,29 U = X + 2 s{ X } = 33,19 + 2(3,448) = 40,09 Sehingga kita memperoleh pendugaan interval dengan lebar 4 deviasi standar, yaitu: 26,29 ≤ μ ≤ 40,09 Dengan demikian kita mengestimasi bahwa jumlah mean audit rekening piutang pada populasi tersebut adalah suatu nilai di antara $26,29 dan $40,09. Karena kita telah mengetahui dari eksperimen yang diuraikan sebelumnya bahwa μ = 30,033, maka kita dapat memastikan bahwa pendugaan interval yang dimaksud adalah benar Pendugaan interval yang kita lakukan di atas mengikuti langkah-langkah berikut: 1. Pilih sebuah sampel acak sederhana dengan ukuran n 2. Tentukan X dan s dari sampel 3. Estimasikan deviasi standar distribusi penyampelan X , σ{ X }, dengan deviasi standar sampel s{ X } = s n 4. Hitung interval X – 2s{ X } ≤ μ ≤ X + 2s{ X } 4.1.2. Karakteristik Estimasi Interval Kita akan mempelajari karakteristik pendugaan interval di atas dengan melanjutkan eksperimen awal di atas. Misalkan auditor melakukan 600 kali pengambilan sampel hanya untuk ukuran sampel sebesar 100. Sampel yang kita peroleh pada tabel di atas dapat dianggap sebagai sampel pertama dari 600 sampel yang mungkin. Misalkan kemudian, kita tarik sampel kedua, dan sampel tersebut memiliki X = 31,89 dan s = 34,94. Jika sampel ini yang diperoleh dalam penarikan hanya satu sampel seperti di atas, kita dengan demikian akan memperoleh s{ X } = 39,94/ 100 = 3,494 dan mendapatkan akurasi perhitungan 2(3,494) = 6,99, yang memberikan batasan 31,89 ± 6,99. Dengan demikian kita akan mendapatkan interval 24,90 ≤ μ ≤ 38,88. Sekali lagi, interval ini memuat μ = 30,303. Jika kita teruskan pengambilan sampel sampai 600 kali, maka masing-masing penyampelan 107 akan memberikan interval sendiri-sendiri. Gambar berikut menunjukkan pendugaan interval untuk sebagian dari ke-600 penyampelan, termasuk dua yang telah disebutkan. Perhatikan bahwa semua interval yang dihasilkan dari sampel yang ditampilkan, kecuali interval dari penyampelan ke-39, mencakup mean populasi μ = 30,303. Sampel ke-39 ini memberikan pendugaan interval di atas μ. Dengan demikian secara keseluruhan, 559 dari 600 interval dalam eksperimen, atau 93,2%, berhasil mencakup μ. Persentase interval yang berhasil memuat μ ini merupakan ukuran tingkat keyakinan yang kita dapatkan dari prosedur pendugaan interval ini. Dalam hal ini dapat dikatakan akan sangat mungkin bahwa suatu pendugaan interval yang diperoleh dari satu sampel saja, yang manapun sampel yang terpilih tersebut, akan mencakup μ, karena 93,2% dari 600 estimasi interval akan memuat μ. Jelasnya, persentase interval yang akan berhasil memuat μ, adalah suatu fungsi dari perkalian atas variabilitas distribusi penyampelan s{ X } yang digunakan dalam perhitungan interval. Didalam ilustrasi ini, kita menggunakan perkalian dengan 2s{ X }. 4.2. INTERVAL KEYAKINAN UNTUK μ SAMPEL BESAR Pada pembahasan di atas kita melakukan pendugaan interval dengan menetapkan terlebih dahulu jarak 4 deviasi standar sebagai batas yang diinginkan. Dengan demikian, data yang diberikan adalah nilai z pada distribusi normal standar; berapa probabilitas yang dimiliki pada interval tersebut akan tergantung dari nilai z yang ditetapkan. Pada bagian ini kita akan melakukan pendugaan interval berdasarkan suatu tingkat probabilitas yang kita kehendaki. Dengan demikian pada kasus ini, data yang diberikan adalah probabilitas dari suatu distribusi normal standar (persentil ke-z[a]); berapa batas interval z yang akan memberikan probabilitas tersebut akan tergantung pada probabilitas yang ditetapkan. Tingkat probabilitas yang dikehendaki ini biasa disebut sebagai tingkat keyakinan (level of confidence). Prosedur yang akan dijelaskan dapat diaplikasikan pada sampel acak sederhana yang berukuran besar Probabilitas bahwa suatu pendugaan interval yang tepat dapat diperoleh disebut koefisien keyakinan (confidence coefficient) dan dinotasikan sebagai 1- α. Sejalan dengan itu, keyakinan (confidence interval). Batas L dan interval L ≤ μ ≤ U disebutinterval sebagai U masing-masing disebut batas keyakinan bawah (lower confidence limit) dan batas keyakinan atas (upper confidence limit). Nilai koefisien keyakinan biasanya dinyatakan sebagai persen misal koefisien keyakinan 0,95 (yaitu 1 – 0,05) umumnya dinyatakan sebagai 95 %. 108 Perkiraan batas keyakinan (1 – α) untuk mean populasi μ, saat ukuran sampel acak cukup besar, adalah: X ± z (1 − α / 2)s{X} sehingga perkiraan interval keyakinan (1 – α) untuk mean populasi μ adalah: X − z (1 − α / 2)s{X} ≤ µ ≤ X + z (1 − α / 2)s{X} Formula ini dapat kita turunkan dengan memandang probabilitas suatu distribusi normal standar di tengah yang dibatasi dengan dua nilai z di sebelah kiri (batas keyakinan bawah) dan di sebelah kanan (batas keyakinan atas) yang sesuai dengan koefisien keyakinan yang dikehendaki, sedemikian rupa sehingga: ≤ z (1- α /2)] = 1– α P[z(α/2) ≤ X−µ s{X} Gambar berikut menunjukkan kenapa probabilitas tersebut adalah sebesar 1– α : α/2 α/2 1-α z(α/2 z(1-α/2) Selanjutnya karena z(α/2) = – z(1– α/2), maka: P[–z(1– α/2) ≤ X−µ s{X} ≤ z (1- α /2)] = 1– α Dan dengan menyusun ulang diperoleh formula di atas tadi: P[ X − z (1 − α / 2)s{X} ≤ µ ≤ X + z (1 − α / 2)s{X} ] = 1– α Berikut beberapa contoh penerapan formula di atas untuk pendugaan interval dengan tingkat keyakinan yang ditentukan. 1. Melanjutkan contoh piutang dagang sebelumnya dengan anggota sampel pada tabel halaman 18, misalkan kita ingin membuat interval keyakinan untuk μ dengan koefisien keyakinan 1– α = 0,954. Karenanya, α = 0,046 dan 1– α/2 = 0,977. Kita temukan dari tabel normal bab sebelumnya bahwa z(0,977) = 2. Sebelumnya kita memperoleh : X = 33,19 s{ X } = 3,448 109 Dengan demikian: L = 33,19 – 2(3,448) = 26,29 U = 33,19 + 2(3,448) = 40,09 dan 26,29 ≤ μ ≤ 40,09 Dengan begitu kita simpulkan, dengan tingkat keyakinan 95,4%, bahwa mean jumlah audit populasi adalah antara 26,29 dan 40,09. Perhatikan bahwa interval keyakinan 95,4% ini adalah setara dengan yang telah kita peroleh sebelumnya pada sub 4.1.2. (halaman 21). Sekarang kita tahu bahwa pendugaan interval kita di atas mempunyai koefisien keyakinan 95,4 persen. Pada contoh eksperimen kita di atas dengan mengambil 600 kali penyampelan, interval yang tepat memuat μ berjumlah 93,2% yang mendekati 95,4% koefisien keyakinan menurut tingkat keyakinan yang kita harapkan pada perhitungan saat ini (perbedaan dapat dianggap berasal dari kesalahan eksperimen/penyampelan). Interpretasi atas interval keyakinan dengan demikian dapat dilakukan dalam konteks eksperimen di atas. 2. Pada contoh yang sama, sekiranya kita ingin menggunakan suatu koefisien keyakinan lain, misalkan 1– α = 0,90, maka kita memerlukan z(0,95)= 1,645. Batasbatas keyakinan sekarang adalah 33,19 ± 1,645(3,448) sehingga interval keyakinan 90% adalah 27,52 ≤ μ ≤ 38,86. 3. Dalam percobaan acak dari n = 40 batu bata dari proses produksi, berat rata-ratanya adalah X = 3,742 kg dan deviasi standarnya adalah s = 0,0710 kg. Kita ingin menduga μ populasi dari proses dengan interval keyakinan 99%. Kita kemudian tentukan: s{ X } = 0,0710 = 0,0112 dan z(0,995) = 2,576 40 Sehingga kita memperoleh batas keyakinan 3,724 ± 2,576 (0,0112). Dengan demikian interval keyakinan 99 % adalah : 3,70 ≤ μ ≤ 3,75 Kita dapat menginterpretasikan interval ini bahwa dengan tingkat keyakinan 99% mean berat proses batu bata adalah antara 3,70 dan 3,75 kg. 4.3. INTERVAL KEYAKINAN UNTUK μ SAMPEL KECIL Ketika ukuran sampel acak kecil, maka (X − µ ) / s{X} tidak lagi mengikuti distribusi normal standar seperti dijelaskan sebelumnya dan pembentukan interval keyakinan μ tergantung kepada sifat populasi yang diamati. Prosedur berikut akan berlaku untuk (1) 110 sampel acak sederhana dengan ukuran sampel n kecil dari populasi normal, dan (2) sampel acak sederhana dari populasi yang tidak terlalu menyimpang dari normal dengan ukuran sampel tidak terlalu kecil. Untuk kedua sampel tersebut berlaku hubungan: X−µ s{X} = t(n – 1) Notasi t(n – 1) pada hubungan di atas menunjuk kepada distribusi t dengan derajat kebebasan n-1. Hubungan di atas menjelaskan pada kita bahwa statistik (X − µ ) / s{X} mengikuti distribusi t dengan derajat kebebasan n-1 ketika populasi yang disampel mengikuti (1) dan (2) di atas. Suatu distribusi t bersifat kontinyu, unimodal (bermodus satu) dan simetris, dengan mean 0. Bentuk distribusi t tampak sama dengan distribusi normal standar tapi lebih variatif. Dengan semakin besarnya ukuran sampel, maka derajat kebebasan n-1 menjadi semakin besar, variabilitas tambahan yang dibawa s{ X } menjadi semakin kecil dan distribusi t akan semakin mendekati distribusi normal standar. Untuk penentuan interval keyakinan berdasarkan tingkat keyakinan tertentu, prosedur yang berlaku pada sampel besar juga akan berlaku pada kasus yang akan dibahas saat ini, kecuali persentil yang akan digunakan adalah dari distribusi t, bukannya persentil dari distribusi normal standar. Batas Keyakinan 1-α untuk μ untuk sampel dari kedua populasi di atas adalah: X ± t (1 − α / 2; n − 1)s{X} Batas-batas keyakinan ini tepat untuk segala macam ukuran sampel, besar atau kecil selama memenuhi (1) dan (2) di atas, yaitu populasi yang disampel normal atau populasi tidak terlalu jauh dari normal selama ukuran sampel cukup besar. Kelayakan dari perkiraan kenormalan populasi dapat diuji berbagai analisis statistik tingkat lanjut. Berikut contoh penerapan pendugaan interval untuk μ sampel kecil (contoh 1) dan untuk populasi nonnormal (contoh 2). 1. Sebuah sampel berupa lima kaleng saus tomat diambil secara acak dari suatu lini produksi segera setelah pengisian. Isi dari kelima kaleng saus tersebut ditimbang untuk menaksir mean berat dari proses pengisian saus ke seluruh kaleng yang diproduksi. Pengalaman sebelumnya menunjukkan bahwa distribusi berat isi saus pada setiap kaleng berbentuk normal. Akan ditentukan dengan tingkat keyakinan 99% interval keyakinan untuk proses mean populasi μ. 111 Berikut adalah ini adalah berat isi kaleng hasil sampel (dalam ons) i X N = 5 X = 23,9 1 23,0 2 23,5 3 23,5 4 25,0 5 24,5 S = 0,822 Berdasarkan data di atas, s{ X } = s/ n = 0,822/ 5 = 0,368. Koefisien keyakinan yang dinginkan adalah 1-α = 0,99, jadi α = 0,01 dan 1- α/2 = 0,995. Derajat kebebasan dari distribusi t adalah n – 1 = 5 – 1 = 4. Dari tabel t pada lampiran bab ini kita menemukan bahwa t(0,995; 4) = 4,604. Menggunakan rumus interval untuk populasi normal sampel kecil atau populasi tidak terlalu jauh dari normal, kita memperoleh interval keyakinan 23,9 ± 4,604(0,3608), yang menghasilkan 99 persen interval keyakinan, yaitu: 22,2 ≤ μ ≤ 25,6 Interpretasi dari solusi ini adalah dengan tingkat keyakinan 99%, mean berat saus yang diisikan pada seluruh proses pengisisan saus tersebut adalah antara 22,2 sampai 25,6 ons Komentar : 1. Interval keyakinan yang dirumuskan di atas akan menjadi sama dengan sampel besar untuk ukuran-ukuran sampel besar. Alasannya adalah bahwa perkalian t pada interval tersebut mendekati perkalian normal standar selama ukuran sampel bertambah 2. Terkadang deviasi standar populasi σ diketahui dan tidak perlu diperkirakan oleh deviasi standar sampel s. Dalam kasus ini, σ{ X } juga diketahui secara tepat. Jika populasi normal, maka ( X – μ)/σ{ X } mengikuti distribusi normal standar sehingga interval keyakinan yang tepat dalam kasus ini adalah X ± z(1– α/2) σ{ X }. 2. Suatu sampel acak dengan ukuran sampel n = 15 dokter dipilih dari suatu komunitas masyarakat untuk menghitung mean pengenaan biaya pemeriksaan pasien yang menderita penyakit umum. Hasil sampel adalah (dalam ribuan) X = Rp74,35 dan s = Rp4,28. Diketahui bahwa distribusi pengenaan biaya pemeriksaan oleh dokter-dokter pada komunitas masyarakat tersebut agak menceng, tetapi tidak terlalu besar, sehungga batas keyakinan pada formula di atas dapat digunakan. Koefisien keyakinan yang dikehendaki adalah 1–α = 0,95. Kita memerlukan t(0,975; 14) = 2,145 dan juga s{ X } = s/ n = 4,28/ 15 = 1,105. Oleh karena itu batas keyakinan adalah 74,35 ± 2,145(1,105). Maka, dengan 112 keyakinan 95 persen, kita memperkirakan bahwa harga rata-rata dari prosedur dalam masyarakat adalah antara Rp72.000 sampai Rp76.700 Komentar: Bila suatu populasi terlampau tidak normal, suatu transformasi matematis atas data sering dapat ditemukan yang dapat membuat populasi menjadi cukup dekat dengan distribusi normal sehingga batas keyakinan di atas dapat digunakan kepada data transformasian. Transfromasi yang biasa diterapkan misalnya transformasi logaritma karena data log x pada umumnya lebih kurang menceng daripada data x yang tidak diubah. 4.4. LATIHAN 113

Statistika Terapan dengan Aplikasi R

Products

Support

Statistika Terapan dengan Aplikasi R

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib