Uploaded by teman.sepi

Statistika Terapan dengan Aplikasi R

advertisement
[Tanggal]
STATISTIKA TERAPAN
DISERTAI PENGGUNAAN
APLIKASI R
Soffan Marsus
POLITEKNIK KEUANGAN NEGARA STAN
DAFTAR ISI
BAB I PEROLEHAN DAN MANAJEMEN DATA .......................................................... 4
1. Pendahuluan ..................................................................................................................... 4
2. Himpunan Data ................................................................................................................ 4
2.1. Karakteristik Himpunan Data ....................................................................................... 4
2.2. Jenis Data ...................................................................................................................... 5
2.3. Sumber Data dan Pengertian Data Primer dan Sekunder ............................................. 6
3. Metode Memperoleh Data Primer: Studi Eksperimen dan Observasi ............................. 7
4. Perolehan Dan Manajemen Data ..................................................................................... 8
4.1. Prosedur Perolehan Data ............................................................................................... 8
4.2. Manajemen Data Terkomputerisasi ............................................................................ 10
BAB II POLA DAN UKURAN PERINGKASAN DATA ............................................... 12
1. Pendahuluan ................................................................................................................... 12
2. Penyajian Data Kuantitatif ............................................................................................. 12
2.1. Urutan (Arrays) ........................................................................................................... 12
2.2. Display Batang dan Daun (Stem-snd-Leaf Display) ................................................... 12
2.3. Latihan ........................................................................................................................ 14
3. Distribusi Frekuensi ....................................................................................................... 15
3.1. Pengertian ................................................................................................................... 15
3.2. Penyusunan Distribusi Frekuensi ................................................................................ 16
3.2.1. Penyusunan Distribusi Frekuensi secara Manual .................................................... 18
3.2.1. Penyusunan Distribusi Frekuensi Menggunakan Aplikasi R................................... 20
3.3. Properti Ditribusi Frekuensi ........................................................................................ 27
3.4.
27
BAB III PROBABILITAS ................................................................................................. 31
1. Pendahuluan ................................................................................................................... 31
2. Konsep-Konsep Dasar Probabilitas ............................................................................... 31
2.1. Percobaan, Ruang Sampel dan Elemen ...................................................................... 31
2.2. Even, Jenis-Jenis Even dan Visualisasi Even ............................................................. 32
2.3. Menentukan Probabilitas ............................................................................................ 34
2.4. Latihan ........................................................................................................................ 35
3. Aturan Penjumlahan dan Perkalian Probabilitas............................................................ 36
3.1. Aturan Penjumlahan.................................................................................................... 36
3.2. Aturan Perkalian ......................................................................................................... 38
3.3. Independensi Statistik ................................................................................................. 40
3.4. Teorema Bayes............................................................................................................ 42
3.5. Latihan ........................................................................................................................ 44
4. Permutasi dan Kombinasi .............................................................................................. 46
4.1. Permutasi..................................................................................................................... 46
4.2. Kombinasi ................................................................................................................... 48
4.3. Latihan ........................................................................................................................ 49
BAB IV VARIABEL ACAK............................................................................................. 51
1. Pendahuluan ................................................................................................................... 51
2. Distribusi Probabilitas Dan Variabel Acak .................................................................... 51
2.1. Pengertian Distribusi Probabilitas.............................................................................. 51
2.2. Jenis-Jenis Distribusi Probabilitas .............................................................................. 52
1
2.3. Pengertian Variabel Acak ........................................................................................... 52
2.4. Jenis-Jenis Variabel Acak ........................................................................................... 53
2.5. Karakteristik Distribusi Probabilitas Variabel Acak................................................... 53
2.6. Jenis-Jenis Distribusi Probabilitas Variabel Acak ...................................................... 55
2.7. Latihan ........................................................................................................................ 56
3. Ukuran-Ukuran Karakteristik Variabel Acak ................................................................ 57
3.1. Nilai Harapan Variabel Acak ...................................................................................... 57
3.2. Varians Dan Deviasi Standar Variabel Acak .............................................................. 59
3.3. Fungsi Variabel Acak ................................................................................................. 60
3.4. Kovarians Dan Korelasi .............................................................................................. 65
3.5. Latihan ........................................................................................................................ 67
BAB V DISTRIBUSI PROBABILITAS UMUM ............................................................. 71
1. Pendahuluan ................................................................................................................... 71
2. Distribusi Probabilitas Variabel Acak Diskrit ............................................................... 71
2.1. Distribusi Seragam Diskrit .......................................................................................... 71
2.2. Distribusi Binomial ..................................................................................................... 71
2.4. Latihan ........................................................................................................................ 76
3. Distribusi Probabilitas Variabel Acak Kontinyu ........................................................... 80
3.1. Distribusi Seragam Kontinyu ...................................................................................... 80
3.2. Distribusi Normal........................................................................................................ 81
3.3. Latihan ........................................................................................................................ 90
4. Lampiran ........................................................................................................................ 92
BAB VI PENDUGAAN TITIK DAN DISTRIBUSI PENYAMPELAN Ẍ ..................... 93
1. Pendahuluan ................................................................................................................... 93
3. 91
2.1. Pengertian ................................................................................................................... 93
2.1. Syarat-Syarat Penduga Titik Yang Baik ..................................................................... 94
2.2. Latihan ........................................................................................................................ 97
3. Distribusi Probabilitas X .............................................................................................. 98
3.1. Studi Experimen atas X ............................................................................................. 98
3.2. Hasil Teoretis Distribusi Penyampelan X ............................................................... 101
3.3. Teorema Batas Memusat........................................................................................... 103
3.4. Penggunaan Teorema Batas Memusat ...................................................................... 104
3.5. Latihan ...................................................................................................................... 107
BAB VIII PENDUGAAN INTERVAL........................................................................... 108
4.2. INTERVAL KEYAKINAN UNTUK  SAMPEL BESAR .................................... 111
4.3. INTERVAL KEYAKINAN UNTUK  SAMPEL KECIL ..................................... 114
4.4. LATIHAN ................................................................................................................. 117
2
BAB I PEROLEHAN DAN MANAJEMEN DATA
1. Pendahuluan
Statistik memainkan peranan penting terhadap hampir setiap bidang kegiatan manusia,
khususnya di era teknologi informasi saat ini. Metode statistik digunakan untuk
memperbaiki
hasil-hasil
pertanian,
mendesain
arsitektur
kota
dan
bangunan,
mengendalikan kualitas produksi, merencanakan pengendalian lalu lintas, meramalkan
perekonomian atau epidemi suatu penyakit, serta mencapai manajemen terbaik untuk
perusahaan maupun pemerintahan
Bagian terpenting dalam konsep statistik adalah data. Analisis statistik mengharuskan agar
fakta yang menjadi obyek suatu penelitian atau analisis disusun dan diorganisasi dengan
cara yang paling baik. Fakta dimaksud inilah yang biasa disebut sebagai data. Suatu data
yang tidak tersusun dan terorganisasi dengan baik akan menyebabkan penarikan
kesimpulan yang keliru. Bab pertama dari buku statistik jilid I ini akan membahas tentang
perolehan dan manajemen data.
2. Himpunan Data
Data yang sudah tersusun untuk kepentingan tertentu disebut sebagai himpunan data.
Himpunan data dapat ditemukan di sekeliling kita. Lembar bisnis dan keuangan pada surat
kabar harian berisi data harga efek, saham, komoditas atau kurs mata uang; Laporan
ekonomi menunjukkan data tingkat inflasi beberapa negara yang berbeda; File komputer
pada suatu perguruan tinggi berisi data-data akademik mahasiswa, dan lain sebagainya.
Berikut contoh himpunan data tentang profil latihan atlit Pelatnas cabang olahraga atletik.
Kasus
Nama
Jk
Umur
1
2
Irman
Andre
L
L
18
21
3
4
5
6
Risa
Ahmad
Anne
Ali
P
L
P
L
22
19
17
18
Asal
Daerah
Jakarta
Jawa
Barat
Jogja
Jakarta
Manado
Medan
Tekanan
Darah
Sistolik
120
118
Tekanan
Darah
Diastolik
80
75
138
121
141
123
90
75
95
75
Jumlah
Sit-up
Ranking
Fitness
100
35
1
3
45
29
18
75
4
5
6
2
2.1. Karakteristik Himpunan Data
Suatu himpunan data memiliki karakteristik sebagai berikut:
3
1.
Elemen data. Suatu himpunan data menyajikan data tentang kumpulan elemen.
Setiap elemen berisi informasi tentang satu atau lebih karakteristik yang menjadi perhatian.
Pada contoh di atas elemen datanya adalah atlit cabang atletik.
2.
Variabel. Variabel adalah salah satu karakteristik yang menjadi perhatian dari suatu
elemen dan dapat mengambil nilai yang berbeda. Pada contoh di atas salah satu
karakteristik yang menjadi perhatian adalah usia atlit. Karakteristik ini memiliki nilai yang
berbeda untuk setiap atlit. Usia merupakan contoh variabel kuantitatif, sementara asal
daerah merupakan variabel kualitatif.
3.
Kasus. Informasi tentang keseluruhan variabel untuk satu elemen dalam himpunan
data dinamakan kasus atau record. Pada contoh di atas informasi untuk ketujuh variabel
untuk setiap atlet Pelatnas atletik merupakan suatu kasus.
4.
Hasil. Informasi tentang variabel tunggal untuk satu elemen data dinamakan hasil,
amatan, observasi, atau ukuran. Sebagai contoh nilai 120 merupakan hasil tentang tekanan
darah sistolik dari atlet Pelatnas bernama Irman.
2.2. Jenis Data
Data statistik terdiri dari beberapa jenis yang berbeda. Data yang menunjukkan
pengukuran tentang suatu jumlah, kapasitas atau ciri-ciri serupa lainnya dinamakan data
ukuran (measurement data). Sebagai contoh data tekanan darah pada contoh di atas
merupakan data ukuran karena diperoleh dengan menggunakan alat medis untuk mengukur
tekanan darah.
Data yang dihitung atau menunjukkan frekuensi, dan karenanya pasti berupa angka penuh,
disebut sebagai data hitungan (count data). Sebagai contoh data jumlah sit-up pada contoh
di atas merupakan data hitungan karena diperoleh dari perhitungan. Contoh lain data jumlah
pilot yang disewa suatu maskapai penerbangan merupakan data hitungan.
Data yang diperoleh melalui perangkingan atau pengurutan disebut data rangking (rank
data) atau data urutan (ordinal data). Sebagai contoh data rangking fitness pada contoh
di atas merupakan data rangking karena diperoleh dari perangkingan dengan atlet dengan
hasil fitness terbaik mendapat rangking 1 dan terjelek mendapat rangking 6.
Terakhir, jika kelas atau kategori disusun dan data ditempatkan pada kelas-kelas yang
sesuai, maka data tersebut dinamakan data klasifikasi (classification data) atau data
nominal. Sebagai contoh data jenis kelamin pada contoh di atas adalah data klasifikasi
karena setiap atlet ditempatkan ke salah satu dari dua kategori, yaitu laki-laki atau
perempuan.
4
2.3. Sumber Data dan Pengertian Data Primer dan Sekunder
Statistik tidak hanya berkaitan dengan pengorganisasian dan penganalisaan data tetapi juga
berkaitan dengan sumber data dan bagaimana data dikumpulkan dalam suatu
studi/penelitian. Tahap pertama dari penelitian apapun adalah merumuskan spesifikasi atau
definisi dari permasalahan yang akan dipelajari. Spesifikasi permasalahan - selanjutnya
akan memandu pada identifikasi tentang jenis data apa saja yang diperlukan untuk
menangani permasalahan tersebut. Pertanyaannya kemudian adalah dimana dan bagaimana
memperoleh data yang diperlukan.
Beberapa data tersedia pada sumber internal. Sebagai contoh jika seorang peneliti
pemasaran menghendaki mempelajari pengaruh dari lokasi pelanggan terhadap
kecenderungan untuk membeli produk suatu perusahaan, maka peneliti tersebut akan
memperoleh data yang cukup banyak dari sumber internal seperti catatan akuntansi
perusahaan.
Data lain hanya tersedia dari sumber eksternal. Data tersebut misalnya diterbitkan dalam
buku referensi atau laporan statistik. Data ekternal di negara-negara maju seringkali sudah
tersedia dalam format yang terkomputerisasi, seperti pada CD atau disket atau dapat diakses
secara on-line melalui internet. Organisasi penyedia data eksternal dapat berupa instansi
pemerintah (BPS), asosiasi perdagangan, atau perusahaan data swasta.
Kedua jenis data di atas biasa juga dinamakan data sekunder. Menurut pengertiannya, data
sekunder merupakan berbagai informasi yang telah ada sebelumnya, baik dari sumber
internal maupun eksternal, yang dengan sengaja dikumpulkan oleh peneliti dan digunakan
untuk melengkapi kebutuhan data penelitian. Biasanya data-data ini berupa diagram, grafik,
atau tabel yang berisi informasi penting seperti sensus penduduk. Data sekunder bisa
dikumpulkan melalui berbagai sumber seperti buku, situs, atau dokumen pemerintah.
Jenis data kedua adalah data primer. Pengertian data primer adalah jenis data yang
dikumpulkan secara langsung dari sumber utamanya seperti melalui wawancara, survei,
eksperimen, dan sebagainya. Data primer biasanya selalu bersifat spesifik karena
disesuaikan dengan kebutuhan peneliti.
3. Metode Memperoleh Data Primer: Studi Eksperimen dan Observasi
Data primer perlu dikumpulkan atau dibuat, jika data yang diperlukan untuk
diinvestigasi tidak tersedia pada sumber-sumber yang ada. Beberapa metode perolehan
untuk memperoleh data primer harus dipertimbangkan. Dua metode utama pengumpulan
5
data primer adalah studi eksperimen dan studi observasi. Sebagai ilustrasi asumsikan suatu
perusahaan menyelenggarakan program pelatihan yang bersifat sukarela kepada para
karyawannya. Manajer perusahaan kemudian membandingkan tingkat perkembangan
kinerja dari karyawan yang mengikuti pelatihan, yang katakanlah berjumlah sekitar
setengah dari karyawan yang ada, dengan yang tidak mengikuti pelatihan. Secara umum
ditemukan bahwa karyawan yang mengikuti training menunjukkan perkembangan kinerja
yang lebih besar dibanding karyawan yang tidak mengikuti pelatihan.
Dalam studi ini, variabel yang menjadi perhatian adalah perkembangan kinerja,
sementara faktor yang efeknya atas perkembangan kinerja diinvestigasi adalah program
pelatihan. Namun, desain dari studi ini tidak menerapkan perlakuan yang tegas untuk efek
program pelatihan terhadap perkembangan kinerja, karena karyawan dipersilakan secara
sukarela mengikuti atau tidak mengikuti pelatihan tersebut. Fakta bahwa program pelatihan
bersifat sukarela, sehingga tidak terdapat kendali (kontrol) apapun terhadap faktor-faktor
lain yang mungkin mempengaruhi perkembangan kinerja, membuat studi ini menjadi
merupakan studi obserrvasi.
Selanjutnya asumsikan bahwa perusahaan melakukan kembali program pelatihan,
namun kali ini diperuntukkan bagi 25 pegawai yang baru direkrut yang seluruhnya
berjumlah 50 orang. Penentuan pegawai baru yang harus mengikuti pelatihan dilakukan
secara acak. Hasil studi menunjukkan bahwa perkembangan kinerja para karyawan baru
tidak jauh berbeda untuk kedua kelompok tersebut. Studi ini merupakan studi eksperimen,
karena dijalankan pengendalian (kontrol) terhadap faktor yang tengah ditelaah dan
dilakukan randomisasi untuk menyeimbangkan habis faktor-faktor lain yang tidak
terkontrol yang mungkin mempengaruhi perkembangan kinerja, seperti motivasi, usia,
pengalaman dan faktor-faktor lainnya.
Baik studi eksperimen maupun studi observasi dapat sangat berguna untuk menelaah
efek dari satu atau lebih faktor terhadap variabel yang menjadi perhatian. Namun, studi
eksperimen memberikan bukti yang lebih kuat tentang efek tersebut dibandingkan studi
observasi. Eksperimen khususnya berguna dalam meninjau pola hubungan sebab-akibat
(cause and effect relation).
Di balik kebaikan dari studi eksperimen, terdapat kekurangan. Kekurangan ini dapat
dilihat dari kenyataan bahwa kebanyakan analisis statistik dalam bisnis, ekonomi, dan ilmu
sosial didasarkan pada studi observasi. Salah satu alasannya adalah karena kebanyakan data
yang tersedia, seperti data internal dari operasional perusahaan dan data eksternal
perekonomian dan perilaku konsumen, merupakan data observasional. Alasan lainnya
6
adalah bahwa seringkali dalam permasalahan ilmu ekonomi dan sosial tidak
memungkinkan untuk menjalankan suatu kendali eksperimen sebagaimana yang
dipersyaratkan dalam studi eksperimen.
4. Perolehan Dan Manajemen Data
4.1. Prosedur Perolehan Data
Terdapat berbagai prosedur untuk memperoleh data yang dipergunakan baik dalam
studi eksperimen maupun observasional. Tiga jenis prosedur perolehan data yang umum
digunakan adalah observasi, wawancara dan survey.
4.1.1. Observasi
Perolehan data dengan observasi adalah perolehan data melalui pemeriksaan langsung dan
pencatatan aktivitas yang berjalan. Misalkan dalam studi pengambilan keputusan dalam
keluarga, periset mengamati dan mencatat interaksi antara suami, istri dan anak pada saat
mereka memutuskan untuk membeli seperangkat komputer untuk keperluan rumah mereka.
Contoh lain misalkan dalam riset keuangan, analis melakukan pengamatan atas harga
penutupan harian beberapa saham perusahaan go-public.
Prosedur perolehan data melalui observasi memiliki beberapa kelebihan sebagai berikut:
1.
Sifat langsung dari prosedur menghindarkan permasalahan-permasalahan seperti
ketidaklengkapan atau ditorsi informasi.
2.
Data dapat dikumpulkan lebih banyak atau lebih sedikit secara terus-menerus
sepanjang periode waktu yang dapat diperpanjang.
Sementara keterbatasan dari prosedur ini adalah sebagai berikut:
1.
Pengamat/pengobservasi harus dapat mencatat secara akurat peristiwa yang
menjadi perhatian. Pengamat pada umumnya memerlukan latihan menyeluruh untuk dapat
mencatat dengan jelas apa yang mereka amati sedemikian rupa sehingga pengamat yang
berbeda akan mencatat peristiwa yang sama dengan cara yang sama.
2.
Individu yang menjadi obyek pengamatan atau mengetahui bahwa mereka tengah
diamati dapat mengubah perilaku mereka, sehingga hasil observasi menjadi bias.
4.1.2. Wawancara
Dalam wawancara, pewawancara menanyakan pertanyaan dari kuesioner dan mencatat
jawaban responden. Wawancara dapat dilakukan secara langsung atau melalui telepon.
Baik manfaat maupun keterbatasan wawancara timbul dari kontak langsung antara
responden dengan pewawancara. Manfaat wawancara di antaranya adalah sebagai berikut:
7
1.
Responden akan cenderung memberi jawaban saat mereka diwawancarai secara
langsung atau melalui telepon.
2.
Kontak langsung pada umumnya memungkinkan pewawancara menghindari
kesalahahpahaman responden atas pertanyaan, mengamati reaksi responden atas
pertanyaan tertentu, dan mengumpulkan informasi pelengkap yang relevan.
Sementara itu beberapa keterbatasan wawancara adalah sebagai berikut:
1.
Pewawancara dapat tidak mengikuti arahan tentang pemilihan responden. Sebagai
contoh, pewawancara dapat saja memilih anggota keluarga selain yang telah didesain, yang
akan menyebabkan bias terhadap hasil riset.
2.
Pewawancara dapat mempengaruhi responden dengan cara tertentu dalam
pengajuan pertanyaan atau dengan tindakan lain baik secara sengaja atau tidak sengaja.
3.
Pewawancara dapat melakukan kesalahan dalam merekam jawaban responden.
4.1.3. Survey
Dengan survey, responden menjawab pertanyaan yang tercetak pada kuesioner atau yang
tertayang pada monitor komputer. Survey dilakukan misalnya saat pengunjung toko
diminta mengisi kuesioner tentang tingkat harga barang-barang di toko, tingkat pelayanan
dari petugas toko, tingkat ketersediaan barang yang dibutuhkan dan lain-lain termasuk data
demografi mereka. Manfaat dari melaksanakan survey adalah kebalikan dari keterbatasan
dari melaksanakan wawancara. Namun digantinya wawancara dengan survey akan
menimbulkan permasalahan berikut:
1.
Saat kuesioner dikirim kepada orgainsasi atau rumah tangga, tidak ada cara untuk
mengontrol apakah orang yang menjawab survey adalah orang yang dituju.
2.
Survey akan menyebabkan tingkat respon yang rendah dari responden, apalagi jika
respondennya adalah orang-orang yang sibuk.
4.2. Manajemen Data Terkomputerisasi
Kebanyakan himpunan data yang akan dijadikan bahan untuk investigasi statistik
dibuat dan digunakan dalam bentuk file data komputer dalam sistem aplikasi komputer
statistik atau manajemen data. Meski prosedur penanganan data sangat bervariasi dari satu
sistem ke sistem yang lain, terdapat beberapa ciri penting yang serupa pada kebanyakan
sistem. Kedua ciri tersebut adalah entry data serta penanganan data.
4.2.1. Entri Data
8
Data dientri dengan berbagai cara dalam berbagai sistem yang berbeda. Namun, tujuan
umumnya adalah untuk memperoleh data yang terorganisasi sehingga dapat ditayangkan
dalam susunan berurut kasus-kasus x variabel-variabel, seperti tertayang pada tabel contoh
himpunan data di muka (hal per tama bab ini). Metode pengentrian dapat kasus per kasus,
dapat pula variabel per variabel.
Pengentrian data mensyaratkan pengentri untuk memberikan nama pada variabel yang
tengah dibuat dan jika mungkin mengidentifikasi di depan berapa banyak variabel dan
kasus yang akan ada dalam himpunan data. Konvensi penamaan variabel berbeda-beda,
tapi pada umumnya membedakan antara variabel kualitatif dengan kuantitatif. Operasi
aritmetika atas data hanya dimungkinkan untuk variabel kuantitatif.
4.2.2. Penanganan Data
Kebanyakan sistem manajemen data memiliki fasilitas untuk mentransfer file data
dari sistem komputer berbeda kepada sistem komputer pengguna yang siap digunakan.
Demikian pula sebaliknya. Dalam investigasi statistik sering diperlukan membuat variabel
baru dari variabel asal dalam himpunan data melalui suatu operasi matematika atau logika.
Pengoperasian ini dinamakan transformasi data. Sebagai contoh katakan himpunan data
pegawai pada suatu perusahaan memiliki variabel “usia pegawai saat ini” serta variabel
“usia saat pegawai bekerja pertama kali”. Jika misalkan suatu telaahan statistik
membutuhkan data baru seperti “lama bekerja pegawai”, maka variabel tersebut dapat
diperoleh dengan menjalankan operasi: “lama bekerja pegawai” = “usia pegawai saat ini”
- “usia saat pegawai bekerja pertama kali”.
9
Latihan
1.
Film Avatar diberi rating 4 bintang dalam skala 5 bintang. Tentukan mana dari 4
tingkat pengukuran (nominal, ordinal, interval, rasio) yang paling tepat!
2.
Milgram Research ingin mempelajari reaksi terhadap stres. Dilakukan survei di
mana surveyor berpura-pura marah dengan subjek survei. Pada satu titik tertentu, surveyor
berteriak kepada subjek survei “Bagaimana bisa seseorang memiliki pendapat bodoh
seperti itu?”. Berdasarkan deskripsi di atas, tentukan mana dari 2 metode memperoleh data
primer (eksperimen, observasi) yang paling tepat!
3.
Dalam sebuah penelitian yang disponsori oleh Coca-Cola, 12.500 orang ditanya hal
apa yang sebagian besar berkontribusi terhadap kebahagiaan yang mereka rasakan.
Sebanyak 77% responden menjawab bahwa hal itu adalah keluarga atau pasangan mereka.
Berdasarkan deskripsi di atas, tentukan mana dari 2 metode memperoleh data primer
(eksperimen, observasi) yang paling tepat!
4.
Dalam jajak pendapat Gallup baru-baru ini, jajak pendapat secara acak memilih
orang dewasa dan bertanya mereka apakah mereka merokok. Di antara orang dewasa yang
menjawab pertanyaan survei, 21% mengatakan demikian mereka memang merokok.
Apakah data di atas hasil dari studi observasional atau eksperimen?
5.
Dalam pemilihan umum terakhir, 132.312 orang dewasa memberikan suara di
Dutchess Country, New York. Anda berencana untuk melakukan survei pasca pemilu
terhadap 500 pemilih tersebut. Setelah mendapatkan daftar mereka yang memberikan
suara, Anda memberi nomor daftar dari 1 hingga 132.312, dan kemudian Anda
menggunakan komputer untuk menghasilkan 500 angka secara acak antara 1 dan 132.312.
Sampel Anda terdiri pemilih yang sesuai dengan nomor yang dipilih. Berdasarkan deskripsi
di atas, Tentukan apakah sampel tersebut adalah sampel acak sederhana dan berikan
penjelasannya?
10
BAB II POLA DAN UKURAN PERINGKASAN DATA
1. Pendahuluan
Setelah data yang diperlukan untuk suatu riset telah dimiliki, investigasi statistik dapat
dimulai. Investigasi statistik tersebut biasanya diawali dengan mempelajari pola yang
mendasari data tersebut. Namun, pertama kali himpunan data harus diorganisasikan dan
dikurangi dalam proporsi yang dapat dikelola dan disajikan dengan bentuk yang efektif.
Pikiran manusia sangat terbatas dalam menyerap dan menginterpretasi sejumlah besar fakta
dan angka dalam bentuk mentah. Pada Bab ini akan dijelaskan beberapa metode untuk
mengorganisasi dan menyajikan himpunan data sehingga pola pada data tersebut dapat
dianalisis, diinterpretasi dan dilaporkan.
2. Penyajian Data Kuantitatif
Pertama kali akan dibahas metode sederhana penyajian data untuk variabel kuantitatif,
yaitu variabel yang memiliki hasil numerik.
2.1. Urutan (Arrays)
Langkah awal yang cukup berguna untuk memahami pola dari data kuantitatif –jika jumlah
observasinya tidak terlalu banyak– adalah dengan mengurutkan observasian secara menaik
atau menurun. Pengurutan semacam ini, yang hasilnya disebut urutan (array) dapat sangat
berguna untuk memeriksa data. Kebanyakan dari sistem aplikasi manajemen data memiliki
prosedur untuk pengurutan data kuantitatif.
2.2. Display Batang dan Daun (Stem-snd-Leaf Display)
Display batang dan daun (stem and leaf display) memberikan informasi lebih banyak
dibandingkan urutan. Dengan display batang dan daun akan diketahui (1) konsentrasi atau
klaster nilai-nilai tertentu, (2) observasi yang menyimpang (outlyer) atau ekstrim, (3)
tingkat kesimetrian dalam distribusi observasian.
Untuk menggambarkan display batang dan daun akan digunakan suatu contoh. Asumsikan
seorang analis yang diminta untuk mempelajari karakteristik dari pengunjung suatu gedung
pertunjukan teater pada suatu kota melakukan pengujian permulaan dengan menyebarkan
kuesioner kepada sampel 70 pengunjung gedung pertunjukan tersebut. Salah satu
pertanyaan kuesioner adalah menanyakan usia pengunjung. Urutan jawaban pengunjung
11
terhadap pertanyaan tersebut adalah sebagai berikut (hanya bagian awal dan akhir yang
disajikan):
20, 25, 25, 25, 29, 30, …, 76, 77
Gambar berikut menyajikan display batang dan daun untuk urutan usia di atas. Digit di
sebelah kiri garis vertikal pada display tersebut menunjukkan batang (stem) dan digit di
sebelah kanan menunjukkan daun (leaves). Digit pertama 2 menunjukkan batang pertama.
Seluruh jawaban umur responden yang dimulai dengan angka 2, yaitu dari 20 sampai 29,
dicatat pada batang ini dengan urutan menaik sesuai besarnya. Hanya digit kedua dari setiap
jawaban usia yang dicatat pada bagian daun karena digit pertamanya sudah diberikan oleh
batangnya. Kita lihat daun pada batang pertama berisi digit 0, 5, 5, 5, 9 yang merepresentasi
jawaban umur responden masing-masing 20, 25, 25, 25, dan 29. Demikian seterusnya.
2
3
4
5
6
7
05559
001233455678
000012234455677899
0000011233455567889
0023455679
015567
Berdasarkan sajian display batang dan daun di atas analis menyimpulkan bahwa
pola data usia pengunjung gedung pertunjukan tersebut sesuai dengan yang diharapkan.
Pola data usia menunjukkan pola yang kompak, simetris dan terpusat pada usia sekitar 50
tahun. Usia dalam himpunan data tersebar dari 20 sampai 77 tahun. Dari tayangan tersebut
diperoleh pula informasi bahwa jumlah angka 0 dan 5 cukup besar secara tidak proporsional
di antara angka-angka pada digit kedua. Hasil ini tidak diperkirakan sebelumnya, karena
setiap angka dari 0 sampai 9 secara kasar akan terwakili secara berimbang pada angka digit
kedua data usia tersebut.
INBOX
Statistik dengan R
R mampu membaca data dari berbagai format file, termasuk file yang dibuat dalam
paket statistik lain, misal Excel (dalam format CSV, XLSX, atau TXT), SAS, Stata,
SPSS, atau aplikasi lainnya. R juga memiliki dua format data asli, yaitu Rdata
(terkadang disingkat menjadi Rda) dan Rds. Format ini digunakan ketika objek R
disimpan untuk digunakan nanti. Rdata digunakan untuk menyimpan beberapa objek
R, sedangkan Rds digunakan untuk menyimpan satu objek R.
Atur Direktori Kerja
Sebelum membaca data apa pun, Anda harus mengatur direktori kerja R ke lokasi
data.
12
setwd("...") akan mengatur direktori kerja saat ini ke lokasi tertentu
getwd() akan mencetak direktori saat ini.
Misal di PC penulis:
> getwd()
[1] "C:/Users/HP/Documents"
Silakan akses file Notepad pada bit.ly/StatistikSoffan nama file StemLeafOK.txt
Simpan pada working directory aplikasi R Anda. Kemudian ketik perintah berikut.
> visitor <- read.csv("StemLeafOK.txt", header = TRUE)
> stem(visitor$ages)
The decimal point is 1 digit(s) to the right of the |
2 | 05559
3 | 001233455678
4 | 000012234455677899
5 | 0000011233455567889
6 | 0023455679
7 | 015567
2.3. Latihan
1.
Besar pengeluaran tahunan untuk telepon SLJJ dari 18 belas tenaga penjualan suatu
perusahaan adalah sebagai berikut (dalam ratusan ribu):
6.2
5.4
6.7
5.8
4.5
4.7
7.1
6.3
6.5
3.4
5.6
3.1
6.4
5.0
6.1
6.1
5.6
5.1
a.
Susunlah data amatan di atas dengan urutan secara menaik!
b.
Sajikan data dalam display batang-daun!
c.
Berapa jumlah penjual yang mengeluarkan biaya telpon SLJJ kurang dari 400.000
untuk satu tahun tersebut? Apakah besar pengeluaran ini terlihat tidak biasa dibanding yang
lainnya? Jelaskan!
2.4.
Jumlah kamar dari 16 hotel cabang Cathay adalah sebagai berikut:
200
252
182
352
364
180
226
164
192
477
315
600
296
249
110
117
a.
Susunlah data amatan di atas dengan urutan secara menaik!
b.
Sajikan data dalam display batang-daun!
13
c.
Berapa jumlah kamar terbanyak dan tersedikit yang dimiliki cabang hotel? Apakah
beralasan untuk menyatakan bahwa kebanyakan cabang hotel ini memiliki kamar antara
100 dan 400 kamar? Jelaskan!
3. Distribusi Frekuensi
3.1. Pengertian
Saat jumlah amatan dari suatu variabel kuantitatif cukup besar, mengkategorikan amatan
pada distribusi tabular cukup membantu mempelajari pola data variabel tersebut. Sebagai
contoh misalkan sebuah Bank yang memiliki 30.794 rekening tabungan tengah
merencanakan untuk mengubah jadwal pembebanan biaya administrasi pada rekeningrekening tabungan tersebut. Analis yang mendapat tugas menyimpulkan bahwa urutan
(array) dari jumlah saldo rekening-rekening tersebut akan terlalu panjang untuk dapat
diperiksa secara efektif karena begitu banyaknya amatan, demikian pula display batang dan
daun. Alih-alih, analis tersebut memutuskan untuk menyiapkan presentasi tabular yang
menunjukkan saldo rekening dalam lima kategori sebagaimana dapat dilihat pada kolom 1
gambar berikut (dalam ribuan rupiah).
Jumlah Saldo
0 < 5.000
5.000 < 10.000
10.000 < 15.000
15.000 < 20.000
20.000 < 25.000
Total
Jumlah Rekening
10.196
15.335
1.812
1.798
1.653
30.794
Persentase
33.1
49.8
5.9
5.8
5.4
Suatu perintah rutin dalam software statistik atau program pengolah data lain dapat
diterapkan untuk membaca jumlah saldo setiap rekening pada file data, memberikan angka
kelas yang sesuai, dan menghitung jumlah rekening pada setiap kelas. Hasil hitungan
jumlah rekening terdapat pada kolom 2 presentasi tabular di atas. Jumlah total hitungan
tersebut, 30.794, sama dengan jumlah rekening pada file data. Perintah rutin tersebut juga
dapat menghitung persentase seluruh rekening dalam setiap kelas sebagaimana
dicantumkan pada kolom ketiga presentasi tabular di atas.
Presentasi tabular sebagaimana digambarkan di atas secara umum disebut distribusi
frekuensi. Distribusi frekuensi dengan demikian dapat didefinisikan sebagai klasifikasi
elemen-elemen himpunan data dengan variabel kuantitatif. Distribusi frekuensi di atas
sebagai contoh, memiliki 5 kelas. Angka pada setiap elemen kelas dinamakan frekuensi,
sehingga kelas pertama distribusi frekuensi di atas dikatakan memiliki frekuensi sebanyak
10.196. Frekuensi kelas yang dinyatakan dalam persentase dari jumlah elemen seluruhnya
14
dinamakan frekuensi persentase atau frekuensi relatif. Jadi frekuensi relatif untuk kelas
pertama adalah sebesar 33.1%.
3.2. Penyusunan Distribusi Frekuensi
Distribusi frekuensi dibuat dengan tujuan (1) untuk dapat meringkas kumpulan data yang
besar, (2) untuk dapat menganalisis data sehingga dapat melihat distribusi dan
mengidentifikasi outlier, dan (3) untuk dapat memiliki dasar guna membuat grafik (seperti
histogram). Meskipun teknologi dapat menghasilkan distribusi frekuensi, langkah-langkah
untuk membangunnya secara manual adalah sebagai berikut:
1.
Pilih jumlah kelas, biasanya antara 5 dan 20. Jumlah kelas mungkin dipengaruhi
oleh kenyamanan penggunaan angka bulat.
Jumlah kelas juga dapat ditentukan dengan rumus Sturges
k = 1 + 3.322 log N
dimana k = jumlah kelas
2.
Hitung lebar kelas.
Bulatkan hasil perhitungan ini untuk mendapatkan angka yang nyaman (biasanya yang
terbaik adalah dengan dibulatkan). Menggunakan jumlah kelas tertentu tidak terlalu
penting, dan biasanya bijaksana untuk mengubah jumlah kelas sehingga digunakan nilai
yang nyaman untuk batas kelas.
3.
Pilih nilai untuk batas kelas bawah pertama dengan menggunakan nilai minimum
atau nilai yang sesuai di bawah minimum.
4.
Dengan menggunakan batas kelas bawah pertama dan lebar kelas, buat daftar batas
kelas bawah lainnya. (Tambahkan lebar kelas ke batas kelas bawah pertama untuk
mendapatkan batas kelas bawah kedua. Tambahkan lebar kelas ke batas kelas bawah kedua
untuk mendapatkan batas kelas bawah ketiga, dan seterusnya.)
5.
Buat daftar batas kelas bawah dalam kolom vertikal dan kemudian tentukan dan
masukkan batas kelas atas.
6.
Ambil setiap nilai data individu dan beri tanda penghitungan di kelas yang sesuai.
Tambahkan tanda penghitungan untuk menemukan frekuensi total untuk setiap kelas. Saat
membangun distribusi frekuensi, pastikan kelas tidak tumpang tindih.
15
Setiap nilai asli harus milik tepat satu kelas. Sertakan semua kelas, bahkan kelas dengan
frekuensi nol. Cobalah untuk menggunakan lebar yang sama untuk semua kelas, meskipun
terkadang tidak mungkin untuk menghindari interval terbuka, seperti “65 tahun atau lebih.”
Data Set yang akan digunakan adalah skor IQ dari kelompok anak-anak yang tinggal di
dekat tempat peleburan timah. Kepada anak-anak diukur tingkat kadar timah di dalam darah
mereka. Anak-anak dibagi ke dalam tiga kelompok, yaitu yang kandungan timah di dalam
darahnya rendah (yaitu kurang dari 40 micrograms/100 mL dalam kedua tahun
pengamatan), yang kandungan timah dalam darahnya medium (yaitu paling tidak sebesar
40 micrograms/100 mL dalam salah satu dari kedua tahun pengamatan), dan yang kadar
timah dalam darahnya tinggi (yaitu paling tidak 40 micrograms/ 100 mL in dalam kedua
tahun pengamatan tersebut). IQ anak-anak untuk kelompok yang kadar timah dalam
darahnya rendah, adalah sebagaimana pada tabel 1 berikut:
Tabel 1 Skor IQ Anak-Anak dengan Kadar Timah dalam Darahnya yang Rendah
70
141
105
80
104
85
88
96
111
85
86
96
50
104
76
76
96
99
85
95
84
107
85
94
86
96
86
88
75
89
94
80
120
73
76
56
107
93
76
96
115
101
87
107
101
97
91
98
88
108
77
125
78
89
102
128
96
100
96
77
99
99
105
72
74
80
99
87
97
92
118
115
94
76
86
106
89
107
Berikut pelaksanaan langkah-langkah untuk menyusun distribusi frekuensi dengan data
set di atas.
Langkah 1:
Pilih 5 sebagai jumlah kelas yang diinginkan.
Atau gunakan rumus Sturges k = 1 + 3,322 log N
K = 1 + 3,322 log 78 = 7,28 atau 7
Tapi tetap kita gunakan 5 sebagai jumlah kelas.
Langkah 2:
Hitung lebar kelas.
= 18,2 untuk nyamannya kita bulatkan
menjadi 20
Langkah 3:
16
Nilai data minimum adalah 50 dan ini adalah titik awal yang nyaman, jadi gunakan 50
sebagai batas kelas bawah pertama (jika nilai minimumnya adalah 52 atau 53, kita akan
bulatkan ke bawah ke titik awal yang lebih nyaman yaitu 50).
Langkah 4:
Tambahkan lebar kelas 20 kepada 50 untuk mendapatkan batas kelas bawah kedua 70.
Lanjutkan menambahkan lebar kelas 20 hingga kita memiliki lima batas kelas bawah. Oleh
karena itu, batas kelas bawah adalah 50, 70, 90, 110, dan 130.
Langkah 5:
Buat daftar limit kelas bawah secara vertikal sehingga diperoleh kira-kira seperti tampilan
pada daftar berikut:
50 –
70 –
90 –
110 –
130 –
Dari daftar ini, kita mengidentifikasi batas kelas atas yang sesuai sebagai 69, 89, 109, 129,
dan 149.
Langkah 6:
Masukkan tanda penghitungan untuk setiap nilai data di kelas yang sesuai. Kemudian
tambahkan data hasil penghitungan untuk menemukan frekuensi yang ditunjukkan pada
Tabel 2 sebagai hasil penyusunan distribusi frekuensi kita.
Tabel 2 Distribusi Frekuensi Skor IQ untuk Anak-Anak
dengan Tingkat Kadar Timah Rendah
Kelas
Frekuensi
50 – 69
2
70 – 89
33
90 – 109
35
110 – 129
7
130 – 149
1
3.2.1. Penyusunan Distribusi Frekuensi secara Manual
Meskipun distribusi frekuensi dapat dihasilkan melalui teknologi, berikut adalah langkahlangkah pembuatannya secara manual :
1.
Pilih jumlah kelas, umumnya digunakan antara 5 hingga 20. Jumlah kelas
dipengaruhi oleh kemudahan penggunaan angka bulat.
2.
Tentukan jangkauan data (range)
Jangkauan data = (nilai data maksimum – nilai data minimum)
17
3.
Hitung lebar kelas
Lebar kelas = (nilai data maksimum – nilai data minimum) : (jumlah kelas)
Atau
Lebar kelas = (jangkauan data) : (jumlah kelas)
Bulatkan hasil ini untuk mendapatkan angka yang sesuai. Menggunakan sejumlah kelas
tertentu tidak terlalu penting, dan bijaksanalah dalam penentuan jumlah kelas sehingga
memudahkan proses penyusunan distribusi frekuensi.
4.
Pilih nilai untuk batas kelas bawah pertama dengan menggunakan nilai minimum
atau nilai praktis di bawah minimum.
5.
Dengan menggunakan batas kelas bawah pertama dan lebar kelas, lanjutkan dengan
batas kelas bawah lainnya. (Tambahkan lebar kelas ke batas kelas bawah pertama untuk
mendapatkan batas kelas bawah kedua. Tambahkan lebar kelas ke batas kelas bawah kedua
untuk mendapatkan batas kelas bawah ketiga, dan seterusnya.)
6.
Tuliskan batas kelas bawah dalam kolom vertikal kemudian tentukan dan masukkan
batas kelas atas.
7.
Amati setiap nilai data yang dimiliki lalu kelompokkan sesuai dengan kelasnya.
Tentukan frekuensi total setiap kelas.
Saat membuat distribusi frekuensi, pastikan kelas tidak tumpang tindih. Setiap data nilai
harus hanya dimiliki tepat oleh satu kelas. Sertakan semua kelas, termasuk kelas dengan
frekuensi nol. Cobalah untuk menggunakan lebar yang sama untuk semua kelas, meskipun
terkadang tidak mungkin untuk menghindari interval terbuka, seperti “75 atau lebih”.
Contoh :
Data (usia penghuni indekos) yang tersedia setelah diurutkan dari terkecil hingga terbesar:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
1.
Tentukan jumlah kelas : 5 (umumnya antara 5 hingga 15)
2.
Tentukan jangkauan data : 58 - 12 = 46
3.
Tentukan panjang kelas (Width) : 10 (46/5 then round up)
4.
Tentukan nilai batas bawah pertama : 10 (nilai praktis di bawah nilai minimum)
5.
Tentukan batas kelas (Limits) :10, 20, 30, 40, 50, 60
6.
Tuliskan batas kelas bawah dalam kolom vertikal kemudian tentukan dan masukkan
batas kelas atas.
Data Usia
18
10 – 19
20 – 29
30 – 39
40 – 49
50 – 59
7.
Tentukan frekuensi setiap kelas
Data Usia
Frekuensi
10 – 19
3
20 – 29
6
30 – 39
5
40 – 49
4
50 – 59
2
8.
Hitung titik tengah kelas : 15, 25, 35, 45, 55
9.
Lakukan observasi terhadap distribusi frekuensi data
3.2.1. Penyusunan Distribusi Frekuensi Menggunakan Aplikasi R
Menggunakan Aplikasi R, dapat disusun suatu Tabel Distribusi Frekuensi. Berikut ini akan
dijelaskan langkah penyusunan Tabel Distribusi Frekuensi menggunakan aplikasi R
berdasarkan kasus berikut:
Suatu penelitian terhadap nilai mata kuliah Kalkulus pada jurusan Matematika di suatu
kampus, dari hasil pengambilan sampel secara random, terambil sampel sebanyak 30
dengan distribusi nilai sebagai berikut:
75
80
30
70
20
35
65
65
70
57
55
25
58
70
40
35
36
45
40
25
15
55
35
65
40
15
30
30
45
40
Berdasarkan kasus di atas, langkah-langkah penyusunan Tabel Distribusi Frekuensi adalah
sebagai berikut,
1.
Melakukan input data ke Aplikasi R.
Tuliskan di aplikasi
>namadata=c(xx,yy,zz)
19
>datanilai=c(75,80,30,70,20,35,65,65,70,57,55,25,58,70,40,35,36,45,40,25,15,55,35,65,4
0,15,30,30,45,40)
2.
Setelah itu tekan enter. Untuk memastikan data yang diinput benar lakukan
pengecekan.
Tuliskan di aplikasi
>datanilai
Maka akan keluar kumpulan angka yang telah kita input. Spasi juga dihitung sebagai
karakter.
3.
Berikutnya mengurutkan data yang telah diinput.
Gunakan perintah berikut.
>sort(datanilai)
Maka ketika ”datanilai” dimunculkan kembali akan berada dalam kondisi yang telah
diurutkan
4.
Pembuatan tabel distribusi frekuensi memerlukan beberapa komponen yang harus
dicari seperti
Panjang data � untuk menentukan jumlah kelas
Data tertinggi dan terendah � untuk menentukan interval dalam kelas
Jumlah kelas � Penentuan jumlah kelas dilakukan menggunakan perintah :
>length(datanilai)
Misalkan panjang data tersebut sebagai n. Jadi saat kita panggil n akan muncul angka 30
sebagai panjang data.
>n=length(datanilai)
20
Jumlah kelas(k) ditentukan dengan rumus
k = 1 + 3.3log(panjang data)
maka pada aplikasi R kita tuliskan
>k=1+(3.3*log10(n))
Jika dituliskan ”>k”, maka nilai jumlah kelas adalah 5.8745 dan harus dibulatkan
menggunakan perintah round. Gunakan huruf kapital besar sebagai pembeda karakter
>K=round(k)
Setelah itu akan didapat nilai jumlah kelas sama dengan 6
5.
Menentukan lebar kelas dengan mencari data tertinggi dan data terendah terlebih
dahulu. Rumus mencari interval kelas adalah p = (xmax-xmin)/K
Data tertinggi (xmax) dicari menggunakan perintah
>max(datanilai) dan kita misalkan sebagai xmax
>xmax=max(datanilai)
Data terendah (xmin) dicari menggunakan perintah
>min(datanilai) dan kita misalkan sebagai xmin
>xmin=min(datanilai)
Maka didapatkan xmax = 80 dan xmin = 15
untuk mencari lebar kelas gunakan perintah
>p=(xmax-xmin)/K
Dan lakukan pembulatan ke atas
>P=ceiling(p)
Maka P sebagai lebar kelas adalah 11
21
Dari langkah-langkah yang telah dilakukan maka didapatkan
Jumlah kelas = 6
Lebar kelas
= 11
Data tertinggi = 80
Data terendah = 15
6.
Langkah selanjutnya, menentukan frekuensi data kelompok
Tuliskan rumus
> frekuensi=function(x,y,z)
Berikutnya tuliskan
+ {a=0
+ for(i in 1:n)
+ {if(x[i]>=y&&x[i]<=z)
+ {a=a+1}}
+ print(a)}
x = nama data(diisi dengan “datanilai”)
y = data kelas bawah
z = data kelas atas
Contoh mencari frekuensi antara 15-25
>frekuensi(datanilai,15,25)
Angka 5 yang muncul memiliki arti terdapat 5 angka dalam rentang kelas 15-25
Lanjutkan sampai rentang kelas terakhir
22
7.
Setelah melakukan perintah mencari semua frekuensi kelompok, nilai frekuensi
semua kelompok adalah 5,7,6,4,3,5
Kita misalkan sebagai f
>f=c(5,7,6,4,3,5)
Maka f akan berisikan frekuensi data
8.
Selanjutnya, membuat data tabel menggunakan perintah
>tabel=edit(data.frame())
Tekan enter maka akan muncul bentuk tabel seperti berikut:
ganti nama ”var1” menjadi ”nilai” untuk meletakan kelas dalam data
berikutnya isikan rentang kelas ke dalam tabel
23
maka saat kita tulis >tabel, akan muncul kelas seperti berikut
9.
Langkah terakhir adalah menambahkan kolom frekuensi menggunakan perintah
>tabel$frekuensi=f
Dan akan muncul
Memunculkan histogram dari data yang telah diinput dapat menggunakan perintah
>hist(datanilai)
24
Untuk melihat persebaran titik plot, cukup tuliskan perintah
>plot(datanilai)
Penyajian Grafis Ditribusi Frekuensi
Distribusi frekuensi adalah alat yang berguna untuk meringkas data dan memahami
distribusi data. Untuk mempermudah pemahaman dan penafsiran atas distribusi data,
distribusi frekeuensi disajikan dalam bentuk grafis yang disebut histogram.
25
Histogram adalah grafik distribusi frekuensi yang terdiri dari batang-batang (bar) dengan
lebar yang sama yang ditarik berdekatan satu sama lain (kecuali jika ada celah dalam data).
Skala horizontal mewakili kelas nilai data kuantitatif dan skala vertikal mewakili frekuensi.
Ketinggian bar sesuai dengan nilai frekuensi.
Frekuensi kelas digunakan untuk skala vertikal seperti pada Gambar di atas. Lokasi batang
pada skala horizontal biasanya diberi label dengan salah satu dari berikut ini: (1) batas kelas
(seperti yang ditunjukkan pada Gambar), (2) titik tengah kelas, atau (3) batas kelas bawah.
3.3. Properti Ditribusi Frekuensi
Properti dari Distribusi Frekuensi adalah sebagai berikut:
1.
Limit kelas bawah (lower class limit) adalah bilangan terkecil yang dapat dimiliki
oleh kelas yang berbeda. (Tabel 2 memiliki batas kelas bawah 50, 70, 90, 110, dan 130.)
2.
Limit kelas atas (upper class limit) adalah bilangan terbesar yang dapat dimiliki
oleh kelas yang berbeda. (Tabel 2 memiliki batas kelas atas 69, 89, 109, 129, dan 149.)
3.
Batas kelas (class boundary) adalah angka yang digunakan untuk memisahkan
kelas, tetapi tanpa celah yang dibuat oleh limit kelas. Gambar 2 berikut menunjukkan
kesenjangan yang diciptakan oleh batas kelas dari Tabel 2. Pada Gambar 2 terlihat bahwa
nilai 69,5, 89,5, 109,5, dan 129,5 berada di tengah-tengah celah tersebut, dan mengikuti
pola limit kelas tersebut, terlihat bahwa batas kelas terendah adalah 49,5 dan batas kelas
tertinggi adalah 149,5. Dengan demikian daftar batas kelas yang lengkap adalah 49,5, 69.5,
89,5, 109,5, 129,5, dan 149,5.
26
Gambar 1 Limit Kelas dan Batas Kelas
4.
Titik tengah kelas (class midpoint) berada di tengah-tengah kelas. Tabel 2
memiliki titik tengah kelas 59,5, 79,5, 99,5, 119,5, dan 139,5. Setiap titik tengah kelas
dihitung dengan menambahkan batas kelas bawah ke batas kelas atas dan membagi
jumlahnya dengan 2.
5.
Lebar kelas adalah selisih antara dua batas kelas bawah yang berurutan (atau dua
batas kelas bawah yang berurutan) dalam suatu distribusi frekuensi. Tabel 2 menggunakan
lebar kelas 20.
3.4.
Latihan
1.
Disajikan data sebagai berikut:
Umur Pemenang Best Actor Piala Oscar
Frekuensi
20-29
1
30-39
26
40-49
35
50-59
13
60-69
6
70-79
1
Tentukan:
a.
Panjang kelas
b.
Titik tengah kelas
c.
Batas kelas
2.
Data di bawah ini merupakan distribusi frekuensi dari tinggi badan dari orang-orang
di Vassar Road Elementary School:
Tinggi Badan (dalam inci)
Frekuensi
35-39
6
40-44
31
45-49
67
27
50-54
21
55-59
0
60-64
0
65-69
6
70-74
10
Apa yang dapat disimpulkan dari distribusi frekuensi di atas?
3.
Disajikan data sebagai berikut:
Skor IQ
Frekuensi
50-59
4
60-69
10
70-79
25
80-89
43
90-99
26
100-109
8
110-119
3
120-129
2
Apakah data distribusi frekuensi di atas merupakan distribusi normal? Jelaskan.
4.
Akan disusun distribusi frekuensi biaya sewa rumah bulanan. Biaya sewa bulanan
merupakan kelipatan $100 dengan rentang $1.000 s.d. $1.900. Interval kelas ditetapkan
sebesar $200. Berapa batas kelas yang paling tepat? Mengapa?
5.
Disajikan data sebagai berikut:
5
24
36
2
1
3
19
55
1
2
4
20
4
1
24
30
0
1
8
2
27
0
2
22
Tentukan:
a.
Apakah kelas data memiliki panjang yang sama?
b.
Berapa nilai tengah dari kelas kedua?
c.
Apakah terdapat open-end class?
28
29
BAB III PROBABILITAS
1. Pendahuluan
Bab ini akan membahas tentang probabilitas. Pengertian tentang probabilitas menjadi suatu
syarat penting dalam memahami statistik inferensial yang akan dibahas pada bab-bab
berikutnya. Bagian pertama akan membahas konsep-konsep dasar dari probabilitas, seperti
tentang percobaan, ruang sampel dan even. Bagian kedua membahas aturan penjumlahan
dan perkalian dalam probabilitas termasuk independensi dan teorema Bayes. Bagian
terakhir bab probabilitas ini akan membahas tentang Permutasi dan Kombinasi.
2. Konsep-Konsep Dasar Probabilitas
2.1. Percobaan, Ruang Sampel dan Elemen
Percobaan (experiment atau trial) adalah sebarang proses pengukuran atau pengamatan
atas hasil-hasil yang berbeda. Suatu percobaan dapat terjadi sesungguhnya (riil) atau hanya
merupakan konsep saja. Kumpulan dari keseluruhan hasil (outcome) yang mungkin dari
suatu eksperimen dinamakan ruang sampel (sample space). Obyek dari ruang sampel
dinamakan elemen atau titik sampel atau karena merupakan hasil percobaan disebut juga
hasil dasar (basic outcomes). Ruang sampel dinotasikan sebagai S, elemen-elemennya
disajikan di antara dua kurung kurawal
Dalam pelemparan mata uang tunggal, terdapat dua hasil yang mungkin, yaitu angka (A)
atau gambar (G). Sehingga:
S= {A, G}
Jika mata uang tersebut dilempar dua kali, terdapat empat kemungkinan:
S = {(A, A), (A, G), (G, A), (G, G)}
Pada kasus pertama, eksperimen dilakukan dengan satu percobaan (one trial); pada kasus
kedua dua percobaan. Kedua eksperimen dapat benar-benar dilakukan atau hanya
dibayangkan saja.
Hasil suatu percobaan pada umumnya tidak pasti sehingga biasa disebut sebagai percoban
acak (random trial). Seorang auditor yang akan memeriksa sebuah voucher akan
menghadapi ketidakpastian dalam hal apakah voucher tersebut mengandung kesalahan atau
tidak. Suatu perusahaan jasa pengiriman akan memiliki ketidakpastian apakah suatu barang
akan sampai tepat waktu atau terlambat. Kedua contoh tersebut melibatkan gambaran
percobaan acak.
30
2.2. Even, Jenis-Jenis Even dan Visualisasi Even
Suatu even (event) adalah kumpulan dari elemen-elemen yang masing-masingnya
merupakan elemen dari ruang sampel. Komplemen dari even A adalah kumpulan dari
elemen yang bukan merupakan even A. Komplemen even A dinotasikan sebagai A’. Dua
even A1 dan A2 dikatakan saling lepas (mutually exclusive), jika ketika salah satu even
terjadi, even yang lain tidak akan terjadi. Contoh even munculnya angka 1 dengan even
munculnya angka ganjil bukan merupakan even yang saling lepas, tetapi even munculnya
angka ganjil dengan even munculnya angka genap merupakan even yang saling lepas. Even
A dengan komplemennya (A’) merupakan even saling lepas, namun dua even yang saling
lepas tidak harus saling komplemen.
Beberapa even dikatakan keseluruhannya menghabiskan (collectively exhaustive) jika
gabungan dari even-even tersebut membentuk keseluruhan ruang sampel. Beberapa even
yang keseluruhannya menghabiskan tidak harus saling lepas. Suatu even dengan
komplemennya akan selalu keseluruhannya menghabiskan.
Terdapat dua jenis even yaitu even sederhana (simple event) serta even bersama (joint
event). Even sederhana terjadi jika hasil percobaan yang mungkin hanya terdiri dari satu
karakteristik. Even bersama terjadi jika hasil percobaan yang mungkin terdiri dari dua
karakteristik secara bersamaan (simultan). Even terambilnya kartu merah dari setumpuk
kartu merupakan contoh even sederhana. Sementara even terambilnya kartu merah yang
merupakan kartu As merupakan contoh even bersama.
Suatu even bersama dapat divisualisasikan dengan tiga cara, yaitu dengan metode
koordinat, diagram pohon serta dengan tabel kontijensi. Pada dua cara pertama hanya akan
diperoleh seluruh elemen yang membentuk ruang sampel percobaan. Pada cara ketiga
selain akan diperoleh seluruh elemen yang membentuk ruang sampel juga akan diperoleh
frekuensi seluruh kemungkinan even dari setiap elemen ruang sampel tersebut.
Sebagai contoh, asumsikan dalam suatu riset pasar, perbedaan di antara konsumen
digolongkan menurut (1) kelompok pendapatan: tinggi, sedang, rendah dan (2) apakah
mereka membeli atau tidak membeli produk selama satu bulan tertentu. Visualisasi
kejadian bersama riset ini dengan cara koordinat adalah sebagai berikut:
31
Membeli
Produk
Tidak
Membeli
Produk
Pendapatan
Rendah
Pendapatan
Sedang
Pendapatan
Tinggi
Visualisasi kejadian bersama dengan cara diagram pohon adalah sebagai berikut:
Membeli
Produk
Pendapata
n Rendah
Pendapata
n Sedang
Tdk Membeli
Produk
Pendapata
n Tinggi
Membeli
Produk
Tdk Membeli
Produk
Membeli
Produk
Tdk Membeli
Produk
Berdasar kedua visualisasi tersebut terlihat bahwa ruang sampel percobaan terdiri dari
enam elemen even bersama. Jika diketahui berapa frekuensi setiap elemen ruang sampel,
dapat dibuat tabel kontijensi yang lebih lanjut dapat digunakan untuk menghitung
probabilitas kejadian setiap elemen.
Misalkan tabel kontijensi untuk contoh di atas jika frekuensinya diketahui, adalah sebagai
berikut:
Pendapatan rendah
Pendapatan sedang
Pendapatan tinggi
Total
Membeli Produk
65 orang
25 orang
20 orang
110 orang
Tdk Membeli Produk
115 orang
205 orang
70 orang
390 orang
Total
180 orang
230 orang
90 orang
500 orang
Berdasarkan tabel kontijensi di atas kita dapat melihat bahwa jumlah pelanggan yang diriset
ada sebanyak 500 orang. Setiap sel pada tabel menunjukkan even bersama. Dengan
demikian even bersama:
●
pelanggan yang berpendapatan rendah sekaligus membeli produk memiliki
frekuensi sebanyak 65 pelanggan,
32
●
pelanggan yang berpendapatan sedang sekaligus membeli produk
memiliki
frekuensi sebanyak 25 pelanggan, dst.
Lalu bagaimana kita mengetahui even sederhananya? Even sederhana ditunjukkan pada sel
total, baik pada total baris maupun pada total kolom, sehingga even sederhana:
●
pelanggan yang berpendapatan rendah memiliki frekuensi sebanyak 180 pelanggan
●
pelanggan yang membeli produk memiliki frekuensi sebanyak 110 pelanggan, dst.
Karena diperoleh sebagai hasil penjumlahan even-even bersama yang membentuknya, even
sederhana pada tabel kontijensi biasa juga disebut sebagai even marginal.
2.3. Menentukan Probabilitas
Visualisasi even dalam tabel kontijensi cukup bermanfaat untuk menjelaskan cara
menentukan atau menghitung probabilitas even. Probabilitas ditentukan sebagai hasil
perbandingan antara frekuensi hasil dari even dengan total frekuensi hasil seluruh even.
frekuensi hasil even
total hasil frekuensi seluruh even
f
P(E) =
n
P(E) =
Nilai probabilitas berkisar antara 0 sampai 1. Probabilitas sebesar 0 merupakan probabilitas
untuk even yang tidak mungkin terjadi (impossible event) sedangkan probabilitas sebesar
1 menunjukkan probabilitas untuk even yang pasti terjadi (certain event)
Berdasarkan rumus probabilitas tersebut, maka untuk tabel kontijensi sebelumnya dapat
ditentukan probabilitas even bersama:
●
pelanggan yang berpendapatan rendah sekaligus membeli produk adalah sebesar
65/500 = 0,13,
●
pelanggan yang berpendapatan sedang sekaligus membeli produk adalah sebesar
25/500=0,05; dst.
Secara lengkap probabilitas untuk setiap sel tabel kontijensi di atas adalah sebagai berikut:
Pendapatan rendah (A1)
Pendapatan sedang (A2)
Pendapatan tinggi (A3)
Total
Membeli
Produk (B1)
0,13
0,05
0,04
0,22
Tdk Membeli
Produk (B2)
0,23
0,41
0,14
0,78
Total
0,36
0,46
0,18
1
Dalam notasi matematis contoh probabilitas bersama sebelumnya dinotasikan sebagai
berikut:
33
●
P(A1 dan B1) = 65/500 = 0,13
P(A2 dan B1) = 25/500 = 0,05; dst.
●
Tabel kontijensi yang isi selnya sudah merupakan nilai probabilitas seperti di atas,
dinamakan tabel probabilitas bersama (joint probability tables).
2.4. Latihan
1.
Data dari Badan Koordinasi Pasar Modal terkait penanaman modal asing dari
Jepang dan Inggris pada tiga industri spesifik adalah sebagai berikut:
Negara
Jepang (J)
Inggris (I)
Total
Kimia (K)
19
8
27
Industri
Elektronika (E)
13
6
19
Stationery (S)
2
2
4
Total
34
16
50
1. Jika dipilih satu perusahaan yang termasuk pada daftar di atas, hitunglah probabilitas
bahwa perusahaan tersebut merupakan:
a. Perusahaan stationery dari Inggris
b. Perusahaan Kimia dari Jepang
c. Perusahaan elektronika
d. Perusahaan Inggris
2. Seorang manajer pemasaran memberitahukan kepada stafnya bahwa terdapat
kesempatan 50:50 bahwa model promosi baru akan meningkatkan penjualan sampai
30%. Apakah pernyataan manajer pemasaran tersebut merupakan pernyataan tentang
probabilitas? Jelaskan perbedaannya dengan pernyataan probabilitas yang lazim!
3. Jika angka “0” menunjukkan tidak memberi jawaban atas soal ujian dan angka “1”
menunjukkan memberi jawaban, sebutkan elemen-elemen ruang sampel S dari
kemungkinan seorang mahasiswa menjawab 3 dari 4 soal ujian!
4. Manakah pasangan-pasangan even berikut yang saling lepas (mutually exclusive)?
a. Munculnya angka 3 (even 1) dengan munculnya angka-angka yang berjumlah 4
(even 2) dalam dua kali pelemparan sebuah dadu.
b. Munculnya angka 4 (even 1) dengan munculnya angka-angka yang berjumlah 3
(even 2) dalam dua kali pelemparan sebuah dadu.
c. Salah satu dadu berangka 6 (even 1) dengan jumlah dua dadu 5 (even 2) dalam
sekali pelemparan 3 dadu.
34
5. Sebuah produk makanan diperiksa di bagian pengolahan oleh seorang pemeriksa atau
inspector dan diketahui beberapa grade kualitas makanan yaitu A, B, C, dan D. Toko
makanan besar/utama hanya menjual produk makanan grade A, sedangkan produk
makanan grade B, C, dijual melalui outlet-outlet diskon, produk makanan grade D tidak
cocok untuk dikonsumsi manusia sehingga dijual kepada industri pengolah makanan
hewan.
a. Deskripsikan ruang sampel untuk produk makanan yang sudah diperiksa untuk: (1)
hasil kualitas yang berbeda; (2) distribusi pasar tempat makanan dijual yang
berbeda; (3) apakah produk makanan tersebut layak dikonsumsi manusia atau tidak.
b. Apakah ruang sampel pada pertanyaan a merupakan univariate atau bivariate?
Jelaskan!
3. Aturan Penjumlahan dan Perkalian Probabilitas
3.1. Aturan Penjumlahan
Teori probabilitas pada umumnya diterapkan terhadap penggabungan probabilitas: baik
penjumlahan atau perkalian. Untuk penjumlahan berlaku:
P (A atau B) = P(A) + P(B) – P(A dan B)
Atau, jika A dan B saling mutually exclusive berlaku kasus khusus dalam aturan
penjumlahan probabilitas, yaitu:
P (A atau B) = P(A) + P(B)
Aturan penjumlahan yang dirumuskan di atas dapat dimisalkan dengan operasi himpunan
untuk penggabungan (union). Jika himpunan A dan B memiliki irisan, maka gabungan
himpunan A dengan B ( A ∪ B ) diperoleh dari seluruh elemen himpunan A ditambah
seluruh elemen B dikurang elemen (A ∩ B). Namun jika antara A dan B tidak ada irisan,
gabungan himpunan A dan B ( A ∪ B ) diperoleh dari seluruh elemen himpunan A ditambah
seluruh elemen B. Dalam diagram venn operasi ini digambarkan sebagai berikut:
35
A ∪ B = A + B – (A ∩ B)
A∪ B=A+B
Kasus khusus aturan penjumlahan probabilitas dapat digunakan untuk keperluan menguji
apakah suatu even A dengan even B saling bebas (mutually exclusive) atau tidak, yaitu
dengan menguji:
●
jika P (A atau B) = P(A) + P(B), maka even A dan B saling lepas.
●
jika P (A atau B) ≠ P (A) + P (B), maka even A dan B tidak saling lepas.
Aturan penjumlahan jika diterapkan pada contoh tabel probabilitas bersama sebelumnya
dapat ditunjukkan sebagai berikut:
P (A1 atau B1) = P (A1) + P (B1) – P (A1 dan B1)
= 0,36 + 0,22 – 0,13
= 0,45
Jadi, probabilitas pelanggan yang berpendapatan rendah atau membeli produk adalah
sebesar 0,45.
Even yang probabilitasnya diproleh sebagai hasil penjumlahan dinamakan even majemuk
(compound event). Dalam probabilitas even majemuk seperti ini tercakup baik probabilitas
even A1 (pelanggan berpendapatan rendah), B1 (pelanggan yang membeli produk),
maupun A1 dan B1 (pelanggan yang berpendapatan rendah dan membeli produk). Dalam
rumus aturan penjumlahan, penjumlahan antar even yang memiliki even bersama (dalam
contoh di atas A1 dan B1) probabilitas even bersamanya (P[A1 dan B1]) dikurangkan dari
penambahan P(A1) + P(B1). Prosedur ini dilakukan untuk menghilangkan penghitungan
dua kali.
Prosedur terakhir tidak dilakukan pada kasus khusus aturan penjumlahan probabilitas.
Kasus khusus ini pada contoh di atas dapat dilihat pada saat menentukan nilai probabilitas
marginal (probabilitas sederhana). Kembali berdasarkan tabel kontijensi sebelumnya,
karena (A1 dan B1) saling lepas dengan (A1 dan B2) maka:
P ([A1 dan B1] atau [A1 dan B2])
= P (A1 dan B1) + P (A1 dan B2)
= 0,13 + 0,23
36
= 0,36 = P(A1)
Jadi probabilitas pelanggan berpendapatan rendah dan membeli produk atau berpendapatan
rendah dan tidak membeli produk adalah sebesar 0,36 yaitu sama dengan probabilitas
pelanggan berpendapatan rendah (probabilitas marginal). Pada kasus ini antara even yang
dijumlahkan tidak terdapat probabilitas bersama (yaitu P([A1 dan B1] dan [A1 dan B2] =
0) sehingga penjumlahan antara kedua even tersebut tidak dikurangi probabilitas even
bersamanya.
Kelima probabilitas marginal lain pada tabel probabilitas bersama yang kita miliki
sebelumnya dapat diperoleh dengan cara yang sama seperti yang telah dilakukan di atas.
Berikut contoh untuk probabilitas marginal yang diperoleh dari kolom tabel probabilitas
bersama.
P ([A1 dan B1] atau [A2 dan B1] atau [A3 dan B1])
= P(A1 dan B1) + P(A2 dan B1) + P(A3 dan B1)
= 0,13 + 0,05 + 0,04
= 0,22
= P(B1)
Jadi probabilitas pelanggan berpendapatan rendah dan membeli produk atau berpendapatan
sedang dan membeli produk atau berpendapatan tinggi dan membeli produk adalah sebesar
0,22 yaitu sama dengan probabilitas pelanggan yang membeli produk (probabilitas
marginal).
Dua contoh di atas disajikan untuk menjelaskan tentang aturan penjumlahan. Penjelasan
tentang aturan penjumlahan ini ternyata bersambung dengan konsep probabilitas marginal
yang telah diperkenalkan sebelumnya. Dengan demikian kita dapat mengambil kesimpulan
dari arah sebaliknya, yaitu untuk memperoleh nilai dari suatu probabilitas marginal
(sederhana) kita dapat menentukannya dengan menjumlahkan seluruh probabilitas bersama
yang melibatkan even marginal (sederhana) yang bersangkutan. Dengan demikian untuk
contoh kita di atas:
●
P(A1) = P (A1 dan B1) + P (A1 dan B2)
●
P(B1) = P(B1 dan A1) + P(B1 dan A2) + P(B1 dan A3); dst.
3.2. Aturan Perkalian
Aturan perkalian probabilitas baru akan muncul jika terhadap even-even yang
terlibat kita perhatikan pula saat atau waktu terjadinya even tersebut. Untuk itu terlebih
dahulu dahulu harus diketahui konsep tentang probabilitas bersyarat (conditional
37
probability). Mari kita perhatikan contoh tabel kontijensi dari percobaan pengambilan
kartu. Jika atas percobaan pengambilan kartu kita perhatikan dua karakteristik kartu
tersebut, yaitu apakah muncul kartu As atau bukan As serta apakah muncul kartu merah
atau bukan merah (hitam), maka tampilan tabel kontijensi kita adalah sebagai berikut:
As
Bukan As
Total
Merah
2
24
26
Hitam
2
24
26
Total
4
48
52
Suatu probabilitas bersyarat yang dinotasikan sebagai P (As / Merah) berarti probabilitas
dari even terambilnya kartu As sesudah sebelumnya terambil kartu merah. Notasi “/” dibaca
sebagai dengan syarat (given), sehingga P (As / Merah) dibaca sebagai probabilitas
terambilnya kartu As dengan syarat sebelumnya terambil kartu merah.
Dengan demikian berdasarkan tabel kontijensi di atas:
●
P(As / Merah) = 2/26
●
P(Merah / As) = 2/4
Bandingkan probabilitas tersebut dengan:
●
P(As dan Merah) = 2/52
Selain itu:
●
P(Bukan As / Hitam) = 24/26
●
P(Hitam / Bukan As) = 24/48
Bandingkan kedua probabilitas terakhir tersebut dengan:
●
P(Bukan As dan Hitam) = 24/52
Kesimpulan dari contoh-contoh di atas adalah terdapat hubungan antara probabilitas
bersyarat dengan probabilitas bersamanya (yaitu nilai pembilangnya sama besar).
Sesungguhnya suatu probabilitas bersyarat memang dapat ditentukan dari probabilitas
bersamanya. Karena probabilitas bersyarat hakikatnya adalah probabilitas bertingkat
(probabilitas kejadian sesudah terjadinya sesuatu kejadian), maka dia dapat diperoleh dari
probabilitas bersama dibagi probabilitas kejadian syaratnya. Dengan demikian
P(As/Merah) dengan P(Merah/As) sama-sama dapat diperoleh dengan membagi
probabilitas bersama P(As dan Merah) dengan probabilitas even syaratnya masing-masing.
Hubungan ini yang menyebabkan pembilang kedua probabilitas bersyarat tersebut sama
besar.
Mari kita terapkan rumus baru tersebut untuk probabilitas bersyarat yang sebelumnya sudah
kita peroleh nilainya.
38
2
P(As dan Merah) 52
2
=
=
P(As / Merah) =
26 26
P(Merah)
52
Sementara untuk
24
P(Hitam dan Bukan As) 52 24
P(Hitam / Bukan As) =
=
=
48 48
P(Bukan As)
52
Berdasarkan penjelasan di atas, secara umum suatu probabilitas bersyarat dapat ditentukan
dengan formulasi sebagai berikut:
P(A/B) =
P(A dan B) dan
P(B)
P(B/A) =
P(A dan B)
P(A)
Dari rumus probabilitas bersyarat inilah muncul aturan perkalian dalam probabilitas.
Aturan ini diturunkan dengan memandang rumus probabilitas bersyarat dari probabilitas
bersamanya. Dengan demikian dari kedua rumus di atas:
P(A dan B) = P(B) x P(A/B) dan
P(A dan B) = P(A) x P(B/A)
Ka r e n a a t u r a n p e r k a l i a n i n i b e r l a k u u n t u k e v e n b e r s a ma (A d a n B)
a t a u d a p a t d i n y a t a k a n s e b a g a i (A ∩ B), ma k a a t u r a n p e r k a l i a n
p r o b a b i l i t a s j u g a b i a s a d i s e b u t s e b a g a i probabilitas kejadian interseksi.
3.3. Independensi Statistik
Sebelumnya sudah dinyatakan bahwa probabilitas bersyarat hanya akan muncul pada
even-even yang saat atau waktu terjadinya berbeda. P(B/A) adalah probabilitas kejadian B
dengan syarat sebelumnya didahului kejadian A. Dengan demikian pada perkalian P(B) x
P(A/B), suku pertama P(B) adalah probabilitas even B tanpa sebelumnya didahului oleh
even A, tetapi suku kedua P(A/B) adalah probabilitas even A sesudah sebelumnya
didahului oleh even B. Jadi pada P(A/B) even A terjadi berikutnya sesudah even A.
Pada P(A/B) terdapat kemungkinan bahwa even A tidak dipengaruhi oleh even B
yang terjadi sebelumnya. Jadi pada even A tersebut, apakah didahului atau tidak didahului
even B, tidak berbeda. Untuk even A seperti ini nilai probabilitas bersyarat P(A/B) akan
sama dengan P(A). Even A dengan demikian dikatakan independen dari even B.
39
Demikian pula pada perkalian P(A) x P(B/A), suku pertama P(A) adalah probabilitas
even A tanpa sebelumnya didahului oleh even B, tetapi suku kedua P(B/A) adalah
probabilitas even B sesudah sebelumnya didahului oleh even A. Jadi pada P(B/A) even B
terjadi berikutnya sesudah even B. Pada P(B/A) ini terdapat kemungkinan bahwa even B
tidak dipengaruhi oleh even A. Jadi pada even B tersebut, apakah didahului atau tidak
didahului even A, tidak berbeda sehingga nilai P(B/A) tersebut akan sama dengan P(B).
Even B dikatakan independen dari even A.
Dua kejadian yang saling independen ini merupakan kasus khusus dalam aturan
perkalian, sebagaimana kejadian saling lepas merupakan kasus khusus dari aturan
penjumlahan. Agar senada dengan kejadian saling lepas, dua kejadian saling independen
biasa juga disebut sebagai kejadian saling bebas. Aturan perkalian untuk probabilitas
kejadian interseksi yang tadinya sebagai berikut:
P(A dan B) = P(B) x P(A/B) dan
P(A dan B) = P(A) x P(B/A)
untuk kejadian saling bebas (independen) karena P(A/B) = P(A) dan P(B/A) = P(B) menjadi
sebagai berikut:
P(A dan B) = P(B) x P(A) = P(A) x P(B)
Jika ditinjau dari arah sebaliknya, untuk menguji apakah dua kejadian saling bebas,
dilakukan dengan menguji apakah P(A dan B) = P(A) x P(B). Jika sama, maka even A
dengan B saling bebas. Jika berbeda berarti even A dengan B tidak saling bebas.
Kejadian saling bebas dan tidak saling bebas dapat diilustrasikan dalam percobaan
pengambilan kartu sebanyak misalkan dua kali. Misalkan P(A) adalah probabilitas
terambilnya kartu As pada pengambilan pertama kali. Nilai P(A) dengan demikian adalah
4/52. Sementara P(B/A) adalah probabilitas terambilnya kartu As dengan syarat
sebelumnya terambil kartu As dan tidak dikembalikan 1. Nilai P(B/A) dengan demikian
adalah 3/52. Probabilitas kejadian interseksi untuk kedua kejadian ini adalah:
P(A dan B) = P(A) x P(B/A) =
4 3
12
x =
52 51 2652
Namun jika P(B/A) adalah adalah probabilitas terambilnya kartu As dengan syarat
sebelumnya terambil kartu As tetapi kartu As tersebut dikembalikan, maka nilai P(B/A)
1 Meskipun A dan B sama-sama merupakan kejadian terambilnya kartu As, karena B terjadi sesudah A,
kejadian B tidak identik dengan A sehingga tidak dapat dinotasikan sama sebagai A.
40
sama dengan P(B) yang dalam hal ini sama dengan P(A) juga yaitu sebesar 4/52. Even A
dan B merupakan kejadian saling bebas. Dengan demikian:
P(A dan B) = P(A) x P(B) =
4 4
16
x
=
52 52 2704
Pada percobaan pengambilan kartu, dua kejadian berturutan dapat menjadi saling bebas
atau tidak saling bebas hanya dengan tindakan melakukan pengembalian atau tidak
melakukan
pengembalian
dalam
pelaksanaan
percobaan.
Tindakan
melakukan
pengembalian atau tidak melakukan pengembalian dalam percobaan dengan demikian
menjadi suatu konsep yang penting karena akan membedakan hasil probabilitas kejadian
interseksi. Secara umum dalam statistik tindakan ini dinamakan sebagai dengan atau tanpa
pengembalian (with or without replacement).
Pada percobaan-percobaan tertentu pengembalian tidak mungkin dilakukan, misalnya pada
percobaan pelemparan koin atau dadu. Pada percobaan lain, pengaruh pengembalian
dianggap tidak material, yaitu jika ruang sampel percobaan sedemikian banyak sehinga
dikembalikan atau tidak dikembalikan dianggap tidak terlalu berpengaruh.
3.4. Teorema Bayes
Teorema Bayes tidak lebih dari pernyataan lain probabilitas bersyarat dan aturan perkalian
pada probabilitas kejadian interseksi. Untuk memahami teorema ini asumsikan bahwa 1%
dari penduduk suatu kota mengidap suatu penyakit tertentu dan terhadap penduduk tersebut
dipilih seseorang secara acak. Jika kita notasikan even memiliki penyakit sebagai A1 dan
tidak memiliki penyakit sebagai A2, maka P(A1) probabilitas terpilih penduduk yang
memiliki penyakit dan P(A2) yang tidak memiliki penyakit masing-masing adalah 0,01
dan 0,99. Kedua probabilitas ini (P[A1] dan P[A2]) dinamakan probabilitas awal (prior
probability).
Selanjutnya asumsikan bahwa suatu hasil penelitian menemukan alat uji untuk menentukan
apakah seseorang mengidap penyakit tersebut atau tidak. Hasil pengujian alat tersebut,
namun demikian, belum begitu akurat. Jika seseorang benar-benar mengidap penyakit
tersebut, kemungkinan alat tersebut dapat mendeteksinya adalah sebesar 97%. Di lain pihak
jika seseorang benar-benar tidak mengidap penyakit tersebut, alat tersebut mungkin masih
akan mendeteksi yang bersangkutan sebagai mengidap penyakit dengan kemungkinan
sebesar 5%. Probabilitas kedua even ini jika dinotasikan masing-masing adalah P(B/A1) =
0,97 dan P(B/A2) = 0,05 dimana even B menunjukkan alat mendeteksi seseorang sebagai
memiliki penyakit.
41
Teorema Bayes memanfaatkan informasi tambahan untuk merevisi probabilitas awal. Jadi
yang ingin ditentukan dengan teorema Bayes adalah setelah seorang penduduk terpilih dan
alat menentukan orang tersebut memiliki penyakit, berapa probabilitas bahwa orang
tersebut betul-betul mengidap penyakit. Probabilitas ini dinotasikan sebagai P(A1/B).
Teorema Bayes juga dapat diterapkan dari arah lain, yaitu setelah seorang penduduk terpilih
dan alat menentukan orang tersebut memiliki penyakit, berapa probabilitas bahwa orang
tersebut tidak mengidap penyakit atau P(A2/B).
Per definisi P(A1/B) = P(A1 dan B) / P(B) dan P(A2/B) = P(A2 dan B) / P(B). Namun
masalah yang kita hadapi tidak memiliki baik informasi tentang P(A1 dan B) maupun P(B).
Informasi yang kita ketahui tentang masalah tersebut adalah P(A1), P(A2), P(B/A1) serta
P(B/A2). Suku-suku inilah yang harus masuk ke dalam formula penentuan P(A1/B) dan
P(A2/B). Mari kita jabarkan lebih lanjut:
P(A1/B) =
P(A1 dan B)
P(A1 dan B)
P(A1 ) x P(B/A1 )
=
=
P(B)
P(A1 dan B) + P(A 2 dan B) P(A1 ) x P(B/A1 ) + P(A 2 ) x P(B/A 2 )
dan
P(A 2 /B) =
P(A 2 dan B)
P(A 2 dan B)
P(A 2 ) x P(B/A 2 )
=
=
P(B)
P(A1 dan B) + P(A 2 dan B) P(A1 ) x P(B/A1 ) + P(A 2 ) x P(B/A 2 )
Untuk permasalahan di atas:
P(A1/B) =
= 0,16
0,01x0,97
0,01x0,97 + 0,99 x0,05
dan
P(A 2 /B) =
0,99 x0,05
= 0,84
0,01x0,97 + 0,99 x0,05
Jadi, probabilitas bahwa seseorang terpilih betul-betul mengidap penyakit setelah alat
menentukan dia memiliki penyakit adalah 16%. Dengan demikian adanya informasi
tambahan memberikan tambahan keyakinan bahwa seseorang benar memiliki penyakit,
dari tadinya hanya 1% menjadi 16%. Sementara probabilitas bahwa seseorang terpilih
betul-betul tidak mengidap penyakit setelah alat menentukan dia memiliki penyakit adalah
84% yang merupakan komplemen dari even sebelumnya (100%-16%). Kedua probabilitas
hasil teorema Bayes ini dinamakan probabilitas akhir (posterior probability).
Pemahaman atas perhitungan teorema Bayes akan lebih terbantu dengan melakukan
analisis melalui tabel berikut:
42
Prob
Inf
Awal
Tamb.
P(Ai)
Even
Prob Bersama
Probabilitas Akhir
P(B/Ai)
P(Ai) P(B/Ai)
P(Ai/B)
A1
Kena Penyakit
0,01
0,97
0,0097
0,0097/0,0592 = 0,16
A2
Tdk Kena Penyakit
0,99
0,05
0,0495
0,0495/0,0592 = 0,84
P(B)
0,0592
1,00
Dengan melakukan perhitungan-perhitungan terlebih dahulu melalui aturan perkalian,
teorema Bayes juga dapat disajikan dalam tabel kontijensi biasa. Namun untuk itu, even B
harus dibedakan antara B1 alat menentukan seseorang mengidap penyakit dan B2 alat
menentukan seseorang tidak mengidap penyakit. Berikut perhitungan-perhitungannya:
P(A1 dan B1) = P(A1) P(B1/A1) = 0,01 x 0,97 = 0,0097
P(A2 dan B1) = P(A2) P(B1/A2) = 0,99 x 0,05 = 0,0495
P(A1 dan B2) = P(A1) – P(A1 dan B1) = 0,01 – 0,0097 = 0,0003
P(A2 dan B2) = P(A2) – P(A2 dan B1) = 0,05 – 0,0495 = 0,005
B1
B2
Total
A1
0,0097
0,0003
0,01
A2
0,0495
0,0005
0,05
Total
0,0592
0,0008
0,06
3.5. Latihan
1.
Data dari Badan Koordinasi Pasar Modal terkait penanaman modal asing dari
Jepang dan Inggris pada tiga industri spesifik adalah sebagai berikut:
Negara
Jerman (G)
Jepang (J)
Total
Kimia (K)
19
8
27
Industri
Elektronika (E)
13
6
19
Stationery (S)
2
2
4
Total
34
16
50
Jika dipilih satu perusahaan yang termasuk pada daftar di atas, hitunglah probabilitas bahwa
perusahaan tersebut merupakan:
a.
Perusahaan stationery, dengan syarat dari Inggris.
b.
Baik perusahaan Jepang atau perusahaan stationery.
b.
Tentukan apakah asal negara perusahaan investor dengan bidang industri dimana
perusahaan bergerak saling bebas!
43
2.
Kejadian A dan B memiliki struktur probabilitas sebagai berikut:
P (A dan B) = 1/6
P(A dan B’) = 2/9
P(A’ dan B) =1/3
a.
b.
c.
Berapakah P(A’ dan B’)?
Apakah A dan B merupakan even saling bebas?
Apakah A dan B merupakan even saling lepas?
3.
Suatu perusahaan mengadakan “tes bakat menjual” sebagai media untuk membantu
memilih staf marketing bagi perusahaan. Pengalaman masa lalu menunjukkan bahwa hanya
65% dari seluruh pelamar untuk posisi marketing yang berhasil meraih klasifikasi
“memuaskan” dalam penjualan aktual yang mereka lakukan, sisanya digolongkan “tidak
memuaskan”. Dari mereka yang diklasifikasikan “memuaskan”, 80%-nya lulus “tes bakat
menjual”. Hanya 30% dari mereka yang dinyatakan ”tidak memuaskan” yang lulus tes
tersebut. Berdasarkan informasi tersebut, berapakah probabilitas bahwa seorang pelamar
yang lulus tes akan dinyatakan memuaskan dalam penjualan aktual yang akan mereka
lakukan.
4.
Sebanyak 2 orang reviewer/pengulas (1,2) sebuah penerbit secara independen
meninjau naskah yang diterimanya melalui pos. Setiap reviewer memberikan nilai Baik
(B), Cukup (C) , atau Buruk (D) untuk naskah-naskah yang diterimanya.
a.
Deskripsikan ruang sampel dari hasil ulasan bersama atau joint review dari sebuah
naskah
b.
Apakah ruang sampel bagian dari univariate atau bivariate? Jelaskan
c.
Hitunglah hasil dari kejadian/event (E) berikut:
1)
E1 ∩ E2
2)
E1 ⋃ E2
3)
4)
5.
E’1 ∩ E2
E’1 ⋃ E’2
Sebuah alat untuk memeriksa pengelasan internal pada tong logam didesain untuk
memberikan sinyal ketika logam yang diperiksa tersebut cacat. Distribusi peluang status
logam dan respon alat pendeteksi tersebut adalah sebagai berikut:
Status Logam
Signal (B1)
Alat Pendeteksi
Tidak Ada Sinyal (B2)
Total
44
Cacat (A1)
0,2
0,0
0,2
Tidak Cacat (A2)
0,1
0,7
0,8
0,3
0,7
1.0
Total
a.
Berikan simbol atau notasi untuk peluang: (1) logam yang cacat; (2) logam yang
cacat dan alat pendeteksi memberi sinyal; (3) Alat pendeteksi memberi sinyal, diketahui
bahwa logamnya cacat; (4) Logam cacat, diketahui bahwa alat pendeteksi memberikan
sinyal
b.
J e l a s k a n ma k s u d d a r i p e l u a n g b e r i k u t : (1) P(A1 ∩ B2) ; (2) P(B1
| A2); P(B2)
c.
Berapakah peluang dari masing-masing soal a dan b.
4. Permutasi dan Kombinasi
4.1. Permutasi
Pada bagian 2.2. sudah dijelaskan bagaimana cara koordinat dan diagram pohon dapat
digunakan untuk memvisualisasikan ruang sampel dari percobaan yang menghasilkan
kejadian bersama yang menjadi perhatian. Contoh yang dijelaskan pada bagian tersebut
adalah ilustrasi dari suatu riset pasar yang menggolongkan perbedaan di antara konsumen
menurut (1) kelompok pendapatan: tinggi, sedang, rendah dan (2) apakah mereka membeli
atau tidak membeli produk selama satu bulan tertentu. Visualisasi penting untuk
mengetahui elemen-elemen yang termasuk dalam ruang sampel. Namun jika yang ingin
kita ketahui hanya informasi mengenai berapa jumlah elemen ruang sampel, cara
visualisasi tentu saja sangat tidak efisien. Jumlah elemen ruang sampel pada percobaan
tersebut dapat diperoleh dengan hanya mengalikan jumlah kemungkinan kelompok
pendapatan (3 kemungkinan) dengan jumlah kemungkinan pembelian produk (2
kemungkinan) sehingga jumlah seluruh ruang sampelnya adalah 3x2=6 elemen ruang
sampel (6 kemungkinan even bersama yang akan dihasilkan). Penentuan jumlah ruang
sampel suatu percobaan dengan cara perkalian tersebut dikatakan menerapkan prinsip
berhitung (counting principle) aturan perkalian (multiplication rule) 2.
2 Istilah aturan perkalian di sini diterapkan untuk prinsip berhitung, sehingga harus dibedakan dengan
aturan perkalian pada probabilitas
45
Prinsip berhitung secara umum adalah cara menghitung jumlah seluruh cara penyusunan
(elemen ruang sampel) yang mungkin dari n1 obyek untuk tempat pertama, n2 obyek untuk
tempat kedua, dst. sampai dengan nk obyek untuk tempat ke-k. Jumlah seluruh cara
penyusunan yang mungkin dapat diperoleh dari hasil perkalian antara n1, n2, ..., nk. Pada
masalah riset pasar di atas, terdapat sebanyak 3 obyek untuk tempat pertama (pendapatan
rendah, sedang, tinggi) dan 2 obyek untuk tempat kedua (membeli, tidak membeli),
sehingga jumlah cara penyusunan yang mungkin adalah 3x2 =6 cara (elemen ruang
sampel).
Permutasi adalah kasus khusus dari penerapan prinsip berhitung. Permutasi sama-sama
merupakan cara menghitung jumlah seluruh cara penyusunan yang mungkin dari obyekobyek untuk menempati tempat pertama, kedua, ketiga dst. dalam suatu susunan. Namun
dalam permutasi obyek yang akan menempati tempat pertama, kedua, ketiga dst. dalam
susunan tersebut, berasal dari set obyek yang sama, dan jika sudah digunakan pada satu
tempat tidak dapat digunakan lagi di tempat yang lain. Contoh masalah permutasi misalnya
adalah cara penyusunan yang mungkin dari empat orang A, B, C, dan D, untuk menempati
susunan kursi pertama, kedua, ketiga dan keempat. Jumlah seluruh cara penyusunan yang
mungkin untuk masalah ini dapat diperoleh dari hasil perkalian antara jumlah obyek yang
dapat menempati kursi pertama yaitu 4 orang, dengan jumlah obyek yang dapat menempati
kursi kedua yaitu 3 orang, dengan jumlah obyek yang dapat menempati kursi ketiga yaitu
2 orang, dan dengan jumlah obyek yang dapat menempati kursi keempat yaitu tinggal 1
orang, yaitu sebanyak 4x3x2x1=24 susunan yang mungkin. Kita dapat mendaftar ke-24
susunan tersebut dengan diagram pohon sebagai berikut:
A
B
C
D
D
C
B
D
D
B
B
C
C
B
C
D
D
C
C
A
D
D
A
D
A
C
C
D
B
A
C
D
B
D
D
A
B
C
A
B
B
A
A
D
D
A
A
B
B
A
B
C
C
B
A
C
C
A
A
B
46
C
A
B
A
Suatu permutasi atas 4 obyek tidak harus disusun ke 4 tempat, tapi dapat hanya ke misalnya
2 tempat saja. Permutasi ini dinamakan permutasi 4 obyek setiap dipilih 2 obyek dan
dinotasikan sebagai 4P2. Jika disusun ke 4 tempat permutasinya adalah 4P4 dengan hasil
sebagaimana sudah dihitung di atas adalah sebanyak 24 susunan. Sementara hasil dari 4P2
adalah sebanyak 4x3=12 susunan, yang dalam diagram pohon digambarkan sebagai
berikut:
A
B
B
C
D
A
C
D
C
D
A
B
D
A
B
C
Suatu permutasi dari n obyek dipilih setiap r obyek secara umum dapat diperoleh dengan:
nPr =
n!
(n - r)!
Jika r = n, maka permutasi menjadi nPn, yang merupakan kasus khusus dari nPr, dan
diperoleh secara umum sebagai:
nPn =
n!
n!
= = n!
(n - n)! 0!
Rumus ini jika diterapkan pada dua kasus permutas di atas masing-masing adalah sebagai
berikut:
4!
4!
= = 4 x3 = 12
(4 - 2)! 2!
4
P2 =
4
P4 = 4!= 4 x3 x 2 x1 = 24
4.2. Kombinasi
Pada contoh masalah permutasi dari empat orang A, B, C, dan D, untuk menempati susunan
kursi pertama dan kedua (4P2), antara pasangan susunan AB dengan BA, BC dengan CB,
AC dengan CA dan seterusnya, merupakan suatu susunan yang berbeda sehingga masingmasing dihitung satu susunan. Pada permasalahan pemilihan lain, misalnya pemilihan dua
orang seperti di atas, dapat saja dilakukan tanpa memperhatikan urutan susunan yang
47
terpilih, sehingga antara pasangan susunan AB dengan BA, BC dengan CB, AC dengan
CA dan seterusnya, merupakan suatu susunan yang tidak berbeda sehingga masing-masing
pasangarn harus dihitung sebagai satu susunan. Permasalahan seperti ini tidak lagi disebut
sebagai permutasi, tetapi merupakan contoh dari masalah kombinasi. Pada kasus di atas,
permasalahan menjadi masalah kombinasi jika terhadap empat orang A, B, C, D dipilih dua
orang, untuk misalnya bertemu dengan dosen statistik.
Ketika masalah permutasi 4P2 menjadi kombinasi 4K2, maka jumlah susunan yang mungkin
yang tadinya 12 susunan, berkurang menjadi setengahnya yaitu menjadi hanya 6 susunan,
akibat dari tidak berbedanya setiap pasangan susunan AB dengan BA, BC dengan CB dan
seterusnya. Secara umum hubungan antara kombinasi dengan permutasi dan formula untuk
menentukan kombinasi adalah sebagai berikut:
n!
nPr (n - r)!
n!
=
=
nKr =
r!
r!
(n - r)!r!
Sebagai contoh untuk kasus 4K2 di atas diperoleh 6 susunan melalui perhitungan sebagai
berikut:
4K2 =
4!
4 x3
=
=6
(4 - 2)!2!
2!
4.3. Latihan
1. Nomor pemenang untuk lotre California Fantasy secara berurutan adalah 13,18, 22, 24,
dan 32. Apakah penghitungan untuk kemenangan lotre menggunakan permutasi?
Jelaskan!
2. Perusahaan Teknomill harus menunjuk presiden, Chief Executive Officer, Chief
Operating Officer, dan Chief Financial Officer masing-masing satu orang. Selain itu,
harus melakukan penunjukkan Komite Perencanaan dengan 4 anggota yang berbeda.
Terdapat 12 kandidat yang memenuhi kualifikasi, dan officers dapat merangkap sebagai
komite.
a. Berapa banyak cara yang digunakan untuk menunjuk officers?
b. Berapa banyak cara yang digunakan untuk menunjuk komite?
c. Berapa peluang memilih anggota komite secara acak mendapatkan hasil 4 orang
kandidat yang termuda dan memenuhi kualifikasi?
48
3. Dengan sisa waktu yang singkat dalam satu hari, pengemudi FedEx memiliki waktu
untuk melakukan pengiriman di tiga lokasi di antara delapan lokasi yang tersisa. Berapa
banyak rute berbeda yang mungkin?
4. Seorang penulis memiliki brankas tempat menyimpan ide tulisan untuk edisi buku
selanjutnya. Kombinasi kunci brankas tersebut terdiri dari 4 angka antara 0 sampai 99
dan boleh berulang angkanya. Jika penulis lain berusaha masuk dan mencuri ide tulisan,
berapa peluang penulis tersebut mendapatkan kombinasi yang tepat pada percobaan
pertama? Asumsikan angka dipilih secara acak. Mengingat jumlah peluang, apakah
percobaan membuka brankas dengan menebak angka secara acak dapat berhasil?
5. Sautu publikasi menyebutkan bahwa lotere Mega Millions dijalankan di 42 negara
bagian di Amerika Seriakt. Memenangkan jackpot mengharuskan Peserta memilih lima
angka yang tepat antara 1 dan 56 dan, dalam pengundian terpisah, Peserta juga harus
memilih satu angka yang benar antara 1 dan 46. Temukan probabilitas memenangkan
jackpot.
49
BAB IV VARIABEL ACAK
1. Pendahuluan
Pada bab sebelumnya telah dibicarakan tentang probabilitas. Bab ini akan melanjutkan
topik tentang probabilitas tersebut, khususnya dalam hal distribusi probabilitas dan variabel
acak. Suatu distribusi probabilitas dapat bersifat umum –yaitu yang hasil-hasilnya berupa
variabel kuantitatif maupun kualitatif– maupun yang bersifat khusus yang hasilnya hanya
merupakan variabel kuantitatif. Hasil dari suatu percobaan acak yang merupakan variabel
kuantitatif dinamakan variabel acak. Bab ini juga akan membahas distribusi probabilitas
variabel acak.
2. Distribusi Probabilitas Dan Variabel Acak
2.1. Pengertian Distribusi Probabilitas
Suatu pemerkiraan probabilitas harus menyajikan nilai probabilitas untuk setiap hasil dasar
(elemen) dari ruang sampel. Nilai probabilitas ini harus merupakan angka antara 0 sampai
1, dan jumlahnya harus 1, karena salah satu dari elemen pasti akan muncul. Suatu distribusi
probabilitas menunjukkan bagaimana probabilitas total sebesar 1 ini dialokasikan –dengan
pemerkiraaan probabilitas– di antara hasil-hasil dasar dari ruang sampel. Hasil alokasi
dengan demikian menunjukkan kesempatan relatif dari keterjadian setiap elemen dalam
ruang sampel.
Dalam kasus riset pasar pada bab sebelumnya yang membedakan konsumen menurut (1)
kelompok pendapatan: tinggi, sedang, rendah dan (2) apakah mereka membeli atau tidak
membeli produk selama satu bulan tertentu, tabel probabilitas bersama dari tabel kontijensi
merupakan distribusi probabilitas. Pada tabel probabilitas tersebut, probabilitas
diperkirakan berdasarkan frekuensi relatif di masa lampau. Dalam tabel probabilitas
tersebut terlihat bahwa tidak ada nilai probabilitas yang kurang dari 0 dan jumlah seluruh
probabilitas sama dengan 1.
Pendapatan rendah (A1)
Pendapatan sedang (A2)
Pendapatan tinggi (A3)
Total
Membeli
Produk (B1)
0,13
0,05
0,04
0,22
Tdk Membeli
Produk (B2)
0,23
0,41
0,14
0,78
Total
0,36
0,46
0,18
1
50
2.2. Jenis-Jenis Distribusi Probabilitas
Jenis-jenis distribusi probabilitas mengikuti jenis-jenis even. Karena suatu even dapat
merupakan even sederhana atau even bersama, maka distribusi probabilitas pun bisa berupa
distribusi probabilitas even-even sederhana maupun distribusi probabilitas even-even
bersama. Distribusi probabilitas even sederhana biasa disebut sebagai distribusi
probabilitas univariat (univariate probability distribution) karena distribusi tersebut
didasarkan atas suatu ruang sampel univariat. Sementara distribusi probabilitas even
bersama biasa disebut distribusi probabilitas bivariat (bivariate probability distribution)
atau secara umum distribusi probabilitas multivariat (multivariate probability distribution).
Distribusi probabilitas univariat untuk kasus di atas adalah distribusi probabilitas even
sederhananya atau even marginalnya, yang dalam representasi tabular dan grafis sebagai
berikut:
P(x)
x
P(x
A1
0,36
A2
0,46
A3
0,18
0,46
0,36
0,18
A1
A2
A3
x
2.3. Pengertian Variabel Acak
Ketika hasil dari suatu percobaan acak bersifat kuantitatif (angka), kita mennyatakan hasil
tersebut sebagai variabel acak. Sebagai contoh dalam percobaan pelemparan koin, hasil
munculnya sisi angka atau gambar bukan merupakan variabel acak. Percobaan tesebut baru
akan menghasilkan variabel acak jika yang menjadi perhatian dalam percobaan menjadi
munculnya sisi gambar dalam misalnya dua kali pelemparan koin dengan variabel acaknya
masing-masing 0, yang menunjukkan kuantitas 0 kali munculnya sisi gambar, 1 yang
menunjukkan kuantitas 1 kali munculnya sisi gambar serta 2 yang menunjukkan kuantitas
2 kali munculnya sisi gambar. Pada percobaan pelemparan dadu dengan hasil keluarnya
angka 1, 2, 3 sampai 6, meski angka tersebut tidak merepresentasi kuantitas, biasanya
dianggap sebagai variabel acak juga karena hasilnya sudah berupa angka. Demikian pula
jika yang menjadi perhatian dalam percobaan pelemparan dadu tersebut berganti misalnya
menjadi munculnya angka 6 dalam dua kali pelemparan dadu. Variabel acaknya adalah 0,
1, atau 2.
51
Dalam variabel acak cukup berguna untuk membedakan secara notasional antara variabel
acak itu sendiri dengan nilai yang mungkin dimiliki oleh variabel acak tersebut. Pada
umumnya digunakan huruf besar, seperti X, untuk menunjuk kepada variabel acak dan
huruf kecil yang bersesuaian, yaitu x pada contoh ini, untuk menunjuk nilai khusus yang
dimiliki variabel acak. Pada contoh percobaan pelemparan dadu di atas, X menunjukkan
variabel acak jumlah angka 6 yang muncul pada dua kali pelemparan dadu dan x
menunjukkan jumlah aktual munculnya angka 6, yaitu dalam hal ini bisa 0, 1, atau 2.
2.4. Jenis-Jenis Variabel Acak
Variabel acak diklasifikasikan antara variabel acak diskrit dengan variabel acak kontinyu.
Variabel acak diskrit (discrete random variable) adalah variabel acak yang dapat
memiliki hanya nilai yang berbeda pada suatu skala. Sebagai contoh, jumlah kemenangan
tim sepakbola dalam 9 pertandingan merupakan variabel acak diskrit yang dapat memiliki
1 dari 10 nilai yang berbeda (0, 1, ..., 9) dan tidak ada nilai antaranya (pecahannya). Suatu
variabel acak diskrit dapat memiliki nilai yang terbatas seperti pada contoh kemenangan
tim sepakbola di atas, atau nilai yang tak terbatas. Sebagai contoh, variabel acak diskrit
jumlah pelanggaran lalu lintas yang terjadi pada suatu kota besar selama periode satu tahun
tertentu memiliki hasil yang tak terbatas (1, 2, 3, ..., tak terbatas).
Variabel acak kontinyu (continuous random variable) adalah variabel acak yang dapat
memiliki sebarang nilai dalam suatu continuum. Sebagai contoh, suhu dalam suatu ruangan
dapat berupa sebarang nilai dalam continuum suhu, misalnya antara -40○ C dan 45○ C. Jika
nilai variabel acak diskrit diperoleh melalui penghitungan, maka nilai variabel acak
kontinyu diperoleh melalui pengukuran. Contoh variabel pengukuran lain yang sering
diperlakukan sebagai variabel acak kontinyu adalah peghasilan keluarga, IQ, dan tinggi
badan seseorang.
2.5. Karakteristik Distribusi Probabilitas Variabel Acak
Suatu distribusi probabilitas variabel acak memiliki ciri-ciri sebagai berikut:
1.
f(x) ≥ 0 untuk seluruh nilai real dari X;
2.
∑ f(x) = 1
x
Ciri pertama menyatakan bahwa probabilitas lebih besar dari atau sama dengan nol. Ciri
kedua menyatakan bahwa jumlah probabilitas dalam distribusi probabilitas sama dengan
satu.
52
Ciri kedua dari distribusi probabilitas variabel acak menurunkan perhitungan yang dikenal
sebagai distribusi probabilitas kumulatif (cumulative probability distribution) atau
fungsi distribusi kumulatif (cumulative distribution function). Distribusi probabilitas
kumulatif dinotasikan sebagai P(X ≤ c ) atau F(c). Nilai dari distribusi probabilitas
kumulatif diperoleh dari hasil penjumlahan f(x) untuk seluruh nilai x yang kurang dari atau
sama dengan c yang dinotasikan sebagai berikut:
F(c) = P(X ≤ c ) = ∑ f ( x)
x≤c
Jika c sama dengan x yang paling maksimum dalam suatu variabel acak diskrit, maka:
∑ f ( x) =∑ f ( x) =1 yang merupakan ciri distribusi probabilitas variabel acak kedua di
x≤c
x
atas.
Distribusi probabilitas kumulatif untuk variabel acak diskrit sering pula disebut sebagai
fungsi kumpulan probabilitas (probability mass function) atau fungsi kumpulan karena
probabilitas dikumpulkan pada titik khusus sepanjang sumbu x. Sementara distribusi
probabilitas variabel acak kontinyu biasa juga disebut sebagai fungsi kepadatan
probabilitas (probability density functions) atau fungsi densitas.
Contoh berikut akan menunjukkan bagaimana suatu perhitungan distribusi probabilitas
kumulatif diterapkan. Asumsikan PT Sejahtera Makmur TV mempertimbangkan untuk
mengakuisisi PT Visual Mandiri TV. Untuk menentukan harga yang harus dibayar PT
Sejahtera Makmur TV, Anda selaku Direktur Keuangan menyusun distribusi probabilitas
harga saham dari PT Visual Mandiri TV sebagai berikut:
Harga Saham PT Visual Mandiri TV
x
33.000
34.000
35.000
36.000
37.000
Probabilitas
f(x)
0,10
0,25
0,50
0,10
0,05
Probabilitas
Kumulatif F(x)
0,10
0,35
1
Berdasarkan data tersebut maka Anda dapat menentukan probabilitas misalnya harga
saham akan mencapai Rp 33.000 atau kurang P(X≤ 33.000) = F(33.000) = 0,10; Rp 34.000
atau kurang P(X ≤ 34.000) = F(34.000) = 0,35 dan seterusnya bisa Anda tentukan sendiri.
Sesudah diperhitungkan seluruhnya, distribusi probabilitas kumulatif dapat dibuat dalam
bentuk grafik sebagaimana dapat dilihat pada gambar berikut. Grafik tersebut merupakan
53
fungsi tangga; yaitu bahwa nilai-nilainya berubah dalam tahap-tahap terputus pada nilai
variabel acak X.
1,00
0,80
0,60
0,40
0,20
0,00
33.000 34.000 35.000 36.000 37.000
2.6. Jenis-Jenis Distribusi Probabilitas Variabel Acak
Dalam jenis-jenis distribusi probabilitas disebutkan bahwa distribusi probabilitas even
sederhana, biasa disebut sebagai distribusi probabilitas univariat (univariate probability
distribution), sementara distribusi probabilitas even bersama, biasa disebut distribusi
probabilitas bivariat (bivariate probability distribution). Ketika hasil dari suatu distribusi
probabilitas bersifat kuantitatif, yaitu merupakan variabel acak, distribusi univariate dan
bivariate berperan serupa seperti pada bukan variabel acak.
Sebagai contoh distribusi probabilitas bivariat untuk dua variabel acak diskrit
diilustrasikan pada tabel berikut.
Jumlah Truk pada
Divisi Perbaikan pada
Malam Pertama
0
1
2
3
Total
Jumlah Truk pada Divisi Perbaikan pada
Malam Kedua
0
1
2
3
0,58
0,06
0,01
0,00
0,06
0,10
0,03
0,01
0,01
0,03
0,05
0,01
0,00
0,01
0,01
0,03
0,65
0,20
0,10
0,05
Total
0,65
0,20
0,10
0,05
1,00
54
Kedua variabel acak tersebut adalah jumlah truk pemadam kebakaran Dinas Kebakaran
Pemda DKI Jakarta yang berada pada Divisi Perbaikan Kendaraan Pemda DKI dari 3 truk
pemadam kebakaran yang ada pada dua malam berturutan. Distribusi probabilitas X
menunjukkan jumlah truk yang yang berada pada pada Divisi Perbaikan Kendaraan pada
malam pertama dan Y menunjukkan jumlah truk yang yang berada pada Divisi Perbaikan
Kendaraan pada malam kedua. Hasil yang mungkin baik untuk X maupun Y adalah 0, 1, 2,
dan 3.
Notasi untuk menunjukkan probabilitas bersama (bivariat) untuk variabel acak diskrit
mengikuti yang digunakan pada even yang telah dibahas pada bab probabilitas. Probabilitas
bersama bahwa x truk berada pada Divisi Perbaikan Kendaraan pada malam pertama dan
y truk berada pada Divisi Perbaikan Kendaraan pada malam kedua dinotasikan P(X = x dan
Y = y) atau P(X = x ∩ Y = y ). Sebagai contoh dapat kita lihat pada tabel bahwa P(X = 1
∩ Y = 2) = 0,03. Notasi untuk probabilitas marginal (yang merupakan probabilitas
univariat) maupun probabilitas bersyarat juga mengikuti yang digunakan pada even yang
telah dibahas pada bab probabilitas. Sebagai contoh untuk probabilitas 0 truk berada pada
Divisi Perbaikan Kendaraan pada malam kedua, dengan syarat 1 truk berada pada Divisi
Perbaikan Kendaraan pada malam pertama adalah:
P(Y = 0 / X = 1) = P(X = 1 ∩ Y = 0)
0,06
=
= 0,30
P(X = 1)
0,20
2.7. Latihan
1.
Buktikan bahwa distribusi variabel acak X memiliki karakteristik distribusi
probabilitas, jika diketahui bahwa:
f(x) = x 2 + 2 untuk x = 1, 2, 3
20
2.
Distribusi probabilitas X, untuk X adalah jumlah kapal yang tiba di suatu pelabuhan
setiap hari, adalah: f(0) = 0,4; f(1) = 0,2; f(2) = 0,2; f(3) = 0,1. Tentukanlah distribusi
probabilitas kumulatif dan gambarkanlah dalam grafik!
3.
Tentukanlah k, sehingga persamaan-persamaan berikut merupakan fungsi
probabilitas:
a.
kx2 untuk x = 0, 1, 2, 3
b. k untuk x = 1, 2, 3
x
55
4.
Dalam setiap situasi dibawah ini, tentukan peristiwa mana saja yang merupakan
variabel acak diskrit atau kontinyu dan jelaskan ruang sampelnya (yaitu himpunan hasil
yang mungkin terjadi)
a.
Jumlah penumpang pada penerbangan yang sudah dijadwalkan berkapasitas 220
penumpang.
b.
Jumlah karyawan yang tidak hadir karena sakit dihari tertentu, jumlah karyawan
yang dimiliki perusahaan sebanyak 200 karyawan.
c.
Berapa lama mesin menganggur selama delapan jam kerja.
5.
Pelamar kerja. Distribusi dari probablitas X, banyaknya jumlah posisi yang
dipegang oleh pelamar kerja sebelumnya adalah sebagai berikut:
a.
b.
c.
x:
0
1
2
3
4
P (x):
0,60
0,20
0,10
0,05
0,05
Interpretasikan setiap pernyataan berikut: (1) P(0), (2) P(X ⪯ 1), (3) P(1⪯ X⪯ 3).
Cari probabilitas yang ada di part A
Dengan menggunakan data yang ada di nomor 4.
d.
Buatlah grafik distribusi probablitas
e.
Buatlah grafik distribusi probabilitas kumulatif. Dari grafik ini, tentukan P(X ⪯
3). Interpretasikan probabilitas ini.
3. Ukuran-Ukuran Karakteristik Variabel Acak
3.1. Nilai Harapan Variabel Acak
Dalam permasalahan variabel acak, seringkali kita tertarik dengan mean hasil variabel
acak dari beberapa percobaan. Sebagaimana pada himpunan data, mean variabel acak
merupakan ukuran pemusatan variabel acak tersebut. Ukuran mean ini dinamakan nilai
harapan dari variabel acak (expected value of random variable). Nilai harapan dari
variabel acak diskrit X dinotasikan dengan E{X} dan didefinisikan sebagai:
E{X} =
∑ xP( x)
x
Notasi E{ } dibaca sebagai “harapan dari.”
Sebagai contoh, dengan menggunakan contoh akuisisi PT Sejahtera Makmur TV
terhadap PT Visual Mandiri TV sebelumnya (bagian 2.4. buku ini) dapat ditentukan nilai
harapan dari harga saham PT Visual Mandiri TV sebagai berikut:
56
E{X} = 33.000(0,1) + 34.000(0,25) + 35.000(0,5) +36.000(0,1) + 37.000(0,05)
= 34.750
Hitungan nilai harapan ini dapat pula dituangkan dalam suatu daftar yang memperagakan
tiga langkah perhitungan manual atau penyajian di software spreadsheet komputer (formula
yang dimasukkan di software spreadsheet tidak dicantumkan) sebagai berikut:
(1)
X
33.000
34.000
35.000
36.000
37.000
(2)
P(x)
0,10
0,25
0,50
0,10
0,05
E{X}
(3)
x.P(x)
3300
8500
17500
3600
1850
34750
Contoh lain, misalkan seorang analis kesehatan memperoleh distribusi probabilitas X
jumlah kunjungan bulanan keluarga-keluarga pada suatu Puskesmas di suatu kecamatan
sebagai berikut.
P(x)
x
0,37
0
0,40
1
0,15
2
0,03
3
Berdasarkan distribusi tersebut maka nilai harapan X adalah:
E{X} = 0(0,37) + 1(0,40) + 2(0,15) + 3(0,03)
= 0,97 kunjungan per keluarga.
Nilai harapan X sesungguhnya merupakan mean tertimbang untuk hasil yang mungkin
dengan nilai probabilitas sebagai timbangan (bobot)-nya. Terdapat cara lain untuk
memahami E{X} ini. Dalam contoh kunjungan ke Puskesmas di atas dengan nilai harapan
X = 0,97 per keluarga, kita dapat mengasumsikan bahwa jika percobaan acak jumlah
kunjungan keluarga ke Puskesmas dilakukan berulang-ulang secara saling bebas dalam
jumlah yang cukup banyak, sehingga diperoleh frekuensi relatif 0 kunjungan = 37%, 1
kunjungan = 40% dan seterusnya, mean hasil dari percobaan secara saling bebas tersebut
adalah sekitar E{X} = 0,97 kunjungan per keluarga. Seperti pada ukuran-ukuran mean lain,
E{X} dapat merupakan angka yang tidak bersesuaian dengan hasil-hasil yang mungkin.
Pada contoh di atas kunjungan keluarga sebesar 0,97 bukan merupakan contoh hasil yang
mungkin.
57
3.2. Varians Dan Deviasi Standar Variabel Acak
Hasil dari suatu variabel acak bervariasi dari satu percobaan ke percobaan lainnya. Oleh
karena itu, sebagaimana juga pada himpunan data yang memerlukan baik ukuran
pemusatan maupun ukuran dispersi, atas variabel acak berguna pula untuk diketahui ukuran
dispersinya melalui varians dan deviasi standar selain ukuran pemusatan melalui nilai
harapan. Varians dari suatu variabel acak diskrit X dinotasikan dengan σ2{X} dan
didefinisikan sebagai berikut.
σ 2{ X } = ∑ ( x − E{ X }) 2 P( x)
x
Notasi σ2{X} berarti ”varians dari.”
Pada contoh akuisisi PT Sejahtera Makmur TV terhadap PT Visual Mandiri TV
sebelumnya dapat ditentukan varians dari harga saham PT Visual Mandiri TV sebagai
berikut:
σ2{X} = (33000-34750)2(0,10) + (34000-34750)2(0,25) + (35000-34750)2(0,50) +
(36000-34750)2(0,10) + (37000-34750)2(0,05)
= 887.500
Seperti hitungan nilai harapan, hitungan varians dapat pula dituangkan dalam suatu daftar
yang memperagakan empat langkah untuk perhitungan manual atau penyajian di software
spreadsheet komputer, yang melanjutkan hitungan nilai harapan sebelumnya, sebagai
berikut:
(1)
x
33.000
34.000
35.000
36.000
37.000
(2)
P(x)
0,10
0,25
0,50
0,10
0,05
E{X}
(3)
x.P(x)
3300
8500
17500
3600
1850
34750
(4)
(x-E{X})2.P(x)
306.250
140.625
31.250
156.250
253.125
887.500
Varians σ2{X} diekspresikan dengan satuan kuadrat dari X. Jika kita ambil nilai
akar kuadrat dari σ2{X}maka kita mengembalikan satuan ukuran dispersi ke satuan asal X
dan diperoleh deviasi standar X. Pada contoh akuisisi PT Sejahtera Makmur TV terhadap
PT Visual Mandiri TV sebelumnya dapat ditentukan deviasi standar dari harga saham PT
Visual Mandiri TV sebagai
58
σ{X} =
σ 2 ( X ) = 887500 = 942,0722
3.3. Fungsi Variabel Acak
Seringkali kita menemukan varabel acak yang merupakan fungsi dari variabel acak yang
lain. Pada bagian ini akan dibahas dua jenis fungsi yang sering muncul dalam penerapan,
yaitu variabel acak yang merupakan fungsi linear variabel acak lain serta variabel acak
yang merupakan penjumlahan atau selisih dari variabel acak lain.
3.3.1. Nilai Harapan Fungsi Linear
Variabel acak W merupakan fungsi linear dari variabel acak X dinotasikan sebagai W = a
+ bX, untuk a dan b merupakan konstanta. Sebagai contoh, asumsikan X adalah jumlah
panggilan telepon premium dan W adalah pendapatan harian dari panggilan telepon
premium tersebut dari suatu penyedia jasa layanan telepon premium. Jika biaya telepon
premium adalah Rp 2500 per panggilan maka W = 2500X. Dalam hal ini a = 0 dan b =
2500. Jika jumlah panggilan dalam satu hari, misal adalah 3 panggilan telepon, maka
pendapatan pada hari tersebut adalah w = 2500(3) = Rp7500.
Untuk contoh tersebut misalkan diketahui distribusi probabilitas jumlah panggilan telepon
premium X sebagai berikut:
x
P(x)
0
0,2
1
0,4
2
0,3
3
0,1
Karena biaya setiap panggilan adalah Rp2500, maka distribusi probabilitas untuk
pendapatan harian dari panggilan telepon premium tersebut (W) harus bersesuaian dengan
jumlah panggilan X, yaitu sebagai berikut:
w
P(w)
0
0,2
2500
0,4
5000
0,3
7500
0,1
Dari distribusi probabilitas W ini dapat kita peroleh nilai harapan E{W}, yaitu:
E{W} = 0(0,2) + 2500(0,4) + 5000(0,3) + 7500(0,1) = Rp3.250.
yang dapat kita peroleh dalam hitungan dalam bentuk tabel untuk memudahkan
perhitungan manual atau penyajian di software spreadsheet sebagai berikut:
w
P(w)
w.P(w)
0
0,2
-
2500
0,4
1.000
5000
0,3
1.500
7500
0,1
750
E{W}
3.250
59
Jika nilai harapan dari X sudah diketahui, untuk memperoleh nilai harapan W tidak
diperlukan lagi menentukan distribusi probabilitas W terlebih dahulu. Hubungan berikut
dapat langsung digunakan:
E{a + bX} = a + bE{X}
Karena W = a + bX, hubungan ini menyatakan bahwa E{W} adalah fungsi linear yang
sama dari E{X} sebagaimana W merupakan fungsi linear dari X. Dengan demikian pada
contoh panggilan telepon di atas karena E{X} = 1,3, maka dengan menggunakan hubungan
di atas kita peroleh:
E{W} = 2500 (1,3) = Rp3.250.
Kita dapat mengecek kedua hasil perhitungan tersebut dengan bantuan tabel untuk
perhitungan manual atau penyajian di software spreadsheet, sebagai berikut:
Untuk E{X}
x
P(x)
X.P(x)
0,20
-
1
0,40
0,40
2
0,30
0,60
3
0,10
0,30
1,30
0,20
-
2.500
0,40
1.000
5.000
0,30
1.500
7.500
0,10
750
3.250
Untuk E{W}
w
P(w)
w.P(w)
Contoh lain misalkan X menunjukkan tingkat produksi dari suatu pabrik dalam satu hari
dan W menunjukkan biaya total produksi dalam satu hari. Dari pengalaman diketahui
bahwa W = 20000 + 400X untuk a = Rp20000 adalah biaya tetap set-up produksi dan b =
Rp400 adalah biaya perunit produksi. Jika diketahui E{X} = 50, maka nilai harapan biaya
total produksi dalam satu hari dapat diperoleh sebagai berikut.
E{W} = 20000 + 400(50) = Rp40000.
3.3.2. Varians Fungsi Linear
Untuk memperoleh varians W, kita dapat kembali menggunakan distribusi
probabilitas W yang diturunkan dari distribusi probabilitas X dan menerapkan rumus
varians terhadap distribusi tersebut. Alternatif lainnya, jika nilai varians X sudah diketahui,
60
sebagaimana juga pada nilai harapan kita dapat memperoleh nilai varians secara langsung
melalui hubungan berikut:
σ2{a + bX} = b2σ2{X}
Berdasarkan hubungan tersebut maka untuk contoh panggilan telepon premium di atas,
jika varians X diketahui sebesar 0,81, maka varians W dapat kita tentukan sebagai berikut:
σ2{W} = 25002 (0,81) = 5.062.500.
Untuk mengecek kedua hasil perhitungan tersebut dengan melanjutkan tabel di atas adalah
sebagai berikut:
Untuk E{X}
x
P(x)
X.P(x)
(x-E{x})2.P(x)
0,20
0,34
1
0,40
0,40
0,04
2
0,30
0,60
0,15
3
0,10
0,30
0,29
1,30
0,81
0,20
2.112.500
2.500
0,40
1.000
225.000
5.000
0,30
1.500
918.750
7.500
0,10
750
1.806.250
3.250
5.062.500
Untuk E{W}
w
P(w)
w.P(w)
(w-E{w})2.P(w)
Sementara untuk contoh tingkat produksi pabrik di atas, jika diketahui σ2{X} = 300, maka
varians untuk W = 20000 + 400X adalah sebagai berikut:
σ2{W} = 4002(300) = 160.300.
3.3.3. Nilai Harapan dan Varians Fungsi Penjumlahan dan Selisih
Berikut tiga ilustrasi untuk menjelaskan fungsi penjumlahan dan selisih dari variabelvariabel acak yang bersifat saling bebas (independen). Ketiga ilustrasi ini akan digunakan
untuk menjelaskan cara menentukan nilai harapan dan varians untuk fungsi penjumlahan
dan selisih tersebut baik dengan cara tidak langsung dengan menurunkan dari distribusi
asalnya maupun dengan cara langsung.
1. Misalkan X menunjukkan jumlah bonus yang diterima oleh petugas penjualan Ahmad
dan Y menunjukkan jumlah bonus yang diterima oleh petugas penjualan Budi. Maka T
= X + Y menunjukkan total bonus yang diterima kedua petugas penjualan tersebut.
2. Misalkan X menunjukkan jumlah respon terhadap iklan penjualan di kota Bandung dan
Y menunjukkan jumlah respon terhadap iklan penjualan di kota Jakarta. Maka T = X +
Y menunjukkan total jumlah respon terhadap iklan penjualan di kedua kota tersebut.
61
3. Misalkan X menunjukkan pendapatan penjualan kuartalan dan Y menunjukkan biaya
langsung kuartalan. Maka W = X – Y menunjukkan laba kotor kuartalan.
Distribusi probabilitas dari jumlah atau selisih dari dua variabel acak dapat diperoleh
dengan menurunkannya dari distribusi probabilitas masing-masing variabel acaknya.
Misalkan untuk contoh 1 di atas diketahui distribusi probabilitas X dan Y masing-masing
adalah sebagai berikut:
Bonus x
P(x)
0
0,6
500.000
0,4
Bonus y
P(y)
0
0,6
500.000
0,4
Karena X dan Y merupakan variabel acak yang saling bebas, maka distribusi probabilitas
bersama X dan Y adalah:
x
0
0,36
0,24
0,6
0
500
Total
y
500
0,24
0,16
0,4
Total
0,6
0,4
1,0
dimana probabilitas bersama P(X = 0 ∩ Y = 0) = P(X=0) P(Y=0) = 0,6 (0,6) = 0,36, dst.
Kita sekarang dapat memperoleh distribusi probabilitas untuk total bonus, T = X + Y,
yaitu sebagai berikut:
Total Bonus t
P(t)
0
0,36
500.000
0,48
1000.000
0,16
Setelah distribusi probabilitas total bonus diketahui, maka nilai harapan dan varians dari
fungsi penjumlahan tersebut dapat diperoleh dengan cara biasa, yaitu sebagai berikut:
E{T} = 0(0,36) + 500.000(0,48) + 1000.000(0,16) = Rp400.000.
σ2{T} = (0 – 400.000)2(0,36)+(500.000-400.000)2(0,48)+(1000.000 – 400.000)2(0,16)
= 120.000.000.000
atau dalam bentuk tabel untuk perhitungan manual atau penyajian di software spreadsheet
sebagai berikut:
Total Bonus t
P(t)
t.P(t)
(t-E{t})2.P(t)
0,36
57.600.000.000
500.000
0,48
240.000
4.800.000.000
1.000.000
0,16
160.000
400.000
57.600.000.000 120.000.000.000
Cara menentukan nilai harapan dan varians melalui distribusi probabilitas fungsi
penjumlahan seperti di atas merupakan cara tidak langsung. Jika nilai harapan dan varians
kedua variabel acak asal sudah diketahui, maka kita dapat memperoleh nilai harapan dan
62
varians fungsi penjumlahan dan selisih dengan cara langsung, yaitu dengan memanfaatkan
hubungan sebagai berikut:
Untuk fungsi penjumlahan
Nilai harapan E{X + Y} = E{X} + E{Y}
Varians σ2{X + Y} = σ2{X} + σ2{Y}
Untuk fungsi selisih
Nilai harapan E{X - Y} = E{X} - E{Y}
Varians σ2{X - Y} = σ2{X} + σ2{Y}
Dengan demikian nilai harapan (atau varians) dari penjumlahan dua variabel acak saling
bebas dapat diperoleh dengan mudah dari penjumlahan nilai harapan (atau varians) dari
setiap kedua variabel acak tersebut. Demikian pula nilai harapan (atau varians) dari selisih
dua variabel acak saling bebas dapat diperoleh dengan mudah dari selisih nilai harapan
(atau penjumlahan varians) dari setiap kedua variabel acak tersebut.
Penerapan cara langsung untuk ketiga contoh di atas adalah sebagai berikut:
1.
Pada contoh bonus penjualan dapat diketahui bahwa E{X} = E{Y} = 200.000 dan
σ2{X} = σ2{Y} = 60.000.000.000 yang dapat kita peroleh dari daftar untuk perhitungan
manual atau penyajian di software spreadsheet sebagai berikut:
Bonus x
0
500.000,00
P(x)
0,60
0,40
x.P(x)
-
200.000,00
24 x 109
36 x 109
x-E{x}.P(x)
Bonus y
0
500.000,00
P(y)
0,60
0,40
200.000,00
y.P(y)
-
200.000,00
200.000,00
60 x 109
y-E{y}.P(y)
24 x 109
36 x 109
60 x 109
Dengan menggunakan hubungan di atas untuk fungsi penjumlahan total bonus T = X + Y
dapat diperoleh:
E{T} = 200.000 + 200.000 = Rp 400.000.
σ2{T}= 60 x 109 + 60 x 109 = 120.000.000.000
yang kedua-duanya sama dengan yang telah diperoleh dengan cara tidak langsung.
2.
Pada contoh jumlah respon atas iklan, jika diketahui bahwa E{X} = 40, E{Y} =
70, σ2{X}= 15, σ2{Y}= 10, dan X dan Y saling bebas, maka untuk total jumlah respon R =
X + Y, dapat diperoleh:
E{R} = 40 + 70 = 110 respon.
σ2{R}= 15 + 10 = 25
Deviasi standar R adalah σ{R} =
25 = 5
63
3.
Pada contoh laba kotor, jika diketahui bahwa E{X} = Rp10.000.000, E{Y} =
7.000.000, σ2{X}= 800.000.000, σ2{Y}= 400.000.000, dan X dan Y saling bebas, maka
untuk laba kotor W = X – Y, dapat diperoleh:
E{W} = 10.000.000 – 7.000.000 = Rp 3.000.000.
σ2{R}= 800.000.000 + 400.000.000 = 1.200.000.000.
Deviasi standar W adalah σ{W} = 1.200.000.000 = Rp34.641
3.4. Kovarians Dan Korelasi
Dalam permasalahan-permasalahan statistik kita sering tertarik pada sejauhmana dua
variabel acak saling berhubungan secara linear satu sama lain. Terdapat dua ukuran yang
biasa digunakan untuk mengetahui tingkat asosiasi dari suatu pasangan variabel acak, yaitu
kovarians (covariance) dan koefisien korelasi (coefficient of correlation).
Untuk memahami pengertian kovarians harus diawali dengan memahami pengertian
kovariasi (covariation). Kovariasi untuk hasil X dan Y dari suatu percobaan didefinisikan
sebagai berikut:
Covariasi = (x – E{X})(y – E{Y})
Kovarians di sisi lain adalah nilai harapan dari kovariasi dari dua variabel acak – atau mean
kovariasi dari percobaan-percobaan berulang. Dengan demikian kovarians yang
dinotasikan sebagai σ{X, Y}(σ huruf Yunani, dibaca: sigma) dapat didefinisikan sebagai
berikut:
σ{X, Y} = ∑∑ ( x − E{ X })( y − E{Y }) P ( x, y )
x
y
dimana notasi σ{ } berarti ”kovarians dari” dan P(x, y) adalah probabilitas bersama P(X
= x ∩ Y = y).
Sebagai contoh asumsikan variabel acak X dan Y memiliki distribusi probabilitas
bersama sebagai berikut:
x
5
0,3
0,1
0,4
10
30
Total
y
10
0,2
0,4
0,6
Total
0,5
0,5
1,0
Perhitungan
kovarians
atas
distribusi di atas melalui daftar
untuk perhitungan manual atau
untuk software spreadsheet komputer (formula di spreadsheet tidak ditunjukkan) adalah
sebagai berikut:
X
P(x)
x.P(x)
Y
P(y)
y.P(y)
64
10
0,5
5
5
0,4
2
30
0,5
15
10
0,6
6
E{X}
20
E{Y}
8
X
Y
P(x,y)
x-E{X}
y-E{Y}
Kovariasi
10
10
30
30
5
10
5
10
0,3
0,2
0,1
0,4
(10)
(10)
10
10
(3)
2
(3)
2
30
(20)
(30)
20
σ{X, Y}
Kovariasi
Tertimbang
9,0
(4,0)
(3,0)
8,0
10,0
Besarnya nilai ukuran kovarians σ{X, Y} (pada contoh di atas 10,0) pada umumnya
tidak cukup berarti karena tergantung kepada satuan ukuran X dan Y dan akan berubah
ketika satuan ukuran X dan Y berubah. Oleh karena itu informasi utama yang diberikan
oleh suatu ukuran kovarians tentang asosiasi antara X dan Y adalah apakah σ{X, Y} positif,
negatif atau nol. Namun terdapat salah satu sifat utama kovarians, yaitu:
Ketika X dan Y saling bebas maka σ{X, Y} = 0.
Sifat ini tidak berlaku sebaliknya. Mungkin saja suatu hubungan antara dua variabel acak
dengan ukuran kovarians σ{X, Y} = 0, kedua variabel acaknya tidak saling bebas.
Akibat besarnya ukuran kovarians σ{X, Y}tergantung kepada satuan ukuran X dan Y,
ukuran kovarians tidak dapat digunakan untuk membandingkan tingkat asosiasi antar
pasangan-pasangan variabel acak yang berbeda. Kelemahan tersebut diperbaiki dengan
ukuran koefisien korelasi yang bersifat bebas satuan sehingga nilai-nilainya dapat saling
diperbandingkan. Koefisien korelasi dari dua variabel acak X dan Y dinotasikan ρ{X, Y}
(ρ huruf Yunani, dibaca: rho) dan didefinisikan sebagai:
ρ ( X ,Y ) =
σ {X ,Y }
σ { X }σ {Y }
untuk: σ{X} dan σ{Y}masing-masing deviasi standar X dan Y dan
σ{X, Y} kovarians dari X dan Y.
Perhatikan bahwa ρ{X, Y} dan σ{X, Y} akan dan harus selalu bertanda sama, karena
deviasi standar pada penyebut formula korelasi di atas selalu bernilai positif.
Untuk menentukan berapa nilai koefisien korelasi untuk contoh variabel acak X dan Y
di atas, terlebih dahulu harus dicari nilai deviasi standar X dan Y, sebagai berikut
(melanjutkan dari tabel sebelumnya dengan kedudukan kolom dan baris dibalik):
x
10
30
y
5
10
65
P(x)
x.P(x)
(x-E{x})2P(x)
0,5
5,0
50
0,5
15,0
50
P(y)
y.P(y)
(x-E{x})2P(x)
20
100
0,4
2,0
3,6
0,6
6,0
2,4
8
6
Karena σ2{X} = 100 dan σ2{Y} = 6 maka σ{X} = √100 = 10 dan σ{Y} = √6 = 2,449
sehingga:
ρ ( X ,Y ) =
σ {X ,Y }
10
=
= 0,41
σ { X }σ {Y } 10(2,449)
Nilai koefisien korelasi akan berkisar antara -1 ≤ ρ{X, Y} ≤ 1. Koefisien korelasi -1
akan terjadi jika Y merupakan fungsi linear negatif dari X, atau jika Y = a + bX dan b
bernilai negatif. Koefisien korelasi 1 terjadi jika Y merupakan fungsi linear positif dari X,
atau jika Y = a + bX dan b bernilai postitif. Semakin dekat suatu nilai koefisien korelasi
dengan -1 atau 1 menunjukkan bahwa asosiasi antara X dan Y semakin kuat.
Ukuran kovarians dapat digunakan dalam menentukan varians dari fungsi penjumlahan
dan selisih antara dua variabel acak yang tidak bersifat saling bebas (saling dependen). Jika
dua variabel acak tidak saling bebas, maka untuk menentukan varians jumlah dan selisihnya
akan mengandung suku kovarians, yaitu:
σ2{X + Y} = σ2{X} + σ2{Y} + 2σ{X, Y}
σ2{X – Y} = σ2{X} + σ2{Y} – 2σ{X, Y}
3.5. Latihan
1. Distribusi probabilitas X, yaitu jumlah jabatan yang sebelumnya dipegang oleh para
pelamar untuk menjadi widyaiswara Departemen Keuangan adalah sebagai berikut:
x
0
1
2
3
4
P(x)
0,60
0,20
0,10
0,05
0,05
x.P(x)
E{X}
s2
a. Tentukanlah: 1) P(0) 2) P(X ≤ 1) 3) P(1 ≤ x ≤ 3)
b. Hitunglah E{X}dan interpretasikan hasilnya dengan pendekatan frekuensi
relatif!
c. Hitunglah varians dan deviasi standar distribusi probabilitas X!
2. Distribusi probabilitas X, yaitu jumlah pengunjung pesta yang diadakan sebuah
restoran, adalah sebagai berikut:
66
x
1
2
3
4
5
6
P(x)
0,05
0,15
0,25
0,40
0,10
0,05
Restoran menetapkan biaya sebesar Rp 95.000 perorang. Asumsikan Y menunjukkan total
biaya penyelenggaraan pesta tersebut:
a. Tentukan E{X} dan σ{X}, lalu gunakan nilai tersebut untuk menentukan E{Y} dan
σ{Y}!
b. Verifikasikan hasil a dengan menentukan terlebih dahulu distribusi probabilitas Y!
3. Distribusi probabilitas dari X, yaitu jumlah penumpang pesawat dari Jakarta ke
Makasar setiap hari yang transit di Surabaya pada hari Senin, dan X2 jumlah
penumpang pesawat dari Jakarta ke Makasar setiap hari yang transit di Surabaya pada
hari Selasa, adalah identik sebagai berikut:
x
1
2
3
4
P(x)
0,10
0,20
0,3
0,4
a. Susunlah distribusi probabilitas bivariat untuk X1 dan X2!
b. Tentukan probabilitas 1) P(X1 = 2 ∩ X2 = 1)
2) P(X2 = 4 | X1 = 2) 3) P(X2 =
4) dan 4) P(X1 ≤ 1 ∩ X2 ≤ 1)
c. Jika T = X1 + X2 , menunjukkan jumlah total penumpang dalam dua hari yang
transit di Surabaya, tentukan E{T} dan σ{T} serta verifikasikan hasilnya dengan
menghitungnya dari distribusi probabilitas X1 dan X2!
4. Distribusi probabilitas dari X, yaitu jumlah filter keramik yang rusak dalam tiga
pengiriman sebagai berikut:
x
0
1
2
3
P(x)
0,90
0,02
0,02
0,06
Diberikan keterangan notasi untuk probabilitas pada (1) semua filter dalam pengiriman
rusak, (2) beberapa filter dalam pengiriman rusak, (3) kurang dari tiga filter dalam
pengiriman rusak. Dapatkan masing-masing probabilitas ini.
a. Dapatkan P(0 < X< 3). Tafsirkan kemungkinan ini.
b. Dua hasil yang paling mungkin untuk X adalah nol dan tiga filter rusak. Apa
pertimbangan praktis dalam pengiriman filter keramik yang dapat menjelaskan
fakta ini?
c. Buatlah grafik distribusi probabilitas!
67
d. Buatlah grafik distribusi probabilitas kumulatif. Dari grafik ini, carilah peluang
rusaknya dua atau lebih sedikit filter dalam pengiriman!
5. Sindikasi penjamin emisi akan mengasuransikan anjungan produksi gas lepas pantai
selama satu tahun. Potensi kerugian sindikasi dari X (dalam $ juta) memiliki distribusi
probabilitas sebagai berikut:
x
0
20
150
P(x)
0,990 0,009 0,001
a. Berapa perkiraan kerugian sindikasi? Berapa probabilitas kerugian sindikat yang
sebenarnya akan lebih kecil dari kerugian yang diharapkan?
b. Manajer risiko perusahaan yang memiliki platform telah menyarankan bahwa
$300.000 akan menjadi premi yang adil untuk dikenakan biaya oleh sindikasi
karena menanggung potensi kerugian berdasarkan kontrak asuransi. Apa kamu
setuju?
c. Hitung varians dan standar deviasi dari distribusi probabilitas. Dalam satuan apa
standar deviasi dinyatakan?
d. Manakah dari tiga hasil yang mungkin dari X yang paling berkontribusi pada
besarnya varians di bagian c?
6. Ketika kabel suspensi 200 meter putus, kemungkinan besar putusnya terjadi di titik
manapun sepanjang kabel tersebut. Anggaplah X menunjukkan jarak dari satu ujung
kabel ke kabel dengan kondisi putus; maka X memiliki fungsi kerapatan probabilitas:
a. Buatlah grafik fungsi kerapatan probabilitas dari X. Apakah luas di bawah fungsi
kerapatan sama dengan 1?
b. Gunakan sifat geometris f(x) untuk memperoleh probabilitas berikut: (1) P(X ≤
100), (2) P(X >50), (3) P(50 ≤ X ≤ 100).
c. Dapatkan fungsi probabilitas kumulatif untuk X dan buat grafiknya.
d. Dari grafik di bagian c. Dapatkan nilai (1) F(80), (2) F(150). Tafsirkan arti dari
nilai-nilai tersebut..
7. Variable Acak. Tabel dibawah menunjukkan probabilitas untuk jumlah bayi perempuan
pada tiga kelahiran yang berbeda. Berapa variable acaknya?
Jumlah Bayi Perempuan (x) P(x)
0
0.125
68
1
0.375
2
0.375
3
0.125
8. Dalam sebuah survey yang disponsori oleh Coca-Cola, subjek dengan umur 15-65
tahun ditanya apa yang paling berkontribusi pada kebahagiaan mereka. Tabel di bawah
berisi tanggapan mereka. Berdasarkan hasil survei tersebut, apakah ada distribusi
probabilitas? jika ada, carilah rata-rata dan standar deviasinya.
P(x)
Keluarga/pasangan
0.77
Teman
0.15
Pekerjaan/sekolah
0.08
Bersantai
0.08
Musik
0.06
Olahraga
0.04
9. Dalam permainan Texas Pick 3, anda bertaruh $1 dengan memilih tiga digit angka,
masing-masing antara 0-9. Jika angka yang sama ditarik dalam urutan yang sama, maka
Anda menang dan mendapat $500.
a. Berapa banyak peluang perbedaan yang mungkin terjadi?
b. Berapa probabilitas untuk menang?
c. Jika menang, berapa laba bersih yang akan dihasilkan?
d. Temukan nilai yang diharapkan.
69
BAB V DISTRIBUSI PROBABILITAS UMUM
1. Pendahuluan
Pada modul sebelumnya telah dibicarakan tentang probabilitas, variabel acak dan distribusi
probabilitas. Modul ini akan melanjutkan topik tentang distribusi probabilitas. Pada banyak
situasi sangat berguna untuk merepresentasi ditribusi probabilitas variabel acak dengan
ekspresi aljabar umum. Perhitungan probabilitas dengan demikian dapat dengan mudah
dilakukan dengan mensubstitusi nilai yang sesuai ke dalam model aljabar yang telah
dirumuskan. Model aljabar dalam ekspresi matematis ini merupakan ringkasan kompak
dari proses yang menghasilkan distribusi probabilitas. Distribusi probabilitas dalam model
aljabar yang umum dapat dibagi antara yang dibentuk oleh variabel acak diskrit dengan
yang dibentuk oleh variabel acak kontinyu.
2. Distribusi Probabilitas Variabel Acak Diskrit
2.1. Distribusi Seragam Diskrit
Terkadang probabilitas sama besar diberikan kepada seluruh nilai yang mungkin yang
dapat dimiliki suatu variabel acak. Distribusi probabilitas semacam ini dinamakan
distribusi seragam. Sebagai contoh sebuah dadu yang dilemparkan satu kali, probabilitas
bahwa dadu akan menunjukkan salah satu permukaan angka yang mungkin adalah 1/6.
Fungsi probabilitas kasus ini dengan demikian dapat ditulis sebagai:
f(x) = 1 untuk x = 1, 2, 3, 4, 5, 6.
6
Contoh lain misalkan, PT Energi Uap Indonesia memerlukan waktu dua tahun
untuk membangun fasilitas listrik tenaga uap dari uap geothermal. Dalam merencanakan
strategi produksinya perusahaan menyimpulkan bahwa terdapat kemungkinan yang sama
besar bahwa besar permintaan atas listrik tenaga uap pada dua tahun yang akan datang
adalah masing-masing sebesar 80.000, 90.000, 100.000, 110.000 dan 120.000. Dengan
demikian distribusi probabilitas yang dirumuskan PT Energi Uap Indonesia untuk
permintaan energi uap 2 tahun yang akan datang adalah:
f(x) = 0,20 untuk x = 80.000, 90.000, ..., 120.000
2.2. Distribusi Binomial
Distribusi Binomial, distribusi ketika terdapat dua hasil yang mungkin dalam setiap
percobaan, tidak diragukan lagi merupakan distribusi probabilitas variabel acak diskrit
70
yang diterapkan paling luas. Distribusi ini telah digunakan untuk menggambarkan berbagai
variasi proses dalam dunia bisnis, ilmu sosial serta bidang-bidang lainnya. Proses yang
menghasilkan distribusi Binomial sering diacu sebagai percobaan Bernoully (Bernoully
trial) atau proses Bernoully (Bernoully process). Dalam suatu percobaan Bernoully
diasumsikan:
1. Pada setiap percobaan, terdapat hasil yang saling lepas yang mungkin, yang diacu
sebagai “sukses” dan “gagal.” Dalam bahasa lain dapat dikatakan bahwa ruang sampel
untuk setiap percobaan adalah S={sukses; gagal}.
2. Probabilitas sukses, yang dinotasikan sebagai p, bersifat tetap dari satu percobaan ke
percobaan lainnya. Probabilitas gagal, yang ditunjukkan sebagai q, dengan demikian
adalah sebesar 1-p.
3. Percobaan-percobaan bersifat saling bebas (independen). Artinya bahwa hasil dari satu
percobaan tidak akan mempengaruhi hasil percobaan lainnya.
Sebagai contoh jika kita melempar suatu koin sebanyak 5 kali, maka setiap pelemparan
dapat diperlakukan sebagai satu percobaan Bernoully. Hasil yang mungkin dari setiap
pelemparan adalah munculnya sisi gambar dan sisi angka. Misalkan kita ingin mengetahui
probabilitas diperolehnya tepat 2 sisi angka dalam percobaan pelemparan koin sebanyak 5
kali tersebut. Salah satu hasil yang mungkin misalnya adalah AGAGG dimana A adalah
angka dan G adalah gambar. Dalam percobaan Bernoully, hasil yang sukses dan gagal
biasa dikodekan masing-masing sebagai 1 dan 0. Misalkan bahwa munculnya sisi angka
adalah sukses (tentu saja penentuan ini hanya bersifat kesepakatan saja dan tidak berlaku
mutlak), maka hasil pelemparan uang AGAGG tersebut dapat dikodekan sebagai 10100.
Karena probabilitas sukses dan gagal dalam percobaan Bernoully masing-masing sebesar
p dan q, maka probabilitas dari munculnya hasil dengan urutan tertentu seperti di atas dapat
ditentukan dengan menerapkan prinsip berhitung aturan perkalian sebagai berikut:
P(10100) = pqpqq = p2q3
dimana P(10100) merupakan probabilitas bersama.
Kita tidak tertarik terhadap salah satu hasil spesifik dengan urutan seperti di atas
(AGAGG), tetapi kita tertarik terhadap probabilitas memperoleh jumlah x sukses dalam n
percobaan (diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin). Terdapat 9 urutan
lain yang memenuhi kriteria diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin,
yaitu:
11000
10001
01010
00110
10010
01100
01001
00101
00011
71
Dengan penalaran yang sama dengan kasus 10100 sebelumnya, setiap hasil dari ke-9 hasil
di atas akan memiliki probabilitas yang sama, yaitu sebesar p2q3. Dengan demikian
keseluruhan probabilitas dari diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin
adalah:
P(diperoleh tepat 2 angka) = 10 p2q3
Dalam kasus ini karena p = P(diperoleh sisi angka) = 0,5 dan q = 1 – p = 0,5, maka
P(diperoleh tepat 2 angka) = 10 p2q3 = 10 x 0,52 x 0,53 = 5 = 0,3125
16
Secara umum probabilitas memperoleh jumlah x sukses dalam n percobaan adalah
P(X=x) = nKx p x q n - x = nKx p x (1 − p) n - x , untuk x = 0, 1, 2, ..., n
Formulasi probabilitas ini merupakan distribusi probabilitas, karena memenuhi sifat-sifat
distribusi probabilitas sebagai berikut.
1.
f(x) ≥ 0 untuk seluruh nilai real dari X;
2.
∑ f(x) = 1
x
Sifat pertama terpenuhi karena dengan p dan q yang nonnegatif, maka f(x) tidak mungkin
akan negatif. Sifat kedua terpenuhi dengan memasukkan formulasi di atas
∑ f(x) = ∑ n Kx p q
x
x
n-x
= (p + q) n = 1n = 1
x
Untuk kasus di atas tadi yaitu percobaan pelemparan koin dan diperoleh tepat 2 sisi
angka dalam 5 kali pelemparan koin, probabilitasnya adalah 5K2(0,5)2(0,5)3 = 0,3125, yang
tepat sama dengan yang telah diperoleh sebelumnya. Kesamaan ini wajar diperoleh, karena
angka 10 yang kita peroleh sebelumnya sesungguhnya adalah hasil dari suku 5K2 dalam
formula di atas.
Istilah distribusi probabilitas Binomial, atau distribusi Binomial, biasa digunakan untuk
mengacu kepada distribusi probabilitas yang diperoleh dari proses Bernoully. Nilai dari
distribusi Binomial sendiri dalam buku-buku statistik biasa dicantumkan pada bagian
belakang, yaitu menunjukkan nilai dari f(x) = P(X=x) untuk x = 1, 2, ..., n serta n dan p
tertentu. Berikut contoh daftar tersebut yang dapat dijadikan rujukan saat melakukan
perhitungan masalah Binomial secara manual. Pada daftar tersebut dicantumkan pula
bagaimana probabilitas dari diperoleh tepat 2 sisi angka dalam 5 kali pelemparan koin pada
kasus di atas, yaitu 0,3125, dapat diperoleh.
72
N
0
1
2
0,01
0,9801
0,0198
0,0001
0,02
0,9604
0,0392
0,0004
P
0,03
0,9409
0,0582
0,0009
0,04
0,9216
0,0768
0,0016
3
3
3
3
0
1
2
3
0,9703
0,0294
0,0003
0,0000
0,9412
0,0576
0,0012
0,0000
0,9127
0,0847
0,0026
0,0000
0,8847
0,1106
0,0046
0,0001
4
4
4
4
4
0
1
2
3
4
0,9606
0,0388
0,0006
0,0000
0,0000
0,9224
0,0753
0,0023
0,0000
0,0000
0,8853
0,1095
0,0051
0,0001
0,0000
0,8493
0,1416
0,0088
0,0002
0,0000
5
5
5
0
1
2
2
2
2
X
0,5
0,3125
Dengan maraknya penggunaan personal computer, daftar semacam tersebut sudah
relatif tidak diperlukan lagi. Dengan bantuan software spreadsheet dengan beberapa kali
klik kita akan memperoleh nilai probabilitas binomial yang diperlukan. Daftar di atas,
sebagai contoh, dibuat melalui software Microsoft Excel dan menyertakan fungsi
”Binomdist(x; n; p; false)” pada setiap selnya. Misalnya pada sel pertama yang berisi nilai
0,9801, fungsi Excel yang disertakan adalah sebagai berikut:
1
2
3
A
B
n
2
x
0
C
P
0,01
@Binomdist(b3;a3;c2;false)
Dengan software spreadsheet kita juga tidak perlu lagi menghitung probabilitas kumulatif,
tapi cukup dengan menyertakan fungsi yang sesuai, yaitu dalam hal ini mengganti ekspresi
”false” dengan ”true” sehingga fungsi di atas menjadi ”Binomdist(x; n; p; true)” untuk P(X
≤ x).
Mean dan varians distribusi probabilitas Binomial masing-masing adalah sebagai
berikut:
E{X} = np
σ2{X} = np(1 – p)
73
2.3. DISTRIBUSI POISSON
Distribusi probabilitas Poisson berguna untuk berbagai fenomena acak yang
berhubungan dengan jumlah even yang terjadi dalam interval waktu yang tetap. Variabel
acak Poisson juga dapat diterapkan kepada kejadian acak yang tidak berhubungan langsung
dengan waktu, seperti jumlah kesalahan tipografis dalam satu lembar halaman ketikan
komputer. Variabel acak Poisson adalah variabel diskrit yang dapat mengambil nilai integer
antara 0 sampai tak terbatas. Fungsi probabilitas Poisson adalah sebagai berikut:
P( x) =
λx e − λ
x!
untuk x = 0, 1, ... dan 0 < λ < ∞
Distribusi probabilitas Poisson hanya memiliki satu parameter yaitu λ (Yunani: lambda),
yang dapat berupa sebarang angka positif.
Sebagai contoh asumsikan jumlah peristiwa kriminal yang terjadi pada suatu kota
dalam periode satu jam antara jam 01.00 s.d. 02.00 adalah berupa variabel acak Poisson
dengan λ = 0,2. Kita dapat memperoleh probabilitas untuk tidak ada peristiwa kriminal,
terdapat satu peristiwa kriminal, serta terdapat dua peristiwa kriminal, selama periode
waktu tersebut, yaitu masing-masing P(0), P(1) dan P(2), dengan mensubstitusi ke dalam
persamaan di atas:
P(0) =
0,20 e −0, 2 1(0,8187)
=
= 0,8187
0!
1
P(1) =
0,21 e −0, 2
= 0,1637
1!
P(2) =
0,22 e −0, 2
= 0,0164
2!
Seperti distribusi Binomial, nilai dari distribusi Poisson biasa dicantumkan pada bagian
belakang buku-buku statistik , yaitu menunjukkan nilai dari f(x) = P(X=x) untuk x = 1, 2,
..., n dan λ tertentu. Berikut contoh daftar tersebut yang di antaranya memuat nilai yang
sama untuk P(0), P(1) dan P(2) untuk λ = 0,2 seperti pada contoh di atas.
x
0
1
2
3
0,1
0,904837
0,090484
0,004524
0,000151
λ
0,2
0,818731
0,163746
0,016375
0,001092
0,3
0,740818
0,222245
0,033337
0,003334
74
Daftar seperti di atas, seperti juga untuk daftar distribusi Binomial, dapat dengan mudah
diperoleh dengan bantuan software Microsoft Excel dengan menyertakan fungsi
”Poisson(λ; x; false)” pada setiap selnya.
Mean dan varians distribusi probabilitas Poisson adalah sama yaitu sebesar λ.
2.4. Latihan
1. Jumlah mahasiswa yang mengikuti kuliah antikorupsi yang diselenggarakan BEM
kampus mengikuti variabel acak seragam diskrit X dengan a + 1 = 0 dan s = 14.
a. Plotkanlah bentuk distribusi probabilitas X!
b. Tentukan nilai probabilitas dari: P(0), P(X > 10) dan P(1 ≤ X ≤ 5)
c.
Tentukan E{X} dan σ2{X}
2. Terdapat 9 peserta pemula pada lomba lari 10 km untuk kegiatan amal. Asumsikan
bahwa Bi = 1 jika peserta pemula ke-i mampu menyelesaikan lari sampai finish, dan Bi
= 0 jika peserta pemula ke-i tidak mampu menyelesaikan lari sampai finish.
a. Syarat-syarat apa saja yang harus dipenuhi agar even B1...B9 merupakan suatu
proses Bernoully?
b. Jika pertanyaan a di atas merupakan pross Bernoully, berapa besar probabilitas
bahwa seluruh pelari pemula, kecuali pelari ke-3 dan ke-8, menyelesaikan lari
sampai garis finish?
3. Jumlah batu baterai yang tidak berfungsi dalam kemasan yang berisi 4 batu baterai yang
diproduksi suatu pabrik merupakan variabel acak Binomial X dengan n = 4 dan p =
0,05.
a. Jelaskan mana yang dimaksud dengan percobaan Bernoully dan nilai X berapa saja
yang dapat dimiliki X (yaitu, sebutkan ruang sampel dari X)!
b. Tentukan P(0), P(2) dan P(X ≤ 2)!
c. Tentukan E{X} dan σ{X}!
d. Plotkan distribusi probabilitas X. Apakah plot distribusi tersebut menceng?
4. Jumlah panggilan telepon ke kepolisian pada periode waktu antara pk 09.00 – 12.00
pada hari Senin merupakan variabel acak Poisson X dengan λ = 3,5.
a. Tentukan nilai probabilitas 1) tidak ada panggilan selama periode waktu tersebut,
2) terdapat dua panggilan dan 3) terdapat 2 panggilan atau kurang!
b. Tentukan E{X} dan σ{X}!
c. Plotkan distribusi probabilitas X. Apakah plot distribusi menceng?
75
5. Menentukan apakah distribusi probabilitas diberikan. Jika distribusi probabilitas
diberikan, temukan rata-rata dan standar deviasinya. Jika distribusi probabilitas tidak
diberikan, identifikasi persyaratan yang tidak terpenuhi.
a. Gangguan Genetik. Empat laki-laki dengan kelainan genetik terkait-X masingmasing memiliki satu anak. Variabel acak x adalah jumlah anak di antara empat
anak yang mewarisi kelainan genetik terkait-X.
b. Buta Warna pada Laki-Laki. Saat melakukan penelitian tentang buta warna pada
laki-laki, seorang peneliti membentuk kelompok secara acak dengan lima laki-laki
di setiap kelompok. Variabel acak x adalah jumlah laki-laki dalam kelompok yang
memiliki bentuk buta warna (berdasarkan data dari National Institutes of Health).
6. Nilai yang Diharapkan untuk Deal or No Deal. Acara permainan televisi Deal or No
Deal dimulai dengan koper individu yang berisi jumlah 1¢, $1, $5, $10, $25, $50, $75,
$100, $200, $300, $400, $500, $750, $1000, $5000, $10.000, $25.000, $50.000,
$75.000, $100.000, $200.000, $300.000, $400.000, $500.000, $750.000, dan
$1.000.000. Jika seorang pemain mengadopsi strategi memilih opsi “No Deal” sampai
satu koper tersisa, bayarannya adalah salah satu dari jumlah yang terdaftar, dan
kemungkinannya sama.
a. Temukan Expected Value untuk strategi ini.
b. Carilah nilai standar deviasi.
c. Gunakan aturan rentang praktis (the range rule of thumb) untuk mengidentifikasi
rentang hasil yang biasa.
d. Berdasarkan hasil sebelumnya, apakah hasil dari $750.000 atau $1.000.000 luar
biasa tinggi? Mengapa atau mengapa tidak?
7. Tentukan apakah prosedur yang diberikan menghasilkan distribusi binomial (atau
distribusi yang dapat diperlakukan sebagai binomial). Untuk yang bukan binomial,
identifikasi setidaknya satu persyaratan yang tidak terpenuhi.
a. Senat saat ini terdiri dari 83 laki-laki dan 17 perempuan. Empat puluh senator yang
berbeda dipilih secara acak tanpa pengembalian, dan jenis kelamin setiap senator
yang dipilih dicatat.
b. Dalam survei Consumer Reports, 427 wanita berbeda dipilih secara acak tanpa
penggantian, dan setiap wanita ditanya apa yang dia beli secara online. Tanggapan
terdiri dari apakah pakaian diidentifikasi.
76
c. Dalam survei Komisi Kentang Idaho terhadap 1000 orang dewasa, subjek diminta
untuk memilih sayuran favorit mereka, dan setiap respons dicatat sebagai "kentang"
atau "lainnya".
8. Asumsikan bahwa tebakan acak dibuat untuk lima pertanyaan pilihan ganda pada tes
ACT, sehingga ada n=5 percobaan, masing-masing dengan probabilitas keberhasilan
(benar) diberikan oleh p=0,20. Gunakan tabel Probabilitas Binomial (Tabel A-1) untuk
menemukan probabilitas yang ditunjukkan untuk jumlah jawaban yang benar.
a. Temukan peluang bahwa jumlah x dari jawaban yang benar adalah tepat 3.
b. Temukan probabilitas bahwa jumlah x dari jawaban yang benar setidaknya 3.
c. Hitunglah peluang banyaknya x jawaban yang benar lebih dari 2.
d. Temukan probabilitas bahwa jumlah x dari jawaban yang benar kurang dari 3.
e. Temukan probabilitas tidak ada jawaban yang benar.
f. Temukan probabilitas bahwa semua jawaban benar.
9. Distribusi Poisson berlaku untuk kejadian beberapa peristiwa selama interval tertentu,
seperti waktu atau jarak. Probabilitas peristiwa yang terjadi x kali selama interval
dinyatakan dengan
di mana e = 2,71828 dan m adalah rata-rata jumlah kejadian selama interval. Selama
100 tahun terakhir, jumlah rata-rata gempa besar tahunan di dunia adalah 0,93. Dengan
mengasumsikan bahwa distribusi Poisson adalah model yang sesuai, tentukan peluang
banyaknya gempa bumi pada tahun yang dipilih secara acak adalah
a.
0
b.
1
c.
2
f.
5
g.
6
h.
7
d.
3
e.
4
Berikut hasil aktualnya: 47 tahun (0 gempa besar); 31 tahun (1 gempa besar); 13 tahun
(2 gempa besar); 5 tahun (3 gempa besar); 2 tahun (4 gempa besar); 0 tahun (5 gempa
besar); 1 tahun (6 gempa besar); 1 tahun (7 gempa besar).
Setelah membandingkan probabilitas yang dihitung dengan hasil aktual, apakah
distribusi Poisson merupakan model yang baik?
10. Dalam setiap situasi berikut, tunjukkan apakah variabel acak itu diskrit atau kontinu
dan gambarkan ruang tunggalnya (yaitu himpunan hasil yang mungkin)
a. Tinggi tanaman yang tidak pernah tumbuh lebih tinggi dari 1 meter.
b. Volume minyak sawit saat ini dalam tangki penyimpanan 4000 liter.
c. Jumlah pil yang tersisa dari resep 20 pil.
77
3. Distribusi Probabilitas Variabel Acak Kontinyu
3.1. Distribusi Seragam Kontinyu
Distribusi probabilitas seragam diskrit yang dibahas pada bagian 2.1. memiliki analogi
dengan variabel acak kontinyu yang dikenal sebagai distribusi probabilitas seragam
kontinyu (continuous uniform probability distribution). Variabel acak seragam kontinyu
dapat mengambil sebarang nilai dalam suatu interval antara a dan b dan memiliki
probabilitas kepadatan seragam (konstan) sepanjang interval tersebut. Titik akhir terendah
a dan titik akhir tertinggi b dari interval merupakan parameter dari fungsi kepadatan
(densitas) variabel acak tersebut. Fungsi densitas variabel acak seragam kontinyu adalah:
f(x) =
1 unt uk a ≤ x ≤ b.
b−a
Sebagai contoh asumsikan bahwa seorang ahli geografi telah menemukan bahwa
perkiraan terbaik untuk distribusi ukuran populasi penduduk suatu kota dengan populasi
penduduk antara 5000 sampai 7500 penduduk adalah dengan distribusi seragam kontinyu.
Fungsi densitas dalam hal ini dengan demikian adalah:
f(x) =
u n t u k 5000 ≤ x ≤ 7500.
1
2500
Grafik untuk fungsi densitas ini adalah sebagai berikut:
f(x)
1
2500
0,40
0
a=5000
6000
b=7500
x
Mean dan varians distribusi seragam kontinyu tergantung pada parameter a dan b, yaitu
sebagai berikut:
E{X} = b + a
2
dan
σ2{X} = (b − a ) 2
12
Melanjutkan contoh di atas, means dan varians distribusi seragam kontinyu populasi
dengan demikian adalah:
78
E{X} = 7500 + 5000
orang dan σ2{X} = (7500 − 5000) 2
= 6250
= 520,833
2
12
Untuk distribusi kontinyu lebih relevan untuk menentukan probabilitas dari interval x
yang merupakan probabilitas kumulatif, daripada dari suatu titik x tertentu. Secara umum
untuk menentukan probabilitas dari variabel acak kontinyu X yang mengambil batas-batas
nilai pada interval tertentu dapat diperoleh dengan menentukan area yang bersesuaian di
bawah fungsi densitas probabilitas f(x) dengan batas-batas nilai interval tersebut. Daerah
tersebut menunjukkan fungsi probabilitas kumulatif. Fungsi probabilitas kumulatif F(x)
untuk variabel acak seragam kontinyu yang dibatasi oleh a dan b adalah:
F(x ) = P(X ≤ x ) = x − a u n t u k a ≤ x ≤ b .
b−a
Melanjutkan contoh di atas, jika diinginkan untuk mengetahui probabilitas bahwa
populasi kota dengan jumlah penduduk antara 5000-7500 adalah 6000, maka nilai
probabilitas tersebut adalah:
F(x ) = P(X ≤ x ) = 6000 − 5000 = 0,40
7500 − 5000
probabilitas ini ditunjukkan dengan bagian daerah yang gelap pada plot grafik fungsi
densitas di atas yang dibatasi dengan X=6000.
Jika pada contoh distribusi populasi tersebut yang diinginkan adalah persentil ke-75
dari distribusi probabilitas, kita cukup menuliskannya sebagai:
F(x ) = P(X ≤ x ) =
x − 5000 = 0,75
7500 − 5000
Dengan menyelesaikannya untuk x, akan diperoleh bahwa persentil ke-75 distribusi
probabilitas adalah sebesar 6875 penduduk.
3.2. Distribusi Normal
Distribusi probabilitas normal merupakan salah satu distribusi terpenting dalam statistik.
Banyak sekali fenomena yang melibatkan variabel acak yang bersifat normal. Selain untuk
menggambarkan banyak fenomena bersifat acak, distribusi normal sering juga digunakan
untuk pengambilan inferensi atas data melalui pendugaan atau pengujian hipotesis.
Variabel acak normal adalah variabel acak kontinyu yang dapat mengambil sebarang nilai
antara minus tak hingga sampai plus tak hingga. Fungsi densitas variabel acak normal
adalah sebagai berikut:
79
f ( x) =
dimana

1
2πσ
e
 1  x−µ 2 
− 
 
 2  σ  
3.14159;
e: 2.71828
 : mean populasi
 : deviasi standar populasi
X : nilai variabel acak
:
X
 
3.2.1. Ciri-Ciri Distribusi Probabilitas Normal
Distribusi probabilitas normal memiliki dua parameter, yaitu μ (Yunani-myu) dan σ
(Yunani-sigma), dengan σ positif. Setiap pasangan (μ dan σ) yang berbeda merupakan
suatu distribusi probabilitas normal yang berbeda. Distribusi normal berbentuk lonceng dan
simetris. Distribusi normal terpusat di μ, yang merupakan nilai mean dari distribusi dan
menentukan posisi distribusi pada sumbu x. Parameter σ adalah deviasi standar distribusi
normal dan menentukan variabilitas distribusi. Semakin besar nilai σ, semakin lebar spread
distribusi. Distribusi normal pada gambar a dan b berikut memiliki μ yang sama (50) tetapi
σ berbeda, tapi pada gambar a dan c, σ sama (10) tetapi μ berbeda. Distribusi normal
dinotasikan dengan N(μ,σ).
(a)
(b)
(c)
3.2.2. Distribusi Probabilitas Normal Standar
80
Distribusi probabilitas normal standar adalah salah satu anggota dari keluarga distribusi
normal yang memiliki mean μ=0 dan deviasi standar σ=1. Variabel acak normal yang
bersesuaian dengan distribusi normal standar disebut sebaga variabel normal standar.
Distribusi normal standar memiliki peran penting karena setiap sebarang distribusi normal
dapat ditransformasi menjadi distribusi normal standar melalui proses standardisasi.
Bentuk yang distandardisasi dari suatu variabel acak normal X dengan mean μ dan deviasi
standar σ adalah dinotasikan sebagai Z yang diperoleh melalui proses standardisasi
sebagai berikut:
Z=
X −µ
σ
Bentuk yang distandardisasi (Z) dari sebarang variabel acak normal merupakan variabel
acak normal standar karena alasan-alasan berikut:
1.
Untuk setiap variabel acak yang distandardisasi, dua ciri berikut yaitu E{Z} = 0 dan
σ=1, selalu akan terpertahankan.
2.
Dari rumus standardisasi
Z=
X − µ dapat dilihat bahwa Z adalah fungsi linear
σ
dari X dengan menyusun ulang sebagai berikut:
Z =−
µ 1
+ X
σ σ
3.
Untuk setiap fungsi linear berlaku hubungan: sebarang fungsi linear dari variabel
acak normal juga merupakan variabel acak normal.
3.2.3. Menentukan Probabilitas dan Persentil untuk Distribusi Normal Standar
Proses standardisasi memungkinkan kita untuk memperoleh probabilitas dan persentil
untuk sebarang distribusi normal dari distribusi normal standar. Probabilitas distribusi
normal standar kumulatif dapat diperoleh pada tabel yang biasa disertakan pada buku-buku
teks statistik. Sebagian cuplikan dari tabel tersebut adalah sebagai berikut:
z
0,00
0,01
0,02
0,03
0,0
0,5000
0,5040
0,5080
0,5120
0,1
0,5398
0,5438
0,5478
0,5517
0,2
0,5793
0,5832
0,5871
0,5910
0,3
0,6179
0,6217
0,6255
0,6293
0,4
0,6554
0,6591
0,6628
0,6664
81
Pada tabel di atas, z menunjukkan hasil tertentu dari variabel acak normal standar Z. Label
baris dan kolom tabel tersebut memberikan hasil z yang berbeda, baris menunjukkan nilai
angka desimal pertama, kolom menunjukkan nilai angka desimal kedua. Setiap isi sel untuk
z tertentu merupakan probabilitas kumulatif P(Z ≤ z). Sebagai contoh pada tabel di atas
dapat diperoleh probabilitas kumulatif untuk P(Z ≤ 0,32) = 0,6255. Nilai ini kira-kira adalah
sebesar luas area yang dinotasikan sebagai a (huruf a kecil), yaitu daerah sebelah kiri garis
vertikal z=0,32 dan di bawah kurva normal standar, sebagaimana yang diplotkan pada
grafik berikut.
a
Berdasarkan tabel dan grafik di atas, dapat kita lihat bahwa kurva normal standar simetris
pada nilai mean = 0. Luas area ke sebelah kiri mean sama dengan luas area ke sebelah
kanan mean yaitu 0,5000. Untuk z = 0,32, karena lebih besar dari 0, maka luas area a nya
adalah lebih besar dari 0,5000, yaitu dalam hal ini 0,6255.
Meski nilai probabilitas normal standar dapat dengan mudah diperoleh melalui software
spreadsheet di komputer, memperoleh nilai probabilitas tersebut dari tabel lebih sesuai
untuk kepentingan praktis. Kita dapat menggunakan tabel tersebut dalam dua cara: 1) untuk
menentukan luas area a yang bersesuaian dengan nilai z tertentu, dan 2) untuk memperoleh
persentil z(a) yang bersesuaian dengan luas area a tertentu. Untuk contoh di atas a = 0,6255
dan z(a) = 0,32. Penggunaan pertama tabel tersebut akan diuraikan pada 4 contoh berikut.
Tabel lebih lengkap dapat dilihat pada bagian lampiran dari modul ini.
1. Untuk memperoleh nilai P(Z ≤ 0,45) dari tabel akan kita peroleh luas area a=0,6736
yaitu nilai yang tersimpan pada baris 0,4 dan kolom 0,05.
2. Untuk memperoleh nilai P(Z ≥ 1,00), karena tabel hanya mencantumkan luas area untuk
nilai z ke kiri, maka probabilitas tersebut dapat diperoleh dengan hubungan sebagai
berikut.
P(Z ≥ 1,00) = 1 – P(Z ≤ 1,00)
82
Dari tabel dapat kita peroleh bahwa luas area a untuk baris 1,0 dan kolom 0,00 adalah
sebesar 0,8413, sehingga nilai P(Z ≥ 1,00) = 1 – 0,8413 = 0,1587. Jika diplot luas area a
dari P(Z ≥ 1,00) adalah area ke sebelah kanan garis vertikal z=1 dan di bawah kurva normal
standar, sebagaimana dapat dilihat pada grafik berikut.
3. Untuk memperoleh nilai P(Z ≤ -1,00), karena tabel tidak memberikan nilai probabilitas
untuk nilai z negatif, maka kita bisa meminjamnya dari tabel untuk nilai z positif yang
bersesuaian, yaitu dalam hal ini P(Z ≥ 1,00) yang sama dengan contoh 2 di atas,
sehingga diperoleh nilai P(Z ≤ -1,00) = 0,1587. Kesamaan ini dapat kita lihat dengan
membandingkan antara area a untuk P(Z ≤ -1,00) yaitu area ke kiri garis vertikal z=-1
dan di bawah kurva normal standar sebagaimana dapat dilihat pada plot grafik berikut,
dengan area a untuk P(Z ≥ 1,00) yang telah digambarkan pada plot grafik pada contoh
2.
4. Untuk memperoleh nilai P(-1≤Z≤1) kita dapat memperolehnya dengan mengurangkan
P(Z < -1) terhadap P(Z ≤ 1), yang kedua-duanya telah diperoleh dari contoh 2 dan 3,
sehingga diperoleh P(-1 ≤ Z ≤ 1) = P(Z ≤ 1) - P(Z < -1) = 0,8413 – 0,1587 = 0,6826.
83
Dalam grafik pengurangan ini dapat diperlihatkan sebagai pengurangan atas 0,8413 dari
grafik contoh 2 dengan area a = 0,1587 dari grafik contoh 3.
Penggunaan kedua tabel normal standar adalah untuk memperoleh persentil z(a) yang
bersesuaian dengan luas area a tertentu. Persentil z(a) dari distribusi normal standar adalah
nilai z tertentu yang akan memberikan probabilitas kumulatif distribusi normal standar
sebesar a (tepatnya: sebesar luas area a), yang dinotasikan sebagai berikut.
P[ Z ≤ z (a )] = a
Dengan demikian pencarian persentil z(a) tertentu sesungguhnya tidak lebih sebagai
kebalikan dari pencarian probabilitas P(z). Penggunaan tabel normal standar untuk
keperluan ini akan dijelaskan pada 2 contoh berikut:
1. Misalkan kita ingin memperoleh persentil distribusi normal standar ke-67,36 z(0,6736),
atau dengan kata lain kita ingin mengetahui berapa nilai z yang akan memberikan
probabilitas kumulatif pada distribusi normal standar sebesar 0,6736 atau 67,36%.
Untuk keperluan itu kita harus mencari ke dalam isi tabel dimana letak 0,6736. Dengan
pencarian saksama mengikuti isi tabel yang terurut sistematis akan kita peroleh bahwa
nilai 0,6736 terletak pada baris 0,4 dengan kolom 0,05, sehingga persentil distribusi
normal standar ke-67,36 [z(0,6736)] adalah sebesar 0,45 atau P(Z ≤ 0,45) = 0,6736.
2. Untuk memperoleh nilai z(0,04), maka kita harus meminjam ke persentil di atas 50%
yang bersesuaian, yaitu dalam hal ini z(0,96). Prosedur ini diperlukan karena nilai
probabilitas yang tercantum pada tabel hanya untuk probabilitas di atas 50% (di atas
persentil ke-50) yaitu untuk nilai z positif. Untuk probabilitas di bawah 50%, dengan
demikian harus diperoleh dengan meminjamnya dari probabilitas di atas 50% tapi
dengan pilihan area ke kanan dari garis vertikal z(a). Luas pilihan area ke kanan dari
garis vertikal z(a) akan identik dengan luas area ke kiri dari garis vertikal –z(a). Dengan
demikian untuk contoh ini dan semacamnya [z(a) < 50%], berlaku hubungan:
z(a) = – z(1 – a)
Untuk kasus ini maka z(0,04) = –z(1– 0,04) = –z(0,96)
Berdasarkan penelusuran ke tabel akan diperoleh z(0,96) = 1,75 sehingga z(0,04)=-1,75.
Plot grafik untuk contoh ini adalah sebagai berikut.
84
3.2.4. Menentukan Probabilitas dan Persentil untuk Distribusi Normal Non Standar
Probabilitas untuk sebarang distribusi normal dapat diperoleh dari distribusi normal standar
dengan melakukan proses standardisasi. Proses standardisasi yang sama juga dilakukan
untuk memperoleh persentil untuk sebarang distribusi probabilitas normal. Proses ini dapat
digambarkan sebagai berikut:
Dengan demikian apapun bentuk distribusi normal asalnya, semuanya dapat ditransformasi menjadi distribusi / kurva normal standar.
Lebih jelasnya akan diuraikan dalam 2 contoh berikut:
1.
Berat balok baja yang diproduksi pada suatu pabrik peleburan baja merupakan
variabel acak X yang terdistribusi normal dengan mean dan deviasi standar masing-masing
μ = 520 kg dan σ = 11 kg. Jika kita ingin mengetahui probabilitas bahwa berat suatu balok
baja adalah sebesar 525 kg atau kurang maka terlebih dahulu kita harus melakukan proses
standardisasi terhadap x = 525 menjadi nilai z sebagai berikut.
z= x−µ
σ
=
525 − 520 0,45.
=
11
Ni l a i 0,45 me n u n j u k k a n b a h wa 525 a d a l a h s e b e s a r 0,45 k a l i d e v i a s i
s t a n d a r d a r i me a n k e k a n a n . Ak i b a t n y a a d a l a h P(X ≤ 525) = P(Z ≤
0,45). Da r i t a b e l k i t a a k a n p e r o l e h p r o b a b i l i t a s n y a s e b e s a r 0,6736
y a n g s e l a r a s d e n g a n p e me c a h a n y a n g t e l a h k i t a p e r o l e h u n t u k
c o n t o h 1 p a d a b a h a s a n p e r s e n t i l u n t u k d i s t r i b u s i n o r ma l s t a n d a r
s e b e l u mn y a .
2.
Untuk memperoleh persentil, misalnya persentil ke-96 pada contoh distribusi
normal balok baja di atas, kita lakukan proses standardisasi sebagai berikut.
z(0,96) = x(0,96) − µ
σ
=
1,75
Nilai 1,75 kita peroleh dari tabel selaras dengan contoh 2 pada bahasan sebelumnya.
Selanjutnya persamaan di atas kita susun ulang menjadi sebagai berikut.
85
x(0,96) = μ + 1,75σ = 520 + 1,75(11) = 539,3.
De n g a n d e mi k i a n p e r s e n t i l k e - 96 u n t u k d i s t r i b u s i b e r a t b a l o k
b a j a t e r s e b u t a d a l a h s e b e s a r 539,3 k g . De n g a n k a t a l a i n a k a n
di per ol eh
pr obabi l i t as
s ebes ar
0,96 u n t u k b e r a t
bal ok baj a
s e b e s a r 539,3 a t a u k u r a n g [ P(X ≤ 539,3) = 0,96] .
Berdasarkan contoh ini secara umum untuk menemukan persentil ke-a dari sebarang
distribusi normal adalah dengan hubungan berikut.
x(a) = μ + z(a)σ
untuk z(a) persentil ke-a dari distribusi normal standar.
3.2.5. Tiga Set Probabilitas Normal yang Penting
Tiga set batas probabilitas tengah untuk distribusi normal sering sekali digunakan
sehingga penting sekali untuk dicatat secara khusus. Ketiga set probabilitas normal tersebut
adalah sebagai berikut.
1.
μ + 1σ berisi sebesar 68,3% dari luas area di bawah kurva normal standar.
2.
μ + 2σ berisi sebesar 95,4% dari luas area di bawah kurva normal standar.
3.
μ + 3σ berisi sebesar 99,7% dari luas area di bawah kurva normal standar.
3.2.6. Menentukan Probabilitas dan Persentil dengan Software MS Excel
Untuk menentukan probabilitas dan persentil dengan bantuan software spreadsheet
komputer seperti MS Excel, kita harus menggunakan fungsi yang disediakan software
secara tepat. Misalnya dalam MS Excel untuk distribusi normal ini disediakan masingmasing satu fungsi tersendiri untuk setiap permasalahan pencarian nilai probabilitas dan
persentil baik untuk distribusi normal standar maupun untuk sebarang distribusi normal
(distribusi normal non standar). Daftar fungsi tersebut dan penjelasan penggunaannya
adalah sebagai berikut.
No
Fungsi
Parameter
1.
@NORMSDIST (z)
2.
@NORMSINV
3.
@NORMDIST
4.
@NORMINV
(probability)
(x; mean; stand_dev;
cumulative)
(probability; mean;
stand_dev)
Penggunaan
Mencari nilai probabilitas distribusi
normal standar
Mencari persentil ke-a distribusi normal
standar
Mencari nilai probabilitas distribusi
normal non standar
Mencari persentil ke-a distribusi normal
non standar
Parameter probability yang harus disertakan pada fungsi @NORMSINV dan
86
@NORMINV adalah setara dengan nilai luas area yang di bahasan di atas dinotasikan
sebagai a (huruf a kecil).
Salah satu penggunaan lain fungsi-fungsi yang tersedia dalam software MS Excel adalah
untuk media pembelajaran. Misalnya kita sudah memperoleh penyelesaian untuk seluruh
contoh kasus pada pembahasan distribusi normal ini dengan menggunakan bantuan tabel
distribusi normal. Kita dapat menguji akurasi hasil-hasil penyelesaian dengan tabel tersebut
dengan membandingkannya dengan penyelesaian dengan bantuan software MS Excel
menggunakan fungsi-fungsi yang diberikan di atas. Berikut tabel yang memperlihatkan
hasil penyelesaian atas seluruh contoh yang telah dibahas sebelumnya dengan
menggunakan fungsi pada MS Excel. Kita lihat terdapat beberapa hasil yang sedikit
berbeda antara hasil penyelesaian menggunakan software MS Excel dengan hasil
penyelesaian menggunakan tabel, yang bersumber dari mekanisme pembulatan .
No.
1.
2.
3.
4.
Kasus
P(Z ≤ 0,45)
P(Z ≥ 1)
P(Z ≤ - 1)
P(- 1 ≤ Z ≤
1)
Fungsi MS Excel
=NORMSDIST(0,45)
=1-NORMSDIST(1)
=NORMSDIST(-1)
=NORMSDIST(1)-NORMSDIST(-1)
Hasil
0,673645
0,158655
0,158655
0,682689
5.
6.
7.
8.
z(0,6736)
z(0,04)
P(X ≤ 525)
x(0,96)
=NORMSINV(0,6736)
=NORMSINV(0,04)
=NORMDIST(525; 520; 11; TRUE)
=NORMINV(0,96; 520; 11)
0,449876
-1,75069
0,675282
539,2575
3.3. Latihan
1.
Dengan menggunakan tabel untuk variabel normal standar Z tentukan:
a.
Luas area a yang sesuai untuk nilai z sebesar 0; 1,06; dan 2,50 ke kiri.
b.
Pr o b a b i l i t a s P(Z ≤ 0) , P(Z ≥ 2,5) d a n P(- 1,06 ≤ Z ≤ 2,50)
c.
Persentil z(0,5000), z(0,9066), dan z(0,0934).
d.
Persentil z(0,99) dan z(0,05).
2.
Skor tes aptitude untuk calon mahasiswa pada program pascasarjana dari sebuah
universitas terdistribusi normal dengan mean 500 dan deviasi standar 60.
a.
Jika untuk diterima calon mahasiswa harus memiliki skor tes aptitude minimal
sebesar 530, berapakah probabilitas calon mahasiswa yang akan diterima?
b.
Jika universitas ingin menetapkan batas skor tertentu untuk menerima hanya 10%
terbaik dari para calon mahasiswa, berapakan nilai batas skor tes aptitude tersebut?
87
c.
Berapa persen calon mahasiswa yang memiliki skor tes aptitude di antara 2 deviasi
standar (antara -2 sampai dengan 2 deviasi standar di tengah).
3.
Suatu perusahaan memiliki dua produk utama dengan nilai penjualan masing-
masing terdistribusi normal yaitu X1 untuk produk pertama dengan N(38 juta, 5 juta) dan
X2 untuk produk kedua dengan N(65 juta,7 juta). Jika T = X1 + X2, tentukan:
a.
Pr o b a b i l i t a s P(X1≤ 40) d a n P(X2 ≥ 49)
b.
Probabilitas penjualan total kedua produk melebihi 100 juta dan di antara 90 juta
dan 110 juta.
c.
Berapakah persentil ke-10 dari distribusi probabilitas T? Interpretasikan hasil
tersebut!
4.
Asumsikan bahwa subjek yang dipilih secara acak diberi tes kepadatan tulang. Skor
tes tersebut terdistribusi secara normal dengan rata-rata 0 dan standar deviasi 1. Dalam
setiap kasus, buatlah grafik dan temukan probabilitas skor yang diberikan.
a.
Kurang dari -2,04
b.
Lebih besar dari 0,82
c.
Antara 0,25 dan 1,25
d.
Kurang dari 3,65
5.
Asumsikan bahwa subjek yang dipilih secara acak diberi tes kepadatan tulang. Skor
tes kepadatan tulang berdistribusi normal dengan rata-rata 0 dan standar deviasi 1. Dalam
setiap kasus, buatlah grafik, lalu temukan skor tes kepadatan tulang yang sesuai dengan
informasi yang diberikan.
a.
Temukan P90, persentil ke-90. Ini adalah skor kepadatan tulang yang memisahkan
90% terbawah dari 10% teratas.
b.
Temukan P5, persentil ke-5. Ini adalah skor kepadatan tulang yang memisahkan 5%
terbawah dari 95% teratas.
c.
Jika skor kepadatan tulang di 2,5% terbawah dan 2,5% teratas digunakan sebagai
titik potong untuk level yang terlalu rendah atau terlalu tinggi, temukan dua bacaan yang
merupakan nilai batas.
d.
Temukan skor kepadatan tulang yang dapat digunakan sebagai nilai batas yang
memisahkan 1% paling ekstrim dari semua skor.
6.
Temukan nilai kritis yang ditunjukkan oleh:
a.
Z0,025
b.
Z0,05
88
c.
Z0,01
d.
Z0,03
89
4. Lampiran
PROBABILITAS KUMULATIF DAN PERSENTIL DARI DISTRIBUSI NORMAL STANDAR
0,0
0,1
0,2
0,3
0,4
0,5
0,00
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,01
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,02
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,03
0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,04
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,05
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,06
0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,07
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,08
0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,09
0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,6
0,7
0,8
0,9
1,0
0,7257
0,7580
0,7881
0,8159
0,8413
0,7291
0,7611
0,7910
0,8186
0,8438
0,7324
0,7642
0,7939
0,8212
0,8461
0,7357
0,7673
0,7967
0,8238
0,8485
0,7389
0,7704
0,7995
0,8264
0,8508
0,7422
0,7734
0,8023
0,8289
0,8531
0,7454
0,7764
0,8051
0,8315
0,8554
0,7486
0,7794
0,8078
0,8340
0,8577
0,7517
0,7823
0,8106
0,8365
0,8599
0,7549
0,7852
0,8133
0,8389
0,8621
1,1
1,2
1,3
1,4
1,5
0,8643
0,8849
0,9032
0,9192
0,9332
0,8665
0,8869
0,9049
0,9207
0,9345
0,8686
0,8888
0,9066
0,9222
0,9357
0,8708
0,8907
0,9082
0,9236
0,9370
0,8729
0,8925
0,9099
0,9251
0,9382
0,8749
0,8944
0,9115
0,9265
0,9394
0,8770
0,8962
0,9131
0,9279
0,9406
0,8790
0,8980
0,9147
0,9292
0,9418
0,8810
0,8997
0,9162
0,9306
0,9429
0,8830
0,9015
0,9177
0,9319
0,9441
1,6
1,7
1,8
1,9
2,0
0,9452
0,9554
0,9641
0,9713
0,9772
0,9463
0,9564
0,9649
0,9719
0,9778
0,9474
0,9573
0,9656
0,9726
0,9783
0,9484
0,9582
0,9664
0,9732
0,9788
0,9495
0,9591
0,9671
0,9738
0,9793
0,9505
0,9599
0,9678
0,9744
0,9798
0,9515
0,9608
0,9686
0,9750
0,9803
0,9525
0,9616
0,9693
0,9756
0,9808
0,9535
0,9625
0,9699
0,9761
0,9812
0,9545
0,9633
0,9706
0,9767
0,9817
2,1
2,2
2,3
2,4
2,5
0,9821
0,9861
0,9893
0,9918
0,9938
0,9826
0,9864
0,9896
0,9920
0,9940
0,9830
0,9868
0,9898
0,9922
0,9941
0,9834
0,9871
0,9901
0,9925
0,9943
0,9838
0,9875
0,9904
0,9927
0,9945
0,9842
0,9878
0,9906
0,9929
0,9946
0,9846
0,9881
0,9909
0,9931
0,9948
0,9850
0,9884
0,9911
0,9932
0,9949
0,9854
0,9887
0,9913
0,9934
0,9951
0,9857
0,9890
0,9916
0,9936
0,9952
2,6
2,7
2,8
2,9
3,0
0,9953
0,9965
0,9974
0,9981
0,9987
0,9955
0,9966
0,9975
0,9982
0,9987
0,9956
0,9967
0,9976
0,9982
0,9987
0,9957
0,9968
0,9977
0,9983
0,9988
0,9959
0,9969
0,9977
0,9984
0,9988
0,9960
0,9970
0,9978
0,9984
0,9989
0,9961
0,9971
0,9979
0,9985
0,9989
0,9962
0,9972
0,9979
0,9985
0,9989
0,9963
0,9973
0,9980
0,9986
0,9990
0,9964
0,9974
0,9981
0,9986
0,9990
3,1
3,2
3,3
3,4
3,5
0,9990
0,9993
0,9995
0,9997
0,9998
0,9991
0,9993
0,9995
0,9997
0,9998
0,9991
0,9994
0,9995
0,9997
0,9998
0,9991
0,9994
0,9996
0,9997
0,9998
0,9992
0,9994
0,9996
0,9997
0,9998
0,9992
0,9994
0,9996
0,9997
0,9998
0,9992
0,9994
0,9996
0,9997
0,9998
0,9992
0,9995
0,9996
0,9997
0,9998
0,9993
0,9995
0,9996
0,9997
0,9998
0,9993
0,9995
0,9997
0,9998
0,9998
3,6
3,7
3,8
3,9
0,9998
0,9999
0,9999
1,0000
0,9998
0,9999
0,9999
1,0000
0,9999
0,9999
0,9999
1,0000
0,9999
0,9999
0,9999
1,0000
0,9999
0,9999
0,9999
1,0000
0,9999
0,9999
0,9999
1,0000
0,9999
0,9999
0,9999
1,0000
0,9999
0,9999
0,9999
1,0000
0,9999
0,9999
0,9999
1,0000
0,9999
0,9999
0,9999
1,0000
90
BAB VI PENDUGAAN TITIK DAN DISTRIBUSI PENYAMPELAN Ẍ
1. Pendahuluan
Pada bab sebelumnya telah diuraikan bahwa salah satu tujuan dipilih sampel adalah untuk
menyediakan informasi mengenai populasi, atau tepatnya statistik sampel digunakan untuk
menginferensi parameter populasi. Pada bab ini kita akan mulai mempelajari penggunaan
statistik sampel untuk menarik inferensi tentang parameter populasi. Pertama kali akan
dibahas inferensi atas mean populasi, karena parameter populasi ini yang sering mendapat
perhatian praktisi.
3.
Pendugaan Titik
2.1. Pengertian
Informasi yang diturunkan dari sampel mengenai parameter populasi, seperti mean
populasi (µ), biasanya berbentuk statistik sampel, seperti mean sampel, yang dihitung dari
observasi sampel. Mean sampel ini digunakan untuk menginferensi 3 mean populasi. Secara
umum kita sebut statistik sampel sebagai dugaan (estimate) dari parameter populasi.
Sebagai contoh suatu dugaan mean masa kerja dari populasi sebanyak 3850 pegawai sebuah
perusahaan dilakukan dengan memilih sampel acak sederhana dari sebanyak 50 pegawai.
Mean sampel masa kerja dari ke-50 pegawai misalnya
= 6,3 tahun. Jadi 6,3 tahun dalam
hal ini adalah dugaan dari mean populasi masa kerja. Secara umum proses pendugaan
parameter populasi melalui nilai tunggal yang diperoleh dari sampel disebut pendugaan
titik (point estimation).
Dari contoh pendugaan masa kerja pegawai di atas kita dapat merumuskan ciri-ciri utama
dari suatu pendugaan titik, yaitu sebagai berikut:
1.
Parameter. Parameter populasi yang tidak diketahui menjadi target yang akan
diduga/ diestimasi. Notasi θ (Yunani: theta) biasa digunakan untuk merepresentasi
parameter.
2.
Dugaan (estimate). Sampel dari observasi sebanyak n, yaitu X1, X2,......, Xn dipilih
dari populasi. Beberapa statistik, yang merupakan fungsi dari n observasi sampel,
digunakan sebagai penduga dari parameter θ. Statistik yang berfungsi sebagai penduga
3 Kata menginferensi ini harus diserap ke dalam bahasa Indonesia. Dalam metodologi riset menginferensi (to
infer) adalah membuat kesimpulan dalam proses penalaran yang bersifat induktif (dari khusus ke umum).
Menginferensi harus dibedakan dengan mengambil kesimpulan dalam penalaran deduktif (dari umum ke
khusus) yang sudah lazim menggunakan istilah menyimpulkan (to conclude).
91
parameter secara umum dinotasikan dengan S
3.
Distribusi Penyampelan. Sebelum pemilihan sampel aktual, observasi sampel X1,
X2,......, Xn merupakan variabel acak, sehingga statistik sampel S yang akan dihitung juga
merupakan variabel acak. Distribusi probabilitas dari statistik sampel biasa disebut sebagai
distribusi penyampelan (sampling distribution) dari statistik sampel tersebut.
Karena statistik sampel merupakan variabel acak sebelum pemilihan sampel, tetapi
merupakan angka sederhana biasa sesudah terpilihnya sampel, maka ahli statistik
menggunakan dua istilah berbeda untuk membedakan kedua situasi tersebut. Sebelum
pemilihan sampel, statistik sampel adalah variabel acak dan disebut sebagai penduga titik
(point estimator) dari parameter populasi. Setelah terpilihnya sampel, statistik sampel
adalah sebuah angka dan disebut sebagai dugaan titik (point estimate) dari parameter
populasi. Dengan demikian, pada contoh pendugaan masa kerja pegawai di atas, sebelum
dipilih sampel, X merupakan penduga titik dari μ (mean populasi). Sesudah dipilih
sampel, dan diperoleh X = 6,3 tahun, maka 6,3 tahun tersebut merupakan dugaan titik dari
μ populasi. Untuk menyederhanakan penyebutan, penduga titik dan dugaan titik masingmasing biasa disebut sebagai penduga (estimator) dan dugaan (estimate).
2.1. Syarat-Syarat Penduga Titik Yang Baik
Dari suatu sampel tersedia banyak statistik yang dapat menjadi penduga titik untuk
menduga sesuatu parameter populasi. Kualitas suatu penduga titik tergantung pada
distribusi penyampelan penduga tersebut. Pada bagian ini akan diuraikan beberapa kriteria
yang dapat digunakan untuk membedakan penduga yang baik dengan penduga yang buruk
berdasarkan distribusi penyampelan penduga tersebut. Kriteria-kriteria tersebut terdiri dari
ketidakbiasan, efisiensi, dan konsistensi.
2.1.1. Ketidakbiasan
Kriteria pertama, ketidakbiasan, adalah berdasarkan premis bahwa distribusi penyampelan
dari sebuah penduga yang baik harus terletak dekat parameter populasi yang akan
diestimasi. Jelasnya, suatu penduga S merupakan penduga tidak bias jika mean distribusi
penyampelan-nya sama dengan parameter populasi θ yang akan diestimasi, atau, S menjadi
penduga tak bias jika:
E{S} = θ
Jika estimator S menjadi bias, maka besar biasnya adalah :
92
Bias = E{S} - θ
Ketidakbiasan dalam estimator titik mengacu pada kecenderungan dari kesalahan
penyampelan terseimbangkan habis pada seluruh sampel yang mungkin. Namun, bagi satu
sampel saja, tentunya, pendugaan sampelnya akan selalu berbeda dari parameter
populasinya.
Gambar berikut menunjukkan dua estimator, S1 yang tidak bias dan S2 yang memiliki bias
yang substansial. Dari gambar terlihat jelas bahwa S2 akan cenderung memberikan
penduga-penduga yang jauh dari θ, sedangkan penduga yang diperoleh dari S1 akan
cenderung mendekati θ.
E{S2}
E{S1}
Bias S2
Dengan pengertian ketidakbiasan seperti di atas, karena E{ X } = μ, maka X adalah
penduga yang tidak bias dari μ. Namun median sampel Md adalah estimator bias dari μ,
karena E{Md} ≠ μ. Sebuah penduga yang bias masih mungkin menjadi penduga yang
diinginkan jika biasnya tidak besar, asalkan estimator tersebut memiliki sifat lain yang
diinginkan.
Pada bab sebelumnya, kita telah mengetahui bahwa formula untuk menghitung varians
sampel s2 menggunakan pembagi n-1 dan bukan n untuk menghasilkan rata-rata deviasi
kuadrat. Sekarang kita dapat menjelaskan mengapa pembagi n-1 yang digunakan.
Alasannya adalah saat s2 menggunakan pembagi n-1, hasilnya merupakan penduga yang
tidak bias dari varians populasi σ2 untuk populasi yang tak terbatas, oleh karena itu, E{s2}
= σ2.
2.1.2. Efisiensi
Kriteria efisiensi didasarkan pada premis bahwa, di antara dua penduga yang tidak bias,
maka kita akan memilih penduga yang memiliki variabilitas lebih kecil (yaitu yang
distribusi penyampelannya lebih sempit) karena hasilnya cenderung akan lebih mendekati
parameter populasi. Kriteria efisiensi bersifat relatif karena adanya dua penduga yang
93
diperbandingkan. Efisiensi dari penduga yang tidak bias diukur dengan varians dari
distribusi penyampelannya. Kesimpulannya, S1 relatif lebih efisien dibandingkan dengan
S2, dalam pengestimasian θ, jika:
σ2{S1} < σ2{S2} dan E{S1} = E{S2} = θ
Sebagai contoh kita akan menduga daya tahan suatu produk sereal sarapan pagi. Distribusi
dari daya tahan sereal diketahui berbentuk normal sehingga masalahnya adalah apakah kita
menggunakan mean sampel atau median sampel untuk mengestimasikan μ. populasi.
Berdasarkan teori statistika, kedua penduga tidak bias jika sampelnya berasal dari populasi
yang normal. Kita juga mengetahui bahwa σ2{
}= σ2/n (pembuktian di belakang). Dari
teori statistika dapat ditunjukkan bahwa σ2{Md} ≅ 1,57 σ2{
dari populasi normal jika n besar. Dengan demikian σ2{
} untuk penyampelan acak
} < σ2{Md}, dan oleh karena itu
X relatif lebih efisien dibandingkan Md dalam pendugaan μ di sini. Kasus di atas, yaitu
σ2{ X } yang lebih kecil dari σ2{Md}, dapat digambarkan sebagai berikut:
Distribusi Penyampelan
Distribusi
Penyampelan Md
E{Md} = E{X}
2.1.3. Konsistensi
Kriteria ke-3 yang dibutuhkan untuk mengidentifikasikan penduga titik yang baik adalah
dengan melihat konsistensinya. Konsistensi didasarkan pada premis bahwa penduga yang
baik seharusnya akan terletak semakin dekat dari parameter populasi dengan semakin
besarnya ukuran sampel. Mean sample X merupakan penduga yang konsisten karena untuk
penyampelan dari populasi normal, distribusi penyampelan X semakin merapat di sekitar
µ dengan semakin meningkatnya ukuran sample.
2.1.4. Mean Squared Error (MSE)
94
Suatu
kriteria
keempat,
kesalahan
kuadrat
mean
(mean
squared
error),
mengkombinasikan kriteria tidak bias dan efisiensi. Kriteria ini berguna sewaktu satu atau
kedua-dua penduga yang digabungkan menjadi bias. Kesalahan kuadrat mean dari suatu
estimasi S mengkombinasikan varians distribusi penyampelan S, yaitu σ2(S), dengan bias
dari penduga, yaitu E(S)- θ, dengan cara berikut.
Kesalahan Kuadrat Mean = σ2(S) + (E(S)- θ)2
Sebuah estimator yang sedikit bias tetapi memiliki distribusi penyampelan yang
terkonsentrasi dekat parameter populasi θ akan lebih dipilih menurut kriteria ini daripada
sebuah penduga tak bias yang memiliki distribusi penyampelan yang sangat bervariasi.
Sebagai contoh, pertimbangkan dari dua penduga berikut ini:
Estimator
Si
S1
S2
Varians
σ2{Si}
20
80
Bias
E{Si} - θ
5
0
Mean Squared Error
σ2{Si}+ (E{Si}- θ)2
20 + 52 = 45
80 + 02 = 80
Maka S1 akan lebih dipilih daripada S2 berdasarkan kriteria kesalahan kuadrat mean.
2.2. Latihan
95
3. Distribusi Probabilitas X
3.1. Studi Experimen atas X
Karena anggota suatu sampel merupakan variabel acak sebelum penyampelan dilakukan,
nilai dari statistik sampel akan berbeda secara acak dari satu sampel ke sampel yang lain.
Dengan kata lain, karena statistik sampel merupakan variabel acak, maka statistik sampel
memiliki distribusi probabilitas, yaitu distribusi penyampelan (sampling distribution)
statistik sampel tersebut. Di muka kita sudah menyinggung tentang distribusi penyampelan
ini, tetapi belum menguraikannya secara mendalam. Untuk membahasnya akan
digambarkan suatu eksperimen.
Misalkan seorang auditor melakukan eksperimen berkaitan dengan sejumlah 8042 rekening
piutang dari suatu perusahaan pembiayaan. Auditor bermaksud membandingkan hasil
sensus dengan hasil penyampelan dalam menentukan mean populasi saldo audit dari ke8042 rekening tersebut. Saldo audit adalah saldo rekening yang menurut auditor tepat untuk
sesuatu rekening. Saldo audit bisa berbeda dengan saldo rekening karena kesalahan
penjumlahan, pembebanan biaya atau pemberian bunga. Anggaplah auditor tersebut telah
mengaudit secara sensus dan menetapkan saldo audit untuk setiap rekening dari ke-8042
rekening piutang perusahaan sehingga mean populasi μ dari saldo audit rekening piutang
diketahui. Berdasarkan hasil sensus diketahui bahwa mean populasi saldo audit μ adalah
(semua angka dalam ribuan rupiah) sebesar 30,303 serta deviasi standar populasi saldo
audit σ sebesar 30,334.
Sebagai pembanding atas mean populasi tersebut, auditor melakukan 600 kali pengambilan
sampel masing-masing untuk ukuran sampel sebesar 3, 10 dan 100. Dengan demikian total
sampel yang akan dimiliki auditor adalah sebanyak 3 x 600 = 1800 sampel. Setiap sampel
akan memiliki mean sampel masing-masing. Mean sampel dari masing-masing sampel,
untuk setiap 600 sampel, akan membentuk distribusi penyampelan mean sampel (distribusi
penyampelan
). Dengan demikian akan diperoleh 3 distribusi penyampelan
setiap ukuran sampel. Selanjutnya setiap distribusi penyampelan
untuk
akan memiliki mean
masing-masing yang merupakan mean dari ke-600 mean sampel atau singkatnya mean
dari mean sampel. Mean dari mean sampel merupakan nilai harapan dari mean sampel
atau E{
}. Dilihat dari sudut pandang distribusi penyampelan, mean dari mean sampel
adalah mean dari distribusi penyampelan
penyampelan
atau nilai harapan dari distribusi
.
96
3.1.1. Ukuran sampel 3
Dari ke-600 sampel untuk sampel dengan ukuran sampel 3, 5 sampel pertama tercantum
pada daftar berikut (tabel tersebut jika memuat semua sampel tentunya akan memuat
sebanyak 600 baris):
1
2
3
4
5
Sampel
ke-
Elemen dalam sampel
1
2
3
30,960
38,200
22,450
18,910
6,750
15,450
10,600
14,080
9,150
51,820
20,760
50,790
23,050
31,200
25,150
Berdasarkan tabel di atas perhatikan bahwa kelima mean sampel
30,537
13,703
11,277
41,123
26,467
berbeda satu sama lain
dan tidak ada yang sama dengan mean populasi μ = 30,303. Faktanya bahkan beberapa
mean sampel berbeda sangat jauh dengan mean populasi (misal X = 11,277). Perbedaan
antara mean sampel dengan mean populasi dalam hal ini adalah akibat penyampelan dan
merepresentasikan kesalahan penyampelan sebagaimana yang dibahas pada bab
sebelumnya.
Jika kesemua 600 sampel dengan ukuran sampel n = 3 dicantumkan, tidak hanya 5 sampel
pertama seperti pada tabel di atas, maka kita akan dapat menarik tiga hasil penting sebagai
berikut:
1.
Meskipun ke-600 mean sampel berbeda satu sama lain (divergent) secara lebar,
mean dari ke-600 mean sampel tersebut, yaitu sebesar 30,680 (yang diperoleh dari hasil
lengkap yang tidak tercantum), sangat dekat dengan mean populasi µ = 30,303.
2.
Deviasi standar dari ke-600 mean sampel yaitu 17,60 (yang juga diperoleh dari hasil
lengkap yang tidak tercantum) menunjukkan bahwa variabilitas perbedaan antara mean
sampel lebih kecil secara substansial dari variabilitas antar setiap saldo audit pada populasi
(σ = 30,334). Besar deviasi standar untuk ke-600 mean sampel tersebut adalah sebesar
sekitar 6/10 dari deviasi standar populasi..
3.
Jika dibuat distribusi frekuensi dan ditarik poligon frekuensi, ke-600 mean sampel
memiliki poligon yang menceng ke kanan. Kemencengan pada poligon frekuensi mean
sampel ini ini sama dengan kemencengan pada poligon frekuensi populasi.
3.1.2. Ukuran sampel 10
97
Selanjutnya dalam eksperimen tersebut, 600 sampel acak dengan ukuran sampel masingmasing n = 10 dipilih oleh auditor dari populasi sebanyak 8042 rekening hutang. Untuk
eksperimen ini contoh sampel yang diperoleh, jika dimuat dalam tabel kira-kira akan sama
dengan tabel sebelumnya tetapi dengan jumlah kolom elemen sampel sebanyak 10 sampel.
Kita tertarik pada empat hasil penting sebagai bukti :
1.
Ke-600 mean sampel untuk sampel berukuran n = 10 ini mempunyai mean sebesar
30,230. Nilai ini, sebagaimana pada ukuran sampel n = 3, sangat dekat dengan mean
populasi µ = 30,303.
2.
Deviasi standar ke-600 mean sampel, yaitu sebesar 9,13, lebih kecil dari deviasi
standar populasi σ = 30,334, yaitu sekitar 3/10 dari deviasi standar populasi. Nilai ini masih
lebih kecil dari deviasi standar ke-600 mean sampel dengan ukuran sampel 3, yaitu yang
besarnya 6/10 dari deviasi standar populasi.
3.
Berdasarkan hasil (2) ke-600 mean sampel yang berukuran n = 10 ini, variabilitas
perbedaannya satu sama lain lebih sempit daripada ke-600 mean sampel yang berukuran n
= 3. Hal ini dapat dilihat dari besarnya deviasi standarnya masing-masing, yaitu 9,13 dan
17,60.
4.
Distribusi dari nilai ke-600 mean sampel yang berukuran n = 10 hanya sedikit
menceng ke kanan, kontras dengan nilai positif kemencengan dari populasi.
3.1..3. Ukuran Sampel 100
Bagian akhir dari eksperimen ini adalah pemilihan secara acak 600 sampel terakhir dari
1800 sampel dengan ukuran n =100. Kesimpulan pentingnya adalah sebagai berikut:
1.
Mean dari ke-600 mean sampel, yaitu 30,310, kembali sangat dekat dengan mean
populasi µ = 30,303.
2.
Deviasi standar dari ke-600 mean sampel, yaitu 3.05, lebih kecil baik dari ke-600
mean sampel yang berukuran n = 3 maupun dari yang berukuran n = 10. Deviasi standar
ini kira-kira adalah sebesar 1/10 dari deviasi standar populasi.
3.
Berdasarkan hasil (2) ke-600 mean sampel yang berukuran n = 100 ini, variabilitas
perbedaannya satu sama lain lebih sempit daripada ke-600 mean sampel yang berukuran n
= 10 maupun n = 3. Hal ini dapat dilihat dari besarnya deviasi standarnya masing-masing,
yaitu 3,05; 9,13 dan 17,60.
4.
Bentuk distribusi ke-600 mean sampel dengan ukuran sampel 100 cukup simetris
dan tampak normal.
98
3.2. Hasil Teoretis Distribusi Penyampelan X
Sebagaimana dibahas sebelumnya, statistik sampel adalah variabel acak sebelum
penyampelan dilakukan dan distribusi probabilitas yang bersesuaian dengannya dinamakan
distribusi penyampelan dari statistik. Untuk percobaan kita di atas, ke-600 nilai X yang
diperoleh dari masing-masing ukuran sampel n merepresentasi 600 amatan dari distribusi
penyampelan X (sampling distribution of X ) atau distribusi penyampelan mean
sampel 4 . Terdapat distribusi penyampelan X yang berbeda-beda untuk setiap ukuran
sampel dan untuk setiap populasi. Hasil teoretis distribusi penyampelan X , yang
mencakup karakteristik dan bagaimana distribusi tersebut berhubungan dengan populasi
yang disampel dan ukuran sampel, adalah sebagai berikut:
1.
Nilai harapan X , atau mean dari distribusi penyampelan X , yang dinotasikan
dengan E{ X } adalah sama dengan mean populasi μ pada penyampelan acak sederhana
atau E{ X } = μ .
Pada eksperimen di atas, karakteristik ini dibuktikan dengan nilai E{ X } masing-masing
30,680; 30,230; dan 30,310 masing-masing untuk E{ X } dengan ukuran sampel 3, 10 dan
100 yang perbedaannya dengan mean populasi μ dapat dianggap berasal dari kesalahan
percobaan.
2.
Deviasi standar dari X , atau deviasi standar dari distribusi penyampelan X ,
yang dinotasikan dengan σ{ X } adalah sama dengan varians populasi dibagi akar kuadrat
ukuran sampel atau σ{ X } = σ/√n. Karena deviasi standar merupakan akar kuadrat dari
varians, maka dapat pula dinyatakan bahwa varians dari X , atau varians dari deviasi
standar X , atau σ2{ X } adalah sama dengan varians populasi dibagi ukuran sampel.
Pada eksperimen kita di atas, karakteristik ini dapat dibuktikan dengan tabel berikut
(khusus untuk deviasi standar, untuk varians mengikuti dengan sendirinya):
Ukuran Sampel
n
3
10
100
Deviasi Standar
ke-600 nilai X
σ{ X }
17,60
9,13
3,05
Deviasi Standar Populasi
dibagi akar n
σ/√ n
17,51
9,59
3,03
Dengan
4 Istilah distribusi penyampelan digunakan untuk mengindikasikan bahwa distribusi yang dibicarakan adalah
berasal dari pengambilan sejumlah besar sampel, yang kemudian untuk masing-masing sampel dicari
statistiknya, misalnya dalam hal ini mean sampelnya.
99
demikian apa yang dikemukan pada uraian eksperimen sebagai deviasi standar mean
sampel yang masing-masing 6/10, 3/10, dan 1/10 lebih kecil dari deviasi standar populasi
ternyata tepat sama dengan deviasi standar populasi dibagi akar kuadrat ukuran sampel
(seperti sebelumnya sedikit perbedaan yang ada diasumsikan berasal dari kesalahan
eksperimen).
3.
Karakteristik 2 di atas mengindikasikan bahwa deviasi standar dari X menurun
dengan berbanding terbalik terhadap akar kuadrat ukuran sampel. Jadi, semakin besar
ukuran sampel, semakin kecil deviasi standar, yang berarti distribusi penyampelan X
semakin terkonsentrasi. Hasil ini sejalan dengan intuisi kita bahwa sampel yang lebih besar
akan menuntun kepada hasil yang lebih tepat.
Namun demikian, karena deviasi standar X menurun berbanding terbalik terhadap akar
kuadrat ukuran sample, maka akan semakin sulit untuk mengurangi σ{ X } dengan
meningkatkan n. Misalkan, jika deviasi standar X yang berbasiskan ukuran s a mp e l n =
100 h e n d a k d i k u r a n g i s e t e n g a h n y a , ma k a j u ml a h s a mp e l h a r u s
d i t a mb a h e mp a t k a l i l i p a t n y a (0,5 = 1/√4) y a i t u me n j a d i 400. J i k a
a k a n d i k u r a n g k a n me n j a d i s e p e r e mp a t n y a , ma k a j u ml a h s a mp e l
h a r u s d i t a mb a h e n a m b e l a s k a l i l i p a t n y a (0,25 = 1/√16) y a i t u
me n j a d i 1600 s a mp e l .
4.
Karakteristik 2 juga menunjukkan bahwa variabilitas distribusi penyampelan X
berbanding lurus dengan variabilitas populasi. Jadi, untuk sebarang ukuran sampel n, X
cenderung lebih bervariasi terhadap mean populasi μ pada populasi yang lebih bervariasi
daripada pada populasi yang lebih terkonsentrasi.
5.
Distribusi dari nilai X menjadi lebih simetris dengan semakin besarnya ukuran
sampel n. Dalam eksperimen di atas hubungan ini ditunjukkan dengan lebih simetrisnya
poligon frekuensi distribusi ke-600 nilai mean sampel pada ukuran sampel n = 100.
Sebagai catatan, lima karakteristik hasil teoretis di atas berlaku untuk:
1.
Populasi tak terbatas,
2.
Populasi terbatas ketika ukuran sampel n relatif kecil terhadap ukuran populasi N.
Kasus kedua berlaku untuk eksperimen yang telah didiskusikan, yaitu dengan N sama
dengan 8042 dan n masing-masing 3, 10 dan 100.
3.3. DISTRIBUSI PENYAMPELAN X NYATA
100
Jika suatu populasi asal diketahui terdistribusi normal, teorema statistik menyatakan bahwa
distribusi penyampelan dari populasi tersebut juga akan nyata-nyata terdistribusi normal.
Selain itu untuk suatu populasi diskrit sederhana, distribusi penyampelan nyata dapat
diperoleh dengan penyebutan satu-persatu seluruh sampel yang mungkin.
3.3. Teorema Batas Memusat
Kebanyakan populasi di dunia nyata tidak terdistribusi normal. Dengan demikian jika kita
mengetahui bentuk distribusi penyampelan hanya untuk populasi yang terdistribusi normal
saja, maka statistika sebagai disiplin tidak akan banyak berguna. Kabar baiknya adalah
terdapat suatu teorema lain dalam statistik yang sangat penting yang membuat statistik
menjadi alat bantu riset yang paling luas digunakan. Teorema ini sesungguhnya telah
dibuktikan dalam eksperimen kita di atas dan telah masuk sebagai karakteristik kelima hasil
teoretis distribusi penyampelan X . Teorema ini berbunyi:
Untuk hampir semua populasi, distribusi penyampelan X mendekati normal ketika ukuran
sampel acak sederhana cukup besar.
Kita dapat membuktikan teorema ini dengan melanjutkan eksperimen kita di atas. Pada
eksperimen di atas kita mengetahui mean populasi µ = 30,303 dan deviasi standar populasi
σ = 30,334. Sementara untuk distribusi penyampelan X untuk ukuran sampel n = 100,
berdasarkan hasil teoretis kita peroleh:
E{ X } = µ = 30,303
σ{ X } = σ
30,334 3,033
=
=
100
n
Jika distribusi penyampelan X untuk n = 100 mendekati normal, sesuai teorema batas
memusat, maka kita dapat menentukan dengan tabel normal – proporsi / probabilitas nilai
X yang diharapkan muncul pada sebarang interval. Sebagai contoh untuk interval 30,303
± 3,50 deviasi standar; deviasi 3,5 sama dengan 3,5/ σ{ X } = 3,5/3,033 = 1,15 kali deviasi
standar dari mean. Kita temukan pada tabel normal atau melalui fungsi di MS Excel bahwa
P(-1,15 ≤ Z ≤ 1,15) = 0,750. Proporsi aktual ke-600 mean sampel yang muncul pada
interval tersebut berdasarkan eksperimen (yang rinciannya tidak ditunjukkan di sini) adalah
0,752. Kedua hasil di atas secara meyakinkan menunjukkan tingkat kesamaan yang tinggi
antara hasil eksperimen dengan hasil prediksi berdasarkan teorema batas memusat.
Untuk lebih meyakinkan kesimpulan tersebut, berikut disajikan perbandingan probabilitas
yang sama pada distribusi penyampelan X dengan ukuran sampel n =100 untuk beberapa
101
interval lain (betul-betul menurut hasil eksperimen, namun karena alasan teknis
keterbatasan ruang, tidak dicantumkan pada bab ini).
Hasil Eksperimen
Interval
Jumlah nilai X di
Interval
451
559
594
599
30,3 +/- 3,50
30,3 +/- 5,50
30,3 +/- 7,50
30,3 +/- 9,50
Catatan: T.B.M. = Teorema Batas Memusat
Proporsi nilai X di
interval
0,752
0,932
0,990
0,998
Harapan teoretis
berbasis T.B..M
Probabilitas
Distrbusi Normal
0,750
0,930
0,986
0,998
Tingkat kesamaan yang tinggi antara hasil eksperimen dengan hasil prediksi berdasarkan
teorema batas memusat mendukung secara kuat penerapan teorema batas memusat dalam
kasus ini.
Berapa ukuran sampel yang cukup besar untuk teorema batas memusat agar bisa
diaplikasikan? Jumlah yang dibutuhkan tergantung pada sifat dari populasi dan tingkat
aproksimasi terhadap distribusi normal yang disyaratkan. Umumnya, untuk populasi yang
menceng sebagaimana yang diilustrasikan dalam eksperimen di atas, suatu ukuran sampel
acak yang lebih besar dibutuhkan agar distribusi sampel X mendekati normal, daripada
3.4. Penggunaan Teorema Batas Memusat
Untuk menggunakan teorema batas memusat untuk membuat pernyataan probabilitas
tentang X untuk ukuran sampel yang cukup besar, kita memerlukan variabel yang
distandardisasi Z sebagai berikut:
Z = X − E{ X }
σ {X }
=
X −µ
σ/ n
Variabel Z ini bersesuaian dengan definisi pada bab sebelumnya tentang variabel normal
standar, kecuali bahwa variabel yang distandardisasi saat ini adalah X bukan X.
Berikut ilustrasi penggunaan teorema batas memusat.
1.
Anggaplah kita telah memilih sampel acak sederhana dengan n = 25 amatan dari
populasi dengan mean populasi μ = 80 dan deviasi standar populasi σ = 5. Diketahui bahwa
distribusi populasi tidak menceng secara ekstrim. Asumsikan kita ingin mengetahui sket
distribusi frekuensi serta probabilitas bahwa X akan lebih besar dari 82.
Kita tidak mengetahui bentuk sebenarnya dari distribusi frekuensi relatif populasi, tapi kita
tahu bahwa distribusi tersebut harus terpusat sekitar μ = 80 dengan sebaran sebesar σ = 5
102
dan tidak menceng secara ekstrim. Salah satu kemungkinan dari bentuk distribusi frekuensi
populasi tersebut adalah sebagaimana ditunjukkan pada gambar (a) berikut:
70
75
80
85
90
77
Gambar a
μ = 80
83
Gambar b
Berdasarkan teorema batas memusat maka kita mengetahui bahwa distribusi penyampelan
X akan mendekati normal karena populasi yang disampel tidak menceng secara ekstrim.
Kita juga mengetahui bahwa distribusi penyampelan X akan memiliki nilai harapan dan
deviasi standar masing-masing:
E{ X } = μ = 80 dan σ { X } = σ
5
=
=1
n
25
Kira-kira bentuk distribusi penyampelan X ditunjukkan pada gambar (b) di atas.
Untuk mengetahui probabilitas bahwa X lebih besar dari 82, seperti telah dijelaskan pada
bab sebelumnya, kita terlebih dahulu harus melakukan proses standardisasi terhadap X =
82 menjadi nilai z sebagai berikut.
z = X − E{X }
σ {X }
=
82 − 80 2.
=
1
Untuk memperoleh nilai P(Z ≥ 2), karena tabel hanya mencantumkan luas area untuk nilai
z ke kiri, maka sebagaimana telah dibahas pada bab sebelumnya, probabilitas tersebut dapat
diperoleh dengan hubungan sebagai berikut.
P(Z > 2) = 1 – P(Z ≤ 2)
Dari tabel normal dapat kita peroleh bahwa P(Z ≤ 2) = 0.9772, sehingga nilai P(Z > 2) = 1
– 0,9772 = 0,0228. Jika diplot luas area a dari P(Z ≥ 1,00) adalah area ke sebelah kanan
garis vertikal z=2 dan di bawah kurva normal standar, sebagaimana dapat dilihat pada
grafik berikut.
0.0228
0
2
103
2.
Misalkan dalam contoh eksperimen di atas, auditor tidak melakukan eksperimen,
alih-alih dia langsung melakukan satu kali penyampelan dengan ukuran sampel sebesar
250. Auditor kemudian ingin mengetahui probabilitas bahwa mean sampel akan berada di
antara selisih (semua angka dalam ribuan rupiah) 4 di atas dan di bawah mean populasi,
yaitu dalam hal ini antara 26,3 dan 34,3.
Untuk memperoleh probabilitas yang diinginkan, kembali kita menggunakan teorema batas
memusat. Berdasarkan teorema tersebut maka distribusi penyampelan X akan memiliki
nilai harapan dan deviasi standar masing-masing:
E{ X } = μ = 30,303 dan σ { X } = σ
30,334
=
= 1,92
n
250
Untuk mengetahui probabilitas yaitu P(26,3 < X < 34,3), kita terlebih dahulu harus
melakukan proses standardisasi terhadap X = 26,3 dan X = 34,3 menjadi nilai z sebagai
berikut.
z = X − E{X }
σ {X }
=
dan
26,3 − 30,3
= −2,08
1,92
z = 34,3 − 30,3
= 2,08
1,92
Dengan bantuan tabel atau software MS Excel kita peroleh bahwa P(26,3 < X < 34,3) =
P(-2.08 < Z < 2,08) = 0.96.
3.
Untuk mengetahui efek ukuran sampel, jika ukuran sampel pada contoh 2 kita ubah
menjadi 100, bukan lagi 250, maka deviasi standar distribusi penyampelan akan menjadi:
σ {X } = σ
30,334
=
= 3,03
n
100
Nilai z akan menjadi
z = X − E{X }
σ {X }
=
dan z = 26,3 − 30,3
26,3 − 30,3
= 1,32
= −1,32
3,03
3,03
Dan probabilitasnya P(26,3 < X < 34,3) = P(-1,32 < Z < 1,32) = 0,81. Bandingkan
probabilitas ini dengan probabilitas pada ukuran sampel 250 sebesar 0,96. Hasil ini sesuai
dengan intuisi kita bahwa mean sampel dari ukuran sampel yang lebih besar akan menjadi
penduga yang lebih tepat (lebih presisi) terhadap mean populasi dibanding mean sampel
dari ukuran sampel yang lebih kecil.
3.5. Latihan
104
BAB VIII PENDUGAAN INTERVAL
7.1. PENGERTIAN PENDUGAAN INTERVAL
Pada bagian ini, kita akan membahas prosedur statistik untuk mengestimasi mean populasi
dalam bentuk interval, dengan lebar interval menunjukkan keakuratan estimasi. Semua
kesimpulan prosedur yang akan didiskusikan, mengasumsikan bahwa sampelnya adalah
sampel acak sederhana. Ketika populasinya terbatas, prosedur seleksi probabilitasnya harus
jelas supaya memenuhi persyaratan sebagaimana telah dibahas sebelumnya. Ketika yang
menjadi perhatian adalah terhadap proses, sehingga populasi merupakan populasi tak
terbatas, himpunan data harus diperiksa melalui prosedur diagnosis sebagaimana juga telah
dibahas pada bab sebelumnya.
Pendugaan interval (interval estimation) atas sebuah parameter populasi menggunakan
sepasang batas yang menunjukkan rentang sebagai tempat dimana parameter populasi yang
akan diestimasi terletak. Sebuah dugaan interval (interval estimate) dari parameter
populasi θ terdiri dari dua batas L dan U sedemikian rupa sehingga:
L≤ θ ≤ U
dengan L (lower) sebagai batas bawah dan U (upper) sebagai batas atas. Sebagai contoh
pendugaan interval mean populasi μ akan berbentuk:
L≤ μ ≤ U
Kembali ke contoh audit atas rekening piutang sebelumnya. Misalkan auditor telah memilih
sampel acak sederhana 100 rekening dari 8042 rekening piutang dari perusahaan yang sama
untuk memperkirakan mean populasi jumlah audit μ dari seluruh rekening piutang
perusahaan tersebut. Sebagian dari ke-100 data sampel disajikan pada tabel berikut.
I
1
2
3
...
99
100
n =100
Xi
80,29
6,97
4,55
...
51,51
10,30
3318,73
X = 3318,73
100
= 33,19
Xi – X
47,10
-26,22
-28,64
...
18,32
-22,89
0
2
s = 117.674,67
100 − 1
= 1188,63
(Xi – X )2
2.218,41
687,49
820,25
...
335,62
523,95
117.674,67
s = 34,48
Berdasarkan tabel tersebut kita peroleh mean sampel X = 33,19. Kita mengetahui bahwa
perkiraan ini mempunyai beberapa sifat-sifat yang diinginkan seperti tidak bias dan
105
konsisten. Namun, kita juga tahu bahwa tentu saja X = 33,19 tidak sama dengan μ. Kita
oleh karena itu berharap untuk membentuk pendugaaan interval atas μ.
4.1.1. Menduga Deviasi Standar X
Untuk membentuk pendugaan interval yang mencerminkan ketelitian penduga X atas μ,
kita perlu memperkirakan variabilitas (deviasi standar) dari distribusi penyampelan X .
Sebagaimana telah diuraikan sebelumnya variabilitas distribusi penyampelan X
mengindikasikan seberapa mungkin bahwa mean sampel X berada dekat dengan mean
populasi μ. Dengan semakin kecilnya variabilitas distribusi penyampelan, maka semakin
besarlah probabilitas bahwa X akan terletak pada interval spesifik apapun dari μ.
Meskipun kita hanya mengambil satu sampel dari populasi, kita dapat memperkirakan
variabilitas distribusi penyampelan X . Alasannya karena varians X , σ2{ X }, merupakan
fungsi sederhana dari varians populasi σ2 sebagaimana ditunjukkan oleh formula
σ2 { X } = σ 2
n
Untuk menduga σ2( X ), kita oleh karena itu menggantikan secara sederhana varians
populasi σ2 dalam formula ini dengan varians sampel s2. Penduga yang dihasilkan
dinotasikan sebagai s2{ X } :
s2 { X } = s 2
n
Sejalan dengan itu, deviasi standar dari X yang diestimasikan dinotasikan sebagai s{ X }
s{ X } =
s 2{X} =
s
n
Kedua penduga di atas (penduga atas varians dan deviasi standar distribusi penyampelan
X ) layak digunakan untuk populasi tak terbatas dan juga untuk populasi terbatas selama
nilai n/N cukup kecil (biasanya sebesar ≤ 5 %).
Pada contoh rekening piutang usaha di atas, kita ingin mengestimasi variabilitas distribusi
penyampelan X dari hasil sampel satu sampel dengan ukuran sampel 100 di atas. Kita
memiliki s2 = 1188,63 dan n = 100. Karena itu kita dapat menggunakan formula baru di
atas dan memperoleh :
s2{ X } = 1188,62 = 11,886
100
dan
s{ X } =
11,886 =
34,48 = 3,448
100
106
Karena ukuran sampel n = 100 adalah besar, maka distribusi penyampelan X mendekati
normal berdasarkan teorema batas memusat. Misalkan kita hendak membentuk interval
dengan lebar 4 deviasi standar, dari 2 deviasi standar di bawah mean sampel sampai 2
deviasi standar di atas mean sampel. Maka batas interval kita adalah:
L = X - 2 s{ X } = 33,19 – 2(3,448) = 26,29
U = X + 2 s{ X } = 33,19 + 2(3,448) = 40,09
Sehingga kita memperoleh pendugaan interval dengan lebar 4 deviasi standar, yaitu:
26,29 ≤ μ ≤ 40,09
Dengan demikian kita mengestimasi bahwa jumlah mean audit rekening piutang pada
populasi tersebut adalah suatu nilai di antara $26,29 dan $40,09. Karena kita telah
mengetahui dari eksperimen yang diuraikan sebelumnya bahwa μ = 30,033, maka kita dapat
memastikan bahwa pendugaan interval yang dimaksud adalah benar
Pendugaan interval yang kita lakukan di atas mengikuti langkah-langkah berikut:
1.
Pilih sebuah sampel acak sederhana dengan ukuran n
2.
Tentukan X dan s dari sampel
3.
Estimasikan deviasi standar distribusi penyampelan X , σ{ X }, dengan deviasi
standar sampel s{ X } = s
n
4.
Hitung interval X – 2s{ X } ≤ μ ≤ X + 2s{ X }
4.1.2. Karakteristik Estimasi Interval
Kita akan mempelajari karakteristik pendugaan interval di atas dengan melanjutkan
eksperimen awal di atas. Misalkan auditor melakukan 600 kali pengambilan sampel hanya
untuk ukuran sampel sebesar 100. Sampel yang kita peroleh pada tabel di atas dapat
dianggap sebagai sampel pertama dari 600 sampel yang mungkin. Misalkan kemudian, kita
tarik sampel kedua, dan sampel tersebut memiliki X = 31,89 dan s = 34,94. Jika sampel ini
yang diperoleh dalam penarikan hanya satu sampel seperti di atas, kita dengan demikian
akan memperoleh s{ X } = 39,94/ 100 = 3,494 dan mendapatkan akurasi perhitungan
2(3,494) = 6,99, yang memberikan batasan 31,89 ± 6,99. Dengan demikian kita akan
mendapatkan interval 24,90 ≤ μ ≤ 38,88. Sekali lagi, interval ini memuat μ = 30,303. Jika
kita teruskan pengambilan sampel sampai 600 kali, maka masing-masing penyampelan
107
akan memberikan interval sendiri-sendiri. Gambar berikut menunjukkan pendugaan
interval untuk sebagian dari ke-600 penyampelan, termasuk dua yang telah disebutkan.
Perhatikan bahwa semua interval yang dihasilkan dari sampel yang ditampilkan, kecuali
interval dari penyampelan ke-39, mencakup mean populasi μ = 30,303. Sampel ke-39 ini
memberikan pendugaan interval di atas μ. Dengan demikian secara keseluruhan, 559 dari
600 interval dalam eksperimen, atau 93,2%, berhasil mencakup μ.
Persentase interval yang berhasil memuat μ ini merupakan ukuran tingkat keyakinan yang
kita dapatkan dari prosedur pendugaan interval ini. Dalam hal ini dapat dikatakan akan
sangat mungkin bahwa suatu pendugaan interval yang diperoleh dari satu sampel saja, yang
manapun sampel yang terpilih tersebut, akan mencakup μ, karena 93,2% dari 600 estimasi
interval akan memuat μ. Jelasnya, persentase interval yang akan berhasil memuat μ, adalah
suatu fungsi dari perkalian atas variabilitas distribusi penyampelan s{ X } yang digunakan
dalam perhitungan interval. Didalam ilustrasi ini, kita menggunakan perkalian dengan 2s{
X }.
4.2. INTERVAL KEYAKINAN UNTUK μ SAMPEL BESAR
Pada pembahasan di atas kita melakukan pendugaan interval dengan menetapkan terlebih
dahulu jarak 4 deviasi standar sebagai batas yang diinginkan. Dengan demikian, data yang
diberikan adalah nilai z pada distribusi normal standar; berapa probabilitas yang dimiliki
pada interval tersebut akan tergantung dari nilai z yang ditetapkan. Pada bagian ini kita
akan melakukan pendugaan interval berdasarkan suatu tingkat probabilitas yang kita
kehendaki. Dengan demikian pada kasus ini, data yang diberikan adalah probabilitas dari
suatu distribusi normal standar (persentil ke-z[a]); berapa batas interval z yang akan
memberikan probabilitas tersebut akan tergantung pada probabilitas yang ditetapkan.
Tingkat probabilitas yang dikehendaki ini biasa disebut sebagai tingkat keyakinan (level
of confidence). Prosedur yang akan dijelaskan dapat diaplikasikan pada sampel acak
sederhana yang berukuran besar
Probabilitas bahwa suatu pendugaan interval yang tepat dapat diperoleh disebut koefisien
keyakinan (confidence coefficient) dan dinotasikan sebagai 1- α. Sejalan dengan itu,
keyakinan (confidence interval). Batas L dan
interval L ≤ μ ≤ U disebutinterval
sebagai
U masing-masing disebut batas keyakinan bawah (lower confidence limit) dan batas
keyakinan atas (upper confidence limit). Nilai koefisien keyakinan biasanya dinyatakan
sebagai persen misal koefisien keyakinan 0,95 (yaitu 1 – 0,05) umumnya dinyatakan
sebagai 95 %.
108
Perkiraan batas keyakinan (1 – α) untuk mean populasi μ, saat ukuran sampel acak cukup
besar, adalah:
X ± z (1 − α / 2)s{X}
sehingga perkiraan interval keyakinan (1 – α) untuk mean populasi μ adalah:
X − z (1 − α / 2)s{X} ≤ µ ≤ X + z (1 − α / 2)s{X}
Formula ini dapat kita turunkan dengan memandang probabilitas suatu distribusi normal
standar di tengah yang dibatasi dengan dua nilai z di sebelah kiri (batas keyakinan bawah)
dan di sebelah kanan (batas keyakinan atas) yang sesuai dengan koefisien keyakinan yang
dikehendaki, sedemikian rupa sehingga:
≤ z (1- α /2)] = 1– α
P[z(α/2) ≤
X−µ
s{X}
Gambar berikut menunjukkan kenapa probabilitas tersebut adalah sebesar 1– α :
α/2
α/2
1-α
z(α/2
z(1-α/2)
Selanjutnya karena z(α/2) = – z(1– α/2), maka:
P[–z(1– α/2) ≤
X−µ
s{X}
≤ z (1- α /2)] = 1– α
Dan dengan menyusun ulang diperoleh formula di atas tadi:
P[ X − z (1 − α / 2)s{X} ≤ µ ≤ X + z (1 − α / 2)s{X} ] = 1– α
Berikut beberapa contoh penerapan formula di atas untuk pendugaan interval dengan
tingkat keyakinan yang ditentukan.
1.
Melanjutkan contoh piutang dagang sebelumnya dengan anggota sampel pada tabel
halaman 18, misalkan kita ingin membuat interval keyakinan untuk μ dengan koefisien
keyakinan 1– α = 0,954. Karenanya, α = 0,046 dan 1– α/2 = 0,977. Kita temukan dari tabel
normal bab sebelumnya bahwa z(0,977) = 2. Sebelumnya kita memperoleh :
X = 33,19
s{ X } = 3,448
109
Dengan demikian:
L = 33,19 – 2(3,448) = 26,29
U = 33,19 + 2(3,448) = 40,09
dan
26,29 ≤ μ ≤ 40,09
Dengan begitu kita simpulkan, dengan tingkat keyakinan 95,4%, bahwa mean jumlah audit
populasi adalah antara 26,29 dan 40,09. Perhatikan bahwa interval keyakinan 95,4% ini
adalah setara dengan yang telah kita peroleh sebelumnya pada sub 4.1.2. (halaman 21).
Sekarang kita tahu bahwa pendugaan interval kita di atas mempunyai koefisien keyakinan
95,4 persen. Pada contoh eksperimen kita di atas dengan mengambil 600 kali penyampelan,
interval yang tepat memuat μ berjumlah 93,2% yang mendekati 95,4% koefisien keyakinan
menurut tingkat keyakinan yang kita harapkan pada perhitungan saat ini (perbedaan dapat
dianggap berasal dari kesalahan eksperimen/penyampelan). Interpretasi atas interval
keyakinan dengan demikian dapat dilakukan dalam konteks eksperimen di atas.
2. Pada contoh yang sama, sekiranya kita ingin menggunakan suatu koefisien
keyakinan lain, misalkan 1– α = 0,90, maka kita memerlukan z(0,95)= 1,645. Batasbatas keyakinan sekarang adalah 33,19 ± 1,645(3,448) sehingga interval keyakinan 90%
adalah 27,52 ≤ μ ≤ 38,86.
3. Dalam percobaan acak dari n = 40 batu bata dari proses produksi, berat rata-ratanya
adalah X = 3,742 kg dan deviasi standarnya adalah s = 0,0710 kg. Kita ingin menduga μ
populasi dari proses dengan interval keyakinan 99%. Kita kemudian tentukan:
s{ X } = 0,0710 = 0,0112 dan
z(0,995) = 2,576
40
Sehingga kita memperoleh batas keyakinan 3,724 ± 2,576 (0,0112). Dengan demikian
interval keyakinan 99 % adalah :
3,70 ≤ μ ≤ 3,75
Kita dapat menginterpretasikan interval ini bahwa dengan tingkat keyakinan 99% mean
berat proses batu bata adalah antara 3,70 dan 3,75 kg.
4.3. INTERVAL KEYAKINAN UNTUK μ SAMPEL KECIL
Ketika ukuran sampel acak kecil, maka (X − µ ) / s{X} tidak lagi mengikuti distribusi
normal standar seperti dijelaskan sebelumnya dan pembentukan interval keyakinan μ
tergantung kepada sifat populasi yang diamati. Prosedur berikut akan berlaku untuk (1)
110
sampel acak sederhana dengan ukuran sampel n kecil dari populasi normal, dan (2) sampel
acak sederhana dari populasi yang tidak terlalu menyimpang dari normal dengan ukuran
sampel tidak terlalu kecil. Untuk kedua sampel tersebut berlaku hubungan:
X−µ
s{X}
= t(n – 1)
Notasi t(n – 1) pada hubungan di atas menunjuk kepada distribusi t dengan derajat
kebebasan n-1. Hubungan di atas menjelaskan pada kita bahwa statistik (X − µ ) / s{X}
mengikuti distribusi t dengan derajat kebebasan n-1 ketika populasi yang disampel
mengikuti (1) dan (2) di atas.
Suatu distribusi t bersifat kontinyu, unimodal (bermodus satu) dan simetris, dengan
mean 0. Bentuk distribusi t tampak sama dengan distribusi normal standar tapi lebih
variatif. Dengan semakin besarnya ukuran sampel, maka derajat kebebasan n-1 menjadi
semakin besar, variabilitas tambahan yang dibawa s{ X } menjadi semakin kecil dan
distribusi t akan semakin mendekati distribusi normal standar.
Untuk penentuan interval keyakinan berdasarkan tingkat keyakinan tertentu, prosedur
yang berlaku pada sampel besar juga akan berlaku pada kasus yang akan dibahas saat ini,
kecuali persentil yang akan digunakan adalah dari distribusi t, bukannya persentil dari
distribusi normal standar. Batas Keyakinan 1-α untuk μ untuk sampel dari kedua populasi
di atas adalah:
X ± t (1 − α / 2; n − 1)s{X}
Batas-batas keyakinan ini tepat untuk segala macam ukuran sampel, besar atau kecil
selama memenuhi (1) dan (2) di atas, yaitu populasi yang disampel normal atau populasi
tidak terlalu jauh dari normal selama ukuran sampel cukup besar. Kelayakan dari perkiraan
kenormalan populasi dapat diuji berbagai analisis statistik tingkat lanjut.
Berikut contoh penerapan pendugaan interval untuk μ sampel kecil (contoh 1) dan
untuk populasi nonnormal (contoh 2).
1.
Sebuah sampel berupa lima kaleng saus tomat diambil secara acak dari suatu lini
produksi segera setelah pengisian. Isi dari kelima kaleng saus tersebut ditimbang untuk
menaksir mean berat dari proses pengisian saus ke seluruh kaleng yang diproduksi.
Pengalaman sebelumnya menunjukkan bahwa distribusi berat isi saus pada setiap kaleng
berbentuk normal. Akan ditentukan dengan tingkat keyakinan 99% interval keyakinan
untuk proses mean populasi μ.
111
Berikut adalah ini adalah berat isi kaleng hasil sampel (dalam ons)
i
X
N = 5 X = 23,9
1
23,0
2
23,5
3
23,5
4
25,0
5
24,5
S = 0,822
Berdasarkan data di atas, s{ X } = s/ n = 0,822/ 5 = 0,368. Koefisien keyakinan yang
dinginkan adalah 1-α = 0,99, jadi α = 0,01 dan 1- α/2 = 0,995. Derajat kebebasan dari
distribusi t adalah n – 1 = 5 – 1 = 4. Dari tabel t pada lampiran bab ini kita menemukan
bahwa t(0,995; 4) = 4,604. Menggunakan rumus interval untuk populasi normal sampel
kecil atau populasi tidak terlalu jauh dari normal, kita memperoleh interval keyakinan 23,9
± 4,604(0,3608), yang menghasilkan 99 persen interval keyakinan, yaitu:
22,2 ≤ μ ≤ 25,6
Interpretasi dari solusi ini adalah dengan tingkat keyakinan 99%, mean berat saus yang
diisikan pada seluruh proses pengisisan saus tersebut adalah antara 22,2 sampai 25,6 ons
Komentar :
1.
Interval keyakinan yang dirumuskan di atas akan menjadi sama dengan sampel
besar untuk ukuran-ukuran sampel besar. Alasannya adalah bahwa perkalian t pada interval
tersebut mendekati perkalian normal standar selama ukuran sampel bertambah
2.
Terkadang deviasi standar populasi σ diketahui dan tidak perlu diperkirakan oleh
deviasi standar sampel s. Dalam kasus ini, σ{ X } juga diketahui secara tepat. Jika populasi
normal, maka ( X – μ)/σ{ X } mengikuti distribusi normal standar sehingga interval
keyakinan yang tepat dalam kasus ini adalah X ± z(1– α/2) σ{ X }.
2.
Suatu sampel acak dengan ukuran sampel n = 15 dokter dipilih dari suatu komunitas
masyarakat untuk menghitung mean pengenaan biaya pemeriksaan pasien yang menderita
penyakit umum. Hasil sampel adalah (dalam ribuan) X = Rp74,35 dan s = Rp4,28.
Diketahui bahwa distribusi pengenaan biaya pemeriksaan oleh dokter-dokter pada
komunitas masyarakat tersebut agak menceng, tetapi tidak terlalu besar, sehungga batas
keyakinan pada formula di atas dapat digunakan. Koefisien keyakinan yang dikehendaki
adalah 1–α = 0,95. Kita memerlukan t(0,975; 14) = 2,145 dan juga s{ X } = s/ n = 4,28/
15 = 1,105. Oleh karena itu batas keyakinan adalah 74,35 ± 2,145(1,105). Maka, dengan
112
keyakinan 95 persen, kita memperkirakan bahwa harga rata-rata dari prosedur dalam
masyarakat adalah antara Rp72.000 sampai Rp76.700
Komentar:
Bila suatu populasi terlampau tidak normal, suatu transformasi matematis atas data sering
dapat ditemukan yang dapat membuat populasi menjadi cukup dekat dengan distribusi
normal sehingga batas keyakinan di atas dapat digunakan kepada data transformasian.
Transfromasi yang biasa diterapkan misalnya transformasi logaritma karena data log x pada
umumnya lebih kurang menceng daripada data x yang tidak diubah.
4.4. LATIHAN
113
Download