BAB 6 SEBARAN NORMAL Dan Sebaran Penarikan Contoh Bentuk Sebaran Data Menggambarkan bagaimana data tersebar Menentukan bentuk sebaran Simetris atau condong Condong ke kiri Mean < Median < Mode Simetris Mean = Median =Mode Condong ke kanan Mode < Median < Mean Bentuk Sebaran dan Box-and-Whisker Plot Condong Kiri Q1 Q 2 Q3 Simetris Q 1 Q 2Q 3 Condong Kanan Q1 Q 2 Q3 DISTRIBUSI DATA GAUSSIAN DISTRIBUTION Sebaran Normal Distribusi Probabilitas Distribusi Probabilitas Kontinu Seragam Normal Eksponensial Karakteristik Sebaran Normal “Berbentuk Bel” Simmetris Mean, median dan modusnya sama Kisaran antar-kuartil sama dengan 1.33 s Variabel acak memiliki kisaran tak terbatas f(x) f(X) σ μ Mean Mean = Median =Median Mode Mode x X Moments of Standard Normal Random Variables N(0, 1) Mean=0 Variance =1 Skewness = 0 Kurtosis = 3 Excess kurtosis =0 Probabilitas dari Sebaran Normal Variabel random X ~ N(,2), mis., memiliki suatu univariate normal distribution jika untuk semua x berada pada garis (-,+ ) f(x) = 1 2 e 1 x - 2 2 dan adalah rata-rata dan simpangan baku, = 3.14159 … dan e = 2.71828 merupakan dasar dari logaritma natural or Naperian logarithms. Model Matematis Distrubusi Normal f f X X : 1 2 e 1 2 X 2 2 kep ad atan variab le acak X 3 .1 4 1 5 9; e 2 .7 1 8 2 8 : rerata p op u lasi : sim p an gan b aku p op u lasi X : n ilai variab le acak X N(,2) Perubahan menggeser lokasi sebaran. Perubahan 2 mengubah dispersi. x (a) x (b) (c) x Beberapa Bentuk Sebaran Normal Banyak sekali bentuk sebaran normal yang jumlahnya tidak terbatas Dengan memuat variasi parameter dan , kita mendapatkan berbagai bentuk sebaran normal Contoh Kurva Normal Probabilitas Sebaran Normal Probabilitas adalah luas area di bawah kurva! Tabel dapat dibangun untuk mendapatkan probabilitas f(X) c d X Interpretasi dan Penggunaan Simpangan Baku Teorema Chebyshev: Untuk setiap kumpulan observasi, proporsi minimum dari nilai-nilai yang terletak dalam kisaran k simpangan baku dari nilai tengah sekurang-kurangnya adalah: 1- 1 k 2 dimana k adalah konstanta yang lebih besar dari 1. Teorema Chebyshev Teorema Chebyshev: Untuk setiap himounan observasi, proporsi minimum dari nilai-nilai yang terletak dalam rentang k simpangan baku dari nilai tengah sekurang-kurangnya adalah 1- 1/k2 K Coverage 1 0% 2 75.00% 3 88.89% 4 93.75% 5 96.00% 6 97.22% Aturan Empiris Jika distribusi data berbentuk lonceng, maka intervalnya: μ 1σ meliputi kira-kira 68% dari nilai di dalam populasi atau sampel 68% μ μ 1σ Aturan Empiris μ 2σ meliputi kira 95% dari nilai-nilai di dalam populasi atau sampel μ 3 σ meliputi kira-kira 99.7% dari nilai-nilai di dalam populasi atau sampel 95% 99.7% μ 2σ μ 3σ Aturan Empiris 99.7% of data are within 3 standard deviations of the mean 95% within 2 standard deviations 68% within 1 standard deviation 34% 0.1% 34% 2.4% 2.4% 0.1% 13.5% x - 3s x - 2s 13.5% x-s x x + s x + 2s x + 3s Infinite Number of Normal Distribution Tables Sebaran Normal dibedakan berdasarkan ratarata dan simpangan bakunya. f(X) Setiap sebaran memerlukan tabel sendiri-sendiri. X Simpangan Baku Sebagai Pembanding Trik dalam membandingkan nilai yang terlihat sangat berbeda adalah menggunakan sebagai pembanding Jika standar deviasi cukup besar maka akan ada kemungkinan rentang dari kedua nilai populasinya akan berhimpitan Simpangan baku memberikan gambaran kepada kita tentang seluruh nilai-nilai yang bervariasi, dengan demikian sangat masuk akal jika simpangan baku dijadikan pembanding nilai individu dengan suatu kelompok Sebagai ukuran variasi yang umum, maka simpangan baku memainkan peranan penting dalam bagaimana kita memandang data Standardisasi Dengan Nilai-Z Kita membandingkan data individual terhadap nilai tengahnya, dibandingkan dengan simpangan bakunya dengan menggunakan formula sebagai berikut: z y y s Hasil yang diperoleh dinamakan nilai baku (standardized values), dilambangkan dengan z. Biasa juga disebut z-scores. Standardisasi Dengan Nilai-Z Nilai baku tidak memiliki satuan z-scores mengukur jarak masing-masing nilai datadari nilai tengahnya di dalam simpangan baku z-score yang bernilai negatif berada di bawah nilai tengah, sedangkan z-score yang bernilai positif menggambarkan nilai data di atas nilai tengahnya Standardisasi Dengan Nilai-Z Nilai baku telah diubah dari unit aslinya menjadi unit statistik baku dari simpangan baku dari nilai tengah. Dengan demikia, kita dapat membandingkan nilainilai yang diukur pada skala yang berbeda, dengan satuan yang berbeda atau dari populasi yang berbeda Shifting Data Shifting data: Adding (or subtracting) a constant to every data value adds (or subtracts) the same constant to measures of position. Adding (or subtracting) a constant to each value will increase (or decrease) measures of position: center, percentiles, max or min by the same constant. Its shape and spread - range, IQR, standard deviation remain unchanged. Shifting Data (cont.) The following histograms show a shift from men’s actual weights to kilograms above recommended weight: Rescaling Data Rescaling data: When we multiply (or divide) all the data values by any constant, all measures of position (such as the mean, median, and percentiles) and measures of spread (such as the range, the IQR, and the standard deviation) are multiplied (or divided) by that same constant. Rescaling Data (cont.) The men’s weight data set measured weights in kilograms. If we want to think about these weights in pounds, we would rescale the data: z-scores Standardizing data into z-scores shifts the data by subtracting the mean and rescales the values by dividing by their standard deviation. Standardizing into z-scores does not change the shape of the distribution. Standardizing into z-scores changes the center by making the mean 0. Standardizing into z-scores changes the spread by making the standard deviation 1. Standardizing the Three Normal Curves How do we utilize z-score? A z-score gives us an indication of how unusual a value is because it tells us how far it is from the mean. Remember that a negative z-score tells us that the data value is below the mean, while a positive zscore tells us that the data value is above the mean. The larger a z-score is (negative or positive), the more unusual it is. When do we use z-score? There is no universal standard for z-scores, but there is a model that shows up over and over in Statistics. This model is called the Normal model (You may have heard of “bell-shaped curves.”). Normal models are appropriate for distributions whose shapes are unimodal and roughly symmetric. These distributions provide a measure of how extreme a z-score is. Normal Model and z-score There is a Normal model for every possible combination of mean and standard deviation. We write N(μ,σ) to represent a Normal model with a mean of μ and a standard deviation of σ. We use Greek letters because this mean and standard deviation do not come from data—they are numbers (called parameters) that specify the model. Probabilitas Sebaran Normal Baku -- N(0,1) Sebaran normal baku adalah sebaran normal dengan rerata 0 dan simpangan baku sama dengan 1. Dinmakan juga dengan sebaran-Z. Suatu nilai-Z adalah jarak antara nilai tertentu yang dipilih (designated X), dan rerata populasi ( ), dibagi dengan simpangan baku populasi (). Formulanya adalah: Z X 1 1 X E (Z ) E E(X ) [E ( X ) ] 0 1 1 X Var ( Z ) Var 2 Var ( X ) 2 Var ( X ) 1 Standardize the Normal Distribution Normal Distribution Z X X Standardized Normal Distribution =1 0 Z Because we can transform any normal random variable into standard normal random variable, we need only one table! Standardizing Example Normal distribution N(5,100) = 5, = 10 5 6.2 Standardized Normal Distribution N(0,1) = 0, = 1 0 X Z X 55 .12 0 10 Z X 6 .2 5 10 0 . 12 Z Example: Given the population of women has normally distributed weights with a mean of 143 lb and a standard deviation of 29 lb, if 36 different women are randomly selected, the probability that their mean weight is greater than 150 lb is 0.0735. 150 143 z 1.45 29 36 0.5 - 0.4265 = 0.0735 0.4265 x = 143 x = 4.83333 0 150 1.45 37 Obtaining the Probability Standardized Normal Probability Table (Portion) Z .00 .01 =1 .02 0.0 .0000 .0040 .0080 0.0478 0.1 .0398 .0438 .0478 0.2 .0793 .0832 .0871 0 0.3 .1179 .1217 .1255 Probabilities 0.12 Z Shaded Area Exaggerated Example P(3.8 X 5) Z Normal Distribution X 3 .8 5 0 . 12 10 Standardized Normal Distribution = 10 0.0478 3.8 =5 X -0.12 Shaded Area Exaggerated 0 Z Example (2.9 X 7.1) Z Z X Normal Distribution X 2 .9 5 7 .10 1 5 0 . 21 0 . 21 10 Standardized Normal Distribution = 10 .1664 .0832 .0832 2.9 5 7.1 X -.21 Shaded Area Exaggerated 0 .21 Z Example P(X 8) Z Normal Distribution X 85 0 . 30 10 Standardized Normal Distribution = 10 .5000 .3821 .1179 =5 8 X Shaded Area Exaggerated 0 .30 Z Example P(7.1 X 8) Z Normal Distribution Z X X 7 . 1 5 10 85 0 . 21 0 .3 10 Standardized Normal Distribution = 10 .1179 .0347 .0832 =5 7.1 8 X Shaded Area Exaggerated 0 .21 .30 Z Menghitung Peluang (Probabilitas) Besarnya Probabilitas adalah luas areal di bawah kurva! P c X d ? f(X) c d X Notation P(a < z < b) denotes the probability that the z score is between a and b P(z > a) denotes the probability that the z score is greater than a P (z < a) denotes the probability that the z score is less than a MENENTUKAN BESARNYA PELUANG Pernyataan Peluang: Beberapa kemungkinan yang terjadi, tergantung pertidak-samaan: P X c ? PX d ? P c X d ? Sebaran Normal Baku Kumulatif Tabel Sebaran Normal baku Kumulative (sebahagian) Z .00 .01 Z 0 Z 1 .02 .5478 0.0 .5000 .5040 .5080 Daerah yang diarasir dijumlahkan 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 Nilai Probabilitas 0.3 .6179 .6217 .6255 0 Z = 0.12 CONTOH Cara Melakukan Pembakuan Z X 6.2 5 0.12 10 Sebaran Normal Variabel X 10 5 Sebaran Normal Baku Z 1 6 .2 X Daerah yang diarsir digabungkan © 2002 Prentice-Hall, Inc. Z 0 0 .1 2 Z Chap 5-47 Teladan: P 2 .9 X 7 .1 .1 6 6 4 Z X 2.9 5 .21 Z 10 X 7.1 5 .21 10 Sebaran Normal Baku Sebaran Normal 10 .0 8 3 2 Z 1 .0 8 3 2 2 .9 5 7 .1 X 0 .2 1 Daerah yang diarsir digabungkan Z 0 0 .2 1 Z Teladan: P 2 .9 X 7 .1 .1 6 6 4 (lanjutan) Tabel Sebaran Normal baku Kumulative (sebahagian) Z .00 .01 Z 0 Z 1 .02 .5832 0.0 .5000 .5040 .5080 Daerah yang diarsir 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 0.3 .6179 .6217 .6255 digabungkan 0 Z = 0.21 Teladan: P 2 .9 X 7 .1 .1 6 6 4 (Lanjutan) Tabel Sebaran Normal baku Kumulative (sebahagian) Z .00 .01 .02 Z 0 Z 1 .4168 -03 .3821 .3783 .3745 -02 .4207 .4168 .4129 -0.1 .4602 .4562 .4522 0.0 .5000 .4960 .4920 0 Z = -0.21 Menghitung Probabilitas Sebaran Normal Contoh dengan excel spreadsheet Short cut to dat a ikan bagan Plratu. lnk Teladan: P X 8 .3 8 2 1 Z X 85 .30 10 Sebaran Normal Baku Sbaran Normal 10 Z 1 .3 8 2 1 5 8 X Z 0 0 .3 0 Z Teladan: P X 8 .3 8 2 1 Tabel Sebaran Normal baku Kumulative (sebahagian) Z .00 .01 Z 0 (Lanjutan) Z 1 .02 .6179 0.0 .5000 .5040 .5080 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 0.3 .6179 .6217 .6255 0 Z = 0.30 Menentukan Nilai-Z jika Probabilitas Diketahui Berapa Nilai Z jika Probabilitasnya = 0.1217 ? Z 0 Z 1 Tabel Sebaran Normal baku Kumulative (sebahagian) Z .00 .01 0.2 0.0 .5000 .5040 .5080 .6217 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 Daerah yang diarsir digabungkan 0 Z .3 1 0.3 .6179 .6217 .6255 Mendapetkan Kembali Nilai X Jika Probabilitas Diketahui Sebaran Normal Baku Sebaran Normal 10 .1 1 7 9 Z 1 .3 8 2 1 5 ? X Z 0 X Z 5 .30 10 8 0 .3 0 Z Student’s t-Distribution For small sample sizes the approximations for CLT does not hold - the standardized statistics do not exactly conform to the standard normal distribution… so we can use a different standard distribution to approximate the sample distribution. We use the t-distribution to approximate the normal distribution. T-distribution has a bell shape with a mean = 0; the sd is slightly different than 1.0, but close. Student t Distributions for n = 3 and n = 12 Student t Distribution If the distribution of a population is essentially normal, then the distribution of t = x-µ s n is essentially a Student t Distribution for all samples of size n, and is used to find critical values denoted by t/2. Student’s tDistribution:Replacing with s Dilemma: we generally don’t know (pop SD). Using s we have: x x n (x ) t s .d .( x ) s / n If the sample size n is small, this standardized statistic will not have a N(0,1) distribution but rather a t-distribution with n – 1 degrees of freedom (df). Degrees of Freedom (df ) Corresponds to the number of sample values that can vary after certain restrictions have been imposed on all data values df = n – 1 Using the Normal and t Dist Not Known Assumptions 1. 2. The sample is a simple random sample. Either the sample is from a normally distributed population, or n > 30. Use Student t distribution Important Properties of the Student t Dist 1. The Student t distribution is different for different sample sizes 2. The Student t distribution has the same general symmetric bell shape as the normal distribution but it reflects the greater variability (with wider distributions) that is expected with small samples. 3. The Student t distribution has a mean of t = 0 (just as the standard normal distribution has a mean of z = 0). 4. The standard deviation of the Student t distribution varies with the sample size and is greater than 1 (unlike the standard normal distribution, which has a = 1). 5. As the sample size n gets larger, the Student t distribution gets closer to the normal distribution. Example. Standardized Mean Weights Claim: mean weight loss is m = 8 pounds. x Sample of n =25 people gave a sample mean weight loss of = 8.32 pounds and a sample standard deviation of s = 4.74 pounds. Is the sample mean weight loss of 8.32 pounds reasonable to expect if m = 8 pounds? t x s n 8 . 32 8 4 . 74 25 0 . 34 The sample mean of 8.32 is only about one-third of a standard error above 8, which is consistent with a population mean weight loss of 8 pounds. Menentukan Kenormalan Sebaran Data Tidak semua variabel acak memiliki nilai-nilai data yang menyebar secara normal Penting sekali mengevaluasi seberapa baik sekumpulan data. Data yang baik menurut statistika adalah data yang memiliki sebaran mendekati normal Menentukan Kenormalan Sebaran Data (continued) Metode Grafis Untuk kumpulan data yang sedikit atau sedang ukurannya, buatlah grafik/diagram batang-dan-daun (stem-and-leaf) dan diagram pencar box-and-whisker plot, kemudian perhatikan apakah sebarannya simetris? Untuk kumpulan data yang ukurannya besar, buatlah histogram atau polygon; apakah gambarnya berbentuk seperti lonceng? Metode Hitungan Hitung mean, median dan modusnya, apakah nilainya sama? Apakah kisaran antar-kuartil nmendekati 1.33? Apakah kisaran mendekati 6? Menentukan Kenormalan Sebaran Data Mengamati Sebaran Data (continued) Apakah 2/3 dari data berada dalam kisaran 1 simpangan baku? Apakah 4/5 dari data berada antara 1.28 simangan baku? Apakah kira-kira 19/20 dari data nerada dalam kisaran 2 simpangan baku? Mengevaluasi “normal probability plot” Apakah titik-titik berada dekat dengan garis lurus dengan slope yang positif? Menentukan Kenormalan Sebaran Data (continued) Membuat Normal probability plot Susun data dalam bentuk senarai berjenjang Tentukan nilai-nilai masing-masing kuantil yang telah distandardized Petakan pasangan titik-titik data, dimana data observasi pada sumbu vertikal dan nilai-nilai quantile yang distandardized pada sumbu horizontal Evaluasi plot yang terbentuk apakah linier? Menentukan Kenormalan Sebaran Data (continued) Normal Probability Plot Untuk Sebaran Normal 90 X 60 Z 30 -2 -1 0 1 2 Perhatikan garisnya! Normal Probability Plot Condong kekiri Condong kekanan 90 90 X 60 X 60 Z 30 -2 -1 0 1 2 -2 -1 0 1 2 Segiempat Berbentu-U 90 90 X 60 X 60 Z 30 -2 -1 0 1 2 Z 30 Z 30 -2 -1 0 1 2