07_sebaran normal

advertisement
BAB 6
SEBARAN NORMAL
Dan Sebaran Penarikan
Contoh
Bentuk Sebaran Data

Menggambarkan bagaimana data tersebar

Menentukan bentuk sebaran

Simetris atau condong
Condong ke kiri
Mean < Median < Mode
Simetris
Mean = Median =Mode
Condong ke kanan
Mode < Median < Mean
Bentuk Sebaran dan
Box-and-Whisker Plot
Condong Kiri
Q1
Q 2 Q3
Simetris
Q 1 Q 2Q 3
Condong Kanan
Q1 Q 2
Q3
DISTRIBUSI DATA
GAUSSIAN DISTRIBUTION
Sebaran Normal
Distribusi
Probabilitas
Distribusi
Probabilitas
Kontinu
Seragam
Normal
Eksponensial
Karakteristik Sebaran Normal





“Berbentuk Bel”
Simmetris
Mean, median dan
modusnya sama
Kisaran antar-kuartil
sama dengan 1.33 s
Variabel acak memiliki
kisaran tak terbatas
f(x)
f(X)
σ
μ

Mean
Mean
= Median
=Median
Mode
Mode
x
X
Moments of Standard Normal
Random Variables N(0, 1)





Mean=0
Variance =1
Skewness = 0
Kurtosis = 3
Excess kurtosis =0
Probabilitas dari Sebaran Normal
Variabel random X ~ N(,2), mis., memiliki suatu univariate normal
distribution jika untuk semua x berada pada garis (-,+ )
f(x) =
1
 2
e
1 x - 
2 





2
 dan  adalah rata-rata dan simpangan baku,  = 3.14159 … dan e =
2.71828 merupakan dasar dari logaritma natural or Naperian
logarithms.
Model Matematis Distrubusi Normal
f
f
X


X :

1
2 
e
1
2
X 

2
2
kep ad atan variab le acak X
  3 .1 4 1 5 9;
e  2 .7 1 8 2 8
 : rerata p op u lasi
 : sim p an gan b aku p op u lasi
X : n ilai variab le acak
 
 X  
N(,2)
Perubahan  menggeser lokasi sebaran.
Perubahan 2 mengubah dispersi.
x
(a)
x
(b)
(c)
x
Beberapa Bentuk
Sebaran Normal
Banyak sekali bentuk sebaran normal yang jumlahnya tidak terbatas
Dengan memuat variasi parameter  dan , kita mendapatkan
berbagai bentuk sebaran normal
Contoh Kurva Normal
Probabilitas Sebaran Normal
Probabilitas adalah luas area
di bawah kurva!
Tabel dapat dibangun untuk
mendapatkan probabilitas
f(X)
c
d
X
Interpretasi dan Penggunaan
Simpangan Baku

Teorema Chebyshev: Untuk setiap kumpulan
observasi, proporsi minimum dari nilai-nilai
yang terletak dalam kisaran k simpangan
baku dari nilai tengah sekurang-kurangnya
adalah:
1-
1
k
2
dimana k adalah konstanta yang lebih besar
dari 1.
Teorema Chebyshev
Teorema Chebyshev: Untuk setiap himounan observasi,
proporsi minimum dari nilai-nilai yang terletak dalam rentang
k simpangan baku dari nilai tengah sekurang-kurangnya
adalah 1- 1/k2
K
Coverage
1
0%
2
75.00%
3
88.89%
4
93.75%
5
96.00%
6
97.22%
Aturan Empiris
Jika distribusi data berbentuk lonceng, maka
intervalnya:

μ  1σ meliputi kira-kira 68% dari nilai di dalam populasi
atau sampel
68%
μ
μ  1σ
Aturan Empiris


μ  2σ meliputi kira 95% dari nilai-nilai di dalam
populasi atau sampel
μ  3 σ meliputi kira-kira 99.7% dari nilai-nilai di
dalam populasi atau sampel
95%
99.7%
μ  2σ
μ  3σ
Aturan Empiris
99.7% of data are within 3 standard deviations of the mean
95% within
2 standard deviations
68% within
1 standard deviation
34%
0.1%
34%
2.4%
2.4%
0.1%
13.5%
x - 3s
x - 2s
13.5%
x-s
x
x + s x + 2s
x + 3s
Infinite Number of Normal
Distribution Tables
Sebaran Normal dibedakan berdasarkan ratarata dan simpangan bakunya.
f(X)
Setiap sebaran memerlukan tabel
sendiri-sendiri.
X
Simpangan Baku Sebagai
Pembanding




Trik dalam membandingkan nilai yang terlihat sangat berbeda
adalah menggunakan sebagai pembanding
Jika standar deviasi cukup besar maka akan ada kemungkinan
rentang dari kedua nilai populasinya akan berhimpitan
Simpangan baku memberikan gambaran kepada kita tentang
seluruh nilai-nilai yang bervariasi, dengan demikian sangat
masuk akal jika simpangan baku dijadikan pembanding nilai
individu dengan suatu kelompok
Sebagai ukuran variasi yang umum, maka simpangan baku
memainkan peranan penting dalam bagaimana kita
memandang data
Standardisasi Dengan Nilai-Z

Kita membandingkan data individual terhadap nilai
tengahnya, dibandingkan dengan simpangan
bakunya dengan menggunakan formula sebagai
berikut:
z
y  y 
s

Hasil yang diperoleh dinamakan nilai baku
(standardized values), dilambangkan dengan z.
Biasa juga disebut z-scores.
Standardisasi Dengan Nilai-Z



Nilai baku tidak memiliki satuan
z-scores mengukur jarak masing-masing nilai
datadari nilai tengahnya di dalam simpangan baku
z-score yang bernilai negatif berada di bawah nilai
tengah, sedangkan z-score yang bernilai positif
menggambarkan nilai data di atas nilai tengahnya
Standardisasi Dengan Nilai-Z


Nilai baku telah diubah dari unit aslinya menjadi unit
statistik baku dari simpangan baku dari nilai tengah.
Dengan demikia, kita dapat membandingkan nilainilai yang diukur pada skala yang berbeda, dengan
satuan yang berbeda atau dari populasi yang
berbeda
Shifting Data

Shifting data:



Adding (or subtracting) a constant to every data value adds
(or subtracts) the same constant to measures of position.
Adding (or subtracting) a constant to each value will
increase (or decrease) measures of position: center,
percentiles, max or min by the same constant.
Its shape and spread - range, IQR, standard deviation remain unchanged.
Shifting Data (cont.)

The following histograms show a shift from men’s
actual weights to kilograms above recommended
weight:
Rescaling Data

Rescaling data:

When we multiply (or divide) all the data values
by any constant, all measures of position (such as
the mean, median, and percentiles) and measures
of spread (such as the range, the IQR, and the
standard deviation) are multiplied (or divided) by
that same constant.
Rescaling Data (cont.)

The men’s weight data set measured weights in
kilograms. If we want to think about these weights
in pounds, we would rescale the data:
z-scores

Standardizing data into z-scores shifts the data by
subtracting the mean and rescales the values by
dividing by their standard deviation.



Standardizing into z-scores does not change the shape of
the distribution.
Standardizing into z-scores changes the center by making
the mean 0.
Standardizing into z-scores changes the spread by making
the standard deviation 1.
Standardizing the Three Normal Curves
How do we utilize z-score?



A z-score gives us an indication of how unusual a
value is because it tells us how far it is from the
mean.
Remember that a negative z-score tells us that the
data value is below the mean, while a positive zscore tells us that the data value is above the mean.
The larger a z-score is (negative or positive), the
more unusual it is.
When do we use z-score?




There is no universal standard for z-scores, but
there is a model that shows up over and over in
Statistics.
This model is called the Normal model (You may
have heard of “bell-shaped curves.”).
Normal models are appropriate for distributions
whose shapes are unimodal and roughly
symmetric.
These distributions provide a measure of how
extreme a z-score is.
Normal Model and z-score

There is a Normal model for every possible
combination of mean and standard deviation.


We write N(μ,σ) to represent a Normal model with a mean
of μ and a standard deviation of σ.
We use Greek letters because this mean and
standard deviation do not come from data—they are
numbers (called parameters) that specify the model.
Probabilitas Sebaran
Normal Baku -- N(0,1)



Sebaran normal baku adalah sebaran normal dengan rerata 0
dan simpangan baku sama dengan 1.
Dinmakan juga dengan sebaran-Z.
Suatu nilai-Z adalah jarak antara nilai tertentu yang dipilih
(designated X), dan rerata populasi ( ), dibagi dengan
simpangan baku populasi (). Formulanya adalah:
Z 
X  

1
1
 X  
E (Z )  E 
E(X  ) 
[E ( X )   ]  0


 
 
1
1
 X  
Var ( Z )  Var 
  2 Var ( X   )  2 Var ( X )  1

 
 
Standardize the Normal
Distribution
Normal
Distribution
Z


X
X 

Standardized Normal
Distribution
 =1
0
Z
Because we can transform any normal random variable into
standard normal random variable, we need only one table!
Standardizing Example
Normal distribution
N(5,100)
 = 5,  = 10
5
6.2
Standardized Normal
Distribution N(0,1)
 = 0,  = 1
0
X
Z
X 


55
.12
0
10
Z
X 


6 .2  5
10
 0 . 12
Z
Example: Given the population of women has normally distributed
weights with a mean of 143 lb and a standard deviation of 29 lb, if 36 different
women are randomly selected, the probability that their mean weight is
greater than 150 lb is 0.0735.


 150  143 
z
 1.45
 29


36 
0.5 - 0.4265 = 0.0735
0.4265
x = 143
x = 4.83333
0
150
1.45
37
Obtaining the Probability
Standardized Normal Probability
Table (Portion)
Z
.00
.01
 =1
.02
0.0 .0000 .0040 .0080
0.0478
0.1 .0398 .0438 .0478
0.2 .0793 .0832 .0871
0
0.3 .1179 .1217 .1255
Probabilities
0.12
Z
Shaded Area
Exaggerated
Example P(3.8  X  5)
Z
Normal
Distribution

X 


3 .8  5
  0 . 12
10
Standardized Normal
Distribution
= 10
0.0478
3.8

=5
X
-0.12
Shaded Area Exaggerated
0
Z
Example (2.9  X  7.1)
Z
Z
X 
Normal
Distribution


X 



2 .9  5
7 .10
1 5
  0 . 21
 0 . 21
10
Standardized Normal
Distribution
= 10
.1664
.0832 .0832
2.9
5
7.1
X
-.21
Shaded Area Exaggerated
0
.21
Z
Example P(X  8)
Z
Normal
Distribution

X 


85
 0 . 30
10
Standardized Normal
Distribution
= 10
.5000
.3821
.1179
 =5
8
X
Shaded Area Exaggerated
0
.30
Z
Example P(7.1  X  8)
Z
Normal
Distribution

Z
X 

X 


7 . 1 5

10
85
 0 . 21
 0 .3
10
Standardized Normal
Distribution
= 10
.1179
.0347
.0832
 =5
7.1
8 X
Shaded Area Exaggerated
0
.21 .30 Z
Menghitung Peluang
(Probabilitas)
Besarnya
Probabilitas
adalah luas areal
di bawah kurva!
P c  X  d   ?
f(X)
c
d
X
Notation
P(a < z < b)
denotes the probability that the z score is between a and b
P(z > a)
denotes the probability that the z score is greater than a
P (z < a)
denotes the probability that the z score is less than a
MENENTUKAN
BESARNYA PELUANG

Pernyataan Peluang:
Beberapa kemungkinan yang terjadi, tergantung
pertidak-samaan:
P  X  c  ?
PX  d ?
P c  X  d   ?
Sebaran
Normal Baku Kumulatif
Tabel Sebaran Normal baku
Kumulative (sebahagian)
Z
.00
.01
Z  0
Z 1
.02
.5478
0.0 .5000 .5040 .5080
Daerah yang
diarasir
dijumlahkan
0.1 .5398 .5438 .5478
0.2 .5793 .5832 .5871
Nilai Probabilitas
0.3 .6179 .6217 .6255
0
Z = 0.12
CONTOH
Cara Melakukan Pembakuan
Z 
X 


6.2  5
 0.12
10
Sebaran Normal Variabel X
  10
 5
Sebaran
Normal Baku
Z 1
6 .2
X
Daerah yang diarsir digabungkan
© 2002 Prentice-Hall, Inc.
Z  0
0 .1 2
Z
Chap 5-47
Teladan:
P  2 .9  X  7 .1   .1 6 6 4
Z 
X 


2.9  5
  .21
Z 
10
X 


7.1  5
 .21
10
Sebaran
Normal Baku
Sebaran Normal
  10
.0 8 3 2
Z 1
.0 8 3 2
2 .9
 5
7 .1
X
 0 .2 1
Daerah yang diarsir digabungkan
Z  0
0 .2 1
Z
Teladan:
P  2 .9  X  7 .1   .1 6 6 4
(lanjutan)
Tabel Sebaran Normal baku
Kumulative (sebahagian)
Z
.00
.01
Z  0
Z 1
.02
.5832
0.0 .5000 .5040 .5080
Daerah yang
diarsir
0.1 .5398 .5438 .5478
0.2 .5793 .5832 .5871
0.3 .6179 .6217 .6255
digabungkan
0
Z = 0.21
Teladan:
P  2 .9  X  7 .1   .1 6 6 4
(Lanjutan)
Tabel Sebaran Normal baku
Kumulative (sebahagian)
Z
.00
.01
.02
Z  0
Z 1
.4168
-03 .3821 .3783 .3745
-02 .4207 .4168 .4129
-0.1 .4602 .4562 .4522
0.0 .5000 .4960 .4920
0
Z = -0.21
Menghitung Probabilitas
Sebaran Normal

Contoh dengan excel
spreadsheet
Short cut to dat a ikan bagan Plratu. lnk
Teladan:
P  X  8   .3 8 2 1
Z 
X 


85
 .30
10
Sebaran
Normal Baku
Sbaran Normal
  10
Z 1
.3 8 2 1
 5
8
X
Z  0
0 .3 0
Z
Teladan:
P  X  8   .3 8 2 1
Tabel Sebaran Normal baku
Kumulative (sebahagian)
Z
.00
.01
Z  0
(Lanjutan)
Z 1
.02
.6179
0.0 .5000 .5040 .5080
0.1 .5398 .5438 .5478
0.2 .5793 .5832 .5871
0.3 .6179 .6217 .6255
0
Z = 0.30
Menentukan Nilai-Z
jika Probabilitas Diketahui
Berapa Nilai Z jika
Probabilitasnya = 0.1217 ?
Z  0
Z 1
Tabel Sebaran Normal baku
Kumulative (sebahagian)
Z
.00
.01
0.2
0.0 .5000 .5040 .5080
.6217
0.1 .5398 .5438 .5478
0.2 .5793 .5832 .5871
Daerah yang
diarsir
digabungkan
0
Z  .3 1
0.3 .6179 .6217 .6255
Mendapetkan Kembali Nilai X
Jika Probabilitas Diketahui
Sebaran
Normal Baku
Sebaran Normal
  10
.1 1 7 9
Z 1
.3 8 2 1
 5
?
X
Z  0
X    Z   5   .30   10   8
0 .3 0
Z
Student’s t-Distribution
For small sample sizes the approximations for CLT does
not hold - the standardized statistics do not exactly
conform to the standard normal distribution… so we can
use a different standard distribution to approximate the
sample distribution.
We use the t-distribution to approximate the normal
distribution. T-distribution has a bell shape with a mean
= 0; the sd is slightly different than 1.0, but close.
Student t Distributions for
n = 3 and n = 12
Student t Distribution
If the distribution of a population is essentially
normal, then the distribution of
t =
x-µ
s
n
 is essentially a Student t Distribution for all
samples of size n, and is used to find critical
values denoted by t/2.
Student’s tDistribution:Replacing  with s
Dilemma: we generally don’t know  (pop SD). Using s we
have:
x  
x  
n (x   )
t 


s .d .( x )
s
 / n
If the sample size n is small, this
standardized statistic will not
have a N(0,1) distribution but
rather a t-distribution with n –
1 degrees of freedom (df).
Degrees of Freedom (df )
Corresponds to the number of sample
values that can vary after certain
restrictions have been imposed on all
data values
df = n – 1
Using the Normal and t Dist
 Not Known
Assumptions
1.
2.
The sample is a simple random sample.
Either the sample is from a normally
distributed population, or n > 30.
Use Student t distribution
Important Properties of the Student t Dist
1. The Student t distribution is different for different sample sizes
2. The Student t distribution has the same general symmetric bell
shape as the normal distribution but it reflects the greater
variability (with wider distributions) that is expected with
small samples.
3. The Student t distribution has a mean of t = 0 (just as the
standard normal distribution has a mean of z = 0).
4. The standard deviation of the Student t distribution varies with
the sample size and is greater than 1 (unlike the standard
normal distribution, which has a  = 1).
5. As the sample size n gets larger, the Student t distribution
gets closer to the normal distribution.
Example. Standardized Mean
Weights
Claim: mean weight loss is m = 8 pounds.
x
Sample of n =25 people gave a sample mean weight loss of = 8.32
pounds and a sample standard deviation of s = 4.74 pounds.
Is the sample mean weight loss of 8.32 pounds reasonable to
expect if m = 8 pounds?
t 
x
s
n

8 . 32  8
4 . 74
25
 0 . 34
The sample mean of 8.32 is only about one-third
of a standard error above 8, which is consistent
with a population mean weight loss of 8 pounds.
Menentukan Kenormalan
Sebaran Data


Tidak semua variabel acak memiliki nilai-nilai
data yang menyebar secara normal
Penting sekali mengevaluasi seberapa baik
sekumpulan data. Data yang baik menurut
statistika adalah data yang memiliki sebaran
mendekati normal
Menentukan Kenormalan
Sebaran Data
(continued)

Metode Grafis



Untuk kumpulan data yang sedikit atau sedang ukurannya,
buatlah grafik/diagram batang-dan-daun (stem-and-leaf)
dan diagram pencar box-and-whisker plot, kemudian
perhatikan apakah sebarannya simetris?
Untuk kumpulan data yang ukurannya besar, buatlah
histogram atau polygon; apakah gambarnya berbentuk
seperti lonceng?
Metode Hitungan



Hitung mean, median dan modusnya, apakah nilainya
sama?
Apakah kisaran antar-kuartil nmendekati 1.33?
Apakah kisaran mendekati 6?
Menentukan Kenormalan
Sebaran Data

Mengamati Sebaran Data




(continued)
Apakah 2/3 dari data berada dalam kisaran  1
simpangan baku?
Apakah 4/5 dari data berada antara  1.28
simangan baku?
Apakah kira-kira 19/20 dari data nerada dalam
kisaran  2 simpangan baku?
Mengevaluasi “normal probability plot”

Apakah titik-titik berada dekat dengan garis lurus
dengan slope yang positif?
Menentukan Kenormalan
Sebaran Data

(continued)
Membuat Normal probability plot




Susun data dalam bentuk senarai berjenjang
Tentukan nilai-nilai masing-masing kuantil yang
telah distandardized
Petakan pasangan titik-titik data, dimana data
observasi pada sumbu vertikal dan nilai-nilai
quantile yang distandardized pada sumbu
horizontal
Evaluasi plot yang terbentuk apakah linier?
Menentukan Kenormalan
Sebaran Data
(continued)
Normal Probability Plot Untuk
Sebaran Normal
90
X 60
Z
30
-2 -1 0 1 2
Perhatikan garisnya!
Normal Probability Plot
Condong kekiri
Condong kekanan
90
90
X 60
X 60
Z
30
-2 -1 0 1 2
-2 -1 0 1 2
Segiempat
Berbentu-U
90
90
X 60
X 60
Z
30
-2 -1 0 1 2
Z
30
Z
30
-2 -1 0 1 2
Download