Nonparametric Statistics

advertisement
Nonparametric Statistics
บทนำ
• ในบทนี ้เรากล่าวถึงเทคนิคทางสถิติเมื่อข้ อมูลเป็ นแบบจัดอันดับ
(Rank Data) ซึง่ ข้ อมูลเช่นนี ้ไม่สามารถให้ คา่ เฉลี่ย (Mean)
เป็ นตัวแทนข้ อมูลได้ ดังนันกรณี
้
ที่ลกั ษณะของกลุม่ ประชากรที่ไม่มี
Parameter (Non parametric) โดยทดสอบว่ากลุม่
ประชากร 2 กลุม่ อยูใ่ นตาแหน่งที่แตกต่างกันหรื อไม่ เพื่อแทนที่การ
ทดสอบว่าค่าเฉลี่ยของกลุม่ ประชากรทังสองกลุ
้
ม่ แตกต่างกันหรื อไม่
• วิธี Nonparametric สามารถใช้ แทนวิธี parametric ใน
ข้ อมูลเชิงปริมาณก็ได้ กรณีที่ประชากรมีการกระจายแบบไม่ปกติ
• In nonparametric tests we hypothesize on
the population locations (not necessarily
their means).
Two populations - same location
Two populations - different locations
กำรตั้งสมมติฐำน
H0 : ประชากรทังสองกลุ
้
ม่ อยูใ่ นพื ้นที่เดียวกัน
H1 : พื ้นที่ประชากรกลุม่ ที่ 1 แตกต่างจากประชากรกลุม่ ที่ 2
H1 : พื ้นที่ประชากรกลุม่ ที่ 1 อยูท่ างขวาของประชากรกลุม่ ที่ 2
H1: พื ้นที่ประชากรกลุม่ ที่ 1 อยูท่ างซ้ ายของประชากรกลุม่ ที่ 2
16.2 Wilcoxon Rank Sum Test for
Independent Samples
• คุณลักษณะของปั ญหาจะเกี่ยวข้ องกับสิ่งต่างๆต่อไปนี ้
– วัตถุประสงค์ของปั ญหาใช้ เพื่อการเปรี ยบเทียบประชากรสอง
กลุม่
– เป็ นข้ อมูลแบบจัดอันดับ หรื อข้ อมูลเชิงปริมาณที่มีการกระจาย
แบบไม่ปกติ
– กลุม่ ตัวอย่างเป็ นอิสระต่อกัน
• ตัวอย่ำงที่ 1
– จากตัวอย่างที่แสดงข้ างล่าง ที่ระดับนัยสาคัญ 5% กลุม่ ประชากรกลุม่ ที่ 1 จะ
อยูท่ างซ้ ายของกลุม่ ประชากรกลุม่ ที่ 2 ใช่หรื อไม่
– Sample 1: 22, 23, 20;
– สมมติฐานคือ:
Sample 2: 18, 27, 26;
H0: The two population locations are the same.
H1: The location of population 1 is to the left of the
location of population 2.
วิธีกำรทดสอบ
Sample1
Rank
Sample2
Rank
22
23
20
T1 =
3
4
2
9
18
27
26
T2 =
1
6
5
12
ขันที
้ ่1 จัดอันอับตัวเลขทังหก
้ เลขที่มีคา่ น้ อยที่สดุ ให้ เป็ นอันดับหนึง่ มากที่สดุ ให้ เป็ น
อันดับสุดท้ าย
กรณีที่ตวั เลขซ ้ากันให้ จดั อันดับโดยใช้ วิธีคา่ เฉลี่ย เช่น 18,20,20,25 อันดับคือ
1, 2.5, 2.5, 4 ตามลาดับ
• ขันที
้ ่ 2 คานวณผลรวมของอันดับในแต่ละตัวอย่าง ในกลุม่ ที่ 1 (T1)
ผลรวมเท่ากับ 9 และกลุม่ ที่ 2(T2) ผลรวมเท่ากับ 12 (ทังนี
้ ้ผลรวม
ในทังสองกลุ
้
ม่ ต้ องเท่ากับค่าผลรวมของอันดับทังหก
้ T1+T2=21)
• สรุปกลุม่ ที่ 1 มีผลรวมน้ อยกว่ากลุม่ ที่ 2 แต่ที่ระดับนัยสาคัญ 0.05
ไม่อาจสรุปได้ วา่ กลุม่ ที่ 1 น้ อยกว่ากลุม่ ที่ 2
• ที่เป็ นเช่นนี ้เพราะค่าความน่าจะเป็ นที่ T1< 9 เท่ากับ 7/20 (0.35
หรื อ 35%) ขณะที่ P(T< 6) = 0.05 ดังนันถ้
้ าสมมติฐานเบื ้องต้ น
ถูกตังไว้
้ ที่นยั สาคัญ 5%
– If the two populations have the same location (the
null hypothesis is true), the value of the statistic T
should not be too small.
– If the T value is small, the null hypothesis should
be rejected in favor of the alternative hypothesis.
– Since P(T<6) = .05, and T = 9, there is insufficient
evidence to argue that population 1 is located to
the left of population 2, at 5% significance level.
The distribution of T
These are the possible ranks allocated to
the observations of one sample of size 3,
when two samples of size 3 are drawn.
.15
.10
.05
2,3,4 2,3,5 2,4,5 3,4,5
1,3,4 1,3,5 1,4,5 2,3,6 2,4,6 3,4,6
1,2,3 1,2,4 1,2,5 1,2,6 1,3,6 1,4,6 1,5,6 2,5,6 3,5,6 4,5,6
6
7
8
9
10
11
12
13
14
15
T
P(T <= 6) = .05
T is the rank sum of a sample of size 3.
• Wilcoxon rank sum test for sample sizes > 10
– The test statistic is approximately normally distributed
with the following parameters:
n1(n1 + n2 + 1)
E(T) =
2
T 
n1n2 (n1  n2  1)
12
Therefore,
Z=
T - E(T)
T
• Example 2
(using Wilcoxon rank sum test with ranked data)
– บริษัทยาแห่งหนึง่ มีแผนที่จะนาเสนอยาแก้ ปวดตัวใหม่ (Pain killer)
– เพื่อทดสอบประสิทธิผลของยาดังกล่าว บริษัทผู้ผลิตจึงได้ ทดลองสุม่ เลือก
กลุม่ คนที่มีอาการปวดมาจานวน 30 คน โดยกาหนดให้
• มี 15 คนรับยาชนิดใหม่นี ้
• อีก 15 คนให้ รับยา aspirin
– ผู้เข้ าร่วมการทดสอบแต่ละคนจะต้ องระบุวา่ วลีตวั เลือกใดเป็ นตัวแทนของ
ประสิทธิผลของยาแต่ละตัวได้ ดีที่สดุ
– ข้ อสรุปที่แสดงผลลัพธ์ของการทดลองด้ วยยาทังสอง
้
The drug taken was… Painkiller Aspirin
extremely effective (5)
5
1
quite effective (4)
3
5
somewhat effective (3)
4
3
slightly effective (2)
1
4
not at all effective (1)
1
2
• Solution
– วัตถุประสงค์เพื่อเปรี ยบเทียบประชากรสองกลุม่ ที่มีข้อมูลแบบ
เรี ยงลาดับ
– ตัวอย่างทังสองเป็
้
นอิสระต่อกัน
– ลักษณะนี ้เหมาะที่จะใช้ Wilcoxon rank sum test
– The hypotheses
H0: ขอบเขตพื ้นที่ของกลุม่ ประชากร 1 และ 2 เหมือนกัน
H1: ขอบเขตพื ้นที่ของกลุม่ ที่ 1 อยู่ทางขวามือของกลุม่ ที่ 2
– Solving by hand
• To reject the null hypothesis, we need to show that
z is “large enough”.
• First we rank the observations, then we run a z-test,
with rejection region of Z > Za.
– Ranking the raw data
ตัวเลขที่ได้ หมายถึงค่าระดับความพึงพอใจในประสิทธิผล
ของยา ซึง่ เป็ นช้ อมูลที่ได้ จากการการทดสอบผลการใช้ ยา
จากกลุม่ ตัวอย่างแต่ละคน
Painkiller Rank
Aspirin
1
2
1
2
6
1
3
12
2
3
12
2
3
12
2
3
12
2
To standardize the test statistic
we
need:
4
19.5
3
E(T) = n1(n1+n2+1)/2= (15)(31)/2=232.5
4
19.5
3
4
19.5
3
5
27
4
n1n2 (n1  n2 51)
4
T 
 2427
.1
12
5
27
4
5
27
4
5
27
4
ที่ระดับค่านัยสาคัญ
Sum of ranks: T =276.5 T =188.5
0.05( 5% ) z=1.645.
ดังนันจึ
้ งมีหลักฐานเพียงพอต่อ
การปฏิเสธสมมติฐานหลักและ
เลือกสมมติฐานทางเลือก
1
z
T  E(T)
 1.83
T
Rank
2
2
6
6
6
6
12
12
12
19.5
19.5
19.5
19.5
19.5
2
มีข้อมูลจานวน 3 ตัวที่มีค่าเท่ากับ
1 ดังนันอั
้ นดับของทังสามซึ
้
ง่ ควรจะ
เป็ นอันดับ 1,2,3แต่เมื่อมีค่า
เท่ากันจึงต้ องหาค่าเฉลี่ย จึงมีค่า
เท่ากับ 2 (rank =2)
ที่ 5% significance
level,
ยาชนิดใหม่จึงมี
ประสิทธิภาพดีกว่ายา
แอสไพริน
P-value< 0.05 ปฏิเสธสมมติฐำน H0
• Example 3
(Using Wilcoxon rank sum test with quantitative data)
– ผู้จดั การฝ่ ายบุคคลของบริษัทแห่งหนึง่ ต้ องการเปรี ยบเทียบระยะเวลา
การทางาน (ก่อนที่จะลาออก) ของพนักงานที่จบการศึกษาด้ าน
บริหารธุรกิจ กับที่ไม่จบบริหารธุรกิจ
– ตัวอย่างที่ทาการจัดเก็บแบ่งเป็ นสองกลุม่ กลุม่ ที่หนึ่งเป็ นพนักงานที่จบ
บริหารธุรกิจ 25 คน และกลุม่ ที่สองคือจบสาขาอื่นๆอีก 20 คน
– ข้ อมูลคือเวลาที่อยูก่ บั บริษัทถูกจดบันทึกไว้ ใน XM16-03
Business Non-Bus
60
25
11
60
18
22
19
24
5
23
25
36
.
.
.
.
.
.
ที่นยั สาคัญ 0.05 จะสรุปได้ หรื อไม่วา่ มีความแตกต่างด้ านเวลา
การทางานระหว่างพนักงานที่จบบริ หารฯกับพนักงานที่จบใน
สาขาอื่นๆ
• Solution
– The problem objective is to compare two
populations of quantitative data.
– The samples are independent.
– Checking the population samples, we can
observe the nonnormality of the variables
Non Business graduates
Business graduates
14
10
12
10
8
6
4
2
0
8
6
4
2
0
15
25
35
45
55
65
More
5
20
35
50
65
More
1
2
3
ผลลัพธ์
• P-value = 0.0105 < 0.05
• ปฏิเสธ Null hypothesis
• ดังนันพนั
้ กงานที่จบบริ หารฯ กับจบจากคณะอื่นมีผลต่อ
ระยะเวลาการทางานในองค์กรนี ้ อย่างไรก็ดีผลลัพธ์ที่ได้
ไม่อาจบ่งบอกข้ อสรุปว่าเป็ นเพราะเหตุใด
• 2.1 The Sign Test
– This test is employed in the following situations.
• The problem objective is to compare two populations.
• The data are ranked.
• The experimental design is matched pairs.
– Test statistic.
• We record the sign of all the matched-pair-differences.
• The number of positive signs is the test statistic.
• The number of positive signs is binomially distributed.
2. Sign Test and Wilcoxon Signed Rank
Sum Test for Matched Pairs
• เทคนิคที่นาเสนอไปก่อนหน้ าคือการเปรี ยบเทียบระหว่างกลุม่ ประชากร
สองกลุม่ ที่เป็ นอิสระต่อกัน สาหรับเครื่ องมือที่จะนาเสนอต่อไปนี ้จะเป็ น
การทดสอบสมมติฐานเปรี ยบเทียบระหว่างกลุม่ ประชากรสองกลุม่ ไม่
เป็ นอิสระต่อกัน โดยจะมีคณ
ุ ลักษณะดังนี ้
– มีวตั ถุประสงค์เพื่อเปรี ยบเทียบกลุม่ ประชากรสองกลุม่
– ข้ อมูลต้ องเป็ นแบบ Rank หรื อ เป็ นข้ อมูลเชิงปริมาณที่มีการกระจายแบบ
ไม่ปกติเท่านัน้
– ตัวอย่างจะมีความเกี่ยวข้ องกันระหว่างกลุม่ ประชากรสองกลุม่ ในลักษณะของ
การจับคูก่ นั (Matched Pairs)
Example 4
– ในการทดสอบว่าระหว่างรถยนต์ยโุ รป กับรถอเมริกา แบบไหนสะดวกสบาย
มากกว่ากัน โดยใช้ ผ้ ทู ดสอบจานวน 25 คนมาทดสอบรถที่ผลิตจากทังสอง
้
ทวีป
– ภายหลังการทดสอบแต่ละคนต้ องให้ คะแนนเป็ นระดับความพึงพอใจในรถทัง้
สองรุ่นที่ตนได้ ทดสอบ โดยมีระดับความพึงพอใจตังแต่
้ 1 (ride is very
uncomfortable) ถึง 5 (ride is very comfortable).
– Notice: The data are ranked.
– สิ่งที่ผ้ ทู ดสอบอยากทราบคือ รถยุโรปสะดวกสบายกว่ารถอเมริกา จริงหรื อไม่
– XM16-04
The results were:
Solution
Respondent European American Difference
-1
1
4
5
1
2
2
1
1
3
5
4
1
4
3
2
14
1
5
2
1
12
2
6
5
3
10
8
-2
7
1
3
6
4
2
8
4
2
2
2
9
4
2
0
-2
0
2 2 More
0
10-1
21
1
11
3
2
1
12
4
3
Normal?
Not all the data
are shown.
Do these data allow us to conclude at 5%
significance level that the European car is
perceived to be more comfortable?
The hypotheses are:
H0: The two population locations
are the same.
H1: The European cars population
is located to the right of the
American car population
There were 18 positives,
5 negatives, and 2 zeros.
X = 18, n = 23.
Z = [x-np]/[np(1-p)].5
= [18-.5(23)]/[.5[23}.5]
=2.71
The rejection region is z > za
With a = .05 z.05 = 1.645.
Conclusion: Reject the null hypothesis.
There is sufficient evidence to infer that
the European car is perceived as more
comfortable than the American car.
Using the computer: Tools > Data Analysis Plus > Sign Test
Sign Test
A
B
4
2
5
3
2
5
1
4
4
2
3
.
.
5
1
4
2
1
3
3
2
2
2
2
.
.
A-B
-1
1
1
1
1
2
-2
2
2
Positive Differences = 18
Negative Differences = 5
Zero Differences = 2
P-Value = 0.0053
สรุ ป จากการทดสอบความพึงพอใจของผู้ขับพบว่ า รถยุโรป
สะดวกสบายกว่ ารถอเมริกาจริง
2.2 Wilcoxon Signed Rank Sum Test for Matched Pairs
• เทคนิคนี ้จะถูกใช้ เมื่อ
– วัตถุประสงค์เพื่อเปรี ยบเทียบกลุม่ ประชากรสองกลุม่
– ข้ อมูลเป็ นข้ อมูลเชิงปริ มาณที่มีการกระจายแบบไม่ปกติ
– ตัวอย่างเป็ นแบบ matched pairs.
• The test statistic
– Build a T statistic based on the sum of differences
between paired observations.
• When n <=30, reject H0 if T>TU or T<TL.
• When n > 30, T is approximately normally distributed.
Use a Z-test.
• Example 5
– เพื่อทดลองแก้ ปัญหาลดเวลาการเดินทางมาทางานของพนักงาน บริ ษัทได้
ทดลองใช้ นโยบาย flextime โดยให้ พนักงานเลือกเวลามาทางานได้ เอง
(หลีกเลี่ยงช่วงเวลาลดติด) การทดสอบได้ เลือกทดลองใช้ นโยบายนี ้ในวันพุธ
โดยให้ พนักงานจานวน 32 คนเดินทางมาทางานตามเวลาเข้ างานปกติ
เปรี ยบเทียบกับเวลาเข้ างานที่แต่ละคนได้ เลือกเองตามนโยบาย flextime
– ทาการจดบันทึกเวลาที่ใช้ ในการเดินทางในแต่ละแบบ เพื่อทดสอบว่า
ระยะเวลาที่ใช้ ในแต่ละแบบเหมือนหรื อแตกต่างกัน
– The hypotheses test are
• The two population locations are the same.
• The two population locations are different.
The rejection region:
|z| > za/2
ผลลัพธ์
Number of Nonzero Differences = 32
T+ = 367.5
T- = 160.5
Large Sample
Approximation
Test Statistic Z = 1.935
P-Value = .0529
P-value > 0.05
ยอมรับสมมติฐานที่วา่ ทังสองวิ
้
ธีใช้ เวลาเดินทางมาทางานเท่ากัน
16.4 Kruskal-Wallis Test
• คุณลักษณะของปั ญหาที่เหมาะกับเครื่ องมือนี ้คือ
– เพื่อเปรี ยบเทียบกลุม่ ประชากรตังแต่
้ สองกลุม่ หรื อมากกว่า
– เป็ นข้ อมูลแบบเรี ยงลาดับหรื อข้ อมูลเชิงปริ มาณทีม่ ีการกระจายไม่ปกติ
– ข้ อมูลแต่ละกลุม่ เป็ นอิสระต่อกัน
• The hypotheses are
– The location of all the k populations are the same.
– At least two population locations differ.
• Example 6 The Kruskal-Wallis test
– ผู้จดั การร้ านอาหารฟาสต์ฟดแห่
ู๊ งหนึง่ มีการทาแบบสอบถามเพื่อการประเมิน
ความพึงพอใจในหัวข้ อต่างๆ หนึง่ ในนันคื
้ อเรื่ องความรวดเร็วในการให้ บริ การ
ทังนี
้ ้ผู้จดั การอยากทราบว่าในทังสามกะ
้
(เปิ ด 24 hr) ความพึงพอใจด้ านความ
รวดเร็วของการให้ บริ การที่ลกู ค้ าประเมินเหมือนหรื อต่างกันหรื อไม่ ผู้จดั การจึงสุม่
เอาผลจากแบบสอบถามที่ให้ ลกู ค้ าตอบจากแต่ละกะมาอย่างละ 10 ชุด และ
หยิบเอาผลคะแนนทีไ่ ด้ จากความพึงพอใจด้ านความรวดเร็วมาเปรี ยบเทียบ
(ระดับคะแนนคือ 4,3,2,1 ตามลาดับ)
XM16-06
เราสามารถสรุปได้ หรื อไม่วา่ ไม่มีความแตกต่าง
ของระดับความพึงพอใจต่อประเด็นความรวด
เร็วของการให้ บริการในทังสามกะ
้
at 5% significance level?
4:00-mid
4
4
3
4
3
3
3
3
2
3
Mid-8:00
3
4
2
2
3
4
3
3
2
3
8:00-4:00
3
1
3
2
1
3
4
2
4
1
Result: P-value = 0.2665 >0.05
แสดงว่าไม่มีหลักฐานเพียงพอที่จะระบุถึงความ
แตกต่างของความพึงพอใจในด้ านความรวดเร็วของ
การให้ บริ การในทังสามกะ
้
แบบฝึ กหัด 1
• Certain drugs differ in their side effects depending on
the gender of the patient. In a study to determine
whether men or women suffer more serious side
effects when taking a powerful penicillin substitute, 50
men and 50 women were given the drug. Each was
asked to evaluate the level of stomach upset on a 4point scale, where 4= extremely upset, 3= somewhat
upset, 2= not too upset, 1= not upset at all. The results
are stored in file XR16-09 with column 1= female’s
evaluation and column2= male’s eveluation.Can we
conclude at the 5% sig. level that men and women
experience different levels of stomach upset from the
drug?
แบบฝึ กหัด2 XR16-22
• ในภาวะขาดแคลนพลังงานหน่วยงานภาครัฐพยายามหาวิธีการเพื่อให้ ผ้ บู ริโภค
ตระหนักในปั ญหานี ้ด้ วยการออกแคมเปญการประชาสัมพันธ์ออกมา ทังนี
้ ้เพื่อให้ การ
ประชาสัมพันธ์มีประสิทธิภาพ ภาครัฐฯได้ จดั ทาแบบสารวจขึ ้นมาเพือ่ สอบถามว่า
โดยทัว่ ไปประชาชนกังวลกับปั ญหาการขาดแคลนน ้ามันหรื อขาดแคลนไฟฟ้า
มากกว่ากัน โดยจัดทาแบบสอบถาม 4 ทางเลือกคือ 1= ไม่กงั วล, 2= กังวล
เล็กน้ อย, 3= ค่อนข้ างกังวล, 4= กังวลมาก โดยสอบถามตัวอย่าง 150 คนเพื่อให้
ใส่ระดับความกังวลในปั ญหาขาดแคลนน ้ามันกับปั ญหาขาดแคลนไฟฟ้า โดย
กาหนดให้ column1= ผู้ตอบ column2= กังวลในปั ญหาการขาดแคลน
น ้ามัน column3= กังวลการขาดไฟฟ้า
• ที่นยั สาคัญ 5% สามารถสรุปได้ หรื อไม่วา่ ผู้ตอบกังวลเรื่ องขาดแคลนน ้ามันมากกว่า
ขาดแคลนไฟฟ้า
แบบฝึ กหัด 3 XR16-25
• นักการตลาดต้ องการทดสอบว่า ตราสินค้ ามีผลต่อความรู้สกึ ในรสชาติของ
ไอศครี มหรื อไม่? เขาทดลองนาเอาไอศกรี มชนิดเดียวกันมาใส่ในถ้ วย
ไอศกรี ม 2 ถ้ วย ถ้ วยแรกระบุวา่ เป็ นไอศกรี มชื่อดังจากยุโรป ที่มีกรรมวิธีการ
ผลิตอันซับซ้ อน ส่วนถ้ วยสองระบุวา่ เป็ นไอศกรี มป่ าตัน ราคาถูก จากนันสุ
้ ม่
เลือกนักชิมมาทดลอง กาหนดให้ ระดับคะแนนที่ให้ นกั ชิม60 คนระบุเป็ น
10 ขัน้ (1-10) (poor  excellent)
• (Column1= respondent, Column2= ติมยุโรป,
Column3= ติมป่ าตัน
• ที่ 10% sig. ผู้ชิมชอบไอศครี มยุโรปมากกว่าไอศครี มป่ าตันจริ งหรื อไม่
แบบฝึ กหัดที่ 4 (XR16-36)
อาจารย์สถิติทา่ นหนึง่ พยายามค้ นหาความแตกต่างของผลลัพธ์ในวิธีการสอนวิชา
สถิติ3 แบบให้ กบั นักศึกษา CAMT ต่าง sectionกัน โดยวิธีที่1 : lecture วิธี
ที่2: Case method วิธีที่3 : Computer software
เมื่อถึงปลายภาคได้ ทาแบบประเมินผลให้ นกั ศึกษาตอบ โดยเป็ นแบบสอบถาม 7
อันดับ (1-7) (Poor Excellent) แล้ วสุม่ เลือกมา section ละ 25 คน
(section 1,2,3 = column1,2,3)
จากข้ อมูลสามารถสรุปได้ หรื อไม่วา่ นักศึกษามีความพอใจในวิธีการสอนอย่างน้ อย 2
วิธีแตกต่างกัน (at 5% sig)
Download