Uploaded by Mohamad Najib Idris

3c6f17494d090242e2c631f0ce0dd146204cb4c9

advertisement
Deskriptiv statistikk
- Mål på lokasjon
Kapittel 1.3 i læreboken
Sentrum og kvantiler
STAT110 Hans J. Skaug, University of Bergen
Mål på sentrum
• Hvis du skal oppsummere et datasett med ett
tall, så bruker du sentrumsmål (lokasjon)
– Gjennomsnitt (Eng: «average» eller «mean»)
– Modalverdi (Eng: «mode»)
– Median
STAT110 Hans J. Skaug, University of Bergen
Modalverdien
25
• Den verdien som forekommer hyppigst (har
høyest frekvens) i datasettet
0
5
10
15
20
Modalverdien er 3
1
2
3
4
5
6
7
8
STAT110 Hans J. Skaug, University of Bergen
9
10
11
Gjennomsnitt
• Data (tall): x1 , , xn
• 𝑛𝑛 = utvalgsstørrelse (Eng: sample size)
• Gjennomsnittet er definert som
1 n
1
x=
x=
( x1 +  + xn )
∑
i
n i =1
n
• Faktum (bevis senere):
n
0
∑( x − x ) =
i =1
i
• Se på eksempel 1.11 (s. 25 og 26)
STAT110 Hans J. Skaug, University of Bergen
x
Balansevekt
• Hver observasjon er en liten «vekt»
• Tallinjen selv veier ikke noe
• Da er gjennomsnittet lik balansepunktet
Kilde: Devore&Berk 2.utg
STAT110 Hans J. Skaug, University of Bergen
Median x
Den «midterste»
observasjonen
Wingspan data
Siden n = 21 er et
oddetall finnes det et
«midterste» datapunkt
Når n er partall
Ta gjennomsnitt av
«2 midterste»
Se figur 1.13 (s 26) og
1.14 (s 28) for å
sammenlikne med
gjennomsnitt.
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
data
60
64
72
63
66
62
75
66
59
75
69
62
63
61
65
67
65
69
95
60
70
STAT110 Hans J. Skaug, University of Bergen
sortert
59
60
60
61
62
62
63
63
64
65
65
66
66
67
69
69
70
72
75
75
95
10 minste
observasjoner
x = 65
10 største
observasjoner
Gjennomsnitt versus median
Kilde: Devore&Berk 2.utg
STAT110 Hans J. Skaug, University of Bergen
Kvantiler (persentiler, prosentiler)
50% kvantilen = median
Vi ønsker ikke alltid den
midterste observasjonen
62% kvantilen = den
observasjonen som «62%
størst»
𝑖𝑖 ≈ 21 × 0.62 ≈13
Kvartiler
Q1 = 25% kvantil
i ≈ 21*0.25 ≈ 5
Q1 = 62
Q3 = 75% kvantil
i ≈ 21*0.75 ≈ 16
Q3 = 69
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
data
60
64
72
63
66
62
75
66
59
75
69
62
63
61
65
67
65
69
95
60
70
STAT110 Hans J. Skaug, University of Bergen
sorted
59
60
60
61
62
62
63
63
64
65
65
66
66
67
69
69
70
72
75
75
95
62%
38%
Kvartiler: histogram på tetthetskala
x
Areal = 0.25
Wingspan data
0.04
0.02
0.00
Tetthet
0.06
Q1 = 25% kvantil = 62
Q3 = 75% kvantil = 69
Median = Q2 = 65
60
70
80
STAT110 Hans J. Skaug, University of Bergen
90
Oppgave
1. Bevis at: ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ = 0
𝑛𝑛
𝑛𝑛
𝑖𝑖=1
𝑖𝑖=1
� 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ = � 𝑥𝑥𝑖𝑖 − 𝑛𝑛𝑥𝑥̅ = 𝑛𝑛𝑥𝑥̅ − 𝑛𝑛𝑥𝑥̅ = 0
STAT110 Hans J. Skaug, University of Bergen
Oppgave 39 s. 32 i 2. utgave av læreboken
Hvis vi skifter temperaturskala
fra Celcius (x) til Kelvin (y) setter
vi 𝑐𝑐 = 273.15
Middelverdi
𝑛𝑛
𝑛𝑛
𝑛𝑛
𝑖𝑖=1
𝑖𝑖=1
𝑖𝑖=1
𝑦𝑦� = 𝑛𝑛−1 � 𝑦𝑦𝑖𝑖 = 𝑛𝑛−1 � 𝑥𝑥𝑖𝑖 + 𝑐𝑐 = 𝑛𝑛−1 � 𝑥𝑥𝑖𝑖 + 𝑛𝑛−1 𝑛𝑛𝑛𝑛 = 𝑥𝑥̅ + 𝑐𝑐
Median
Hvis 𝑛𝑛 er et oddetall, og medianen er 𝑥𝑥𝑘𝑘 så vil 𝑦𝑦𝑘𝑘 være medianen til 𝑦𝑦’ene
⇒ 𝑦𝑦� = 𝑥𝑥� + 𝑐𝑐
Hvis vi skifter lengdeskala fra
km (x) til meter (y) setter vi
𝑐𝑐 = 1000
Middelverdi 𝑦𝑦� = 𝑛𝑛−1 ∑𝑛𝑛𝑖𝑖=1 𝑐𝑐𝑥𝑥𝑖𝑖 = 𝑐𝑐𝑐𝑐−1 ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 = 𝑐𝑐𝑥𝑥̅
Median
Hvis 𝑛𝑛 er et oddetall, og medianen er 𝑥𝑥𝑘𝑘 så vil 𝑦𝑦𝑘𝑘 være medianen til 𝑦𝑦’ene
⇒ 𝑦𝑦� = 𝑐𝑐𝑥𝑥�
STAT110 Hans J. Skaug, University of Bergen
Oppsummering
• Mål på sentrum
– Modalverdi, gjennomsnitt, median
– Er en «typisk» observasjon
– Er en oppsummering av data med ett tall
• Kvantiler (prosentiler)
– Lar deg svare på spørsmålet: hvor rik er den 99%
rikeste i Norge
STAT110 Hans J. Skaug, University of Bergen
Download