Deskriptiv statistikk - Mål på lokasjon Kapittel 1.3 i læreboken Sentrum og kvantiler STAT110 Hans J. Skaug, University of Bergen Mål på sentrum • Hvis du skal oppsummere et datasett med ett tall, så bruker du sentrumsmål (lokasjon) – Gjennomsnitt (Eng: «average» eller «mean») – Modalverdi (Eng: «mode») – Median STAT110 Hans J. Skaug, University of Bergen Modalverdien 25 • Den verdien som forekommer hyppigst (har høyest frekvens) i datasettet 0 5 10 15 20 Modalverdien er 3 1 2 3 4 5 6 7 8 STAT110 Hans J. Skaug, University of Bergen 9 10 11 Gjennomsnitt • Data (tall): x1 , , xn • 𝑛𝑛 = utvalgsstørrelse (Eng: sample size) • Gjennomsnittet er definert som 1 n 1 x= x= ( x1 + + xn ) ∑ i n i =1 n • Faktum (bevis senere): n 0 ∑( x − x ) = i =1 i • Se på eksempel 1.11 (s. 25 og 26) STAT110 Hans J. Skaug, University of Bergen x Balansevekt • Hver observasjon er en liten «vekt» • Tallinjen selv veier ikke noe • Da er gjennomsnittet lik balansepunktet Kilde: Devore&Berk 2.utg STAT110 Hans J. Skaug, University of Bergen Median x Den «midterste» observasjonen Wingspan data Siden n = 21 er et oddetall finnes det et «midterste» datapunkt Når n er partall Ta gjennomsnitt av «2 midterste» Se figur 1.13 (s 26) og 1.14 (s 28) for å sammenlikne med gjennomsnitt. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 data 60 64 72 63 66 62 75 66 59 75 69 62 63 61 65 67 65 69 95 60 70 STAT110 Hans J. Skaug, University of Bergen sortert 59 60 60 61 62 62 63 63 64 65 65 66 66 67 69 69 70 72 75 75 95 10 minste observasjoner x = 65 10 største observasjoner Gjennomsnitt versus median Kilde: Devore&Berk 2.utg STAT110 Hans J. Skaug, University of Bergen Kvantiler (persentiler, prosentiler) 50% kvantilen = median Vi ønsker ikke alltid den midterste observasjonen 62% kvantilen = den observasjonen som «62% størst» 𝑖𝑖 ≈ 21 × 0.62 ≈13 Kvartiler Q1 = 25% kvantil i ≈ 21*0.25 ≈ 5 Q1 = 62 Q3 = 75% kvantil i ≈ 21*0.75 ≈ 16 Q3 = 69 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 data 60 64 72 63 66 62 75 66 59 75 69 62 63 61 65 67 65 69 95 60 70 STAT110 Hans J. Skaug, University of Bergen sorted 59 60 60 61 62 62 63 63 64 65 65 66 66 67 69 69 70 72 75 75 95 62% 38% Kvartiler: histogram på tetthetskala x Areal = 0.25 Wingspan data 0.04 0.02 0.00 Tetthet 0.06 Q1 = 25% kvantil = 62 Q3 = 75% kvantil = 69 Median = Q2 = 65 60 70 80 STAT110 Hans J. Skaug, University of Bergen 90 Oppgave 1. Bevis at: ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ = 0 𝑛𝑛 𝑛𝑛 𝑖𝑖=1 𝑖𝑖=1 � 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ = � 𝑥𝑥𝑖𝑖 − 𝑛𝑛𝑥𝑥̅ = 𝑛𝑛𝑥𝑥̅ − 𝑛𝑛𝑥𝑥̅ = 0 STAT110 Hans J. Skaug, University of Bergen Oppgave 39 s. 32 i 2. utgave av læreboken Hvis vi skifter temperaturskala fra Celcius (x) til Kelvin (y) setter vi 𝑐𝑐 = 273.15 Middelverdi 𝑛𝑛 𝑛𝑛 𝑛𝑛 𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖=1 𝑦𝑦� = 𝑛𝑛−1 � 𝑦𝑦𝑖𝑖 = 𝑛𝑛−1 � 𝑥𝑥𝑖𝑖 + 𝑐𝑐 = 𝑛𝑛−1 � 𝑥𝑥𝑖𝑖 + 𝑛𝑛−1 𝑛𝑛𝑛𝑛 = 𝑥𝑥̅ + 𝑐𝑐 Median Hvis 𝑛𝑛 er et oddetall, og medianen er 𝑥𝑥𝑘𝑘 så vil 𝑦𝑦𝑘𝑘 være medianen til 𝑦𝑦’ene ⇒ 𝑦𝑦� = 𝑥𝑥� + 𝑐𝑐 Hvis vi skifter lengdeskala fra km (x) til meter (y) setter vi 𝑐𝑐 = 1000 Middelverdi 𝑦𝑦� = 𝑛𝑛−1 ∑𝑛𝑛𝑖𝑖=1 𝑐𝑐𝑥𝑥𝑖𝑖 = 𝑐𝑐𝑐𝑐−1 ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 = 𝑐𝑐𝑥𝑥̅ Median Hvis 𝑛𝑛 er et oddetall, og medianen er 𝑥𝑥𝑘𝑘 så vil 𝑦𝑦𝑘𝑘 være medianen til 𝑦𝑦’ene ⇒ 𝑦𝑦� = 𝑐𝑐𝑥𝑥� STAT110 Hans J. Skaug, University of Bergen Oppsummering • Mål på sentrum – Modalverdi, gjennomsnitt, median – Er en «typisk» observasjon – Er en oppsummering av data med ett tall • Kvantiler (prosentiler) – Lar deg svare på spørsmålet: hvor rik er den 99% rikeste i Norge STAT110 Hans J. Skaug, University of Bergen