Uploaded by Peter Szwajka

forelasningsanteckningarstatistik

advertisement
lOMoARcPSD|9771091
Föreläsningsanteckningar
Statistik A1 (Umeå Universitet)
StuDocu is not sponsored or endorsed by any college or university
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
1
Statistik
föreläsningsanteckningar
Innehåll
Introduktion............................................................................................................................................3
Föreläsning 1 & 2 Introduktion till statistisk terminologi i samband med: Arbetsgången i en statistisk
undersökning Deskription och Visualisering..........................................................................................4
Föreläsning 2 Visualisering och deskription...........................................................................................7
Föreläsning 3 Normalfördelning.............................................................................................................8
Föreläsning 4 Samplingsfördelningen, Centrala gränsvärdessatsen och konfidensintervall.................10
Konfidensintervall för µ (skatta ett värde på µ)............................................................................10
Moment 2.............................................................................................................................................13
Föreläsning 5 Inferensteori / Hypotestest av µ då σ är känd och okänd................................................14
Centrala Begrepp:.............................................................................................................................15
Exempel........................................................................................................................................16
Föreläsning 6 Konfidensintervall och hypotestest av skillnaden mellan två populationsmedelvärden. 17
Repetition.............................................................................................................................................17
Matched paired t-test........................................................................................................................19
Föreläsning 7 Konfidensintervall och hypotestest för populationsproportion samt hypotestest av
skillnaden mellan två populationsproportioner.....................................................................................20
Föreläsning 8 – Chi2 test......................................................................................................................23
Introduktion – moment 3......................................................................................................................24
Föreläsning 9 – Korrelation och enkel linjär regression.......................................................................25
Exempel: Prediktera koldioxidutsläpp:.............................................................................................25
Föreläsning 10 – Mer om enkel linjär regression..................................................................................28
Föreläsning 11 – Multipel linjär regression..........................................................................................31
Föreläsning 12 Polynomregression + inkludering av kvalitativa variabler i modellen.........................34
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
2
Studieguide moment 1: https://docs.google.com/document/d/1-sJA6Bk1YXQWztDtLnre31cJHxXU6js4ANphyao5ks/edit
Studieguide moment 3:
https://docs.google.com/document/d/1Nvf4v4PIhltakYeTB3uNqu43PEoIbVwJTA8g4gxYVbk/edit
X Enskild observation i population
x Enskild observation i stickprov
µ my Medelvärde i population
x (eller m) x bar Medelvärde i stickprov
σ sigma Standardavvikelse i population
s (eller sd) Standardavvikelse i stickprov
N Antalet observationer i population
n Antalet observationer i stickprov
α alfa Signifikansnivå (högsta accepterade risk för typ 1-fel).
β beta Risk för typ 2-fel
p Risk för typ 1-fel
df Frihetsgrader
ρ rå Korrelation i population
r Korrelation i stickprov
µσ
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
3
Introduktion
4 olika moment
Moment 1, Statistikens grunder 1 (7hp)
Moment 2, Inlämningsuppgift i statistikens grunder 1 (2,5hp)
Moment 3, Statistikens grunder 2 (4hp)
Moment 4, Inlämningsuppgift i statistikens grunder 2 (1,5hp)
Statistik beskriver verkligheten i siffror, t ex i form av tabeller. Med statistik menas också vetenskapen
om metoderna som används för att samla in, bearbeta, analysera och redovisa data.
Beskrivande statistik – diagram/tabeller och sammanfattande mått (lägesmått och spridningsmått)
Analytisk statistik – skattningsproblem (konfidensintervall/felmarginal) och prövningsproblem
(hypotesprövning)
Stickprov – Dra slutsatser från data om hela populationen utifrån ett stickprov.
Fokus i kursen ligger på…
..Förståelse av viktiga statistiska begrepp
..Tillämpning av statistik programvara
..Tolkning av resultat framtagna med statistisk programvara
Vad finns som stöd?
- Kurslitteratur
- Studieguide
- Läsanvisningar
- Rekommenderade uppgifter (inkl gamla tentor + lösningar)
- Föreläsningar
- Filmer
- Lektioner (11st på moment 1)
- Bedömning av examinationsuppgifter
- Verkstäder
- Räknestugor, handledning
För G krävs 60% av totalpoäng, för VG 80%.
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
4
Föreläsning 1 & 2 Introduktion till statistisk terminologi i
samband med: Arbetsgången i
en statistisk undersökning
Deskription och Visualisering
Forskningsprocessen 
En statistisk undersöknings olika steg:
- Problemformulering
- Formulera ett problem/problemområde
- Arbetet styrs sedan av ett syfte och frågeställningar
- Studiedesign
Variabler:
- En variabel är en egenskap som varierar mellan individer
-Våra observationer är således observationer på en eller flera variabler  Kvalitativa variabler
(mäter kön, ögonfärg, beskrivande) eller Kvantitativa variabler (en siffra man kan räkna på)
Responsvariabel – Kallas den variabel som man är intresserad av att förklara
Förklaringsvariabler – Används för att förklara en förändring i responsvariabeln
Hur mäter man livskvalitet, stress, nöjdhet, intelligens och smärta?
”Operationalisering innebär att man försöker översätta eller operationalisera det abstrakta och
egentligen omätbara begreppet till något konkret och mätbart. Med ett antal frågor försöker man fånga
in det man anser vara centralt för det begrepp man mäter.”
Population: Populationen är en samling av enheter som du vill dra slutsatser om.
Ram: Ramen är förteckningen över enheterna som ingår i populationen. Det är från denna lista som
man gör sitt urval.
Urval: Urval (stickprov) är en delmängd av populationen. Urvalet görs utifrån ramen.
Mätmetod/Mätinstrument:
Mätmetoden anger på vilket sätt man ska samla in data. Det kan t ex vara via
- Enkät
- Telefonintervju
- Experiment
- Register
Mätinstrumentet kan tex vara blanketten som enkätfrågorna står på.
Analys och publicering
Här sammanställs resultaten i tabeller och diagram vilka kommenteras i text.
Resultaten analyseras och slutsatser dras.
- Datainsamling
- Analys/bearbetning
- Rapportering
Sannolikhetsurval / slumpmässiga urval
Urval som använder slumpen som urvalsmekanism kallas för ett sannolikhetsurval
Exempel på det är ”Obundet slumpmässigt urval” och ”Stratifierat urval”
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
5
Slumpmässiga urval
Fördelar:
Möjliggör att vi kan dra slutsatser om en hel population utifrån ett urval (generaliserbarhet).
Gör att vi kan ange ett mått på hur säkra våra slutsatser är.
Nackdelar:
Kräver att vi har en lista över populationen
Olämpliga då man vill studera egenskaper som är väldigt ovanliga i populationen
Obundet slumpmässigt urval, OSU
Vid OSU av n enheter har alla möjliga kombinationer av n enheter samma chans att bli valda
Vid varje dragning av en enhet har de i populationen kvarvarande enheterna samma sannolikhet att bli
valda
Nackdelen med den här metoden är att ifall man vill jämföra män och kvinnor 50/50 och lotten faller
så att det är blir 95% kvinnor och 5% män. Den här nackdelen går att applicera i alla undersökningar
där man vill jämföra två motpoler.
Stratifierat urval
Dela in populationen i homogena delpopulationer (strata). Välj med OSU ett antal enheter i varje
strata.
Skäl:
Säkerställa att de olika jämförelse-grupperna finns representerade i urvalet.
Klusterurval
Om det inte finns en förteckning över alla individer i
populationen (eller om det är för tidskrävande att utföra ett
OSU/Stratifierat urval)
Ibland finns naturliga grupper (kluster) i populationen
Exempel: hushåll, skolor, bostadsområden, arbetsplatser
I ett klusterurval dras ett urval av kluster och alla enheter i de
utvalda kluster undersöks (enstegs klusterurval)
Jämförelse mellan stratifierat urval och klusterurval
Stratifiterat urval:
Samtliga strata ”representerar” sin del av målpopulationen
Vi tar ett OSU i varje strata
Mål: Stor skillnad mellan strata, liten skillnad inom strata
Klusterurval:
Samtliga kluster ”representerar” hela målpopulationen
Vi tar ett OSU av kluster
Mål: liten skillnad mellan kluster, stor skillnad inom kluster
Systematiskt urval
Utgår från en lista över enheterna i populationen, väljer var k:te enhet i populationen med en
slumpmässigt start bland de första k enheter
Välj t ex var 3:e med slumpmässig start bland de 3 första.
Icke-slumpmässigt urval
I praktikten tvingas man till avsteg från slumpmässigt urval.
Huvudmotiven:
Att samla in data snabbt
Billigt och enkelt
Behöver ej konstruera en urvalsram
Huvudargumenten mot dessa typer av urval:
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
6
Svårigheten att generalisera resultaten till hela populationen och
att det ofta är oklart hur osäkerheten i skattningarna ska beräknas
Exempel: Kvoturval (kvoterar in så det matchar befolkningen), bekvämlighetsurval (de som är lättast
att nå), snöbollsurval (fråga en, som frågar en), självvalda urval (t ex medicinska undersökningar eller
internetundersökningar)
Mätmetod – olika typer av undersökningar
Experimentella studier (Ex. läkemedelsprövningar)
Behandling. Försöksenheterna utsätts för vissa behandlingar i avsikt att studera effekten av dessa
behandlingar
Typiskt för experimentella studier är
• Upprepbarhet. Experimentet kan upprepas ett önskat antal gånger
• Randomisering. Försöksenheterna fördelas slumpmässigt på olika behandlingar
• Dubbelblinda försök. Då försöksenheterna är människor vet i regel varken försökspersonen eller den
som ger behandlingen vilken behandling försökspersonen får.
• Vanligt med ”kontrollgrupper
Observationsstudie (Ex. enkätundersökningar, telefonintervjuer..)
• Undersökningsenheter eller händelseförlopp påverkas ej på något sätt.
• ”Behandlingarna” i den experimentella studien ersätts av passivt observerande
Kvalitet och felkällor
”Det finns många orsaker till fel i en undersökning”
1. Täckningsfel – uppstår då rampopulationen inte sammanfaller med målpopulationen
Undertäckning (objekt som saknas) Övertäckning (objekt som inte ska vara med)
2. Urvalsfel – uppstår när man studerar ett urval istället för en hel population
3. Bortfallsfel – Uppstår exempelvis då inte alla utdelade enkäter blivit besvarade
4. Mätfel – Kan bero på mätmetoden, mätinstrumentet, respondenten eller intervjuaren
5. Bearbetningsfel – Kodningsfel, inmatningsfel, datorbearbetningsfel
Kvalitetsbedömning av mätinstrument
Reliabilitet
är resultaten tillförlitliga eller finns det stor risk för slumpavvikelser
Validitet
är resultaten giltiga? Mäter man det man avser att mäta?
Frågor som bör ställas man ska granska en undersökning
• Vad var syftet med undersökningen?
• Vem betalade för undersökning?
• Vem genomförde undersökning?
• När gjordes undersökningen?
• Vilken population avses?
• Hur stort stickprov togs?
• Hur gjordes stickprovet? Slumpmässigt?
• Hur har mätningen gjorts?
• Är sambandet kausalt, eller finns det andra faktorer som kan ha påverkat?
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
7
Föreläsning 2 Visualisering och deskription
Exempel på diagram kan vara stapeldiagram, cirkeldiagram, histogram, frekvenstabell, linjediagram,
spridningsdiagram, lådagram (25-|25-25|-25)
Olika typer av variabler ”kräver” olika diagram, vilket diagram är lämpligast till vald variabel.
Beskrivande mått Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal.
Läges- eller centralmått: Tyngdpunkten i ett datamaterial - Typvärde, median, medelvärde, kvartiler,
percentiler
Spridningsmått: Variation i ett datamaterial - Variationsvidd, kvartilavstånd, standardavvikelse
μ (my) = populationsmedelvärde
σ (sigma) = populationsstandardavvikelse
• x̄ är en skattning av μ
• x̄ är stickprovsmedelvärdet
• s är en skattning av σ
• s är stickprovsstandardavvikelsen
Centralmått (Lägesmått)
Ett lägesmått sammanfattar ene fördelning i ett enda tal och ger information om var fördelningens
centrum är beläget
Tre vanliga lägesmått:
Typvärdet: det mest frekventa värdet
Medianen: Delar materialet ”mitt itu”.
Medelvärdet: Materialets tyngdpunkt.
Mått för position
Ibland är man intresserad av att mäta hut en observation förhåller sig till resten, dvs man vill veta en
observationsposition
Kvartiler och percentiler är ett sätt att mäta läge/position
Median delar in observationerna i två lika stora grupper. Kvartilerna delar observationerna i fyra lika
stora grupper (kvartar)
25% av observationerna är mindre än det första/nedre kvartilen
50% av observationerna är mindre/större än den andra kvartilen
75% av observationerna är mindre än den tredje/övre kvartilen
Percentil – Man väljer ut en %-grad.
Spridningsmått
Ett spridningsmått ger information om fördelningens spridning. Är materialet väl samlat eller är det
stor variation?
Variationsvidd skillnaden mellan det största och minsta värdet
Kvartilavstånd anger inom vilket avstånd de 50% mittersta observationerna ligger
Standardavvikelse beskriver den genomsnittliga avvikelsen till medelvärdet
Lådagram görs mellan Q1 och Q3, morrhåren får inte vara längre än 1 ”låda” + en halv ”låda”.
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
8
Föreläsning 3 Normalfördelning
My – Populationsmedelvärde
Sigma – Populationsstandardavikelse
Finns filmer på JBstatistics på youtube
Kännetecken för en normalfördelning
-
Den är symmetrisk
Klockformad
Ska uppfylla 68-95-99,7 regeln
o 68% av observationerna ligger i området – en standardavikelse samt + en
standardavvikelse
o 95% av observationerna ligger +- 2 standardavvikelser
o 99,7% av observationerna ligger +- 3 standardsavikelsen.
Formel
(viktigt)
Hur beräknar man areor i
normalfördelning?
-
-
Via minitab eller
normalfördelningstabeller som
finns i boken.
N(0,1) kallas för
standardsnormalfördelningen och
betecknas med Z.
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
9
Standalisera normalfördelningskurva
-
Värdet av X, Z = (x-my) / sigma
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
10
Föreläsning 4 Samplingsfördelningen, Centrala
gränsvärdessatsen och konfidensintervall
Fördelningen för en statistika kallas samplingsfördelningen, dvs den fördelning som beskriver hur det
observerade värdet på statistikan varierar från
stickprov till stickprov.
Förståelse av begreppet samplingfördelning är
viktig och är grunden för det som kallas
statistisk inferens (att dra slutsatser om en
population/modell utgående från empiriska
data)
Om X – N (µ, sigma) så kommer X-N (µ,
sigma/roten ur samplestorlek/n
Vad blir fördelningen för stickprovsmedelvärdet
om populationen inte är normalfördelad?
Fördelningen för stickprovsmedelvärdet kommer
vara normalfördelat, dvs enskilda stickprov blir
”skeva” men stickprovsmedelvärdet blir
normalfördelat så länge man tar ett tillräckligt
stort/många stickprov från populationen
Vet man hur stor standardavvikelsen är i
stickprovsmedelvärdet vet vi att inom en
standardavvikelse ligger 68% av populationen,
inom två standardavvikelser ligger 95% och tre
standardavvikelser ligger 99%.
En standardavvikelse är sigma/roten ur n
Centrala gränsvärdessatsen
Konfidensintervall för µ (skatta ett värde på µ)
Konfidensgrad, C
Kritiskt värde, z*
Felmarginal, m
A level C confidence interval för a parameter has two parts:
- An interval calculated from the data usually of the form
estimate ± margin of error
- A confidence level C, which gives the probability that the
interval will capture the true parameter value in repeated
samples
X ± m, där m är felmarginalen (margin of error) för
skattningen
Skattning ± säkerhetsfaktor * standardavvikelsen för skattningen
Konfidensgraden bestämmer värdet på det kritiska värdet z*
Tabell D, finns z*-värdet där man kan bestämma konfidensgraden från 50%-99%
90% = 1,645
95% = 1,96
99% = 2,576
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
11
Se film 3.1 ”Properly interpreting the interval”
Längden på konfidensintervallet bestäms av konfidensgraden C, samt sigma och n.
Allt annat lika så innebär vart och ett av följande tre fenomen ett bredare intervall:
- Högre konfidensgrad
- Större standardavvikelse i populationen
- Mindre stickprovsstorlek
Vad ska uppskattas?
- Definiera populationsparametern av intresse (med hjälp av frågeställning)
- Vilken konfidensgrad ska användas?
Hur ska konfidensintervallet beräknas?
- Vilken formel ska användas för att beräkna intervallet? Motivera ditt val
- Vilken säkerhetsfaktor ska användas? Motivera hur säkerhetsfaktorn bestäms
- Beräkna intervallet
Hur ska intervallet tolkas?
- Tolka intervallet i ord kopplat till frågeställningen
Exempel: Antag att man vill uppskatta genomsnittsvikten (µ), av ett stort parti mandariner. Av tidigare
erfarenhet vet man att viken är approximativt normalfördelad med sigma = 15. Ett stickprov om 9
mandariner tas och medelvärdet beräknas till 156,2 gram.
a) beräkna ett 95%-igt konfidensintervall för µ.
15/3 = 5 * 1,96 = 9,8 +/- 156
b) Vad blir felmarginalen för intervallet i a)
+/- 9,8
c) Beräkna ett 99%igt konfidensintervall för µ.
15/3 = 5*2,576 = +/- 12,88
d) Hur stort stickprov måste man ta för att felmarginalen på ett 95%-igt konfidensintervall inte får
överstiga 3 gram.
VI vill det n så att Z * sigma/roten ur n < 3
1,96 * 15/routen ur n < 3
1,96*15 < 3*roten ur n
(1,96*15/3)^2 < n
n > 96,04
Avrundar uppåt  n > 97
Vad händer om sigma är okänd? T-fördelningen, Frihetsgrader
Sigma skattas med s
- Nu innehåller både skattningen my och sigma osäkerhet
- Vi måste köra KI (konfidensintervallet) bredare för att ”gardera oss” för den extra osäkerheten som
vi tillför då sigma också är okänd.
- Om stickprovsstorleken ökar blir
s en säkrare
skattning av sigma och vi behöver
inte
”gardera oss” lika mycket.
- Använd T-fördelningen istället
för normalfördelningen
Se film 4.1 ”Introduction to the t-distribution”
Behöver göra intervallet bredare resulterar i att man
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
12
använder t* istället för z* och s istället för sigma
d.f = antalet observationer
A) Ange (och beräkna) standardavvikelsen för stickprovsmedelvärdet
s/roten ur n = 15,19/roten ur 9 = 5,06 = SE Mean
B) Beräkna ett 95%-igt konfidensintervall för my
t* = 2,306
156,2 +/- 2,306*5,06  (144,52,167,88)
C) Vad blir felmarginalen för intervallet i B) ?
+/- 2,5%
D) Beräkna ett 99%-igt KI för my
t* = 3,355
156,2 +/- 3,355*5,06  156,2 +/- 16,9763
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
13
Moment 2
Inlämning första rapport 17/2
Skriftlig opponering 19/2
Seminarium 20/2
Inlämnas 25/2
Består av att i grupper om fyra-sex personer genomföra en enkätundersökning i syfte att praktiskt
tillämpa den kunskap som inhämtats i moment 1.
Består i stora drag av att
- Planera en undersökning
- Konstruera en enkät
- Samla in data
- Analysera insamlade data
- Sammanställa resultat av undersökningen i en rapport (max 3-4 bilagor)
- Presentera resultaten muntligt vid ett obligatoriskt seminarium
- Granska en annan grupps rapport
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
14
Föreläsning 5 Inferensteori / Hypotestest av µ då σ är
känd och okänd
µσα
Konfidensintervallet för µ blir alltid normalfördelad, däremot är inte populationen normalfördelad är
”konfidensintervallet” approximativ och kräver att n är större än 30.
Tolkning av konfidensintervall:
Med 95% säkerhet så befinner sig µ inom det beräknade intervallet.
Kom ihåg..
- Att beskriva µ i ord kopplat till frågeställningen
- Att felmarginalen är ett mått på urvalsfelet i en undersökning. För att konfidensintervallet ska ha den
önskade konfidensgraden förutsätts att man tagit ett OSU från populationen samt att övriga fel
(täckningsfel, bortfallsfel m.m) är försumbara.
Test av hypoteser
Ofta när man gör undersökningar så vill man ha svar på olika frågor (hypoteser).
- Är myntet obalanserat?
- Kommer 35% att rösta på Socialdemokraterna om det vore val idag?
- Innehåller läskflaskor av ett visst märke i genomsnitt mindre än 500 ml?
- Finns det en genomsnittlig skillnad i lön mellan kvinnor och män?
- Finns det en skillnad mellan kvinnor och män gällande huvudsakligt syfte att träna?
- etc.
Koppling mellan hypotetisk-deduktiv metod och statistisk hypotesprövning
Hypotetisk-deduktiv metod:
Är en vetenskaplig metod som anses beskriva hur
empiriska vetenskaper fungerar.
En av de första personer att beskriva metoden var Karl
Popper (1902-1994).
Popper underströk falsifierbarhet som grunden för
vetenskaplig verksamhet.
Motsägelsebevis:
Inom statistisk hypotesprövning söker vi inte direkta
motsägelser i form av ”omöjliga händelser” för att
förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”.
Man kan välja att definiera en ”osannolik händelse” som en händelse som inträffar 5 gånger av 100 om
hypotesen är sann.
I statistiska termer: Man väljer signifikans nivå (α) 5%.
Kasta ett mynt 20 gånger:
H0 (Nollhypotes) – Myntet är balanserat
Ha (Alternativhypotes) – Myntet är inte balanserat
Signifikansnivå 5% / Slutats: Förkasta H0 om p-värdet <signifikansnivån
Antal
10
12
14
15
16
18
20
klave/krona
P-värde
1,000 0,5034 0,1153 0,0414 0,00012 0,00004 0,000002
P-värde – Sannolikheten att få det observerade utfallet eller något extremare i riktning mot
alternativhypotesen, beräknad under förutsättningen att nollhypotesen är sann. Omvandlas till %-värde
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
15
Centrala Begrepp:
Nollhypotes, H0  Det vi vill kunna motbevisa
Alternativhypotes, Ha  Det vi vill bevisa
Teststatistika  Ett mått som mäter överensstämmelse mellan det vi har observerat och nollhypotesen.
Signifakansnivå, α  Vår definition ”osannolik”, vanligtvis 5%, 1% eller 0,1%. Kallas även för
felrisk.
Slutsats  Man förkastar nollhypotesen och tror på alternativhypotesen om man får en ”osannolik
händelse”, dvs en händelse som har väldigt liten sannolikhet att inträffa om nollhypotesen är sann.
Typ 1-fel  Att förkasta H0 trots att H0 är sann. (att fälla en oskyldig)
Typ 2-fel  Att inte förkasta H0 trots att H0 är falsk. (att fria en skyldig)
Det står på flaskan att den innehåller 500ml,. Stämmer det?
Av tidigare erfarenhet vet man att variationen i innehållsmängd, pga påfyllnadsprocess kan
beskrivas med en normalfördelning med σ = 2
Ett stickprov på 10 flaskor tas. Stickprovsmedelvärdet observerades till 501,94 ml
Vad är sannolikheten att vi får ett stickprovsmedelvärde som avviker från 500ml med så mycket
som 1,94ml?
Verkar det rimligt att det genomsnittliga innehållet i flaskorna är 500 ml utifrån detta stickprov?
Om H0 sann X – N(500,2)
x(sträck) – N(500, 2/roten ur 10)
x(sträck) – my / sigma /roten ur 10 = 501,94-500/ 2/roten ur 10 = 3,067
P-värde = 0,0022
Vårat sanna värde är tre standardavvikelser bort
 Förkasta H0 (vi har fått en osannolik
händelse), vi har empiriskt stöd, på 5%
signifikansnivå, för att den genomsnittliga
mängden i flaskan inte är 500ml
Påfyllnadsprocessen justeras i syfte att hålla
löftet om 500ml i flaskorna.
Nytt stickprov om 10 flaskor tas.
Stickprovsmedelvärdet observerades nu till
499,47ml.
Vad är sannolikheten att vi får ett stickprovsmedelvärde som avviker från 500ml med så mycket
som 0.53ml.
499,47-500 / 2/roten ur 10
P-värde = 0.4020
Två olika metoder:
Det finns två olika metoder för att avgöra om man kan förkasta
nollhypotesen eller inte. Dessa är:
Kritisk värde 
På värde 
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
16
Exempel
a) H0 = 25 minuter
Ha = 30,22 minuter
x – 25 / 12/roten ur 18 = N (0,1)
((30,22-25) / 12/roten ur 18)) = 1,85
1,85 är mindre än 1,96, kan ej förkasta hypotes.
b) p-värde = P(Z>1.85) = 0,0322 Tabell A (1-1.85 = 1-0,9678 = 0.0322)
Förkasta H0 om p-värdet är mindre än < 0.05
Slutsats: Eftersom p-värde = 0.0322 < 0.05 förkastas H0. Vi har empiriskt stöd, på 5% signifikansnivå,
för att den genomsnittliga tiden som de anställda lägger på att läsa och rensa skräppost är mer än 25
minuter per dag.
c) Förkasta H0 om Z005 > 1.645 90% ifall signifikansnivån är 5%.
d) Förkasta H0 om Z001 > 2.326 98% ifall signifikansnivån är 1%. 1.85 Förkastas inte.
f)
e) byter ut sigma till s då sigma är okänd. Använder oss av t-fördelningen med t(n-1) vilket ger oss
t(17)
s = 12.47
((30,22-25) / 12,47/routen ur 18)) = 1.78
p-värde blir då 1.74 vilket är kritiska gränsen för när hypotesen ska förkastas. Iom att hypotesen blev
1.78 så förkastas hypotesen.
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
17
Föreläsning 6 Konfidensintervall och hypotestest av
skillnaden mellan två populationsmedelvärden
Repetition
CGS
Modell
Parameter
Statistika
Repetition av samplingsfördelning:
Repetition av teststatistika, konfidensintervall:
Under repetitionen poängterar hon vikten av att lära sig att följa
“arbetsgången vid konfidensintervall” samt “arbetsgången vid
hypotesprövning” som finns på cambro.
●
●
●
Konfidensintervall och hypotestest av skillnaden mellan två populationsmedelvärden
Konfidensintervall och hypotestest för populationsproportion
Konfidensintervall och hypotestest av skillnaden mellan två populationsproportioner
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
18
Ansatsen är att vi vill jämföra två olika data, exempelvis från två olika grupper. Vi vill testa om de är
skillnad på de två grupperna eller inte.
Vill vi ta fram ett konfidensintervall som
jämför de två dataseten så använder vi
nedan formel:
En sak som är klurig är att de olika dataseten kan ha olika många frihetsgrader.
Om detta är fallet (vilket det oftast är) så
använder vi den lägre frihetsgraden.
Om vi vill göra ett hypotestest som prövar
om det är skillnad mellan grupperna eller
inte så gör vi såhär:
Hela klassen gör ett hypotestest för att
jämföra kvinnors och mäns resultat på
universitetsprov med utgångspunkt i nedan
siffror:
Nollhypotesen är alltid att
grupperna är lika varandra dvs. ¨
H0: µ1-µ2=0
Apropå att beskriva teststatistikans
fördelning på tentafrågor:
När vi beskriver teststatistikans
fördelning på tentafrågor så säger vi
att “T~t(n-1) om nollhypotesen är
sann”. Eller “T är fördelad (n-1) om
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
19
nollhypotesen är sann”.
Beskriver vi inte att t bara är fördelad på detta sätt endast om nollhypotesen är sann – så får vi
avdrag/färre poäng.
Tolkning:
“Vi har empiriskt stöd på 5% signifikansnivå för att säga att kvinnorna har högre genomsnittliga poäng
än männen”
Matched paired t-test
“Matched paired t…” är ett annat test. Det används för att jämföra “ett par”. Här kollar vi på
skillnaden (differansen) mellan två dataset (ett par) och sedan gör vi ett vanligt t-test på skillnaden dvs.
Ett exempel på ett par kan vara exempelvis att man mäter en viss grupps längd på morgonen, och sen
mäter man deras längd på kvällen. Eller att man låter en grupp vinsmakare betygsätta smaken av ett
visst vin när flaskan är nyöppnad vs när den har vart öppen några timmar exempelvis. Att jämföra ett
“par” är alltså lite olika jämfört med att jämföra två helt olika grupper.
En vanlig ansats till ett “matched pair t-test” för att undersöka om skillnad finns skulle kunna vara:
H0: µdiff=0
Ha: µdiff≠0
Och sen som vanligt räknar du ut
t=
x̄ −µdiff (dinhypotetiska µ)
s /√ n
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
20
Föreläsning 7 Konfidensintervall och hypotestest för
populationsproportion samt hypotestest av skillnaden
mellan två populationsproportioner
Populationsproportion, p används till
kvalitativa data.
p = proportionen/andelen i populationen
som har en viss egenskap
p^-1+0+1
+0+1+1
+1…/n=p^n
p^~N(
p, √ p^(
1
p^) ¿ √ n
S
var
e
tvi
s
arpåde
ns
annaande
l
e
n
s
om c
ykl
ar
Avvi
ke
l
s
e
nf
ör0=p
Avvi
ke
l
s
ef
ör1=1p
a
)650260
=390
1=260
0=390
260
/650=0.
4p^
0
.
4(
10
.
4)/650
0
,
4898/25
,
695=0,
019*1,
96=0
,
0377
b)p^+m
0
,
4+0
,
0377=(
0
,
36:
0
,
44)
Me
d95% s
äke
r
he
ts
åanvände
r36% t
i
l
l44% a
val
l
avuxnaanvände
rc
yke
l
hj
äl
m.
P
P(
1p)
0
,
1
0,
09
0
,
2
0,
16
0
,
3
0,
21
0
,
4
Bas
e
r
a
tpåt
i
di
gar
er
e
s
ul
t
a
tt
r
ormana
t
tande
l
e
nhj
äl
manvändar
eiSunds
val
lär0,
3
.
0
,
5
n=1,
96^2=3,
8416*0
,
21/0
,
0009=896
,
37~n=897pe
r
s
one
r
Om manut
gårf
r
ånpl
ane
r
i
ngs
vär
de
tpå0,
3s
åbe
höve
rmant
ami
ns
t897pe
r
s
one
rf
ör
a
t
tuppf
yl
l
ade
nöns
kvär
daf
e
l
mar
gi
nal
e
n.
Ve
tmani
nt
epl
ane
r
i
ngs
vär
de
tut
gårmanf
r
ån0
,
5.
N komme
rbl
if
örs
t
or
tme
nde
tkomme
r
s
t
ämmabäs
töve
r
e
nsme
dve
r
kl
i
ghe
t
e
n(
s
om manännui
nt
eve
t
)
0,
24
c
)m =z
**r
ot
e
nurp^(
1p^)
/r
ot
e
nurn
0
,
03=1
,
96*r
ot
e
nur0
,
4(
10
,
4)/r
out
e
nurn
0
,
03^2=0,
4
(
10
,
4)
/n*1
,
96
n=1,
96^2*p^(
1
p^)/0
,
03^2
3
,
8416*0,
24/0,
0009=1024,
426=n
n=z^2p^(
1p^)
/
s
ka
t
t
ni
ng^2
H0=p=0
,
3
Ha=p>0,
3
Ie
t
ts
t
i
c
kpr
ovom 400ut
val
davi
s
arde
ta
t
t128s
t
yc
ke
nanvände
rc
yke
l
hj
äl
m
Sampl
ep=p^=0,
32
Zvär
de=0
,
87
Kr
i
t
i
s
kavär
de
s
me
t
ode
n
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
0,
25
lOMoARcPSD|9771091
21
Pvär
de
s
me
t
ode
n
Te
s
t
aom de
tfinnse
ns
ki
l
l
nadiande
l
e
n
vuxnas
om a
nvände
rc
yke
l
hj
äl
m iUme
å
oc
hSunds
val
l
?
P1P2=s
ki
l
l
nade
n
Ski
l
l
nade
nära
t
t8% fle
ranvände
r
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
Diagram 2
lOMoARcPSD|9771091
22
c
yke
l
hj
äl
m iUme
åäniSunds
val
l
.
Hypot
e
s
e
r
:H0:
PuPs=0/Pups=/=0
Te
s
t
s
t
a
t
i
s
t
i
s
kaf
ör
de
l
e
ndåH0s
ann:
N(
0,
1
)e
nl
i
gtCGSt
yn1oc
hn2>30
Si
gni
fikans
ni
vå5%
Be
s
l
ut
s
r
e
ge
l 2
,
5% påvar
j
ehör
ninor
mal
f
ör
de
l
ni
ngs
kur
va
.
För
ka
s
t
aH0oc
hZ005>1
,
96
(
al
t
e
r
na
t
i
vtpvär
de<0,
05
)
I
om a
t
tZvär
de
tär2,
61=0,
9955=pvär
de=0,
004
5*
2=0,
009
Sl
ut
a
t
s
:För
kas
t
aH0e
f
t
e
r
s
om >2
,
61>1
,
96(0,
009<0,
05
)
Vihare
mpi
r
i
s
kts
t
ödpå5% s
i
gni
fikans
ni
våf
öra
t
tde
tfinnse
ns
ki
l
l
nadipopul
a
t
i
ons
ande
l
e
n
vuxnas
om a
nvände
rc
yke
l
hj
äl
m iUme
åoc
hSunds
val
l
.
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
23
Föreläsning 8 – Chi2 test
Chi2-test används för att ta reda på ifall det finns något samband mellan två kvalitativa variabler
Vanligt att använda när man gör en enkät
t.ex. Finns det något samband mellan hur många timmar man i snitt lägger på studier per vecka och
vilket kön (man/kvinna) man har?
Utmätt tabell
Cyklar inte
Cyklar
Man
5
45
Kvinna
25
75
Cykelexempel för att se samband
Man kan ställa upp i stapeldiagram för att visuellt kunna se den procentuella skillnaden.
Nollhypotes: Det finns inget samband mellan kön och vintercykling till Umu
Mothypotes: Det finns ett samband mellan kön och vintercykling till Umu
Mothypotesen i ett Chi2-test är alltid ”dubbelsidigt”  Finns ett samband då Chi2-test innehåller så
pass många kategorier som det gör.
Om H0 sann förväntar vi oss att
Andel cyklar: 120/150 = 80%
Andel inte cyklar: 30/150 = 20%
Förväntad tabell
om H0 är sann
Man
Cyklar inte
Cyklar
0.2*50=10
0.8*50=40
Kvinnor
0.2*100=20
0.2*100=80
Teststatistiska som mäter avståndet mellan
alternativhypotesen och nollhypotesen.
X2Obs = (5-10)2/10 + (45-40)2/40 + (25-20)2/20 + (75-80)2/80
= 4,69
Chi2-fördelningen är beroende av sina df.
Vid 5% signifikansnivå förkasta H0 om X2obs > 3,84
Vid chi-2 tabell så är det (antalet rader – 1)*(antalet kolumner – 1 ) för att räkna ut frihetsgrader
Nol
l
hypot
e
s
e
nf
ör
kas
t
ase
f
t
e
r
s
om 4,
69>3,
84
.Empi
r
i
s
kts
t
ödpå5% s
i
gni
fikans
ni
våa
t
tde
t
finnse
t
ts
ambandme
l
l
ankönoc
hant
als
om c
ykl
arpåUme
åUni
ve
r
s
i
t
e
t
.
Föra
t
tmans
kakunnal
i
t
apår
e
s
ul
t
a
t
e
tf
r
åne
t
tc
hi
2.
t
e
s
ts
åkr
ä
vsde
ta
t
tde
nf
ör
vänt
ade
t
abe
l
l
e
nuppf
yl
l
e
rvi
s
s
akr
a
v
1
.Me
de
l
vär
de
ta
vdef
ör
vänt
adevär
de
nas
kavar
ami
ns
t5oc
hi
nge
tvär
def
årvar
ami
ndr
eän
1
.
2
.Ie
n2
*
2t
abe
l
ls
åkr
ä
vsde
ta
t
tal
l
af
ör
vänt
adevär
de
närmi
ns
t5
.
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
24
Introduktion – moment 3
Linjär regression: Utforska samband mellan en kvantitativ responsvariabel och en eller flera
förklarande variabler.
Enkel linjär regression: En förklarande variabel
Multipel regression: Fler än en förklarande variabel
Regressionslinje: Vi använder en regressionslinje för att beskriva sambandet mellan fäders
och söners längder.
Regressionsekvationen: Regressionslinjen på föregående sida beskrivs med följande formel
Linjens formel (regressionsekvationen) har beräknats med minstakvadratmetoden
Prediktion: Använd regressionsekvationen för att prediktera förväntad längd hos en son till
en kort fader (165 cm) 86,1 + 0,514*165 = 170,9cm
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
25
Föreläsning 9 – Korrelation och enkel linjär regression
Korrelationskoefficienten, r
Ett mått på styrkan (och
riktningen) på det linjära
sambandet mellan två variabler x
och y.
Korrelationskoefficienten kan
anta värden mellan -1 och +1
Observera att r är ett mått på
linjärt samband, så även om r= 0
kan det finnas ett icke-linjärt
samband mellan x och y.
Olika värden på
korrelationskoefficienten
Exempel: Prediktera
koldioxidutsläpp:
Kan tjänstevikten förklara en del av variationen i
koldioxidutsläpp?
Skattad linje: y = -1,04 + 1,89x
Enkellinjär regression formel
Antaganden om modellen:
Sambandet mellan x och y är linjärt
Feltermerna är normalfördelade med väntevärde 0
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
26
Feltermerna har konstant varians, σ2
Feltermerna är oberoende
Skattning av modellen
Skattning av modellen innebär att skatta
värdet på parametrarna i modellen, dvs
interceptet och lutningen på
regressionslinjen
Minstakvadratmetoden är en metod för
att skatta parametrarna i modellen. Med minstakvadratmodellen
”väljs” de skattade parametrarna så att summan av residualerna i
kvadrat minimeras.
Residualerna ei=y-y^, anger differensen mellan det faktiska
observationsvärdet y, och det predikterade värdet y^.
Kontroll av medelantaganden:
Residualerna används för att kontrollera modellantagandena
(antagande om linjärt samband och slumpfelet (Ei)
fördelning etc.)
Detta görs genom att rita upp olika typer av diagram med
residualerna.
Residualanalys, modelldiagnostik, modellkontroll
Plotta residualerna mot x!
Residualerna ska ligga ett konstant band runt noll…
Antagandet om linjärt samband (= antagandet om att
värdevärdet för Ei är noll för oavsett värde på x)
Antagandet om att variansen för Ei är konstant.
Gör ett histogram över residualerna!
Ska likna en normalfördelning..
Gör en s.k normal probability plot
punkterna ska följa inritade linjen..
Teoretiska modellskattningen är ”verkligheten”
Outliers och inflytelserika
observationer
En observation som avviker från de
övriga observationernas mönster sägs
vara en outlier
En obeservation sägs inflytelserik om
dess borttagande från (regressions-)
analysen förändringar resultatet i hög
grad.
Varför kontroll av modellantaganden?
Om modellantaganden inte är uppfyllda
kan vi inte lita på den statistiska inferens
(test, konfidensintervall etc.) vi vill göra
och modellen passar inte för att beskriva
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
27
sambandet mellan variablerna. Se film 9.1, 9.2 och 9.3 https://www.youtube.com/watch?
v=iMdtTCX2Q70
SST = Kvadratsumma totalt / total variation
SSE = Kvadratsumma av fel / oförklarad variation
SSR = Kvadratsumma av regression / förklarad variation
Forts. koldioxidutsläppsexemplet
Totala kvadratsumman
Residualkvadratsumman
SST= 2,54 ”total variation”
SSE= 0,43 ”oförklarad variation”
R2= SSR/SST = (SST-SSE)/SST = (2,54-0,43)/2,54 = 0,83
83% av variationen i koldioxidutsläpp kan förklaras av variationen i tjänstevikt
R2 är mellan 0 och 1 (0-100%)
Förklaringgraden är korrelationskoefficienten i kvadrat
r = 0,9 = förklaringsgrad R2 = 0,92 = 0,81
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
28
Föreläsning 10 – Mer om enkel linjär regression
Modellantaganden:
1. Det förväntade värrdet av E är 0 oavsett värde på x (Modellen är korrekt specificerad)
2. E har konstant standardavvikelse, sigma, oavsett värde på x
3. E är normalfördelade
4. E1, E2 … är oberoende
Prediktion:
Skattat samband: ŷ=-1,04+1,89x
x=1,8  ŷ = interpolation
x=2,6  ŷ = extrapolation
Vad är nytt för idag?
Hypotestest för (B0) och B1
Konfidensintervallet för interceptet (B0)
Konfidensintervall för lutningen B1
Konfidensintervall för µy (för ett specifikt värde på x) populationsmedelvärdet av y
Prediktionsintervall för y* (för ett specifikt värde på x) en specifik person (y)
Exempel:
a) Kan man på 5% signifikansnivå påstå att det finns ett linjärt samband mellan koldioxidutsläpp och
tjänstevikt? Alla stegen i hypotesprövningen ska redovisas
H0 – B1 = 0
Ha – B1=/= 0
Teststatistika: är T-fördelad med n-2 = 6 frihetsgrader om H0 är sann
Signifikansnivå: 5%
Beslutsregel: Förkasta H0 då Tobs > 2,447 eller då Tobs < -2,447 (eller om p-värdet < 0,05)
Observation: Tobs = 5,41 (p-värdet 0,002)
Nollhypotesen förkastas, vi har emp stöd på 5% signifikansnivå då 5,41 > 2,447 df(6)
b) Kan man på 5% signifikansnivå påstå att koldioxidutsläppet i genomsnitt ökar med ökad
tjänstevikt?
H0 – B1 = 0
Ha – B1 > 0
c) Bilda ett 95% konfidensintervall för lutningsparametern. Kom ihåg at tolka intervallet i sitt
sammanhang
b1 +/- t* SEb1 (skattade felmarginalen)
1,892 +/- 2,447 * 0,350 [1,04:2,75]
Med 95% säkerhet ökar CO2-utsläppet i genomsnitt med 104 till 275 gram per extra ton tjänstevikt
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
29
Inferens: Hypotesprövning, intervallskattning etc.
Inferens för lutningsparametern B1
Yi = β0 + β1 *xi + εi ,
Vi skattar lutningen med minstakvadratestimatorn b1 = r Sy/Sx
Hur varierar estimatorn B1 från stickprov till stickprov? Vi låtsas att
datamaterialet med 1078 fäder och sönder är en totalundersökning
β0 = 86,1
β1 = 0,514
Vi drar upprepade slumpmässiga stickprov (20 fäder/söner) och
skattar lutningen från varje stickprov
Samplingfördelning för b1 
Ibland underskattas den sanna lutningen och ibland överskattas de.
MEN: i genomsnitt prickar estimatorn b1 rätt!
Dessutom verkar det som att b1 är normalfördelad
Vi kan utnyttja detta för att göra hypotestest och konfidensintervall för β1
Vi skulle dock behöva ett mått för variationen för b1
Konfidensintervall för β1
I formelsamlingen anges följande formel för
konfidensintervall
Dividera b1-talet med SEb1 för att få t-värdet, samma sak med b0 där SE är medelfelet (standard error)
Konfidensintervall och test för β0 görs på motsvarade sätt, men är sällan relevant att göra.
(att β0 = 0 innebär att regressionslinjen går igenom ”origo”)
KI och PI för responsvariabeln
Det är svårare att förutsäga en enskild
observation än ett populationsgenomsnitt,
så ett prediktionsintervall är alltid bredare
än motsvarade konfidensintervall
Konfidensintervallet är snävare än
prediktionsintervallet då KI förutsäger
populationsgenomsnittet och PI förutsäger
en enskild observation
Bredden på KI bestäms av konfidensnivån
samt av den osäkerhet som vi har i
skattningarna av B0 och B1
Bredden på PI bestäms av konfidensnivån
samt av den osäkerhet som vi har i skattningarna av B0 och B1 samt osäkerheten i att den enskilda
observationen kan avvika från genomsnittet (den osäkerheten är sigma)
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
30
Tolka de två intervallen i ord kopplat till uppgiften
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
31
Föreläsning 11 – Multipel linjär regression
Information från 155 slumpmässigt utvalda bostadsförsäljningar i Oregon
Variabler som ingår i datasamlingen är:
Slutpris (1000tal USD)
Boarea
Tomtarea
Antal rum
Antal badrum
Ålder
Målet är att skapa en enkel modell som kan användas för att prediktera slutpriset på ett hus.
R2 = förklaringsgrad = 54,3% 54,3% av variationen i slutpris kan förklaras av variationen i boarea.
r = korrelation = roten ur R2 + riktning = 0,74 Korrelationen anger styrkan och riktningen på det
linjära sambandet
T-test för B1
Vilka hypoteser testas?
H0 = B1 = 0
Ha = B1 =/= 0
Vilken fördelning har Teststatistikan under nollhypotesen?
t-fördelad med t(153)
Vad är er slutsats?
Förkasta nollhypotesen då p-värdet < 0,05
Multipel linjär regression
Man lägger till flera x-variabler i formeln.
yi = β0+β1*xi1+ β2*xi2+.…+ βp *xip+ εi (p = antal förklarande variabler i modellen)
yi är slutpris för hus i
xi1 är boarea för hus i
xi2 är tomtarea för hus i
xi3 är antal rum för hus i
xi4 är antal badrum för hus i
xi5 är åldern för hus i
Justerad förklaringsgrad Radj2
Den vanliga förklaringsgrader ökar alltid när man utökar modellen med nya förklaringsvariabler (utan
något verkligt samband
Den justerade förklaringsgraden minskar i värde om man utökar modellen med en förklaringsvariabel
som knappt ger någon ”tilläggsinformation” om responsvariabeln.
Hypotesprövning:
F-test (overalltest): Görs för att testa om någon av förklaringsvariablerna har samband med responsen
testar nollhypotesen ”ingen av förklaringsvariablerna har samband med responsvariabeln” mot
alternativhypotesen ”minst en av förklaringsvariablerna har samband med responsvariabeln”
H0: B1 = B2 = B3 = B4 = B5 = 0
Ha: Minst en av Bj =/= 0, där j = 1, 2 ..
Signifikansnivå 5%
Teststatistikans fördelning är F(5,149)-fördelad om H0 sann (149 från error) (5 från regression)
Beslutsregel: Förkasta H0 om p-värdet < 0,05
Observation: p-värde = 0,000
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
32
Slutsats: efter 0,000 < 0,05 så förkasta H0. Vi har empiriskt stöd på 5% signifikansnivå för att
åtminstone en av variablerna (boarea, tomtarea, antal rum, antal badrum och ålder har ett linjärt
samband med Slutpris.
T-test: Görs för att testa om en enskild förklaringsvariabel har samband med responsen, när de övriga
förklaringsvariablerna är med i modellen
Vid multipel regression görs t-testen under förutsättningen att ”övriga förklaringsvariabler är med m
modellen”
Frihetsgrader räknas ut genom t(n-p-1) där man alltså förlorar 1 frihetsgrad för varje B-koefficient som
är med i modellen
H0: Första förklaringsvariabeln (andra, etc) har inget samband med responsvariabeln, givet att övriga
variabler är med i modellen
H1: Första förklaringsvariabeln (andra, etc) har ett samband med responsvariabeln, givet att övriga
variabler är med i modellen
Slutsatser:
Det finns empiriskt stöd på 5% signifikansnivå att det finns ett samband mellan slutpris och boarea,
givet att tomtarea, antal rum, antal badrum och ålder är med i modellen.
(Finns även empiriskt stöd för samband mellan slutpris och tomtarea / antal badrum givet att -||-)
Det finns inte empiriskt stöd på % signifikansnivå att det finns ett samband mellan slutpris och antal
rum, givet att boarea, tomtarea, antal badrum och ålder är med i modellen
(Finns inte heller empiriskt stöd för samband mellan slutpris och ålder givet -||-)
Ta bort ålder och antal rum från modellen för att få en så enkel modell som möjligt
Leder till att vi får R-sq på 62,56%
62,56 av variationen i slutpris kan förklaras med hjälp av boarea, tomtarea och antal badrum.
Tolkning av koefficienter
35,4 + 0,7204 boarea + 0,00510 tomtarea + 27,13 antal badrum
b1 = 0,7204: Hus som har 1m2 större boyta har i genomsnitt 720,4 USD högre slutpris under
förutsättningen att tomtarea och antal badrum hålls konstant.
b2 = 0,00510: Hus som har 1m2 större tomtarea har i genomsnitt 5,1 USD högre slutpris, under
förutsättningen att boarea, antal badrum hålls konstant.
b3 = 27,13: Hus som har ett badrum har i genomsnitt 27130 USD högre slutpris, under förutsättningen
att boarea och tomtarea hålls konstant.
OBS: Inte kausal tolkning!
I slutsatser vid t-test skrivs (då det är relevant):
”... givet att övriga variabler är med i modellen”
I tolkningar av koefficienter skrivs (då det är relevant):
”… givet att övriga variabler hålls konstanta”
Vill man se hur en variabel påverkar utfallet så ska man inte ändra de andra variablerna (tänk
förstärkare med bas, diskant etc.)
Konfidensintervall för enskild parameter
Konfidensintervall för genomsnittlig respons vid specifika värden på förklaringsvariablerna, KI för my
Prediktionsintervall för enskild ny respons med specifika värden på förklaringsvariablerna, PI för y
Multikolinjäritet
= En förklaringsvariabel som är starkt korrelerad med någon annan av modellens förklaringsvariabler
Kan leda till problem för regressionsmodellen:
- Svårt att särskilja de olika variablernas individuella ”effekter”.
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
33
- De sammanblandade effekterna gör att skattningarna av koefficienterna i modellen inte blir
tillförlitliga.
- Medelfelen för skattningarna av koefficienter kan bli (väldigt) stora
- Kan leda till att regressionskoefficienter som ’borde’ vara signifikanta (dvs =/= 0) inte blir det. Ftestet signifikant men inte något signifikant t-test
- Koefficientskattningarna kan förändras mycket om en annan variabel är med i modellen eller inte
- Variabel A ”behövs” inte i modellen samtidigt som variabel B
Upptäcks genom:
Rita spridningsdiagram mellan förklaringsvariabler
Beräkna korrelationskoefficient mellan förklaringsvariabler
Att F-test och t-test är ”motsägelsefulla”
VIF-värden (”Variance Inflation Factor”)
Åtgärder:
Plocka bort en av de korrelerade förklaringsvariablerna ur modellen
Skapa en ny variabel som är en funktion av flera förklaringsvariabler och använda den (t.ex. BMI)
Höga VIF-värden behöver inte vara ett problem – kolla på vad som faktiskt händer i modellen
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
34
Föreläsning 12 Polynomregression + inkludering av
kvalitativa variabler i modellen
Polynomregression:
Hittills har vi utgått från linjära samband mellan x och y. Vad om sambandet inte är linjärt?
För att undersöka hur gödselmängden påverkar skörden så gjordes en liten undersökning.
Följande data erhölls:
Gödsel
Skörd
1
25
2
50
3
60
4
70
5
70
6
60
Antagandet om att väntevärde är noll är inte rimligt i det här fallet. Dvs den ansatt linjära modellen är
inte lämplig!
Åtgärd: Utöka modellen med x2-term
Tolkning av koefficienter
”Om gödselmängd ökar med en enhet så ökar skörden i genomsnitt med 34 enheter, givet att
gödselmängd i kvadrat är konstant”
Är det rimligt?
x kan inte öka samtidigt som x2 är konstant, och vice versa
Ingen (direkt) tolkning av koefficienterna
Ingen genomsnittlig (linjär) ökning, skillnaden i skörd mellan 1 och 2 är inte samma som mellan 4 och
5.
Vi kan skatta och beskriva skillnaden i y mellan specifika värden av x.
Skörd = -4,5 + 33,88*Gödsel – 3,839*Gödsel2
I genomsnitt är skörden 13,52 enheter högre när gödsel har värde 3, jämfört med värde 2
Modellen kan användas för prediktion, KI och PI
Vad om vi har en kvalitativ variabel?
t.ex. kön
Kvinnor y = 2+3x
Män y = 6+3x
Vad är avståndet mellan linjerna?
Hur kan vi uttrycka de två separata ekvationerna som en ekvation istället?
Lägg till en ny variabel
x2 = 0, för kvinnor
1, för män
Exempel: Electronic wolrd, en affärskedja som säljer ljud- och bild-utrustning har samlat in följande
data:
Försäljningsvolym i juli förra året (1000 USD) (y)
Antalet hushåll i närområdet (1000-tal)
Butikens läge – Gata/Galleria
Försäljningsvolym är högre ju fler hushåll i närområdet
Försäljningsvolym är högre om butiken är placerad i en galleria jämfört med om butiken är placerad
på en gata.
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
35
Svar:
vi inför en s.k indikatorvariabel i modellen och gör sedan en vanlig multipel regression.
En indikatorvariabel kan anta endast två värden, 1
eller 0
Man sätter indikatorvariabeln till 1 för att indikera
en viss egenskap
Då vi har valt variabeln Läge_Galleria betyder det
här att vi säger att Gata är vår referenskategori,
eller jämförelsekategori.
Tolkning av koefficienter
Försäljning = 17,36 + 0,8510*Antal Hushåll + 29,22*Läge_Galleria
b0 = 17,36: Den genomsnittliga försäljningen är 17360 USD om det finns noll hushåll i närområdet
samt att butiken ligger på en gata
b1 = 0,8510: Försäljningen är i genomsnitt 851 USD högre för en butik med 1000 fler hushåll i
närområdet, givet att placeringen av butiken är oförändrad (hålls konstant)
b2 = 29,22: Försäljningen är i genomsnitt 29220 USD högre om butiken ligger i en galleria i
jämförelse med om butiken ligger på en gata, givet att antalet hushåll i närområdet är oförändrat (hålls
konstant)
Hur ser den skattade modellen ut för Gatu-butikerna? 17,56 + 0,851x
Hur ser den skattade modellen ut för Galleria-butikerna? 46,58 + 0,851x
Vad skulle koefficienterna i den skattade ekvationen y = b0+b1xi1+ b2xi2 ,
vara om vi hade definierat indikatorvariabeln tvärtom? 17,36 + 0,851x 1 - 29,22 *gata
Om man inkluderar en indikatorvariabel i sin modell så skattas två parallella linjer/plan. Koefficienten
framför indikatorvariabeln anger avståndet mellan de två linjerna/planen.
Kvinnor: y = 2 + 3*x
Män: y = 6 + 5*x
y = 2 + 3x1 + 4x2 + 2x1*x2
Vi inför en s.k indikatorvariabel samt en samspelsvariabel i modellen och
gör sedan en vanlig multipel regression
Försäljning = 7,9 + 0,921*Hushåll + 42,7*Läge_Galleria –
0,092*Hushåll*Läge_Galleria
• b0 = 7,9 : Den genomsnittliga försäljningen är 7900 USD om det finns
noll hushåll i närområdet samt att butiken ligger på en gata. (Interceptet
för gatu-linjen. Ej relevant.)
b1 = 0,921: Försäljningen är i genomsnitt 921 USD högre om antalet hushåll i närområdet är 1000
stycken fler och placeringen av butiken är på en gata. (Lutningen för gatu-linjen)
b2 = 42,7 : Om antalet hushåll är noll så är försäljningen är i genomsnitt 42700 USD högre om butiken
ligger i en galleria i jämförelse med om butiken ligger på en gata. (Skillnaden i intercept. Ej relevant.)
b3 = -0,092: Om antalet hushåll är 1000 stycken fler så är försäljningen i genomsnitt 92 USD mindre
för butiker i gallerior i jämförelse med butiker på gatan. (Skillnaden i lutning)
Alternativt: b1+b3 = 0,921-0,092 = 0,829. Försäljningen är i genomsnitt 829 USD högre om antalet
hushåll i närområdet är 1000 stycken fler och placeringen av butiken är i en galleria. (Lutningen för
galleria-linjen)
Ni bör komplettera er skattningar Bj med KI
Ni kan även göra hypotestest för att t.ex. besvara frågan om skillnaden i lutning är statistiskt
säkerställd…
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
lOMoARcPSD|9771091
36
Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)
Download