lOMoARcPSD|9771091 Föreläsningsanteckningar Statistik A1 (Umeå Universitet) StuDocu is not sponsored or endorsed by any college or university Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 1 Statistik föreläsningsanteckningar Innehåll Introduktion............................................................................................................................................3 Föreläsning 1 & 2 Introduktion till statistisk terminologi i samband med: Arbetsgången i en statistisk undersökning Deskription och Visualisering..........................................................................................4 Föreläsning 2 Visualisering och deskription...........................................................................................7 Föreläsning 3 Normalfördelning.............................................................................................................8 Föreläsning 4 Samplingsfördelningen, Centrala gränsvärdessatsen och konfidensintervall.................10 Konfidensintervall för µ (skatta ett värde på µ)............................................................................10 Moment 2.............................................................................................................................................13 Föreläsning 5 Inferensteori / Hypotestest av µ då σ är känd och okänd................................................14 Centrala Begrepp:.............................................................................................................................15 Exempel........................................................................................................................................16 Föreläsning 6 Konfidensintervall och hypotestest av skillnaden mellan två populationsmedelvärden. 17 Repetition.............................................................................................................................................17 Matched paired t-test........................................................................................................................19 Föreläsning 7 Konfidensintervall och hypotestest för populationsproportion samt hypotestest av skillnaden mellan två populationsproportioner.....................................................................................20 Föreläsning 8 – Chi2 test......................................................................................................................23 Introduktion – moment 3......................................................................................................................24 Föreläsning 9 – Korrelation och enkel linjär regression.......................................................................25 Exempel: Prediktera koldioxidutsläpp:.............................................................................................25 Föreläsning 10 – Mer om enkel linjär regression..................................................................................28 Föreläsning 11 – Multipel linjär regression..........................................................................................31 Föreläsning 12 Polynomregression + inkludering av kvalitativa variabler i modellen.........................34 Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 2 Studieguide moment 1: https://docs.google.com/document/d/1-sJA6Bk1YXQWztDtLnre31cJHxXU6js4ANphyao5ks/edit Studieguide moment 3: https://docs.google.com/document/d/1Nvf4v4PIhltakYeTB3uNqu43PEoIbVwJTA8g4gxYVbk/edit X Enskild observation i population x Enskild observation i stickprov µ my Medelvärde i population x (eller m) x bar Medelvärde i stickprov σ sigma Standardavvikelse i population s (eller sd) Standardavvikelse i stickprov N Antalet observationer i population n Antalet observationer i stickprov α alfa Signifikansnivå (högsta accepterade risk för typ 1-fel). β beta Risk för typ 2-fel p Risk för typ 1-fel df Frihetsgrader ρ rå Korrelation i population r Korrelation i stickprov µσ Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 3 Introduktion 4 olika moment Moment 1, Statistikens grunder 1 (7hp) Moment 2, Inlämningsuppgift i statistikens grunder 1 (2,5hp) Moment 3, Statistikens grunder 2 (4hp) Moment 4, Inlämningsuppgift i statistikens grunder 2 (1,5hp) Statistik beskriver verkligheten i siffror, t ex i form av tabeller. Med statistik menas också vetenskapen om metoderna som används för att samla in, bearbeta, analysera och redovisa data. Beskrivande statistik – diagram/tabeller och sammanfattande mått (lägesmått och spridningsmått) Analytisk statistik – skattningsproblem (konfidensintervall/felmarginal) och prövningsproblem (hypotesprövning) Stickprov – Dra slutsatser från data om hela populationen utifrån ett stickprov. Fokus i kursen ligger på… ..Förståelse av viktiga statistiska begrepp ..Tillämpning av statistik programvara ..Tolkning av resultat framtagna med statistisk programvara Vad finns som stöd? - Kurslitteratur - Studieguide - Läsanvisningar - Rekommenderade uppgifter (inkl gamla tentor + lösningar) - Föreläsningar - Filmer - Lektioner (11st på moment 1) - Bedömning av examinationsuppgifter - Verkstäder - Räknestugor, handledning För G krävs 60% av totalpoäng, för VG 80%. Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 4 Föreläsning 1 & 2 Introduktion till statistisk terminologi i samband med: Arbetsgången i en statistisk undersökning Deskription och Visualisering Forskningsprocessen En statistisk undersöknings olika steg: - Problemformulering - Formulera ett problem/problemområde - Arbetet styrs sedan av ett syfte och frågeställningar - Studiedesign Variabler: - En variabel är en egenskap som varierar mellan individer -Våra observationer är således observationer på en eller flera variabler Kvalitativa variabler (mäter kön, ögonfärg, beskrivande) eller Kvantitativa variabler (en siffra man kan räkna på) Responsvariabel – Kallas den variabel som man är intresserad av att förklara Förklaringsvariabler – Används för att förklara en förändring i responsvariabeln Hur mäter man livskvalitet, stress, nöjdhet, intelligens och smärta? ”Operationalisering innebär att man försöker översätta eller operationalisera det abstrakta och egentligen omätbara begreppet till något konkret och mätbart. Med ett antal frågor försöker man fånga in det man anser vara centralt för det begrepp man mäter.” Population: Populationen är en samling av enheter som du vill dra slutsatser om. Ram: Ramen är förteckningen över enheterna som ingår i populationen. Det är från denna lista som man gör sitt urval. Urval: Urval (stickprov) är en delmängd av populationen. Urvalet görs utifrån ramen. Mätmetod/Mätinstrument: Mätmetoden anger på vilket sätt man ska samla in data. Det kan t ex vara via - Enkät - Telefonintervju - Experiment - Register Mätinstrumentet kan tex vara blanketten som enkätfrågorna står på. Analys och publicering Här sammanställs resultaten i tabeller och diagram vilka kommenteras i text. Resultaten analyseras och slutsatser dras. - Datainsamling - Analys/bearbetning - Rapportering Sannolikhetsurval / slumpmässiga urval Urval som använder slumpen som urvalsmekanism kallas för ett sannolikhetsurval Exempel på det är ”Obundet slumpmässigt urval” och ”Stratifierat urval” Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 5 Slumpmässiga urval Fördelar: Möjliggör att vi kan dra slutsatser om en hel population utifrån ett urval (generaliserbarhet). Gör att vi kan ange ett mått på hur säkra våra slutsatser är. Nackdelar: Kräver att vi har en lista över populationen Olämpliga då man vill studera egenskaper som är väldigt ovanliga i populationen Obundet slumpmässigt urval, OSU Vid OSU av n enheter har alla möjliga kombinationer av n enheter samma chans att bli valda Vid varje dragning av en enhet har de i populationen kvarvarande enheterna samma sannolikhet att bli valda Nackdelen med den här metoden är att ifall man vill jämföra män och kvinnor 50/50 och lotten faller så att det är blir 95% kvinnor och 5% män. Den här nackdelen går att applicera i alla undersökningar där man vill jämföra två motpoler. Stratifierat urval Dela in populationen i homogena delpopulationer (strata). Välj med OSU ett antal enheter i varje strata. Skäl: Säkerställa att de olika jämförelse-grupperna finns representerade i urvalet. Klusterurval Om det inte finns en förteckning över alla individer i populationen (eller om det är för tidskrävande att utföra ett OSU/Stratifierat urval) Ibland finns naturliga grupper (kluster) i populationen Exempel: hushåll, skolor, bostadsområden, arbetsplatser I ett klusterurval dras ett urval av kluster och alla enheter i de utvalda kluster undersöks (enstegs klusterurval) Jämförelse mellan stratifierat urval och klusterurval Stratifiterat urval: Samtliga strata ”representerar” sin del av målpopulationen Vi tar ett OSU i varje strata Mål: Stor skillnad mellan strata, liten skillnad inom strata Klusterurval: Samtliga kluster ”representerar” hela målpopulationen Vi tar ett OSU av kluster Mål: liten skillnad mellan kluster, stor skillnad inom kluster Systematiskt urval Utgår från en lista över enheterna i populationen, väljer var k:te enhet i populationen med en slumpmässigt start bland de första k enheter Välj t ex var 3:e med slumpmässig start bland de 3 första. Icke-slumpmässigt urval I praktikten tvingas man till avsteg från slumpmässigt urval. Huvudmotiven: Att samla in data snabbt Billigt och enkelt Behöver ej konstruera en urvalsram Huvudargumenten mot dessa typer av urval: Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 6 Svårigheten att generalisera resultaten till hela populationen och att det ofta är oklart hur osäkerheten i skattningarna ska beräknas Exempel: Kvoturval (kvoterar in så det matchar befolkningen), bekvämlighetsurval (de som är lättast att nå), snöbollsurval (fråga en, som frågar en), självvalda urval (t ex medicinska undersökningar eller internetundersökningar) Mätmetod – olika typer av undersökningar Experimentella studier (Ex. läkemedelsprövningar) Behandling. Försöksenheterna utsätts för vissa behandlingar i avsikt att studera effekten av dessa behandlingar Typiskt för experimentella studier är • Upprepbarhet. Experimentet kan upprepas ett önskat antal gånger • Randomisering. Försöksenheterna fördelas slumpmässigt på olika behandlingar • Dubbelblinda försök. Då försöksenheterna är människor vet i regel varken försökspersonen eller den som ger behandlingen vilken behandling försökspersonen får. • Vanligt med ”kontrollgrupper Observationsstudie (Ex. enkätundersökningar, telefonintervjuer..) • Undersökningsenheter eller händelseförlopp påverkas ej på något sätt. • ”Behandlingarna” i den experimentella studien ersätts av passivt observerande Kvalitet och felkällor ”Det finns många orsaker till fel i en undersökning” 1. Täckningsfel – uppstår då rampopulationen inte sammanfaller med målpopulationen Undertäckning (objekt som saknas) Övertäckning (objekt som inte ska vara med) 2. Urvalsfel – uppstår när man studerar ett urval istället för en hel population 3. Bortfallsfel – Uppstår exempelvis då inte alla utdelade enkäter blivit besvarade 4. Mätfel – Kan bero på mätmetoden, mätinstrumentet, respondenten eller intervjuaren 5. Bearbetningsfel – Kodningsfel, inmatningsfel, datorbearbetningsfel Kvalitetsbedömning av mätinstrument Reliabilitet är resultaten tillförlitliga eller finns det stor risk för slumpavvikelser Validitet är resultaten giltiga? Mäter man det man avser att mäta? Frågor som bör ställas man ska granska en undersökning • Vad var syftet med undersökningen? • Vem betalade för undersökning? • Vem genomförde undersökning? • När gjordes undersökningen? • Vilken population avses? • Hur stort stickprov togs? • Hur gjordes stickprovet? Slumpmässigt? • Hur har mätningen gjorts? • Är sambandet kausalt, eller finns det andra faktorer som kan ha påverkat? Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 7 Föreläsning 2 Visualisering och deskription Exempel på diagram kan vara stapeldiagram, cirkeldiagram, histogram, frekvenstabell, linjediagram, spridningsdiagram, lådagram (25-|25-25|-25) Olika typer av variabler ”kräver” olika diagram, vilket diagram är lämpligast till vald variabel. Beskrivande mått Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal. Läges- eller centralmått: Tyngdpunkten i ett datamaterial - Typvärde, median, medelvärde, kvartiler, percentiler Spridningsmått: Variation i ett datamaterial - Variationsvidd, kvartilavstånd, standardavvikelse μ (my) = populationsmedelvärde σ (sigma) = populationsstandardavvikelse • x̄ är en skattning av μ • x̄ är stickprovsmedelvärdet • s är en skattning av σ • s är stickprovsstandardavvikelsen Centralmått (Lägesmått) Ett lägesmått sammanfattar ene fördelning i ett enda tal och ger information om var fördelningens centrum är beläget Tre vanliga lägesmått: Typvärdet: det mest frekventa värdet Medianen: Delar materialet ”mitt itu”. Medelvärdet: Materialets tyngdpunkt. Mått för position Ibland är man intresserad av att mäta hut en observation förhåller sig till resten, dvs man vill veta en observationsposition Kvartiler och percentiler är ett sätt att mäta läge/position Median delar in observationerna i två lika stora grupper. Kvartilerna delar observationerna i fyra lika stora grupper (kvartar) 25% av observationerna är mindre än det första/nedre kvartilen 50% av observationerna är mindre/större än den andra kvartilen 75% av observationerna är mindre än den tredje/övre kvartilen Percentil – Man väljer ut en %-grad. Spridningsmått Ett spridningsmått ger information om fördelningens spridning. Är materialet väl samlat eller är det stor variation? Variationsvidd skillnaden mellan det största och minsta värdet Kvartilavstånd anger inom vilket avstånd de 50% mittersta observationerna ligger Standardavvikelse beskriver den genomsnittliga avvikelsen till medelvärdet Lådagram görs mellan Q1 och Q3, morrhåren får inte vara längre än 1 ”låda” + en halv ”låda”. Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 8 Föreläsning 3 Normalfördelning My – Populationsmedelvärde Sigma – Populationsstandardavikelse Finns filmer på JBstatistics på youtube Kännetecken för en normalfördelning - Den är symmetrisk Klockformad Ska uppfylla 68-95-99,7 regeln o 68% av observationerna ligger i området – en standardavikelse samt + en standardavvikelse o 95% av observationerna ligger +- 2 standardavvikelser o 99,7% av observationerna ligger +- 3 standardsavikelsen. Formel (viktigt) Hur beräknar man areor i normalfördelning? - - Via minitab eller normalfördelningstabeller som finns i boken. N(0,1) kallas för standardsnormalfördelningen och betecknas med Z. Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 9 Standalisera normalfördelningskurva - Värdet av X, Z = (x-my) / sigma Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 10 Föreläsning 4 Samplingsfördelningen, Centrala gränsvärdessatsen och konfidensintervall Fördelningen för en statistika kallas samplingsfördelningen, dvs den fördelning som beskriver hur det observerade värdet på statistikan varierar från stickprov till stickprov. Förståelse av begreppet samplingfördelning är viktig och är grunden för det som kallas statistisk inferens (att dra slutsatser om en population/modell utgående från empiriska data) Om X – N (µ, sigma) så kommer X-N (µ, sigma/roten ur samplestorlek/n Vad blir fördelningen för stickprovsmedelvärdet om populationen inte är normalfördelad? Fördelningen för stickprovsmedelvärdet kommer vara normalfördelat, dvs enskilda stickprov blir ”skeva” men stickprovsmedelvärdet blir normalfördelat så länge man tar ett tillräckligt stort/många stickprov från populationen Vet man hur stor standardavvikelsen är i stickprovsmedelvärdet vet vi att inom en standardavvikelse ligger 68% av populationen, inom två standardavvikelser ligger 95% och tre standardavvikelser ligger 99%. En standardavvikelse är sigma/roten ur n Centrala gränsvärdessatsen Konfidensintervall för µ (skatta ett värde på µ) Konfidensgrad, C Kritiskt värde, z* Felmarginal, m A level C confidence interval för a parameter has two parts: - An interval calculated from the data usually of the form estimate ± margin of error - A confidence level C, which gives the probability that the interval will capture the true parameter value in repeated samples X ± m, där m är felmarginalen (margin of error) för skattningen Skattning ± säkerhetsfaktor * standardavvikelsen för skattningen Konfidensgraden bestämmer värdet på det kritiska värdet z* Tabell D, finns z*-värdet där man kan bestämma konfidensgraden från 50%-99% 90% = 1,645 95% = 1,96 99% = 2,576 Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 11 Se film 3.1 ”Properly interpreting the interval” Längden på konfidensintervallet bestäms av konfidensgraden C, samt sigma och n. Allt annat lika så innebär vart och ett av följande tre fenomen ett bredare intervall: - Högre konfidensgrad - Större standardavvikelse i populationen - Mindre stickprovsstorlek Vad ska uppskattas? - Definiera populationsparametern av intresse (med hjälp av frågeställning) - Vilken konfidensgrad ska användas? Hur ska konfidensintervallet beräknas? - Vilken formel ska användas för att beräkna intervallet? Motivera ditt val - Vilken säkerhetsfaktor ska användas? Motivera hur säkerhetsfaktorn bestäms - Beräkna intervallet Hur ska intervallet tolkas? - Tolka intervallet i ord kopplat till frågeställningen Exempel: Antag att man vill uppskatta genomsnittsvikten (µ), av ett stort parti mandariner. Av tidigare erfarenhet vet man att viken är approximativt normalfördelad med sigma = 15. Ett stickprov om 9 mandariner tas och medelvärdet beräknas till 156,2 gram. a) beräkna ett 95%-igt konfidensintervall för µ. 15/3 = 5 * 1,96 = 9,8 +/- 156 b) Vad blir felmarginalen för intervallet i a) +/- 9,8 c) Beräkna ett 99%igt konfidensintervall för µ. 15/3 = 5*2,576 = +/- 12,88 d) Hur stort stickprov måste man ta för att felmarginalen på ett 95%-igt konfidensintervall inte får överstiga 3 gram. VI vill det n så att Z * sigma/roten ur n < 3 1,96 * 15/routen ur n < 3 1,96*15 < 3*roten ur n (1,96*15/3)^2 < n n > 96,04 Avrundar uppåt n > 97 Vad händer om sigma är okänd? T-fördelningen, Frihetsgrader Sigma skattas med s - Nu innehåller både skattningen my och sigma osäkerhet - Vi måste köra KI (konfidensintervallet) bredare för att ”gardera oss” för den extra osäkerheten som vi tillför då sigma också är okänd. - Om stickprovsstorleken ökar blir s en säkrare skattning av sigma och vi behöver inte ”gardera oss” lika mycket. - Använd T-fördelningen istället för normalfördelningen Se film 4.1 ”Introduction to the t-distribution” Behöver göra intervallet bredare resulterar i att man Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 12 använder t* istället för z* och s istället för sigma d.f = antalet observationer A) Ange (och beräkna) standardavvikelsen för stickprovsmedelvärdet s/roten ur n = 15,19/roten ur 9 = 5,06 = SE Mean B) Beräkna ett 95%-igt konfidensintervall för my t* = 2,306 156,2 +/- 2,306*5,06 (144,52,167,88) C) Vad blir felmarginalen för intervallet i B) ? +/- 2,5% D) Beräkna ett 99%-igt KI för my t* = 3,355 156,2 +/- 3,355*5,06 156,2 +/- 16,9763 Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 13 Moment 2 Inlämning första rapport 17/2 Skriftlig opponering 19/2 Seminarium 20/2 Inlämnas 25/2 Består av att i grupper om fyra-sex personer genomföra en enkätundersökning i syfte att praktiskt tillämpa den kunskap som inhämtats i moment 1. Består i stora drag av att - Planera en undersökning - Konstruera en enkät - Samla in data - Analysera insamlade data - Sammanställa resultat av undersökningen i en rapport (max 3-4 bilagor) - Presentera resultaten muntligt vid ett obligatoriskt seminarium - Granska en annan grupps rapport Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 14 Föreläsning 5 Inferensteori / Hypotestest av µ då σ är känd och okänd µσα Konfidensintervallet för µ blir alltid normalfördelad, däremot är inte populationen normalfördelad är ”konfidensintervallet” approximativ och kräver att n är större än 30. Tolkning av konfidensintervall: Med 95% säkerhet så befinner sig µ inom det beräknade intervallet. Kom ihåg.. - Att beskriva µ i ord kopplat till frågeställningen - Att felmarginalen är ett mått på urvalsfelet i en undersökning. För att konfidensintervallet ska ha den önskade konfidensgraden förutsätts att man tagit ett OSU från populationen samt att övriga fel (täckningsfel, bortfallsfel m.m) är försumbara. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (hypoteser). - Är myntet obalanserat? - Kommer 35% att rösta på Socialdemokraterna om det vore val idag? - Innehåller läskflaskor av ett visst märke i genomsnitt mindre än 500 ml? - Finns det en genomsnittlig skillnad i lön mellan kvinnor och män? - Finns det en skillnad mellan kvinnor och män gällande huvudsakligt syfte att träna? - etc. Koppling mellan hypotetisk-deduktiv metod och statistisk hypotesprövning Hypotetisk-deduktiv metod: Är en vetenskaplig metod som anses beskriva hur empiriska vetenskaper fungerar. En av de första personer att beskriva metoden var Karl Popper (1902-1994). Popper underströk falsifierbarhet som grunden för vetenskaplig verksamhet. Motsägelsebevis: Inom statistisk hypotesprövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”. Man kan välja att definiera en ”osannolik händelse” som en händelse som inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer: Man väljer signifikans nivå (α) 5%. Kasta ett mynt 20 gånger: H0 (Nollhypotes) – Myntet är balanserat Ha (Alternativhypotes) – Myntet är inte balanserat Signifikansnivå 5% / Slutats: Förkasta H0 om p-värdet <signifikansnivån Antal 10 12 14 15 16 18 20 klave/krona P-värde 1,000 0,5034 0,1153 0,0414 0,00012 0,00004 0,000002 P-värde – Sannolikheten att få det observerade utfallet eller något extremare i riktning mot alternativhypotesen, beräknad under förutsättningen att nollhypotesen är sann. Omvandlas till %-värde Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 15 Centrala Begrepp: Nollhypotes, H0 Det vi vill kunna motbevisa Alternativhypotes, Ha Det vi vill bevisa Teststatistika Ett mått som mäter överensstämmelse mellan det vi har observerat och nollhypotesen. Signifakansnivå, α Vår definition ”osannolik”, vanligtvis 5%, 1% eller 0,1%. Kallas även för felrisk. Slutsats Man förkastar nollhypotesen och tror på alternativhypotesen om man får en ”osannolik händelse”, dvs en händelse som har väldigt liten sannolikhet att inträffa om nollhypotesen är sann. Typ 1-fel Att förkasta H0 trots att H0 är sann. (att fälla en oskyldig) Typ 2-fel Att inte förkasta H0 trots att H0 är falsk. (att fria en skyldig) Det står på flaskan att den innehåller 500ml,. Stämmer det? Av tidigare erfarenhet vet man att variationen i innehållsmängd, pga påfyllnadsprocess kan beskrivas med en normalfördelning med σ = 2 Ett stickprov på 10 flaskor tas. Stickprovsmedelvärdet observerades till 501,94 ml Vad är sannolikheten att vi får ett stickprovsmedelvärde som avviker från 500ml med så mycket som 1,94ml? Verkar det rimligt att det genomsnittliga innehållet i flaskorna är 500 ml utifrån detta stickprov? Om H0 sann X – N(500,2) x(sträck) – N(500, 2/roten ur 10) x(sträck) – my / sigma /roten ur 10 = 501,94-500/ 2/roten ur 10 = 3,067 P-värde = 0,0022 Vårat sanna värde är tre standardavvikelser bort Förkasta H0 (vi har fått en osannolik händelse), vi har empiriskt stöd, på 5% signifikansnivå, för att den genomsnittliga mängden i flaskan inte är 500ml Påfyllnadsprocessen justeras i syfte att hålla löftet om 500ml i flaskorna. Nytt stickprov om 10 flaskor tas. Stickprovsmedelvärdet observerades nu till 499,47ml. Vad är sannolikheten att vi får ett stickprovsmedelvärde som avviker från 500ml med så mycket som 0.53ml. 499,47-500 / 2/roten ur 10 P-värde = 0.4020 Två olika metoder: Det finns två olika metoder för att avgöra om man kan förkasta nollhypotesen eller inte. Dessa är: Kritisk värde På värde Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 16 Exempel a) H0 = 25 minuter Ha = 30,22 minuter x – 25 / 12/roten ur 18 = N (0,1) ((30,22-25) / 12/roten ur 18)) = 1,85 1,85 är mindre än 1,96, kan ej förkasta hypotes. b) p-värde = P(Z>1.85) = 0,0322 Tabell A (1-1.85 = 1-0,9678 = 0.0322) Förkasta H0 om p-värdet är mindre än < 0.05 Slutsats: Eftersom p-värde = 0.0322 < 0.05 förkastas H0. Vi har empiriskt stöd, på 5% signifikansnivå, för att den genomsnittliga tiden som de anställda lägger på att läsa och rensa skräppost är mer än 25 minuter per dag. c) Förkasta H0 om Z005 > 1.645 90% ifall signifikansnivån är 5%. d) Förkasta H0 om Z001 > 2.326 98% ifall signifikansnivån är 1%. 1.85 Förkastas inte. f) e) byter ut sigma till s då sigma är okänd. Använder oss av t-fördelningen med t(n-1) vilket ger oss t(17) s = 12.47 ((30,22-25) / 12,47/routen ur 18)) = 1.78 p-värde blir då 1.74 vilket är kritiska gränsen för när hypotesen ska förkastas. Iom att hypotesen blev 1.78 så förkastas hypotesen. Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 17 Föreläsning 6 Konfidensintervall och hypotestest av skillnaden mellan två populationsmedelvärden Repetition CGS Modell Parameter Statistika Repetition av samplingsfördelning: Repetition av teststatistika, konfidensintervall: Under repetitionen poängterar hon vikten av att lära sig att följa “arbetsgången vid konfidensintervall” samt “arbetsgången vid hypotesprövning” som finns på cambro. ● ● ● Konfidensintervall och hypotestest av skillnaden mellan två populationsmedelvärden Konfidensintervall och hypotestest för populationsproportion Konfidensintervall och hypotestest av skillnaden mellan två populationsproportioner Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 18 Ansatsen är att vi vill jämföra två olika data, exempelvis från två olika grupper. Vi vill testa om de är skillnad på de två grupperna eller inte. Vill vi ta fram ett konfidensintervall som jämför de två dataseten så använder vi nedan formel: En sak som är klurig är att de olika dataseten kan ha olika många frihetsgrader. Om detta är fallet (vilket det oftast är) så använder vi den lägre frihetsgraden. Om vi vill göra ett hypotestest som prövar om det är skillnad mellan grupperna eller inte så gör vi såhär: Hela klassen gör ett hypotestest för att jämföra kvinnors och mäns resultat på universitetsprov med utgångspunkt i nedan siffror: Nollhypotesen är alltid att grupperna är lika varandra dvs. ¨ H0: µ1-µ2=0 Apropå att beskriva teststatistikans fördelning på tentafrågor: När vi beskriver teststatistikans fördelning på tentafrågor så säger vi att “T~t(n-1) om nollhypotesen är sann”. Eller “T är fördelad (n-1) om Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 19 nollhypotesen är sann”. Beskriver vi inte att t bara är fördelad på detta sätt endast om nollhypotesen är sann – så får vi avdrag/färre poäng. Tolkning: “Vi har empiriskt stöd på 5% signifikansnivå för att säga att kvinnorna har högre genomsnittliga poäng än männen” Matched paired t-test “Matched paired t…” är ett annat test. Det används för att jämföra “ett par”. Här kollar vi på skillnaden (differansen) mellan två dataset (ett par) och sedan gör vi ett vanligt t-test på skillnaden dvs. Ett exempel på ett par kan vara exempelvis att man mäter en viss grupps längd på morgonen, och sen mäter man deras längd på kvällen. Eller att man låter en grupp vinsmakare betygsätta smaken av ett visst vin när flaskan är nyöppnad vs när den har vart öppen några timmar exempelvis. Att jämföra ett “par” är alltså lite olika jämfört med att jämföra två helt olika grupper. En vanlig ansats till ett “matched pair t-test” för att undersöka om skillnad finns skulle kunna vara: H0: µdiff=0 Ha: µdiff≠0 Och sen som vanligt räknar du ut t= x̄ −µdiff (dinhypotetiska µ) s /√ n Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 20 Föreläsning 7 Konfidensintervall och hypotestest för populationsproportion samt hypotestest av skillnaden mellan två populationsproportioner Populationsproportion, p används till kvalitativa data. p = proportionen/andelen i populationen som har en viss egenskap p^-1+0+1 +0+1+1 +1…/n=p^n p^~N( p, √ p^( 1 p^) ¿ √ n S var e tvi s arpåde ns annaande l e n s om c ykl ar Avvi ke l s e nf ör0=p Avvi ke l s ef ör1=1p a )650260 =390 1=260 0=390 260 /650=0. 4p^ 0 . 4( 10 . 4)/650 0 , 4898/25 , 695=0, 019*1, 96=0 , 0377 b)p^+m 0 , 4+0 , 0377=( 0 , 36: 0 , 44) Me d95% s äke r he ts åanvände r36% t i l l44% a val l avuxnaanvände rc yke l hj äl m. P P( 1p) 0 , 1 0, 09 0 , 2 0, 16 0 , 3 0, 21 0 , 4 Bas e r a tpåt i di gar er e s ul t a tt r ormana t tande l e nhj äl manvändar eiSunds val lär0, 3 . 0 , 5 n=1, 96^2=3, 8416*0 , 21/0 , 0009=896 , 37~n=897pe r s one r Om manut gårf r ånpl ane r i ngs vär de tpå0, 3s åbe höve rmant ami ns t897pe r s one rf ör a t tuppf yl l ade nöns kvär daf e l mar gi nal e n. Ve tmani nt epl ane r i ngs vär de tut gårmanf r ån0 , 5. N komme rbl if örs t or tme nde tkomme r s t ämmabäs töve r e nsme dve r kl i ghe t e n( s om manännui nt eve t ) 0, 24 c )m =z **r ot e nurp^( 1p^) /r ot e nurn 0 , 03=1 , 96*r ot e nur0 , 4( 10 , 4)/r out e nurn 0 , 03^2=0, 4 ( 10 , 4) /n*1 , 96 n=1, 96^2*p^( 1 p^)/0 , 03^2 3 , 8416*0, 24/0, 0009=1024, 426=n n=z^2p^( 1p^) / s ka t t ni ng^2 H0=p=0 , 3 Ha=p>0, 3 Ie t ts t i c kpr ovom 400ut val davi s arde ta t t128s t yc ke nanvände rc yke l hj äl m Sampl ep=p^=0, 32 Zvär de=0 , 87 Kr i t i s kavär de s me t ode n Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) 0, 25 lOMoARcPSD|9771091 21 Pvär de s me t ode n Te s t aom de tfinnse ns ki l l nadiande l e n vuxnas om a nvände rc yke l hj äl m iUme å oc hSunds val l ? P1P2=s ki l l nade n Ski l l nade nära t t8% fle ranvände r Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) Diagram 2 lOMoARcPSD|9771091 22 c yke l hj äl m iUme åäniSunds val l . Hypot e s e r :H0: PuPs=0/Pups=/=0 Te s t s t a t i s t i s kaf ör de l e ndåH0s ann: N( 0, 1 )e nl i gtCGSt yn1oc hn2>30 Si gni fikans ni vå5% Be s l ut s r e ge l 2 , 5% påvar j ehör ninor mal f ör de l ni ngs kur va . För ka s t aH0oc hZ005>1 , 96 ( al t e r na t i vtpvär de<0, 05 ) I om a t tZvär de tär2, 61=0, 9955=pvär de=0, 004 5* 2=0, 009 Sl ut a t s :För kas t aH0e f t e r s om >2 , 61>1 , 96(0, 009<0, 05 ) Vihare mpi r i s kts t ödpå5% s i gni fikans ni våf öra t tde tfinnse ns ki l l nadipopul a t i ons ande l e n vuxnas om a nvände rc yke l hj äl m iUme åoc hSunds val l . Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 23 Föreläsning 8 – Chi2 test Chi2-test används för att ta reda på ifall det finns något samband mellan två kvalitativa variabler Vanligt att använda när man gör en enkät t.ex. Finns det något samband mellan hur många timmar man i snitt lägger på studier per vecka och vilket kön (man/kvinna) man har? Utmätt tabell Cyklar inte Cyklar Man 5 45 Kvinna 25 75 Cykelexempel för att se samband Man kan ställa upp i stapeldiagram för att visuellt kunna se den procentuella skillnaden. Nollhypotes: Det finns inget samband mellan kön och vintercykling till Umu Mothypotes: Det finns ett samband mellan kön och vintercykling till Umu Mothypotesen i ett Chi2-test är alltid ”dubbelsidigt” Finns ett samband då Chi2-test innehåller så pass många kategorier som det gör. Om H0 sann förväntar vi oss att Andel cyklar: 120/150 = 80% Andel inte cyklar: 30/150 = 20% Förväntad tabell om H0 är sann Man Cyklar inte Cyklar 0.2*50=10 0.8*50=40 Kvinnor 0.2*100=20 0.2*100=80 Teststatistiska som mäter avståndet mellan alternativhypotesen och nollhypotesen. X2Obs = (5-10)2/10 + (45-40)2/40 + (25-20)2/20 + (75-80)2/80 = 4,69 Chi2-fördelningen är beroende av sina df. Vid 5% signifikansnivå förkasta H0 om X2obs > 3,84 Vid chi-2 tabell så är det (antalet rader – 1)*(antalet kolumner – 1 ) för att räkna ut frihetsgrader Nol l hypot e s e nf ör kas t ase f t e r s om 4, 69>3, 84 .Empi r i s kts t ödpå5% s i gni fikans ni våa t tde t finnse t ts ambandme l l ankönoc hant als om c ykl arpåUme åUni ve r s i t e t . Föra t tmans kakunnal i t apår e s ul t a t e tf r åne t tc hi 2. t e s ts åkr ä vsde ta t tde nf ör vänt ade t abe l l e nuppf yl l e rvi s s akr a v 1 .Me de l vär de ta vdef ör vänt adevär de nas kavar ami ns t5oc hi nge tvär def årvar ami ndr eän 1 . 2 .Ie n2 * 2t abe l ls åkr ä vsde ta t tal l af ör vänt adevär de närmi ns t5 . Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 24 Introduktion – moment 3 Linjär regression: Utforska samband mellan en kvantitativ responsvariabel och en eller flera förklarande variabler. Enkel linjär regression: En förklarande variabel Multipel regression: Fler än en förklarande variabel Regressionslinje: Vi använder en regressionslinje för att beskriva sambandet mellan fäders och söners längder. Regressionsekvationen: Regressionslinjen på föregående sida beskrivs med följande formel Linjens formel (regressionsekvationen) har beräknats med minstakvadratmetoden Prediktion: Använd regressionsekvationen för att prediktera förväntad längd hos en son till en kort fader (165 cm) 86,1 + 0,514*165 = 170,9cm Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 25 Föreläsning 9 – Korrelation och enkel linjär regression Korrelationskoefficienten, r Ett mått på styrkan (och riktningen) på det linjära sambandet mellan två variabler x och y. Korrelationskoefficienten kan anta värden mellan -1 och +1 Observera att r är ett mått på linjärt samband, så även om r= 0 kan det finnas ett icke-linjärt samband mellan x och y. Olika värden på korrelationskoefficienten Exempel: Prediktera koldioxidutsläpp: Kan tjänstevikten förklara en del av variationen i koldioxidutsläpp? Skattad linje: y = -1,04 + 1,89x Enkellinjär regression formel Antaganden om modellen: Sambandet mellan x och y är linjärt Feltermerna är normalfördelade med väntevärde 0 Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 26 Feltermerna har konstant varians, σ2 Feltermerna är oberoende Skattning av modellen Skattning av modellen innebär att skatta värdet på parametrarna i modellen, dvs interceptet och lutningen på regressionslinjen Minstakvadratmetoden är en metod för att skatta parametrarna i modellen. Med minstakvadratmodellen ”väljs” de skattade parametrarna så att summan av residualerna i kvadrat minimeras. Residualerna ei=y-y^, anger differensen mellan det faktiska observationsvärdet y, och det predikterade värdet y^. Kontroll av medelantaganden: Residualerna används för att kontrollera modellantagandena (antagande om linjärt samband och slumpfelet (Ei) fördelning etc.) Detta görs genom att rita upp olika typer av diagram med residualerna. Residualanalys, modelldiagnostik, modellkontroll Plotta residualerna mot x! Residualerna ska ligga ett konstant band runt noll… Antagandet om linjärt samband (= antagandet om att värdevärdet för Ei är noll för oavsett värde på x) Antagandet om att variansen för Ei är konstant. Gör ett histogram över residualerna! Ska likna en normalfördelning.. Gör en s.k normal probability plot punkterna ska följa inritade linjen.. Teoretiska modellskattningen är ”verkligheten” Outliers och inflytelserika observationer En observation som avviker från de övriga observationernas mönster sägs vara en outlier En obeservation sägs inflytelserik om dess borttagande från (regressions-) analysen förändringar resultatet i hög grad. Varför kontroll av modellantaganden? Om modellantaganden inte är uppfyllda kan vi inte lita på den statistiska inferens (test, konfidensintervall etc.) vi vill göra och modellen passar inte för att beskriva Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 27 sambandet mellan variablerna. Se film 9.1, 9.2 och 9.3 https://www.youtube.com/watch? v=iMdtTCX2Q70 SST = Kvadratsumma totalt / total variation SSE = Kvadratsumma av fel / oförklarad variation SSR = Kvadratsumma av regression / förklarad variation Forts. koldioxidutsläppsexemplet Totala kvadratsumman Residualkvadratsumman SST= 2,54 ”total variation” SSE= 0,43 ”oförklarad variation” R2= SSR/SST = (SST-SSE)/SST = (2,54-0,43)/2,54 = 0,83 83% av variationen i koldioxidutsläpp kan förklaras av variationen i tjänstevikt R2 är mellan 0 och 1 (0-100%) Förklaringgraden är korrelationskoefficienten i kvadrat r = 0,9 = förklaringsgrad R2 = 0,92 = 0,81 Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 28 Föreläsning 10 – Mer om enkel linjär regression Modellantaganden: 1. Det förväntade värrdet av E är 0 oavsett värde på x (Modellen är korrekt specificerad) 2. E har konstant standardavvikelse, sigma, oavsett värde på x 3. E är normalfördelade 4. E1, E2 … är oberoende Prediktion: Skattat samband: ŷ=-1,04+1,89x x=1,8 ŷ = interpolation x=2,6 ŷ = extrapolation Vad är nytt för idag? Hypotestest för (B0) och B1 Konfidensintervallet för interceptet (B0) Konfidensintervall för lutningen B1 Konfidensintervall för µy (för ett specifikt värde på x) populationsmedelvärdet av y Prediktionsintervall för y* (för ett specifikt värde på x) en specifik person (y) Exempel: a) Kan man på 5% signifikansnivå påstå att det finns ett linjärt samband mellan koldioxidutsläpp och tjänstevikt? Alla stegen i hypotesprövningen ska redovisas H0 – B1 = 0 Ha – B1=/= 0 Teststatistika: är T-fördelad med n-2 = 6 frihetsgrader om H0 är sann Signifikansnivå: 5% Beslutsregel: Förkasta H0 då Tobs > 2,447 eller då Tobs < -2,447 (eller om p-värdet < 0,05) Observation: Tobs = 5,41 (p-värdet 0,002) Nollhypotesen förkastas, vi har emp stöd på 5% signifikansnivå då 5,41 > 2,447 df(6) b) Kan man på 5% signifikansnivå påstå att koldioxidutsläppet i genomsnitt ökar med ökad tjänstevikt? H0 – B1 = 0 Ha – B1 > 0 c) Bilda ett 95% konfidensintervall för lutningsparametern. Kom ihåg at tolka intervallet i sitt sammanhang b1 +/- t* SEb1 (skattade felmarginalen) 1,892 +/- 2,447 * 0,350 [1,04:2,75] Med 95% säkerhet ökar CO2-utsläppet i genomsnitt med 104 till 275 gram per extra ton tjänstevikt Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 29 Inferens: Hypotesprövning, intervallskattning etc. Inferens för lutningsparametern B1 Yi = β0 + β1 *xi + εi , Vi skattar lutningen med minstakvadratestimatorn b1 = r Sy/Sx Hur varierar estimatorn B1 från stickprov till stickprov? Vi låtsas att datamaterialet med 1078 fäder och sönder är en totalundersökning β0 = 86,1 β1 = 0,514 Vi drar upprepade slumpmässiga stickprov (20 fäder/söner) och skattar lutningen från varje stickprov Samplingfördelning för b1 Ibland underskattas den sanna lutningen och ibland överskattas de. MEN: i genomsnitt prickar estimatorn b1 rätt! Dessutom verkar det som att b1 är normalfördelad Vi kan utnyttja detta för att göra hypotestest och konfidensintervall för β1 Vi skulle dock behöva ett mått för variationen för b1 Konfidensintervall för β1 I formelsamlingen anges följande formel för konfidensintervall Dividera b1-talet med SEb1 för att få t-värdet, samma sak med b0 där SE är medelfelet (standard error) Konfidensintervall och test för β0 görs på motsvarade sätt, men är sällan relevant att göra. (att β0 = 0 innebär att regressionslinjen går igenom ”origo”) KI och PI för responsvariabeln Det är svårare att förutsäga en enskild observation än ett populationsgenomsnitt, så ett prediktionsintervall är alltid bredare än motsvarade konfidensintervall Konfidensintervallet är snävare än prediktionsintervallet då KI förutsäger populationsgenomsnittet och PI förutsäger en enskild observation Bredden på KI bestäms av konfidensnivån samt av den osäkerhet som vi har i skattningarna av B0 och B1 Bredden på PI bestäms av konfidensnivån samt av den osäkerhet som vi har i skattningarna av B0 och B1 samt osäkerheten i att den enskilda observationen kan avvika från genomsnittet (den osäkerheten är sigma) Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 30 Tolka de två intervallen i ord kopplat till uppgiften Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 31 Föreläsning 11 – Multipel linjär regression Information från 155 slumpmässigt utvalda bostadsförsäljningar i Oregon Variabler som ingår i datasamlingen är: Slutpris (1000tal USD) Boarea Tomtarea Antal rum Antal badrum Ålder Målet är att skapa en enkel modell som kan användas för att prediktera slutpriset på ett hus. R2 = förklaringsgrad = 54,3% 54,3% av variationen i slutpris kan förklaras av variationen i boarea. r = korrelation = roten ur R2 + riktning = 0,74 Korrelationen anger styrkan och riktningen på det linjära sambandet T-test för B1 Vilka hypoteser testas? H0 = B1 = 0 Ha = B1 =/= 0 Vilken fördelning har Teststatistikan under nollhypotesen? t-fördelad med t(153) Vad är er slutsats? Förkasta nollhypotesen då p-värdet < 0,05 Multipel linjär regression Man lägger till flera x-variabler i formeln. yi = β0+β1*xi1+ β2*xi2+.…+ βp *xip+ εi (p = antal förklarande variabler i modellen) yi är slutpris för hus i xi1 är boarea för hus i xi2 är tomtarea för hus i xi3 är antal rum för hus i xi4 är antal badrum för hus i xi5 är åldern för hus i Justerad förklaringsgrad Radj2 Den vanliga förklaringsgrader ökar alltid när man utökar modellen med nya förklaringsvariabler (utan något verkligt samband Den justerade förklaringsgraden minskar i värde om man utökar modellen med en förklaringsvariabel som knappt ger någon ”tilläggsinformation” om responsvariabeln. Hypotesprövning: F-test (overalltest): Görs för att testa om någon av förklaringsvariablerna har samband med responsen testar nollhypotesen ”ingen av förklaringsvariablerna har samband med responsvariabeln” mot alternativhypotesen ”minst en av förklaringsvariablerna har samband med responsvariabeln” H0: B1 = B2 = B3 = B4 = B5 = 0 Ha: Minst en av Bj =/= 0, där j = 1, 2 .. Signifikansnivå 5% Teststatistikans fördelning är F(5,149)-fördelad om H0 sann (149 från error) (5 från regression) Beslutsregel: Förkasta H0 om p-värdet < 0,05 Observation: p-värde = 0,000 Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 32 Slutsats: efter 0,000 < 0,05 så förkasta H0. Vi har empiriskt stöd på 5% signifikansnivå för att åtminstone en av variablerna (boarea, tomtarea, antal rum, antal badrum och ålder har ett linjärt samband med Slutpris. T-test: Görs för att testa om en enskild förklaringsvariabel har samband med responsen, när de övriga förklaringsvariablerna är med i modellen Vid multipel regression görs t-testen under förutsättningen att ”övriga förklaringsvariabler är med m modellen” Frihetsgrader räknas ut genom t(n-p-1) där man alltså förlorar 1 frihetsgrad för varje B-koefficient som är med i modellen H0: Första förklaringsvariabeln (andra, etc) har inget samband med responsvariabeln, givet att övriga variabler är med i modellen H1: Första förklaringsvariabeln (andra, etc) har ett samband med responsvariabeln, givet att övriga variabler är med i modellen Slutsatser: Det finns empiriskt stöd på 5% signifikansnivå att det finns ett samband mellan slutpris och boarea, givet att tomtarea, antal rum, antal badrum och ålder är med i modellen. (Finns även empiriskt stöd för samband mellan slutpris och tomtarea / antal badrum givet att -||-) Det finns inte empiriskt stöd på % signifikansnivå att det finns ett samband mellan slutpris och antal rum, givet att boarea, tomtarea, antal badrum och ålder är med i modellen (Finns inte heller empiriskt stöd för samband mellan slutpris och ålder givet -||-) Ta bort ålder och antal rum från modellen för att få en så enkel modell som möjligt Leder till att vi får R-sq på 62,56% 62,56 av variationen i slutpris kan förklaras med hjälp av boarea, tomtarea och antal badrum. Tolkning av koefficienter 35,4 + 0,7204 boarea + 0,00510 tomtarea + 27,13 antal badrum b1 = 0,7204: Hus som har 1m2 större boyta har i genomsnitt 720,4 USD högre slutpris under förutsättningen att tomtarea och antal badrum hålls konstant. b2 = 0,00510: Hus som har 1m2 större tomtarea har i genomsnitt 5,1 USD högre slutpris, under förutsättningen att boarea, antal badrum hålls konstant. b3 = 27,13: Hus som har ett badrum har i genomsnitt 27130 USD högre slutpris, under förutsättningen att boarea och tomtarea hålls konstant. OBS: Inte kausal tolkning! I slutsatser vid t-test skrivs (då det är relevant): ”... givet att övriga variabler är med i modellen” I tolkningar av koefficienter skrivs (då det är relevant): ”… givet att övriga variabler hålls konstanta” Vill man se hur en variabel påverkar utfallet så ska man inte ändra de andra variablerna (tänk förstärkare med bas, diskant etc.) Konfidensintervall för enskild parameter Konfidensintervall för genomsnittlig respons vid specifika värden på förklaringsvariablerna, KI för my Prediktionsintervall för enskild ny respons med specifika värden på förklaringsvariablerna, PI för y Multikolinjäritet = En förklaringsvariabel som är starkt korrelerad med någon annan av modellens förklaringsvariabler Kan leda till problem för regressionsmodellen: - Svårt att särskilja de olika variablernas individuella ”effekter”. Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 33 - De sammanblandade effekterna gör att skattningarna av koefficienterna i modellen inte blir tillförlitliga. - Medelfelen för skattningarna av koefficienter kan bli (väldigt) stora - Kan leda till att regressionskoefficienter som ’borde’ vara signifikanta (dvs =/= 0) inte blir det. Ftestet signifikant men inte något signifikant t-test - Koefficientskattningarna kan förändras mycket om en annan variabel är med i modellen eller inte - Variabel A ”behövs” inte i modellen samtidigt som variabel B Upptäcks genom: Rita spridningsdiagram mellan förklaringsvariabler Beräkna korrelationskoefficient mellan förklaringsvariabler Att F-test och t-test är ”motsägelsefulla” VIF-värden (”Variance Inflation Factor”) Åtgärder: Plocka bort en av de korrelerade förklaringsvariablerna ur modellen Skapa en ny variabel som är en funktion av flera förklaringsvariabler och använda den (t.ex. BMI) Höga VIF-värden behöver inte vara ett problem – kolla på vad som faktiskt händer i modellen Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 34 Föreläsning 12 Polynomregression + inkludering av kvalitativa variabler i modellen Polynomregression: Hittills har vi utgått från linjära samband mellan x och y. Vad om sambandet inte är linjärt? För att undersöka hur gödselmängden påverkar skörden så gjordes en liten undersökning. Följande data erhölls: Gödsel Skörd 1 25 2 50 3 60 4 70 5 70 6 60 Antagandet om att väntevärde är noll är inte rimligt i det här fallet. Dvs den ansatt linjära modellen är inte lämplig! Åtgärd: Utöka modellen med x2-term Tolkning av koefficienter ”Om gödselmängd ökar med en enhet så ökar skörden i genomsnitt med 34 enheter, givet att gödselmängd i kvadrat är konstant” Är det rimligt? x kan inte öka samtidigt som x2 är konstant, och vice versa Ingen (direkt) tolkning av koefficienterna Ingen genomsnittlig (linjär) ökning, skillnaden i skörd mellan 1 och 2 är inte samma som mellan 4 och 5. Vi kan skatta och beskriva skillnaden i y mellan specifika värden av x. Skörd = -4,5 + 33,88*Gödsel – 3,839*Gödsel2 I genomsnitt är skörden 13,52 enheter högre när gödsel har värde 3, jämfört med värde 2 Modellen kan användas för prediktion, KI och PI Vad om vi har en kvalitativ variabel? t.ex. kön Kvinnor y = 2+3x Män y = 6+3x Vad är avståndet mellan linjerna? Hur kan vi uttrycka de två separata ekvationerna som en ekvation istället? Lägg till en ny variabel x2 = 0, för kvinnor 1, för män Exempel: Electronic wolrd, en affärskedja som säljer ljud- och bild-utrustning har samlat in följande data: Försäljningsvolym i juli förra året (1000 USD) (y) Antalet hushåll i närområdet (1000-tal) Butikens läge – Gata/Galleria Försäljningsvolym är högre ju fler hushåll i närområdet Försäljningsvolym är högre om butiken är placerad i en galleria jämfört med om butiken är placerad på en gata. Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 35 Svar: vi inför en s.k indikatorvariabel i modellen och gör sedan en vanlig multipel regression. En indikatorvariabel kan anta endast två värden, 1 eller 0 Man sätter indikatorvariabeln till 1 för att indikera en viss egenskap Då vi har valt variabeln Läge_Galleria betyder det här att vi säger att Gata är vår referenskategori, eller jämförelsekategori. Tolkning av koefficienter Försäljning = 17,36 + 0,8510*Antal Hushåll + 29,22*Läge_Galleria b0 = 17,36: Den genomsnittliga försäljningen är 17360 USD om det finns noll hushåll i närområdet samt att butiken ligger på en gata b1 = 0,8510: Försäljningen är i genomsnitt 851 USD högre för en butik med 1000 fler hushåll i närområdet, givet att placeringen av butiken är oförändrad (hålls konstant) b2 = 29,22: Försäljningen är i genomsnitt 29220 USD högre om butiken ligger i en galleria i jämförelse med om butiken ligger på en gata, givet att antalet hushåll i närområdet är oförändrat (hålls konstant) Hur ser den skattade modellen ut för Gatu-butikerna? 17,56 + 0,851x Hur ser den skattade modellen ut för Galleria-butikerna? 46,58 + 0,851x Vad skulle koefficienterna i den skattade ekvationen y = b0+b1xi1+ b2xi2 , vara om vi hade definierat indikatorvariabeln tvärtom? 17,36 + 0,851x 1 - 29,22 *gata Om man inkluderar en indikatorvariabel i sin modell så skattas två parallella linjer/plan. Koefficienten framför indikatorvariabeln anger avståndet mellan de två linjerna/planen. Kvinnor: y = 2 + 3*x Män: y = 6 + 5*x y = 2 + 3x1 + 4x2 + 2x1*x2 Vi inför en s.k indikatorvariabel samt en samspelsvariabel i modellen och gör sedan en vanlig multipel regression Försäljning = 7,9 + 0,921*Hushåll + 42,7*Läge_Galleria – 0,092*Hushåll*Läge_Galleria • b0 = 7,9 : Den genomsnittliga försäljningen är 7900 USD om det finns noll hushåll i närområdet samt att butiken ligger på en gata. (Interceptet för gatu-linjen. Ej relevant.) b1 = 0,921: Försäljningen är i genomsnitt 921 USD högre om antalet hushåll i närområdet är 1000 stycken fler och placeringen av butiken är på en gata. (Lutningen för gatu-linjen) b2 = 42,7 : Om antalet hushåll är noll så är försäljningen är i genomsnitt 42700 USD högre om butiken ligger i en galleria i jämförelse med om butiken ligger på en gata. (Skillnaden i intercept. Ej relevant.) b3 = -0,092: Om antalet hushåll är 1000 stycken fler så är försäljningen i genomsnitt 92 USD mindre för butiker i gallerior i jämförelse med butiker på gatan. (Skillnaden i lutning) Alternativt: b1+b3 = 0,921-0,092 = 0,829. Försäljningen är i genomsnitt 829 USD högre om antalet hushåll i närområdet är 1000 stycken fler och placeringen av butiken är i en galleria. (Lutningen för galleria-linjen) Ni bör komplettera er skattningar Bj med KI Ni kan även göra hypotestest för att t.ex. besvara frågan om skillnaden i lutning är statistiskt säkerställd… Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com) lOMoARcPSD|9771091 36 Downloaded by Peter Szwajka (piotr.szwajka38@gmail.com)