Stokastik för ingenjörer
JESPER
RYDÉN
Andra upplagan
AA Studentlitteratur
K
Kopieringsförbud
Detta verk är skyddat av upphovsrättslagen. Kopiering,
utöver lärares och studenters begränsade rätt att kopiera
för undervisningsändamål enligt Bonus Copyright Access
kopieringsavtal är förbjuden. För information om avtalet
hänvisas till utbildningsanordnarens huvudman eller
Bonus Copyright Access.
Vid utgivning av detta verk som e-bok, är e-boken
kopieringsskyddad.
Den som bryter mot lagen om upphovsrätt kan åtalas av
allmän åklagare och dömas till böter eller fängelse i
upp till två år samt bli skyldig att erlägga ersättning till
upphovsman eller rättsinnehavare.
Studentlitteratur har både digital och traditionell
bokutgivning. Studentlitteraturs trycksaker är miljöanpassade, både när det gäller papper och tryckprocess.
Art.nr 36022
ISBN 978-91-44-10895-7
Upplaga 2:1
& Författaren och Studentlitteratur 2014, 2015
www.studentlitteratur.se
Studentlitteratur AB, Lund
Omslagslayout: Francisco Ortega
Omslagsbild: Adam Dahlstedt
Printed by Graficas Cems S.L., Spain 2015
Förord
I denna bok ges en introduktion till grundläggande sannolikhetslära och statistiska metoder för en inledande kurs i matematisk statistik. Tidigare versioner av manuskriptet har använts i undervisningen för studenter på högskoleingenjörsprogrammen. Den matematiska nivån hålls på så elementär nivå
som möjligt och framställningen har gjorts med tanke på ingenjörstillämpningar. För bevis och utförligare motivering till en del resultat hänvisas till
annan litteratur. Boken är inte tänkt som en i första hand enkel hand- eller
uppslagsbok — begrepp förklaras eller motiveras och anknyts sedan ofta till
senare i texten.
Att grundligt förankra och ge förståelse för de vanligaste och viktigaste
begreppen inom ämnet, som sannolikheter, fördelningar, skattningar, konfidensintervall, är viktigt med tanke på eventuella påbyggnadskurser inom t.ex.
kvalitetsteknik, där statistiska metoder är ett viktigt verktyg. En hel del problemställningar som ges fokuserar därför på frågeställningar kring felaktiga
komponenter, felandelar i produktion osv.
Datorer med lämplig programvara är ett viktigt inslag för statistikämnet
av idag. Jag har dock valt att hålla texten så ren som möjligt, och inte presentera programkod eller utskrifter. Risken finns att det blir för många intryck
för en ovan läsare. Dock är det en stor fördel om kompletterande datorinslag ingår i en kurs där boken används; exempelvis har detta förekommit vid
kurstillfällen vid Uppsala universitet där materialet använts. Ett undantag har
gjorts: I kapitel 8 om regressionsanalys förekommer programutskrifter (från
R); detta eftersom ”handräkningar” (i praktiken med räknedosa) för detta mo-
ment ofta är ganska tunga och utskrifterna sammanfattar stora mängder in-
formation i tabellform.
I slutet av kapitlen återfinns övningsuppgifter, med korta lösningsförslag
i slutet av boken. Bland uppgifterna finns sådana av kortare slag, vilka kontrollerar förståelsen av viktiga begrepp. Andra uppgifter har karaktären av
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
i
problemlösning, ofta med grund i någon verklig eller fiktiv industriell eller
teknisk frågeställning.
Jag vill tacka mina kolleger Sven Erick Alm, Måns Thulin och Silvelyn
Zwanzig för noggrann genomläsning av olika versioner av manus och många
goda råd. Seidon Alsaody, Lars Degerman, Oswald Fogelklou, Petter Helgesson, Christian Medin, Cecilia Persson, Ingemar Sjöström och Lena Zetterqvist
har kommit med synpunkter, rekommendationer och tips i olika faser av arbetet. Anders Källström har varit mig till stor hjälp vid användandet av typsättningsprogrammet KTpEX. Tack även till Ingemar Kaj för stöd och uppmuntran.
Vid Studentlitteratur har kontakten med mina förläggare Karolina Aplander
och Jens Fredholm alltid varit givande. Sist men inte minst tackas de studenter
som kommit med konstruktiv kritik på tidigare versioner av manuskriptet.
Uppsala, november 2013
Jesper Rydén
Förord, andra upplagan
I denna upplaga har tryckfel rättats till och (i begränsad omfattning) nytt material tillkommit. Exempelvis finns i slutet av vissa kapitel programkod i statistikprogrammet R, med exempel som anknyter till det aktuella kapitlet. En
del övningsuppgifter har tillkommit, andra har bytts ut eller lätt modifierats.
En stor nyhet är att den tryckta boken även finns i form av en e-bok, till
vilken är kopplad bl.a. övningsuppgifter i digital form. Dessa kan nås genom
länkar via symbolen & i slutet av kapitlen. Uppgifterna har som främsta syfte att träna på grundläggande begrepp. Flera är av flervalstyp och kan lösas
med huvudräkning eller enkla räkningar på miniräknare. Som digitala komplement återfinns även kapitelsammanfattningar samt en övningstentamen
med lösningar.
Ett varmt tack går till min kollega Rolf Larsson som läst igenom de nyskrivna avsnitten och kommit med goda synpunkter.
Omma, april 2015
Jesper Rydén
uu
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
Innehåll
Förord
i
1
Inledning
1.1
Matematiska modeller « s soo ee se ser rr rr sr ss ss
1.2
Några eXempel. soo ere rer rr sr rr rr rr rr rss
1
2
5
2
Data: dess karaktär och presentation
2.1
Data och dess ursprung . oso sms ess ses ss so se sa
2.2
Statistiska mått . oo ooosssssss
ss ss ss ss es es
2.21
Lägesmått: . ccs. cc ds. 8 Kr.
rs RR Rs
2.2.2 — Spridningsmått
oso oss
ess ss sr sr ss
9
9
12
13
15
2.2.3
2.3
2.4
2.5
2.6
3
SamvariatioM o..oosossssesseoseos
Visualisering avdata
2.31
Stolpdiagräll:
sosse
17
....ooossssssss
ss ss ss et
mosa a tas 4 ma Rs s Oak
21
21
2.3.2 - HiSstOgralm . ss ooo ee
2.33
LÄdapräm
födas
2.3.4
Multivariata metoder .
Variationsbreddens variation .
R-kOommandon . sor rer
Övningsuppgifter
mere rr
rr rr rr sr rs
fs ca s & dra a a fs
få
. .. oso ssosss
ss sc or
....o.o.ssosssss
ss soo.
rer rrer ere rs se se se str
21
24
24
26
28
. .ososesesresr
rss rr sr sr ra
30
Sannolikheter och slumpvariabler
3.1
Frekvenskvoter
sosse
rsesrrrs ss ss ss ss sn
35
35
3.2
3.3
Mängder, händelser och slumpvariabler . ........sc.c.c.Egenskaper hos sannolikheter ..ososssss
ss ss sr rr
37
40
3.4
3.5
Betingade sannolikheter
sosse
ss ss ss se sa
Oberoende händelser . .sosesssrsrsrssss
ss ss ses
42
47
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
lii
3.6
3.7
Sannolikheter för komplementhändelser till oberoende hän(6 (3 9:
sr
Övningsuppgifter
.. som
Fördelningar
4.1
4.2
4.3
Diskreta fördelningar
4.7
sss ss rse ses ess sees
.. oo sos
ses
ese
reser
rss
57
57
Exempel på diskreta fördelningar
. ........cccc
Kontinuerliga fördelningar some
ere er sr sr rr es
4.21 - Exempel på kontinuerliga fördelningar . . .......
Läges- och spridningsmått för slumpvariabler . ........
63
65
70
4.3.1
Väntevärden.
r rr ers
71
— VÄrlansel
..
s : ffa
ooo
esse
cc fö dr ev
bycd de
cs
rr
rr
ss
a & dT
Övningsuppgifter
soo
sosse
59
73
4.3.3 - Sammanställning för vanliga fördelningar . ......
Fördelningsfunktioner
so sereersr
ers rss er er es
Kvantiler . soo sosse omr ss rss rss rss ses ss ss
R-kommandon . ..sesersrsrsrees
reser ess sosse
ers rr rr rr rr rr rss
75
76
80
84
86
Funktioner av flera slumpvariabler
91
5.1 - Funktioner av slumpvariabler, oberoende . . .....s.scccc
5.2 — Räkneregler för väntevärden och varianser . ..........
91
95
5.2.1 — Läges- och spridningsmått för medelvärdet
......
100
5.3
Några additionssatser .. ooo sees rr sr sr rs rs es
5.3.1 - Normalfördelningen sosse
ere ses rr ses er
5.3.2 — Binomialfördelningen
sosse
ere rer sr rea
5.3.3 — Poissonfördelningen .
mess
ersesrssrs ss rer
100
101
103
105
5.4
Ett centralt resultat — centrala gränsvärdessatsen
106
5.5
- R-kommandon: Simulering
5.6
Övningsuppgifter
so
serer
ers
.......
er se sr rr
es
111
.. .........sesese..
ee or or
113
Statistikens grunder
6.1
Punktskattningar sosse rerrersersr sr ss rs es
6.2
Skattningar som slumpvariabler ..ososo
ss ss sco sor
6.21 - Väntevärdesriktighet . ..
so sss ccs csr sr rss
6.2.2
Ytterligare egenskaper . . sosse
ses ror rss
117
117
118
120
121
6.3
6.4
iv
52
4.1.1
4:32"
4.4
4.5
4.6
51
Dataoch modell...
oso
es
ere
rr
rs
ss
124
sr ss
rs
ss
124
sosse
rse reses ses
129
6.3.1 — Fördelningens typ oo. so ses
esse
6.3.2
oss
— Visuella tekniker
Skattningar av Varianser
oo
ooo
&
rr
reses
ss ser
ere
FÖRFATTAREN
OCH
124
STUDENTLITTERATUR
6.5
6.6
6
7
6.4.1
Sammanvägd variansskattning ........s...c-6.4.2 — Statistisk analys av olika variationskällor . ......
6.4.3
Väntevärdesriktighet hos variansskattning . . . ....
Kombination av skattningar: ett exempel ............
Mer om Q-Q-plottar . ss oo oss ses ss ss ss ses sea
OÖVINPSIPpgllGT
Konfidensintervall
71
Inledande exempel.
& so att
ss
s vr? äs «sas
mess
ee reser
DAR
esse
VR dt RR
se sr sa
7.2
Allmänt om konfidensintervall . so ooososos
oso osv ov rer
7.3 - Konfidensintervall för väntevärdet . . .........c.osccc.
7.31 — Intervall med exakt konfidensgrad
...........
7.3.2 — Intervall för stora stickproV oso
s ss sc ccc7.33 - Konfidensintervallets längd ...ososscscccccc.
7.4
Konfidensintervall för p i binomialfördelning . . ........
7.41 - Konfidensintervallets längd . so sosc
ccs ccs
7.5
7.6
7.7
7.8
8
Konfidensintervall för skillnader i väntevärde .........
7.5.1 — Två oberoende stickprov . «sosse
ses ss sor sr ra
7.5.2 — Parvisa observationer — ”stickprovipar”
.......
Konfidensintervall för skillnader i andelar
...........
Ensidiga konfidensintervall «so ooo ooo ss es ss ss ses
7.71
Intervall för andel vid noll observerade . . .......
Övningsuppgifter
Regression
81
Inledning . so oe
8.2
Modell sosooer
8.3
8.4
.. sosse
sr s rss ss ss ss ss sr
139
140
142
142
146
146
148
149
150
151
152
155
156
157
158
163
ere re ere ses rr sr ss
ere
rr
rr rr rr rr rr
ss
sr
164
Modellens giltighet so sosse
ersesrsrs ss sr se ss
8.31
Förklaringsgrad . ss ooo
ses sr rr sr rss ss ess
168
8.3.2
169
- Residualstudier
. ..
oo
ooo
ss
scsc ss
ss
ss
ss
ss
svens
165
168
Användning av modellen so mose ee
rese se sr vr
8.4.1 - Konfidensintervall för parameter .........cc.
172
8.4.2
173
Prediktion
. ...ooosssrssrsrs
css ss see sa
8.5
8.4.3
Varning: kausalitet
oso
ss se rr rs sr ss
Multipel regression .. sosse
rer
rss rss sees
8.6
R-kommandon
8.7
139
.
Övningsuppgifter
so
..
Tabeller
Oo FÖRFATTAREN
seeeeressossss
ss so soso str
some
ososesrs ess rss rss sr nn
171
173
175
179
180
185
OCH
STUDENTLITTERATUR
Lösningar
189
Något om binomialkoefficienter
211
Vidareläsning
213
Engelska benämningar: liten ordlista
215
Sakregister
vi
219
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Kapitel 1
Inledning
För en ingenjör är förståelsen för matematisk modellering av högsta betydelse. Matematiska begrepp utgör grundvalen för teoribildningen inom många
specifika tillämpningsområden (mekanik, ellära, telekommunikation m.fl.).
Ofta är fallet att en specifikation skall uppfyllas. Vilka dimensioner ska en
viss mekanisk komponent ha för att stå emot tänkbara framtida belastningar? Hur ska ett datornätverk konstrueras så att det inte bryter samman? I den
här boken ska vi studera matematiska principer som är användbara för att
analysera sådana situationer. Närmare bestämt ligger fokus på två områden:
« att finna matematiska modeller för vad som brukar benämnas slumpmässig variation,
« att matematiskt analysera insamlade data, som ofta på ett eller annat
vis påverkats av slumpen.
Som ett samlande begrepp för dessa områden kan vi använda uttrycket stokastisk modellering. Enligt Nationalencyklopedin, NE, kommer ordet stokastisk
av grekiskans stochastikos: ”som hör till gissning”, ”skicklig på att gissa”. Ett
fenomen benämnes stokastiskt om dess exakta förlopp inte kan förutsägas.
En del förknippar spontant slump och sannolikhet främst med olika typer
av spel, och faktum är att historiskt sett var det frågeställningar inom olika
hasardspel som ledde till sannolikhetsteorins framväxt. Slumpmässig variation förekommer dock varje dag i vår omvärld av andra skäl utan att vi ofta
funderar närmare över det. Naturens krafter är ett exempel på detta: temperaturer, vindstyrkor eller våghöjder till havs varierar på ett inte helt förutsägbart sätt. Inom materialteknik är det viktigt att kunna modellera materials
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
1
1. Inledning
hållfasthetsegenskaper. Två identiskt lika vajrar som utsätts för belastning i
ett laboratorium brister normalt inte vid exakt samma belastningsnivå. Även
inverkan av mänskliga handlingar och aktiviteter kan leda till slumpmässig
variation. Kapaciteten och prestandan hos ett datornätverk under loppet av
ett dygn är avhängigt av hur många som är inloggade, vilken typ av program
som körs, etc.
1.1
Matematiska modeller
Ofta är situationen den, att man antar en deterministisk matematisk modell
för en viss företeelse. Detta innebär att om vissa förutsättningar anses gälla så
följer en del resultat med nödvändighet. Inom olika teknikområden har matematiska modeller tagits fram, och vi tittar här först närmare på två exempel
från mekanik respektive ellära.
Exempel 1.1
En fritt upplagd balk av längd L och med en punktlast P
på mitten har mittnedböjningen
-
y
PI?
—- 48ET”
där E och I är konstanter som beror av geometri och material.
Exempel 1.2
o
Ohms lag är grundläggande inom elläran. Den ger ett sam-
band mellan spänning U, strömstyrka I och resistans Rk:
U=R:I.
Spänningen är med andra ord proportionell mot strömstyrkan.
=E
Även mer komplicerade matematiska modeller kan konstrueras för de
mest skilda tillämpningar inom många områden: styrning av farkoster, nationalekonomiska skeenden, biologiska system. Ibland kan deterministiska modeller utvidgas med ett stokastiskt synsätt, detta dels för att hantera genuin
slump av den typ som beskrevs ovan (pga. skeenden i naturen eller mänsklig aktivitet), dels för att — inte minst i ingenjörstillämpningar — beskriva
mätosäkerhet och mätfel av skilda slag. Vi ska senare studera detta.
2
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
1.1. Matematiska modeller
Exempel 1.3 Låt oss utgå från Ohms lag, U = RI, och fundera kring hur
pass ”exakta” resultat denna relation kan ge. Elektriska motstånd är ibland
försedda med information i form av en färgkod om eventuell variation hos
motståndets resistans. En silverring står för en (med branschens terminologi)
tolerans om 1076 medan en guldring innebär en tolerans om 52.
Detta exempel illustrerar att slumpmässig variation finns närvarande och
kan påverka de numeriska resultaten även i enkla modeller (såsom Ohms lag).
H
I många sammanhang har man dock ingen uppfattning eller kunskap om väl
etablerade matematiska beskrivningar. Det kan röra sig om nya vetenskapliga
fält där teoribildning ej skett, eller att det helt enkelt inte går att skapa någon
lämplig teori; det kanske inte heller skulle vara mödan värt att göra det. Ofta
kan då en analys av insamlade data åstadkommas och man använder i sådana
fall statistiska metoder, baserade på en sannolikhetsteoretisk modell.
Ofta vill man utnyttja statistisk metodik för att göra jämförelser av något
slag. Ett exempel på en vanlig situation är att uttala sig med viss statistisk
säkerhet rörande skillnader i medelvärden mellan två grupper.
Exempel 1.4
Ett svenskt företag utvecklar stift av hårdmetall för borrkro-
nor. Man har i laboratorieförsök funnit brottsegheten (MPay/m) hos två ma-
terial A och B och för vardera materialet erhållit tio mätvärden. Data presenteras i figur 1.1, där man på horisontella axeln finner mätskalan.
x
oo
[
9.5
00mMm
0
00
I
10.0
0
xx KK
ax ORK
Oo
I
10.5
I
11.0
I
11.5
Brottseghet (MPa sqrt(m))
Figur 1.1: Brottseghet hos två material A (ringar) och B (kryss).
Observationerna för material A markeras med ringar, för material B med
kryss. I det senare fallet har kryssen ritats något förskjutet i lodled eftersom
vissa värden ligger nära varandra och annars skulle vara svåra att urskilja
(eller särskilja).
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
3
1. Inledning
Kan man påstå att brottsegheten i allmänhet är högre för borrkronor gjorda med material B, jämfört med material A? De data som finns uppmätta gäller just bara de provelement som testades. Statistiska metoder behövs för att
undersöka frågan vidare.
a
För att hantera en situation liknande den i exempel 1.4 behövs kunskaper från
följande delområden i den stokastiska modelleringen:
« Sannolikhetslära: matematisk beskrivning av slumpmässiga förlopp
(kapitel 3-5).
« Statistisk inferens: teori och metoder för att analysera data och på
matematisk väg dra slutsatser. (kapitel 2, 6-8).
Svensken Harald Cramér (1893-1985), ett internationellt aktat namn inom san-
nolikhetslära, skrev följande tänkvärda ord 1926:
Sannolikhetskalkylens uppgift /.../ är att ge oss ett
matematiskt schema, som approximativt återger
förloppet vid vissa klasser av företeelser.
Vi avslutar detta avsnitt med att ge exempel på hur stokastisk modellering
kan komma till användning i tekniska tillämpningar.
Beskrivning Med stokastiska modeller kan realistiska beskrivningar göras
av mer eller mindre komplicerade förlopp. Ibland används modeller
som är väl etablerade inom en viss bransch, medan målet i forskningsoch utvecklingsverksamhet kan vara att söka ny kunskap om en viss
process eller ett visst fenomen.
Jämförelse En vanlig tillämpning är att jämföra två (eller flera) produkter,
behandlingar, processer osv., något vi såg i exempel 1.4. Dessa statistiska problem har ägnats mycket omsorg historiskt sett, och i dag finns
väl utvecklad teori och metodik för standardsituationer.
4
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
1.2. Några exempel
Prediktion I många tekniska tillämpningar är man intresserad av att förutsäga framtida värden baserat på historiska data. Väderprognoser utnyttjas t.ex. för att vid fjärrvärmeverk förutsäga förbrukningen på några dagars sikt. Ett annat exempel är lagerhållningsproblem. Detta studeras i det statistiska specialområdet tidsserieanalys.
Dimensionering Klassiska exempel på matematisk modellering är dimensionering av mekaniska konstruktioner, exempelvis broar och byggnadskonstruktioner. Såväl belastning som materialegenskaper kan variera slumpmässigt. Även i andra ingenjörstillämpningar förekommer
inslag av dimensionering. Hur skall en telefonväxel dimensioneras så
att den inte överbelastas? Ett statistiskt specialområde är extremvärdesanalys.
Kvalitetsstyrning I flera industriella sammanhang görs acceptanskontroller; kan exempelvis ett varuparti accepteras? I själva produktionen används processtyrning för att övervaka en produktionsprocess. Med jämna mellanrum mäts då variabler av intresse i processen. Modeller för
slumpmässig variation krävs.
1.2
Några exempel
De följande exemplen syftar till att belysa typiska frågeställningar och problem där ett statistiskt, eller stokastiskt, synsätt krävs.
Exempel 1.5
Ett viktigt problem är tider mellan händelser som av någon
anledning inträffar slumpmässigt, exempelvis tider mellan anrop till en telefonväxel eller ankomster av paket i internettrafik. I kvalitets- och tillförlitlighetsteknik är tider mellan fel av intresse att studera. I en artikel av Proschan
anges tider (i timmar) mellan fel hos luftkonditioneringen hos 10 flygplan av
typen Boeing 720. Nedan följer data för det sjunde flygplanet, sorterade i stigande ordning:
3
5
5
13
14
15
22
22
23
30
36
39
44
46
50
72
79
88
97
102
139
188
197
210
I figur 1.2 är observationerna ritade längs en axel. Vi kan här fundera över
begreppet spridning: Var hamnar merparten av data, och var befinner sig de
'F. Proschan (1963). Technometrics 5, sid. 375-383.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
5
1. Inledning
mer ”extrema” observationerna i förhållande till dessa? Kan man hitta even-
tuella symmetrier?
oa
DOODODI
00900
Oo
00
0
I
I
I
I
I
I
0
50
100
150
200
250
Tid mellan fel (h)
Figur 1.2: Tider mellan fel hos luftkonditionering hos flygplan.
Exempel 1.6 På en bakaxel hos en lastbil från en svensk tillverkare uppmättes belastningen i form av en tidsserie, se figur 1.3. Detta fordon utsattes, som
synes, för skiftande belastning; lastat med grus eller tomlastat.
Variationerna i signalen har givetvis ett ursprung i belastningsnivån, men
ytterligare en källa till variation är vägbanans ojämnheter. Man kan, av figuren att döma, t.ex. fundera över om spridningen är av samma karaktär oavsett
belastningsnivå. Mätdata av detta slag är viktiga när utmattning av material
skall analyseras och modelleras.
EH
Exempel 1.7 I pappersindustrin mäts styrkeegenskaper hos tillverkat papper. Man tar ut ett antal ark som producerats och utför mätningar. På grund
av fibrernas orientering blir styrkan varierande beroende på riktningen. På
varje ark mäts tre storheter:
Xi:
Densitet (g/cm?)
Xzo :
Styrka i maskinens riktning (pounds)
X3 :
Styrka vinkelrät mot maskinens riktning (pounds)
Mätdata finns sammanställt på följande sätt:
6
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
1.2. Några exempel
30
0
1000
2000
3000
Tid/s
4000
5000
6000
Figur 1.3: Belastningar på bakaxeln hos en lastbil.
Ark
1
41
X3
X3
X3
0.801 = 121.41
70.42
0.824
127.700
72.47
0.841
129.20
78.20
0.758
13.80
52.41
Detta är exempel på multivariata data, flera storheter uppmätta på ett och
samma objekt. Naturliga frågeställningar rör här samvariation av olika slag.
Ökar styrkan med ökande densitet? Hur samvarierar styrkorna i olika riktningar, X2 och X3?
H
Exempel 1.8 Mätbojar finns placerade på vissa strategiskt utvalda platser i
oceanerna. Vid bojarna mäts en mängd fysikaliska storheter, som temperatur,
vindriktning, vindhastighet, våghöjd m.m. I figur 1.4 visas mätningar över 5 år
från en boj i Stilla Havet. Uppmätt storhet är signifikant våghöjd (i m), vilket
kan definieras som medelvärdet av den högsta tredjedelen vågor.
Notera här dels den typiska säsongsvariationen (bojen är placerad på norra
halvklotet) där våghöjderna tenderar att vara högre under vinterhalvåret, dels
att data saknas under en period i slutet av 1986 — bojen var då ur funktion.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
7
Signifikant våghöjd (m)
1. Inledning
1983
1984
1985
1986
Tidpunkt
1987
1988
Figur 1.4: Mätningar av signifikant våghöjd vid en boj i Stilla havet.
I marin teknik och offshoreteknologi är det av vikt att använda stokastisk modellering, t.ex. vid konstruktion av plattformar och farkoster. Vilka
framtida belastningar kan dessa tänkas utstå och med vilken sannolikhet? m
I detta inledande kapitel har vi berört begreppen matematiska och stokastiska
modeller. Vi avslutar kapitlet med ännu ett citat, denna gång av statistikern
George E.P. Box? . Citatet är tänkvärt, inte minst när man ägnar sig åt stokastisk modellering:
Essentially, all models are wrong, but
some are useful.
Sammanfattning kapitel 1 Q
"George E.P. Box (1919-2013), brittisk statistiker verksam i USA. Han gjorde stora insatser
inte minst inom industriell statistik.
8
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Kapitel 2
Data: dess karaktär och
presentation
I detta kapitel ägnar vi oss åt så kallad beskrivande statistik: att sammanfatta
data med enkla numeriska mått eller i form av en visualisering. I flera fall är
det tillräckligt att presentera data med dessa enkla medel. Huvudsyftet i de
kommande kapitlen är att utveckla matematiska modeller för slumpmässig
variation och tillämpa dessa för att vidareutveckla statistisk metodik. Baserat
på dessa kan mer avancerade frågeställningar kring data analyseras.
2.1
Data och dess ursprung
Det finns flera sätt att precisera vad som i dagligt tal kallas data. Avsikten
med en statistisk undersökning är ofta att skaffa kunskap om en stor mängd
enheter (objekt eller individer). Alla enheter av intresse utgör en population.
Varje enhet beskrivs ofta med hjälp av en eller flera variabler. Med en observation menas en mätning eller registrering av egenskaper för en bestämd enhet.
Samlingen av observationer (av samma fenomen) kallas ett stickprov.
Exempel 2.1
Här ges några exempel för att illustrera begreppen. Fler variab-
ler än de som nämns är givetvis möjliga; allt beror på den aktuella situationen.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
9
2. Data: dess karaktär och presentation
Population
Samtliga bilar i Uppsala län
Enhet
En bil
Variabel
Motorstyrka (kW)
Dragkrok (ja/nej)
Resistorer tillverkade en viss dag
En resistor
Samtliga radhus byggda i Sverige år 2014 — Ett radhus
Resistans i kO
Boyta (m?)
Taxeringsvärde (kkr)
När en statistisk studie genomförs finns någon form av osäkerhet eller
slumpmässig variation med i bilden, som diskuterats i kapitel 1. Det kan förekomma
variationer mellan olika enheter; mellan olika bilar, personer osv.
finns en inneboende skillnad, vilket vi kan benämna populationens variation.
Vidare kan värden för varje enskild enhet ändras; temperaturen
i en given
smältugn stiger eller sjunker från timme till timme, en viss aktiekurs rör sig
från dag till dag. Man talar här om processvariation. Avslutningsvis finns ofta
en mätosäkerhet. En mätmetod kan ge olika resultat från gång till gång när
samma variabel mäts för samma enhet flera gånger. Längden på ett byggelement av betong mäts tre gånger och tre olika svar erhålls.
Datanivåer
Ett vanligt synsätt är att skilja mellan kvalitativa respektive kvantitativa
observationer och motsvarande variabler.
Kvalitativa variabler
Kvalitativa, eller kategoriska, variabler kan inte na-
turligt beskrivas med siffror. Vanligt är att enheten tillhör någon bestämd kategori eller grupp. Exempel är kön, bostad, funktionsduglighet. Emellanåt förekommer i statistisk analys kodning av kategoriska
variabler, tilldela t.ex. ”man” värdet noll och ”kvinna' värdet ett. Dessa
tal betyder då inget i sig. Matematiskt gäller förvisso att I > 0, men
den innebörden går inte att tolka meningsfullt här.
Det går alltså inte alltid att ordna värdena för kvalitativa variabler. I
andra sammanhang går det dock att i någon mening ordna kategoriska
värden. Kunder får svara på frågan ”Uppfyller den nya produkten dina
förväntningar?” och ges alternativen 1: Nej; 2: I viss mån; 3: Ja.
Kvantitativa variabler Här kan variablerna anta siffervärden och jämförelser kan göras värden sinsemellan. Ofta görs här en uppdelning i diskreta resp. kontinuerliga variabler. Diskreta variabler kan endast anta
10
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.1. Data och dess ursprung
speciella värden på den mätskala som används. Typiskt exempel är svaret på frågor av typen ”hur många”. Andra tal än heltal kan vara aktuella. Kontinuerliga variabler antar alla värden inom ett givet intervall.
Många variabler inom naturvetenskap och teknik är av denna typ.
I denna bok kommer vi att ha fokus på kvantitativa variabler.
Exempel 2.2 Ien brittisk studie av trafikplanering undersöktes vilken inverkan varningsskyltar har på bilisters hastigheter. En stor mängd data samlades in. Vid registreringen av data användes följande tre kategorier för att
bokföra när observationen av hastighet gjordes:
1. Mätning innan skylten sattes upp.
2. Mätning strax efter att skylten satts upp.
3. Mätning efter att skylten suttit uppe en tid.
Här är alltså hastigheten en kvantitativ, kontinuerlig variabel vilken får anses
vara av primärt intresse. De (kodade) kvalitativa variablerna med värdena 1,2
och 3 är av betydelse för bokföringen (när mätning gjordes). Vi återkommer
senare till detta exempel.
H
Datainsamlingens karaktär
Kunskap om hur data samlats in är fundamental för användande av statistiska
metoder. Man talar emellanåt om tvärsnittsdata, vilka samlats in vid en given
tidpunkt, eller longitudinella data, vilka samlats in under en viss tidsperiod.
I tekniska sammanhang görs ofta kontrollerade försök eller experiment. Ofta
mäts på speciella enheter, t.ex. provstavar i hållfasthetslaboratorium, varvid
en (eller flera) storheter registreras hos varje enhet.
I nästa exempel ges en tydlig illustration av data insamlat över tid, en s.k.
tidsserie. Statistisk modellering av sådana ligger utanför bokens ram, men
data av denna typ är vanliga och begreppet bör kännas till. Ofta är en tidsserie
samplad, dvs. observationerna registrerade med jämna tidsmellanrum (dagligen, varje timme, var tionde sekund,...).
Exempel 2.3 Från SCB (Statistiska centralbyrån) kan man få uppgifter om
månadsvis elanvändning i Sverige. I figur 2.1 visas en tidsserie över den totala
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
11
2. Data: dess karaktär och presentation
summan
förbrukad el (GWh) över åren 2000-2007. Lägg märke till s.k. sä-
14000
L
1
12000
1
10000
Energiförbrukn. (GWh)
16000
1
songsvariation med en ökad energiförbrukning under den kallare årstiden.
Lägg också märke till att en viss naturlig variation fås mellan månaderna
på grund av skillnader i månadernas längd (skillnaden syns tydligt mellan
januari och februari). Detta fenomen försvinner om man i stället betraktar
medelförbrukningen per dag för de olika månaderna.
[5]
T
2000
T
2001
T
2002
T
2003
T
2004
T
2005
T
2006
T
2007
År
Figur 2.1: Summa månadsvis förbrukad el i Sverige under åren 2000-2007.
Statistiska metoder för analys av tidsserier behandlas inte vidare i denna bok.
2.2
Statistiska mått
Ofta finns ett behov av att sammanfatta egenskaper hos data i ett enda numeriskt värde. Vi kan här skilja mellan dels lägesmått som motsvarar i någon
mening tyngdpunkten hos data, dels spridningsmått som kan ge en uppfattning om variationen i datamaterialet. Ej sällan mäts två (eller flera) variabler
12
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.2. Statistiska mått
för en och samma enhet (t.ex. längd och vikt för en person). Mått för samvariation blir då aktuella.
2.2.1
Lägesmått
Vi skall här presentera aritmetiskt medelvärde, median, typvärde samt percentiler.
Aritmetiskt medelvärde. Detta mått är intuitivt rimligt och för statistisk inferens är medelvärdet, som man säger i dagligt tal, av central betydelse då teorier utarbetats baserat på detta. För n observationer x1, . .., n har vi följande
definition:
Definition 2.1
Aritmetiskt medelvärde
1
1
NE
(2.1)
Som beskrivning av ett typiskt värde i enkel beskrivande statistik kan dock
medelvärdet vara mindre lämpat, vilket exempel 2.5 nedan visar.
Vägt medelvärde.
Ett vägt (aritmetiskt) medelvärde kan vara av intresse
när flera grupper av data studeras, och är ett mått baserat på samtliga observationer. För varje grupp finns uppgett ett medelvärde, men man har inte
kännedom om de ursprungliga variablernas värden. Antag att vi har m grupper med medelvärden 1, ...,Zm och att antalet observationer i respektive
grupp ges av 1, ..., Mm. Det vägda medelvärdet Ty ges då av
Iv =
NAZI
Ft
Mm Ft:
Mm Tm
FN
Exempel 2.4 För tre grupper av batterier för mobiltelefoner med gruppstorlekarna ni = 50, na = 40, n3 = 120 har man funnit medelvärdena för passningstiden (timmar) 1 = 320, 72 = 358, T3 = 176. Det viktade medelvärdet
beräknas som
Tv
50 + 320 + 40 - 358 + 120 - 176
920 + 40 + 120
=. 245.
Ett oviktat medelvärde enligt (Z1+ZZ2+Z3)/3 blir här 285 och tar inte hänsyn
till att tredje gruppen är avsevärt större än de två övriga.
2
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
13
2. Data: dess karaktär och presentation
Geometriskt medelvärde.
Det geometriska medelvärdet rg för n observa-
tioner z1,...,Tn beräknas som rG = (XjX2 -:- Zn)
" Detta används främst
i ekonomiska sammanhang.
Median. Med medianen x menas den observation som är belägen mitt i uppsättningen av data när värdena ordnats i storleksordning. Om antalet observationer är udda är medianen exakt lika med värdet i mitten, vid jämnt antal
beräknas medianen som medelvärdet av de två mellersta värdena.
Exempel 2.5 Iett företag kan de anställda inneha aktier i det egna företaget.
För sju personer var aktieinnehavet följande (tusentals kronor, kkr):
000
0-0
2500
0
Medelvärdet blir 357 kkr, medianvärdet 0 kkr.
HB
Typvärde. Med typvärde avses det värde som förekommer flest gånger i datauppsättningen. I exempel 2.5 är typvärdet noll. (För kontinuerliga data är
det meningslöst att tala om typvärde.)
Percentiler. För medianen gäller att 502 av observationerna är mindre än
eller lika med medianvärdet. Denna kan därför alternativt benämnas 509--
percentilen. Två vanliga percentiler är 2570- resp. 757.-percentilerna, även kallade undre resp. övre kvartilen. I vissa källor definieras 257-kvantilen som
medianen i den undre halvan av de ordnade observationerna (inklusive medianen om totala antalet observationer är udda). Den övre kvartilen definieras
analogt för den övre halvan.
Dessa kvartiler har en avgörande betydelse vid konstruktion av s.k. lådagram (se sid. 24). I praktiken görs beräkningar med datorprogram, och det
rekommenderas att då undersöka vilken definition som används. För stora
datamaterial har dock valet av definition mindre praktisk betydelse.
Exempel
2.6
Betrakta följande material om
11 observationer, sorterade
i
storleksordning:
0.8,
1.2,
1.6,
2.3,
2.4,
3.1,
3.6,
3.7,
3.9,
4.6,
5.2.
Medianen är här 3.1. Med definitionen som omtalades ovan studerar vi det
undre materialet, dvs.
0.8,
14
1.2,
1.6,
2.3,
2.4,
3.1
& FÖRFATTAREN OCH STUDENTLITTERATUR
2.2. Statistiska mått
och man finner undre kvartilen som (1.6 + 2.3)/2 = 1.95. På motsvarande
sätt finner vi övre kvartilen 3.8.
2
2.2.2
Spridningsmått
Här presenteras standardavvikelse och varians, variationskoefficient, variationsbredd samt kvartilavstånd.
Standardavvikelse och varians.
Man har följande definition:
Antag att vi har ett stickprov 1, ...,ZIn.
Definition 2.2 Stickprovsvarians (varians)
n
s=
—
| 2.(2
DA
(2.2)
Variansen mäter alltså i ord uttryckt, summan av de enskilda observationer-
nas kvadrerade avstånd från medelvärdet. Anledningen till faktorn 1/(n — 1)
i högerledet diskuteras i avsnitt 6.4.3.
I praktiska sammanhang är den närbesläktade standardavvikelsen s =
Vs? av intresse:
Definition 2.3 Stickprovsstandardavvikelse (standardavvikelse)
s=
n
Ye 2).
=
(2.3)
Notera att s får samma enhet som de ursprungliga observationerna. Liksom
variansen är standardavvikelsen ett totalt mått på hur varje enskild observation avviker från medelvärdet. Standardavvikelse och i synnerhet varians
spelar en betydande roll i statistisk inferens, till vilken vi återkommer i bokens
senare del.
Ett teoretiskt resultat, Tjebysjovs olikhet, medför att för varje stickprov
ligger minst 757 av observationerna i intervallet (z—2s,
ligger ofta betydligt fler observationer i detta intervall.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
z+2s). I praktiken
15
2. Data: dess karaktär och presentation
Exempel 2.7 Fem personer har följande kroppslängder (cm):
172,
180,
183,
190,
165.
Man finner medelvärdet (i cm)
=E
1
(172 + 180 + 183 + 190 + 165) = 178
och variansen (i cm?)
s?
=
=
1
3 ((172 — 178)? -+ (180 — 178)? + (183 — 178)?
94.5.
+(190 — 178)? + (165 — 178)”)
Standardavvikelsen ges av s = v94.5 = 9.7 cm.
=E
Variationskoefficient. Som ett mått på relativ variation kan den dimensionslösa variationskoefficienten s/x komma till användning; ofta anges den i procent. Variationskoefficienten är meningsfull för variabler som endast tar positiva värden. Den är praktisk vid jämförelse av mätningar gjorda i olika enheter (dimensionslös storhet). En nackdel inträffar när medelvärdet är nära
noll; variationskoefficienten blir då känslig för små ändringar i medelvärde.
Exempel 2.8 Antag att man i en tillverkningsprocess vill jämföra en äldre
typ av maskin (A) med en nyare (B) och därvid räknar antalet felaktiga enheter per dag. Genom mätningar har man funnit Zz, = 30, så = 6, TB = 20,
SB
=
d.
Variationskoefficienterna blir 6/30 = 0.20 resp. 5/20 = 0.25. Data antyder alltså att medelantalet felaktiga enheter har minskat, men vi fann att den
relativa variationen är större hos den nyare maskinen.
a
Variationsbredd. Detta mått definieras som skillnaden mellan det största
och det minsta värdet; emellanåt används beteckningen R (engelska: range),
R = Zmax — Tmin- I tillverkningsprocesser där gränser ställts upp kan detta
mått vara av intresse att beräkna. Några resultat om hur största respektive
minsta möjliga variationsbredd kan beräknas, givet T, s och antalet observationer n, ges i avsnitt 2.4.
Kvartilavstånd. Detta mått definieras som skillnaden mellan övre och undre
16
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.2. Statistiska mått
kvartilvärdena (jämför avsnittet om precentiler ovan) och beskriver således
de centrala delarna av datamaterialet. Detta påverkas i mindre grad av extrema observationer än variationsbredden och åskådliggörs grafiskt i lådagram.
Exempel 2.9 I exempel 2.6 fann vi undre respektive övre kvartilvärdena 1.95
resp. 3.8. Kvartilavståndet blir alltså 3.8 — 1.95 = 1.85.
o
2.2.3
Samvariation
Ibland uppmäts två egenskaper för varje enhet. Vi tolkar detta som två variabler, x och y säg, som finns registrerade parvis, (21,41), (x2,Yy2),---,> (In, Yn),
och vill undersöka hur dessa är relaterade till varandra. Ett enkelt exempel ges
av variablerna längd och vikt hos personer.
Korrelationskoefficent. Ett vanligt numeriskt mått ges av korrelationskoefficienten r:
Definition 2.4 Korrelationskoefficient.
Antag att vi har n observa-
tionspar (1, Yy1), - - - > (Zn, Yyn)- Korrelationskoefficienten r ges då av
i=1(Zi — T)(Yi — IF)
n
"VESTRE VISV
DE
(2.4)
Det går att visa matematiskt att —1 < r < 1. För de två ytterlighetsfallen
gäller att r = +1 om samtliga observationer ligger på en rät linje med positiv lutning; om r = —1 ligger samtliga observationer på en rät linje med
negativ lutning. Beroende på tecknet talar man om positiv respektive negativ
korrelation.
I viss litteratur och i vissa programpaket benämnes r Pearsons" korrelationskoefficient.
Exempel 2.10 I en medicinsk studie registrerades bl.a. längd (cm) och vikt
(g) hos nyfödda barn i Malmö. Ett spridningsdiagram (ibland kallat sambandsdiagram) över 747 nyfödda barns längd och vikt visas nedan i figur 2.2.
"Karl Pearson (1857-1936), brittisk statistiker som gav betydande bidrag när grunderna lades
till den moderna statistiken.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
17
O
Su
Oo
Oo
od
Oo
-
Oo
Oo OmMmanmen
00
GDOO
OtDamnOoa Oo
O oammon Oo
OMENDDNaDO
O COSENNDOO
fer
oo
|
3000
Vikt (9)
4000
0
1
5000
2. Data: dess karaktär och presentation
8
I
T
T
T
T
35
40
45
50
55
Längd (cm)
Figur 2.2: Längd och vikt för 747 nyfödda barn i Malmö.
Ett datorprogram ger värdet på korrelationskoefficienten r = 0.75. Detta
stämmer väl med figuren, där en positiv korrelation antyds klart. Lägg dock
märke till de fyra observationerna med längd kortare än 40 cm, som i någon
mening avviker från den ellipsformade punktsvärmen i övrigt. Om dessa helt
sonika plockas bort och r beräknas på nytt erhålls r = 0.81, en alltså ännu
tydligare positiv korrelation (som väntat). Man skall dock i allmänhet akta
sig för att utan eftertanke plocka bort vad som kan tyckas vara avvikande
observationer. Noggranna undersökningar måste göras för att kanske finna
en förklaring till de avvikande värdena.
=
Exempel 2.11 Produktutvecklare jämför nötningen av hårdmetallstift på borrkronor för två modeller: ett standardmaterial samt ett nyutvecklat testmate-
rial. Vid borrning har man registrerat totalt antal borrade meter (så kallad
borrmeter) samt nötningen (107? m). I försöket användes sex borrkronor av
standardtypen samt sju av testtypen.
18
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.2. Statistiska mått
I figur 2.3 visas till vänster sambandet mellan borrmeter (x) och absolut nöt-
ning (y) för de två materialen. För standardmaterialet verkar en tydlig positiv
korrelation råda medan testmaterialet förefaller okorrelerat (kompletterande
beräkningar av korrelationskoefficienter ger korrelationerna 0.95 resp. 0.11).
Man är intresserad av nötningen per borrad meter y/z, och ett nytt sambandsdiagram ritas upp med x på horisontella axeln och y/z på lodräta axeln.
Korrelationerna blir nu 0.70 resp. —0.44. Alltså råder för standardmaterialet
fortfarande en positiv korrelation mellan storheterna, medan testmaterialet
nu uppvisar en negativ korrelation.
BD
Jämförelse av borrar
7000
Xx Standard
— 60001]
O
2
vE 5000
Test
o
2 4000
>£E 3000
&
= 2000
Oo ö
, 0
i
OO
OO
0
O
=
2= 40
&5
ao
Standard!
O
Test
x
x
]
Oo
x
x
Ar
Ö
S
Oo
O
]
|
=2 10
»
.
50
100
Borrmeter
x
€ 50!
ov
x
> 1000
0
x
O
Jämförelse av borrar
— 60
:O
150
=
0
0
.
50
100
Borrmeter
150
Figur 2.3: Sambandsdiagram, nötning. Vänster figur: Nötning som funktion av borrmeter. Höger figur: Nötning per längdenhet som funktion av borrmeter.
Ett annat mått på samvariation mellan två variabler ges av Spearmans
korrelationskoefficient enligt nedan. Detta baseras på ranger, dvs. inbördes
ordning mellan observationer. Om vi exempelvis har ett stickprov (1, r2, r3,
T4) = (20.2, —3.1, 25.4, 7.9) ges motsvarande ranger av (3, 1,4, 2). I statis-
tiska metoder som baseras på ranger utgör ofta dubbletter ett problem, som i
exempelvis stickprovet (3.5, 7.2, 7.2, 1.4), och specialbehandling får utföras.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
19
2. Data: dess karaktär och presentation
Spearmans korrelationskoefficient. Antag att vi har n observationspar
(1,41), -- >> (Zn, Yn). Rangordna z- och y-värdena var för sig från 1 till n
och beteckna med d; skillnaden i rang mellan x; och y;. Spearmans rangkorrelationskoefficient rs definieras då genom ekv. (2.4) med ranger insatt.
I fallet att inga dubbletter förekommer finns följande uttryck:
n
i=1 d;
rs=1-653-
2
(2.5)
Exempel 2.12 En ny typ av bromsbelägg skall utvärderas och provkörning
sker med fordon av samma modell och under så lika förhållanden som möjligt.
Man är intresserad av att studera samvariationen mellan slitage hos vänster
(r) respektive höger (y) framhjul och har följande mätningar (mm):
z
y
21
23
22
21
1.7
20
24
22
1.8
1.9
2.5
2.6
Data rangordnas som följer:
I
y
rang(z)
rang(y)
d
2.1
2.2
1.7
2.4
1.8
2.5
2.3
2.1
2.0
2.2
1.9
2.6
3
4
1
5
2
6
dö
3
2
4
1
6
—2
—1
1
1
|
0
Man finner Sör 2=1 "41d? = 8 och därmed från ekv. (2.5)
rs=1-653—6
= 0.77.
(För dessa data finner man Pearsons korrelation r = 0.81.)
a
Exempel 2.13 Vi återvänder till exempel 2.10 och beräknar korrelationer r
och rs mellan längd och vikt, dels för samtliga observationer, dels för det
reducerade datamaterialet med fyra observationer borttagna.
20
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.3. Visualisering av data
Tr
TS
Komplett material
0.75
0.76
Reducerat material
0.81
0.77
Vi noterar att rg inte ändrades i samma utsträckning som r vid reduktion av
data i form av de avvikande värdena. Spearmans korrelationskoefficient är
mindre känslig för avvikande värden och vi har här ett förhållandevis stort
datamaterial. Avslutningsvis betonar vi dock igen, att man inte lättvindigt
och utan närmare efterforskningar om mätsituationen skall plocka bort vad
som kan tyckas vara avvikande observationer. Det gjordes här i illustrerande
syfte.
a
2.3
Visualisering av data
Ett slitet uttryck lyder ”en bild säger mer än tusen ord”. Vi har hittills ritat
observationer i all enkelhet längs en vågrät axel (se figurerna 1.2 och 1.4) och
för två variabler studerat spridningsdiagram. Flera visualiseringstekniker har
utvecklats under årens lopp. Vi skall här studera hur man med hjälp av stolpdiagram, histogram och lådagram kan observera spridningen visuellt.
2.3.1
Stolpdiagram
Diskreta data redovisas enklast i ett stolpdiagram. Antag att en typ av luftfilter
kommer i leveranser med 50 komponenter per gång. Vid 25 leveranser har
man för varje leverans bokfört antalet felaktiga exemplar och funnit följande
observationer:
Antal felaktiga per leverans
Frekvens, antal felaktiga
0
17
1
4
2
3
3
0
4
1
Motsvarande stolpdiagram visas i figur 2.4.
2.3.2
Histogram
För kontinuerliga data indelas datamaterialet i ett lämpligt antal klasser. Med
relativt få data blir klasserna breda. I praktiken väljs klasserna per automatik
av de flesta datorprogram. Flera metoder har föreslagits för att beräkna anta-
let klasser givet antalet observationer, n. En vanlig tumregel föreslår antalet
klasser till y/n (avrundat till närmaste heltal).
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
21
2. Data: dess karaktär och presentation
0
185
16
14
12t
10t
|
od
I
i
td oo
|
Figur 2.4: Stolpdiagram: Antal felaktiga exemplar.
Under förutsättning av konstant klassbredd kan på histogrammets lodräta axel avsättas antingen den absoluta frekvensen, dvs. antalet observationer i varje
klass, eller skalad relativ frekvens (summan av areorna av samtliga rektanglar
adderas till 1).
Exempel 2.14 För datamaterialet över nyfödda barns vikt visas ett histogram i figur 2.5. Här finns på den lodräta axeln angiven den absoluta frekven-
sen. Spridningen förefaller symmetrisk kring medelvärdet 3400 g.
E
Exempel 2.15 I exempel 1.4 (sid. 3) studerade vi brottseghet hos två material
A och B. Ett histogram med skalad relativ frekvens visas i figur 2.6. Man noterar en skev fördelning hos brottsegheten för material A, medan spridningen
är symmetrisk hos material B. Informationen är densamma som kunde utläsas
i figur 1.1, där de enskilda observationerna kunde urskiljas. Lägg dock märke
till att antalet observationer är relativt få — det blir inte så många observationer i varje klass i histogrammet.
[a
22
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
150
JL
50
JL
100
J
Frekvens
200
J
250
JL
2.3. Visualisering av data
Sa
ce
i
I
I
I
I
I
I
I
0
1000
2000
3000
4000
5000
6000
Vikt (g)
Figur 2.5: Histogram: Vikter för 747 nyfödda barn i Malmö.
Material A
Oo
NN
Oo
ed
Oo
[
T
T
T
T
T
1
9.6
9.8
10.0
10.2
10.4
10.6
10.8
Brottseghet (MPa sqrt(m))
Material B
Oo
AN
o
CT
f
10.4
T
10.6
T
10.8
T
11.0
()
I
11.2
1
11.4
Brottseghet (MPa sqrt(m))
Figur 2.6: Histogram: Brottseghet för två material.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
23
2. Data: dess karaktär och presentation
2.3.3
Lådagram
Med hjälp av ett lådagram (engelska: boxplot” eller box-and-whisker diagram)
kan data presenteras ordnat efter storlek. De centrala delarna av data utgörs
av en låda, närmare bestämt de 507 mest centrala observationerna. Någon-
stans i lådan återfinns medianvärdet markerat som ett streck. Från lådans
kanter (som utgör datas kvartiler) dras linjer (”morrhår”) till de mest avlägsna observationerna. I de fall enstaka observationer hamnar mer än en och
en halv lådlängd utanför markeras dessa separat, oftast med en ring. Sådana
observationer, som markant avviker från huvuddelen av data, kan kallas out-
liers. (Den svenska benämningen ”uteliggare” har föreslagits, men vanligast
är att använda det engelska ordet.)
Exempel 2.16 Vi studerar återigen undersökningen rörande varningsskyltars inverkan på hastigheter (Exempel 2.2, sid. 11). Data från de tre katego-
rierna visas i figur 2.7 i tre lådagram, 100 observationer för varje kategori.
Från vänster till höger redovisas hastighet före, strax efter resp. lång tid efter
skyltens uppsättande. Vi observerar här outliers för kategorierna 1 och 3.
Att döma av lådagrammen tenderade hastigheten vara som lägst strax efter
uppsättandet, men osäkerheten är stor och en mer utförlig statistisk analys
är nödvändig för att dra mer långtgående slutsatser. En sådan analys görs i
kapitel 7.
=
2.3.4
Multivariata metoder
Vi har tidigare som hastigast berört multivariata data (exempel 1.7). Vår oförmåga som människor att kunna se i ett godtyckligt antal dimensioner försvårar givetvis visualiseringsmöjligheterna, men ett flertal metoder har utvecklats. Vi presenterar här två exempel.
Exempel 2.17 En vanlig metodik vid inte alltför höga dimensioner är att helt
enkelt presentera alla möjliga kombinationer av spridningsdiagram i en form
av matris.
Data i detta exempel berör materialegenskaper hos timmer, närmare bestämt mäts tre egenskaper hos varje timmerobjekt:
plot.
24
”Den amerikanske statistikern John W. Tukey (1915-2000) presenterade 1977 begreppet box-
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.3. Visualisering av data
ST
o
.
20
mer>>
=E
AN
:
!
ÄJ
.
:
Al Raa
Vv
'
25
|
T
Före
i
i
I
I
ii
'
J
Y
b——LL
'
—
|
0
I
'
Oo
35
2An
30
—
i
I
Aa
E
:
H
T
T
Strax efter
Långt efter
Kategori
Figur 2.7: Lådagram: Hastighet före, strax efter, lång tid efter skyltens uppsättande.
X, = Skjuvmodul (G)
X, = Elasticitetsmodul (E)
X3 = Densitet
I figur 2.8 nedan visas en sådan sammanställning. På matrisens diagonal kan
man välja att rita histogrammet för storheten i fråga. Korrelationerna kan
sammanfattas i numeriska värden som följer, beräknade med ekv. (2.4):
G-modul
E-modul
Densitet
G-modul
1
0.82
0.86
E-modul
0.82
1
0.74
Densitet
0.86
0.74
1
Figurerna, liksom de beräknade korrelationerna, antyder förhållandevis stark
positiv korrelation samtliga tre storheter emellan.
Oo
Tekniken i nästa exempel, en s.k. bubbelplott, lämpar sig för material med tre
storheter, och timmerdata studeras vidare.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
25
2. Data: dess karaktär och presentation
100
|
G-modul
MM |
200
300
a
oc
Ng
JIA
3
Tr
Oo
0
cf
8.
oo.
2?
ool
&
2190
38
oo
”
80
gl So
ö
3
|D
<<
ta
a”
FOTOT
1000
2000
3
JB
2
090
09
2.3
os
000”
|D
S
;
2
TO
NS
1 | Densitet [
rm
o
r 3
Oo
E-modul
o m
«I
Fb
I [HIHLRE
'
30
50
LL ”
'
70
Figur 2.8: Materialegenskaper hos timmer. Korrelationer mellan tre samvarierande
storheter.
Exempel 2.18 I en bubbelplott ritas två variabler mot varandra som i ett
vanligt spridningsdiagram, och relationen till den tredje storheten illustreras
med hjälp av cirklar, vars radier avspeglar storhetens magnitud. Med hjälp
av bubbelplotten i figur 2.9 kan korrelationerna i den tidigare figur 2.8 visualiseras. Även denna gång kan starka positiva korrelationer uppfattas, dels
genom cirklarnas spridning i planet, dels genom att cirklarnas radier tenderar
att växa i riktning mot höga värden hos densitet och E-modul.
2.4
Variationsbreddens variation
Variationsbredden
definieras som
R
=
max
— Zmin-
Antag
att man
har
tillgång till z och s för ett datamaterial med n observationer, men inte de
26
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
100
J
200
|
Elasticitetsmodul
300
I
400
I
2.4. Variationsbreddens variation
Densitet
Figur 2.9: Bubbelplott för tre storheter: densitet, G-modul, E-modul.
enskilda mätvärdena. Det går att härleda uttryck? för den största respektive
minsta möjliga variationsbredden. Man finner
Rmax
=
n— 1
2s
2
och
R
n—1
2SA/—
n >?
Nn
S (
oe
n jämnt,
+ V 2)
.
n udda.
För stora stickprov blir uttrycken enklare eftersom rotuttrycken ovan kan
approximeras:
Rmax
= 2syn/2,
Rmin = 2:
För härledning, se StaM-Bladet, nr 13, juni 1997.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
27
2. Data: dess karaktär och presentation
Exempel 2.19
Antag att z = 15.7, s = 1.3 och n = 10. Det följer att
Rmax = 5.52,
Rmin = 247.
För ett större stickprov, säg n = 150, med samma zZ och s erhålls, om uttrycket
för stora stickprov används,
Rmax
=
22.44,
frn
=
2.60.
Lägg märke till ökningarna, i synnerhet den relativa ökningen hos RmaxAvslutningsvis får J.W. Tukey, mannen bakom lådagrammet och en statistiker med intresse för såväl matematisk teori som mer deskriptiva statistiska
metoder, ordet'!:
If data analysis is to be well done, much of it must be a
matter of judgment, and ”theory” whether statistical or
non-statistical, will have to guide, not command.
2.5
R-kommandon
R är användbart
sett ur många
synvinklar
inom
beskrivande
statistik, för
beräkningar såväl som visualiseringar. Data kan skrivas in för hand vid en
prompt eller läsas in från fil. I kodavsnitten här i boken markeras prompten
med en hake (>); efter denna symbol skriver användaren in kod. Svaren från
R inleds med [1].
Låt oss återvända till exempel 2.12 och använda R för att studera slitagedata hos bromsbeläggen. Vi hade följande observationer:
Tr
y
21
2.3
22
21
1.7
20
24
22
1.8
1.9
2.5
2.6
I koden nedan definieras först observationerna i form av vektorer. Därefter
beräknas för r-värdena medelvärdet z, standardavvikelsen s samt variations-
bredden (R returnerar lägsta respektive högsta värde).
"J.W. Tukey (1962). Annals of Mathematical Statistics 33, sid. 10
28
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.5. R-kommandon
SR
Gl2 ir
deck
> y = c(2.3, 2.1, 2.0,
> mean (x)
[1]
2.116667
> sd (x)
[1]
0.3188521
> range (x)
[HlSl.-2:5
Korrelationen kan beräknas med hjälp av kommandot cor med lämpligt valda
inparametrar:
> cor(x,y,method=?pearson?)
[1] 0.8124965
> cor(x,y,method=?spearman”?)
[1] 0.7714286
Histogram kan ritas upp med hjälp av kommandot hist, lådagram med boxplot.
Ett spridningsdiagram för talparen (x;, y;) fås genom kommandot plot.
> hist(x)
> boxplot(x)
> plot(x,y)
Kommandona kan förses med betydligt fler inparametrar, vilka kan styra färg,
hjälplinjer, fontstorlek m.m. Användbart är hjälpkommandot help. Genom
att skriva t.ex. help (plot) kommer information upp på skärmen om denna
rutin.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
29
2. Data: dess karaktär och presentation
2.6
201
Övningsuppgifter
Man har observerat livslängderna hos 8 energilampor av viss modell och fann
följande (timmar):
6022
6003
6074
5697
6130
6201
5548
5812
Beräkna medelvärde och standardavvikelse för livslängden.
202.
För provstycken av en typ av betong studerar man tryckhållfastheten, och har
beräknat medelvärdet Zz = 40.3 MPa och variansen s? = 8.4 (MPa)?. Beräkna
variationskoefficienten.
203.
För ett datamaterial med 5 observationer har man beräknat medelvärdet 3.1.
På grund av slarv i bokföringen har värdet på en av observationerna försvunnit. Beräkna detta, om de fyra återstående observationerna är
2.3,
204.
3.7T,
2.9,
4.1.
Vid intrimningen av en ny maskin studeras antalet felaktiga komponenter per
timme. Genom mätningar har man funnit medelvärdet 10 och standardavvikelsen 3. För en äldre maskin fann man medelvärdet 15 och standardavvikelsen 4. Beräkna, för de två maskinerna, variationskoefficienterna för antalet
felaktiga komponenter.
205.
För följande observationer fann man variansen 2.49:
3.2,
2.1,
5.7,
4.6.
Om till samtliga observationer adderas konstanten 10, finn variansen.
206.
I en försöksserie av kretskort togs 14 ut på måfå och antalet felaktiga kondensatorer på vart och ett av korten noterades:
000301
023 110021
Ange variationsbredd och typvärde för antalet felaktiga kondensatorer.
207.
Vid en koncern finns två anläggningar, A och B. Uppgifter finns om genomsnittlig bruttoårslön (kkr) och antalet anställda vid anläggningarna enligt följande tabell:
Anläggning
A
B
30
Antal anställda
540
322
&
Genomsnittslön
320
280
FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.6. Övningsuppgifter
Beräkna den genomsnittliga bruttoårslönen i koncernen.
208. Antag att vi har följande tre observationspar (rr, y):
(1.5, 3.1),
(2.2, 3.5),
(3.1, 20).
(a) Skissa ett sambandsdiagram och föreslå utan att räkna, vilken av Pearsons eller Spearmans korrelationskoefficient som bör bli högst.
(b) Beräkna Pearsons respektive Spearmans korrelationskoefficient.
209. För ett datamaterial har man konstruerat ett lådagram, se figur 2.10. Använd
detta för att ange materialets
(a) median
(b) maximala uppmätta värde
4.0
4,5
5.0
5.5
6.0
1
(c) minimala uppmätta värde
Figur 2.10: Lådagram för uppgift 209
210. Betrakta två uppsättningar parvisa observationer, vardera med 20 observationspar:
Datamaterial 1
(&M, yll)y, ort) ($$, ysg')
(2) > Yap(2))
Datamaterial2 — (r (2)
yl 2)y ,- => (Tag
1
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
31
2. Data: dess karaktär och presentation
——
un
ee
o
'
'
o
Å
wo
Se
'
un
Oo
:
'
—
=
o
'
i
o
;
a
[>]
A
AR
?
2
o
[HL
do
o
on
'
I
o
Oo
'
oo
f
—
T
ä
'
o
o
I
T
TT
Oo
o
o
0
oo
—
'T
x1
'
yl
Oo
x2
T
y2
T
0
T
5
10
15
Figur 2.11: Figurer för uppgift 210. Vänster: Lådagram för fyra serier. Höger: Spridningsdiagram.
Allt sammantaget rör det sig om fyra serier med data, och dessa visas som
lådagram till vänster i figur 2.1.
(a) I figur 2.1 (höger), visas ett spridningsdiagram över två av serierna. Vil-
ka serier visas?
(b) Ange vilken av följande korrelationer som är giltig för observationerna
i spridningsdiagrammet (figur 2.n (höger)):
—0.89,
21.
—0.12,
0.05,
0.12,
0.89.
I ekv. (2.2) definierades variansen för ett stickprov:
1
s Ar
n
7 2: 4;
—
TV
z)”.
Man kan visa att variansen ekvivalent kan beräknas med uttrycket
=
1
n
)
1
n
2-0
ti=1
2
a)
i=1
Det senare uttrycket kan vara bekvämt att använda vid beräkning med miniräknare, i synnerhet om denna snabbt kan leverera summor och kvadratsummor för inmatade data.?
Ofta kan dock miniräknaren numera för inmatade data direkt leverera varians eller stan-
dardavvikelse — det alternativa uttrycket har historiska rötter från en tid då andra beräkningstekniker var gällande.
32
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
2.6. Övningsuppgifter
Beräkna standardavvikelsen för livslängderna i uppgift 201 genom att använda
det alternativa uttrycket.
Sammanfattning kapitel 2 &
Övningar kapitel 2
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
33
Kapitel 3
Sannolikheter och
slumpvariabler
Begreppet sannolikhet är centralt inom stokastisk modellering. I detta kapitel
diskuterar vi tolkning av begreppet sannolikhet samt introducerar relaterade
räknelagar. Slumpvariabler presenteras som hastigast och behandlas utförligt
i kapitel 4.
3.1
Frekvenskvoter
Vi studerar här slumpmässiga försök, dvs. försök där resultatet i varje enskilt
fall inte kan avgöras med säkerhet på förhand. Klassiska försök av denna typ
är att kasta en tärning, singla slant, snurra på rouletthjul osv. I en tillämpning
av mer industriell karaktär kan vi t.ex. undersöka om en produkt uppfyller
en kravspecification eller ej. Vi antar vidare att i varje enskilt försök, utfallet
inte påverkas av utfallen i de föregående försöken.
Antag att ett enskilt försök upprepas n gånger med samma förutsättningar. Beteckna med A händelsen att resultatet är av en på förhand bestämd,
speciell typ: en sexsidig tärning visar efter ett kast fyra ögon, en singlad slant
visar ”Krona”, eller en komponent är defekt. I varje enskilt delförsök kan A
antingen inträffa eller ej. Beteckna med f antalet försök där A inträffar. Kvoten f/n kallas då den relativa frekvensen eller frekvenskvoten.
Exempel 3.1 Följande tabell redovisar utfallen av 10 kast med en tärning.
Man är intresserad av händelsen A: ”Kastad tärning visar sex ögon”.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
35
3. Sannolikheter och slumpvariabler
Resultat (antal ögon)
Händelse A
Relativ frekvens
1
5
Nej
Ja
0/1
1/2
Nej
1/3
1/4
1/5
un
Nej
Nej
Nej
Nej
Ja
Oo
ON
AR
OA
UI
BB
W
BRÄNNA
N
Försök
Nej
10
1
Nej
1/6
1/7
2/8
2/9
2/10
Serien om 10 kast resulterade i frekvenskvoten 2/10 = 1/5 för händel-
sen A. Vad händer om vi har tålamod och genomför en längre försöksserie?
I figur 3.1 nedan visas resultatet från 100 kast (i själva verket en datorsimulering).
0.5
I
0.45
0.4
o
w
o
NN
0.25
[a
oo
'
un
4
”
Relativ frekvens
0.35
0.057
20
50
Antal delförsök
Figur 3.1: Relativ frekvens för 6 ögon vid 100 kast.
36
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.2. Mängder, händelser och slumpvariabler
Statistisk regelbundenhet hos frekvenskvoter
Vår erfarenhet säger oss, att i många fall infinner sig en stabilitet hos frekvenskvoterna om många delförsök utförs: kasta en tärning 100 gånger, 1000 gånger osv. Det är då naturligt att införa ett tal som innebär en matematisk ideali-
sering av frekvenskvoten f/n. Vi betecknar detta tal med P(A) och kallar det
för sannolikheten för händelsen A. Frekvenskvoten f/n är ett experimentellt
bestämt närmevärde på P(A). Vi kan införa följande definition:
Definition 3.1 Frekvensbaserad sannolikhet:
P(A) =Relativ frekvens för händelsen A efter oändligt många försök.
Avslutningsvis menas med en säker händelse en händelse som vid varje försök
inträffar. Då gäller att f/n = 1 för alla n och följaktligen att P(A) = 1. För
en omöjlig händelse gäller P(A) = 0.
Den klassiska sannolikhetsdefinitionen
Antag att ett försök kan utfalla på m möjliga sätt, varav g (antalet gynnsamma) innebär händelsen A, vilken är av intresse. Den klassiska sannolikhetsdefinitionen' ger då sannolikheten som P(A) = g/m. Definitionen är användbar
i flera sammanhang, men har en nackdel: de möjliga fallen skall ha samma
sannolikhet att inträffa.
Denna definition ger direkt att sannolikheten att få minst 4 ögon vid kast
med en välbalanserad tärning är 3/6 = 1/2. I ett annat exempel kan betraktas
ett parti om 1000 enheter, varav 0.52 anses vara felaktiga. Sannolikheten att
en slumpvis vald enhet är felaktig är då (0.005 - 1000)/1000 = 0.005.
3.2
Mängder, händelser och slumpvariabler
Vi skall här ytterligare exemplifiera begreppet händelse och fokusera på hur
händelser kan formuleras dels i ord, dels som en matematisk utsaga. Detta
"Pierre-Simon Laplace (1749-1827) presenterar denna i Théorie analytique des probabilités,
utgiven 1812. I inledningen till Livre II står att läsa:
La probabilité d'un événement est le rapport du nombre des cas qui lui sont favorables, au nombre de tous les cas possibles.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
37
3. Sannolikheter och slumpvariabler
synsätt är av stor betydelse i resten av kapitlet och inte minst i följande kapitel.
Vi har tidigare studerat händelsen
A =”Antal ögon hos kastad tärning är lika med sex”.
Kanske är man i något sammanhang intresserad av en annan sannolikhet,
involverande ett logiskt villkor: minst 4 ögon dyker upp i ett kast. Denna
händelse, B säg, kan i ord uttryckas
B ="”Antal ögon hos kastad tärning är minst fyra”.
Händelser kan formuleras mer kompakt om vi inför en s.k. slumpvariabel.
Inför t.ex. X =”Antal ögon hos kastad tärning”. Då kan händelserna A och
B ovan skrivas på formen
A=(X=6),
B=1(4<X<6)
där klamrarna |) indikerar mängder. Denna matematiska formulering är nödvändig för att kunna utveckla mer allmängiltig metodik, se nästa kapitel.
Exempel 3.2
troduceras:
Exempel på situationer där lämpliga slumpvariabler kan in-
Bakgrund
Parti om 100 komponenter.
En slumpvis vald glödlampa.
Exempel på slumpvariabel
Antal felaktiga komponenter.
Livslängd i timmar.
Exempel på händelser
(X =314,(X < 5)
(X > 5000), (X < 1500)
=
Alternativt kan begreppet stokastisk variabel användas i stället för slumpvariabel. På engelska skriver man random variable.
Unioner och snitt
I mängdläran studeras olika slags operationer för mängder. Betrakta två mängder A och B som hör hemma i en grundmängd S. Med snittet AN B menar vi
en ny mängd: de element som är gemensamma för A och B (logiskt: A och
B). Med unionen AU B avses mängden med element som tillhör antingen A
eller B, eller bådadera. I så kallade venndiagram kan operationer på mängder
illustreras, se figur 3.2.
38
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.2. Mängder, händelser och slumpvariabler
S
S
Figur 3.2: Operationer för två mängder A och B, vilka här är geometriska objekt i
form av cirklar med olika radier i en grundmängd, rektangeln S. Markerat i gråton,
till vänster: A AN Bj; till höger: AU B.
Med komplementet A” till en mängd A avses de element som ej tillhör
A. Två mängder A och B kallas oförenliga om de inte kan inträffa samtidigt:
AN B =) (den tomma mängden).
Exempel 3.3
Låtoss först studera ett fall, där grundmängden är bokstäverna
i vårt alfabet,
S = (A,B,C,...,Å,Ä, 0),
och mängderna innehåller bokstäver:
A= (M,A, T),
B=(T,AF
Då är AN B = (T, AJ), AU B = (M, A, T) (ordningen av elementen är här
oväsentlig vid uppräkningen).
I ett annat exempel studerar vi positiva heltal, med grundmängden S$ =
[0,1,2,...) och mängderna
A = (1,2,3),
B= (2,10).
Här är AN B = (2), AU B = (1,2,3,10).
Ett vanligt exempel i sannolikhetslära är att mängderna utgör intervall.
Antag att vi har en variabel X som tar värden 7 på positiva reella axeln, och
betrakta mängderna (intervallen)
A=(2<2z<5l,
B=(3<r<7).
Här
är AN B = (3 <xr <5), AUB = (2 < rr < 7). Rita gärna
en figur!
um
Oo FÖRFATTAREN
39
OCH
STUDENTLITTERATUR
3. Sannolikheter och slumpvariabler
I föregående exempel, lägg märke till att grundmängden kan innehålla oändligt många element. Operationen med komplement illustreras i nästa exempel. Att använda sig av resonemang med komplementhändelser kommer visa
sig användbart vid problemlösning.
Exempel 3.4 Betrakta grundmängden S = (1,2,3,4,5) och delmängden
A = (1,2, 3). Då gäller att A" = (4,5). Om B = (2,3) följer att (AN B)" =
(1,4,5) (rita gärna figur!).
=
I nästa avsnitt ska vi tillordna sannolikheter till mängder.
3.3
Egenskaper hos sannolikheter
Följande fundamentala resultat gäller för sannolikheter. Emellanåt benämnes
dessa Kolmogorovs axiom”. Händelserna betraktas i matematisk mening som
mängder, och grundmängden 5 som innefattar alla tänkbara händelser brukar
benämnas utfallsrum i samband med sannolikheter.
Kolmogorovs axiom (två händelser):
I För varje händelse A gäller att P(A) är ett icke-negativt tal: P(A) > 0.
II Sannolikheten för en säker händelse är lika med ett.
III Om A och B är oförenliga händelser gäller
P(AU B) = P(A) + P(B).
Utifrån dessa räkneregler kan ytterligare resultat härledas, t.ex. den användbara relationen
P(AUB)
= P(A) + P(B) —- P(AN B),
(3.1)
som gäller även i fallet då A och B inte är oförenliga.
En annan viktig regel gäller komplementhändelser. Man har att
P(A”) =1-— P(A)
(3.2)
Detta efter den ryske sannolikhetsteoretikern N.A. Kolmogorov (1903-1987) . En epokgö-
rande skrift av honom publicerades 1933.
40
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.3. Egenskaper hos sannolikheter
och det går även, t.ex. genom att rita venndiagram, att visa sambandet
P(A"N B") =1-P(AUB).
Exempel 3.5
(3.3)
Betrakta det slumpmässiga försöket att avgöra vädertyp för
morgondagen. Inför händelserna A: ”det blir regn”, B: ”det blir snö”. Man
känner till sannolikheterna P(A) = 0.35, P(B) = 0.15, P(A NM B) = 0.10.
I ord betyder händelsen A AN B ”regn och snö” (vilket mycket väl kan
inträffa när temperaturen en dag pendlar kring 0?C), medan AU B innebär
”regn eller snö (eller bägge delar)”. Vidare inser man innebörden av AN B'":
”varken regn eller snö”. Med hjälp av (3.1) kan man beräkna
P(AU B) = P(A) + P(B) — P(AN B) = 0.35 + 0.15 — 0.10 = 0.40
och därmed även, om så önskas,
P(A NB")
=1-
P(AUB)=1-—
0.40 = 0.60.
a
Följande exempel, med problemställning av tydlig industriell karaktär, visar
bl.a. hur problemformuleringar av typen ”minst en” kan lösas.
Exempel 3.6 Vid studiet av en prototyp till bildskärm till en mobiltelefon
betraktas två typer av händelser som innebär fel, dels A: försämrad tålighet
mot repor, dels B: försämrat ytskick vilket leder till irriterande reflexer. Man
har funnit att 576 har fel av typ A, 27 fel av typ B och 17 fel av bägge slagen.
Alltså gäller
P(A) =0.05,
P(B) =0.02,
P(ANM B)=0.01.
Sannolikheten att en bildskärm inte har problem med reflexer ges av (3.2)
P(B") =1—
0.02 = 0.98
medan sannolikheten att en bildskärm har minst ett av de bägge felen följer
av (3.1)
P(AU B) = P(A) + P(B) — P(AN B) = 0.05 + 0.02 — 0.01 = 0.06.
Avslutningsvis kan vi beräkna sannolikheten att en bildskärm är felfri med
avseende på de två felen:
P(A" NB") =1-— P(AU B) =1-— 0.06 = 0.94.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
41
3. Sannolikheter och slumpvariabler
Händelserna A och B kan utgöra utsagor om slumpvariabler, se exempel 3.2.
Exempel 3.7 Betrakta återigen det klassiska slumpexperimentet att kasta
en sexsidig, välbalanserad tärning. Antag att man är intresserad av sannolikheten att få minst 2 ögon.
Vi rör oss i ett utfallsrum S = (1,2,3,4,5,6) och inför slumpvariabeln
X = ”Antal ögon vid ett kast”. Efterfrågat är sannolikheten P(A) där A =
(X > 2). Eftersom samtliga utfall har samma sannolikhet ger den klassiska
sannolikhetsdefinitionen P(A) = P(X > 2) = 5/6 = 0.83.
=
I detta avsnitt presenterades resultat för två händelser. Se uppgift 308 för generalisering av ekv. (3.1).
3.4
Betingade sannolikheter
Vi inleder med ett exempel som kan motivera en definition av s.k. betingad
sannolikhet.
Exempel 3.8
Ien tillverkningsprocess för en viss produkt kontrolleras kva-
liteten, och en produkt klassificeras, för enkelhets skull, som antingen ”dug-
lig” eller ”defekt”. Man har data tillgängligt för dels en maskin i processen av
äldre typ, dels en av nyare, se tabellen nedan. Totalt valdes 300 produkter ut
slumpmässigt.
Äldre maskin
Duglig
170
Defekt | Totalt
10
180
Ny maskin
115
5
Totalt
285
15
120
|
300
Vi inför händelser och resonerar kring diverse intressanta sannolikheter:
A
=
”Slumpvis vald produkt är duglig”,
B
=
”Slumpvis vald produkt är tillverkad vid äldre maskin”.
Antag att en av de totalt 300 produkterna väljs slumpmässigt. Enligt den klas-
siska sannolikhetsdefinitionen har vi då P(A) = 285/300 = 0.95. Låt oss nu
betrakta en händelse där hänsyn tas till maskintyp, och införa ett nytt skrivsätt:
C = ”Slumpvis vald produkt är duglig, givet tillverkad vid äldre maskin”.
42
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.4. Betingade sannolikheter
Händelsen C involverar såväl A som B, och vi skriver C = A|B, där A|B
utläses ”A, givet B”. Från tabellen kan vi finna genom avläsning på raden för
”Aldre maskin”
P(C)
4
= —
(C) == P(A|B)
P(A|B) = 330 == 0.90.94.
Om man ritar ett venndiagram och markerar händelsen C av intresse inser man att sannolikheten för händelsen P(C) = P(A|B) kan erhållas som
kvoten P(AN B)/P(B). För vårt exempel finner man numeriskt från tabellen
170
P(AN B) = 200”
och därmed
P(ANB)
180
P(B) = 300”
170
PC)=——
= — = 0.94,
(2)
P(B)
180
dvs. samma svar som med det första resonemanget.
a
Analysen i exempel 3.8 kan motivera följande definition:
Betingad sannolikhet. Den betingade sannolikheten för A, givet att händelsen B inträffat, definieras genom
P(A|B)= P(AN
= SCB) B)
(3.4)
Den betingade sannolikheten P(A|B) utläses ”sannolikheten för händelsen
A, givet händelsen B”.
Exempel 3.9 En välbalanserad tärning kastas en gång. Man får veta att ett
udda antal ögon dök upp, och vill beräkna den betingade sannolikheten att
fem ögon kom upp. Lämpliga händelser införs:
A = ”Resultatet är fem ögon”,
B = "Resultatet är ett udda antal ögon”.
För att använda ekv. (3.4) bestämmer vi
P(AN B) = P(A) = :
så
PAIB)j=
(41|B)
P(AN B)
OO XX
P(B)
och
1/6
= —
1/2
Detta resultat överensstämmer med intuitionen.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
P(B)= >
1
=>,
3
H
43
3. Sannolikheter och slumpvariabler
Exempel 3.10 Två servrar, A och B, ingår i ett nätverk. Antag att händelserna A och B motsvarar att A resp. B fungerar under en hel, slumpmässigt vald
arbetsdag. Från driftstatistik har man funnit följande sannolikheter:
P(A)
= 0.90,
P(B)=0.85,
P(AN B)=0.80.
Nätverket fungerar så länge minst en av servrarna fungerar. Vi kan införa
händelsen
C' = ”Nätverket fungerar”
och eftersom C = AU B finner vi
P(C) = P(AU B) = P(A) + P(B) —- P(A N B) = 0.95.
Antag nu att vi får en rapport om att server A är utslagen. Vilken blir sannolikheten att nätverket fungerar? Den sökta sannolikheten ges av
Pere
P(CNA")
P(A)
—
P(B)-P(ANB)
1I-P(4)]
0.05
1
010
2 ON
För att finna täljarens värde kan ett venndiagram med markerade händelser
vara användbart. Alternativt kan följande resonemang utföras?:
CNA"' = (AUB)NA" = (AN A")U(BNA") = (f)U(BNA") = BNA",
och eftersom P(B) = P(B NA) + P(B NAN A”) följer för täljaren
P(C NA") = P(B) — P(AN B).
Sammanfattningsvis påverkade tilläggsinformationen funktionssannolikheten, vilken reducerades betydligt i detta exempel (sjönk från 0.95 till 0.50).
RR
Betingningskedjor och felträdsanalys
Som en följd av definitionen kan man skriva betingade sannolikheter som
följer (för två händelser A och B):
P(AN B) = P(B|A)P(A).
(3.5)
Ofta är de betingade sannolikheterna i uttryck av dessa slag kända, eller har
uppskattats från data. Sannolikheterna för olika scenarier kan därför beräknas, och man talar om betingningskedjor. Vi illustrerar med ett exempel.
Användning av distributiv lag för mängdoperationer.
44
& FÖRFATTAREN OCH STUDENTLITTERATUR
3.4. Betingade sannolikheter
Exempel 3.11 Vid en anläggning i en petroleumindustri kan en kedja av
oönskade händelser inträffa: Ett läckage kan uppträda, vilket kan leda till antändning av gas och sedan, i värsta fall, en explosion. Vi inför följande händelser:
A = Antändning av gas
B
=
Explosion
Händelserna illustreras i ett träddiagram, se figur 3.3.
(BB
IB”
A'|
Figur 3.3: Betingningskedja med händelser efter att läckage inträffat (exempel 3.11).
A: antändning av gas; B: explosion.
Med erfarenhet av liknande system kan man tilldela sannolikheter, t.ex. har
man (givet ursprungshändelsen, läckage) funnit P(A) = 0.005, P(B |A) =
0.1. Det går nu att beräkna sannolikheter för i detta fall tre scenarier, t.ex.
sannolikheten för antändning av gas och därpå följande explosion:
P(AN B) = P(B|A)P(A) = 0.005 - 0.1 = 0.0005.
För två händelser A1 och Aa lyder ekv. (3.5)
P(41 N 42) = P(A2 | A1i)P(A1)
och vi kan även införa tre händelser A1, 42 och A3 och erhålla uttrycket
P(A, NA2
NM A3)
=
P(A3|42
NM A1i)P(A2 N Ai)
=
P(A3|A2
NM AI)P(A2|AI)P(A1).
Emellanåt talas om felträdsanalys när betingningskedjor används i tillämpningar av det slag som studerades i Exempel 3.1. Sådana är av fundamental
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
45
3. Sannolikheter och slumpvariabler
betydelse i den statistiska riskanalysen. Viktiga moment där är att identifiera
riskerna (vad kan gå fel?) för att sedan tilldela dessa så realistiska sannolik-
heter som möjligt.
Vi avslutar detta avsnitt med ett exempel, som leder till den s.k. Bayes
formel.
Exempel 3.12 I en industrilokal finns ett brandlarm. Det är förhållandevis
pålitligt, men ibland sker falsklarm och en brand kan även missas. Vi inför
händelser:
B ="”Brand i lokalen”,
L ="”Larm ljuder”.
Följande sannolikheter är kända: P(B) = 0.05, P(L|B) = 0.98 (sannolikhet
att larmet ljuder, givet att brand verkligen uppstått), P(L|B”) = 0.10 (sannolikhet för falsklarm).
Man är intresserad av p = P(B|L), dvs. sannolikheten att en brand verk-
ligen äger rum, givet att larmet ljuder:
P(BAL)
P(LIB)P(B)
p=P(BIL)= "PD =
PD)
Observera hur täljaren skrevs om för att kunna utnyttja given information.
För att beräkna sannolikheten i nämnaren kan vi tänka oss ett händelseträd,
och resonemang med oförenliga händelser leder till
P(L) = P(L|B)P(B)+P(L|B")P(B") = 0.05-0.98+(1—0.05)-0.10 = 0.144.
Vi kan nu räkna ut sannolikheten p:
P=
0.05 - 0.98 = 0.34,
0.144
vilket kanske inte kan uppfattas som en tillräckligt hög sannolikhet i sammanhanget.
=E
Vi kan formulera en version av Bayes formel':
Bayes formel. Den betingade sannolikheten för B, givet att händelsen A
inträffat, ges av
P
P(B|A) = Pen)
(3.6)
"Thomas Bayes (1702-1761) har gett namn åt detta resultat.
46
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.5. Oberoende händelser
Bayesiansk statistik har funnit många tillämpningar inom teknik och naturvetenskap. Ett intressant exempel är algoritmer för detektion av s.k. spam i
e-post. Givet att ett meddelande innehåller information av viss natur (text,
symboler, avsändarnamn), vad är sannolikheten att det i själva verket är ett
e-brev avsett och önskat för mottagaren?
3.5
Oberoende händelser
I många situationer gäller, att ny information inte nödvändigtvis påverkar
sannolikheterna. De aktuella händelserna kan då i vardagsspråket kallas oberoende. Om man slagit en sexa med en tärning påverkas normalt inte sannolikheten att få ”Krona” vid en slantsingling stunden efter. Vi ska här se hur
oberoende kan formuleras med sannolikheter.
Låt oss alltså anta att informationen att B inträffat inte har någon betydelse beträffande sannolikheten för A; då gäller P(A|B) = P(A). Men enligt
definitionen av betingad sannolikhet gäller P(A
det följer då att
MN B) = P(A|B)P(B), och
P(AN B) = P(A) - P(B).
Vi sammanfattar detta resultat:
Sannolikheter för oberoende händelser.
För två oberoende händelser A och B gäller att
P(AN B) = P(A) P(B).
Vid stokastisk modellering görs ofta antagande om oberoende. En mycket stor
del av den grundläggande teorin ägnas åt oberoendefallet, vilket leder till enklare beräkningar. I kommande kapitel är oberoende ofta en viktig förutsättning. Skilj mellan oberoende och oförenliga händelser (se övningsuppgift 307).
Exempel 3.13
I ett avsnitt av en gruva finns två pumpar A och B som antas fungera oberoende av varandra. Produktionen kan pågå så länge minst
en pump fungerar. Vi inför händelserna A =”Pump A fungerar en slumpvis
vald dag” samt B ="”Pump B fungerar en slumpvis vald dag”. Från tidigare
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
47
3. Sannolikheter och slumpvariabler
driftstatistik har man funnit P(A) = 0.90, P(B) = 0.95. Vi beräknar sannolikheten för produktion en slumpvis vald dag med hjälp av ekv. (3.1) och
oberoendeantagandet:
P(AUB) = P(A)+P(B)-P(ANB) = P(A)+P(B)-—P(A)P(B) = 0.995.
=
I samband med beräkningar med oberoendeantagande för en tillämpning av
något slag får man gärna vara kritisk mot antagandet. I exempel 3.13 kanske
pumparna har en benägenhet att falera vid hög belastning, och de kanske
utsätts för sådan belastning vid samma tillfälle. Kanske är pumparna känsliga för väderleken: temperatur, fukt osv. och är placerade så att de utsätts för
likartade förhållanden. Allmänt gäller att kunskap om förhållandena kring
systemet i vid bemärkelse kan underlätta antagandena i den stokastiska modellen.
Oberoendet kan generaliseras till fler än två händelser. För att A, B och
C skall vara oberoende krävs att sambandet
P(AN BAC)
= P(A)P(B)P(C)
(3.7)
gäller, men därtill att händelserna A, B och C är oberoende parvis. (För ytterligare diskussion och exempel, se en utförligare bok i sannolikhetslära?.)
Exempel 3.14 Vid en produktionslinje kontrolleras tillverkade bildskärmar
till mobiltelefoner med avseende på tre typer av komponenter: A, B och C.
Varje bildskärm har en komponent av typ A, tre av typ B samt en av typ C.
För de enskilda komponenterna anser man att följande felsannolikheter gäller
vid kontrollen:
TypA
TypB
TypC
0.10
0.05
0.02
En bildskärm uppfyller kraven om samtliga komponenter fungerar. Antag statistiskt oberoende samtliga komponenter emellan och finn sannolikheten att
en slumpvis vald bildskärm blir godkänd.
Inför följande händelser för en slumpvis vald bildskärm:
A = ”A-komponenten är OK”,
B = ”B-komponenterna är OK”,
Se exempelvis Stokastik av S.E. Alm och T. Britton, Exempel 2.12.
48
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.5. Oberoende händelser
C = ”C-komponenten är OK”
Den sökta sannolikheten, p säg, ges av ekv (3.7),
p= P(ANBNC)
= P(A)P(B)P(C),
där oberoendet utnyttjats.
Från den givna informationen finner man P(A)
= 1 — 0.10, P(B)
(1 — 0.05)? (oberoende, B-komponenter emellan) samt P(C)
Slutligen kan p beräknas:
=
=
1 — 0.02.
p = (1 — 0.10)(1 — 0.05)?(1 — 0.02) = 0.76.
Oo
Många problem kan lösas genom att kombinera oberoendeantagande och sannolikheter för komplementhändelser och då utnyttja ekv. (3.2). Man har ofta
nytta av resultatet att om A och B är oberoende händelser är även komplementhändelserna A” och B” oberoende (visas i avsnitt 3.6), med generalise-
ring till flera händelser. Alltså gäller P(A” AN B”) = P(A”)P(B”"').
Exempel 3.15 På ett kretskort finns n komponenter. Antag att en komponent är defekt med sannolikheten p och att olika komponenter är defekta
oberoende av varandra. Om minst en komponent är defekt måste hela kretskortet kasseras. Inför, föri = 1,...,n, händelsen
A; =”Komponent i är defekt”,
dvs. P(A;) = p. Inför vidare händelsen av intresse,
A ="”Slumpvis valt kretskort måste kasseras”.
Räkningar med sannolikheter för komplementhändelser enligt ekv. (3.3) samt
oberoendeantagandet ger nu
P(A)
=
1-—P(A NASN... NAS) =1-P(A)- P(A3)-...- P(AX)
=
1— (1— P(A1))(1 — P(A2)):+-(1— P(An)) =1-(1- >)".
Ofta är n ett på förhand givet tal, av tekniska skäl, medan p är knutet till kva-
litet. Antag t.ex. att n = 200. Låt oss för olika val av p beräkna sannolikheten
P(A):
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
49
3. Sannolikheter och slumpvariabler
Med p = 0.01 följer
P(A) = 1-— (1— 0.01)?029
= 0.87.
Med p = 0.001 följer
P(A) = 1 — (1 — 0.001)?00
= 0.18.
Andelen kretskort som är defekta har minskat med minskande p. Det är upp
till beslutsfattare att finna ett lämpligt värde på p som är en kompromiss mellan tillförlitlighet och kostnad.
=
Exempel 3.16 Vid transport av kemiskt avfall har man noterat 4 läckage
vid 1040 transporter. Vid planeringen för kommande år räknar man med 320
transporter. Antag oberoende transporter emellan och beräkna sannolikheten
för minst en transport med läckage.
Vi inför händelsen
A = ”En slumpvis vald transport sker med läckage”.
Från informationen finner vi direkt en uppskattning” av sannolikheten p >=
P(A) = 4/1040. Inför nu händelsen
B ="Minst en transport med läckage (av 320)”
med komplementhändelsen
B" = ”Ingen transport med läckage (av 320)”.
Sökt sannolikhet är P(B), vilken ges som
P(B)
=
=
1- P(B") =1|
P(ATAN...N A3o0)
1-(1-p)?0 =1-
(1
1040
)
320
= 0.71,
där vi utnyttjat p från känd information, P(A;) = p, i = 1,...,320.
Lägg märke till att sannolikheten för läckage är stor, även om sannolikheten i varje enskilt fall är liten.
=
”En orientering om hur observationer kan användas för att skapa statistiska modeller, uppskatta sannolikheter osv., ges i kapitel 6.
50
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.6. Sannolikheter för komplementhändelser till oberoende händelser
3.6
Sannolikheter för komplementhändelser till obe-
roende händelser
Antag att ÅA och B är oberoende händelser. Vi vill visa att A” och B" är obero-
ende, dvs. P(A"N B”) = P(A")P(B"). En lämplig utgångspunkt är ekv. (3.3):
P(A' NB") =1-
P(AUB).
Med A och B oberoende följer att
P(A"NB")
=
1-P(AUB)=1-
(P(A)
+ P(B) —- P(AN
B))
1— P(A) — P(B) + P(A)P(B)
=
=
1-P(A)-P(B)(1—P(A)) = (1— P(A))(1— P(B))
P(A")P(B"),
och beviset är klart.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
51
3. Sannolikheter och slumpvariabler
3:7
Övningsuppgifter
301
Händelserna A och B är oförenliga med P(A) = 0.2 och P(B) = 0.6. Bestäm
P(AU B).
302.
Givet P(A) = 0.03, finn sannolikheten för komplementhändelsen A”, dvs.
beräkna P(A”).
303:
Händelserna A och B är oförenliga, med P(A")
Beräkna P(AU B).
304.
Sannolikheten för att händelsen A inträffar är 0.4. Motsvarande sannolikhet
för händelsen B är 0.6. Sannolikheten för att både händelsen A och händelsen
=
0.2 och P(B)
=
0.1.
B inträffar är 0.2. Beräkna sannolikheten att varken A eller B inträffar.
305:
För händelserna A och B gäller att P(A) = 1/3, P(B) = 1/4 och P(AUB) =
306.
För händelsen A gäller P(A) = 0.15, och följaktligen P(A”) = 0.85. Är händelserna A och A” oberoende?
307.
Betrakta två oberoende händelser A och B med P(A)
händelserna oförenliga?
308.
Det går att härleda motsvarigheter till ekv. (3.1) för flera händelser. I fallet med
tre händelser A, B och C har man uttrycket
1/2. Är händelserna A och B oberoende?
P(AUBUC)
=
> 0, P(B)
> 0. Är
P(A)+P(B)+P(C)
P(AN B)- P(ANC)-P(BAC)
+P(AN BNC).
För oförenliga händelser A, B och C gäller dock det enklare sambandet
P(AU BUC)=P(A) + P(B) + P(C).
Antag att för de oförenliga händelserna A, B och C gäller P(A) = 0.02,
P(B) = 0.12, P(C) = 0.03. Beräkna sannolikheten att minst en av händelserna inträffar.
309.
52
En säljare står i färd med att försöka få förmånliga kontrakt med tre företag
A, B och C. Av erfarenhet vet man att chanserna kan vara mer eller mindre
goda. Beteckna med A, B och C händelserna att man lyckas få kontrakt med
företag A, B resp. C. Det anses känt att P(A) = 0.5, P(B) = 0.8, P(C) = 0.2.
Antag att händelserna A, B och C är oberoende och beteckna antalet erhållna
kontrakt med X.
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.7. Övningsuppgifter
(a) Vilka är de möjliga värdena på X?
(b) Beräkna P(X = 0), P(X = 1).
(c) Beräkna P(X < 2).
310
För händelserna A och B gäller P(A) = 0.3, P(B) = 0.4, P(AU B) = 0.6
311
Man känner sannolikheterna P(A) = 0.20, P(B) = 0.30, P(A|B) = 0.60.
och P(A NM B) = 0.1. Bestäm den betingade sannolikheten P(A|B).
(a) Beräkna P(AN B).
(b) Beräkna P(AU B).
(c) Är A och B oberoende händelser?
312.
Längs en produktionslinje kontrolleras produkter av två inspektörer, först Anna, sedan Beda. Sannolikheten att Anna missar en felaktig produkt anses vara
0.1. Vidare missar Beda fem av tio felaktiga produkter som passerat Anna.
Beräkna sannolikheten att en produkt missas av bägge inspektörerna.
313.
Ett företag har tre anläggningar, A, B resp. C, där en viss komponent tillverkas.
Enligt tillgänglig statistik tillverkas 307 av komponenterna vid anläggning
A, 502 vid anläggning B och resterande andel vid anläggning C. Antag att
17, 47 resp. 372 av komponenterna tillverkade vid A, B resp. C är defekta.
En komponent från företaget väljs på måfå. Ange sannolikheten att denna
kommer från anläggning B och är defekt.
314.
Farlig tebjudning. Antag att det finns sju koppar te, varav två innehåller dödligt
gift. Två personer, A och B, dricker varsin kopp. Hur stor är sannolikheten att
bägge överlever?
315: Två tärningar kastas. Den första visar 3 ögon. Vad är sannolikheten att sum-
man av ögonen på de bägge tärningarna blir högre än 6?
316.
I ett fläktsystem återfinns fem kretskort. Från insamlade data anser man att 172
av kretskorten är defekta. Fläktsystemet anses defekt om minst ett kretskort
är defekt. Beräkna sannolikheten att ett slumpvis valt fläktsystem är defekt.
317.
Man vill undersöka eventuellt samband mellan val av tidning och partisympatier. Speciellt vill man fokusera på tidningen Dagens Nyheter (DN) och partierna fp respektive s. I en undersökning tillfrågades 100 slumpmässigt utvalda
personer, och resultatet visas i tabellen nedan:
Läser DN
LäserinteDN
Summa
Oo FÖRFATTAREN
OCH
fp
10
—=+5
15
s
4
6
10
STUDENTLITTERATUR
Övriga
26
49
75
Summa
40
60
100
53
3. Sannolikheter och slumpvariabler
Med hjälp av den klassiska sannolikhetsdefinitionen kan vi uppskatta sannolikheter och analysera eventuella beroenden.
(a) Är valet av parti och tidning oberoende för fp?
(b) Är valet av parti och tidning oberoende för s?
318.
Under den kyliga årstiden inträffar dagligt avbrott i en industri med sannolikheten 0.1. Hur stor är sannolikheten för minst en dag med avbrott under en
arbetsvecka (5 dagar)? Antag oberoende.
319.
Från statistik har man funnit att en viss typ av fallskärmshoppning leder till
skada i ett fall av femtio. En person, som inte läst sannolikhetslära, menar då
att sannolikheten måste vara 1007 att skadas om 50 hopp genomförs. Låt oss
beräkna diverse sannolikheter.
(a) Finn sannolikheten att 50 hopp inte leder till någon skada alls.
(b) Finn sannolikheten för minst en skada vid 50 hopp.
(c) Finn det maximala antalet hopp n som måste genomföras för att den
hoppande personen med en sannolikhet på minst 0.80 inte utsätts för
någon skada.
320.
En koncern har två system för inkommande meddelanden. System väljs slumpmässigt för ett inkommande meddelande och vardera systemet innefattar två
servrar, där fel kan uppkomma vid hanteringen. Sannolikheter för val av system (andel meddelanden i respektive system) samt felsannolikheter för respektive server framgår av följande tabell:
System 1
System 2
Andel meddelanden
0.30
0.70
Server1i
0.01
Server 2
0.015
Server 3
Server 4
0.02
0.003
Koncernens kommunikationavdelning hoppas att sannolikheten att ett meddelande kommer fram felfritt är minst 0.95. Undersök detta, genom att beräkna sannolikheten för korrekt överföring.
321.
I ett system överförs symboler, 0 eller 1, från en sändare till en mottagare. Två
typer av fel kan inträffa vid överföringen av en symbol: fel vid avsändandet,
t.ex. om 0 avses sändas, sänds i själva verket 1, resp. felaktig registrering vid
mottagandet (om 0 verkligen sänts noteras 1). Antag att sannolikheten för
första felet är 0.05 medan sannolikheten för andra felet är 0.001, och att felen
inträffar oberoende av varandra.
Antag att man vill överföra en viss symbol. Beräkna sannolikheten för korrekt
överföring.
54
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
3.7. Övningsuppgifter
322. I ett system fungerar komponenterna A1 och A2 vardera med sannolikheten
0.95, se figur 3.4. Antag oberoende och beräkna sannolikheten att systemet
fungerar.
Ledning. Systemet fungerar så länge bägge komponenterna fungerar, ett så
kallat seriesystem.
Figur 3.4: Seriesystem.
323. I ett system fungerar komponenterna A,; och A32 vardera med sannolikheten
0.95, se figur 3.5. Antag oberoende och beräkna sannolikheten att systemet
fungerar.
Ledning. Systemet fungerar så länge minst en av komponenterna fungerar, ett
så kallat parallellsystem.
Ål
Figur 3.5: Parallellsystem.
Sammanfattning kapitel 3 &
Övningar kapitel 3
Deltest kapitel 2-3
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
55
Kapitel 4
Fördelningar
Centralt i stokastisk modellering är, som diskuterats i kapitel 1, att finna en
lämplig matematisk beskrivning av slumpmässighet. Nyckeln till många analyser ligger i att hitta en lämplig fördelning för sannolikheterna i en given
situation. Fördelningen kan användas för att beräkna sannolikheter.
När vi framöver studerar fördelningar kommer det matematiska begreppet funktion till användning. Ofta kommer funktionerna att innehålla en eller
flera parametrar. Om vi betraktar t.ex. funktionen
f(x) = ae",
x>0,
där a är ett reellt tal, så anses med statistiskt språkbruk a vara en parameter.
Vanligtvis görs en uppdelning beroende på det slumpmässiga försökets
natur: man talar om diskreta resp. kontinuerliga fördelningar. Vi presenterar
nedan dessa separat.
4.1
Diskreta fördelningar
I avsnitt 3.2 nämndes begreppet slumpvariabel. En diskret slumpvariabel X
införs ofta i sammanhang där variabeln räknar antal. Med matematisk terminologi kan en diskret slumpvariabel endast anta ett uppräkneligt antal värden.
Exempel 4.1 På en utvald del av en dators moderkort finns 3 kontakter och
man är intresserad av antalet defekta kontakter efter en speciell testtid. Därför
är det lämpligt att införa en slumpvariabel X enligt
X = Antal defekta kontakter,
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
57
4. Fördelningar
där X kan anta värdena 0, 1, 2 eller 3. Utfallsrummet är alltså (0, 1, 2, 3).
Av erfarenhet har man funnit följande sannolikheter (lägg märke till att de
summeras till 1):
P(X = 0)
0.65
P(X =1)
0.20
P(X=2)
0.10
P(X=3)
0.05
Dessa kan ritas upp i ett diagram vilket då visar sannolikhetsfördelningen för
X; för detta exempel, se figur 4.1.
[0]
0.61
0.5'
0.4
0.3;
0.2
0.1;
0
0
1
La
2
Figur 4.1: Sannolikhetsfördelning för antal defekta kontakter.
Med reglerna för sannolikheter från avsnitt 3.3 kan vi t.ex. beräkna följande:
(a) Sannolikheten för exakt två defekta: P(X = 2) = 0.10.
(b) Sannolikheten för minst två defekta:
P(X > 2) = P(X = 2) + P(X = 3) = 0.10 + 0.05 = 0.15
(här utnyttjades att P(AUB) = P(A)+P(B) för oförenliga händelser).
(c) Sannolikheten för minst en defekt:
P(X > 1) = 1-— P(X = 0) = 1— 0.65 = 0.35
(här utnyttjades P(A") = 1 — P(A), komplementsannolikhet).
58
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.1. Diskreta fördelningar
4.1.1
Exempel på diskreta fördelningar
Ofta kan sannolikhetsfördelningen specificeras genom ett matematiskt funktionsuttryck, dvs. varje enskild sannolikhet beräknas fram. Inför beteckning-
en
p(z) = P(X = 2),
där p(r) kallas sannolikhetsfunktion.
För en sådan måste alltid gälla
> p(z) =1,
där summationen sker över alla möjliga x i utfallsrummet för den givna situationen. I exempel 4.1 studerades speciellt en fyrpunktsfördelning, med sannolikhetsmassa fördelad på fyra värden, och i figur 4.1 är motsvarande sannolikhetsfunktion uppritad.
Vi anknyter åter till vårt exempel på riskanalys från exempel 3.u, inför
nu en diskret slumpvariabel och bestämmer dess fördelning i form av sannolikhetsfunktionen.
Exempel 4.2 I exempel 3.u studerades ett händelseträd, med tre slutscenarier. Antag nu att dessa kan sammankopplas med allvarliga skador på personal
och inför en variabel Y för antalet skadade. Med kännedom om systemet vet
man att Y = 2 gäller i värsta scenariet; i övriga fall gäller Y = 1 resp. Y = 0.
Se figur 4.2 för en överblick.
Vi kan nu betrakta Y som en slumpvariabel, och beräkna dess sannolikhetsfunktion genom att använda betingningskedjor:
0)
=
P(A") =1—
0.005 = 0.995,
P(Y =1)
=
P(A)P(B”|A)
= 0.005 - (1 — 0.1) = 0.0045,
2)
=
P(A)P(B]|A)
= 0.005 - 0.1 = 0.0005.
Sannolikhetsfunktionen kan därmed sammanfattas:
Y
0
l
2
ply)
0.995
0.0045
0.0005
Ofta förekommer i industriella sammanhang flödesplaner av olika slag. I nästa
exempel studerar vi de olika stegen i en produktionsprocess.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
59
4. Fördelningar
Br
Y=
Br
Y=
Å
—
A"
Yr =0
Figur 4.2: Händelseträd med tillhörande utfall av en slumpvariabel Y.
Exempel 4.3 En produktionsprocess omfattar ett flöde där två operationer,
1 och 2, utförs. Dock händer det att en order efter genomgången operation 2
måste återgå till operation 1. Detta inträffar med sannolikheten 0.2. Processen
finns beskriven i figur 4.3. Det är av intresse att finna sannolikhetsfördelningen för antalet steg i flödet. Tid är pengar, och därför vill man få en uppfattning
om sannolikheterna att processen tar alltför lång tid.
Vi antar oberoende alla steg emellan, och sannolikheten ett för stegen
Start > 1 resp. 1 — 2. Med lite eftertanke inser man att det minsta möjliga
antalet steg från Start till Stopp är 3, och endast ett udda antal steg är möjligt.
Följande tabell kan skrivas upp:
Antal steg — Flöde
3
Start > 1 > 2 — Stopp
5
Start > 15 2-5 1— 2 > Stopp
7
Start > 15+25152—1—2—
Stopp
Sannolikhet
1:1-0.8=0.8
1:1-0.2-1-0.8
= 0.16
1-(0.2-1)?-0.8
= 0.032
Tabellen kan utvidgas, sannolikheterna minskar med ökat antal steg.
Inför nu slumpvariabeln X för totala antalet steg i processen. Sannolikhetsfördelningen för X kan då formuleras med sannolikhetsfunktionen
p(r) = (1— p)plE MM?
rr =3,5,7,...
där i vårt fall p = 0.2.
=E
Vissa val av funktioner är speciellt vanliga, och passar utmärkt för beskrivning av särskilda situationer. Dessa har fått egna namn och därtill hörande
korta kodbeteckningar; ett axplock följer här.
60
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.1. Diskreta fördelningar
Start
i
1
p
Stopp
p=0.2
Figur 4.3: Flöde i en produktionsprocess. Efter operation 2 är sannolikheten 0.2 att
en order returneras till operation 1.
Binomialfördelningen
Låt oss utföra ett visst försök ett på förhand bestämt antal gånger n. Försöken antas vara oberoende, och varje försök kan utfalla på två möjliga sätt:
det kan antingen lyckas (med den kända sannolikheten p) eller misslyckas
(med sannolikheten 1 — p). Ofta är det av intresse att finna sannolikheten för
antalet lyckade försök x. Sannolikhetsfunktionen får följande form:
Binomialfördelning.
slumpvariabel X ges av
Sannolikhetsfunktionen för en binomialfördelad
Kodbeteckning: X -— Bin(n, p).
Observera att två parametrar p resp. n ingår, och lägg även märke till definitionsmängden. I funktionsuttrycket gäller att
där xc! = x(zx — 1) ---1. Speciellt gäller 0! = 1. Se appendix för vidare information kring dessa uttryck.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
61
4. Fördelningar
Exempel 4.4 Låt X — Bin(2, 0.2). Då ges sannolikhetsfunktionen av
P(X =1)= (1)02'0.8! = 0.32,
>
p(2)
=
[
p(1)
P(X =0) = (0) 0.2?0.89 = 0.04,
>
[
p(0)
2
= ( 9 0.220? = 0.64.
Som sig bör gäller att J”, p(r) = 1. Sannolikheter kan beräknas, t.ex.
P(X £ 1) = P(X = 0) + P(X = 1) = p(0) + p(1) = 0.36.
=E
Exempel 4.5 Sannolikheten för oväntat avbrott i produktionen under en
slumpvis vald dag i en arbetsvecka (fem dagar) anses vara 0.10. Avbrotten
anses ske oberoende av varandra.
(a) Beräkna sannolikheten för precis två dagar med avbrott under en arbets-
vecka.
(b) Beräkna sannolikheten för minst en dag med avbrott under en arbetsvecka.
Inför en slumpvariabel X =”Antal avbrott under en arbetsvecka”. Enligt
förutsättningarna gäller då att X -— Bin(n, p) med n = 5 och p = 0.10.
(a) Sökt sannolikhet:
P(X = 2) = (2)0200 —- 0.10)?7? = 0.073.
(b) Sökt sannolikhet:
P(X > 1) = 1-—P(X <0)=1-P(X =0)=1- (0)9:1920.905 = 0.41.
Observera att vi använde komplement på ett listigt sätt i (b). Man skulle alternativt kunnat beräkna sannolikheten som
P(X > 1) = P(X = 1) + P(X = 2) + :-- + P(X = 5),
men användning av komplementet leder till enklare räkningar. Detta knep är
vanligt vid beräkning av sannolikheter.
=
62
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.2. Kontinuerliga fördelningar
Poissonfördelningen
Poissonfördelningen används ofta för att modellera sällsynta händelser. Sannolikhetsfördelningen presenteras nedan:
Poissonfördelning. Sannolikhetsfunktionen
slumpvariabel X ges av
för
en
Poissonfördelad
Kodbeteckning: X -— Po(m).
Exempel 4.6 Antag att antalet allvarliga olyckor i en koncern under ett år
följer en slumpvariabel X, fördelad enligt X — Po(2). Här gäller alltså m = 2,
vilket tolkas som att i genomsnitt sker två olyckor per år (mer om detta i
avsnitt 4.3). Man är intresserad av sannolikheten för fler än 3 olyckor. Denna
beräknas som
P(X > 3)
1—-P(X<L3)=1=
1—0.86 = 0.14.
I
2
+ ee
2
($e
0!
2
3
+ >)
3
Man kan visa att om ett försök utförs n oberoende gånger och sannolikheten
patt varje försök lyckas är väldigt liten, så ges antalet lyckade försök approximativt av en variabel som är Poissonfördelad med parameter m = np. Detta
kallas ibland små talens lag. Approximationen är rimlig om p < 0.1, n > 10.
4.2
Kontinuerliga fördelningar
Med densitet menas i fysiken storheten
densitet =
massa
volym
.
Ett liknande synsätt används när sannolikhet skall fördelas över ett utfallsrum
där de tänkbara värdena utgör ett kontinuum, ett intervall.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
63
4. Fördelningar
För beräkningar av sannolikheter för en kontinuerlig slumpvariabel X
används ofta den s.k. täthetsfunktionen fx (x). Denna kan tolkas som gränsfunktion av ett skalat histogram. Sannolikheten P(a < X < b) beräknas då
som
Pla<X<bd)=
|
b
fx(r) dz.
Låt I vara det intervall som motsvarar hela definitionsmängden för fx (zz).
Då gäller att
fixar
av
För att en funktion skall kunna fungera som täthetsfunktion måste ekv. (4.1)
gälla, dessutom måste fx(r) > 0 för alla x i definitionsmängden I.
För kontinuerliga variabler kan alltså sannolikheter beräknas genom integrering. Lägg märke till, att för en kontinuerlig variabel gäller, på grund av
integraltolkningen, att P(X = a) = 0, vilket har till följd att man kan räkna
mer vårdslöst (jämfört med diskreta fallet) med sannolikheter involverande
olikheter; det gäller att
P(a < X < b) = P(a < X < b) = P(a < X < b) = P(a < X < b).
Lägg märke till att f (a) inte är sannolikheten i punkten r = a. Sannolikheter
för kontinuerliga variabler relateras, som
nämnts
ovan,
till integraler över
intervall.
Exempel 4.7
Någon föreslår att funktionen
sf(0)=46,
0<r£1,
skall utnyttjas som täthetsfunktion för en slumpvariabel X. Vi kontrollerar:
Funktionen
antar positiva värden
i sin definitionsmängd,
intervallet
[0,
1],
och dessutom gäller
1
j f(r)dr = |
1
42? dr = [x"]] EN
så vi har att göra med en täthetsfunktion.
Antag att man vill beräkna P(0.4 < X < 0.8). Detta följer som
P(0.4 < X < 0.8) = /
64
0.8
0.4
42? dr = 0.8? — 0.4? = 0.38.
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.2. Kontinuerliga fördelningar
Den aktuella arean visas i figur 4.4.
För att t.ex. beräkna P(X > 0.62) integreras återigen:
P(X > 0.62) = P(0.62 < X < 1) = 1! — 0.62" = 0.85.
Lägg märke till att i sista beräkningen utnyttjades intervallets högra ändpunkt.
H
I
I
U|
I
I
I
0.0
0.2
0.4
0.6
0.8
1.0
Figur 4.4: Beräkning av sannolikheten P(0.4 < X < 0.8) genom integrering av den
aktuella täthetsfunktionen f(x) = 4z?.
4.2.1
Exempel på kontinuerliga fördelningar
Vi ger här några exempel på vanligt förekommande fördelningar. Förutom
själva funktionens utseende, lägg märke till dess definitionsmängd och före-
kommande parametrar. Genomgående betecknas variabeln med X, men beroende på tillämpning kan annan beteckning väljas. Det kan t.ex. vara naturligt
att använda 7 om variabeln är relaterad till en tid av något slag.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
65
4. Fördelningar
Likformig fördelning
Denna fördelning kallas emellanåt även rektangelfördelning. Täthetsfunktionen
ges av
1
fx(z) = b-a'
a<r<b.
En illustration för parametervalen a = —0.5, b = 0.5 ges i figur 4.5. För det
allmänna fallet gäller kodbeteckningen X -— Re(a, b).
0.8T
0.6t
0.4F
0.21
Me
0.5
0
0.5
1
Figur 4.5: Täthetsfunktion för rektangelfördelning (a = —0.5, b = 0.5).
Exempel 4.8 Vid mätning av träd avrundas resultatet till hela meter. Inför
en slumpvariabel X ="Mätfel (i meter) vid en mätning”. Utfallsrummet för
denna utgörs av intervallet [—0.5, 0.5] och en tänkbar fördelning skulle kunna vara X
Re(—0.5, 0.5) (se figur 4.5). Då gäller att
1
fx(f) = Q5—(=0.5) - Pb
£
=
—
HM
AT
=
1.
—0.5
<
Ses
0.5.
Som exempel beräknar vi sannolikheten att (det absoluta) mätfelet blir som
66
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.2. Kontinuerliga fördelningar
högst 1 decimeter:
P(—0.1 <x<0.1)=/
0.1
—0.1
1dz = [2], = 0.2.
|
Exponentialfördelning
Här ges täthetsfunktionen av
fx(x) = =e"/,
x > 0,
där a > 0 är en parameter. I figur 4.6 visas denna för olika parameterval.
Kodbeteckning: X -— Exp(a).
Observera att olika parametriseringar kan förekomma i litteraturen, exempelvis
fx(r) = Je
2
0
där alltså a = 1/1.
Exempel 4.9
Väntetider modelleras ofta väl av exponentialfördelningar. An-
tag att väntetiden (i sekunder) mellan ankommande
mejl till en server kan
beskrivas av en exponentialfördelning med parametern a = 10. Detta tolkas
som att i medeltal är väntetiden 10 sekunder, se avsnitt 4.3.
Vi betraktar en slumpvariabel T', säg, med täthetsfunktionen
1
fr(t) = TE
t>0.
Antag att vi vill beräkna sannolikheten att det dröjer mellan 20 och 30 sekunder mellan ankomst av mejl. Denna sannolikhet ges av integralen
P(20 <T < 30) = /
Oo FÖRFATTAREN
OCH
30
20
4
.
|
|
100 dt = [-e7"/10]3) = e7? — e7? = 0.086.
STUDENTLITTERATUR
67
4. Fördelningar
2
'
T
T
1.8
—
2=0.5
= na=l
== a=2
1.6
N
1.4
1.2t
8
10
Figur 4.6: Täthetsfunktioner för exponentialfördelning (a = 0.5, a = 1, a = 2).
Normalfördelningen
En viktig fördelning är normalfördelningen, av flera orsaker:
« Den ger ofta en god beskrivning av variationen hos olika företeelser;
« Många storheter blir approximativt normalfördelade;
« Fördelningen har flera matematiskt goda egenskaper.
Statistikern WJ. Youden uttryckte sig i poesi och gestaltade sedan resultatet
grafiskt enligt nedan':
'WJ. Youden (1950). The American Statistician 4, volym 2, sid. n.
68
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.2. Kontinuerliga fördelningar
THE
NORMAL
LAW OF ERROR
STANDS OUT IN THE
EXPERIENCE OF MANKIND
AS ONE OF THE BROADEST
GENERALIZATIONS OF NATURAL
PHILOSOPHY + IT SERVES AS THE
GUIDING INSTRUMENT IN RESEARCHES
IN THE PHYSICAL AND SOCIAL SCIENCES
AND IN MEDICINE AGRICULTURAL AND ENGINEERING >
IT IS AN INDISPENSABLE TOOL FOR THE ANALYSIS AND THE
INTERPRETATION
OF
BASIC
DATA
OBTAINED
BY
OBSERVATION
AND
EXPERIMENT
Normalfördelningen benämnes ibland Gaussisk? fördelning. Fördelningen representeras av två parametrar och dess täthetsfunktion presenteras i följande
ruta.
Normalfördelning. Täthetsfunktionen för en normalfördelad slumpvariabel X ges av
hl
a
PÄR,
—00 < I < 00.
(4.2)
Kodbeteckning: X— N(j, o?).
Parametrarna ju och & har speciella tolkningar och kallas väntevärde resp.
standardavvikelse.
Detta förklaras närmare i avsnitt 4.3. Beträffande standar-
davvikelse, så har detta begrepp nämnts redan i kapitel 2, men det gällde då
stickprovsstandardavvikelse, beräknat från observerade data. Parametern o,
däremot,
är ett tal knutet till en viss matematisk
funktion. Det finns dock
samband mellan dessa två tolkningar av standardavvikelse samt mellan väntevärde och medelvärde, vilket utreds i kapitel 6.
Från ekv. (4.2) finner vi att täthetsfunktionen är symmetrisk kring ju, spe-
ciellt gäller för j = 0 att f är en jämn funktion, dvs. f(x) = f(—z). Man kan
vidare visa att punkterna ju + & och ju — & är inflexionspunkter, dvs. punkter
på kurvan där konkavitetens tecken ändras (från plus till minus eller tärtom).
”Carl Friedrich Gauss (1777-1855), ofta kallad matematikernas konung.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
69
4. Fördelningar
Tre täthetsfunktioner finns uppritade i figur 4.7. Normalfördelningen har
egenskapen att
P(u-o<X<u+o)
=
0.6826,
P(u-— 20 <X <p+20)
P(u-— 30 <X <pu+30)
=
=
0.9544,
0.9974.
Detta gäller för alla värden på j och g. Kontrollera gärna i figur 4.7 med
ögonmått de nyss beskrivna sannolikheterna. På grund av symmetrin gäller
P(A2 pj
PLA fe) sl
Med det speciella valet av parametrar ju = 0, & = 1 talar man om en standardiserad normalfördelning. I detta fall betecknas täthetsfunktionen med
p(z).
XF
|
—[==S=0.4l
0.9t
-==g=1
|
4
6
'=:= 5=2,5
0.8t
0.7t
0.6F
0.5t
0.4t
en
0.3F
I:
0.2t
ot
0.1t
0-=
-6
'
'
|
+
t1
ot
AA
-”
Sd
-4
=
Ät
-2
0
2
Figur 4.7: Täthetsfunktioner för normalfördelning, pv = 0, & = 0.4, 1, 2.5.
4.3
Läges- och spridningsmått för slumpvariabler
Vi har i kapitel 2 studerat medelvärde och varians för datamaterial, vilka sammanfattar egenskaper hos data i enskilda värden. Även sannolikhetsfördel70
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.3. Läges- och spridningsmått för slumpvariabler
ningar, vilka vi har sett i detta kapitel är matematiska funktioner, kan sammanfattas med mått vilka beräknas ur de givna fördelningarna.
4.3.1
Väntevärden
Med hjälp av väntevärdet för en slumpvariabel kan tyngdpunkten hos fördelningen sammanfattas i ett enda värde. Med engelsk terminologi talar man om
expected value, dvs. förväntat värde. Detta motiverar det traditionella beteck-
ningssättet även på svenska: E[X] för en slumpvariabel X (E som i Expected).
Väntevärde för slumpvariabler.
Kontinuerlig fördelning. Väntevärdet E[X] för slumpvariabeln X definieras
genom
Elko
-
Tfx(z) dr
00
där fx(r) är slumpvariabelns täthetsfunktion och integration sker över
den aktuella definitionsmängden.
Diskret fördelning. Väntevärdet för slumpvariabeln X definieras genom
Eko
Fe P(X =E
där summation sker över samtliga värden i definitionsmängden.
Exempel 4.10 I exempel 4.7 studerades fördelningen med täthetsfunktionen
flås) =
407,
0<2<1.
Vi beräknar väntevärdet för slumpvariabeln X:
E[X] = |
1
0
rfl(r)dz = /
1
0
4zt dr = 2 [25]! = 0.8.
D
H
För många av standardfamiljerna finns väntevärdena beräknade och återfinns
i tabeller (se avsnitt 4.3.3). Ofta finns i uttrycken de parametrar som ingår i
fördelningen. Vi exemplifierar med exponentialfördelningen:
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
71
4. Fördelningar
Exempel 4.11 Vi beräknar här väntevärdet för en exponentialfördelad variabel med täthetsfunktionen
fx(z) =
e”/0,
x>0.
För att beräkna väntevärdet används partialintegration:
EX]
=
=
/
oc
0
sfrölde=s /
|-ze>"/e]
30
0
+ |
00
0
OM
0
IT -z/a
—e
dr
ad
e T/2dy = a.
Exempel 4.12 I ett pappersbruk finns två maskiner som emellanåt behöver
service. Låt variabeln Y beteckna det totala antalet servade maskiner under
en tvåveckorsperiod. Man har för den diskreta variabeln Y funnit följande
sannolikhetsfunktion:
y
p(y)
0
0.49
|
0.28
MM
0.18
MM
Hd
0.04 0.01
Väntevärdet beräknas enligt
4
E[Y] = Y” yply) = 00.49 +1-0.28+2-0.18+3-0.04 +4-0.01 = 0.8.
y=0
Det förväntade antalet servade maskiner under en tvåveckorsperiod är 0.8.
Detta kan uppfattas som ett genomsnittsvärde över många tvåveckorsperioder.
=E
Lägg i exempel 4.12 ovan märke till, att väntevärdet 0.8, det s.k. förväntade
värdet, aldrig antas. Utfallsrummet är (0, 1, 2, 3, 4), så P(X = 0.8) = 0.
Vi återvänder till exemplet med riskanalys (exempel 4.2) och anknyter till
begreppet väntevärde.
Exempel 4.13
Inom riskanalysen förekommer begreppet PLL (Potential Loss
of Life), vilket innebär det förväntade antalet omkomna per år. Betrakta åter
sannolikhetsfunktionen från exempel 4.2, där slumpvariabeln Y representerar antalet skadade i respektive scenario.
72
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.3. Läges- och spridningsmått för slumpvariabler
Yy
0
1
2
ply)
0.995
0.0045
0.0005
Vi kan finna PLL genom att beräkna väntevärdet E[Y']:
2
E[Y] = Y” yp(y) = 0-0.995 +1-0.0045 + 2 - 0.0005 = 0.0055.
y=0
4.3.2
Varianser
Vi har i kapitel 2 infört variansen för ett stickprov 21, ..-,zn, vilken kan ses
som summan av kvadratavvikelserna från medelvärdet:
1
Ma
=
n
2 (vi oo mV2
NR
2=1
En analogi för slumpvariabler kommer här att ges, där målet är att finna ett
numeriskt värde som sammanfattar spridningen hos sannolikhetsfördelning-
en.
Antag att slumpvariabeln har väntevärde E[X] = ju. Då definieras vari-
ansen för X som
sa
vIX] = /
(z — pu)? fx(r) dr,
—0O0
eller i det diskreta fallet
VIX] =) Hz — u)?P(X = 2).
Tr
Vid beräkning av variansen för en given fördelning används dock ofta
uttrycket som ges i ekv. (4.3) nedan. Man
använder då en funktion av en
slumpvariabel. Genom att på olika sätt manipulera slumpvariabler kan nya
slumpvariabler erhållas. Vi kan skriva Y = g(X) där några möjliga val kan
vara g(X) = X + 3 (exempel på en linjär transformation) eller g(X) = X?
(en kvadratisk transformation). En utförligare diskussion om funktioner av
slumpvariabler följer i kapitel 5.
Mer generellt kan man definiera väntevärdet av en funktion g(X) av en
slumpvariabel X genom
Oc
Elg(X)) = f glz)fx(z)dz,
Vv
Oo FÖRFATTAREN
OCH
-00
STUDENTLITTERATUR
Elg(X)) =) g(x) P(X = 2).
Ir
73
4. Fördelningar
Speciellt intressant är då fallet g(X) = X?, dvs. E[X?]. Man kan då visa
följande resultat:
Varians för slumpvariabler. För en slumpvariabel X kan variansen V[X]
beräknas genom
VIX] = E[X?] — (E[X])”.
(4.3)
Detta samband är användbart vid beräkningen av varianser för fördelningar,
se följande exempel för en kontinuerlig slumpvariabel. Det är en analogi med
det resultat som i mekaniken benämnes Steiners sats eller parallellaxelteo-
remet, och där kan användas för beräkning av tröghetsmomentet för en stel
kropp.
Exempel 4.14
För slumpvariabeln X med täthetsfunktionen
f(r) =427,
0<T<1,
beräknades väntevärdet i exempel 4.10, och man fann E[X]
= 0.8. För att
beräkna variansen används ekv. (4.3) och man finner
E[X”] xä==
Å Svend
2 f(r)dr=
S | ådra
4x dzfr
= al lo = 23
Variansen blir
V[X] = E[X?] — (E[X])? = : — (0.80)? = 0.027.
Variansberäkning för en diskret slumpvariabel demonstreras härnäst:
Exempel 4.15 Vi fortsätter räkningarna från exempel 4.12, och skall nu finna V[Y]. Lämpligt är att använda ekv. (4.3). Först beräknas
4
E(Y?] = V- y? p(y) = 02-0.49+1?-0.28+22-0.18+32-0.04+4?-0.01 = 1.52.
y=0
Man finner därefter
V[Y] = E[Y?] — (E[Y])? = 1.52 — 0.80? = 0.88.
74
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.3. Läges- och spridningsmått för slumpvariabler
Standardavvikelsen för en slumpvariabel X betecknas med D[X] och be-
räknas som D[X] = VV[X]. I exempel 4.15 är t.ex. D[Y] = v0.88 = 0.94.
Vidare används ibland beteckningarna a? = V[X], « = D[X]. Skilj tillsvidare på den standardavvikelse s (noggrannare uttryckt, stickprovsstandar-
davvikelse) som definierades i ekv. (2.3) och beräknas direkt från data, och
standardavvikelsen som nu införts, vilken beräknas utifrån rent matematiska
antaganden (om viss fördelning). I kapitel 6 belyses närmare hur dessa mått
relaterar till varandra.
4.3:3
Sammanställning för vanliga fördelningar
Som i fallet för väntevärdet finns uttryck för varianser framräknade för de
vanligaste fördelningarna och finns sammanfattade i tabeller. En sammanställning följer här; se även tabell 4 i appendix.
Fördelningstyp
Binomialfördelning
Poissonfördelning
Normalfördelning
Likformig fördelning Exponentialfördelning
Kodbeteckning
Bin(n, p)
Po(m)
N(ju, 0?)
Re(a,b)
Exp(a)
Väntevärde
Varians
np
np(1 — p)
m
m
T
o?
(a+b)/2 — (b— a)?/12
a
a?
Några enkla exempel: Om t.ex. X — Po(4.1) följer direkt att E[X]
V[X]
= 4.1,
= 4.1. Om en slumpvariabel Y anses vara exponentialfördelad med
väntevärdet E[Y] = 5 följer direkt att variansen V[Y] = 5? = 25.
Lägg märke till att parametrarna j och go? för normalfördelningen motsvarar väntevärde och varians.
Vi avslutar detta avsnitt med att sammanfatta läges- och spridningsmått
för data respektive fördelningar i en tabell:
Lägesmått
Spridningsmått
Data, £1,..., Zn
z
gr
Slumpvariabel, X
pu = E[X]
0? = V[IX]
I kapitel 6 kommer vi att diskutera kopplingen mellan dessa begrepp, och
knyta ihop sannolikhetslära och statistik. Som en liten avrundande kommentar följer här ett citat. Statistikern D. Durand gav med glimten i ögat i en
tidskriftsartikel3 definitioner av stokastiska begrepp, och för väntevärdet löd
3D. Durand (1970). The American Statistician 24, vol. 3, sid. 21
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
75
4. Fördelningar
beskrivningen
Expected value: One that the sample average will almost never equal.
4.4
Fördelningsfunktioner
Ett alternativt sätt att karakterisera fördelningar för en slumpvariabel X är
genom den s.k. fördelningsfunktionen. Denna betecknas F(x) och definieras
genom
Fx(x) = P(X £ x)
och allmänt kan sannolikheter beräknas genom
P(a < X <b) = Fx(b) — Fx(a).
(4.4)
Genom användning av räkneregler för sannolikheter och komplementhändelser finner man relationen
P(X >s) =1-— Fyx(z).
För (den diskreta) fördelningen i exempel 4.1 finns fördelningsfunktionen uppritad i figur 4.8 och man finner t.ex.
Fx(1) = P(X < 1) = 0.65 + 0.20 = 0.85.
dt
Matematiskt har fördelningsfunktionen egenskapen att den antar (eller
närmar sig) värdet 0 för det lägsta värdet i definitionsmängden, värdet 1 för
det högsta. Vidare är den en växande funktion. I figur 4.9 visas ett exempel
för en kontinuerlig slumpvariabel, närmare bestämt standardiserad normalfördelning.
För kontinuerliga variabler finns följande samband mellan täthets- och
fördelningsfunktion:
Fx(x) = |
fx(t) dt
(4.5)
(här är t endast en integrationsvariabel och —00 motsvarar undre gränsen i
definitionsmängden och får anpassas efter rådande situation), eller
fxle) = Fx (0).
76
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.4. Fördelningsfunktioner
1t
0.9t
0.8t
0.7!
0.6!
20.5;
0.4!
0.3t
0.2!
0.1!
Så
0
1
Xx
2
3
4
Figur 4.8: Fördelningsfunktionen för den diskreta fördelningen i exempel 4.1.
0.9F
0.8F
0.7T
F(z)
0.6F
0.5;
0.4F
0.3F
0.2T
0.1
0
z
Figur 4.9: Fördelningsfunktionen Fz(z) = P(Z
N(0, 1) (denna funktion betecknas ibland P(z)).
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
1
2
<
3
4
2) för slumpvariabeln Z
>
77
4. Fördelningar
Exempel 4.16 Betrakta återigen fördelningen i exempel 4.7. Man kan lätt
verifera, genom att söka primitiv funktion, att variabeln X har fördelningsfunktionen
Fx(2) =2",
0<2x<1.
Nu kan Fx(r) användas för att beräkna sannolikheter, t.ex.
P(X > 0.6) = 1 — P(X < 0.6) = 1 — Fx (0.6) = 1 — 0.6? = 0.87.
=
Exempel 4.17
Vi återvänder till exempel 4.9, modellering av väntetider med
exponentialfördelningen. Den aktuella täthetsfunktionen för slumpvariabeln
T gavs av
1
fråt) = 00
t> 0
och fördelningsfunktionen blir alltså enligt ekv. (4.5)
t l
Fr(t) = / er
0
ds =1—-—e7"/!0,
Sannolikheten för en väntetid med längd högst 20 sekunder kan nu beräknas
som Fr(20) = 1 — exp(—2) = 0.86. I allmänna fallet gäller att en slumpvariabel X — Exp(a) har fördelningsfunktionen
F(z) =1-e77/2
xr>0.
(4.6)
=
Fördelningsfunktionen
kan ofta underlätta sannolikhetsberäkningar,
förut-
satt att den har en enkel form, alternativt finns tabellerad. Det senare är fallet
med normalfördelningen, vilket vi studerar närmare nedan.
Beräkningar med normalfördelningen
För specialfallet X -— N(0, 1) betecknas fördelningsfunktionen P(), och alltså gäller
P(r) = P(X <T)
(se figur 4.9). För funktionen P(x) finns inget explicit uttryck. Beräkning får
ske numeriskt, eller via tabeller. Ofta är P(x) tabellerad för x > 0. För att
finna sannolikheter då x < 0 utnyttjas symmetri hos fördelningen, så
ö(—-T) = 1-— Sr).
78
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.4. Fördelningsfunktioner
I denna bok återfinns sannolikheterna i tabell 1 i avdelningen med tabeller i
slutet. Sannolikheter kan även fås direkt från de flesta miniräknare eller från
statistisk programvara, se avsnitt 4.6.
Exempel 4.18
Ange följande sannolikheter, då X -— N(0, 1): P(X < 0.2),
P(X < —0.2), P(X > 1.2), P(0.3 < X < 0.9). För de första två fallen finner
man direkt
P(X <0.2)
=
50.2) = 0.5793,
P(X < —0.2)
=
1-— S(0.2) = 0.4207,
P(X >1.2)
=
1-—- P(X <1.2) =1-— P(1.2) = 1-— 0.8849 = 0.1151.
Den sista sannolikheten beräknas genom att utnyttja ekv. (4.4):
P(0.3 < X < 0.9) = P(0.9) — P(0.3) = 0.8159 — 0.6179 = 0.1980.
a
Beräkning av sannolikheter för en godtycklig normalfördelning, dvs. då X >
N(ju, 0”), kan återföras på fallet N(0, 1). Bakgrunden är ett variabelbyte i den
förekommande integralen. I avsnitt 4.3.2 nämndes kortfattat att man kan skapa nya stokastiska variabler genom exempelvis linjära transformationer. Inför
nu en slumpvariabel Z genom den linjära transformationen
Man har följande viktiga resultat (en följd av bl.a. variabelbyte i integraler):
Om
XX
N(u,o”)
gäller att
Z — N(0,1).
Ett exempel visar hur beräkningen går till i praktiken.
Exempel 4.19 Låt X — N(17, 5) och antag att vi vill beräkna P(X < 20).
Då utnyttjas variabeln Z = (X — 17)/vV5 för vilken gäller att Z -— N(0, 1):
P(X < 20) = (ET
=
Oo FÖRFATTAREN
OCH
2
< 2=") = p(z SS =) = P(Z < 1.34)
2
$(1.34) = [Tabell] = 0.9099.
STUDENTLITTERATUR
2
79
4. Fördelningar
4.5
Kvantiler
I de statistiska metoder vi senare ska möta är man ofta intresserad av att
finna gränser inom vilka slumpvariabeln ligger med en viss, på förhand given,
sannolikhet. Exempelvis vill man bestämma det tal x för vilket
P(-xz <X
<r)=0.95.
Man kan även tänka sig situationen att finna det x som t.ex. uppfyller
P(X > r) = 0.01.
Hittills i detta kapitel har vi oftast arbetat åt andra hållet, dvs. beräknat en
okänd sannolikhet för ett givet tal x.
De tal som söks kallas kvantiler, och definieras vanligtvis med hjälp av
fördelningsfunktionen enligt ekv. (4.7) nedan.
Definition 4.1 Kvantil för sannolikhetsfördelning.
För 0 < & < 1
definieras o-kvantilen za till en slumpvariabel X som en lösning z = Za
till ekvationen
Fx(1) =1-—
a.
(4.7)
Ofta beräknas kvantiler för fördelningar av kontinuerlig typ. I de fall täthetsfunktionen är specificerad kan kvantilen z, bestämmas genom motsvarande
ekvation
|
: f(zt)dz=1-aA
där undre integrationsgränsen utgörs av definitionsmängdens undre gräns.
80
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.5. Kvantiler
Xa
Figur 4.10: Kvantilvärdet za. Arean (dvs. sannolikhetsmassan) under täthetsfunktionen till höger om x, är a.
En illustration av kvantil ges i figur 4.10, där i form av täthetsfunktionen
för att anknyta till areatolkningen av sannolikheter. Speciellt för &« = 0.5
benämnes 0,5 fördelningens median. Lägg märke till att denna median beräknas utifrån matematiska antaganden (om fördelning), medan medianen
behandlad i kapitel 2 beräknas från observerade data. Vid konstruktionen av
lådagrammet i kapitel 2 utnyttjades kvartiler. För en fördelning beräknas dessa som talen 9.75 (undre kvartil) resp. x9.25 (övre kvartil).
Exempel 4.20
Livslängden hos en transistor (i hundratals timmar) beskrivs
av en slumpvariabel T' med fördelningsfunktionen
F(tj=1-e",
t>0.
Man finner t.ex. sannolikheten att transistorn har en livslängd längre än 200
timmar som
,
P(T > 2) = 1- F(2) = e"?" = 0.018.
Vi beräknar nu kvantilen tg.1 och enligt ekv. (4.7) löses ekvationen
1 — ed = 0.9,
vilket ger tg, = 1.52, dvs. 152 timmar.
H
Oo FÖRFATTAREN
81
OCH
STUDENTLITTERATUR
4. Fördelningar
Exempel 4.21 Inom vindenergiområdet talar ingenjörer och ekonomer ibland
om måtten P50, P75 och P90. Dessa används för riskbedömning av den årliga
energiproduktionen, AEP (Annual Energy Production), hos en viss anläggning
(t.ex. uttryckt i GWh/år). Sannolikheten att produktionen inte når upp till
nivån P9o är 0.10.
Dessa mått är, med statistisk terminologi, kvantiler. Måttet P9o motsva-
ras av kvantilvärdet 09.99 hos en sannolikhetsfördelning. Att specificera en
lämplig sannolikhetsfördelning kräver insikt om produktionsprocessen, det
geografiska läget hos anläggningen osv.
=
Man kan visa att för en symmetrisk fördelning sammanfaller väntevärde och
median, så är fallet t.ex. för normalfördelningen. I nästa exempel studerar vi
fallet med en exponentialfördelning.
Exempel 4.22 För en slumpvariabel X > Exp(a) gäller att E[X] = a. Vi
beräknar sannolikheten P(X > a):
P(X > a) = 1— P(X <a) = 1-— Fx(a)
= 1
(1-— e7"/2) = e"! = 0.63.
Detta resultat indikerar tydligt den högertunga fördelningen av sannolikhet,
se figur 4.6, sid. 68, för en illustration av några täthetsfunktioner.
Vi beräknar medianen 7 för X, dvs. det tal x som uppfyller ekvationen
1
-
Fx(£)
x (T) = =5
1
1 — e e77/a
= =,:
Man finner IT = (In 2)a = 0.69a. Fördelningens median, 0.69a, ligger alltså
här förskjuten mot lägre värden jämfört med väntevärdet, a.
a
Kvantiler för normalfördelningen
I denna bok skall vi framför allt studera kvantiler för normalfördelningen.
Ofta söks gränser så att P(-r < X < r) = 0.95. I fallet då Z — N(0,1)
används följande skrivsätt
P(-Aa/2
SA
Aa/2)
=1-aQ.
Kvantilvärdena för standardiserad normalfördelning finns framräknade och
återfinns i tabeller (tabell 2 i bokens slut). Kvantilvärdena visas även nedan
för några vanliga val av a (i synnerhet a = 0.05 är vanligt förekommande i
statistiska tillämpningar).
82
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.5. Kvantiler
AX
010
0.05
0.025
0.01
0.005
0.001
Åa
128
1.64
196
2.33
2.58
«3.09
I figur 4.11 redovisas grafiskt det faktum att P(—A9.025 < Z < A0.025) =
0.95 och därmed, på grund av symmetri, att
1—0.95
:
0.025.
0.3
0.2
An
io
'u
:
3
"
I
:E
0.1
Skuggad area motsvarar
sannolikheten 0.95
0.0
L
Täthetsfunktion för N(0,1)
0.4
P(Z < —A0.025) = P(Z > A0.025) =
Figur 4.11: Täthetsfunktionen för en stokastisk variabel Z -— N(0, 1) med kvantiler-
na FA0.025-
Exempel 4.23 Vi tränar här på kvantilräkning för en slumpvariabel Z >
N(0, 1) och utnyttjar då ovanstående tabell. Som antyddes ovan utnyttjas ofta
symmetrier hos fördelningen vid räkningar av detta slag. Skissa gärna en figur
av det slag som visas i figur 4.11 och markera areorna (sannolikheterna) av
intresse!
(a) P(Z > A0o.o1) = 0.01 (definitionen av kvantil),
(b) P(Z > 2.33) = 0.01 (jämför ovanstående rad, utnyttjat Ag, = 2.33),
(c) P(Z < A0.10) = 0.90 (definitionen av kvantil, komplement)
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
83
4. Fördelningar
(d) P(—A0.05
<ZE
Å0.05)
= 0.90 (symmetri),
(e) Bestäm talet a så att P(—-a < Z < a) = 0.95. Svaret ges av kvantilerna,
så a = Aq.025 = 1.96 (enligt tabellen).
4.6
O
R-kommandon
De vanligaste familjerna av fördelningar finns implementerade i R, i form av
fördelningsfunktioner samt beroende på fördelningstyp, sannolikhets- eller
täthetsfunktioner. Några exempel på beräkningar följer här.
Binomialfördelning. Antag att X -— Bin(3, 0.1) och att vi vill beräkna dels
P(X = 2), dels P(X < 1). Analytiska beräkningar ger
P(X =2)
=
(2)0:120.9" = 0.027,
P(X<1)
=
P(X =0)+P(X =1)= (0)91"0.9
=
0.972.
+ (1)0.r'0s
R-kommandon, med i slutet två alternativ för beräkning av P(X < 1), det
senare med hjälp av fördelningsfunktionen:
> dbinom(2,3,0.1)
[1]
07027
> dbinom(0,3,0.1)
[1]
0.972
[1]
0.972
+ dbinom(1,3,0.1)
> pbinom(1,3,0.1)
Normalfördelning. Beräkningar med normalfördelningen sker enklast med
fördelningsfunktionen och kommandot pnorm. Antag att Y -— N(19.5, 9) och
att vi vill beräkna sannolikheten P(20 < Y < 22). Klassisk beräkning, som
utnyttjar standardiserad normalfördelning där Z - N(0, 1):
P(20 <Y £<22)
=
=
=
P((20—19.5)/3 < Z £ (22 —19.5)/3)
ö((22 —19.5)/3) — P((20 — 19.5)/3)
(0.83) — P(0.17) = 0.23.
I R blir beräkningen som följer, man använder fördelningsfunktionen för Y
och beräknar alltså direkt enligt Fy (22) — Fy (20):
84
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.6. R-kommandon
> pnorm(22,19.5,3)-pnorm(20,19.5,3)
[1]
0.2314878
Observera att i anropet med pnorm anges som sista parameter standardavvikelsen, ej variansen.
Kvantiler. Kvantiler för fördelningarna kan snabbt erhållas. Vi fokuserar på
kvantilerna för den standardiserade normalfördelningen, och då är kommandot qnorm aktuellt. Tidigare nämndes att Ap.os = 1.64, A0.025 = 1.96, vilka
klassiskt slås upp i tabell. Med R fås dessa kvantiler som följer:
> qnorm(0.95)
[1]
1.644854
> qnorm(0.975)
[1] 1.959964
Simulering. Med hjälp av speciella algoritmer kan slumptal simuleras från en
fördelning med givna parametrar. Låt oss exempelvis studera slumptal från en
variabel X — Po(3.5). Poissonfördelningens egenskaper ger att E[X] = 3.5.
Vi simulerar 12 slumptal från denna fördelning:
> rpois(12,3.5)
[1]: 54255
1:23 0:15-8
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
85
4. Fördelningar
4:7
Övningsuppgifter
401. En diskret slumpvariabel X har en sannolikhetsfunktion px (r)=P(X = x)
enligt följande:
T
px(z)
0
0.10
1
2
0.20
3
0.50
4
0.15
0.05
(a) Beräkna P(X = 3).
(b) Beräkna P(X < 2).
(c) Beräkna P(1 < X < 3).
402.
En slumpvariabel Y har sannolikhetsfunktionen py (y) = c/y för y = 1,3,5
403:
Låt X — Bin(10, 0.25). Beräkna P(X = 3), P(X < 2).
404.
Ett kraftverk innehåller 8 turbiner, vilka fungerar oberoende av varandra. Un-
405:
Låt X — Po(2.7). Beräkna P(X = 2), P(X > 1).
406.
Antalet större läckor X längs en 2 km lång pipeline anses följa en Poisson-
407.
Bestäm konstanten c så att fx (r) = cx?, 0 < r < 6, blir en täthetsfunktion.
408.
En kontinuerlig slumpvariabel har täthetsfunktionen f(x) = 2r, 0 <x <1.
och 0 för övrigt. Bestäm c.
der den kalla årstiden anses sannolikheten vara 0.10 att en turbin en slumpvis
vald dag inte fungerar. Beräkna sannolikheten att en slumpvis vald dag fler än
tre turbiner är utslagna.
fördelning enligt X - Po(3.2). Beräkna sannolikheten för fler än två läckor.
(a) Beräkna P(X
< 0.5).
(b) Beräkna P(0.5 < X < 2).
409.
En slumpvariabel Z har fördelningsfunktionen
Fz(2) =1-—e77/8,
2> 0.
(a) Beräkna P(Z < 12).
(b) Beräkna P(Z > 25).
410.
En slumpvariabel X har fördelningsfunktionen
1
Fx(r) = al3r - 27),
4
Beräkna sannolikheten P(4
86
<XL
0<x<1.
3).
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.7. Övningsuppgifter
41.
Vid trafikplanering studeras väntetider (sek) mellan bilar vid en måttligt tra-
fikerad väg. Väntetidens slumpmässiga variation anses följa en exponentialfördelning enligt
1
c
flr) = 200,
z > 0.
(a) Beräkna sannolikheten att det dröjer högst 1 minut mellan två bilar.
(b) Efter att en bil har passerat har en trafikingenjör väntat i 2 minuter men
ingen ny bil har dykt upp. Givet denna information, beräkna sannolik-
heten att nästa bil kommer inom 1 minut (dvs. väntetiden blir högst 3
minuter).
412. Slumpvariabeln X antar värdena 3, 7 och 8 med sannolikheterna 0.3, 0.6 re-
spektive 0.1. Beräkna E[X].
413.
En slumpvariabel Y har täthetsfunktionen
fr(v) =3y,
0<y<1.
Beräkna väntevärde och varians för Y.
414. Låt X — N(0, 1). Beräkna P(X < 2.1), P(X < —1.7), P(1.3 < X < 2.2).
415. Låt X -— N(20, 9). Beräkna P(X < 26), P(23 < X < 26).
416. Längden X hos en slumpvis vald student vid en viss högskola är fördelad
enligt X -— N(175, 10?) (cm). Beräkna sannolikheten att en student är längre
än två meter.
417. Vid mätningar i fält observeras tal med en decimals noggrannhet. När dessa sedan bokförs i en tabell avrundas de till heltal. Inför slumpvariabeln X ="Skillnaden mellan avrundat och observerat värde”. En vanlig modell är då en lik-
formig fördelning enligt X -— Re(—0.5, 0.5).
Ange den förväntade skillnaden, E[X], och standardavvikelsen för skillnaden,
D[X].
418. Ien större fläktutrustning som används vid byggen finns 5 filter som normalt
byts ut efter en kontrolltid (var tredje månad). Om filtret är slitet eller skadat
fungerar utrustningen, men prestandan kan bli lägre. Under en längre tid har
man fört statistik över antalet utbytta filter per omgång, X, som är skadade:
Antal skadade filterx =
Sannolikhet p(x)
o
0.12
1
0.24
2
0.30
3
0.20
4
0.12
5
0.02
(a) Beräkna väntevärdet och standardavvikelsen för X.
(b)
Oo FÖRFATTAREN
Beräkna den betingade sannolikheten för att alla fem filtrena är skadade
om man vet att minst tre är skadade.
OCH
STUDENTLITTERATUR
87
4. Fördelningar
(c) Under ett år görs fyra byten om 5 filter per gång. Beräkna sannolikheten
att man vid minst ett byte hittar något skadat filter.
419.
Låt X vara en slumpvariabel för vilken gäller X — Po(m), m okänt. Man vet
420.
Den procentuella tid per arbetsdag, X, som samtliga säljare vid ett kontor är
upptagna i telefon ges av täthetsfunktionen
att P(X = 0) = P(X = 1). Bestäm E[X] och V[X].
fx(z) =0erA1-—-2x),
0<x<1.
(a) Bestäm konstanten c. Ledning. Gör ett variabelbyte t =
integral som uppkommer.
1 — z i den
(b) En fördelning med täthetsfunktionen
fx(z) = ex" U1—-2)!,
0 <z<1,
där c är en normeringskonstant och a > 0 samt b > 0 är parametrar,
kallas en betafördelning. För en sådan kan visas att E[X] = a/(a + b).
Använd detta resultat för att finna den förväntade procentuella tiden
per arbetsdag som samtliga säljare är upptagna i telefon.
421.
En ofta använd fördelning är lognormalfördelningen. En slumpvariabel X är
lognormalfördelad om In X - N(ju, 0”). För väntevärdet och variansen gäller
följande:
E[X] =
ek+o/2
V[IX]) = et (ef
— e?”).
För en slumpvariabel X kan variationskoefficienten definieras som D[X]/E[X].
För en lognormalfördelad variabel kan det visas att D[X]/E[X] = Ve?” —1.
För en viss bro har man funnit att betongens tryckhållfasthet kan anses vara
lognormalfördelad med väntevärdet 47.5 MPa och variansen 7.6 MPa.
(a) Beräkna parametrarna ju och & i lognormalfördelningen. Ledning. Utnyttja variationskoefficienten.
(b) Beräkna sannolikheten för en tryckhållfasthet lägre än 45 MPa.
422. För det årliga maximala snödjupet i Luleå har en statistiker funnit fördelningsfunktionen
F(z) = exp(—-e"(F”P/ay
00 <I< 00,
där parametrarna a = 25 och b = 66 (enhet cm). Denna modell baseras på
data från SMHI för perioden 1961-2002 och maximala snödjupet anses här
följa en Gumbelfördelning.
(a) I ett projekt är en ingenjör är intresserad av det snödjup z100 som uppfyller P(X > z100) = 0.01. Bestäm 100.
88
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
4.7. Övningsuppgifter
(b)
423.
Beräkna sannolikheten att det maxima årliga snödjupet under en 20årsperiod överskrider x199 minst en gång. Antag oberoende mellan olika
år.
I marin teknik är sannolikhetsfördelningen för våghöjder av intresse. En ofta
använd modell är följande av Longuet-Higgins?, där slumpvariabeln H betecknar våghöjden under en viss tidsperiod:
F(h)=1=-—e"20(MH)
oh >0
(en s.k. Rayleighfördelning). I uttrycket är H, en parameter som kallas signifikant våghöjd och anses vara ett mått på medelvärdet av den högsta tredjedelen
våghöjder. Antag i resten av denna uppgift att H, = 2 m.
(a) Beräkna sannolikheten för en våghöjd högre än 3 m resp. 4 m.
(b) Finn den våghöjd sådan att sannolikheten att den överskrids är 0.001.
424.
Vid en larmcentral uppstår ett fel: det första inkommande larmet registreras,
men därefter endast vartannat inkommande larm (larm 2 registreras ej, larm 3
registreras, osv.). Felet finns kvar under två dagar innan det hinner rättas till.
Antag att antalet inkommande larm under två dagar är Poissonfördelat med
parametern 4. Låt X vara antalet larm som registreras under de två dagarna,
och beräkna sannolikhetsfunktionen för X.
Sammanfattning kapitel 4
Övningar kapitel 4
IM.S. Longuet-Higgins (1952). Journal of Marine Research 11, sid. 245-266
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
89
Kapitel 5
Funktioner av flera
slumpvariabler
I praktiska sammanhang är man ofta intresserad av att studera summor eller medelvärden av observationer, något vi berört kortfattat i avsnitt 5.1. Ur
stokastisk synvinkel är det då intressant att finna fördelningen för sådana
objekt. I detta kapitel presenteras ett viktigt resultat från sannolikhetsteorin
vilket har stor betydelse för den statistiska behandlingen som presenteras i
senare kapitel.
Kapitlet inleds med det viktiga begreppet oberoende slumpvariabler. Därefter införs, i avsnitt 5.2, räkneregler för väntevärden
och varianser. I vissa
specialfall kan man finna fördelningar för summor, vilket diskuteras i avsnitt 5.3. Avslutningsvis, i avsnitt 5.4, presenteras ett centralt resultat i sannolikhetsläran, vilket går under namnet centrala gränsvärdessatsen.
5.1
Funktioner av slumpvariabler, oberoende
Tc =
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
Slant
Det finns ofta behov av att studera funktioner av slumpvariabler, inte minst
i tekniska sammanhang. I vissa enkla fall kan det röra sig om linjära funktioner. Låt variabeln 7ZF beteckna temperatur mätt i Farenheit. Temperaturen
Tc mätt i grader Celsius ges då av
—(TF — 32),
91
5. Funktioner av flera slumpvariabler
dvs. en linjär transformation. Den totala resistansen R av två parallellkopplade resistorer Ri och R2 ges som
R
>
RikR2
-
Ri + Ro”
vilket inte är ett linjärt uttryck i Ri och Ra.
Mer generellt kan vi betrakta en funktion Y = g(X) där g är en lämpligt
vald funktion och X är en slumpvariabel med känd fördelning. Ännu mer
generellt kan vi tänka oss funktioner av flera slumpvariabler, t.ex. på formen
Y = g(X,, X2, X3) där X1, X2 och X3 har kända fördelningar. Här är alltså
Y att betrakta som en (ny) slumpvariabel, och målet är att finna de stokastiska
egenskaperna hos Y, eventuellt dess fördelning. En stor del av detta kapitel
har detta fokus.
Exempel 5.1
XI
och
X32,
säg.
Antag för enkelhets skull att vi studerar två slumpvariabler,
Då är
Y=NX,+X
och
4
Y=
30061
+ X2)
exempel på vanliga funktioner av dessa variabler. Det går lätt att tänka ut problemställningar där totalsumman, eller alternativt ”medelvärdet”, är av intresse att studera. Ofta görs antagandet att X; och X32 är likafördelade (kommer
från en och samma fördelningsfamilj med identiska parametrar).
Även differenser kan vara av intresse,
Y =X,—-Xa.
I tekniska sammanhang studeras sådana i situationer där man har med ”styrka” och ”last” att göra, i ekonomiska tillämpningar resoneras i termer av ”tillgång” och ”efterfrågan”. Till skillnad mot ovanstående görs här ofta antagan-
det (baserat på erfarenhet) att X, och X2 inte kommer från samma fördelning;
styrkan anses oftast (förhoppningvis) vara högre än lasten i medeltal.
e
Exempel 5.2 Vilken påverkan har elbilsladdning på det lokala elnätet, vilka
blir effekterna på hushållselanvändningen? I en stokastisk modell" kan ef'J. Munkhammar, J. Widén, P. Grahn, J. Rydén (2014). A Bernoulli distribution model for
plug-in electric vehicle charging based on time-use data for driving patterns. Proceedings of
2014 IEEE International Electric Vehicle Conference.
92
& FÖRFATTAREN OCH STUDENTLITTERATUR
5.1. Funktioner av slumpvariabler, oberoende
fekten vid laddning av ett fordon beskrivas av slumpvariabeln Y, definierad
genom
Y = cX,
där X i sin tur är en slumpvariabel som kan anta värdet 0 eller 1, och med
fördelningen X > Bin(1, p). Vidare är c en konstant (för en viss modell gäller
exempelvis c = 2.3 kW). Variabeln X tolkas som att en elbil vid ett visst
tidsögonblick antingen laddar med viss sannolikhet p (fallet X
(X = 0). I en studie användes p = 0.20.
= 1) eller ej
I ett bostadsområde finns flera elbilar möjliga att ladda, n stycken. Den
totala effekten för laddning kan då tecknas:
Yror = e(Xi + ::: + Xn).
För att designa elnätet är det av intresse att (om möjligt) finna fördelningen
för Yrot, för att exempelvis kunna beräkna sannolikheter för vissa scenarier.
Metodik för detta kommer att presenteras senare i kapitlet.
O
En modell för mätfel
I följande exempel presenteras en mycket vanligt förekommande stokastisk
modell för mätfel. Vi återkommer till denna vid flera tillfällen.
Exempel 5.3 Antag att man vill mäta ett avstånd, säg a. Mätvärdena kan då
uppfattas som summan av det ”sanna” värdet a (en konstant) och slumpbidraget X. Modellen blir
Y=a+X,
där det återstår att specificera karaktären hos slumpbidraget, dvs. vilken fördelning som kan vara lämplig. Ett mycket vanligt antagande är att X är normalfördelad.
=
Oberoende slumpvariabler
För oberoende händelser A och B gäller enligt avsnitt 3.5 att
P(AN B) = P(A) P(B).
Vi ger här definitionen av oberoende slumpvariabler:
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
93
5. Funktioner av flera slumpvariabler
Oberoende slumpvariabler.
roende om
P((X,
E€ AN
Två slumpvariabler X; och X32 kallas obe-
(X2 E€ BP) = P(X1 € A) P(X2 € B)
för alla mängder A och B.
Begreppet kan generaliseras till flera slumpvariabler X1,..., Xn.
Ett antagande om oberoende ligger bakom flera av de viktigare resultaten
i sannolikhetsteorin.
Exempel 5.4
Låt X;
-— Bin(3,0.25) och Xa
-— Po(2.7) vara oberoende
slumpvariabler. Beräkna sannolikheten P((X1 = 2) MN (X2 < 11):
P((X, = 2
N(X2 E€ 1)
=
P(X1 = 2)P(X2
=
(2)
=
1)
0.25?(1 — 0.25)?
0.035.
de
—2.7
270
Ga
(Fr +30)]
I följande exempel utnyttjas oberoendet för att beräkna enskilda sannolikheter i fallet med en diskret variabel. Exemplet är intressant eftersom man
faktiskt räknar fram fördelningen för en funktion av två variabler, nämligen
summan.
Exempel 5.5
I en maskinhall finns två maskiner som då och då behöver ser-
vas. Varje vecka görs en kontroll. Låt variabeln X vara antalet maskiner som
behöver servas en viss vecka. Uppenbarligen kan X anta värdena 0, 1 eller 2.
Av erfarenhet har man funnit sannolikheter och kan ge en sannolikhetsfunktion:
I
px(r)
0
0.7
1
0.2
2
0.1
Låt nu X, beteckna antalet maskiner som servas vecka 1 och X3 beteckna
antalet maskiner som behöver servas vecka 2. Man antar vidare att X; och
X3 är oberoende.
94
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
5.2. Räkneregler för väntevärden och varianser
Av intresse är det totala antalet servade maskiner under de två veckorna vilket vi betecknar med Y, dvs. Y = X,j + Xa2. Närmare bestämt är målet att
finna fördelningen för den diskreta slumpvariabeln Y i form av en sannolik-
hetsfunktion. Tänkbara värden för Y är 0,1,...,4 och vi skrider till verket
genom att utnyttja bl.a. oberoende:
P(Y =0)
=
P(X, = 0N X2 = 0) = [Oberoende]
Pr=D
=
PX:
=
P(X,=0)P(X2 = 0) = 0.7 - 0.7 = 0.49,
=0M3,=TFÖ ARG =
= 0)
[Oberoende; oförenliga händelser)
P(X1 = O0)P(X2 = 1) + P(X1 = 1)P(X2 = 0)
=
0.7-:0.2+ 0.2 -0.7 = 0.28.
På samma sätt följer
P(Y =2)
=
P(X1 = 0)P(X2 = 2) + P(X1 = 1)P(X2 = 1)
+P(X1
=
= 2)P(X2 = 0)
0.7:0.1+0.2-0.2+0.1-0.7
= 0.18
samt
P(Y =3)
P(Y =4)
=
=
P(Xi=1)P(X2 = 2) + P(X1 = 2)P(X2 = 1) = 0.04,
P(X2=2)P(X2 = 2) = 0.01.
Alltså har vi sannolikhetsfunktionen för Y
Yy
pyly)
0
0.49
1
0.28
2
0.18
3
0.04
4
0.01
Sannolikheterna summeras till 1, det rör sig verkligen om en sannolikhetsfunktion. Vi kan använda denna för att t.ex. beräkna sannolikheten för högst
ett servicetillfälle under de två veckorna:
P(Y < 1) = py (0) + py (1) = 0.49 + 0.28 = 0.77.
5-2
Räkneregler för väntevärden och varianser
En viktig förutsättning, som gäller i hela detta avsnitt, är att oberoende slumpvariabler betraktas. Vi ger här några allmänna resultat, vilka följs av exempel.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
95
5. Funktioner av flera slumpvariabler
Räkneregler för väntevärden och varianser. Betrakta slumpvariablerna X1,..., Xn. Låt vidare aj,...,an vara givna konstanter. Inför en ny
slumpvariabel
Y = aiXi + a2Xa
++: + An Xn
(en linjärkombination av de ursprungliga). Då gäller att
samt i fallet att X1,.... X, är oberoende,
V[Y] = alV[Xi] + aåV[X2] +: - > + a? V[Xn]-
(5.2)
Låt oss använda dessa räkneregler i enkla exempel.
Exempel 5.6
Då gäller
Först studeras ett fall med två termer. Låt aj = 2, av = —3.
E[2X, — 3X0]
V[2X, — 3X2]
Betrakta nu aj =
1, ao =
=
2E[X1] — 3E[X2],
=
2?V[X1] + (-3)? V[X2].
1, a3 = 1. Detta innebär att linjärkombinationen
Y kan uppfattas som summan av tre slumpvariabler,
Y=X,+X>
+ Xz3.
Det följer för väntevärde och varians
E[X;
+ Xa
+ X3]
=
E[X:]
+ E[X2]
+ E[X3],
va
+ Xo + X3]
=
Vv[Xi]
+t V[X2]
+ V[IX3].
Exempel 5.7 Låt X,; och X2 vara slumpvariabler med V[X1] = 07 = 0.4,
V[X2] = 03 = 0.5, säg. Då gäller för differensen Y = X, — X2 att
V[Y] = V[X1 — X2) = V[X1] + V[X2] = 0? + 03 = 0.4 + 0.5 = 0.9.
Notera att varianser enligt räkneregeln i ekv. (5.2) alltid adderas. Om man
felaktigt skulle beräkna enligt exempelvis V[Y] = V[X1] — V[X2] = —0.1
följer här en negativ varians, vilket är omöjligt.
96
&
FÖRFATTAREN
Er
OCH
STUDENTLITTERATUR
5.2. Räkneregler för väntevärden och varianser
Exempel 5.8 Antag att vi spelar ett spel där vinsten beskrivs av en slump-
variabel X med väntevärdet ju och variansen V[X] = &?. Spelet kan utföras
upprepade gånger vilket leder till slumpvariabler X,, X32,.... Innebörden av
Y, = 2X är då vinsten i ett spel med dubbla vinsten, medan Y> = X, + Xa
tolkas som totala vinsten vid två spel.
De förväntade vinsterna blir desamma, E[Y1] = 2E[X] = 2yu, E[Y2] =
E[X1] + E[X2] = 21.
Vi beräknar osäkerheter i form av varianser för Y, respektive Y3:
V[Vi]
=
V[Y]
=
V[I2X]=2V[X] = 40?,
VIXi + X2] = V[Xi] + V[X2] = 0? + 0? = 20?.
Vi finner att V[Y23] < V[Yi], vilket stämmer med intuitionen: Vid två spel kan
en hög vinst vid exempelvis första spelet jämnas ut av en låg vinst i andra
spelet.
O
Om de ingående fördelningarna är kända går det att förenkla uttrycken för
väntevärde och varians av linjärkombinationer ytterligare.
Exempel 5.9 Antag t.ex. att X;
- N(10,4) och X2
-— N(5, 2). Då gäller
att E[X,] = 10, E[X2] = 5, V[X1] = 4, V[X2] = 2, och för linjärkombinationerna i exempel 5.6 följer då
E[2X, — 3X2] = 2-10—-3-:5=5,
V[2X,—3X20] = 2?-4+(—3)"-2 = 34.
Följande resultat för väntevärdet av produkter av slumpvariabler gäller
endast i oberoendefallet.
Väntevärde för produkt. Låt Xj,..., X, vara oberoende slumpvariabler
med väntevärden E[X;],..., E[Xn]. Då gäller
E[X+ ++: Xa] = E[X1] : E[X2] +... > E[Xi]-
(5.3)
I nästa exempel betraktar vi ett enkelt tekniskt system.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
97
5. Funktioner av flera slumpvariabler
Exempel 5.10
En slumpmässig spänning U (i volt) varierar likformigt i in-
tervallet [11, 13]. Vid en mätning av spänningen störs denna av ett additivt,
slumpmässigt brus N, med fördelning N - N(0, 1). Antag att U är oberoende
av N. Den uppmätta signalen S$ kan beskrivas av en slumpvariabel
S=U+N
(jämför modellen som diskuterades i exempel 5.3, sid. 93).
(a) Beräkna väntevärdet av S. Man finner
E[S] = E[U + N] = E[U] + E[N] = 12 + 0 = 12 [V].
(b) Sök förväntad effekt då S läggs över en resistans på R = 100.
Effekten, Y säg, ges enligt elläran av följande kvot:
(U+N)
NE
ON
Y=
Vi finner den förväntade effekten (i W) genom att utnyttja ekv. (4.3) och an-
tagandet om oberoende mellan U och N via ekv. (5.3):
E[Y]
=
E[(U + N)/R] = = (EIU”) + E[N”] + 2E[UN])
>
a (vv + (E[U])? + VIN] + (E[N])? + 2E[U]E[N])
=
7 (3+t12+1+0+2-12-0)
= 14.5 [W].
Linjära samband är vanliga i tekniska sammanhang, men olinjäriteter kan
uppstå även i enkla fall, som i följande exempel.
Exempel 5.11
En krets bestående av tre resistorer Ri, R2 och R3 studeras,
se figur 5.1. Den totala resistansen R ges av
Ri R2
Rensa
+ R3,
Ri + Ra
Vi betraktar Ri, R2 och R3 som slumpvariabler, eventuellt med olika parametrar. Uttrycket för R ges alltså av en icke-linjär relation. Om
Rika
RO
98
=
Ry
+ Ra
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
5.2. Räkneregler för väntevärden och varianser
införs kan den totala resistansen skrivas som en linjär relation
R = Ro + R3,
men att finna parametrar i Ry kan vara svårt.
o
Figur 5.1: Elektrisk krets med tre resistorer Ri, R2 och Rz3.
I vissa sammanhang adderas en konstant till en slumpvariabel, dvs. man har
ett uttryck av formen Y = X + a, där a är en konstant. Räknereglerna för
väntevärden och varianser som presenterades i ekv. (5.1-5.2) kan utvidgas till
att omfatta en additiv konstant. I rutan som följer ger vi för enkelhets skull
fallet där en konstant adderas till en enda slumpvariabel.
Räkneregler för addition av konstant. För en slumpvariabel X gäller
för godtyckliga konstanter a och b att
samt
ElaX + b] = aE[X] + »b
(5.4)
V[aX + bd] = a? V[X].
(5.5)
I följande exempel följer vi upp modellen från exempel 5.3 och beräknar statistiska egenskaper hos de observerade värdena.
Exempel 5.12 Avstånd mäts med ett instrument. Mätvärdena anses vara observationer av slumpvariabler vilka är normalfördelade med väntevärde lika
med det sanna värdet och inkluderande ett slumpmässigt mätfel. En modell
ges av följande:
Y=so+t+X
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
99
5. Funktioner av flera slumpvariabler
Tryck på
där s9 är det sanna avståndet och X
— N(0,3?). Med ekv.
(5.4)
[OR ILENE
oc
detta kapitel följer att
E[Y]
=
E[so + X]
= 80 + E[X]
V[IY]
=
Viso+X] = VIX] =0?.
= so + 0 = sp,
Fördelningen för mätvärdet Y ges alltså av Y -— N(s9, o?).
5.2.1
a
Läges- och spridningsmått för medelvärdet
Den kanske viktigaste tillämpningen av räknereglerna är för följande linjärkombination, vilken har oerhört stor betydelse i statistik:
=
1
X = AX)
+: + Xn).
n
I fallet att variablerna X1,..., X,n är oberoende och likafördelade med samma
väntevärde ju och varians &? följer från (5.1)-(5.2) att
E[X] =,
o?
VIX]= =
(5.6)
Visa gärna detta resultat själv, som övning.
Exempel 5.13 Man är intresserad av att bestämma en vinkel. Mätningens
utfall beskrivs, pga. mätfel, av en slumpvariabel X. Av erfarenhet vet man att
mätfelet kan anses vara normalfördelat med väntevärdet 0 och standardavvi-
kelsen 0.1 (grader).
Antag att fyra mätningar genomförs, och att medelvärdet beräknas av
dessa. För att finna standardavvikelsen hos detta värde beräknar vi med hjälp
av ekv. (5.6)
V[X]= = =vd = 0.0025
och därmed finner man D[X] = 0.05 (grader).
5.3
H
Några additionssatser
I föregående avsnitt har vi presenterat samband för väntevärden och varianser för linjärkombinationer av slumpvariabler med i sin tur kända väntevärden och varianser. Att finna fördelningen för linjärkombinationerna är i allmänhet mycket svårt. I detta avsnitt studerar vi några specialfall. I samtliga
fall gäller att de ingående slumpvariablerna är oberoende.
100
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
5.3. Några additionssatser
nga helskärmen
5.3.1
Normalfördelningen
Problemställningar kring last och styrka i vid bemärkelse leder ofta till studium av differenser av slumpvariabler (se avsnitt 5.1). I följande exempel studeras en differens mellan två normalfördelade slumpvariabler.
Exempel 5.14 Bärförmågan hos en konstruktionsdetalj anses följa en slumpvariabel X; -— N(30, 4) (fiktiva enheter). Denna utsätts för en last som kan va-
riera slumpmässigt, och man har funnit en lämplig beskrivning av en slumpvariabel X2 - N(24, 5). Det är av intresse att beräkna sannolikheten att konstruktionen går sönder, dvs. lasten överstiger styrkan.
Sökt är P(X3> > X1) eller omskrivet P(X2 — X; > 0). Om variabeln Y =
X2 — X1 införs, kan sannolikheten skrivas P(Y > 0). Det återstår att söka
fördelningen för Y.
=
För att kunna beräkna den sökta sannolikheten i exemplet ovan behövs ett resultat för linjärkombinationer av oberoende, normalfördelade variabler. Man
kan visa att linjärkombinationerna återigen blir normalfördelade.
Linjärkombinationer av normalfördelade variabler.
vara
Ms
oberoende
normalfördelade
slumpvariabler
med
Låt X,,...,Xn
väntevärden
«> 3 kn Och varianser 07, ..., 03 och betrakta variabeln
n
Mä
)
a; X; + )b,
=
där a, . - ., an och b är konstanter. Då gäller att
Y > N(uy,
där
ov),
n
fiva=I EMI
Mai
i=1
n
+b,
oo = VY] = ML aroi.
i=1
Med hjälp av ovanstående resultat kan exempel 5.14 slutföras.
Exempel 5.15 Vi studerar slumpvariabeln Y = X32 — X,. Enligt resultatet
ovan gäller att Y — N(uy, o+) där
ty = IX, — HX, = 24-30 = —6,
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
or = 0X,
ox, = 4+5=)09.
101
5. Funktioner av flera slumpvariabler
Nu följer den sökta sannolikheten för brott ur räkningen
P(Y >0)
1-—-P(Y <0)=1-P( Y —(-6) > ee
=
v9
=
VI
1— (6/3) =1-— P(2) =1— 0.98 = 0.02.
=
Ytterligare ett exempel illustrerar hur resultatet kan användas.
Exempel 5.16
Antag att X1 - N(10, 4), X2 -— N(8, 9).
(a) Ange fördelningen för Y = 2X, — X2.
(b) Beräkna sannolikheten P(Y < 14).
(a): Vi har att Y blir normalfördelad, Y — N(juy, o7), där
ky
=
21
- po =2-:10—-8=12,
or
=
201+(-1)02 =4-4+1-9=025.
(b): Från (a) har vi nu att Y - N(12, 25), så sannolikheten kan beräknas:
P(Y < 14) = S((14 — 12)/5) = (0.40) = 0.66.
HR
Vi återvänder nu till det viktiga resultatet som gavs i ekv. (5.6) och studerar
speciellt normalfördelningen.
Exempel 5.17
Antag att X - N(20,5?). För slumpvariabeln
=
X=
1
Ce
+:
+ Xn)
gäller då med användning av ekv. (5.6) att X - N(20,5?/n). I figur 5.2 finns
tre täthetsfunktioner uppritade: för X själv (heldragen kurva) samt för X i
fallen n = 5 (streckad kurva) och n = 20 (punktstreckad kurva). Notera hur
spridningen minskar med ökande n, fördelningen för X blir mer koncentrerad kring väntevärdet 20.
=
102
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
5.3. Några additionssatser
Figur 5.2: Täthetsfunktioner för X - N(20, 5?) (heldragen) samt X då n = 5 (strec-
kad) respektive n = 20 (punktstreckad).
Exempel 5.18 I exempel 5.13, sid. 100, studerades problemet med att mäta
en vinkel. Antag att man vill beräkna sannolikheten att medelvärdet av fyra
mätningar har ett fel som understiger 0.1 grader (åt något håll).
Vi har från exempel 5.13 att X - N(0,0.0025) och beräknar den sökta
sannolikheten:
P(—-0.1< X <0.1)
5.3.2
=
P(0.1/0.05) — P(—0.1/0.05) = P(2) — P(—2)
=
P(2)— (1 — P(2)) = 20(2) — 1 = 0.95.
Binomialfördelningen
För två oberoende binomialfördelade variabler X;
och X2 går det att un-
der förutsättningarna nedan skriva upp ett enkelt uttryck för fördelningen
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
103
5. Funktioner av flera slumpvariabler
av summan Y = X,j + X3a.
Summa av binomialfördelade slumpvariabler. Låt X; — Bin(ni,p)
och X3 - Bin(na2, p) vara oberoende slumpvariabler. Då gäller för slumpvariabeln
Y=X,+X>
att
Y — Bin(ni + na, p)-
(5.7)
Observera att parametern p är densamma för de bägge variablerna.
Exempel 5.19 Vid leverans från en underleverantör av en viss typ av relä anses sannolikheten för en defekt komponent vara 0.001. Under en vecka
inkommer på tisdagen en leverans med 70 komponenter samt på torsdagen
en leverans med
50 komponenter.
Leveranserna
kan anses oberoende,
och
oberoende anses även gälla komponenterna emellan i varje leverans. Beräkna sannolikheten för minst en felaktig komponent bland veckans levererade
komponenter.
Vi inför slumpvariabler X) = ”Antal felaktiga komponenter, tisdag” samt
X2 = ”Antal felaktiga komponenter, torsdag”, och enligt antagandena gäller
då Xi > Bin(70, 0.001) resp. X2 - Bin(50, 0.001). Vidare införs slumpvariabeln Y = X1, + Xa, dvs. totala antalet felaktiga komponenter bland veckans
leveranser, för vilken gäller Y
>
Bin(120, 0.001). Den sökta sannolikheten
kan nu beräknas:
P(Y >1)
=
1-P(Y =0)=1- (5 ')0.00a — 0.001)!??
1—0.999120 = 0.11.
Kommentar, små talens lag. Här föreligger ett exempel på små talens lag,
vilken nämndes i kapitel 4. I detta fall kan vi approximativt anse att Y >
Po(120 - 0.001), dvs. Y > Po(0.12). Den sökta sannolikheten ges då av
1 — P(Y
= 0) = 1—e7012
= 0.1130796. (För binomialmodellen ovan
blir svaret, med fler decimaler utskrivna, 0.1131328.)
104
&
FÖRFATTAREN
[=
OCH
STUDENTLITTERATUR
5.3. Några additionssatser
Exempel 5.20 Vi återvänder till exempel 5.2, laddning av elbilar. Genom
upprepad användning av ekv. (5.7) finner vi att summan X, + ::: + X, som
där angavs blir binomialfördelad.” Genom multiplikation med c fås en uppfattning om den statistiska spridningen hos den totala elanvändningen i ett
större elnät pga. laddning av elbilar.
=
5.3.3
Poissonfördelningen
För två oberoende Poissonfördelade slumpvariabler X1 och X> kan man finna
fördelningen för summan Y = X; + X32; den blir Poissonfördelad.
Summa av Poissonfördelade slumpvariabler.
Låt X; > Po(mi) och
X32 > Po(ma) vara oberoende slumpvariabler. Då gäller för slumpvariabeln
Y =X,+X2
att
Y > Po(mi + ma).
(5.8)
Exempel 5.21 Ien kemisk industri kan förekomma oönskade utsläpp av gas.
Varje utsläpp innebär, förutom eventuella hälsorisker, uppehåll i produktionen och därmed även ekonomiska förluster.
Utsläpp kan förekomma vid två anläggningar, en äldre respektive en modernare. Anläggningarna antages fungera oberoende av varandra. För den
äldre anses från tidigare undersökningar totalantalet årliga utsläpp X1 följa
en Poissonfördelning med väntevärdet 2.5. För totala antalet årliga utsläpp
vid den modernare anläggningen införs slumpvariabeln X>, och man anser
att X3 -— Po(0.5). Beräkna sannolikheten för minst 5 utsläpp under ett år vid
industrin.
Inför slumpvariabeln Y = ”Totalt antal utsläpp under ett år”, dvs. Y =
Xi + Xa. Då gäller att Y — Po(2.5 + 0.5), dvs. Y — Po(3). Den sökta
sannolikheten kan beräknas som
.
32
P(Y > 5) =1-—P(Y <4) =1-e7 (1+3+=—
2
33
3
6
24
+= + —) = 0.18.
H
”Oberoendeantagandet kan diskuteras.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
105
5. Funktioner av flera slumpvariabler
I själva verket går det att skriva upp ett uttryck för fördelningen av differensen av två oberoende Poissonfördelade variabler. Låt X; — Po(m1) och
X2 > Po(ma2). Fördelningen för Y = X, — X2 ges då av den s.k. Skellamför-
delningen:
P(Y
=y) =e" (mi +m2)
Y
mo
RN
n=—00
n(y+n
n > 0.
Högerledet kan skrivas på kompaktare form genom modifierade Besselfunktioner av första slaget, men detta faller utanför bokens ram.
5.4
Ett centralt resultat — centrala gränsvärdessatsen
Hittills i detta kapitel har vi studerat väntevärde och varians för linjärkombinationer av slumpvariabler, där en speciellt vanlig linjärkombination är summan. Vi kan betrakta summan av, säg, n variabler som en ny variabel Y':
Y=Ni+t+Xo+t:::
+ Xn.
Med hjälp av ekv. (5.1-5.2) kan E[Y] och V[Y] beräknas. En mer generell frå-
ga gäller själva fördelningen för Y', går den att bestämma på ett enkelt sätt?
Svaret är nej, i de flesta fall är det mycket svårt eller rent av omöjligt att finna
matematiska uttryck för denna fördelning.
Det finns dock ett resultat, centrala gränsvärdessatsen (CGS), där en approximativ fördelning kan anges. Detta gäller för oberoende slumpvariabler.
Centrala gränsvärdessatsen.
Låt X,, X2,..., Xn vara oberoende, lika-
fördelade slumpvariabler med väntevärde ju och varians o?. Då gäller för
stora n att
Y=Xi
+X2 +: + XX,
är (approximativt) fördelad enligt
Y — N(uv, ov)
där
ky = Nu,
106
oy2 = no”.2
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
5.4. Ett centralt resultat — centrala gränsvärdessatsen
Vad menas med ”stora” n? Något allmänt svar finns inte — avgörande är fördelningens form. Fördelningar som är symmetriska konvergerar snabbare än
skeva.
Ö
S 7
2 3c
S
EE
AA
o
a
Bin(5,0.2)
AA
Oo
T
I
T
0
1
2
T
-
3
4
NA
Bin(10,0.2)
Oo
S
SJ
+
3
5
5
f
T
T
T
T
T
0
2
4
6
8
10
y
Xx.
f
&
dil
2 3a
>
&
2
H
3
S
TT
Bin(20,0.2)
|
Oo
An
y
I
Je
0
5
Bin(30,0.2)
I
Zz .
25
lig
2
&c
mm
I
T
o
L
An
Ir
T
T
T
10
15
20
3
Oo
f
T
T
T
T
T
T
0
5
10
15
20
25
30
y
y
Figur 5.3: Sannolikhetsfunktioner för binomialfördelningar.
Exempel 5.22 Vi studerar här summor av slumpvariabler X; -— Bin(1, 0.2).
Genom upprepad användning av ekv. (5.7) finner man att
Y = Xj +:::
+ X5
» Bin(5, 0.2).
Sannolikhetsfunktionen för Y finns uppritad i figur 5.3, längst upp till vänster,
en skev fördelning av diskret typ. Vi kan även finna fördelningen för summan
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
107
5. Funktioner av flera slumpvariabler
av ett ökande antal termer, se övriga sannolikhetsfunktioner i figur 5.3. Observera att dessa är exakta fördelningar, inga approximationer.
Man kan notera att fördelningen tenderar att bli alltmer symmetrisk med
ökande antal termer; enligt CGS skall gränsfördelningen utgöras av en normalfördelning. I fallet med 30 termer ges väntevärdet för slumpvariabeln
Peder
av E[Y] = 30 - 0.2 = 6, medan V[Y] = 4.8.
=
I exempel 5.22 studerades summor av diskreta slumpvariabler, och vi antyder
att gränsfördelningen skall vara en normalfördelning, vilken är av kontinuerlig typ. För att kompensera för detta problem kan man i räkningarna införa en s.k. halvkorrektion. Denna är alltså intressant när summor av diskreta
variabler approximeras med en kontinuerlig. Om sannolikheten P(Y < a)
är av intresse (med hjälp av normalfördelning, enligt CGS), beräknas i stället P(Y < a + 3). För sannolikheter av typen P(a < Y < b) beräknas
P(a+3 <Y <b+13).
Exempel 5.23 Antag att Y — Bin(30, 0.2) har sin bakgrund i en summering
av oberoende, binomialfördelade variabler som i exempel 5.22. Enligt CGS
P(Y <8) = S(
8-
ä
CGS:
on
gäller då att approximativt Y — N(juy, ov) där uy = 6 och o7 = 4.8. Antag
att man vill beräkna sannolikheten P(Y < 8), vilket görs på tre sätt:
) = 0.8193.
CGS, med halvkorrektion:
P(Y
(Y
1
<< 8) 8) =ax P(IY
<8+-)=P
P(Y <
)
8.5—6
( Ji8
2
) = 0.8731.
Exakt beräkning med binomialfördelning (här används statistisk programvara):
P(Y < 8) = 0.8713.
Vi noterar att halvkorrektion fungerade fint i detta exempel.
=
I mer omfattande läroböcker i matematisk statistik behandlas mera utförligt
approximation fördelningar emellan, och tumregler ges för användandet. Exempelvis anges i en artikel3 av Schader och Schmid att Y — Bin(n,p) kan
>M. Schader, F. Schmid (1989). The American Statistician 43, sid. 23-24.
108
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
5.4. Ett centralt resultat — centrala gränsvärdessatsen
approximeras av Y — N(np, np(1 — p)) om
np(1 —p) > 9
eller
np>5
n(1—p) > 5
då
0 <p<0.5,
0.5 <p <1.
I exempel 5.23 gäller np(1 — p) = 4.8, np = 6, så approximationen är enligt
första tumregeln inte uppfylld, dock enligt andra.
I nästa exempel summeras kontinuerliga variabler, ingen hänsyn behöver tas
till halvkorrektion.
Exempel 5.24 En säljare ringer 20 telefonsamtal. Längden av ett samtal anses vara exponentialfördelad med väntevärde 10 minuter. (a) Ange fördelningen för den totala samtalstiden. (b) Beräkna sannolikheten att totala samtals-
tiden överstiger 220 minuter.
(a) Inför slumpvariabeln T', vilken motsvarar längden av ett samtal. Tabellen
på sidan 75 ger för exponentialfördelningen att E[T] = 10, V[T] = 10?. Den
totala samtalstiden Y, som ges av
Y=T
+T5 +: + Too
har approximativt fördelningen Y — N(uy,o+) där py = 20-10 = 200,
OT = 20 - 10? = 2000 (vi betraktar här 20 som ett tillräckligt stort antal).
(b) Sökt sannolikhet:
P(Y > 220)
=
=
1-—P(Y < 220) = 1
1— (0.45) = 0.33.
P((220 — 200)/v2000)
Formulering för medelvärdet
Centrala gränsvärdessatsen kan även ges i en form som involverar medelvärdet av oberoende slumpvariabler:
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
109
5. Funktioner av flera slumpvariabler
Centrala gränsvärdessatsen.
Låt X,, X32,..., X, vara oberoende, lika-
fördelade slumpvariabler med väntevärde ju och varians &?. Då gäller för
stora n att
>
1
25
Kitto
Xn)
är (approximativt) fördelad enligt
X > N(ju, 01)
där
Exempel 5.25 Förpackningar märkta ”50 g” fylls med innehåll. Man anser
att en förpacknings massa kan uppfattas som en slumpvariabel med väntevärdet 50 och standardavvikelsen 1 (enhet gram). Vid en kvalitetskontroll beräknas medelvärdet av massorna hos 100 slumpmässigt valda komponenter. Vad
är sannolikheten att detta medelvärde avviker mer än 0.2 g från målvikten
50 g?
Vi inför slumpvariabeln X; = ”Massan hos en förpackning”. Enligt upp-
gift gäller ju = E[X;] = 50, o = D[X;] = 1. Den sökta sannolikheten kan
formuleras
p=
P(|X — ul| > 0.2),
så fördelningen för X är av intresse.
Fördelningen för X; är inte angiven, men vi betraktar n = 100 som
ett stort antal. Då ger CGS att approximativt X -— N(ju,0o”/n), dvs. X >
N(50, 0.01).
Den sökta sannolikheten kan nu beräknas:
p
=
2
=
110
P(IX-— ul > 0.2) = 1-— P(|X — jul < 0.2)
1 — P(-0.2 < X — pu < 0.2) = 1— P(49.8 < X < 50.2)
1—[P((50.2 — 50)/0.1) — P((49.8 — 50)/0.1)]
1— (2) + P(—2) = 2(1 — P(2)) = 2(1 — 0.9772) = 0.046.
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
5.5. R-kommandon: Simulering
5.5
R-kommandon: Simulering
Vi betonade tidigt i detta kapitel att det oftast är mycket svårt att finna analytiska uttryck för fördelningar för funktioner av slumpvariabler i allmänna fallet. Med hjälp av simulering kan man dock få en uppfattning om det
stokastiska beteendet hos system. Baserat på så kallade pseudoslumptal kan
slumptal från de vanligaste fördelningarna genereras med hjälp av speciella
numeriska algoritmer.
Vi återvänder till exempel 5.10, där effekten i en krets studerades. Vi hade
sambandet
Ve
(U+N)?
R
,
där U — Re(11,13), N — N(0,1) och R = 10, dvs. i modellen ingår två
slumpvariabler U respektive N samt en deterministisk konstant, R. I exemp-
let fann vi efter en del räkningar E[Y] = 14.5 (W).
Med R kan de rektangelfördelade slumptalen från U simuleras med rutinen runif, medan de normalfördelade kan genereras via rnorm. Vi simulerar
10 000 slumptal från vardera variabeln, och får alltså ett datamaterial för effekt om 10 000 observationer. I kodavsnittet nedan beräknas medelvärde och
varians för datamaterialet. Vidare ritas ett histogram över observationerna,
se figur 5.4. Möjligen anas en asymmetri, skev fördelning åt höger.
> U =
runif(10000,11,13);
> Y = (U+N)'2/R;
N = rnorm(10000,0,1);
R =
10;
> mean (Y)
[1]
14.53954
> var (Y)
[1]
7.731405
> hist(Y,freq=FALSE);
grid(lwd=2)
För att få figurens utseende exakt som i boken fordras en del extra parametrar
i anropet till hist (justering av axlar, fontstorlek m.m.). Dessa har utelämnats
här av pedagogiska skäl, för att anropet med rutinen skall framgå tydligare.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
111
5. Funktioner av flera slumpvariabler
un
Fr
mm
S
fa
JR
Oo
us
=
=
8.
Fl
S
|
|GEL
l
I
I
3.
S
|
IN
töms
O
|
:
Um
v
E
|
I
f
f
0
5
|
|
I
I
Ån
|
I
|
|
I
I
I
LTL TULL da
|
T
10
15
UT
|
|
20
25
a
]
30
Effekt (W)
Figur 5.4: Histogram över effektvärden (simulering, 10 000 obs.).
112
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
5.6. Övningsuppgifter
5.6
501.
Övningsuppgifter
En slumpvariabel X har sannolikhetsfunktionen
I
0
1
2
pxl(z)
0.1
0.4
0.5
Av intresse är även slumpvariabeln Y = (X — 1)?.
(a) Bestäm utfallsrummet för Y och därefter fördelningen i form av en san-
nolikhetsfunktion py (y).
(b) Beräkna E[Y] och V[Y].
502. Betrakta två oberoende variabler X och Y med E[X]
E[Y] = 1.7, V[Y] = 1.9.
= 2.1, V[X]
= 1.3,
(a) Beräkna E[X — 2Y].
(b) Beräkna V[X — 2Y] samt D[X — 2Y].
503:
Låt X — Bin(5, 0.17), Y — Po(1.2). Beräkna E[5X — 3Y].
594.
Låt X,, X2, X3 vara oberoende slumpvariabler från Bin(20, 0.75). För
3
X=
1
306
+ X2
+ X3),
beräkna E[X] och V[X].
505:
Låt X -— N(10,4), Y — N(3, 1) vara oberoende slumpvariabler. Beräkna sannolikheten att X > 3Y.
506.
Ett prospekteringsbolag tror sig ana oljefyndigheter i ett svenskt landskap. Det
finns möjlighet att genomföra tio provborrningar. Sannolikheten att finna olja
i varje enskild provborrning anses vara 0.05 och resultaten i provborrningarna
anses vara oberoende.
(a) Inför lämplig slumpvariabel och ange förväntat antal lyckade provborrningar (samtliga tio genomförs).
(b) Man ser nu över ekonomin för detta projekt. Förberedelser för hela projektet antas kosta 2 Mkr, varje lyckad borrning kostar 3 Mkr och varje
misslyckad borrning 1 Mkr (lyckade borrningar, vilket i sig är positivt
för bolaget, medför ökade arbetsinsatser). Beräkna projektets förväntade kostnad.
507.
Vid en viss mätmetod förekommer dels ett systematiskt fel a =
slumpmässigt fel X. Man antar att X - N(0, o?).
1, dels ett
(a) Bestäm fördelningen för det totala felet Y = a + X.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
113
5. Funktioner av flera slumpvariabler
(b) Beräkna för & = 0.1, 0.5, 1.0 sannolikheten att det totala felet till sitt
absolutbelopp överstiger 0.10.
508.
För de oberoende slumpvariablerna X och Y gäller att X
Y > Po(0.5).
(a) Beräkna P(X +Y
—
Po(1.2) och
> 1).
(b) Beräkna P((X = 2) NM (Y = 1).
509.
I en brandvarnare
finns två batterier: det ena för rökdetektionsenheten, det
andra för signalering. Livslängderna 7) och 73 antages vara oberoende och
exponentialfördelade, Ti — Exp(1/M), T2> — Exp(1/A2).
(a) Låt T vara tiden som brandvarnaren fungerar, dvs. bägge batterierna är
hela, och finn fördelningen för T-.
(b) Beräkna sannolikheten att brandvarnaren fungerar efter 10 år om Aj =
1/7 (år)”! och Ao = 1/9 (år)”!.
510.
Från statistik över olyckstillbud i ett järnvägsnät vill man beräkna sannolikheter för urspårningar. Baserat på data i form av s.k. trafikarbete och uppskattningar av urspårningsintensiteter, har man funnit att antalet urspårningar under ett år för olika spår- och tågtyper kan modelleras som Poissonfördelade
slumpvariabler med parametrar som följer:
Spårtyp A
Spårtyp B
Persontåg
1.2
0.8
<Godståg
2.7
2.2
Trafikarbetet är betydligt lägre för spårtyp B, vilken i själva verket har en
högre urspårningsintensitet än spårtyp A. (Med spårtyp A avses helsvetsat
spår med betongsliper, med spårtyp B menas helsvetsat spår med träsliper.)
Inför lämpliga slumpvariabler och oberoendeantaganden samt beräkna sannolikheten att det på sträckor av spårtyp A sker mer än en urspårning i järnvägsnätet under ett år.
511. En axels diameter X, kan antas vara normalfördelad med väntevärdet
10.0
mm och standardavvikelsen 0.2 mm. Diametern X, för ett glidlager är normal-
fördelad med väntevärdet 10.3 mm och standardavvikelsen 0.3 mm. För att axeln skall kunna rotera tillfredsställande föreslås kravet 0.2 < Xi, — Xa < 0.5.
Beräkna sannolikheten att slumpvis valda lager och axlar skall kunna rotera
enligt ovan ställda krav.
512.
Betjäningstiden för en kund vid ett försäljningsställe följer en slumpvariabel
med väntevärdet 3 och varians 1 (enhet: minuter). Beräkna sannolikheten att
45 kunder kan betjänas under en period om 2 timmar. Betjäningstiderna kan
anses vara oberoende.
114
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
5.6. Övningsuppgifter
513. Låt Y vara summan av 100 oberoende exponentialfördelade slumpvariabler
med väntevärdet 0.5. Bestäm approximativt P(Y > 47).
514.
En viss typ av motstånd är märkta 10 kQ. Den verkliga resistansen är dock
p-g-a. tillverkningsvariation likformigt fördelad över intervallet (9.5, 10.5).
Man seriekopplar 24 motstånd av nämnda typ vars resistanser kan anses obe-
roende. Beräkna sannolikheten att den totala resistansen (summan vid serie-
koppling) är minst 238 kNI men högst 242 kQ.
515. Gjutning skall ske av betongelement med en nyutvecklad typ av betongblandning. Efter att nödvändiga förberedelser gjorts, kan tidsåtgången för gjutning
av varje enskilt element beskrivas som
(i) tid att fylla formen
(ii) tid för betongblandningen att stelna
Vi är intresserade av de statistiska egenskaperna hos den totala tidsåtgången.
Tidsåtgången för moment (i) kan betraktas som en slumpvariabel 7, som är
likformigt fördelad mellan 0 och 30 sekunder, dvs. med täthetsfunktionen
fr(t) = 30»1
0<t<307;
(enhet sekunder). Oberoende av tidsåtgången för moment (i) kräver moment
(ii) en tid 73 vilken antas vara exponentialfördelad med väntevärdet 3 minuter,
dvs. med täthetsfunktionen
1
fr. (t) = se,
t>0
(enhet: minuter).
(a) Betrakta den totala tidsåtgången T = Ti + T>. Beräkna E[T] och V[T].
(b) Under ett byggprojekt kommer 40 element att gjutas. Beräkna sannolik-
heten att den totala tidsåtgången för momenten (i) och (ii) ovan under
projektet överstiger två timmar. Ledning.
lämplig approximation.
Använd resultatet i (a) och
516. Ett bostadsområde planeras för 1000 hushåll. Sannolikheterna för ingen bil,
en bil respektive två bilar i ett hushåll antas vara 0.2, 0.7 respektive 0.1. Hur
många parkeringsplatser måste minst planeras om sannolikheten för att alla
bilar skall få plats skall vara minst 0.9?
517. Låt X,,... X40 vara oberoende stokastiska variabler med E[X;] = 10, D[X;] =
2. Man studerar storheten
X=
1
40
(Xa
+:
+
X40).
Beräkna (approximativt) sannolikheten att P(X < 9.5).
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
115
5. Funktioner av flera slumpvariabler
518. En typ av betongelement till bostadshus har en förväntad massa om 800 kg och
variationskoefficienten 0.10. Vid leveransen används lastbilar som maximalt
får ta 15 ton i last.
Hur många element får man högst lasta på en bil, om sannolikheten för överlast får vara högst 0.01?
519. En cirkels radie R väljs slumpmässigt och följer en likformig fördelning, R >
Re(0, 1). För cirkelns area, A = 7R?, beräkna E[A] resp. V[A].
520. I detta problem studeras två rektanglar. Låt X,;, X2 och X3 vara oberoende,
likformigt fördelade slumpvariabler på intervallet [0, a] för någon konstant a.
Rektangel A har sidlängderna X, och X3>, medan rektangel B i själva verket
är en kvadrat, med sidlängden Xz3.
Beräkna de förväntade areorna av A respektive B och ge en kommentar.
Sammanfattning kapitel 5 &
Övningar kapitel 5 &
Deltest kapitel 4-5 &
116
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
Kapitel 6
Statistikens grunder
När data samlats in vill man ofta dra praktiska slutsatser baserade på sunda statistiska resonemang. Att enbart studera data med beskrivande statistik,
inklusive visuella metoder, är i många fall inte tillräckligt. Som nämndes i
inledningen till kapitel 2 är syftet med en statistisk undersökning att skaffa
kunskap om populationen, baserat på stickprovet (insamlade data). Ett van-
ligt statistiskt verktyg är då konfidensintervall, som behandlas i nästa kapitel.
Grunden är dock s.k. punktskattningar, vilka presenteras här.
6.1
Punktskattningar
I en praktisk situation görs ofta ett antagande om en viss familj av fördelning,
baserat på erfarenhet av den aktuella situationen eller preliminär undersökning av observerade data. Histogram kan t.ex. antyda en viss fördelningsfamilj. För en fortsatt statistisk analys krävs då kunskap om de ingående parametrarna i den aktuella familjen. Därefter kan den statistiska modellen användas för något syfte, kanske något av de beskrivna i avsnitt 1.1 (jämförelse
av två metoder, prediktion etc.).
I den statistiska analysen i denna bok förutsätts att observationerna r1,
..., Zn kommer från ett s.k. oberoende stickprov. Med detta menas att motsvarande slumpvariabler X1,..., X, är oberoende och har samma fördelning.
Vi skall speciellt i detta och nästa kapitel studera de två fallen med normalfördelnings- respektive binomialfamilj. I bägge fallen finns två parametrar; i
det förra ju och &, i det senare n och p. Vi kommer koncentrera oss på att
finna uppskattningar av j resp. p från data (värdena av & resp. n anses tills
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
117
6. Statistikens grunder
vidare kända). Målet är att finna en funktion som kan ge en uppskattning av
parametern från data.
Normalfördelning. Vi betraktar ett stickprov xi, . .-, Zn från en fördelning
X N(ju, 0”). Då parametern ju står för väntevärde, ett mått på tyngdpunkten hos fördelningen, skulle ett förslag till en s.k. punktskattning (kort: skattning) av j kunna ges av det aritmetiska medelvärdet:
oo 1
fe aln
+:
+ In).
(6.1)
Hatten över ju markerar att skattningen är ett numeriskt värde, baserat på
observerade data.
Binomialfördelning.
Vi studerar nu en variabel X -— Bin(n, p), där n är
känt medan p är okänt och skattas från data. Här har man typiskt en observation x och en intuitiv skattning av p är
p=2/n.
(6.2)
Om exempelvis funktionsdugligheten hos n = 1000 komponenter studerades
och r = 5 befanns vara dåliga, så är p = 5/1000 = 0.005 en rimlig skattning
av felandelen.
Att finna punktskattningar
I föregående avsnitt presenterades i (6.1) en skattning för ju i en normalfördelning. Denna formel togs mer eller mindre ur luften, med motiveringen att den
verkade intuitivt rimlig. I själva verket finns allmängiltiga principer och metoder för att finna skattningar för parametrar, givet en viss fördelning. Några
vanliga klasser av metoder är momentmetoden, minstakvadratmetoden, max-
imum likelihood-metoden. Dessa leder ofta till ekvationer som kräver numerisk lösning med iterativa metoder. Vi behandlar inte dessa metoder i denna
bok. I många fall sammanfaller de intuitiva skattningarna med de som erhålls
med de allmänna metoderna.
6.2
Skattningar som slumpvariabler
I detta avsnitt görs situationen något mer abstrakt. Antag att vi studerar en
fördelningsfamilj F(x;0) där 0 är en okänd parameter. (För enkelhets skull
antas endast en parameter ingå.) De tillgängliga observationerna 1, ...,Zn
118
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
6.2. Skattningar som slumpvariabler
utgör ett stickprov — motsvarande slumpvariabler X1,..., Xn är oberoende,
var och en med fördelningen F. Med en punktskattning t = 9 av parametern
0 menar vi en funktion g av stickprovet, dvs.
0 =1t=gläi,...>
In).
För punktskattningen av ju som presenterades i (6.1) gäller speciellt
Å = gl...
A
I
Ta).
Zn) = (01 ++
Exempel 6.1 För en förädlingsindustri av skogsråvara anses den månatliga
efterfrågan av pellets (i ton) X följa en normalfördelning för de sex vintermånaderna oktober — mars: X -— N(j, 0”). För en viss vintersäsong observerades följande stickprov 1, ...,z6 (avrundat till hela ton), och man vill skatta
väntevärdet ju:
12,
14,
15,
15,
11,
13.
En punktskattning ges av
i
K= 000)
1
= all? + 14+15+15+11+13)
.
= 13.3.
Punktskattningens värde beror (helt naturligt) av det stickprov vi hade tillgång till. Ofta är fallet att endast ett stickprov finns tillgängligt, det kan t.ex. i
vissa sammanhang röra sig om mätserier som är resultat av kostsamma mätexperiment. För att återvända till situationen med pellets, antag (hypotetiskt)
att vi har tillgång till fem säsongers data, och kan skatta ju upprepade gånger:
Säsong
je
1
13
12
MN
14
15
10
12.5
2
10
11
11
14
12
10
11.3
3
9
14
17
12
13
15
133
4
15
1
12
13
UU
14
12.7
Av naturliga skäl sker variation hos (. I fortsättningen av detta kapitel inför
vi begrepp och mått för att kunna beskriva och hantera denna variation.
Uppenbarligen varierar sannolikt värdet på t mellan tänkta stickprov vilket
leder till att man även studerar motsvarande slumpvariabel T', även kallad
estimator:
T EX
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
Än).
(6.3)
119
6. Statistikens grunder
Man kan tänka sig olika val av funktionen g. Vad säger att de intuitiva förslagen till skattningar vi presenterat ovan i ekv. (6.1-6.2) är de bästa? För att
utreda sådana frågeställningar mera i detalj studeras då en estimators statistiska egenskaper, dvs. framställningen i (6.3) blir aktuell. Att analysera E[T]
samt V[T] är av intresse, vilket vi gör i följande delavsnitt.
Skattningars statistiska egenskaper
6.2.1
Väntevärdesriktighet
En god egenskap hos en skattning borde vara att den i medeltal leder till rätt
parameter. Man talar om att en skattning av en parameter 6 är väntevärdesriktig om
El) =909
och väntevärdesriktighet är således en god egenskap hos skattningar.
Vi undersöker väntevärdesriktighet för de föreslagna skattningarna av ju
i normalfördelning respektive p i binomialfördelning. Låt oss börja med ett
stickprov från en fördelning X -— N(j,o”); då gäller att E[X] = j och det
följer från räknereglerna för väntevärden att
Ef
El] =E
1
0
++
X)|
1
= Su =
Hl,
dvs. skattningen var väntevärdesriktig. Med ett stickprov från en fördelning
X » Bin(n, p) gäller att E[X] = np och vi finner
ej) = Ej) = € [2] = sex) = inn =>,
dvs. väntevärdesriktighet'.
Ofta går det i ett givet fall att finna flera väntevärdesriktiga skattningar.
För att underlätta valet finns därför ytterligare egenskaper att studera, vilka
presenteras i avsnitt 6.2.2. Några exempel där denna problematik diskuteras
ges i slutet av detta kapitel.
"I uttrycken E[fi] och E[p] i detta avsnitt skall fi och pf betraktas som slumpvariabler, inte
numeriska värden erhållna från data.
120
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
6.2. Skattningar som slumpvariabler
Medelfel för skattningar
Även spridningen hos en föreslagen skattning är av intresse. Ett vanligt begrepp är medelfel, som här skall diskuteras närmare.
Vi kan för våra två specialfall beräkna varianserna med hjälp av ekv. (5.2):
via =v| n ET +::+ X)| = Sr
n?
=
2
n
respektive
via =v |] = VI = npl1 — p) = Tpl D),
X
Standardavvikelserna följer som
D[ä] = Rc
D[p] = V spa —p).
(6.4)
Dessa standardavvikelser är av betydelse vid konstruktion av konfidensintervall, se nästa kapitel. Dock ingår i uttrycken obekanta parametrar (g respektive p); hur skall beräkning kunna ske? Lösningen är att plugga in skattningar
av & respektive p: & = s (stickprovsstandardavvikelsen) samt p = r/n. De
storheter som då erhålls brukar kallas skattningarnas medelfel.
För våra två specialfall har vi medelfelen
all= =
dö=yI20-0).
(6.5)
På engelska översätts medelfel med standard error. Detta begrepp är vanligt förekommande i statistisk programvara. Med standard error of the mean
menas s/vn som vi härledde ovan.
6.2.2
Ytterligare egenskaper
Andra mått för skattningar som används vid teoretisk analys av föreslagna
skattningar är konsistens och effektivitet. Konsistenta skattningar har egenskapen att tillförlitligheten blir bättre, ju fler observationer som ingår i stickprovet. Närmare bestämt säges en väntevärdesriktig punktskattning vara konsistent om
Oo FÖRFATTAREN
VIT] = V[g(Xi,...,Xn)) 3+0
OCH
STUDENTLITTERATUR
dån — oo.
121
6. Statistikens grunder
Effektiva skattningar har liten varians, och effektivitet är ett relativt mått
som används vid jämförelse av två föreslagna väntevärdesriktiga estimatorer.
Om V[Ti] < V[T>] är estimatorn T' att föredra framför T>.
Exempel 6.2 Antag att vi har tre oberoende mätningar från en och samma
population med väntevärde ju och standardavvikelse go. Vilken av följande
skattningar är bäst?
l
(Xl + X2 + X3),
a
fo =
SS
a
fn =
(X1 + 2X2 + IX3)
Väntevärdesriktighet.
a
Elf)
=
1
a
E[f2]
=
Ela (Xi + 2X2 + IX3 =
+ Xa + X3)]=
1
3
u=uUu,
(EX)
za 2E[X2] + 3E[X3])
=
Bägge skattningarna är väntevärdesriktiga. Vilken är effektivast?
Effektivitet.
A
Vu]
=
1
VIz(X1
+ X2 + X3)] = 32(0 2,0 +0 2,07
+ 0) = 3?
Vä]
= VI
+ 2X2 + 3X3)] = aa (0? + 40? + 90?) = 300
Alltså gäller att V[f1] < V[Aho], skattningen fu är effektivare och denna bör
användas.
=
Försöksplanering är ett stort område inom industriell statistik. I följande
exempel presenterar vi ett enkelt fall som dock innehåller de viktigaste aspekterna: studium av varians (önskvärd så liten som möjligt) samt helst inte alltför omfattande experiment (mätningar kostar).
Exempel 6.3
Tre föremål med vikterna Mi, M3, M3 skall vägas med en våg
med precision o. Vilken av följande två metoder är att föredra, dvs. ger lägst
mätfel?
(a): Väg vardera föremålet en gång.
(b): Väg två föremål tillsammans: 1 och 2, 2 och 3, 1 och 3.
Vi inför stokastiska modeller, se exempel 5.3, sid. 93 och exempel 5.12, sid. 99.
122
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
6.2. Skattningar som slumpvariabler
Beteckna med X1, X2, X3 mätvärdena för respektive föremål.
Metod (a): | Vi studerar slumpvariablerna
Xi =Mi+e,
X2= Mo+e,
X3 = M3 + 63,
där för slumpfelen €1, €2 och e3 gäller E[e1] = E[e2] = Elez] = 0, V[e&1] =
V[e2] = V[eg] = o?. Med ekv. (5.5) kan mätvärdenas varianser bestämmas:
V[X1] = V[Mi + ei) = V[Mi] + Vla] = 0 + 0? = 9?,
och man finner på samma sätt V[X2] = V[X3]) = V[X1].
Metod (b): | Vi studerar nu mätvärdena då två föremål vägs tillsammans:
X4
= Mi
+ Ma
+ €4,
X5
= Ma
+ Ma3 + €e5,
X6
= Mi
+ M3
+ €6,
där E[e4] = E[es] = E[eg] = 0, V[e4] = V[es] = V[e6] = o?. För föremål 1
inför vi nu variabeln
X4 — X5 + X6
xp=
1
SO
= (Mi + Ma +
+Mi
=
Mi
+
- Ma — M3 - 65
+ M3 + €6)
€4 — €5 + €6
2
för vilken vi finner variansen
VIXT)
VIMi + (€4 — €5 + €6)/2] = V[Mi] + V[(e4 — €5 + €6)/2]
= 0+332 (Vlea] + V[es] + Vlee]) = 2a(0? +02+0?)= ot.
(Analoga räkningar ger samma varians, 30/4, för föremålen 2 resp. 3.)
Vi drar slutsatsen att variansen blev mindre med mätmetod (b). Med avse-
ende på varians är alltså (b) att föredra. En annan aspekt är kostnad: vilken
mätmetod är dyrast (innebär flest mätningar)? Vi inser att bägge metoderna
innebär samma antal mätningar (tre), alltså är metod (b) fortfarande att föredra. Ytterligare en tänkbar aspekt är av mätteknisk natur; kanske klarar inte
mätutrustningen av alltför stora värden, vilket blir fallet med metod (b) där
objekt vägs tillsammans. I sådant fall gäller metod (a).
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
[=
123
6. Statistikens grunder
6.3
Data och modell
I kapitel 4 och 5 användes ofta formuleringar av exempelvis typen ”antag att
variabeln X är normalfördelad”, och parametervärden för ju och g angavs.
När verkliga data uppträder, hur kan man då veta vilken fördelning som kan
anses råda (fördelningsfamilj och dess parametrar)? Att svara på denna typ
av frågor är inte enkelt, och någon enkel standardmetodik för att finna svar
är inte tillgänglig. Vi skall här kort resonera kring problemen.
I vissa sammanhang finns kunskap inom det aktuella området. Man har
t.ex. under årens lopp noterat att en viss fördelningstyp är lämplig. Om en ny
typ av experiment genomförts finns det dock anledning att undersöka lämplig
fördelning. Detta kan väsentligen göras dels genom visuella tekniker, vilket
vi kort skall beröra nedan, dels genom s.k. anpassningstest (t.ex. olika typer
av X”-test) vilket dock faller utanför bokens ram.
6.3.1
Fördelningens typ
I kapitel 4 infördes fördelningar av diskret resp. kontinuerlig typ. Beroende
på datas karaktär är ofta första steget att välja en familj från en av dessa typer.
Då slumpvariabeln, vilken vi observerar i stickprov, modellerar antal av
något slag är en diskret fördelning ett naturligt val. Binomialfördelningen är
knuten till experimentets natur: att delförsöken sker oberoende och kan utfalla på endera av två sätt. Man är ofta intresserad av att skatta parametern p
och antalet försök n är fixt. Poissonfördelningen används ofta för att model-
lera sällsynta händelser (små talens lag). För en slumpvariabel X > Po(m)
gäller E[X] = V[X], så motsvarande identitet bör gälla, åtminstone med god
approximation, för stickprovsstorheterna I respektive s?.
För kontinuerliga fördelningar kan man notera spridningen hos data: Är
den symmetrisk kring medelvärdet? Förekommer endast positiva värden (om
t.ex. väntetider eller tider till fel hos utrustning studeras)? Symmetriska data
kan (men behöver inte) antyda normalfördelning. Exponentialfördelningen
är ett ofta använt val för modellering av tider. I sammanhang där styrka och
hållfasthet hos material studeras är exempelvis Weibull- eller Gumbelfördelningarna ofta aktuella och goda beskrivningar av verkliga förhållanden.
6.3.2
Visuella tekniker
I avsnitt 2.3 behandlades några tekniker, vilka återigen blir aktuella, exempelvis histogram och lådagram. I fysiken används stundom linlog- och loglog124
& FÖRFATTAREN OCH STUDENTLITTERATUR
6.3. Data och modell
papper vid undersökning av empiriska data och intresse finns att finna någon relation mellan de ingående variablerna. I stokastiken har man utvecklat
s.k. sannolikhetspapper vilka kan användas för att få en uppfattning om fördelningsfamilj hos data. Traditionellt plottades observationerna in för hand i
speciellt utformade papper, men nu används statistisk programvara.
Besläktat med denna teknik är en s.k. Q-Q-plot som kan användas på olika sätt. En sådan konstrueras genom beräkning av kvantiler, ett arbete som
utförs av datorprogram. Dels kan man undersöka om två uppsättningar observationer kan anses härstamma från samma fördelning, dels kan man undersöka en serie med observationer mot en tänkt familj av fördelning (ofta
normalfördelningen). I det senare fallet jämförs då originalobservationerna
med motsvarande uppskattade kvantiler från normalfördelning och avvikelser från en tänkt rät linje observeras. En fördel med Q-Q-plotten, jämfört med
t.ex. ett histogram, är att beteendet i fördelningens s.k. svansar kan undersökas, dvs. låga respektive höga värden. Vidare detaljer om Q-Q-plottar kan
man finna i avsnitt 6.6, inklusive R-kod.
Det bör dock understrykas, att figurer av detta slag inte kan ”bevisa” eller ”godkänna” normalfördelning, eller någon annan fördelningstyp, hos data.
Figurerna kan främst indikera att en tänkt fördelning inte är passande, alternativt att den tänkta fördelningen möjligen är passande.
I följande exempel återvänder till exempel 1.4 där hårdmetall för borrkronor studerades, närmare bestämt två typer av material (kallade A och B).
Exempel 6.4 I histogrammet i figur 2.6, sid. 23, fann vi att brottsegheten
för material B hade en förhållandevis symmetrisk spridning. En symmetrisk
fördelning innebär inte med automatik att normalfördelningen är lämplig, så
låt oss studera saken närmare genom att rita data i en Q-Q-plot.
I figur 6.1 finner vi på lodräta axeln skalan för originalobservationerna,
på vågräta axeln kvantiler för till data anpassad normalfördelning. De tio observationerna ansluter ganska väl till en tänkt linje, normalfördelningen är
inte en orimlig modell. För data gäller att Zz = 10.88, s? = 0.056, så en tänkbar modell skulle kunna vara att brottsegheten beskrivs av en slumpvariabel
X N(10.88, 0.056).
Notera dock att vi har relativt få observationer, och att man (om möjlighet
finns) gärna studerar fler mätserier. Det kan finnas fördelningsfamiljer som
passar bättre än normalfördelningen. Vad som i matematisk mening menas
med ”bättre” hamnar dock utanför bokens ram.
Hg
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
125
10.8
10.6
Sample Quantiles
11.0
212
6. Statistikens grunder
I
-1.5
T
-1.0
T
-0.5
I
0.0
T
0.5
T
1.0
I
1.5
Theoretical Quantiles
Figur 6.1: Brottseghet för material B, ritat i en Q-Q-plot.
Ofta används vid statistiskt utvecklingsarbete simulering som ett verktyg.
Med datorns hjälp kan man producera slumptal från en fördelning som specificeras, dels i form av familj, dels i form av parametrar. Teori och metodik för
simuleringsbaserad statistik har utvecklats enormt de senaste decennierna.
Detta i kombination med visualisering är viktigt vid modelleringen.
Som illustration betraktar vi nu en situation med konstgjorda data, vilka
åstadkommits med simulering.
Exempel 6.5 Vi simulerar två stickprov, dels 20 observationer från N(25, 25),
dels 20 observationer från en exponentialfördelning med väntevärde 25. Fördelningarna har alltså samma väntevärde.
I figur 6.2 visas dels histogrammen för simulerade data (överst), dels motsvarande Q-Q-plottar där i bägge fallen jämförelse sker med normalfördelning. Observationerna som vi simulerade från en normalfördelning verkar
ansluta rimligt till en tänkt linje (vänster), medan avvikelse i form av en kurvatur är tydlig för data simulerat från exponentialfördelningen (höger). Detta
indikerar här tyngre svansar hos exponentialfördelningen, jämfört med nor-
malfördelningen.
126
Et
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
6.3. Data och modell
Normalfördelade obs
Exponentialfördelade obs
=
SZ
2S
S
3
o
NN
Oo
Oo
bam]
Oo
3
Oo
SoOo
S
3Oo
I
I
I
I
I
'
I
10
15
20
25
30
35
40
3
Oo
I
I
0
20
Normalfördelade obs
Lok
'
I
I
1
40
60
80
100
Exponentialfördelade obs
NN
N
o
Oo
Oo
[an
-
I
NN
;
1
T
T
15
20
T
25
T
30
Data
T
35
NN
|
0
T
20
T
40
T
60
T
80
Data
Figur 6.2: Simulerade observationer: normal- resp. exponentialfördelning, bägge
med väntevärde 25. Histogram (övre figurer) samt Q-Q-plottar (undre figurer), där
vågrät axel motsvarar observerade data, lodrät axel motsvarande i den anpassade
fördelningen.
I exempel 6.5 med analys av simulerade data hade vi kontrollen och hade själva bestämt slumptillhörighet. I verkligheten kommer inte data med någon typ
av innehållsförteckning, utan man är verkligen tvingad att göra en preliminär undersökning för att fastställa lämplig fördelningsfamilj (som vi gjorde i
exempel 6.4).
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
127
6. Statistikens grunder
Exempel 6.6 Vid konstruktion av vindkraftverk är det viktigt att ha kännedom om vindens variation på den aktuella platsen. Insamlade data i kombination med lämpliga stokastiska modeller är ett användbart hjälpmedel.
Vi ska här närmare studera vindhastigheter vid två platser i Sverige: Falsterbo och Uppsala. Mätobservationer har tillhandahållits av SMHI och vi studerar i bägge fallen data för perioden 2010-01-01 till 2011-12-31. Vindhastigheten (i m/s) registreras var tredje timme.
Data ritas i olika typer av Q-Q-plottar och en Weibullfördelning kan vara ett tänkbart alternativ. Vidare är det bland fackfolk inom denna bransch
känt, att Weibullfördelningen ofta är en lämplig fördelning för att modellera
vindhastighet. Vi presenterar här täthetsfunktionen för en Weibullfördelning
med två parametrar, a (som kallas skalparameter) och & (som kallas formparameter):
fle)= 5 (FY
a Na
Motsvarande fördelningsfunktion blir
el
a
F(rt) =1- e-(z/&"
r>0.
Vi har alltså, ledda av inledande dataanalys och erfarenhet från området, gjort
ett antagande om fördelning. Nästa steg blir att skatta parametrar. Här får användas speciella metoder som inte berörs i denna bok, och som ofta innefattar
iterativa beräkningssteg. En sådan metod ger följande skattningar:
Plats
Falsterbo
Uppsala
A
ä
7.30
k
2.15
— 2.27
1.57
Formparametern k antar för vindhastigheter vid de flesta platser i norra Europa ett värde mellan 1 och 3, ofta runt 2, så vår skattning är inte orimlig.”
I figur 6.3 visas för de två platserna dels för varje plats i samma figur dels
täthetsfunktionen med skattade parametrar insatta, dels histogram över ori-
ginalobservationerna. Histogrammen har skalad relativ frekvens på lodräta
axeln, vilket underlättar jämförelsen med respektive täthetsfunktion.
Avslutningsvis använder vi den skattade fördelningen för att beräkna sannolikheter. Introducera t.ex. slumpvariabeln X: vindhastighet (m/s) i Falsterbo. Sannolikheten för en vindhastighet högre än 10 m/s i Falsterbo ges då av
P(X > 10) = 1 — Fx(10) = e"(10/7-30)7" = 0,13.
”De använda skattningsmetoderna förutsätter oberoende observationer. I en mer sofistikerad modell bör man studera eventuella tidsberoenden hos data, som i detta fall är en tidsserie.
Sådan metodik faller dock utanför bokens ram.
128
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
L
0
Skalad relativ frekvens
L
L
010
L
0.05
000
Skalad relanv frekvens
6.4. Skattningar av varianser
Vindhasighet (m/s)
Vindhasighet (m/s)
Figur 6.3: Vindhastigheter, histogram från mätdata samt skattad Weibullfördelning.
Vänster: Falsterbo. Höger: Uppsala.
6.4
Skattningar av varianser
Man kan visa att &? = s?,2 med s? som definierats i kapitel 2,
S
2-
1
=
n
)
(ri — Z)”,
oo
AV
i=1
är en väntevärdesriktig skattning av variansen &s?. Den intresserade finner
räkningarna i avsnitt 6.4.3. Man får här en förklaring till varför högerledets
faktor 1/(n — 1) figurerar.
Det visar sig dock, att medan stickprovsvariansen är en väntevärdesriktig
skattning av den sanna variansen, är standardavvikelsen beräknad från da-
ta inte en väntevärdesriktig skattning av den sanna standardavvikelsen, dvs.
med estimatorn
följer att E[S] &£ a.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
129
6. Statistikens grunder
6.4.1
Sammanvägd variansskattning
Det är inte orimligt att man ställs inför flera, oberoende stickprov. Låt oss för
enkelhetens skull anta att vi har tre stickprov, observationer från N(ju, 07),
N(ju2, 03) resp. N(ju3, 03) med ni, na resp. n3 observationer. Ofta antages
variansen vara densamma i alla stickprov; kanske har samma mätutrustning
använts vid samtliga mättillfällen. Det kan då vara av intresse att beräkna en
sammanvägd variansskattning (engelska: pooled). Man kan visa att
+ (na — 1)s3å + (n3 — 1)s3
gös (nå (ni— 1)s87
— 1) + (n2 — 1) + (n3 — 1)
(6.6)
är en väntevärdesriktig skattning av s?. Uttrycket generaliseras enkelt till fler
än tre stickprov.
Exempel 6.7 Vid fyra mättillfällen, som anses oberoende, har man uppmätt
diametern (mm) hos en viss typ av skruvar enligt tabellen nedan. Mätningarna
anses normalfördelade.
Tillfälle 1
Tillfälle 2
28, 32, 27, 30, 29, 25
28, 30, 30, 33, 32, 31
Tillfälle 3
Tillfälle 4
31, 30, 28, 27, 30
27, 33, 30, 29, 30
Målet är att finna en så bra skattning som möjligt av variansen hos denna skruvtyp. Vi använder ekv. (6.6). Man finner med ekv. (2.2) varianserna
81 = 5.9, så = 3.1, så = 2.7, så = 4.7. Med ni = na = 6, n3 = na = 5 följer
sp = 4.14
P
EC
.
.
Om man inte beaktat att mätningarna skett vid olika tillfällen utan slagit samman alla data (22 observationer) och skattat os? sedvanligt med ekv. (2.2) er-
hålls 5? = 4.26, vilket dock är en sämre skattning i detta fall.
6.4.2
=
Statistisk analys av olika variationskällor
Vi har i kapitel 5, med start i exempel 5.3, studerat modeller för mätfel. Ett vik-
tigt område i mer avancerade statistiska modeller är att matematiskt beskriva
olika variationskällor. I viss litteratur talas om felkomponenter.
Antag att man med en viss mätteknik utför n mätningar på vart och ett
av k objekt, t.ex. fukthalt hos träplattor. Man kan tänka sig att variation finns
130
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
6.4. Skattningar av varianser
dels mellan plattorna, dels inom plattorna. En statistisk modell för resultatet
Y;j av mätning j inom platta i kan skrivas som
Y;,y =a+X;+
E;j,
i=1,...,k,
j =1,...,n,
där X; anger variation mellan plattor, E;; anger variation inom plattor och a
tolkas som förväntat värde av fukthalten. Man antar att E[X;] = E[E;;] = 0.
Inför beteckningarna
OMellanMellan = V[Xi]tja
ohomInom = V[Ey]29
och antag att variationskällorna är oberoende. Räkneregler för varianser från
kapitel 5 (ekv. (5.2), ekv. (5.5)) ger
2
2
V[Y;] = Mellan + inom:
Med användning av ekv. (5.6) kan man visa att variansen beräknad från k
plattors medelvärden ges av
2
2
I Mellan T
I följande exempel visar vi hur sä.
Ijnom
to
(6.7)
Och inom kan skattas från data.
Exempel 6.8 Fukthalten i procent hos fyra leveranser torrflis uppmättes,
med 6 mätningar för varje parti. Här gäller alltså & = 4, n = 6, med beteckningar enligt tidigare diskussion. Medelvärden och standardavvikelser beräknades och redovisas i följande tabell:
Leverans A
LeveransB
Leverans C
Leverans D
Medelvärde
0.17
0.14
0.22
0.19
Standardavvikelse
0.04
0.03
0.02
0.02
En skattning sinom av den sammanvägda variansen inom leveranser beräknas
med ekv. (6.6) som
2
FAROR
0.04?(6 — 1) + 0.03?(6 — 1) + 0.02?(6 — 1) + 0.02?(6 — 1)
=
0.000825.
(6 — 1) + (6 —1)+(6—1)
+ (6—1)
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
131
6. Statistikens grunder
Medelvärdet av de fyra medelvärdena för leveranser ges av (0.17 + 0.14 +
0.22 + 0.19) /4 = 0.18, och vi finner därmed variansen för medelvärdena
8
=
1
Bm] [(0.17 — 0.18)? + (0.14 — 0.18)? + (0.22 — 0.18)”
+(0.19 — 0.18)”] = 0.001133.
Med ekv. (6.7) finner vi en skattning SMA
av variationen mellan leveranser:
SMellan = 8” — GSinom = 0.0009955.
Ofta är man intresserad av att jämföra varianserna med olika metoder, inte
minst som kvalitetsmått, vi hänvisar till speciallitteratur. Ett grovt mått är att
undersöka kvoten sun /Sinom = 1.21. Variansen mellan leveranser är alltså
i detta exempel 217 högre än variansen inom varje leverans.
I de statistiska specialområdena försöksplanering och variansanalys stu-
deras modeller av detta slag i detalj, och man talar om statistiska modeller
med slumpmässiga effekter.
6.4.3
=
Väntevärdesriktighet hos variansskattning
Låt x1,..., Zn Vara oberoende observationer från en slumpvariabel X med
väntevärdet ju och variansen &?. Vi vill visa att
E[S”] = el
å
Vx,
- >] =09".
(6.8)
Kvadratsumman kan skrivas om enligt
n
n
j=1
j=1
2(Xj- XV ="9 (Xj- KH) n(X
132
&
FÖRFATTAREN
pp).
OCH
STUDENTLITTERATUR
6.5. Kombination av skattningar: ett exempel
Ekv. (6.8) kan då
med definitionen av varians, ekv. (4.3), samt resultatet i
ekv. (5.6), skrivas
E[S?]
n
= el
n—
(06-10
n(X -)]
j=1
dp 1 (53 El; = mf] nE[(X = 1)
j=1
= AA (VA -nvi)
och väntevärdesriktigheten är därmed bevisad.
6.5
Kombination av skattningar: ett exempel
Som nämnts tidigare kan det finnas flera alternativ med väntevärdesriktiga
skattningar. Vid teoretiska överläggningar beräknas varianser hos de föreslagna estimatorerna. I följande exempel studerar vi egenskaper hos linjärkombinationer av skattningar. Observera att de räkneregler som används presenterades i kapitel 5, väsentligen ekv. (5.1-5.2).
Exempel 6.9
Låt d, och da vara två väntevärdesriktiga skattningar av para-
metern 0. Vi ska undersöka skattningen
03
ad
+(1—
a)da,
där 0 < a £1. Man kan alltså uppfatta Ö3 som en viktning av Ö, och 02.
(a) Visa att 03 är en väntevärdesriktig skattning av 0.
(b) Antag att d, och &2 är oberoende och att v[0]
= 07 v[62] = 03. Hur
skall konstanten a väljas för att minimera V [03] ?
(a) Väntevärdesriktigheten hos Öv och 02 innebär att E [01]
Det följer att
E[63]
= 0, E [02]
=
Ef[abi +(1— a)62]
= aE[61] + (1 — a)E[62]
=
ab + (1 — a)0 = 0,
= 0.
A
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
133
6. Statistikens grunder
dvs. väntevärdesriktighet.
|
(b) Ett uttryck för variansen av 03 fås med hjälp av ekv. (5.2)
Vv[ö3]
=
V[ad, + (1 — a)$2] = a”V [0] +(1-— a)” V [02]
=
a"oi +(1-— a)”0.
För att minimera variansen söker vi extremum genom att derivera det erhållna uttrycket och söka nollställe
USER
uu
2
2
aa Vl6s] = 2a01 — 2(1 — a)oå = 0
vilket leder till
Qa=
01 2
tt 03VA
Kontrollera själv att detta är ett lokalt minimum.
lika.
6.6
Speciellt finner vi att då 07 = 03 gäller a = 1/2, dvs. skattningarna viktas
=
Mer om Q-Q-plottar
Vi beskriver i detta avsnitt i mer detalj bakgrunden till att Q-Q-plotten kan
användas för bedömning av normalfördelning hos data. Antag att vi har observationerna X1,.-..,Zn. I fokus står det s.k. ordnade stickprovet
T(1) 5 T(2) St
< T(n)>
där alltså (1) är den till värdet lägsta observationen, och x(,y, observationen med högst värde. Dessa ordnade observationer plottas mot kvantiler från
N(0, 1)-fördelningen på följande sätt: För varje värde
Pi =
2 — 0.5
ss
n
.
fn
finn det värde q; som uppfyller P(Z < q;) = P(q:;) = pi. Om x(;y uppritas
mot q; för i = 1,...,n bör man få en rät linje.
134
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
6.7. Övningsuppgifter
R-kod
Vi upprepar här analysen från exempel 6.4, och skapar enligt principen ovan
en Q-Q-plot i R. Rutinen qnorm beräknar kvantilvärden för en N(0, 1)-fördelning, och sort sorterar observationerna i ökande ordning för att ge det ordnade stickprovet:
SR
EULL:03:10783;11:18;710:97,11:21710:62
10:97 510-247;
> +10.71,10.83)
> n = length(x)
> p= ((1:n-0.5)/n
>
[1]
0.05
[1]
-1.64
0.15
> q = qnorm(p)
0.25
-1.04
> plot(qg,
0.35
-0.67
sort(x))
0.45
0.55
0.65
0.75
0.85
0.95
-0.39
-0.13
0.13
0.39
0.67
1.04
1.64
Prova dessa kommandon! Resultatet skall bli som i figur 6.1. Vanligtvis i R
används dock färdiga rutiner för ändamålet, och om väl en datavektor gjorts
tillgänglig (här, x) skriver man helt enkelt som följer för att rita punktsvärmen
och en anpassad linje som hjälp för ögat:
> qaqnorm(x)
> gqline(x)
6.7
Övningsuppgifter
601. Ett företag vill undersöka om en ny produkt slagit väl ut bland kunderna. Ur
den stora populationen av kunder dras slumpmässigt 100 personer. En fråga
gäller produktens prisvärdhet. Av de tillfrågade har 22 klagomål, medan 78 är
nöjda.
(a) Inför lämplig modell och parameter och uppskatta hur stor andel av populationen kunder som har klagomål.
(b) Bestäm osäkerheten hos skattningen i (a) genom att beräkna dess stan-
dardavvikelse och tillhörande medelfel.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
135
6. Statistikens grunder
602.
Man har tre observationer ri, x2, r3 från en fördelning med väntevärde ju och
varians &”. Visa att estimatorn
a.
H=
1
3(0X1
- 3X3
+ X3)
ger en väntevärdesriktig skattning av ju.
603.
Låt £1, C2,..-; T7 vara ett stickprov från en slumpvariabel X med E[X] = ju
och V[X] = o?. Betrakta skattningen av &? enligt
52
=
z3 - z8 — (2 + x6)/2
:
|
Är denna skattning väntevärdesriktig?
604.
Låt Ii,..-, r12 vara observationer från N(ju,0?). För att skatta j används
estimatorn
3
1
X =
(K+
+ Xi).
Från data har man p = z = 50 samt & = s = 3.5. Beräkna medelfelet för
skattningen av ju.
605.
Ett instrument antages mäta med ett slumpmässigt mätfel som är normalfördelat med väntevärdet 0 och den okända variansen &?. Man har genomfört ett
antal oberoende mätningar på prov från tre olika homogena lösningar med
resultat som följer (mg/l):
Lösning 1 = 27.3,26.9, 27.5, 26.3
Lösning 2
—23.5,23.4, 24.9, 24.1, 23.3, 25.3, 25.0
Lösning 3
20.8,22.0
Ange en punktskattning av a.
606.
Man vill uppskatta arean av ett område i form av en kvadrat med den okända
sidlängden a. Sidan mäts två gånger och vi betraktar mätningarna som obe-
roende slumpvariabler X, och X2, med E[X;] = a, V[X;] = o?, i = 1,2. Tre
ingenjörer, Anna, Beda och Cecilia, diskuterar olika strategier för att skatta
arean genom att kombinera mätningarna.
(a) Anna föreslår att sidlängden skattas genom att ta medelvärdet av de
två mätningarna, därefter kvadreras den skattade sidan. Detta leder till
estimatorn
Ti =
(£ fia ) i
ma
Undersök väntevärdesriktighet.
136
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
6.7. Övningsuppgifter
(b) Beda föreslår att arean skattas en första gång genom att kvadrera den
första mätningen. Arean skattas sedan ytterligare en gång genom att
kvadrera den andra mätningen. Arean skattas slutligen genom medelvärdet av dessa två skattningar, med estimatorn
T. OXIE X2
Zz
2
Undersök väntevärdesriktighet.
(c) Cecilia anser att arean kan skattas genom att multiplicera de bägge mätningarna, med estimatorn
T3 = Xi: X2.
Undersök väntevärdesriktighet.
(d) Vilket alternativ är att föredra?
607. Två ingenjörer gör en statistisk undersökning för att skatta väntevärdet ju i
en viss fördelning med den kända standardavvikelsen &. Adam har ni observationer, Bertil na observationer. De vill vikta ihop sina resultat, dvs. en
skattning
p= kkp + (1— k)jä2
där & är en konstant mellan 0 och 1.
Adam föreslår att & = 0.5, dvs. de skall ta medelvärdet av sina resultat. Bertil
menar att det är klokare att ge större vikt åt det mätvärde som är baserat på
flest observationer.
(a) Hur skall konstanten k väljas för att minimera variansen för skattningen
ju? Ledning. Skriv upp ett uttryck för variansen, sök extrempunkt genom
att i detta derivera med avseende på k.
(b) För det uttryck som härleddes i (a), beräkna värdet på k för några olika
uppsättningar av ni och na, t.ex. ni = n2 = 10; ni = 10,na2 = 20;
ny = 20; n2 = 10; ni = 100, na = 200.
Sammanfattning kapitel 6 &
Övningar kapitel 6 Q
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
137
Kapitel 7
Konfidensintervall
I kapitel 6 införde vi begreppet punktskattning och studerade hur observerade data används på bästa möjliga sätt för att finna värden på parametrar
i fördelningar. En punktskattning är dock i någon mening alltid osäker, den
är ju (av naturliga skäl!) baserad på just de data som fanns tillgängliga. Medelfelet för en punktskattning ger information om skattningens osäkerhet.
Ytterligare information kan fås genom att beräkna s.k. konfidensintervall.
I detta kapitel visar vi hur konfidensintervall kan beräknas för skattningar
av väntevärdet j i en normalfördelning (avsnitt 7.3) samt parametern p i en
binomialfördelning (avsnitt 7.4). I exempel visas hur intervallen kan användas
för beslutsfattande. En vanlig situation för användning av statistisk metodik
är jämförelse av två datamaterial (se t.ex. exempel 1.4, sid. 3). Detta diskuteras
i avsnitt 7.5—7.6.
7.1
Inledande exempel
Vi inleder med ett exempel att ha i minnet när de mer generella dragen hos
konfidensintervall inom kort skall presenteras.
Exempel 7.1 Ien tillverkningsindustri förpackas produkten i paket om (förväntat) 500 g. En ny utrustning i produktionslinjen har nu installerats, och
man vill studera om medelvikten hos paketen fortfarande kan anses vara
500 g. En provserie körs, där man hos 25 paket finner medelvärdet 498 g.
Är detta tillfredsställande?
Vi introducerar en enkel stokastisk modell. En slumpvariabel X införs,
med innebörden ”vikt hos ett slumpvis valt paket”. Antag att X -— N(ju, o?).
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
139
7- Konfidensintervall
Antagande om fördelning sker baserat på tidigare erfarenhet, kombinerat
med användning av Q-Q-plottar, etc. Parametern & anses vara känd, o = 2,
medan j är okänd och skattas från data.
En punktskattning ges från data som j = Zz = 498. Målet är att komplettera fi med ett beräknat intervall. Detta kommer att innehålla det skattade
värdet ji = 498, och frågan är, om värdet som efterfrågas av kvalitetsskäl,
500 g, återfinns däri, och med vilken säkerhet (sannolikhet) vi kan uttala oss.
Em
7.2
Allmänt om konfidensintervall
Syftet är att hitta ett intervall, dvs. ett område längs en tallinje. Man önskar
att detta intervall med stor säkerhet (vanligtvis 952, 992) skall innehålla den
okända parametern, här betecknad med 0. En allmän definition följer:
Definition 7.1 Konfidensintervall.
X1, X92,..., Xn så att
Låt A och B vara funktioner av
P(A<9<B)=1-20a.
Intervallet [A, B] säges då vara ett 100(1 — &) procent konfidensintervall
för parametern 0. Intervallets konfidensgrad är (1 — a).
Notera att intervallets gränser A och B är slumpmässiga. Målet i kapitlet
är att finna beräkningsbara uttryck för dessa i våra standardsituationer från
kapitel 6 (inferens kring parametrarna ju i normalfördelning resp. p i binomialfördelning). Speciellt studerar vi intervall av symmetrisk typ, dvs.
P(0 < A(X1,...s Xn)) =>
P0 2 B(X1,..: Xn)) = 5
De intervall som kommer att beräknas är observationer av A och B, dvs.
A(x1,.-.-, Zn) Och B(x1,.-.-, Zn) baserade på våra mätningar.
Konfidensgraden (1 — &) tolkas som att om försöket (tänks) upprepas
många gånger, förväntas 9572 av konfidensintervallen innehålla det sanna
värdet (vid 952 konfidensgrad, med & = 0.05). I figur 7.1 betraktar man
50 stickprov om 30 observationer och 957--konfidensintervall för parametern
140
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
7.2. Allmänt om konfidensintervall
har beräknats med de uttryck som kommer att presenteras nedan. Observationerna kommer från en simulering av fördelningen N(25, 4), man vet alltså
i detta numeriska slumpmässiga experiment att det sanna parametervärdet är
25. Från figur 7.1 kan vi lägga märke till bl.a. följande:
« Den slumpmässiga spridningen varierar från stickprov till stickprov —
stickprov 3 får t.ex. ett bredare konfidensintervall än stickprov 2 pga.
en högre spridning hos data.
. Vissa konfidensintervall missar det sanna parametervärdet, i denna si-
mulering stickproven 4, 27 samt 43.
« Med
&
=
0.05, förväntar man
att 50 - 0.05
=
2.5 intervall missar
tl I ln
N
WA
Parametervärde
parametervärdet (i vårt fall missade 3 intervall av 50).
0
5
10
15
20
25
30
Simulerat stickprov om 30 obs.
3
Figur 7.1: Konfidensintervall vid 50 stickprov om 30 observationer (simulering). Sant
parametervärde: 25.
Exempel 7.2 Vi återkommer till exempel 7.1. Antag att någon beräknat ett
konfidensintervall med 952 konfidensgrad, [490, 496]. Ett sådant intervall
skulle innebära att utrustningen inte håller måttet, eftersom målvikten, 500 g,
inte ligger i intervallet. Ett annat intervall, [490, 510], skulle innebära att situationen är under kontroll. I de följande avsnitten ges beräkningsbara uttryck
för intervallens ändpunkter, baserade på tillgänglig information. Den matematiska bakgrunden finns i kapitel 5.
Vi bör redan här tillägga, att valet av konfidensgrad (0.95, 0.99 etc.) i verk-
liga sammanhang bestäms i förväg. Av de uttryck för A och B i definition 7.1
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
141
7- Konfidensintervall
som kommer presenteras framgår att i en given situation blir konfidensintervallet bredare ju högre konfidensgraden är. Konfidensintervall med så pass
hög konfidensgrad som exempelvis 0.999999999 är därför ointressanta — de
blir för långa. Som ett extremt exempel, skulle intervallet [100, 900] vara till
praktisk nytta?
2
Detta avsnitt avslutas med ett citat av den amerikanske statistikern C. Eisen-
hart, vilket kan motivera oss att studera resten av detta kapitel:
A quantitative result without any kind of uncertainty
estimate is not only useless, it is dangerous because
it can be misused.
7.3
Konfidensintervall för väntevärdet
Nedan kommer vi först att, med hjälp av resultat från kapitel 5, härleda intervall med exakt konfidensgrad. Under mindre stränga förutsättningar kan
man för stora stickprov beräkna intervall med approximativ konfidensgrad
(alternativ terminologi, approximativa intervall), se avsnitt 7.3.2.
7.3.1
Intervall med exakt konfidensgrad
Betrakta ett oberoende stickprov 1, ...,z, med observationer av variabler
X1,--- > Xn från N(ju, 0?) där & anses känd. Vi har tidigare härlett att för
=
X
=
1
(Aa
+:
+
Xn)
gäller att
X = N(u,o”/n)
(se ekv. (5.6)), kombinerat med resultat för normalfördelningen). Det följer
vidare att
X —-
o/vn
142
N(0, 1)
& FÖRFATTAREN OCH STUDENTLITTERATUR
7.3. Konfidensintervall för väntevärdet
och detta kommer att utnyttjas när vi nu härleder ett konfidensintervall för
ju. Med definitionen av kvantil för normalfördelning följer nämligen
1-Aa
=
P(=A,,a
=
P(-Aaj2o/vVn
=
ST
— HH
< Aa/2)
S X-
P(X — Mjpo/vVn << pu
Funktionerna ÅA och B
us
Aaf20/Vn)
X+Ajpo/vn).
i definition 7.1 har alltså här utseendena
A(X1,..sXn)
=
B(X1,...,Xn)
=
1
(K+
1
(A
Je
ÅA A/2 /n”
+Xa)
Fota)
+ AT
co
Det observerade konfidensintervallet för parametern ju ges av
[z
-
Aaf2o / VN,
TT +
Mao
/ vn].
Sammanfattningsvis kan vi använda ekv. (7.1) nedan för att beräkna ett kon-
fidensintervall I,, för ju:
Konfidensintervall
Z1,---> Zn
för jp (o känt). Betrakta ett oberoende stickprov
Med observationer av variabler X1,..., Xn från N(ju, 0”) där
g anses känd.
Ett konfidensintervall för j med konfidensgrad (1 — &) ges om & är känt
av
In = [Z— AajaD, E+ Ay2D]
(7)
där D = o/y/n.
Lägg märke till att 2/y/n är standardavvikelsen för skattningen, D[X]
=
o/v/n (jämför ekv (6.4)). Vi kommer under kapitlets gång presentera konfi-
densintervall för olika situationer (men oftast inte härleda dessa). Intervallens
allmänna struktur är då som regel av följande typ, där 0 är en parameter av
intresse och Ö en punktskattning vars motsvarande estimators standardavvikelse (eller i förekommande fall, medelfel) anges med d:
[0 + kvantil - d] .
Numeriska exempel följer för den nu genomgångna situationen.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
143
7- Konfidensintervall
Exempel 7.3 Vi kan nu reda ut problemet med paket med förväntad vikt
500 g. Baserat på de antaganden som gjordes i exempel 7.1 och tillgänglig
information (n = 25, o = 2, I = 498) finner man, med A0.025 =
1.96, ett
konfidensintervall med 957 konfidensgrad för väntevärdet ju, dvs. förväntad
vikt i ett paket:
I, = [498 + 1.96 - 2/V25] = [497.2, 498.8].
Detta konfidensintervall kan tolkas, utifrån problemställningen. Värdet 500
ligger utanför det beräknade intervallet, så med konfidensgraden 0.95 har vi
statistiskt belagt att målvikten inte uppfylls.
[2]
I den härledning som gjordes ovan och resulterade i ekv. (7.1) utgick vi från att
observationerna var normalfördelade och att parametern & var känd. Oftast
är dock & okänd och dess naturliga skattning ges av
1
s=
(4
n
1/2
(iso
—J >
FN )
z)
.
1=1
Betrakta slumpvariabeln, i detta statistiska sammanhang, estimatorn,
T=
X —- pu
7;
Det kan visas att den tillhör den s.k. Students t-fördelning eller kort och gott
t-fördelningen. Vi kan i detta fall skriva T > t(n — 1); t-fördelningen har en
parameter vilken här antar värdet n — 1. I figur 7.2 visas täthetsfunktioner för
t(1), t(9) samt N(0, 1). För stora värden på n, dvs. större stickprov, närmar sig
t-fördelningen en N(0, 1)-fördelning (den förra har dock, som synes, tyngre
svansar).
Ett konfidensintervall i fallet då & är okänt kan formuleras med hjälp av
t-fördelningen (för mer utförlig diskussion, se t.ex. boken Stokastik av Alm &
Britton).
Konfidensintervall för j (o okänt). Betrakta ett oberoende stickprov
Z1,.---, Zn Med observationer av variabler X1,..., Xn från N(ju, 0?) där
& anses okänd och skattas med s.
Ett konfidensintervall för j med konfidensgrad (1 — &) då & är okänt ges
av
I,
TR
E
-— tasaln — l)d,
T+
tan
— 1)d],
(7.2)
där d = s/y/n.
144
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
7.3. Konfidensintervall för väntevärdet
== =t-förd n=2
0.4
==
—
0.35t
:t-förd n=10
N(0,1)
0.3F
0.25
0.2
0.15
0.1
0.05T
Figur 7.2: Täthetsfunktioner för t(1), £(9), N(0, 1).
I uttrycket för intervallet ingår alltså medelfelet d[j] = s/,/n; man får plugga
in skattningen s eftersom & är okänt. Med t,ja(n — 1) avses a«/2-kvantilen
för en t-fördelning med parametern (n — 1), se tabell 3 i slutet av boken.
Exempel 7.4 I ett experiment studerades passningstider för mobiltelefoner.
För åtta exemplar av en viss modell fann man följande observationer (timmar):
210, 214, 195, 190, 218, 202, 207, 197
Vi antar att dessa kommer från en normalfördelning. Standardavvikelsen är
okänd och skattas från data: 5 = s = 9.79. Vidare beräknas z = 204.125.Från
tabell 3 finner vi kvantilen t9.025(7) = 2.37 och därmed följer intervallet
I.
Oo FÖRFATTAREN
[204.125 — to.025(7)9.79/V8, 204.125 + to.025(7)9.79/V8]
[195.9, 212.3]
OCH
STUDENTLITTERATUR
145
7- Konfidensintervall
7.3.2
Intervall för stora stickprov
I avsnitt 7.3.1 antog vi att observationerna kom från en normalfördelning. Om
det finns skäl att tro att så inte är fallet kan dock intervall med approximativ
konfidensgrad för väntevärdet i en fördelning beräknas, vilket motiveras av
centrala gränsvärdessatsen: X blir approximativt normalfördelad (se sid. 109).
För dessa konfidensintervall krävs alltså stora stickprov. Nedan anges uttryck
för konfidensintervallet.
Intervall för ju (stort stickprov). För stora stickprov ges ett konfidensin-
tervall för väntevärdet med approximativ konfidensgrad (1 — a) av
I, = [Z—- Aajod, Z + Aajod],
(7-3)
där d = s/yn.
Exempel 7.5 I figur 7.3 visas ett histogram för observationer 1, -..., 200
av någon slumpvariabel X med för oss okänd fördelning. Av figuren att dö-
ma kanske normalfördelningsantagande är mindre lämpligt, men 200 observationer får betraktas som ett stort stickprov och vi kan därför beräkna ett
konfidensintervall för väntevärdet ju = E[X] med hjälp av ekv. (7.3).
Med tillgång till data beräknas z = 2.49 och s = 1.18 och ett konfidensintervall med approximativ konfidensgrad 957 följer från ekv. (7.3) som
I, = [2.49 + 1.96 - 1.18/ 200] = [2.35, 2.63].
7.3.3
Konfidensintervallets längd
Antag normalfördelade observationer och given standardavvikelse, dvs. den
situation som ger konfidensintervallet i ekv. (7.1). Konfidensintervallets längd
L ges då av
L
=
2Xa/2
Oo
dvs. beror av stickprovsstorleken n och konfidensgraden a. Ett långt intervall
ger mindre information än ett kort. Beslutsfattaren får avgöra hur långt ett
konfidensintervall önskas vara och vilken konfidensgrad det minst skall ha.
146
& FÖRFATTAREN OCH STUDENTLITTERATUR
7.3. Konfidensintervall för väntevärdet
om
YE
=
Om
2öv 2Mm
—LL
>"
&<z
VP
LL
St
NN
od
[am
OO
—
Observationer
Figur 7.3: Histogram för observationer i exempel 7.5.
Det återstår då att beräkna hur många mätningar som behövs för att uppfylla
de kraven, vilket fås ur ekv. (7.4):
n>
n2(
2Xa/20
p
)
?
Lägg märke till att vid en föreskriven konfidensgrad krävs en fyrdubbling av
antalet observationer för att halvera intervallets längd. Fler mätningar kan
ofta innebära en ökad kostnad.
För situationerna med konfidensintervall enligt ekv. (7.2) och ekv. (7.3)
kan motsvarande uttryck för längden beräknas.
Exempel 7.6 En ingenjör mäter en sträcka i cm och önskar längden 2 hos
ett 952 konfidensintervall (baserat på en önskad tolkning av typen +1 cm).
Standardavvikelsen har skattats till 2.6. Antagande har inte gjorts om normalfördelade observationer, men vi antar tillsvidare att stickprovet är tillräckligt
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
147
7- Konfidensintervall
stort (n skall ju bestämmas!) och utnyttjar ekv. (7.3):
2
> (5
= 25.96,
dvs. 26 observationer. Vi betraktar här n som relativt stort.
7.4
EH
Konfidensintervall för p i binomialfördelning
Flera alternativ har föreslagits i litteraturen, vi börjar med det klassiska intervallet av s.k. MEL
I kapitel 6 fann vi att medelfelet för skattningen p
är d[p]=
v/P(1 — p)/n (se ekv. (6.5), sid. 121) och ett approximativt (1 — a)
konfidensintervall kan beräknas:
-
lb — Åa/2
V p(1
— p)/n,
Pp + Åa/2
p(1
— p)/n].
(7.5)
Intervallet i ekv. (7.5) motiveras av centrala gränsvärdessatsen och en vanlig
tumregel för att det skall gälla är np(1 — p) > 10. Detta intervall presenteras ofta i läroböcker men har visat sig ha dåliga egenskaper, i synnerhet för
låga eller höga värden på p. I en industriell tillämpning kan man mycket väl
tänka sig att p är litet, då det t.ex. kan innebära sannolikheten att en enskild
komponent i en viss population inte håller måttet.
Flera förbättringar har dock föreslagits i litteraturen, och vi nämner här
två.
Agresti-Coull-intervall. I en tidskriftsartikel" från 1998 föreslog statistikerna Agresti och Coull följande intervall.
Antag att vi observerat x ”lyckade” försök utav n och inför
R=n+ Mo
z+M,/2
p= —
-—
n
Intervallet ges av följande uttryck.
Konfidensintervall för p (Agresti och Coull):
hh = PAY
nd
(7.6)
'A. Agresti, B.A. Coull (1998). The American Statistician 52, sid. 119-126.
148
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
7-4. Konfidensintervall för p i binomialfördelning
Notera att för & = 0.05 gäller, om vi approximerar A0.025 = 2, att
tr=N+FÅ,
P=
r+2
n+4'
I detta fall konstrueras intervallet alltså som det i ekv. (7.5), men till ursprung-
liga antalet lyckade försök adderas 2 och till det totala antalet adderas 4.
Exempel 7.7 Ien provproduktion med n = 2000 komponenter fann man 5
felaktiga komponenter. Beräkna ett 952 konfidensintervall för felandelen p.
Vi studerar en variabel X = ”Antal felaktiga enheter av 2000” och antar oberoende enheter emellan; då gäller att X — Bin(2000, p). En observation av
X är r = 5 och en punktskattning av p ges av p = 5/2000 = 0.0025. För att
beräkna I, enligt Agresti & Coull beräknas
n = 2000 + 4 = 2004
samt
p= (5 + 2)/(2000 + 4) = 0.00349.
Intervallet ges av
I, = [0.00349 + 1.96 - /0.00349(1 — 0.00349)/2004) = [0.00091, 0.0061].
(Tumregeln för användning av det klassiska Waldintervallet i ekv. (7.5) är här
inte uppfylld.)
H
Avslutningsvis nämner vi ytterligare ett alternativ till intervall.
Wilson-intervall. Detta föreslogs av E.B. Wilson? och beräknas som följer:
A
Pp
+
2
1
2
n
Aä/2
+
Åa/2
p(1—p)
-—
(ne
n
+
AN
af:
Kap.
)
(1
+
la 2
Xp)
Det är att rekommendera, att ange vilken metod som använts när ett konfidensintervall för proportion/andel presenteras.
7.4.1
Konfidensintervallets längd
Genom att lösa för n i ekv. (7.5) kan ett konfidensintervall för antalet erforder-
liga observationer, givet en kravspecifikation i termer av konfidensgrad och
”E.B. Wilson (1927). Journal of the American Statistical Association 22, sid. 209-212.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
149
7- Konfidensintervall
intervallets längd, erhållas (jämför ekv. (7.4)). Beteckna med L konfidensin-
tervallets längd; då gäller
4
a
A
n= T2)a/2 (1-9).
(7-7)
I ekv. (7.7) ingår dock skattningen p, och det kan verka motsägelsefullt att
känna till denna redan innan experimenten tagit sin början - man söker ju
n. Det finns här två lösningar, antingen att plugga in ett ”typiskt” värde på
Pp, kanske känt från tidigare mättillfällen, eller att använda ett konservativt
värde. Det gäller nämligen att p(1 — p) maximalt kan anta värdet 1/4, och då
följer olikheten
ND
Naja2 |
(7.8)
Exempel 7.8 Vid en industri tillverkas aluminiumprofiler och kvaliteten kontrolleras med jämna mellanrum genom att andelen defekta i slumpvis tagna
stickprov analyseras. Man är intresserad av att med en noggrannhet på +17
skatta andelen defekta och frågar sig, hur stort stickprov som behövs.
Kravet formuleras som att L < 0.02. Vi antar 952 konfidensgrad. Den
konservativa olikheten i ekv. (7.8) ger då att n > (1.96)? /0.02? = 9604.
Antag nu att man har viss förhandskunskap om felandelen genom jämförelse med tidigare års produktion. En uppskattning av felandelen anses vara
0.03. Med hjälp av ekv. (7.7) finner vi nu
n>
0.02?
(1.96)?0.03(1 — 0.03) = 1117.
Denna extra information reducerade stickprovsstorleken med bortåt en faktor 9.
7.5
2
Konfidensintervall för skillnader i väntevärde
Som påpekats i avsnitt 1.1 är statistiska metoder ofta av intresse när jämförelser skall göras mellan två grupper. Med den metodik vi utvecklat kan man,
utifrån vissa förutsättningar kring data som exempelvis normalfördelning, uttala sig om eventuella skillnader. Mer precist skall vi här undersöka skillnad
i väntevärde.
150
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
7.5. Konfidensintervall för skillnader i väntevärde
7.5.1
Två oberoende stickprov
I vår första modell antar vi två oberoende stickprov z1,...,zn, respektive
Y1s- «+ > Ynos ej nödvändigtvis lika stora. Vi antar vidare att observationerna är
normalfördelade, närmare bestämt från N(ju, 07) respektive N(ju2, 03). Målet är att kunna beräkna ett konfidensintervall (med konfidensgrad (1 — &))
för ju — ju (eller alternativt j2 — ju). Om detta inte innehåller 0 kan vi med
konfidensgrad (1 — a) påstå att det finns en skillnad mellan de två väntevärdena.
Kända varianser
Om varianserna antas kända följer av tidigare räkneregler, se avsnitt 5.3.1, att
X —Y
— (ju — 2) > N(0, 1)
SÖ
ni
n2
2
2
och följande konfidensintervall kan ställas upp:
Intervall för skillnad mellan väntevärden (kända varianser).
—
-
—
I -po = z - Y — Åaf2
07
03
FR FE FE
-
+ Åa/2
Le
2
2)
03
AN El 21.
(7.9)
Okända varianser
I verkligheten är oftast varianserna okända och måste skattas. I den modell
som nu kommer att ställas upp antas att dessa varianser är lika, även om de
betecknas olika, o7 respektive 3. Dessa skattas med de sedvanliga standard-
avvikelserna sj för r; resp. s2 för y;. Man inför en s.k. sammanvägd varians-
skattning så (jämför ekv. (6.6)) där hänsyn kan tas till stickprovsstorlekarna:
— 1)så
je (ni(m— —1)sT1) ++ (na
(na — 1)
Med fördjupade kunskaper i sannolikhetslära kan man visa att
X-Y.
SP
(jur — 2)
1
1
mn TöR
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
> t(ni + na — 2)
n2
151
7- Konfidensintervall
och därmed fås följande konfidensintervall:
Intervall
för
I HA a —u2
skillnad mellan
väntevärden
=
ny1 +
Tr -
y Yr
a/2
NN 2 —
(okända
2)sey/—
R
1
varianser).
+ —
c
7.10
Ett exempel illustrerar användandet.
Exempel 7.9 I exempel 2.2 och 2.16 undersöktes förändringar i bilars hastighet efter att skyltar satts upp. Vi är här intresserade av att närmare utreda:
Finns en skillnad i medeltal mellan hastigheterna före respektive strax efter
skyltningen? I figur 7.4 finns histogram och lådagram uppritade för datamaterialen. Vi gör antagande om normalfördelning. Varianserna är inte kända,
utan får skattas från data.
Från data, 100 observationer för varje grupp, finner vi Z1
= 40.13, är —
24.61 (före), z2 = 33.33, så = 18.97 (efter). (Observerade data antyder alltså
att strax efter skyltningen har medelhastigheten minskat jämfört med före.)
Vi gör antagande om lika varianser, även om den relativa avvikelsen är så
pass stor som st/s3 = 1.3. Man finner
sp =
=
(
(100 — 1)s2 + (100 — 1)83
100 + 100 — 2
V!/?
förse
= (21.80)!/?
= 4.67.
AK)
Lägg märke till att den sammanvägda variansskattningen är en viktning av st
och så Ett 952 konfidensintervall, där t9.025 (98) = 1.97, ges nu av ekv. (7.10):
1
1
Iu-uie = E|40.13 3 —— 33.33
3. + 1.971.97 - 4.67 4.67 A:A/—I00 + to)
— | = [5.5,
[5.5, 8.1].8.1]
Tolkning av detta intervall: Noll (ingen skillnad) tillhör ej intervallet. En förändring av medelhastighet är därför påvisad (med konfidensgraden 0.95). =
7.5.2
Parvisa observationer — ”stickprov i par”
Man bör vid användandet av statistiska metoder alltid underrätta sig om hur
data samlats
152
in. I en del fall vill man
utreda om
en viss, i allmän
mening,
& FÖRFATTAREN OCH STUDENTLITTERATUR
7.5. Konfidensintervall för skillnader i väntevärde
Hastighet före
Hastighet efter
Oo
<<
Oe
NN
O
”M
un
fm
O
Oo
NN
:Oo
dh
I
I
I
I
I
20
30
40
50
60
-Oo
DO
3
sz
€
S
oo.
Y
2 8-
a&O
oJ
mn
|
I
I
I
I
30
40
50
60
Hastighet (mph)
uu
=E
I
20
Hastighet (mph)
Q
|
Om
DO
9
E
3
—
I
ot
>€
=
<t
sö
28
I
,
AL
oJ
aMm
od
od
”m
='
=
enn
ot
NN
NN
Före
Efter
Figur 7.4: Histogram och lådagram för bilars hastigheter.
behandling haft någon effekt på mätobjekten i fråga. De senare kan vara såväl personer som tekniska komponenter. Mer precist vill man kunna studera
de statistiska egenskaperna före respektive efter behandling. Om man misstänker att diverse störande faktorer kan påverka mätresultaten kan det vara
en fördel att om möjligt planera experimentet så att varje mätning sker under snarlika omständigheter, vilket resulterar i parvisa data. Metodiken kallas
ibland stickprov i par.
Exempel 7.10 Utvärdering skall ske av två radarsystem, ett äldre och ett
nyutvecklat. Dessa skall användas för att upptäcka inflygande flygplan. Mätvärdet för respektive system (i km) är avståndet till flygplanet när detta detekteras; värden för det äldre systemet ses som observationer av en slumpvariaOo FÖRFATTAREN OCH STUDENTLITTERATUR
153
7- Konfidensintervall
bel X, medan observationerna från det nyare systemet ses som observationer
av Y.
En tänkbar experimentuppställning är här att mäta med systemen vid
samma tidpunkter. Detta förutsätter då att systemen från teknisk synpunkt
kan användas samtidigt och inte påverkar varandra. Om n mättillfällen genomförs resulterar detta i talparen (21,21), (£2, 42), ---, (Zn, Yr). Fördelen
med denna metodik är att skillnader beroende på molnförhållanden (dvs. väderlek) kan beaktas. Det primära är att jämföra prestanda hos systemen.
u
Om situationen passar för metodiken ”stickprov i par” har vi alltså parvisa
observationer:
(21
Y1),
(x2,y2),
ses
:
(In, Yn)-
Differenser skapas enligt
Z= Tr Vi,
1 LEN.
Om de ursprungliga observationerna anses normalfördelade gäller att Z >
N(juz, 03) (linjärkombinationer av normalfördelade variabler är återigen normalfördelade, enligt kapitel 5). Nästa steg blir att skapa ett konfidensintervall
för j7 enligt principerna tidigare i detta kapitel.
Exempel 7.11 Vi återvänder till problematiken kring detektion av flygplan.
Antag att man har mätt vid tio tillfällen:
Tillfälle
Äldre system z;
Nyare system y;
1
2
3
4
5
6
7
8
$)
10
72
65
120
TT
60
30
63
82
T5
90
70
70
125
175
62
90
65
TS
81
89
zz = Ti — Yi
2
—9
—9
2
—2
—10
—2
T
—6
1
Förmodligen rådde gynnsamma förhållanden vid mättillfälle 3, med avsevärt
längre avstånd för bägge instrumenten. Skillnaden i mätvärde mellan de bäg-
ge systemen, vilken är av intresse, var dock inte i samma utsträckning avvikande vid detta tillfälle.
154
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
7.6. Konfidensintervall för skillnader i andelar
Enligt metodiken betraktas slumpvariabeln Z — N(j7, 073) och vi skattar
parametrar:
fiz
ör
1
=
=
=
8Z=3
1
10
+ 1) = —1.8,
(2; — 2) = 24.4.
Ett 952.-konfidensintervall ges av
Jing
=
É + to.025(9)sz/V10]
=
[-5.33,
1.73].
Noll tillhör intervallet, alltså kan ingen skillnad statistiskt påvisas mellan mätsystemen.
7.6
mH
Konfidensintervall för skillnader i andelar
Ett praktiskt problem kan innebära att jämföra två andelar, och med hjälp av
binomialfördelningar kan ett lämpligt intervall konstrueras.
Antag att vi har en observation ri från X1 > Bin(ni,p1) och en observation r> från X2 — Bin(na, po). Punktskattningar ges av pi = z1/m,
P2 = x2/n2, och ett intervall med approximativ konfidensgrad (1 — a) för
pi — po kan formuleras:
Intervall för skillnad i andelar.
Ipy-pa =
|P1 — P2
Aa
(1-8)
NM
Bl)
na
(7.11)
Man bör här se till att två tumregler är uppfyllda, dels nipi(1 — pi) > 10,
dels napa(1 — p2) > 10.
Exempel 7.12 Ett företag tillverkar solcellskomponenter. En kvalitetskontroll av 500 slumpmässigt utvalda komponenter genomförs, och man finner
att 20 av dessa är undermåliga. Denna andel anses för hög, och en rad för-
ändringar införs därför i tillverkningsprocessen. Efter förändringarna tas ett
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
155
7- Konfidensintervall
nytt stickprov om 500 komponenter, och denna gång är 15 stycken undermåliga. Har förändringarna lett till att andelen undermåliga komponenter har
förändrats?
Vi utreder problemet genom att beräkna ett konfidensintervall för skillnad i
andelar. Skattningar: pi; = 20/500 = 0.04, pa = 15/500 = 0.03. Eftersom
mp ll — Pp) = 23.75 > 10, nopol1 — p2) = 14.55 > 10 kan ekv. (7.11) an-
vändas. Man finner I», -p, = [-0.033, 0.013). Slutsats: Eftersom noll finns i
konfidensintervallet kan man inte hävda att förändringen haft effekt.
a
Intervallet i ekv. (7.11) är av Waldtyp. Flera alternativ har föreslagits i litteraturen, exempelvis av statistikerna Agresti och Caffo? . I ekv. (7.1) ersätts n;
och p; med n; = ni + 2 respektive p; = (xi + 1)/(ni + 2).
7.7
Ensidiga konfidensintervall
Vi har i detta kapitel sett hur konfidensintervall kan användas för beslutsfattande. Ofta är man intresserad av att studera om en parameter uppfyller vissa
ställda krav.
I exempel 7.1 studerades målvikten 500 g hos förpackningar. Detta skulle
kunna omformuleras som att förpackningen skall innehålla minst 500 g. I
detta fall är den undre gränsen av intresse av kvalitetsskäl (visserligen kan
alltför höga värden kanske ställa till problem med överfulla förpackningar,
men målvikten är inte desto mindre uppfylld).
I en annan situation vill man kanske från en företagslednings sida visa
att en förorening med genomsnittsvärde 9 underskrider ett visst gränsvärde.
Den övre gränsen är då av särskilt intresse — den övre gränsen är (förhoppningsvis) tillräckligt låg. I samma situation vill dock kanske en miljöaktivist
påvisa att gränsvärdet överskrids — att den undre gränsen är för hög — och
är därför intresserad av att beräkna den undre gränsen. En god regel är därför
att beräkna tvåsidiga intervall, om minsta tveksamhet råder om i vilket syfte
en studie skall utnyttjas.
En beskrivning av ensidiga konfidensintervall, liknande den som gavs i
Definition 7.1 (för tvåsidiga konfidensintervall), kan ges.
>A. Agresti, B. Caffo (2000). The American Statistician 54, sid. 280-288.
156
& FÖRFATTAREN OCH STUDENTLITTERATUR
7.7. Ensidiga konfidensintervall
Ensidiga
konfidensintervall.
Låt
A
och
B
vara
funktioner
av
X1, X2,..-., Xn. För ett nedåt begränsat konfidensintervall gäller
P(0> A(X1,...,Xn)) = 1-0
och för ett uppåt begränsat konfidensintervall gäller
P(0< B(X1,...,Xn)) =1—0.
Vi exemplifierar med problemet från exempel 7.1.
Exempel 7.13 Vi har n = 25 observationer av X -— N(ju,0?), där « = 2
(känt) och data ger skattningen pj = I = 498. Ett nedåt begränsat konfidensintervall för väntevärdet ges då av
I, = [Z- Jao /vVn, 00] = [497.3, oo]
där vi utnyttjat funktionen A(x1,..., In) = TZ — Ao /vVn och kvantilvärdet
A0.05 = 1.64. Intervallet underskrider målvikten 500 g, så slutsatsen blir att
med konfidensgrad 0.95 finns det statistiska belägg för att utrustningen inte
i genomsnitt ger önskad vikt (jämför exempel 7.3).
=
Intervall för andelar kan på motsvarande sätt modifieras till ensidiga intervall. Notera dock problemet med intervall för en andel p, för vilken gäller
0 <p < 1. I sådant fall studeras intervall av typen [A, 1] eller [0, BJ.
7.7.1
Intervall för andel vid noll observerade
Antag återigen att man är intresserad av andelen objekt med en viss egenskap
(kanske defekta) i en population, och använder den vanliga punktskattningen
p = r/n. Om man nu inte observerat något objekt alls med egenskapen är
r = 0 och därmed p = 0. Ett konfidensintervall enligt ekv. (7.5) blir [0, 0]
(snarare en punkt!). Intervallet enligt Agresti och Coull i ekv. (7.6) ger dock
ett intervall i ordets bemärkelse, och det finns för denna situation även ett
alternativt 9572 konfidensintervall som går mycket lätt att beräkna:
IL = [0, 3/n].
(7.12)
En motivering till det senare intervallet ges i slutet av detta avsnitt. Vi studerar först i ett exempel hur pass bra approximationen är gentemot intervallet
enligt Agresti och Coull.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
157
7- Konfidensintervall
Exempel 7.14 I tabellen nedan redovisas, för några olika värden på stickprovsstorlek n, övre gränsen för intervallet i ekv. (7.12). Ett ensidigt 957 kon-
fidensintervall enligt Agresti och Coull kan skrivas?
PE
[LA AU
+ V2)/(n + XJ]:
Tabellen följer:
n
”3/n”
10
0.3000
Agresti-Coull — 0.2571
20
—0.1500
-0.1438
50
—0.0600
0.0620
100
—0.0300
200
—0.0150
0.0318
0.0161
500
—0.0060
—0.0065
1000
—0.0030
0.0033
5000
—0.00060
0.00065
Vi noterar att för små eller måttligt stora stickprov är det enklare intervallet
i ekv. (7.12) vidare än intervall enligt Agresti och Coull. En tillverkare som är
intresserad av att inte underskatta felandelen föredrar i sådant fall det enklare intervallet vilket blir att betrakta som ett mera konservativt intervall. Med
ökande stickprovsstorlek blir intervallet enligt Agresti och Coull konservativt.
m
Avslutningsvis ges en motivering till intervallet i ekv. (7.12). Vi utgår från
uttrycket (1 — p)” = 0.05 (oberoende försök) vilket efter logaritmering kan
skrivas som n In(1 — p) = In 0.05. Logaritmuttrycket i vänster led kan serieutvecklas, In(1 — p) = —p, och In 0.05 & —3, vilket leder till n(—p) = —3.
Alltså har vi funnit p & 3/n.
7.8
Övningsuppgifter
701. (Övning om N(0, 1)-kvantiler. ) Låt X -— N(0, 1). Bestäm det tal a sådant att
(a) P(—a < X < a) = 0.95,
(b) P(X > a) = 0.99.
702. (Övning om t-kvantiler. ) Låt X — t(8). Bestäm det tal a sådant att
(a) P(—-a < X < a) = 0.99,
(b) P(X > a) = 0.95.
703.
Betrakta ett oberoende stickprov z1,...,x12 från N(ju, 32). Från data har man
funnit I = 17. Beräkna ett 992 konfidensintervall för ju.
'F. Tuyl, R. Gerlach, K. Mengersen (2009). International Statistical Review 77, sid. 266-275.
158
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
7.8. Övningsuppgifter
704.
Betrakta ett oberoende stickprov z1, . ..,x9 från N(ju, &?). Från data har man
funnit I = 32.9, s = 3.5. Ange ett 952 konfidensintervall för ju.
705-
Vid tillverkningsprocessen av axlar av rundstål kontrolleras diametern. Följande diametrar (mm) uppmättes:
30.02
30.12
30.07
29.95
30.05
29.90
30.01
Konstruera ett konfidensintervall, med konfidensgrad 0.95, för den förväntade
diametern.
706.
Vid ett pappersbruk undersöks papper med avseende på ytvikten (g/m?). För
20 slumpmässigt utvalda pappersark fann man ett 992 konfidensintervall för
den förväntade ytvikten: [48.7, 51.3]. För denna typ av papper är en genomsnittlig ytvikt om 50 g/m? önskvärd. Drag en slutsats om papperskvaliteten,
baserat på konfidensintervallet.
707-
I ett parti om 250 komponenter befanns 7 vara felaktiga. Skapa ett 952 konfidensintervall enligt Agresti & Coull för andelen felaktiga komponenter i partiet.
708.
Vid en kvalitetskontroll testades 200 mobiltelefoner med avseende på reptålighet, och man fann ett 952 konfidensintervall för andelen som inte klarade
testet: [0.012, 0.016]. Kvaliteten är uppfylld om högst 12 inte uppfyller kvaliteten. Dra en slutsats om kvaliteten, baserat på konfidensintervallet.
709.
Man har observerat två oberoende stickprov:
Z1,...,r8
från
N(ju,5),
Yr,...sWi2
från
N(juo,
7)
och funnit z = 19, y = 15. Ange ett 957 konfidensintervall för skillnaden i
väntevärde, ju, — jua.
710. Furuvirke från två leverantörer, A och B, skall utvärderas med avseende på
densitet (kg/m”). Följande mätningar finns tillgängliga:
A
449
478
480
490
473
461
507
443
467
489
B
475
486
497
483
496
516
509
509
492
504
Bestäm ett konfidensintervall med konfidensgrad 0.95 för skillnaden i medeldensitet och tolka intervallet för att utreda om någon skillnad finns. Antag
normalfördelning och att bägge furusorterna har samma (okända) standardavvikelse.
711. För 100 slumpmässigt utvalda förpackningar uppmättes vikterna (g). Vikterna
kan anses vara normalfördelade, och standardavvikelsen känd: & = 3 (g).
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
159
7- Konfidensintervall
(a) Ett konfidensintervall beräknades som [119.4, 120.6]. Vilken av konfidensgraderna 0.90 eller 0.95 har detta intervall?
(b) Man önskar ett konfidensintervall med bibehållen längd, men med 992
konfidensgrad. Hur många observationer behövs?
712.
Man vill undersöka två tekniker, A och B, för att bestämma järnhalten (i procent) från åtta tillgängliga provstycken. Varje provstycke klövs i två bitar, och
respektive bit slumpades för behandling med teknik A respektive B. Man anser att järnhalten vanligtvis kan anses vara normalfördelad. Resultaten ges i
nedanstående tabell:
Provstycke
TeknikA TeknikB
1
38.2
38.1
2
3
45:3
34:7
43.9
32.1
29.8
30.2
5
36.4
33.1
35.8
30.0
7
36.3
35-9
+
6
8
50.2
48.6
Undersök om det finns en statistiskt säkerställd skillnad i medelhalt mellan
de två teknikerna genom att beräkna ett lämpligt konfidensintervall (signifikansnivå 0.95).
713.
Ett företag har i två av sina laboratorier, A och B, likadana apparater för mätning av materials hårdhet (grader S). Slumpmässiga mätfel förekommer, vilka är normalfördelade med standardavvikelsen 0.2 för vardera apparaten. Det
viktiga är apparaterna mäter lika. Det kan dock inträffa att deras genomsnittsvärden förskjuter sig i förhållande till varandra.
Vid ett tillfälle har man i båda laboratorierna gjort mätningar på samma 5 homogena materialprover (vilka dock var sinsemellan olika), med nedanstående
resultat:
Prov1i
Laboratorium A = 52.3
Laboratorium B
53.7
Prov2
63.3
67.0
Prov3
45.5
44.7
Prova
50.7
53.7
Prov5s
68.2
68.6
Undersök om apparaternas genomsnittsvärden är förskjutna i förhållande till
varandra med konstanten A, genom att beräkna ett lämpligt konfidensintervall för A med konfidensgrad 0.95.
74.
160
Man vill undersöka kvaliteten hos ett nyutvecklat luftfilter A, jämfört med
en äldre variant, B. För produkt A undersöktes 2000 slumpvis utvalda exemplar och 13 uppfyllde inte kvalitetskraven. Motsvarande resultat för produkt B
gav 32 underkända exemplar av 2500 slumpvis utvalda. Undersök om andelen
underkända exemplar har förändrats.
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
7.8. Övningsuppgifter
715. En industri har som mål att producera i genomsnitt minst 500 ton per dag. Man
studerar produktionen under en arbetsvecka (fem dagar) och finner värdena
(i ton) 490, 502, 510, 485, 523.
(a) Beräkna lämpligt ensidigt konfidensintervall (konfidensgrad 0.95) för
att utreda om observationerna ger stöd för att målet är uppfyllt.
(b) Antag att man i (a) beräknar ett tvåsidigt konfidensintervall för den ge-
nomsnittliga produktionen (med konfidensgraden 0.95). Vilken frågeställning ger ett sådant intervall svar på?
Sammanfattning kapitel 7 &
Övningar kapitel 7 &
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
161
Kapitel 8
Regression
I många sammanhang är man intresserad av att beskriva samband mellan
storheter. Med regressionsanalys kan vi finna ett matematiskt samband som
passar väl för observerade data. Man talar om en responsvariabel y som funktion av p förklarande variabler 1, ...,;Ip,
y = fler, ...,zp).
(8.1)
Det är intressant att här resonera i termer av kausalitet, eller annorlunda ut-
tryckt, orsakssamband. I en del industriella tillämpningar går det att kontrollera variablerna x1,..., xp och man studerar dessas inverkan på y-värdena. I
industriell statistik studeras ibland s.k. responsytor, där ett huvudproblem är
att finna de värden på x-variablerna som resulterar i ett maximalt y-värde.
Vi kommer i detta kapitel att studera ett specialfall, enkel linjär regression, av modellen i ekv. (8.1). Man inskränker sig då till endast en förklarande
variabel x samt att funktionen f är linjär, vilket kan uttryckas!
f(rT) = m+kzi.
I kapitlet presenteras den grundläggande modellen, samt skattning av däri
ingående parametrar. Vidare ges en kort orientering om hur modellens giltighet kan kontrolleras — det är kanske inte alls säkert att de förutsättningar som
antas är uppfyllda just för observerade data, eller ens att funktionssambandet
är linjärt.
"Ofta skrivs högerledet & + 87 eller Bo + Piz.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
163
8. Regression
81
Inledning
Vi inleder med ett exempel som sedan återkommer under kapitlets gång.
Exempel 8.1 Man vill undersöka hur gummis motstånd mot nötning påverkas av hårdheten på gummit och dess draghållfasthet. I experiment? testades
30 prover gummi för hårdhet (i grader S), draghållfasthet (i kg/cm?) och till
sist nötning under en bestämd tid. Massförlusten pga. nötning mättes i g/h,
och vi skall här studera dess relation till hårdheten.
Inför y (massförlust) samt x (hårdhet). I figur 8.1 återfinns talparen (x;, yi),
2 = 1,...,30. Vi ser en punktsvärm med tydlig negativ korrelation (r =
—0.73), vilket verkar rimligt med tanke på experimentet: ett hårdare material
bör ha en lägre nötningsförlust jämfört med ett mjukare. Den första, enklaste,
ansatsen, är att anpassa ett linjärt samband.
EO
Oo
Öd
<
sS
Oo
A
o
o
EN
o
=
e
or
RT
S
o
Oo
Po
c
S
oo
I
o
&
Oo
o
o
o
o
00
-
Oo
Oo
o
o
o
OO
-—
T
T
T
T
T
T
T
40
50
60
70
80
90
100
Hårdhet (grader Shore)
Figur 8.1: Materialegenskaper hos gummi, 30 observationer (x,y) från experiment.
"OL. Davies, P.L. Goldsmith (1972). Statistical methods in research and production. 4:e upp-
lagan, Longmans.
164
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
8.2. Modell
8.2
Modell
Utgångspunkten är en linjär modell av formen
y=m>+kr
(8.2)
där y benämns responsvariabel, alternativt beroende variabel, medan z kallas
regressorvariabel, alternativt oberoende eller förklarande variabel. I modellen
ingår två parametrar & och m (där m brukar kallas intercept.)
Vi har observationer (x;, yi), i = 1,2,...,n. I regressionsmodellen anses
Tr; vara givna tal. Slumpmässiga fel €; introduceras genom följande modell
varmed värdena y; uppfattas som observationer av en slumpvariabel Y;.
Statistisk modell för enkel linjär regression. Givet observationsparen
(z1, 41), - > - > (Cn, Yn) ansätter man följande modell:
Y; = m + ki + 6,
där €; > N(0, 0?), i = 1,2,...,n, är oberoende slumpvariabler.
Av räknereglerna för väntevärde och varians (kapitel 5, se särskilt exempel 5.12)
följer då
E[Y;] = m + kz;,
V[Y;]=02?.
(8.3)
Den första delen av ekv. (8.3) är räta linjens ekvation, och ett värde på linjen
tolkas alltså som förväntat värde på responsvariabeln, givet ett värde på förklarande variabeln. Den andra delen innebär att variationen kring linjen är
konstant (formulerat i termer av varians).
Skattning av parametrar
Givet data, är det av intresse att skatta parametrarna (&£, m och &) i den uppställda modellen. Vi presenterar här resultatet från minstakvadratmetoden,
en metod med historiska anor som används även i t.ex. numerisk analys. Här
minimeras följande uttryck med avseende på k och m:
Q(k,m) = > (yi — m-—
kai)”.
i
Efter derivering och sökande av extremum erhålls skattningarna nedan.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
165
8. Regression
Enkel linjär regression: skattning av parametrar.
R=
samt
MM =g-—kz
KR
(8.4)
g2
1
z
Summorna Srr, Syy, Sry i ekv. (8.4)-(8.5) beräknas enligt
Sr
= >
(ec
T Zz)”,
Syy
= >
(vi
I)”,
Sry
- > Hei
z) (vi
y).
Exempel 8.2 För våra data i föregående exempel erhålls med ekv. (8.4-8.5)
följande skattningar:
m = 550.415,
k = —5.337,
& = 60.52.
Den anpassade linjen finns inritad i figur 8.2. Det negativa tecknet hos k, dvs.
negativ lutning hos linjen, rimmar väl med punktsvärmens utseende, men det
är inte i alla situationer lika enkelt att avgöra från en visualisering (se vidare
avsnitt 8.4.1).
Värdet k = —5.337 ska tolkas som att för en enhets förflyttning i positiv x-led (här: 1 ”Shore) avtar i genomsnitt y-värdet med 5.337 enheter (här:
5.337 g/h).
I figur 8.2 är linjen ritad från x = 0, detta för att tydliggöra skärningen
med y-axeln (intercept: 550.415). Man bör dock vara försiktig med att använda det skattade sambandet för lägre x-värden där inga observationer finns.
Kanske gäller en annan typ av samband, linjärt eller t.o.m. ickelinjärt, för låga nivåer av r. Mer diskussion kring användning av en skattad modell ges i
avsnitt 8.4.
HH
Numeriska beräkningar
I programvara speciellt utvecklad för statistisk analys kan man utan tröttande
beräkningsmöda erhålla värden på skattningarna jämte diverse annan information. Ofta ger programmet utskrift i form av en tablå. Nedan visas resultatet från statistikprogrammet R.
166
& FÖRFATTAREN OCH STUDENTLITTERATUR
500
300
100
Nötningsförlust (g/h)
8.2. Modell
I
0
l
20
I
40
I
60
I
80
I
100
Hårdhet (Grader Shore)
Figur 8.2: Materialegenskaper hos gummi. Observationer och anpassad rät linje.
Residuals:
Min
-86.15
1Q
-46.77
Median
-19.49
3Q
54.27
Max
111.49
Coefficients:
(Intercept)
x1
Estimate
550.4151
-5.3366
codes:
Residual
Multiple
standard error: 60.52
R-squared: 0.5442,
33.43
Sk
Error
65.7867
0.9229
Signif.
F-statistic:
0
Std.
on
0.001
1 and
t value Pr(>|tl)
+S38.367 4.22e-09
=-5.782 3.29e-06
+?
28
0.01
+?
0.05
xx»
s++
€
0.151
on 28 degrees of freedom
Adjusted R-squared: 0.5279
DF,
p-value:
3.294e-06
Man finner här återigen punktskattningarna av mm, k och g, men även
deras medelfel (engelska: standard error): d[m] = 65.7867, d[k] = 0.9229. Vi
återkommer till denna utskrift senare i kapitlet.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
167
8. Regression
Linjär regression — i vilken bemärkelse
Vi avslutar detta avsnitt med en kommentar angående ordet ”linjär” i regressionsmodellen. Linjäriteten avser i själva verket rollen hos parametrarna, m
och k, i uttrycket. Exempelvis kan även anpassning av ett funktionsuttryck
av typen
f(t) = m+ke””sinz,
som är uppenbarligen olinjärt i x och inte alls som geometriskt objekt betraktat är en rät linje, ske med metodik för linjär regression. Närmare beskrivning
av detta hamnar dock något utanför bokens ram.
8.3
Modellens giltighet
Man bör kontrollera förutsättningarna för regressionsmodellen och inte enbart nöja sig med värdena av de skattade parametrarna. Dessa kan vara meningslösa om förutsättningarna inte är uppfyllda. Det finns en uppsjö av metoder och tekniker för analys, vi tar här upp några grundläggande: dels ett
numeriskt mått, dels visualiseringstekniker.
8.3.1
Förklaringsgrad
En grundläggande princip i tillämpad statistik är att identifiera kända, deter-
ministiska, orsaker till variation till skillnad mot variation av slumpmässig
natur. I själva verket är regressionsmodellen ett exempel på denna filosofi:
slumpmässig variation kring en linje.
I kapitel 2 presenterades korrelationskoefficienten för ett datamaterial
—
Szy
Sr Syy |
I regressionsanalys talar man om förklaringsgraden för en modell. Den betecknas normalt med R”?. Speciellt i fallet med enkel linjär regression gäller
sambandet R? = r?. Alltså gäller 0 < R? < 1, där låga värden antyder en
dålig anpassning till data medan för R? nära 1, anknyter linjen nära till data.
168
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
8.3. Modellens giltighet
Enkel linjär regression: förklaringsgrad. Förklaringsgraden R? beräk-
nas som
;
ME
Sty
Org Syy
Det gäller att 0 < R? < 1.
För modellen anpassad till data från exempel 8.1 finner man R? = 0.54 (i
R-utskriften, raden näst längst ned: Multiple R-squared: 0.5442).
8.3.2
Residualstudier
I den grundläggande modellen bidrar slumpinslagen från €; - N(0, 0?), i =
1,...,n, vilka antas vara oberoende. Efter att en modell anpassats bör man
studera de s.k. residualerna vilka erhålls som avvikelser i lodled från den skat-
tade linjen:
ej; = Yi — (Mi + ki),
i =1,...,n.
Denna sekvens av e; undersöks med avseende på modellantagandena som
tidigare gjorts:
1. Residualernas varians bör vara konstant, oberoende av förklarande variabeln x.
2. Residualerna bör vara oberoende av varandra.
3. Residualerna bör följa en normalfördelning.
Det två första kraven är viktiga för modellen i sig. Det tredje kravet har framför allt betydelse då modellen används vidare, t.ex. för prediktionsintervall
(diskuteras i avsnitt 8.4).
Den allra enklaste formen av analys, som vi tar upp här, görs på visuell
väg. Histogram eller Q-Q-plottar kan användas för att bedöma symmetrisk
fördelning och möjligt antagande om normalfördelning. Vidare kan sekvensen ritas upp mot andra storheter, varvid konstant varians och även rena mo-
dellfel kan undersökas. Vanligt vid analysen är t.ex. att plotta residualerna
mot de förväntade responsvärdena Vy; = M + ki. Antagandet om konstant
varians (se ekv. (8.3)) kan då undersökas.
Exempel 8.3 För data iexempel 8.1 beräknades residualerna från den skattade linjen. Man har alltså här värdena e1, ... e30 vars egenskaper med hjälp av
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
169
8. Regression
olika visualiseringstekniker kan vara till hjälp för att bedöma den anpassade
modellen. I figur 8.3 presenteras fyra tekniker.
Överst, vänster. Här visas residualerna i ett histogram, vilket kan ge en antydan om symmetri eller skevhet. Det är svårt att av histogrammet få
en tydlig antydan om normalfördelning, med 30 observationer blir det
dessutom inte många observationer i varje klass.
Överst, höger. Residualerna är här ritade i en Q-Q-plot. Man ser en tendens till att observationerna slingrar sig kring linjen, men som helhet
är kanske inte normalfördelning otänkbar.
Nederst, vänster. Med hjälp av en figur av detta slag kan man undersöka
om variansen ändras med värdet på den förklarande variabeln x (dvs.
här, hårdheten hos gummit). Spridningen verkar konstant över det observerade intervallet, residualerna kan uppfattas ligga i ett band.
Nederst, höger. Här undersöks sambandet mellan residualer och anpassade
värden Y1,-.-.-.,Yy30 som ges av den skattade linjen. Punkterna verkar
ligga slumpmässigt, man ser inga tendenser till systematiska mönster.
Nu följer ett varnande exempel på att man inte okritiskt skall betrakta skattade parametervärden och beräknad förklaringsgrad. En stark rekommendation är alltid att visualisera situationen.
Exempel 8.4 I en berömd artikel? presenteras fyra datamaterial. Dessa är
medvetet konstruerade så att de vid anpassning av en standardmodell för linjär regression med mycket god precision ger samma skattade regressionslinje
och t.o.m. samma förklaringsgrad, R? = 0.67.
I figur 8.4 finns de fyra materialen uppritade samt den skattade linjen för
varje fall. Notera att samtliga data har väsentligt olika karaktär. Åskådliggör
alltid data och modeller grafiskt om det går!
OD
Om modellen inte är godtagbar
Att bedöma den skattade modellens giltighet kan kräva en del erfarenhet, och
det är inte alltid helt tydligt om en modell kan anses godtagbar eller ej. Vid allvarligare modellfel (exempelvis ickelinjäriteter) får man överge modellen; den
3FJ. Anscombe (1973). The American Statistician 27, sid. 17-21.
170
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
8.4. Användning av modellen
10
26
Y
UL
|
> 200
az
E
8
£
3 100
4
S3
:
2
=
-100
0
Oo
4”
-100
0
Residualvärde (g/h)
150
t
-200
-
100
-2
0
2
Standard Normal Quantiles
Oo
3
Z
Oo
50
vu
02
100,6
= 2006
SE To
i
60
4
= 400
82 100mmBgrRrarmn
Farm
5000
o LA I 8
09” 0
32
Oo
2
€
2
—
,
29
Oo
30
Hårdhet (grader S)
Oo
72 10019 03 9
nn
e
a
100 < -200 -50
0
o
o
o
09 Oo
O
50
100
Residualvärde (g/h)
150
Figur 8.3: Residualstudium. Överst, vänster: histogram. Överst, höger: normalfördelningspapper. Nederst, vänster: residualer mot förklarande variabel x. Nederst, höger:
anpassade värden y mot residualer.
är alltför enkel för situationen. Om å andra sidan en linjär modell kan anses
lämplig men lider av ickekonstant varians, kan man med hjälp av transformationer förbättra modellanpassningen. En beskrivning av sådana tekniker
leder utanför bokens ram, vi hänvisar till speciallitteratur inom området?.
8.4
Användning av modellen
I detta avsnitt diskuterar vi hur en framtagen regressionsmodell kan användas. Rent statistiskt kan modellen utvärderas, man kan exempelvis beräkna
konfidensintervall för & och se hur osäker skattningen är. Från tillämpningssynpunkt vill man ofta använda modellen för att prediktera värden.
"Se exempelvis: S. Sheather (2009). A modern approach to regression with R. Springer-Verlag.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
171
8. Regression
Å
3
10
y2
Fyra datamaterial enligt F.J. Anscombe (1973)
uy
-
099
o
Oo
od€M
T
0
5
T
T
T
10
15
20
od
T
T
T
T
T
0
5
10
15
20
x1
24
|
x2
24
Oo
27
-
e<
nn
od
27
nn
T
T
T
T
T
0
5
10
15
20
[EN
T
T
T
T
T
0
5
10
15
20
x3
x4
Figur 8.4: Fyra datamaterial enligt F.J. Anscombe (1973). Anpassad linjär regressions-
modell blir densamma för samtliga fyra fall.
8.4.1
Konfidensintervall för parameter
Vi gjorde i början av kapitlet ett antagande om normalfördelning. Med detta
som grund kan man visa att k ochff blir normalfördelade och väntevärdesrik-
tiga skattningar, dvs. E[Mi]= m och E[k]= k. Varianserna för skattningarna
kan visas vara
VIF] Ta
==
Le
V[k]=
I praktiken måste &o? skattas, vilket görs med ekv. (8.5). Ett (1— a)-konfidensintervall för &k kan därefter, med hjälp av ekv. (7.2), beräknas som
(8.6)
= [k+tajaln — 2)s/V Sr]
(notera kvantiler för t-fördelningen). Man är ofta intresserad av att undersöka
om det finns någon effekt, eller någon ”lutning”, dvs. kontrollera om interval-
let för & täcker noll. Fallet & = 0 indikerar ingen inverkan av den förklarande
variabeln.
172
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
8.4. Användning av modellen
Exempel 8.5 Vi kan uppfatta intervallet I; i ekv. (8.6) på följande form:
I, = [k+tayo(n — 2)d[k]],
vilket är fördelaktigt om man har numerisk information om medelfelet d[k].
För experimentet i exempel 8.1 återfinns detta i motsvarande R-utskrift: d [£] =
0.9229. Med t0.025(28) = 2.05 samt k = —5.34 följer intervallet I; =
[-7.23, —3.45].
För att finna medelfelet via traditionell räkning för hand (i, praktiken, med
räknedosa) måste summorna Srr, Syy, Sry beräknas och därefter s? enligt
ekv. (8.5) beräknas.
8.4.2
=
Prediktion
Ett konfidensintervall med konfidensgrad (1 — a) för väntevärdet av Y vid
ett visst x-värde, Tr) säg, dvs. för yo = m + kro, ges av
M + ki + ty ja(n — 2) s
Observera att konfidensintervallets bredd är som minst när xr/) = Z.
Ett prognosintervall, med vilket avses ett prediktionsintervall för en en-
skild observation, ges av
Mm + kro + taja(n — 2) s
För ett givet datamaterial är prognosintervallet betydligt bredare än motsvarande konfidensintervall för väntevärdet. I figur 8.5 illusteras detta för vårt
exempel med gummis materialegenskaper (streckade kurvor: konfidensintervall för väntevärde; prickade kurvor: prognosintervall). Notera vidare att osäkerheten blir större ju längre bort från observerade data man befinner sig.
Rent allmänt skall man vara försiktig med att utföra prediktioner eller prognoser alltför långt ifrån centrala delarna av data.
8.4.3
Varning: kausalitet
Missbruk av statistik och statistiska metoder — medvetet eller omedvetet — är
ett sedan länge känt fenomen. Vad gäller regressionsmodeller är det viktigt att
förstå orsakssambanden i den modell man ställer upp: Vad är orsak respektive
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
173
300
100
Nötningsförlust (g/h)
500
8. Regression
f
T
l
I
r
T
0
20
40
60
80
100
Hårdhet (Grader Shore)
Figur 8.5: Konfidensintervall för väntevärdet (streckat); prognosintervall (prickat).
verkan? Finns det bakomliggande faktorer (eller med statistisk terminologi,
variabler) som ej beaktats? Det kan hända att man anpassar en regressionsmodell som fungerar fint ur statistisk synvinkel (t.ex. hög förklaringsgrad R?,
godtagbara residualer) men som i själva verket illustrerar ett s.k. nonsenssamband.
Exempel 8.6 Ett klassiskt exempel? ges av sambandet mellan antalet radiolicenser i tusental, z, och antalet personer med psykiska störningar per 10 000
invånare, y. Observationerna (r;, y;), i = 1,...,14 är gjorda i England åren
1924-1937. Från figur 8.6 kan man kanske visuellt antaga att ett linjärt sam-
band är rimligt, och en anpassning ger en godtagbar statistisk modell med
förklaringsgraden så pass hög som R? = 0.98. När man anpassar modellen
utifrån (x,y) tar man dock inte hänsyn till att observationerna samlats in
a
över tid.
>G.U. Yule, M.G. Kendall (1950). An Introduction to the Theory of Statistics, 14th edition.
174
& FÖRFATTAREN OCH STUDENTLITTERATUR
8.5. Multipel regression
20t
.
15t
Ö
Antal personer med psykiska störningar per 10 000
25
10t
09
.
2000
=-4000
6000
Antal lösta radiolicenser (tusental)
8000
10000
Figur 8.6: Antalet personer med psykiska störningar per 10 000 som funktion av
antalet radiolicenser i tusental i England, 1924-1937.
8.5
Multipel regression
Vi har i detta kapitel endast studerat den enklaste regressionsmodellen. Man
kan utveckla teknikerna i många riktningar, men matematiskt förblir grundprincipen densamma för skattningen av parametrar: att minimera en summa
av kvadratavvikelser. Vi skall här orientera om möjligheten att lägga till ytterligare termer i modellen. Man kan tala om en modell för multipel linjär
regression, här med två förklarande variabler x1, och 2:
yi = M + kixu
+ koxoj + €j,
1 =1,...,n.
De antaganden som tidigare gjorts om oberoende, normalfördelade slumpfel
kvarstår. Geometriskt kan den anpassade modellen
y=M+
ki
+ kara
uppfattas som plan i rummet, vilket illustreras i följande exempel.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
175
8. Regression
Exempel 8.7 I figur 8.7 visas fyra plan (från vänster till höger, uppifrån och
ned):
y
=
Yy
O+xzi+0:-2,
0+0-xi+2-2,
y
=
O+zi+2-2,
y
=
l0+72z1 +2-x2.
I det första fallet finns inget beroende av x2. För ett konstant värde på x2 sker
vid en ökning av xi med en enhet, en ökning i respons med en enhet. I det
andra fallet finns inget beroende av x1, och för konstant x, sker vid en ökning
av z2 med en enhet en ökning i respons med två enheter. För det tredje fallet
finns beroende av både x, och x2, och det fjärde planet utgörs av det tredje,
fast med intercept m = 10 (planet är förskjutet 10 enheter).
Figur 8.7: Plan i rummet.
Exempel 8.8 Vi utvecklar modellen för experimentet som presenterades i
exempel 8.1. I själva verket fanns, som beskevs i exemplet, till responsvariabeln massförlust två förklarande variabler. Inför y (massförlust) samt ri
(hårdhet) och x2 (draghållfasthet). I figur 8.8 visas en bubbelplott där samvariationen hos de tre storheterna kan iakttagas, och i tabellen nedan samman-
fattas korrelationerna.
176
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
8.5. Multipel regression
Y
Zi
y
1
—-0.738
T1
—0.738
1
T2
—0.298
—0.299
I
50
I
60
I
70
I
80
—0.298
—0.299
1
200
I
I
|
150
100
Draghållfasthet (kg/cm2)
250
|
z2
I
40
I
90
I
100
Hårdhet (grader S)
Figur 8.8: Bubbelplott för storheterna i experimentet med egenskaper hos gummi.
Cirklarnas storlek återspeglar värden hos responsvariabeln y (massförlust pga. nötning).
Med statistisk programvara (R) skattas parametrarna i modellen
y=m>—+kizi
+ k2x2
och man finner Mm = 885, ka = —6.57, ka = —1.37, se utskrift nedan. Man
finner vidare förklaringsgraden R? = 0.84, att jämföra med R? = 0.54 för
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
177
8. Regression
den tidigare anpassade, enklare modellen med endast en förklarande variabel.
Allmänt gäller att R? ökar med ökat antal förklarande variabler.
Residuals:
Min
-79.385
1Q
-14.608
Coefficients:
(Intercept)
Median
3.816
Estimate
885.1611
Std.
3Q
19.755
Max
65.981
Error
61.7516
t value
14.334
Pr(>l|tl)
3.84e-14
++
x1
-6.5708
0.5832
-11.267
1.03e-11
oo
x2
-1.3743
0.1943
=-7.073
1.32e-07
x+x+
Signif.
codes:
Residual
Multiple
standard error: 36.49
R-squared: 0.8402,
F-statistic:
0 xx»?
71
on
0.001
2
and
27
«+?
0.01
+?
0.05
2 0.151
on 27 degrees of freedom
Adjusted R-squared: 0.8284
DF,
p-value:
1.767e-11
Antag att man vill använda den skattade modellen för att prediktera. Ett
nytt gummimaterial har tagits fram, där man funnit z, = 50 (grader Shore)
och x2 = 195 (kg/em”). Den förväntade massförlusten pga. nötning (g/h) blir
då
7 = MA + ki: 50 + ka + 195 = 289.
Figur 8.9: Materialegenskaper hos gummi: anpassad modell med två förklarande
variabler.
I figur 8.9 visas den skattade modellen, som geometriskt motsvaras av ett
plan. Notera att modellen för vissa kombinationer av x1 och 2 leder till nega178
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
8.6. R-kommandon
tiv massförlust; detta visar tydligt att man skall vara försiktig med att använda
en skattad modell för data som inte ligger i närheten av de observerade. Detta
problem accentueras ytterligare om antalet förklarande variabler ökar.
H
8.6
R-kommandon
Den grundläggande funktionen för att anpassa en statistisk regressionsmodell
har namnet 1m, efter engelskans linear model. Resultatet efter anrop blir ett
objekt, ur vilket mycket information kan hämtas.
Antag att vi har följande observationspar:
(0, 2.5), (1,4.3), (1,6.5), (2,7.2), (2,6.9), (3, 7.5)
och vill anpassa en sedvanlig modell
y=m+
kr.
Vi skapar vektorer för dessa i R, anropar 1m och sparar resultatet i objektet
min.modell.
Sm
Ol
1, 12:20
;)3
> min.modell
= l1m(y —
VE
x)
(2:00
ORDRAR
IA (ROT
Baserat på min .model1l kan skattade parametrar erhållas med coef:
> coef (min.modell)
(Intercept)
TA LELe
är
1.663636
Här finner man alltså fi = 3.32, k = 1.66. En fullständig utskrift av regressionsresultaten fås med summary (min.modell), se nästa sida:
> summary (min.modell)
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
179
8. Regression
Call:
lm(formula
= y 7” x)
Residuals:
1
-0.8212
2
3
4
5
6
-0.6848
1.5152
0.5515
0.2515
-0.8121
Error
t value
Pr(>l|tl)
0.8018
0.4506
4,142
3.692
0.0143
0.0210
Coefficients:
Estimate
(Intercept)
X
Signif.
codes:
Std.
SALA
16636
0
0.001
+»
0.01
+?
+
+
0.05
7
0.1
Residual standard error: 1.057 on 4 degrees of freedom
Multiple R-squared:
0.7732,
Adjusted R-squared:
0.7165
F-statistic: 13.63 on 1 and 4 DF,
p-value: 0.02097
Här kan man, bland mycket annat, utläsa exempelvis förklaringsgraden R? =
0.77. För analys av modellens giltighet kan residualer extraheras genom att
skriva resid(min.model1l) och residualerna kan sedan ritas upp i lämpliga
figurer, se avsnitt 8.3.
8.7
Övningsuppgifter
801. Skatta parametrarna k och m i den sedvanliga modellen för linjär regression
yi
=
mM
+ kr;
=
&
för följande data:
0
2
1
3
2
5
Rita gärna en figur och jämför med dina skattade parametrar.
802. Betrakta den skattade linjen y = i + kr med skattningarna 7 och k från
ekv. (8.4). Visa att punkten (Z, y) ligger på linjen.
180
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
1
8.7. Övningsuppgifter
803. I exempel 2.1 studerades mekaniska egenskaper hos hårdmetallstift på borrkronor. I sambandsdiagram ritades nötningen (i mikrometer) som funktion
mot borrmeter (i meter). För material av standardtyp fann man korrelations-
koefficienten r = 0.95. Om standardmodellen för enkel linjär regression används, vilken blir då förklaringsgraden R??
804. Vid behandling av trä för skydd mot röta kan impregneringsdjupet y anses
vara en linjär funktion av tiden r,
Yi = M + ki.
För tio valda träbitar gjordes en mätning av djupet för olika givna tider. Resultat (tider i timmar, djup i cm):
Tid
Djup
Ir
3.0
y
3.4
062
38
093
42
1.08
46
119
50
1.45
54
154
58
162
192
662
196
6.6
2.10
Beräkningar gerz = 4.8, y = 1.441, S,, = 13.2, Syy = 2.10349, Sy
5.222.
=
(a) Beräkna skattningar av & och m.
(b) Ange förklaringsgraden R”. Är det fråga om ett starkt linjärt samband
här?
805. För data i uppgift 804, skatta standardavvikelsen & och skapa ett 957 konfidensintervall för k.
806. För data i uppgift 804, ange dels ett 957 konfidensintervall för det genomsnittliga härdningsdjupet vid tiden x = 6.0, dels ett 9572 konfidensintervall
för det förväntade värdet vid x = 6.0 (ett prognosintervall).
807.
Vid ett experiment har följande åtta observationspar (r;,y;), i =
observerats:
z
y
0
1
—-0.5
22
2
38
3
41
4
31
5
11
6
—0.6
1,...,8,
7
—-4.2
Två ingenjörer, Alfred och Benjamin, diskuterar en lämplig statistisk modell.
De anser att en modell för enkel linjär regression kan vara ett alternativ, dvs.
yi; är observationer av
Y, =m+ki;+e,
1i=1,...,8,
där €; -< N(0, o?). Ett datorprogram ger skattningarna fi = 3.17, k = —0.58
samt I = 2.61.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
181
8. Regression
(a) Alfred blir entusiastisk över resultatet från datorberäkningen och vill
genast använda modellen för att beräkna ett 957 konfidensintervall för
k. Utför dessa beräkningar.
(b) Benjamin funderar över modellens giltighet. Ett första steg kan vara att
helt enkelt rita upp observerade data och få en uppfattning om lämpligt
modellval. Gör en enkel skiss och ge en kommentar.
808. Ien serie försök studerades samband mellan bullerexponering och bullerkänslighet. Man uppmätte blodtrycksförhöjning y (enhet: mm Hg) i samband med
olika bullernivåer x (enhet: dB). De 20 observationsparen återfinns i figur 8.10.
Oo
0
—
Oo
oz
Oo
jams
E
OL
Oo
oa
=
I>
sc
Ö
5
<<
—
OO
o
o
:'
5
Oo
o
Oo
oo
30
[+]
NA
o
O
Oo
=-
Oo
o
O
Oo
I
T
T
T
I
60
70
80
90
100
Bullernivå (dB)
Figur 8.10: Bullerkänslighet y och bullerexponering x (problem 808).
Standardmodellen för linjär regression,
Y, =m-+-+ki;i+6e,
1i=1,...,20
ansätts, och skattning av parametrar görs med statistisk programvara. Standardberäkningar ger T = 82.3 samt S,, = 3010.2. En utskrift från R återfinns
nedan, där parameterskattningarna kan utläsas: 2 = —9.81310, k = 0.17148,
g = 1.408.
182
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
8.7. Övningsuppgifter
Beräkna utifrån skattad modell den förväntade blodtrycksförhöjningen vid
bullernivån 80 dB. Ange också ett 957 konfidensintervall för den förväntade blodtrycksförhöjningen vid bullernivån 80 dB.
Utskrift från R, problem 808.
Call:
Im(formula
= y ” x)
Residuals:
Min
-1.9056
1Q
-1.0405
Median
-0.2620
3Q
0.5665
Max
2.8093
Error
t value
PrOl|tl)
Coefficients:
Estimate
Std.
(Intercept)
-9.81310
2.13526
+=-4.596
0.000224
»x+
x
0.17148
0.02566
+56.683 2.87e-06
+++
0
0.001
Signif.
codes:
ep
fx?
0.01
+?
0.05
7
0.151
Residual standard error: 1.408 on 18 degrees of freedom
Multiple R-squared: 0.7127,
Adjusted R-squared: 0.6968
F-statistic: 44.66 on 1 and 18 DF,
p-value: 2.872e-06
Sammanfattning kapitel 80
Övningar kapitel 8
Deltest kapitel 6-8 &
Sluttest &Q
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
183
Tabeller
I detta avsnitt återfinns följande statistiska tabeller:
Tabell 1. Fördelningsfunktionens värden för standardiserad normalfördelning.
Tabell 2. Kvantiler för standardiserad normalfördelning.
Tabell 3. Kvantiler för t-fördelningen.
Tabell 4. Några vanliga sannolikhetsfördelningar: sannolikhets- eller täthetsfunktioner, väntevärden och varianser.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
185
Tabeller
Tabell 1. Fördelningsfunktionens värden för
standardiserad normalfördelning
ö(2) = P(Z < 2). För negativa z, utnyttja att P(—z) = 1 — P(2).
Zz
0
.00
5000
.01
5040
.02
+>—.5080
1
5398
5793
6179
6554
.6915
5438
+.5832
6217
++-6591
6950
5478
+.5871
6255
6628
+-.6985
5910
6293
6664
+.7019
5948
6331
+6700
+.7054
5987
6368
+6736
+<7088
++.6026
+6406
+6772
+.7123
+.6064
6443
+6808
+7157
=<+6103
+<6480
6844
+++.7190
6
7257
7291
7324
7357
7389
7422
7454
7486
7517 = .7549
.2
3
4
5
7
7580
.7881
761
7910
7642
9
8159
1.0
1.1
.03
+—5120
5517
.04
5160
.05
++—5199
5557
5596
7939
7673
+.7967
7704
+7995
+.8023
8186
8212
8238
8264
8413
8643
+8438
+8665
8461
+.8686
8485
+<8708
1.2
1.3
.8849
-.9032
+8869
9049
++8888
.9066
1.4
9192
9207
1.5
9332
1.6
1.7
1.9
.8
1.8
.07
+5279
5636
.09
++5359
5714
5753
++—.6141
++6517
+<6879
++.7224
+ 8051
+8078
7823
7852
8289
8315
+.8340
+.8365
+.8389
+<8508
+:8729
+:+8531
+8749
+8554
+8770
+8577
+8790
+.8599
+.8810
<+.8621
+.8830
8907
9082
8925
+.9099
++.8944
<:.9115
+8962
9131
+.8980
9147
++.8997
«9162
.9015
—.9177
+ 9222
= 9236
+g9251
+.9265
+.9279
+9292
+.9306
++.9319
.9345
.9357
+-9370
.9382
.9394
+.9406
—.9418
9429
—.9441
9452
9554
9463
.9564
+9474
9573
+-9484
9582
++.9495
9591
9505
.9599
9515
9608
9686
—.9525
9616
+.9693
9535
9625
+.9699
=-9545
—.9633
.9706
9713
9719
9726
9732
9738
9744
+.9750
9756
9761
9767
9649
+.9656
++.9664
+.9671
9678
7764
5675
.08
++5319
7794
9641
7734
.06
5239
+.8106
=.8133
2.0
21
2.2
2.3
9772
9821
.9861
9893
+:.9778
+.9826
+.9864
++.9896
++.9783
9830
++.9868
+.9898
+<9788
+<9834
9871
—.9901
9793
+9838
9875
.9904
+.9798
++.9842
++.9878
++.9906
+.9803
+<9846
9881
9909
+<9808
+.9850
+.9884
—.9911
9812
++.9854
+.9887
9913
++.9817
+.9857
+.9890
=.9916
2.4
9918
9920
9922
9925
9927
+9929
9931
9932
.9934
.9936
9955
-9956
9962
—.9963
.9964
9986
.9986
2.5
9938
—.9940
2.7
2.8
9965
—-.9974
9966
9975
3.0
-.9987
2.0
2.9
186
9953
9981
9941
—.9943
++.9945
9982
9967
9976
9982
+.9968
9977
9969
9977
9987
.9987
.9988
—.9988
9957
+.9983
9946
9948
9949
9970
+-9978
9971
9979
9972
9979
9973
9980
.9989
.9989
.9989
—.9990
9959
9960
+.9984
+.9984
&
—.9961
+.9985
FÖRFATTAREN
++.9985
OCH
9951
—.9952
+-9974
—.9981
—.9990
STUDENTLITTERATUR
Tabeller
Tabell 2. Kvantiler för standardiserad normalfördel-
ning
P(Z > Aa) = a där Z - N(0, 1).
A& | 0.05
Ån | 1.64
0.025
1.96
0.01
2.33
0.005
2.58
0.001
3.09
0.0005
3.29
Tabell 3. Kvantiler för t-fördelningen
P(X > talf)) = a därX =» t(f).
f
.10
05
1
2
3
4
3.08
1.89
1.64
1.53
1.48
1.44
1.41
6.31
12.71
2.92
4.30
2.35
318
2.13
2.78
2.02
2.57
1.94 = 2.45
1.89
2.36
5
6
7
8
Oo FÖRFATTAREN
025
01
005
.001 = .0005
31.82
63.66
318.31
6.96
9.92
22.33
4.54
5.84 = 10.21
3.75 = 4.60
7.17
3.36
4.03
5.89
3.14
3.71
5.21
3.00
3.50
4.79
636.62
31.60
12.92
8.61
6.87
5.96
5.41
9
10
1.40
1.38
1.37
= 1.86
1.83
181
2.31
2.26
2.23
2.90
02.82
= 2.76
3.36
3.25
3.17
4.50
4.30
4-14
5.04
4.78
4.59
11
1.36
180
2.20
2.72
3.11
4.02
4.44
12
1.36
1.78
218
2.68
3.05
3.93
4.32
13
14
15
16
17
1.35
1.35
1.344
1.344
1.33
1.77
1,76
175
1,75 =
— 1.74
216 = 2.65
3.01
2.14
2.62
2.98
2.13
2.60
2.95
2.12
2.58
2.92
2.11
2.57 = 2.90
3.85
3.79
3.73
3.69
3.65
4.32
4.14
4.07
4.01
3.97
18
19
20
30
1.33
1.33
133
1.31
1.73 = 2.10
1.73
2.009
1.72
2.09
1.70
2.04
40
130
1.68
60
120
OO
130
129
128
1.67
1.66
1.64
OCH
2.55
2.54
2.53
= 2.46
2.88
2.86
2.85
2.75
3.61
3.58
3.55
3.39
3.92
3.88
3.85
3.65
2.02
2.42
2.70
3.31
3.55
2.00
+:2198
1.96
2.39
2.36
2.33
2.66
2.62
2.58
3.23
3.16
3.09
3.46
3.37
3.29
STUDENTLITTERATUR
187
Tabeller
Tabell 4. Några vanliga sannolikhetsfördelningar
Fördelningstyp
Binomialfördelning
Sannolikhets- eller täthetsfunktion | Väntevärde | Varians
CP
-p)"””, x =0,1,...,yn | np
np(1 — p)
Poissonfördelning
mem,
Bin(n, p)
Po(m)
Normalfördelning
N(4u, 0”)
r=0,1,...
ee
27 0
m
m
<rT<0XR|m
o?
Likformig fördelning | hk, a <T <b
(a + b)/2
(b— a)? /12
Exponentialfördelning
le-=/ 2
a
a”
Weibullfördelning
k (Zz)! e-(z/0)", x > 0
Re(a, b)
Exp(a)
r>20
(") Variansen ges av uttrycket a? Ir (1+2)-
188
aT(1+1/k) | (')
(T(1+ 2)”]-
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar
Kapitel 2.
201.
Medelvärde: z = 3 (6022 + 6003 + - ++ + 5812) = 5935.86.
Standardavvikelse: s =
202.
203.
4/55 MR i (ri
— 2)? = V51690.12 = 227.35.
s/z = V8.4/40.3 = 0.072.
Beteckna det okända, sökta, mätvärdet med x. Man finner x = 5:3.1—(2.3+
3.7+ 2.9 + 4.1) = 2.5.
204. Vi har ZGa = 15, sGa = 4 samt Tny = 10, sy, = 3. Variationskoefficienterna
följer som sga/ZGa = 4/15 = 0.27 resp. sny/Zny = 3/10 = 0.3.
205.
Variansen förblir oförändrad: 2.49. I ekv. (2.2) ingår uttrycket (x; — £). Beteckna med rr; det ursprungliga stickprovet och inför y; = z; + 10. Då gäller
att
yi-Yy
1
=
Ti +10—
(71 + 2 + 3 + T4 + 4:10)
=
2z;+10—-2-10=72;-TZ,
vilket medför oförändrad varians (och därmed standardavvikelse).
206.
Variationsbredd: 3 — 0 = 3; typvärde 0.
207.
Vägt medelvärde:
—-
540 - 320 + 322 - 280
T= =
208.
R0+-322
=
305.058.
(a) De tre punkterna visar en positiv korrelation. Det tredje talparets yvärde avviker en aning från en tänkt linje, men Spearmans korrelationskoefficient tar inte hänsyn till det aktuella y-värdet, endast rangen. Pearsons korrelationskoefficient kommer därför att ge en lägre positiv korrelation än Spearmans.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
189
Lösningar till övningsuppgifter
(b) Man finner Zz = 2.27, y = 8.87 och ekv. (2.4) ger r = 0.91. För att
beräkna rs enl. ekv. (2.5) rangordnas observationerna och man finner
summan av kvadrerade differenser: DS
(3 — 3)? = 0, och därmed rg = 1.
209.
d& = (1-1)? + (2— 2)? +
(a) Medianen är 4.5 (lodräta strecket i lådan)
(b) Maximalt uppmätt värde är 6.0 (övre morrhåret)
(c) Minimalt uppmätt värde är 3.5 (nedre morrhåret)
210.
(a) Det är datamaterial I som redovisas i spridningsdiagrammet (dvs. talparen (a) yl), i = fvrea20)
(b) Tydlig negativ korrelation: r = —0.89.
211.
Man finner Y” r; = 47487, VY” r? = 282238727. Insättning ger samma standardavvikelse som i (201), dvs. s = v51690.12 = 227.335.
Kapitel 3.
301.
302.
303.
P(AU B) = P(A) + P(B) - P(AN B) = 0.2 + 0.6 — 0 = 0.8.
P(A") = 1-— P(A) = 1— 0.03 = 0.97.
P(AU BB) = P(A) + P(B) = (1 — P(A")) + P(B) = 1— 0.2 + 0.1 = 0.9.
304.
Sökt sannolikhet: P(A" N B"). Man har att P(A" NM B") = 1—- P(AU B) =
1 — (P(A) + P(B) — P(A NM B)) = 1 — (0.4 + 0.6 — 0.2) = 0.2.
305:
Man har att P(AN B) = P(A) + P(B)—- P(AU B) = 1/12 och P(A)P(B) =
1/12. Eftersom P(A NM B) = P(A)P(B) är händelserna oberoende.
306.
Vi undersöker om P(A NM A”) = P(A)P(A"). Allmänt gäller att AN A" =
DD, dvs. P(A NM A”) = 0. Men P(A)P(A”)
= 0.15 - 0.85 £ P(A NM A”), så
händelserna är inte oberoende.
307.
Vi har (pga. oberoende) P(ANB) = P(A)P(B) > 0, alltså gäller P([ANB) £ 0
och händelserna är ej oförenliga.
308.
Sökt sannolikhet: P([AUBUC) = P(A)4+P(B)+P(C) = 0.02+0.1240.03 =
309.
0.17.
(a) Möjliga värden: X = 0,1,2,3.
(b) P(X = 0) = (1 —0.5)(1 — 0.8)(1 — 0.2) = 0.08. P(X = 1) = 0.5(1 —
0.8)(1 — 0.2) + (1 — 0.5)0.8(1 — 0.2) + (1 — 0.5)(1 — 0.8)0.2 = 0.42.
(c) P(X < 2) = P(X = 0) + P(X = 1) = 0.08 + 0.42 = 0.50.
310. P(A|B) = P(AN B)/P(B) = 0.1/0.4 = 1/4 = 0.25.
311.
(a) P(AN B) = P(A|B)P(B) = 0.60 - 0.30 = 0.18
190
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
(b) P(AU B) = P(A) + P(B) — P(AN B) = 0.20 + 0.30 — 0.18 = 0.32
(c) Nej, P(AN B) £ P(A)P(B).
312. Inför händelser: A = ”Felaktig produkt passerar Anna”, B ="Felaktig produkt passerar Beda”. Från texten har vi P(A) = 0.1, P(B|A) = 0.5. Sökt
sannolikhet: P(AN B) = P(A)P(B|A) = 0.1: 0.5 = 0.05.
313: Inför händelser: B = ”Komponent tillverkad vid B” samt D =”Komponent är
defekt”. Sökt är
P(BAN D) = P(B)P(D|B) = 0.5 - 0.04 = 0.02.
314. Inför händelsen A
= ”Personen som gör första valet överlever”. Man finner
P(A) = 5/7 (den klassiska sannolikhetsdefinitionen). Inför vidare händelsen
B ="Personen som gör andra valet överlever”. Det gäller att P(B|A) = 4/6 =
2/3. Den sökta sannolikheten ges av P(A NM B) = P(B|A)P(A) = (2/3) -
(5/7) = 10/21 = 0.48.
315:
Inför händelserna A =”Summan är högre än 6” samt B ="”Första tärningen
visar 3 ögon”. Sökt sannolikhet är p = P(A|B) = P(A NM B)/P(B). Utfallsrummet S = ((1,1), (1,2), ...,(6,6)) innehåller 36 element (notation: (i, j)
innebär första tärningen visar i ögon, andra tärningen visar j ögon).
Elementen för händelsen A AN B är tre stycken, (3,4), (3,5), (3,6), så den
klassiska sannolikhetsdefinitionen ger P(A NM B) = 3/36 = 1/12.
Händelsen B innefattar elementen (3, 1), (3, 2), ..., (3,6), så P(B) = 6/36 =
1/6. Vi kan nu beräkna den sökta sannolikheten: p = (1/12)/(1/6) = 1/2.
316.
Inför händelsen av intresse
A = ”Minst ett defekt kretskort (utav 5 st)” = ”Defekt fläktsystem”
med komplementhändelsen
A" = ”Inget defekt kretskort (utav 5 st)”.
Sannolikheter för komplementhändelser samt oberoende mellan kretskort ger
den sökta sannolikheten
P(A) = 1-— P(A”) = 1-—
317.
(a) P(fp N DN) = 0.10 & 0.06 = P(fp)P (DN). Ej oberoende.
(b) P(s
2318.
(1— 0.01)” = 0.049.
AN DN) = 0.04 = P(s)P(DN). Oberoende.
P(”Minst ett avbrott”) = 1 — P(”Inget avbrott”)
= 1 — P(”5 dagar utan avbrott”) = 1 — (1 — 0.1)? = 1 — 0.95 = 0.41.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
191
Lösningar till övningsuppgifter
319. I samtliga deluppgifter antages oberoende hopp.
(a) P(”Ingen skada i 50 hopp”) = (49/50)?? = 0.36.
(b) P(”Minst en skada i 50 hopp”) = 1 — (49/50)?? = 0.64.
(c) P(”Ingen skada i n hopp”) = (49/50)" > 0.80. Motsvarande ekvation
för n löses: n = In(0.80)/ In(49/50) = 11.04, dvs. högst 11 hopp.
320. Inför händelserna $i ="System 1 valt och är felfritt”, $2 ="System 2 valt och
är felfritt”. Sökt sannolikhet: p = P(.S; U S2) = P(S1) + P(.S2) (oförenliga
händelser). Vi räknar nu med betingningskedjor och inför händelserna A; =
”System 1 valt”, Bj; = ”System 1 felfritt”. Från texten har vi P(A1) = 0.3,
P(Bi|A1) = (1 — 0.01)(1 — 0.015) (oberoende och komplementhändelser).
Då gäller
P(Si)
=
P(A, NM Bi) = P(BilAi)P(A1)
=
(1 — 0.01)(1 — 0.015)0.3 = 0.292545.
Motsvarande för system 2:
P(S2)
=
P(A2N B2) = P(B2|A2)P(A2)
= (1—0.02)(1 — 0.003)0.7 = 0.683942.
Addition ger p = P(S1) + P(.S2) = 0.976.
321. Inför händelser: A = ”Avsedd signal sänds verkligen”, B ="”Sänd signal registreras korrekt”. Enligt texten gäller P(A) = 0.95, P(B) = 0.999. Inför vidare
händelsen C' = ”Avsedd signal registreras korrekt”. Man söker P(C'). För att
C' skall inträffa måste antingen A och B (dvs. AN B) eller A" och B” (dvs.
(A” N B”) inträffa, vilket innebär
P(C) = P(AN B) + P(A" N B") = 0.95 - 0.999 + 0.05 - 0.001 = 0.9491.
322.
323.
Inför händelserna A; ="Komponent A, fungerar”, A> =”Komponent Ao fun-
gerar”. Sökt sannolikhet: p = P(A,
MN A2) = P(A1)P(A2) = 0.95? = 0.9025.
Alternativ 1. Sökt:
p = P(”Systemet fungerar”) = P(”Minst en komponent fungerar”).
Inför de oförenliga händelserna
192
A
=
”Endast A, fungerar”
B
=
”Endast Az» fungerar”
C
=
”Både A, och Aa fungerar”
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
Sökt sannolikhet ges av p = P(A U BU C). Pga. oberoende gäller P(A) =
0.95 - 0.05, P(B) = 0.05 + 0.95, P(C) = 0.95 - 0.95 och det följer att p =
P(AU BUC) = P(A) + P(B) + P(C) = 0.9975.
Alternativ 2. Resonera med komplementhändelser, sökt sannolikhet: 1— 0.050.05 = 0.9975.
Kapitel 4.
401.
(a) P(X =3) = px (3) = 0.15.
(b) P(X < 2) = P(X = 0)+P(X = 1)+P(X = 2) = 0.10+0.20+0.50 =
0.80.
402. 1 = Dl, py(y) = py (1) + py (3) + py (5) = c+ 5 + 5 = C
15/23 = 0.652.
.
318
403. 1 = Sf”, fx(r)dz = fö ex? dr = [],
404. Vi har X > Bin(10, 0.25). Då gäller: P(X =
('P)0.25!0.752+ ('2)0.2520.758 = 0.53.
SCec =
> c = 3/6? = 1/72 =
0.014.
0.25, P(X< 2)= P(X = 0) + P(X=
enl
ol
(c) P(1< X < 3) = P(X = 2) + P(X = 3) = 0.50 + 0.15 = 0.65.
ER
=
.252(1 — 0.25)” =
= 2) = 00. 2500.75!9+
405. Inför X = ”Antal utslagna turbiner under en dag”. Då gäller att X > Bin(8, 0.10).
> 3) = 1—P(X
Sökt sannolikhet: P(X
0.005.
LG ($)0.1050.905-A =
< 3) =
406. Då X - Po(2.7) följer att P(X = 2) = CNe-27
— P(X < 0) =1-P(X
= 0)
407.
Sökt sannolikhet:
P(X
> 2)
=
=
408.
=1-e"27
= 0.93.
= 0.25, P(X > 1) =
1-—P(X<2)
20 (3.20 3.22 3.22
1-e —3.2 (5 tå Sr ) AE= 0.62.
(a) P(X < 0.5) = fo" f(x) dr = fy” 2rdr=
[z2])” = 0.25.
(b) P(0.5 < X £ 2)= fr f(r)dr= Jos 2rdz +; 0dr = [x]],=
0.75.
409.
(a) P(Z < 12) = Fz(12) = 1-— e7!2/8 = 0.78.
(b) P(Z > 25) = 1—-P(Z < 25) = 1—F2(25) = 1—-(1—e7?5/8) = 0.044.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
193
Lösningar till övningsuppgifter
410.
Vi finner
PT 1 <X<35)1 = Fx(1/2)-Fx(1/4)
3
1
2
:
41.
2
4
16
E
3
2
4
4
1 -96-8-48+1
41 = 0.39.
128
128
128
8
(a)
P (X
< 60) = |
—-x/20160 =1-e7? 3 = 0.95.E
d -z/20 dza. = [-e77/?20])]
a0f
(b) Inför följande händelser: A: (X
sannolikheten ges av P(A|B)
< 18034, B: (X
> 120). Den sökta
= P(A AN B)/P(B). Man inser (rita en
tallinje och markera tidsintervallen) att AN B = (120 < X < 180)
och därmed
P(ANB)
=
P(120 < X < 180) = |
=
e"6 —e7? = 0.00236.
180
120
I o-2/20 gr
20
Vidare ger integration
P(B)
=
P(X > 120) =1-—P(X < 120) =1 - |
=
e6 — 0.00248,
120
0
1
Sv
|
dr
varför P(A|B) = P(A NM B)/P(B) = 0.95.
Anmärkning. Lägg märke till att samma värde på sannolikheten som
i (a) erhålls; informationen om inga bilar under 2 minuter förändrade
ingenting. Man brukar i dessa sammanhang tala om minneslöshet hos
exponentialfördelningen, fördelningen för den återstående väntetiden
är densamma oavsett hur länge man väntat.
412. E[X] =3-0.3+7-0.6+8-0.1 = 5.9.
E[Y] = |
Med
194
1
y- 3y? dy = a
0
4
1
E(Y?)= | 2 -3vdy =
&
ot!
413. Väntevärdet:
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
följer variansen
V[Y] = E[Y?] — (E[Y])? = 3
80
0.0375.
414. Då X — N(0, 1) gäller att P(X < 2.1) = P(2.1) = 0.9821, P(X < —1.7) =
1 — P(1.7) = 0.04457, P(1.3 < X < 2.2) = P(2.2) — P(1.3) = 0.9861 —
0.9032 = 0.0829.
415. Då X - N(20, 9) gäller att
P(X <26)
=
på?
< =)
=
=
[Z=1/(X —20)/3 — N(0,1)]
P(Z <2) = P(2) = 0.9772.
=
23—-2
pe
=
=
=
[Z =(X — 20)/3 — N(0,1)]
P(1< Z <2)=P(2) — P(1)
0.9772 — 0.8413 = 0.1359.
Vidare:
P(23 < X <26)
416.
X-—-2
20-2
2
)
Låt X = ”Längd hos slumpvis vald student (cm)”. Sökt sannolikhet:
P(X > 200)
=
=
1-—P(X < 200) =1=- P((200 — 175)/10)
1—095(2.5) = 1 —0.9938 = 0.0062.
417. Den förväntade skillnaden ges av E[X] = (—0.5 + 0.5)/2 = 0. Standardavvikelsen fås genom att först beräkna variansen
V[IX]=
(0.5 — (—0.5))?
12
1
12
och därefter fås D[X] = ,/1/12 = 0.29.
418. — (a) Väntevärdet: E[X] =
ru zkP(X = Zz) = 0 + 1-0.24 + 2 - 0.30 +
3-:0.20+4-0.12+5-0.02 = 2.02. För beräkning av variansen behövs
E(X?] = Vioo TiP(X = zk) = 0 +1?-:0.24 + 2? : 0.30 +: +5?-
0.02 = 5.66. Nu följer V[X] = E[X?] — (E[X])? = 1.5796 och därmed
D[X] = vVV[X] = 1.26.
(b) Betingad sannolikhet:
P(X=5NX 23) P(X=5)
P(X =5|X
> 3)
P(X>3)
=
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
0.02
= P(X>3)
Q20+0.12+0.02 — 0099
195
Lösningar till övningsuppgifter
(c) Sökt sannolikhet po:
po
=
P("Minst ett 5-byte av fyra har någon skadad”)
=
1-— P("Inget av fyra 5-byten har någon skadad”)
= 1-([1- P(X > 0))7 = 1— [1 — (1 — 0.12)]? = 0.9998.
Alternativ, resonera med binomialfördelning: Inför Y
(utav fyra) med någon skadad”, med Y > Bin(4, p) där
="”Antal byten
p= P(X > 1) = 0.24 4 0.30 4 0.20 + 0.12 + 0.02 = 0.88.
Sökt sannolikhet är
P(Y > 1) =1-— P(Y =0) = 1— (1 — 0.88)" = 0.9998.
419.
Villkoret P(X = 0) = P(X = 1) ger att
MM
0
om
0
1
—
dvs. m = 1 och X > Po(1). Det följer att E[X] = V[X] =1.
420.
(a) Krav:
|
1
0
fx(r)dz =1.
Vi beräknar
|
1
0
=
ex” (1— z)! dr
a
[t=1-2,
c/
1
0
dt = da] = c /
1
0
ti(1— ty)? dt
6 — 20 +t' dt = e(
Man finner c = 105.
(b) Direkt användning av resultatet för betafördelning ger E[X]
Väntevärdet kan även beräknas genom integration:
E[X] = |
421.
1
0
zfx(x)dr = 105 /
1
0
= 3/8.
.
(1 —z)'dr= 5
(a) Variationskoefficienten V7.6/47.5 = 0.058 leder till ekvationen
0.058 = Ver? — 1
varur följer & = w/In(1 + 0.058?) = 0.058. Uttrycket för väntevärdet
leder till ekvationen 47.5 = exp(ju) exp(o?/2), med lösningen
je = In(47.5) —
196
&
o?
9 = 3.86.
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
(b) Sökt sannolikhet:
P(X < 45) = P(InX < In 45) = P((In 45 — 3.86)/0.058) = 0.18.
422. — (a) Kvantilen 109 beräknas:
T100 = b — aln(—ln(1 — 0.01))66 — 25 In(— In(0.99)) = 181 (cm).
(b) Inför slumpvariabeln Y ="Maximalt årligt snödjup överskrider z100”.
Då gäller att Y — Bin(20, p) där p = P(X > x100) = 0.01. Man finner
P(Y > 1) = 1-— P(X = 0) = 1 — 0.01? : 0.99?29 = 0.18.
423. — (a)
P(H >3)
P(H > 4)
=
=
exp(-2(3/2)?) = 1— exp(—4.5) = 0.011,
exp(-2(4/2)?) = 1— exp(—8) = 3.4 -107!.
Av det andra resultatet att döma har man tumregeln att vågor högre än
2H, är att betrakta som sällsynta.
(b)
Det tal hoa.oo1 söks som uppfyller P(H
>
ho.oo1)
=
0.001 (dvs. en
kvantilberäkning). Man finner 0.001 = exp(—hå.oo1/2), dvs. ho.oo1 =
Vv —-21n 0.001 = 3.7 m.
424. Inför slumpvariabeln Y = ”Antal inkomna larm under två dagar”. Enligt texten gäller Y -— Po(4), dvs.
Av
P(Y =y)=—e",
y!
y=0,1,2,....
Med X ="”Antal registrerade larm under två dagar” finner man
P(X=0)
P(X=1)
P(X=2)
P(X=3)
P(X =4)
= P(Y =0)
= 0.018,
= P(Y =1UY =2) = P(Y = 1) + P(Y = 2) = 0.22,
= P(Y =3)+P(Y
= 4) = 0.39,
= P(Y =5)+P(Y
= 6) = 0.26,
= 0.089, P(X =5) = 0.019
Vi beräknar summan av de funna sannolikheterna: Fl P(X = k) = 0.996,
och nöjer oss med redovisningen av dessa sannolikheter för att beskriva den
sökta sannolikhetsfunktionen för X.
Kapitel 5.
501.
— (a) Följande tabell skrivs upp:
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
197
Lösningar till övningsuppgifter
X=xr
Y=(X-1)V
P(X=2)
0
I
2
1
0
l
0.1
0.4
0.5
Utfallsrummet för Y är alltså (0, 1) och sannolikhetsfunktionen kan
tecknas som
y
0
1
pyly) = P(Y =y)
04
0.1+0.5 = 0.6.
(b) Väntevärdet: E[Y] = 0-0.4+1-0.6 = 0.6. Eftersom E[Y?] = 0? -0.4+
12 0.6 = 0.6 följer att V[Y] = E[Y?] — (E[Y])? = 0.6 — (0.6)? = 0.24.
502.
— (a) E[X — 2Y] = E[X] — 2E[Y] = 2.1—2-1.7 = —1.3.
(b) V[X — 2Y] = V[X] + (—2)?V[Y] = 1.3 + 4 - 1.9 = 8.9, D[X — 2Y] =
V/VIX — 2Y] = v8.9 = 2.98.
503. Vi har att E[X] = 5 - 0.17 = 0.85, E[Y] = 1.2. Det följer att E[5X — 3Y] =
5E[X] — 3E[Y] = 5 - 0.85 — 3 - 1.2 = 0.65.
504. För binomialfördelningen i fråga gäller att E[X] = 20 - 0.75 = 15, V[X] =
20 - 0.75 - 0.25 = 3.75. Med räknereglerna för väntevärde följer
E[X]
= El(Xi+X2+X3)/3] = 3 (EL) + E[X2] + E[X3])
=
3(15+15+15) = 15
och räknereglerna för varians ger, p.g.a. oberoende,
VI]
= VI(Xi+X2+X3)/3] = a (VDK + V[X2] + V[X3])
=
1
320: 3.75 =
3.753 =L.20.
505. FörZ = X —3Y gäller att E[Z] = 10—3-3 = 1, V[Z] = V[X]+(—-3)? V[Y] =
13, och denna blir (exakt) normalfördelad: Z — N(1,13). Den sökta sannolikheten följer: P(X — 3Y > 0) = P(Z > 0) = 1 — P(Z < 0) =
1 — P(—1/vV13) = 1— (1— P(1/V13)) = P(0.28) = 0.61.
506.
(a) InförX = ”Antal lyckade provborrningar”. Enligt förutsättningarna gäl-
ler att X — Bin(10, 0.05) och därmed att E[X] = 10 - 0.05 = 0.5.
(b) Inför Y = ”Projektets totala kostnad”. Enligt uppgift gäller
Y=2+3X+1-(10-X)=12+2X
och därmed E[Y] = E[12 + 2X] = 12 + 2E[X] = 13.
198
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
507.
(a) Givet: X — N(0, o?). Då gäller för Y = a + X,
där a är en konstant,
att Y blir normalfördelad, Y -— N(juy, 0). Parametrarna ges av juy =
E(Y] = a + E[X] = a = 1, o7 = V[Y] = 0 + V[X] = V[X] = &?, så
Y = N(1,0?).
(b) Sökt sannolikhet, p:
p
=
-
1-—P(-0.10 <Y < 0.10) = 1— P(—0.10 < 1+>X < 0.10)
te P (220
2 00)
co
Oo
=
pp(-t
< LX
=
1-—9(1.10/0)
+ +(0.90/0).
Oo
oo
<-2)
Oo
Oo
De olika värdena på & ger
508.
oc
0.1
0.5
1.0
p
1
0.98
0.95
(a) Eftersom X + Y -— Po(1.2 + 0.5) = Po(1.7) följer att
P(X+Y
>1)=1-P(X+Y
<1)=1-e""7(1+1.7)
= 0.51.
(b) Pga. oberoende gäller
P(X = 2)P(Y =1)
PUX =2)
N(Y =1))
=
509.
1.22e71-:2 (507-05
TT
I
= 0.066.
— (a) Vi finner
P(T >t)
P(Ti >tNT> >t) = [Oberoende]
=
P(T, > t)P(T> > t) = e"MHe”M2 = ert
Alltså gäller
Fr(t) = P(T <t) =1-— e 012
dvs. T
Exp(1/(A
+ A2)).
(b) P(T > 10) = e"1001/7+1/9) = 0.079.
510. Inför X ="”Antal årliga urspårningar, persontåg” samt Y ="Antal årliga urspårningar, godståg”. Enligt uppgift gäller X — Po(1.2), Y — Po(2.7). Sökt
sannolikhet: P(X +Y > 1). Om X och Y antages oberoende gäller X +Y >
Po(3.9), och vi finner
P(X+Y > 1)=1-P(X
+Y < 1) = 0.90.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
199
Lösningar till övningsuppgifter
511.
Eftersom Y = Xi — Xa > N(10.3 — 10.0, 0.2? + 0.3?) = N(0.3, 0. 13) fås
den sökta sannolikheten or
P(0.2 < Y < 0.5) = P((0.5 — 0.3)/vV0.13)—
P((0.2—0.3)/V0.13)= (0.55)— P(—0.28) = (0.55) — (1— P(0.28))
0.32.
512.
Inför X = ”Betjäningstid för en kund” och Y = ”Total betjäningstid”, där
Y=Xi
+:
+ Xa4s.
Betjäningstiderna antages oberoende. Enligt CGS gäller att approximativt Y -N(ju, 0”) där p = 45 - 3 = 135, 0? = 45 - 1 = 45. Sökt sannolikhet:
P(Y < 120) = 1— P(15/V45) = 1 — P(2.24) = 0.0125.
513.
Här är E[X] = 0.5, V[X] = 0.5? = 0.25. Approximativt gäller pga CGS att
Y — N(100 - 0.5, 100 - 0.25), dvs. N(50, 25). Sökt sannolikhet: P(Y > 47) =
— ö((47 — 50)/5) = 1— P(—0.6) = 1 — (1 — P(0.6)) = $(0.6) = 0.7257.
Sl4. Inför X; = ”Resistans hos motstånd nr i”. Enl. uppgift gäller X; — Re(9.5, 10.5)
och därmed följer E[X;] = 10 och V[X;] = 1/12. Inför
Y = ”Summan av resistanserna”,
dvs. Y =
np
TA X;. Enligt CGS gäller approximativt att Y -— N(ju, o?) där
=
24
E[Y] =)" E[X:] = 24-10 = 240,
i=1
o2
=
MY]
[Y] ==
[Oberoende
;
=
variabler]
24
3 V[X;] ;]
=
24 =292.
2
(Här betraktas 24 som ett stort antal variabler.)
Den sökta sannolikheten följer:
P(238 <Y < 242)
=
=
=
515:
242 — 240
238 — 240
)-(—)
v2
v2
ö(1.41) — P(—1.41) = 2P(1.41) — 1
2-0.9207 — 1 = 0.84.
&( —
(a) Vi har oberoende variablerna 7', ="Tidslängd, moment (i)”, 73 ="Tids-
längd, moment (ii)” (tidsenhet: minuter). Betrakta nu totala tidsåtgången
T = Ti + Ts. Eftersom E[Ti] = (0.5 — 0)/2 = 0.25, V[Ti] = (0.5 —
0)? /12 = 0.0208, E[T>] = 3, V[T2] = 3? = 9 följer att E[T] = E[T) +
T2] = E[T)] + E[T>] = 3.25 min, V[T] = V[T) + T>] = [Oberoende] =
V[Ti] + V[T2] = 9.208 min?.
200
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
(b) Vi betraktar nu projektets totala tidsåtgång:
40
Tp = y Ti
i=1
där E[T;] = E[T] och V[T;] = V[T] enligt deluppgift a). Det följer att
40
) > E[T;] = 40 - 3.25 = 130,
E[TP]
VITe]
$=1
40
=
NY” VIT] = 40 9.208 = 368.3.
$=1
Eftersom samtliga tider är oberoende och likafördelade samt 40 kan anses vara stort, gäller enligt centrala gränsvärdessatsen approximativt att
Tp — N(130, 368.3). Det följer att
P(Tp
> 120)
=
=
l1-—
P(Tp
< 120)
I — (1 — S((130 — 120)/V368.3))
(0.52) = 0.70.
516. Inför slumpvariabeln X = ”Antal bilar i ett hushåll”. Man finner
E[X]
E[(X?)
och därmed
=
=
1-0.7+2-0.1 =0.9,
1?-:0.7+2?-0.1=1.1,
V[X] = E[X?] — (E[X])? = 0.29.
Inför Y = X, + +::: + X1000. Enligt CGS gäller approximativt Y — N(1000 0.9, 1000-0.29), dvs. Y — N(900, 290). Nu söks n sådant att P(Y < n) = 0.9.
Vi använder halvkorrektion:
P(Y <n+0.5) & P((n + 0.5 — 900)/vV290) > 0.9.
Med Ao.
behövs.
= 1.28 följer n > 900 — 0.5 + 1.28y290
= 921.3, dvs. 922 platser
517. Enl. uppgift är E[X;] = 10, V[X;] = 2? = 4. Räkneregler för väntevärden
och varianser ger att E[X] = 10, V[X] = 4/40 = 0.1. Då 40 anses stort
har vi approximativt att X - N(10,0.1) och det följer att P(X < 9.5) =
P((9.5 — 10)/V0.1) = P(—1.58) = 1 — P(1.58) = 0.057.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
201
Lösningar till övningsuppgifter
518.
Inför X = ”Massan av ett betongelement”. Enligt uppgift gäller E[X] = 800
(kg), och D[X] = 0.10-800 = 80 (kg). Sök n som uppfyller kravet (i gränsen):
n
P() "Xi; > 15000) = 0.05.
$=1
Vi antar att n är tillräckligt stort för CGS att gälla. (En grov uppskattning av
antalet tillåtna element kan fås genom kvoten 15000/800 = 18.75.) Då gäller
att Y = Xj +:::+X,
blir approximativt normalfördelad, med enheter i ton,
Y — N(0.8n, n(0.08)?), och kravet kan skrivas
15 — 0.8n
För en N(0, 1)-fördelad variabel, Z säg, gäller att P(Z > 2.33) = 0.01, dvs.
kvantilen Apg.o1 = 2.33 (se tabell 2). Kravet skrivs om:
15 — 0.8n
0.08,/n
= 2.33
vilket leder till ekvationen
0.8n + 2.33 - 0.08 yn — 15 = 0.
Inför t = Y/n, vilket leder till andragradsekvationen
0.8t? + 0.1864t — 15 = 0
med lösningarnat = 4.22 eller t = —4.45. Eftersom yn > 0 måstet > 0,
vilket leder till att vi förkastar den negativa lösningen och erhåller n = 1? =
(4.22)? = 17.8. Alltså får maximalt 18 element lastas.
519. Väntevärdet:
E[A]
=
E[7R?]
=
=
TE[R?]
n |
! r? dr
=
7T
0
Variansen:
=
520.
NT
1
-
5
IN
-
3
TH
—
4?
45
[
För en slumpvariabel X -— Re(0, a) gäller E[X] = a/2, V[X] = a?/12.
För rektangel A följer förväntad area E[X,X20] = E[X1]E[X2] = a?/4. För
kvadraten B erhålls förväntad area E[X3] = V[X3] + (E[X3a]?) = a?/12 +
at/4 = a?/3.
Kvadraten har alltså förväntat större area.
202
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
Kapitel 6.
601.
(a) InförX = ”Antal missnöjda kunder av 100”. Vi har att X -— Bin(100, p),
där p är en okänd parameter. Den skattas lämpligen som p = 22/100 =
0.22.
(b) Med X — Bin(100, p) följer att p = X/100 och skattningens standardavvikelse ,/p(1 — p)/100. Ett numeriskt värde erhålls genom medel-
felet: /P(1 — p)/100 = 0.041.
602.
603.
E[f] = E[(5X,— 3X2 + X3)/3]= 3 (54— 34 + pu)= p, alltså väntevärdes-
riktighet.
E[6?]) = E[X3/2 + X3/2 — X2/4 — X6/4) = o? + p? — p/2 + o?, ej
väntevärdesriktig. Vi utnyttjade här att för en slumpvariabel Z gäller
V[Z] = E[Z?]
— (E[Z)?
<<
E[Z?] = V[Z] + (E[Z))”.
604.
Medelfelet för X ges av D[X] = s/yn = 3.5/V/12 = 1.01.
605.
Beräkning av varianserna för de tre stickproven leder till
81 = 0.28,
så =0.715,
så = 0.72.
Den sammanvägda variansskattningen ges av
(4 — 1)si + (7 — 1)s3 + (2 — 1)s3 .
- FRE
vilket ger o" = VO.
606.
.r
00,
= 0.77.
(a)
1
E[(X, + X2)?/4] = 2 EIX? + 2X1X2 + X3]
E[T1]
= (EX? +2E[X,Xo] + E[X2)
= ((VIXi] + (ELD?) + 2E(X1JEX]
I ((o? + a?) + 2a
|
=
a + (0? + a”)) =
ut
+(V[X2] + (E[X2])?))
(4a? + 20?)
co?
=
RR
2
Ej väntevärdesriktig, ty E[T,] & a?.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
203
Lösningar till övningsuppgifter
(b)
E((X? + X2)/2] = 3 (EIX2) + E(X2))
E[T2]
=
5 (VX) + (E[X1])” + VIX2] + (E[X2]))
1
=
al
"+
=
åa +0".
4
+0
1
+0") = 3(20” + 20”)
Ej väntevärdesriktig, ty E[T>] & a?.
(c) E[T3] = E[X1X2] = E[X1]E[X2] = a?. Väntevärdesriktig, ty E[T3] =
a”.2
(d) Man bör välja mätstrategin enligt (c). Strategierna i (a) och (b) överskattar arean.
607.
(a) För de individuella skattningarna fu, fr2 har vi
o?
Vlful[fa] = —,
o?
Våjo][A2] = —.
--
Variansen för skattningen av ju:
V[a]
=
Vikén + (1 — k)ä] = kV[fr] + (1 — k) V[å2]
=
KR
o?
nu
o?
+(1-k)—.
na
Vi inför funktionen
- d
s(E) ot
LE)
och söker nollställen till f”(k) vilket leder till
2k
—m
—
A01—-k
( na
) = 06
2kna — 2ny(1- k)=0&k=
nu
nm
+ na
Alltså är det optimala valet & = n1/(ni + n2). Vi kontrollerar för sä-
kerhets skull att det rör sig om minimum genom att beräkna f”(k):
f"(k)=0? (3Nn + =)
> 0
n2
Den ovan funna extrempunkten är alltså ett lokalt minimum.
(b) 1/2,1/3, 2/3, 1/3.
204
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
Kapitel 7.
701.
(a) a = Ap.p2os = 1.96.
(b) a = —AMo.oi = —2.33.
702.
(a) a = t9.005(8) = 3.36.
(b) a = —t0.05(8) = —1.86.
703.
I,, = [Z + Ao.ooso/ vn] = [17 + 2.58 - 3/V12] = [14.8, 19.2].
704.
I,, = [TZ + to.025(8)s/vn] = [32.9 + 2.31 - 3.5/3] = [30.2, 35.6].
705-
Data, 7 observationer: I = 30.017, s = 0.07387.
Alternativ 1: Antag att observationerna är normalfördelade. Med t0.025(6) =
2.45 följer då intervallet I,, = [30.017
+ 2.45 -0.07387/vV7)] = [29.95, 30.09].
Alternativ 2: Antag att observationerna inte är normalfördelade, och att stickprovet är tillräckligt stort för normalapproximation. Med A9o.o25 = 1.96 följer
då intervallet I,, = [30.017 + 1.96 - 0.07387/V/7] = [29.96, 30.07].
706.
Intervallet täcker värdet av intresse, 50 (g/m?). Vi har inte statistiskt belägg
för att förkasta hypotesen om en genomsnittlig ytvikt om 50 g/m?.
707-
Antagande om oberoende; binomialfördelning. En punktskattning av andelen
gesavp = r/n = 7/250. För ett 957. konfidensintervall enligt Agresti & Coull
beräknas storheterna 7 = n + 4 = 254, p = (I + 2)/(n + 4) = 9/254 och
intervallet följer som
p(1—D) ] = [0.013, 0.058].
I, = [P+ Aa
n
708.
Intervallet täcker inte värdet 0.01 som är av intresse — kvaliteten är inte uppfylld (konfidensgrad 0.95).
709.
Intervallet ges av
a
T — Y + Å0.025
dvs. här
710.
o2
—
mn
o?2
+ —
na
[19 —15+1.96/3 5 + —]|olT = [1.85,
|1.85, 6.15]
6.15].
Medelvärden för A, Zz, = 473.7, resp. B, z2 = 496.7. Den sammanvägda standardavvikelsen skattas med
so =
ny — 1)82
— 1)s?2
426.1 + 1524.1
(MDS
++ (n2(na
15)— [34261
+15241 — 1e5g
m
+ no
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
—
2
18
205
Lösningar till övningsuppgifter
Konfidensintervallet ges av
Zi
- TT. + to.025(741
-1+n2-—
I
l)sp
1
—
+),
nm
n2
med numeriska värden
[-23 —23 ++ 2.10
2.10 - 16.584/
16.58
1
1
— + Sd
—) = [—38.6,
[-38.6, —7.4].
—7.4]
Noll tillhör ej intervallet, så med konfidensgraden 0.95 kan vi påstå att det
finns en skillnad i medeldensitet.
711.
(a) Beteckna med L konfidensintervallets längd och A, den okända kvan-
tilen. Man har L = 2Xp,o/vVn, där o = 3, n = 100, L = 1.2. Det följer
att A, = 2, vilket motsvarar konfidensgraden 0.95.
(b) Ett tvåsidigt konfidensintervall med konfidensgraden 0.99 skapas med
kvantilen Ag.oos = 2.58. Med oförändrat L = 1.2 finner man n
(2- 2.58: 3/12) = 166.41, dvs. 167 observationer behövs.
712.
=
Modellen ”stickprov i par” är lämplig, dels pga. frågeställningen, dels pga. experimentets natur: det kan vara skillnad mellan provbitar och därför är det
klokast att betrakta observationerna parvis.
Utifrån 21, ...,z8 (Teknik A) och 21,..., ys (Teknik B) beräknas differenser
2
=
Li
—
Yj,
=
0.1,
1,...,8&:
1.4,
2.6,
—0.4,
0.6,
3.1,
0.4,
1.6.
Härur finner man Zz = 1.175 och s. = 1.227. Vi har skattat standardavvikelsen och antagit normalfördelade observationer, varför en t-kvantil används i
intervallet: [1.175 + to.025(7)1.227/vV8) = [0.15, 2.20]. Intervallet täcker inte noll, så det är statistiskt säkerställt (signifikansnivå 0.05) att det finns en
skillnad.
713.
Inför beteckningarna 21, ..-,x5 (lab. A) och yi, ...,ys (lab. A). Lämplig mo-
dell här är stickprov i par, med tanke på vad som efterfrågas och hur experimentet utförts. En modell kan skrivas
Xi =m
tea,
Vi =mwm+t+A+d;,
i=1,...,5,
där slumpbidragen €; - N(0, 1.2?) och &; - N(0, 1.2?) enligt förutsättningarna, och förskjutningseffekten A är av primärt intresse.
Differenser z; = y; — x; beräknas och man finner
1.4,
206
3.7,
—0.8,
3.0,
&
0.4
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
och z = 1.54. Vidare gäller
V[Zi] = VIA + 6; — ei] = V[ö; — ei] = V[5:] + V[ei] = 2-1.2?
och därmed V[Z] = 2 - 1.2? /5. Alltså gäller att Z; — N(A, 2 -1.2?). Ett 959
konfidensintervall för A beräknas som
IA = [Z+1.96D[Z]]
och vi finner IA = [1.54 +1.96 -1.2,/2/5] = [0.052, 3.03]. Intervallet täcker
ej noll, så det är statistiskt säkerställt (signifikansnivå 0.05) att apparaternas
genomsnittsvärden är förskjutna i förhållande till varandra.
74.
Skattningar: pi
=
13/2000
=
0.0065, pa
=
32/2500
=
0.0128. Kontroll
av tumregler: nip1i(1 — Pi) = 12.9, nopal(1 — P2) = 31.6, så ekv. (7.11) kan
användas. Ett 957--konfidensintervall ges av I», —-p, = [0.00066, 0.012). Detta
täcker inte noll, så vi kan med 957 konfidens hävda att det finns en skillnad.
Notera dock att undre gränsen ligger nära noll. Då den skattade felsannolikheten är nästan dubbelt så hög för komponent B kan man kanske intuitivt anse
att svaret är givet, men intervallet är trots allt i närheten av noll.
715. — (a) För observationerna r,,..., xc; finner man I = 502, s = 15.31. Stick-
provet får betraktas som litet, så vår möjlighet är att antaga normalfördelning och använda t-kvantilen tq.95 (4) = 2.13. Vidare gör vi standardantagandet i detta kapitel att observationerna anses oberoende.
Man är intresserad av att den undre gränsen är tillräckligt hög, så ett
intervall ges av
[f — to.os(4)syn, 00) = [502 — 2.13 - 15.31/V5, oo) = [487.4, oc).
Undre gränsen ligger under önskade nivån 500, så observationerna ger
inte stöd för att målet är uppfyllt.
(b) Frågeställningen skulle lyda: Tyder de observerade värdena på att produktionen i genomsnitt avviker från värdet 500 ton?
Kapitel 8.
801. Beräkningar: z = 1, 7 = 10/3, Sy, = Y (ri — 2)? = 2, Sy
Z)(yi — I) = 3. Det följer att
M=7-kz=11/6.
PR
802. Med r = I följer y = Mm + kz = Yy — kz
på linjen.
Oo FÖRFATTAREN OCH STUDENTLITTERATUR
-
=
k== Sry =3/22
= YALi —
+kz = j, dvs. punkten (Z, 7) ligger
207
Lösningar till övningsuppgifter
803.
804.
R? = r? = (0.95)? = 0.9025.
(a) k = Sry/Srr = 5.222/13.2 = 0.3956 = 0.40, få = gj — kr = 1.441 —
0.3956 - 4.8 = —0.4579 = —0.46.
(b) R? = S?,/(Srr'Syy) = 0.9821. Ett mycket starkt linjärt samband!
805.
F=s=,)>
10—2 (2.10349 — ex)
13.2
= 0.0686. Ett 957 konfidensintervall
för k:
I; = [0.3956 + 2.31 -0.0686/v 13.2] = [0.35, 0.44]
där vi utnyttjat att t9.025(10 — 2) = to.025 (8) = 2.31.
806.
Konfidensintervall för förväntat härdningsdjup vid x = 6.0:
1
3 +
|-0.4579 + 0.3956 - 6.0 + 2.31 - 0.0686
.0— 4.8)?
een
= [1.84, 1.99]
— 4.8)?
SE
= [1.74, 2.09].
Prognosintervall vid x = 6.0:
1
|-0.457940.3056-6.02.31-0.0686))1 + 8 +
807.
5.0
(a) Ett 9572 konfidensintervall ges av
Ir = [k + to.oas(n — 2)8/VSrzl.
Med n = 8, s = 2.61, Syr = (8 — 1): så = 7-6 = 42 och to,025(6) =
2.4469 följer intervallet I; = [—1.57, 0.41].
(b) Se figur nedan. Data indikerar ett starkt ickelinjärt samband mellan r
och y, den föreslagna modellen verkar ytterst tveksam.
808.
Det förväntade värdet ges av Yo = I + kro, där z) = 80 dB. Man finner
yo = 3.91 (mm Hg). Ett (1—&) konfidensintervall för väntevärdet av respons-
variabeln vid ett visst värde x) på regressorvariabeln ges av
ä+ Bo + tajal(n — 2) 5
Insättning av värden med s = 5, den givna informationen i utskriften, samt
ro = 80 och to.025 (20 - 2) — to.025 (18) = 2.10), ger
[3.91 + 2.10- 1.41 - 0.23] = [3.91 + 0.67] = [3.23, 4.58].
208
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Lösningar till övningsuppgifter
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
209
Något om
binomialkoefficienter
I kapitel 4.1.1, sid. 59, infördes binomialfördelningen. I uttrycket för sannolikhetsfördelningen ingår två storheter, som vi här skall diskutera närmare:
n!
=
n(n— l)(n— 2):..2-1
Här uttalas n! som n-fakultet, medan
(7 ') uttalas n över r. Den senare stor-
heten kallas ibland binomialkoefficient. Enligt konvention gäller 0! = 1, varav
följer
(0)= (=
n
n
Vi visar i exempel hur beräkningar av binomialkoefficienter kan utföras.
Exempel.
Man har exempelvis att
=5-:4:3:2-1=
120.
5
D: :32-T
= [Förkorta]=
1:2.32-T
>
()=T
ö
od
Beräkning av binomialkoefficienten (3):
Kontrollera själv, att (3) = (5) = 10. Allmänt gäller att
lean
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
211
Något om binomialkoefficienter
Vid handräkning underlättar förkortningen, i synnerhet vid större förekom-
mande tal. Beräkna exempelvis (';)= (15):
(3)=-5
3
17-167
15-14-21
= 6-17-8
3:2:1-15:-14——-2-1
= 816.
=
Numerisk beräkning av binomialkoefficienter via dator eller miniräknare kan
även ske genom att använda den s.k. gammafunktionen, T' (x). Denna kan inte uttryckas på sluten form, i termer av elementära funktioner, utan ges av
integralen
P(r) = /
0
Ps
td
vars värden kan erhållas via dator eller miniräknare. Sambandet
mellan fa-
kulteter (då x är heltal) och gammafunktionen T(r) ges av
P(r+1)=
Exempelvis kan beräkning av (2) som i exemplet ovan, då formuleras som
5
5
() — 2131
212
oo
r(6)
T(3)F(4)
Ak
& FÖRFATTAREN
OCH
STUDENTLITTERATUR
Förslag till vidareläsning
Allmänt, grundläggande
Gunnar Blom, Jan Enger, Gunnar Englund, Jan Grandell & Lars Holst (2005). Sanno-
likhetsteori och statistikteori med tillämpningar. Studentlitteratur.
Dag Jonsson & Lennart Norell (2006). Ett stycke statistik. Studentlitteratur.
Sven Erick Alm & Tom Britton (2008). Stokastik. Sannolikhetsteori och statistikteori
med tillämpningar. Liber.
Ingenjörstillämpningar
Magnus Arnér (2002). Mätosäkerhet. Studentlitteratur.
Igor Rychlik & Jesper Rydén (2006). Probability and risk analysis. An introduction for
engineers. Springer-Verlag.
Thomas Svensson (20u). Nio tumregler och två kungsvägar för att behärska mätosäkerhet. SP, Borås.
Populärt
Allan Gut (2002). Sant eller sannolikt. Norstedts förlag.
Allan Gut (2007). Konsten att räkna. Norstedts förlag.
Olle Häggström (2007). Slumpens skördar: strövtåg i sannolikhetsteorin. Studentlitteratur.
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
213
Engelska benämningar: liten
ordlista
Organisationen ISI (International Statistical Institute) har tagit initiativ till en
ordlista med statistiska begrepp på ett flertal språk. I skrivande stund (hösten
2013) finns 29 språk tillgängliga. En lista med översättning mellan svenska
och engelska har utarbetats (Jan Enger, Bernhard Huitfeldt, Ulf Jorner och
Jan Wretman; slutversion januari 2008). Den finns tillgänglig via hemsidan
för Svenska statistikfrämjandet:
http://statistikframjandet.se/
Delar av denna ordlista presenteras här. Kompletta översättningsmöjligheter
ges via IST:
http://isi.cbs.nl/glossary/
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
215
Engelska benämningar
Engelska
descriptive statistics
arithmetic mean; arithmetic average;
mean; average
mean value
median
Svenska
beskrivande statistik
aritmetiskt medelvärde
medelvärde
median
stickprovsvarians
sample variance; sampling variance
frågeformulär
spridningsdiagram
lådagram
lådagram med morrhår
frågeformulär
slumpmässig; slumphändelse
utfallsrum
questionnaire; schedule
scatter plot
box plot
box and whisker plot
questionnaire; schedule
random
event
event space; sample space;
sample description space
probability
conditional probability
distribution
distribution function
stochastic variable; variable;
random variable; random variate;
sannolikhet
betingad sannolikhet
fördelning
fördelningsfunktion
slumpvariabel; stokastisk variabel
variate
probability mass function
probability density function; pdf;
frequency function
dependence; dependency
sannolikhetsfunktion
täthetsfunktion
beroende
väntevärde
standardavvikelse
expectation; expected value
standard deviation; standard deviate
varians
variance
skattning; estimat
estimate
estimation; estimating
centrala gränsvärdessatsen
slumpmässigt stickprov
central limit theorem
random sample
skattning; estimation
medelfel
stickprovsfunktion; estimator; skattning
stickprovsstorlek
slumpfel; slumpmässigt fel
statistika; stickprovsvariabel;
konfidensintervall
signifikansnivå
standard error
estimator
sample size
random error
sample statistic; statistic; statistics
confidence interval
level of significance; significance level
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Engelska benämningar
Svenska
Engelska
linjär regression
intercept; skärning
linear regression
intercept
regressionskoefficient
beroende variabel
förklarande variabel; oberoende variabel
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
regression coefficient; regression weight
dependent variable; effect variable;
regressand; response variable
independent variable; cause variable;
explanatory variable; fixed variable;
predicated variable; predictor;
predictor variable; regressor
217
Sakregister
absolut frekvens, 22
Agresti-Coull-intervall, 148
anpassningstest, 124
aritmetiskt medelvärde, 13, 118
Poisson-, 63
Weibull, 128
fördelningsfunktion, 76
förklarande variabel, 163
Bayes formel, 46
försöksplanering, 122, 132, 153
felkomponenter, 130
felträdsanalys, 45
frekvenskvot, 35
Bayes, T., 46
betafördelning, 88
betingad sannolikhet, 43
betingningskedja, 44, 59
binomialfördelning, 61, 118, 148, 155
binomialkoefficient, 211
Box, G.E.P., 8
boxplot, 24
bubbelplott, 25, 176
centrala gränsvärdessatsen, 106, 146, 148
chiz2-test, 124
Cramér, H., 4
diskret fördelning, 59
förklaringsgrad, 168
gammafunktionen, 212
Gauss, C.F., 69
geometriskt medelvärde, 14
grundmängd, 38
Gumbelfördelning, 88, 124
händelse, 35
säker, 37
halvkorrektion, 108
histogram, 21, 169
diskret slumpvariabel, 57
dubbletter, 19
intercept, 165
effektivitet, 121
enkel linjär regression, 165
kausalitet, 163
klassiska sannolikhetsdefinitionen, 37, 42
estimator, 119, 121, 144
Kolmogorov, N.A., 40
exponentialfördelning, 67, 72
extremvärden, 5, 124
komplementmängd, 38
fördelning, 57
binomial-, 61, 118, 148, 155
exponential-, 67
likformig, 66
normal, 68
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
komplementhändelse, 40, 58
konfidensgrad, 140, 157
konfidensintervall, 140, 157
ensidigt, 157
längd, 146
tvåsidigt, 140
konsistens, 121
219
Sakregister
kontinuerlig fördelning, 63
kontinuerlig slumpvariabel, 63
korrelationskoefficient, 17, 168
kvalitativ, 10
kvalitetsmått, 132
kvantil, 80, 125, 143
kvantitativ, 10
kvartil, 81
kvartilavstånd, 16
lådagram, 24, 81
Laplace, P.-S., 37
likformig fördelning, 66
lognormalfördelning, 88
Pearson, K., 17
percentiler, 14
PLL, 72
Poissonfördelning, 63
population, 9
prediktion, 5
processvariation, 10
prognosintervall, 173
punktskattning, 119
Q-Q-plot, 125, 128, 134, 140, 169
range, 16
ranger, 19
longitudinella data, 11
Rayleighfördelning, 89
mätfel, 2, 93, 99
rektangelfördelning, 66
maximum likelihood-metoden, 118
medelfel, 121, 139, 145, 148, 167, 173
responsvariabel, 163
mätosäkerhet, 2, 10
medelvärde
aritmetiskt, 13, 118
fördelning för, 100, 102
geometriskt, 14
vägt, 13
median, 14, 24, 81
minstakvadratmetoden, 118, 165
momentmetoden, 118
regressionsmodell, 165
relativ frekvens, 37
residualer, 169
responsyta, 163
riskanalys, 46, 72
säker händelse, 37
sambandsdiagram, 17
sammanvägd variansskattning, 130, 151
sannolikhet, 37, 40, 59
sannolikhetsfunktion, 59
multipel linjär regression, 175
sannolikhetspapper, 125
normalfördelning, 68, 78, 101
standardiserad, 70, 78
simulering, 111, 126, 141
skattning, 119
normalfördelningspapper, 125
seriesystem, 55
Skellamfördelning, 106
oberoende händelser, 47, 158
slumpmässig avvikelse, 99
slumpmässigt försök, 35
oberoende variabler, 93, 95, 117
observation, 9
oförenliga händelser, 39, 46, 58
kontinuerlig, 63
oberoende stickprov, 117
ordnat stickprov, 134
outliers, 24
parallellsystem, 55
parameter, 57, 117
220
slumpvariabel, 38, 42
diskret, 57
funktion av, 91
små talens lag, 63, 104, 124
snitt, 38, 93
Spearmans rangkorrelation, 20
spridningsdiagram, 17, 24
standardavvikelse, 15, 69, 75
&
FÖRFATTAREN
OCH
STUDENTLITTERATUR
Sakregister
Steiners sats, 74
stickprov, 9, 119
ordnat, 134
stickprov i par, 153
stokastisk variabel, 38
diskret, 59
kontinuerlig, 63
stolpdiagram, 21
t-fördelning, 144, 172
täthetsfunktion, 64, 71
tidsserie, 5, 6, 11
Tjebysjovs olikhet, 15
tröghetsmoment, 74
Tukey, J.W., 24
tvärsnittsdata, 11
typvärde, 14
union, 38
uteliggare, 24
utfallsrum, 40, 58, 59, 63
vägt medelvärde, 13
väntevärde, 69, 71
varians, 15, 73, 172
variansanalys, 132
variansskattning, sammanvägd, 130, 151
variationsbredd, 16, 26
variationskoefficient, 16, 88
venndiagram, 38
Weibullfördelning, 124, 128
Wilson-intervall, 149
Oo FÖRFATTAREN
OCH
STUDENTLITTERATUR
221
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )