Uploaded by Oliver, Jakob, Andreas

Statistics formula collection

advertisement
Udvalgte nyttige formler - Statistik
Prædiktionsinterval (PI)
Risikodifferens
En normalfordelt stikprøve:
RD = 𝑝1 − 𝑝0
√οΈ€
Μ‚οΈ‚ = se(^
se(RD)
𝑝1 )2 + se(^
𝑝0 )2
95%-PI: π‘₯
¯ ± 1.96 · sd
95%-CI(RD):
Sikkerhedsinterval (CI)
95%-CI:
Μ‚οΈ‚ ± 1.96 · se(RD)
Μ‚οΈ‚
RD
Test for hypotesen: RD = 0
π‘₯
¯ ± 1.96 · sem
sd
sem = √
𝑛
𝑧=
Μ‚οΈ‚
RD
Μ‚οΈ‚
se(RD)
Sammenligning af to middelværdier
To uafhængige normalfordelte stikprøver:
̂︁ = π‘₯
diff
¯1 − π‘₯
¯2
√︁
̂︁ = sem2 + sem2
se(diff)
1
2
ln (π‘₯ · 𝑦) = ln π‘₯ + ln 𝑦,
Test for hypotesen: diff = 0
ln
π‘₯
π‘₯
= ln π‘₯ − ln 𝑦, eller = 𝑒ln π‘₯−ln 𝑦 = 10log π‘₯−log 𝑦
𝑦
𝑦
̂︁
diff
̂︁
se(diff)
Relativ risiko
Sammenligning af to uafhængige størrelser
RR =
Generelt (middelværdi, diff, 𝑝, 𝛽, RD, OR, RR):
est1 − est2
𝑧 = √οΈ€
se(est1 )2 + se(est2 )2
√οΈ‚
Μ‚οΈ‚ =
se(ln (RR))
95%-CI(RR):
Test af en fast værdi
1
1
1
1
−
+
−
π‘Ž1
𝑛1
π‘Ž0
𝑛0
Μ‚οΈ‚ ± 1.96 · se(ln (RR))}
Μ‚οΈ‚
exp {ln (RR)
Test for hypotesen: RR = 1
Test af hypotese H: πœƒ = πœƒ0
𝑧=
(πœƒ er for eksempel en middelværdi πœ‡, 𝛽, 𝑝, RD, ...)
πœƒ^ − πœƒ0
^
se(πœƒ)
odds =
Skadet
Ja Nej
π‘Ž1
𝑏1
π‘Ž0
𝑏0
Proportion
Μ‚οΈ‚
ln (RR)
Μ‚οΈ‚
se(ln (RR))
Odds ratio
Antalstabel
Eksponeret
Ja
Nej
𝑝1
𝑝0
Μ‚οΈ‚ ± 1.96 · se(ln (RR))
Μ‚οΈ‚
95%-CI(ln (RR)): ln (RR)
Husk 𝑙𝑛 ved OR og RR.
𝑧=
ln π‘₯π‘Ž = π‘Ž · ln π‘₯
π‘’π‘Ž+𝑏·π‘¦ = π‘’π‘Ž · 𝑒𝑏·π‘¦ = π‘’π‘Ž · (𝑒𝑦 )𝑏
̂︁ ± 1.96 · se(diff)
̂︁
95%-CI(diff): diff
𝑧=
Den naturlige logaritme og titalslogaritmen
I alt
𝑛1
𝑛0
𝑝
,
1−𝑝
𝑝=
odds
1 + odds
𝑝1
𝑝0
Μ‚οΈ‚ = π‘Ž1 · 𝑏0 )
/
(OR
1 − 𝑝1 1 − 𝑝0
π‘Ž0 · 𝑏1
√οΈ‚
1
1
1
1
Μ‚οΈ‚ =
se(ln (OR))
+
+
+
π‘Ž1
𝑏1
π‘Ž0
𝑏0
OR =
Prævalensproportion eller kummuleret incidens proportion.
π‘Ž1
Μ‚οΈ‚ ± 1.96 · se(ln (OR))
Μ‚οΈ‚
95%-CI(ln (OR)): ln (OR)
𝑝^1 =
𝑛1
√οΈƒ
Μ‚οΈ‚ ± 1.96 · se(ln (OR))}
Μ‚οΈ‚
95%-CI(OR): exp {ln (OR)
𝑝^1 · (1 − 𝑝^1 )
se(^
𝑝1 ) =
Test for hypotesen: OR = 1
𝑛1
95%-CI(𝑝1 ):
𝑝^1 ± 1.96 · se(^
𝑝1 )
𝑧=
Μ‚οΈ‚
ln (OR)
Μ‚οΈ‚
se(ln (OR))
Test i R×C-tabeller
Tosidet variansanalyse (twoway ANOVA)
∑︁
𝑋2 =
alle celler
Kontinuert respons 𝑦 og π‘˜ grupper (G) under
𝑛 forsøgsomstændigheder (F).
rækkesum · søjlesum
total
forventet =
(observeret − forventet)2
forventet
𝑦 = πœ‡G,F + fejl
Hypotese:
H: πœ‡G,F = 𝛼G + 𝛽F
𝑝-værdi findes i en πœ’2 -fordeling med (𝑅 − 1) · (𝐢 − 1)
Stikprøvestørrelsesberegning
frihedsgrader.
To middelværdier fra to uafhængige stikprøver
Simpel lineær regression
Signifikansniveau
𝛼
Styrke
1−𝛽
Standard deviation 𝜎
Forskel
𝛿
[︁ 𝜎 ]︁2
𝑛 = 𝑓 (𝛼, 𝛽) · 2 ·
𝛿
Kontinuert respons 𝑦.
forventet 𝑦 = 𝛼 + 𝛽 · π‘₯
eller
𝑦 = 𝛼 + 𝛽 · π‘₯ + fejl
^
95%-PI(π‘₯): 𝛼
^ + 𝛽 · π‘₯ ± 1.96 · sdres
π›Όβˆ–π›½
0.10
0.05
0.02
0.01
sd2 − sd2res
R2 =
sd2
Korrelation
1
ln
2
{οΈ‚
}οΈ‚
1+π‘Ÿ
,
1−π‘Ÿ
se(π‘§π‘Ÿ ) = √
1
𝑛−3
95% − CI(π‘§πœŒ ) : [π‘§π‘Ÿ − 1.96 · se(π‘§π‘Ÿ ) , π‘§π‘Ÿ + 1.96 · se(π‘§π‘Ÿ )]
Omregnes til CI for 𝜌 ud fra:
π‘Ÿ=
exp (2π‘§π‘Ÿ ) − 1
exp (2π‘§π‘Ÿ ) + 1
R2 = π‘Ÿ2 og
𝑧=
0.50
2.7
3.8
5.4
6.6
Type II fejl: Acceptere en falsk hypotese. Risikoen for
en type II fejl = 𝛽.
Måler styrken af den lineære sammenhæng
π‘§π‘Ÿ =
over 𝑓 (𝛼, 𝛽)
0.10 0.20
8.6
6.2
10.5
7.8
13.0 10.0
14.9 11.7
Type I fejl: Forkaste en sand hypotese. Risikoen for en
type I fejl = 𝛼.
Pearson korrelation (𝜌):
Estimat π‘Ÿ,
Tabel
0.05
10.8
13.0
15.8
17.8
√
𝛽^
π‘Ÿ
= 𝑛 − 2√
^
1 − π‘Ÿ2
se(𝛽)
Multipel lineær regression
Kontinuert respons 𝑦.
𝑦 = 𝛼 + 𝛽1 · π‘₯1 + . . . + π›½π‘š · π‘₯π‘š + fejl
Person A relativ til Person B:
SE generelt
se bestemt ud fra et sikkerhedsinterval:
øvre − nedre
se =
2 · 1.96
Husk ln til grænserne ved relative størrelser.
Fortolkninger
95%-PI: Indeholder de midterste 95% af observationerne. Ved en ny stikprøve af målpopulationen vil 95% af
data ligge i dette interval. Formlen π‘₯
¯ ± 1.96 · sd kræver
normalfordelte data.
95%-CI: Indeholder den sande værdi af parameteren
med 95% sandsynlighed. Den sande værdi er det estimat vi ville få hvis vi kunne observere alle i målpopulationen.
𝛽: Den forventede forskel i respons mellem to personer
som kun adskiller sig ved at den ene har en π‘₯-værdi
som er 1 højere end den anden.
forventet forskel =
𝛽1 · (π‘₯A1 − π‘₯B1 ) + . . . + π›½π‘š · (π‘₯Aπ‘š − π‘₯Bπ‘š )
Accept af H: 𝛽 = 0 betyder, at der ikke er signifikant
sammenhæng mellem π‘₯ og 𝑦 udover hvad der kan forklares af de øvrige variable.
𝑦 = 𝛼G + fejl
p−værdi: Sandsynligheden for at få det estimerede
(aktuelle estimat) eller noget der er længere væk fra hypotesen såfremt hypotesen er sand. Typisk siger man
at hypotesen forkastes hvis 𝑝−værdien er mindre end
0.05.
H: 𝛼1 = 𝛼2 = · · · = π›Όπ‘˜
Husk at formulere fortolkningerne ud fra den
konkrete problemstilling.
Ensidet variansanalyse (oneway ANOVA)
Kontinuert respons 𝑦 og π‘˜ grupper (G).
Hypotese:
Download