Uploaded by Manal Hichour

3-Statistiek samenvatting UNFINISHED (1)

advertisement
Bram de Leege
FTI EM
2014-2015
-Statistiek: Samenvatting
I.
Kansrekening
Een verschijnsel dat afhankelijk is van het toeval moet voldoen aan volgende voorwaarden:



Moet voor herhaling vatbaar zijn.
Bij uitvoering hebben we telkens één resultaat.
Afhankelijk van het toeval, we kunnen de uitkomst niet voorspellen.
De uitkomstenverzameling of universum W kunnen we beschrijven door:


Opsomming: W={A1, A2, A3, B1, B2, B3, C1, C2, C3}
Beschrijving: W={(ab) met a {A, B, C} en b {1, 2, 3}}
(ab) is het elementaire element van deze verzameling.
Een gebeurtenis van een verschijnsel afhankelijk van het toeval is elke
deelverzameling van de uitkomstenverzameling W. 𝐴 ⊂ 𝑊
Samengestelde gebeurtenissen
𝐴∪𝐵 =𝐴+𝐵−𝐴∩𝐵
𝐴 ∩ 𝐵 = overlapping, is 𝐴 ∩ 𝐵 = ∅ dan noemt men deze disjunct.
Complement van de gebeurtenis
𝐴𝐶 = 𝑊 − 𝐴
Productregel:
Het aantal manieren om een geordende reeks van onafhankelijke keuzes te maken is gelijk aan het product van het
aantal keuzes bij elke stap.
Verschilregel:
Het aantal elementen in een verzameling dat voldoet aan een bepaalde voorwaarde is gelijk aan het totaal aantal
elementen van de verzameling min het aantal elementen dat niet aan de voorwaarde voldoet.
Somregel:
Het aantal elementen van de unie van verzamelingen is gelijk aan de som van de elementen van elk van die
verzamelingen verminderd met de elementen in die doorsnede van de verzameling.
Dichotoom verschijnsel, bv. Binair stelsel, keuring met G of V,….
Keuze van elementen uit één verzameling met herhaling: Het aantal geordende k-tallen dat men kan samenstellen
uit een verzameling van n elementen is 𝒏𝒌 .
Variatie (Keuze van elementen uit één verzameling zonder herhaling): Het aantal geordende k-tallen die men kan
𝒏!
samenstellen zonder herhaling uit een verzameling van n elementen is (𝒏−𝒌)! = 𝑽𝒌𝒏, dit noemt men een variatie.
Wanneer 𝑛 = 𝑘 dan hebben we een permutatie 𝑷𝒏 =
𝒏!
𝟎
= 𝒏!.
Combinatie: Het aantal ongeordende k-tallen dat men kan samenstellen, zonder herhaling, uit een verzameling met
𝑽𝒌
𝒏!
𝒏!
n elementen is 𝑷𝒏 = (𝒏−𝒌)!⁄𝒌! = 𝒌!(𝒏−𝒌)! = 𝑪𝒌𝒏
𝒌
Relatieve frequentie van een gebeurtenis: 𝒇𝑨 =
𝒎𝑨
𝒎
Het uniforme kansmodel van Laplace:
𝟏

Voor de kans op een elementaire gebeurtenis in W met 𝑛𝑤 elementen is 𝒏 .

Voor de kans op een gebeurtenis A is 𝑷[𝑨] = 𝒏 𝑨 .
𝒏
𝒘
𝑾
1
Bram de Leege
FTI EM
2014-2015
Kansrekening ’s axioma’s:
 Bij elke gebeurtenis hoort één getal.
 De kans op een zekere gebeurtenis is 1.
 De kans op vele gebeurtenissen (A of B of C) is gelijk aan de som van de individuele kansen.
Gevolgen van deze axioma’s:




𝑃[∅] = 0
De kans op niets is 0.
0 ≤ 𝑃[𝐴] ≤ 1
Een kans ligt altijd tussen 0 en 1.
𝑃[𝐴 ∪ 𝐵] = 𝑃[𝐴] + 𝑃[𝐴] − 𝑃[𝐴 ∩ 𝐵] De unie is gelijk aan de som min de doorsnede.
𝑃[𝐴𝐶 ] = 1 − 𝑃[1]
Voorwaardelijke kansen:
𝑃[𝐴 ∩ 𝐵]
𝑃[𝐴|𝐵] =
𝑎𝑙𝑠 𝑃[𝐵] ≠ 0
𝑃[𝐵]
Productregel van de kansrekening:
 𝑷[𝑨 ∩ 𝑩] = 𝑷[𝑨] ∗ 𝑷[𝑩|𝑨] 𝒂𝒍𝒔 𝑷[𝑨] ≠ 𝟎
 𝑷[𝑨 ∩ 𝑩] = 𝑷[𝑩] ∗ 𝑷[𝑨|𝑩] 𝒂𝒍𝒔 𝑷[𝑩] ≠ 𝟎
Boomdiagramma’s
Voorbeeld:
𝑃[𝑀2 ∩ 𝑉1 ] = 𝑃[𝑉1 ] ∗ 𝑃[𝑀2 |𝑉1 ] =
15 42
∗
= 0,1974
57 56
Wet van de totale kans
Wanneer er geen overlap is tussen de deelverzamelingen en de unie
van al deze deelverzamelingen is de uitkomstenverzameling W, dan
noemt men dit een partitie van gebeurtenissen van W.
𝒏
𝑷[𝑩] = ∑ 𝑷[𝑨𝒊 ] ∗ 𝑷[𝑩|𝑨𝒊 ]
𝒊=𝟏
Regel van Bayes
Kansen a priori zijn kansen van gebeurtenissen zonder enige voorkennis van experiment uitgevoerd betreffende
andere gebeurtenis B.
𝑷[(𝑨𝒊 |𝑩)] =
𝑷[𝑨𝒊 ] ∗ 𝑷[(𝑩|𝑨𝒊 )]
𝒊=𝒏
∑𝒊=𝟏 𝑷[𝑨𝒊 ] ∗ 𝑷[(𝑩|𝑨𝒊 )]
We kunnen dus de kans berekenen dat A zich heeft voorgedaan op basis van de waarneming van resultaat B. Deze
kansen 𝑃[(𝐴𝑖 |𝐵)] noemen we kansen a posteriori.
Afhankelijke en onafhankelijke gebeurtenissen
2
Bram de Leege
FTI EM
2014-2015
Statistisch onafhankelijk: De kans op het trekken van een aas uit een volledige boek kaarten blijft even groot zelfs
als men weet dat het een klaveren.
𝑷[𝑨 ∩ 𝑩] = 𝑷[𝑨] ∗ 𝑷[𝑩]
Statistisch afhankelijk: De kans of een onderdeel kan gerecupereerd worden is afhankelijk van welke machine het
gefabriceerd heeft. (af te lezen in een contingentietabel)
𝑷[𝑨 ∩ 𝑩] = 𝑷[𝑨] ∗ 𝑷[𝑩|𝑨] 𝒂𝒍𝒔 𝑷[𝑨] ≠ 𝟎
𝑷[𝑨 ∩ 𝑩] = 𝑷[𝑩] ∗ 𝑷[𝑨|𝑩] 𝒂𝒍𝒔 𝑷[𝑩] ≠ 𝟎
waarbij 𝑃[𝐵|𝐴] = 𝑃[𝐵] en 𝑃[𝐴|𝐵] = 𝑃[𝐴]
Samengestelde experimenten
Onafhankelijk uitgevoerde deelexperimenten: Het resultaat blijft onveranderd, ongeacht het voorgaande
experiment.
Afhankelijk uitgevoerde deelexperimenten: De kansen van het een deelexperiment worden beïnvloed door de
resultaten van voorgaande experimenten.
Trekking met teruglegging: De deelexperiment zijn onafhankelijk.
𝒌
𝑷[𝑩] = 𝑷[𝑩|𝑨] = 𝑷[𝑨] = 𝒏
lim 𝑃[𝐵] = 𝑝
𝑛→+∞
Trekking zonder teruglegging: De deelexperimenten zijn afhankelijk.
𝑷[𝑩] = 𝑷[𝑩 ∩ 𝑨] + 𝑷[𝑩 ∩ 𝑨𝑪 ] = 𝑷[𝑨] ∗ 𝑷[𝑩|𝑨] + 𝑷[𝑨𝑪 ] + 𝑷[𝑩|𝑨𝑪 ]
lim 𝑃[𝐵] = 𝑝
𝑛→+∞
3
Bram de Leege
II.
FTI EM
2014-2015
Toevalsveranderlijken
Wanneer we een toevallig verschijnsel hebben met uitkomstenverzameling W en gebeurtenissenalgebra D(W), is de
toevalsveranderlijke X elke afbeelding X die elk element van W afbeeldt op een reëel getal.
De verzameling van alle mogelijke uitkomsten x noemen we het beeld van de toevalsveranderlijke X, afgekort bld(X)
en wordt ook de populatie van de toevalsveranderlijke X genoemd.
Discrete toevalsveranderlijke
bld(X) is aftelbaar (eindig of oneindig): bld(X)=ℕ(0) . Deze toevalsveranderlijke X is meestal een aantal dat we tellen.
Kansfunctie 𝒇(𝒙):
Cumulatieve kansfunctie 𝑭(𝒙):
𝑃[𝑋
𝑃[𝑋
𝑃[𝑋
𝑃[𝑋
𝑃[𝑋
𝑓: ℝ → [0,1]: 𝑥 → 𝑓(𝑥) = 𝑃[𝑢 ∈ 𝑋|𝑋(𝑢) = 𝑥] = 𝑃[𝑋 = 𝑥]
𝐹: ℝ → [0,1]: 𝑥 → 𝐹(𝑥) = 𝑃[𝑋(𝑢) ≤ 𝑥] = ∑𝑥𝑖≤𝑥 𝑓(𝑥𝑖 )
= 𝑥] = 𝑓(𝑥)
≤ 𝑥] = 𝐹(𝑥)
> 𝑥] = 1 − 𝐹(𝑥)
< 𝑥] = 𝐹(𝑥 − 𝑒)
≥ 𝑥] = 1 − 𝐹(𝑥 − 𝑒)
Continue toevalsveranderlijke
bld(X) is overaftelbaar. Het vormt een deelinterval [𝑎; 𝑏] van ℝ(+) .
Gebeurtenis: 𝑋 ∈ [𝑥𝑖 ; 𝑥𝑗 ] ∈ [𝑎; 𝑏]
Het interval [𝑥𝑖 ; 𝑥𝑗 ] genereert in W de gebeurtenis {𝑢 ∈ 𝑊|𝑥𝑖 ≤
𝑋(𝑢) ≤ 𝑥𝑗 } , of verkort [𝑥𝑖 ≤ 𝑋 ≤ 𝑥𝑗 ].
Kansdichtheidsfunctie 𝒇(𝒙) voorwaarden:
 ∀𝑥 ∈ [𝑎; 𝑏]: 𝑓(𝑥) ≥ 0

𝑏
∫𝑎 𝑓(𝑥)𝑑𝑥 = 1
Cumulatieve kansdichtheidsfunctie 𝑭(𝒙)
𝒙
𝑭(𝒙) = ∫𝒂 𝒇(𝒕)𝒅𝒕 voor 𝒙 ∈ [𝒂; 𝒃]
(𝐹(𝑥) is strikt stijgend)
Inverse cumulatieve kansdichtheidsfunctie 𝑭−𝟏 (𝒚)
Berekening van kansen met een continue kansverdeling
𝒙
∀𝒙𝟏 , 𝒙𝟐 ∈ [𝒂; 𝒃]: 𝑷[𝒙𝟏 ≤ 𝑿 ≤ 𝒙𝟐 ] = ∫𝒙 𝟐 𝒇(𝒕)𝒅𝒕 = 𝑭(𝒙𝟐 ) − 𝑭(𝒙𝟏 )
𝟏
4
Bram de Leege
FTI EM
2014-2015
Afgeleide toevalsveranderlijken
 𝑌 = 𝑋+𝑎
 𝑌 =𝑎∗𝑋
 𝑌 = 𝑋𝑛
𝑛
 𝑌 = √𝑋
Meerdimensionale toevalsveranderlijken
 𝑌 = ∑𝑛𝑖=1 𝑎𝑖 ∗ 𝑋𝑖
 𝐾 = 𝑋12 + 𝑋22 + 𝑋𝑛2
 𝑃 = 𝑋1 ∗ 𝑋2 ∗ … ∗ 𝑋2
Karakteristieke parameters van een toevalsveranderlijke en haar kansfunctie
Verwachtingswaarde µ𝑥 , 𝐸(𝑋) (µ = mu)
Een gewogen gemiddelde
Voor een discrete toevalsveranderlijke X:
µ𝑥 = 𝐸(𝑋) = ∑𝑖=𝑛
𝑖=1 𝑥𝑖 ∗ 𝑓(𝑥𝑖 )
Voor een continue toevalsveranderlijke X:
µ𝑥 = 𝐸(𝑋) = ∫𝑏𝑙𝑑(𝑋) 𝑥 ∗ 𝑓(𝑥)𝑑𝑥
>> X=[10:19];
>> relfreq_X=[0.3 0.05 0.05 0.15 0.1 0.1 0 0.05 0.2 0];
>> verwachte_waarde=sum(X.*relfreq_X)
Variantie 𝑣𝑎𝑟
De afwijkingen van een toevalsveranderlijke t.o.v. haar gemiddelde. 𝑣𝑎𝑟(𝑋) = 𝐸[(𝑋 − µ)2 ]
Voor een discrete toevalsveranderlijke X:
2
𝑣𝑎𝑟(𝑋) = ∑𝑖=𝑛
𝑖=1 (𝑥𝑖 − µ) ∗ 𝑓(𝑥𝑖 )
Voor een continue toevalsveranderlijke X:
𝑣𝑎𝑟(𝑋) = ∫𝑏𝑙𝑑(𝑋)(𝑥 − µ)2 ∗ 𝑓(𝑥)𝑑𝑥
>> Xminmu=X-verwachte_waarde;
>> Xminmu_2=Xminmu.^2;
>> variantie=sum(Xminmu_2.*relfreq_X)
Eigenschappen van de var-operator:
 𝑋(𝑢) = 𝑘 ⇒ 𝑣𝑎𝑟(𝑋) = 0
 𝑣𝑎𝑟(𝑋 + 𝑘) = 𝑣𝑎𝑟(𝑋)
 𝑣𝑎𝑟(𝑘 ∗ 𝑋) = 𝑘 2 ∗ 𝑣𝑎𝑟(𝑋)
 𝑣𝑎𝑟(∑𝑛𝑖=1 𝑎𝑖 ∗ 𝑋𝑖 ) = ∑𝑛𝑖=1 𝑎𝑖 2 ∗ 𝑣𝑎𝑟(𝑋𝑖 )
Standaardafwijking 𝜎
𝜎 = √𝑣𝑎𝑟(𝑋)
Standaardafwijking=sqrt(variantie)
Z-score
𝑋−µ
𝜎
Verwachtingswaarde van 𝑍 = 0 en de variantie van 𝑍 = 1 voor elke kansfunctie 𝑓(𝑥).
𝑍=
5
Bram de Leege
FTI EM
2014-2015
De ongelijkheid van Chebyshev
𝑃[|𝑋 − µ| ≥ 𝑡 ∗ 𝜎] ≤
𝑃[|𝑍| ≥ 𝑡] ≤
1
𝑡2
1
𝑡2
⇒ 𝑃[−𝑡 ≤ 𝑍 ≤ 𝑡] ≤ 1 −
1
𝑡2
Veralgemening van parameters: centrale momenten
µ𝑟 = 𝐸[(𝑋 − µ)𝑟 ] voor 𝑟 = 1,2,3,4
Scheefheidscoëfficiënt (skewness) =
Spitsheidcoëfficiënt (kurtosis) =
µ3
⁄𝜎3
µ4
⁄𝜎4
>> Xminmu_3=Xminu.^3;
>> Xminmu_4=Xminmu.^4;
>> scheefheidscoefficient=(1/(standaardafwijking^3))*sum(Xminmu_3.*relfreq_X);
>> spitsheidcoefficient=(1/(standaardafwijking^4))*sum(Xminmu_4.*relfreq_X)
Som van n toevalsveranderlijken
𝑌 = 𝑋1 + 𝑋2 + 𝑋3
𝐸(𝑌) = µ𝑌 = µ1 + µ2 + µ3
𝑣𝑎𝑟(𝑌) = 𝜎1 2 + 𝜎2 2 + 𝜎3 2
6
Bram de Leege
III.
𝑃[𝑋
𝑃[𝑋
𝑃[𝑋
𝑃[𝑋
𝑃[𝑋
FTI EM
2014-2015
Discrete kansverdelingen
= 𝑥𝑖 ] = 𝑓(𝑥𝑖 )
≤ 𝑥𝑖 ] = 𝐹(𝑥𝑖 )
> 𝑥𝑖 ] = 1 − 𝐹(𝑥𝑖 )
< 𝑥𝑖 ] = 𝐹(𝑥𝑖 − 𝑒)
≥ 𝑥𝑖 ] = 1 − 𝐹(𝑥𝑖 − 𝑒)
Discrete uniforme kansverdeling
Uniform (discreet)
unidpdf(x,N)
unidcdf(x,N)
[mu, var]=unidstat(n)
Dichotome kansverdeling
Alles of niets, binair, W={succes, mislukking}, etc.
𝑋(𝑠) = 1
𝑋(𝑚) = 0
µ=𝑝
𝑏𝑙𝑑(𝑋) = {0,1}
𝐸(𝑋) = 0 ∗ 𝑞 + 1 ∗ 𝑝 = 𝑝
𝜎 = √𝑝 ∗ 𝑞
𝑓(1) = 𝑝
⇒{
⇒{
{
𝑣𝑎𝑟(𝑋) = 02 ∗ 𝑞 + 12 ∗ 𝑝 − 𝑝2 = 𝑝 ∗ 𝑞
𝑓(0) = 𝑞 = 1 − 1
𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑤𝑎𝑎𝑟𝑑𝑒 = 𝑛 ∗ 𝑝
Binomiaal
binopdf(x,n,p)
binocdf(x,n,p)
binoinv(y,n,p)
Gebeurtenis: In een reeks van n dichotome experimenten zijn er X successen.
[mu,v]=binostat(n,p)
𝑓(𝑥) = 𝐶𝑛𝑥 ∗ 𝑝 𝑥 ∗ 𝑞 𝑛−𝑥
𝐹(𝑥) = ∑𝑥𝑖≤𝑥 𝑓(𝑥𝑖 )
µ𝑥 = 𝑛 ∗ 𝑝
𝜎𝑥 = 𝑛 ∗ 𝑝 ∗ 𝑞
P=0,7  links-scheve functie
7
Bram de Leege
FTI EM
2014-2015
Geometrische kansverdeling
Geometrisch
geopdf(x,p)
geocdf(x,p)
geoinv(y,p)
Gebeurtenis: na X dichotome experimenten treedt het eerste succes op.
[mu,var]=geostat(p)
𝑓(𝑥) = 𝑞 𝑥 ∗ 𝑝 = (1 − 𝑝)𝑥 ∗ 𝑝
𝐹(𝑥) = 1 − 𝑞 𝑥−1 = 1 − (1 − 𝑝)(𝑥−1)
1−𝑝
µ=
𝑝
1−𝑝
𝜎=√
𝑝²
Negatieve binomiale kansverdeling
Negatief binomiaal
nbinpdf(x,k,p)
nbincdf(x,k,p)
nbininv(y,k,p)
Gebeurtenis: na X dichotome experimenten zijn er k successen opgetreden.
[mu,var]=nbinstat(k,p)
𝑥
𝑥
𝑓(𝑥) = 𝐶𝑥+𝑘−1
∗ 𝑝𝑘 ∗ 𝑞 𝑥 = 𝐶𝑥+𝑘−1
∗ 𝑝𝑘 ∗ (1 − 𝑝)𝑥
𝑘 ∗ (1 − 𝑝)
µ=
𝑝
𝜎=√
𝑘(1−𝑝)
𝑝²
Hypergeometrische kansverdeling
Hypergeometrisch
hygepdf(x,N,K,n)
hygencdf(x,N,K,n)
Gebeurtenis: in een verzameling met N elementen zijn er K die
men als een succes bestempeld en N-K als een mislukking. Men
kiest willekeurig n elementen uit de verzameling van N. X is het
aantal succes in de verzameling van n elementen.
𝑓(𝑥) =
𝑁−𝐾
𝐶𝑥𝐾 ∗ 𝐶𝑛−𝑥
𝐶𝑛𝑁
µ=𝑛∗
𝐾
𝑁
𝜎 = √[𝑛 ∗
hygeinv(y,N,K,n) [mu,var]=hygestat(N,K,n)
𝐾
𝐾
𝑁−𝑛
∗ (1 − )] ∗ [
]
𝑛
𝑁
𝑁−1
8
Bram de Leege
FTI EM
2014-2015
Poisson kansverdeling
Poisson
𝑓(𝑥) =
poisspdf(x,𝜆)
poisscdf(x,𝜆)
poissinv(y,𝜆)
[mu,var]=poisstat(𝜆)
𝜆𝑘 ∗𝑒 −𝜆
𝑘!
µ = 𝐸(𝑋) = 𝑛 ∗ 𝑝 = 𝜆
𝜎 = √𝜆
Wet van de grote getallen
𝑋
𝑝∗𝑞
𝑃[|𝑛 − 𝑝| ≥ 𝑎] ≤ 𝑛∗𝑎²
De kans op een afwijking t.o.v. het gemiddelde p wordt kleiner
naarmate we de afwijking vergroten en/of het aantal
experimenten vermeerderen.
In een reeks experimenten is de kans op een zekere afwijking
van de relatieve frequentie 𝑥/𝑛 t.o.v. de kans van de
gebeurtenis p als limet nul wanner het aantal experimenten
onbeperkt stijgt. Dit verschijnsel hebben we al eerder ontmoet
onder de benaming “statistische stabiliteit”.
Het vergroten van het aantal experimenten laat ons toe om
dichter bij de ware kans te komen.
9
Bram de Leege
IV.
FTI EM
2014-2015
Continue kansverdelingen
∀𝑥 ∈ [𝑎; 𝑏]: 𝑓(𝑥) ≥ 0
𝑏
∫𝑎 𝑓(𝑥)𝑑𝑥 = 1
𝑥2
𝑃[𝑥1 ≤ 𝑋 ≤ 𝑥2 ] = ∫ 𝑓(𝑡)𝑑𝑡 = 𝐹(𝑥2 ) − 𝐹(𝑥1 )
𝑃[𝑋 ≤ 𝑥] =
𝑥1
𝑥
∫𝑎 𝑓(𝑡)𝑑𝑡
𝑏
= 𝐹(𝑥) − 𝐹(𝑎) = 𝐹(𝑥)
𝑃[𝑋 ≥ 𝑥] = ∫ 𝑓(𝑡)𝑑𝑡 = 𝐹(𝑏) − 𝐹(𝑥) = 1 − 𝐹(𝑥)
𝑥
Normale kansverdeling
Normaal
normpdf(x,µ,𝜎)
µ: plaatsvector
𝜎: vormfactor
(𝑥−µ)2
1
𝑓(𝑥) =
∗ 𝑒 2∗𝜎²
𝜎 ∗ √2𝜋
normcdf(x,µ,𝜎)
norminv(y,µ,𝜎)
[mu,var]=normstat(µ,𝜎)
Eigenschappen
 𝑥 = µ is een verticale symmetrieas
 𝑥-as is een horizontale asymptoot
 Maximum in 𝑥 = µ
 Buigpunt voor 𝑥 = µ ± 𝜎
Centrale limietstelling
Xi en Xj zijn statistisch onafhankelijk voor 𝑖 ≠ 𝑗; elke
toevalsveranderlijke Xi heeft zijn eigen kansverdeling;
∀𝑖: 𝐸(𝑋𝑖 ) = µ𝑖 ∈ ℝ en 𝑣𝑎𝑟(𝑋𝑖 ) = 𝜎𝑖2 𝜖 ℝ+; De variantie van elke
Xi levert een bijdrage aan de totale variantie, geen enkele speelt
een dominante rol
⇒ Afgeleide toevalsveranderlijke 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
asymptotisch normaal verdeeld.
Standaardnormaalverdeling
Toevalsveranderlijke 𝑍 =
𝑋−µ
;
𝜎
µ𝑧 = 0 en 𝜎𝑧 = 1 ⇒ 𝑓(𝑧) =
1
√2𝜋
𝑧²
∗ 𝑒 − 2  Op te lossen me Z-scores (niet op EX)
Merkwaardige kansen
1
Chebichev: 𝑃[|𝑋 − µ| ≥ 𝑡 ∗ 𝜎] ≤ 𝑡²
𝑃[|𝑋 − µ| ≤ 𝜎] = 𝑃[|𝑍| ≤ 1] = 𝑃[−1 ≤ 𝑍 ≤ 1] = normcdf(1,0,1) – normcdf(-1,0,1) = 0,6827 ≅ 2/3
𝑃[|𝑋 − µ| ≤ 2𝜎] = 𝑃[|𝑍| ≤ 2] = 𝑃[−2 ≤ 𝑍 ≤ 2] = normcdf(2,0,1) – normcdf(-2,0,1) = 0,9545
𝑃[|𝑋 − µ| ≤ 3𝜎] = 𝑃[|𝑍| ≤ 3] = 𝑃[−3 ≤ 𝑍 ≤ 3] = normcdf(3,0,1) – normcdf(-3,0,1) = 0,9973
Benadering voor binomiale verdeling
𝑛 ≥ 30
𝑛∗𝑝 >5
𝑛∗𝑞 >5
µ𝑥 = 𝑛 ∗ 𝑝
𝜎𝑥 = √𝑛 ∗ 𝑝 ∗ 𝑠
Benadering voor Poisson-verdeling
𝜆 ≥ 30
µ=𝜆
𝜎 = √𝜆
Meerdere normaalverdelingen
Voortplantingswet: Als de toevalsveranderlijken 𝑋1 , … , 𝑋𝑛 statistisch onafhankelijk zijn en als ze alle normaal
verdeeld zijn, dan is 𝑌 = 𝑎1 ∗ 𝑋1 + ⋯ + 𝑎𝑛 ∗ 𝑋𝑛 normaal verdeeld. De parameters van 𝑌 zijn dan:
µ𝒀 = ∑𝒊=𝒏
en
𝝈𝟐𝒀 = ∑𝒊=𝒏
𝒊=𝟏 𝒂𝒊 ∗ µ𝒊
𝒊=𝟏 𝒂𝒊 ² ∗ 𝝈𝒊 ²
10
Bram de Leege
FTI EM
2014-2015
Chi-kwadraat-verdeling
Chi-kwadraat
chi2pdf(x,n)
Zi en Zj statistisch onafhankelijk voor 𝑖 ≠ 𝑗
Elke Zi is normaal verdeeld (𝑍𝑖 ~𝑁(0; 1)
n vrijheidsgraden
𝑓(𝑥) =
1
𝑛
chi2cdf(x,n)
chi2inv(y,n)
[mu,var]=chi2stat(n)
𝑥
−1
−
𝑛 ∗ 𝑥2 ∗ 𝑒 2
𝑛/2
2
∗Γ∗
2
µ=𝑛
𝜎 = √2𝑛
Hierbij is Γ de gamma-functie en 𝑛 de vormcoëfficiënt die het “aantal vrijheidsgraden” van de kansverdeling noemt.
t-verdeling van Student
T-Student
tpdf(x,n)
tcdf(x,n)
Z en Y statistisch onafhankelijk
Z is standaardnormaal verdeeld
Y is chi-kwadraat verdeeld met n vrijheidsgraden
tinv(y,n)
[mu,var]=tstat(n)
𝑛+1
Γ∗ 2
1
𝑓(𝑥) =
∗
𝑛
2 𝑛+1
Γ ∗ 2 ∗ √𝜋 ∗ 𝑛 (1 + 𝑥 ) 2
𝑛
µ=0
𝑛
𝜎=√
𝑛−2
Hierbij is Γ de gamma-functie en 𝑛 de vormcoëfficiënt die het “aantal
vrijheidsgraden” van de kansverdeling noemt.
De t-verdeling is symmetrisch t.o.v. nul
11
Bram de Leege
V.
FTI EM
2014-2015
Data
Populatie – Big Data
De volledige groep van mensen, dingen, voorwerpen, etc. waarover we informatie willen.
Eenheid: Elke individueel element van de populatie.
Variabele: Het kenmerk dat men wil meten.
Iedereen, altijd en overal.
Steekproef – Small Data
De veralgemening van de steekproefresultaten tot kenmerken van
de populatie is de triomf van de statistiek.
Beperkte groep, nauwkeurige meting
Vertekening = systematische fout = bias
Selection bias, publication bias, lying bias, etc.
Representativiteit
Ze getrouw mogelijk de toestand van de populatie weergeven en
geen toevallige afwijkingen tussen de steekproef en de populatie.
Methoden
 Aselecte steekproeven: De elementen worden ad random gekozen.
 Geslaagde of gestratificeerde steekproeven: rekening houden met subgroepen.
Bv.: zorgen voor evenveel ondervraagde mannen als vrouwen.
 Cluster steekproef: Eén als model voor velen.
Bv.: een klas ondervragen om een beeld te krijgen van een hele school.
 Sequentiële steekproef: grof maar fijn
Het al dan niet voeren van nog een steekproef op basis van het resultaat van de vorige.
Steekproefresultaten
Meetschaal = verzameling van de bruikbare getallen
Soorten
 Nominaal: naam (gelijk of verschillend
Bv.: wit vs rood; zoet, zuur, …
 Ordinaal: + orde (groter dan, kleiner dan)
Bv.: appreciatie van 1 tot 5
 Intervalschaal: + bestaan van een eenheid
Bv.: temperatuur in °C en 0°C bestaat
 Verhoudingsschaal: + absoluut nulpunt
Bv.: temperatuur in K en 0K betekend de afwezigheid van temperatuur
12
Bram de Leege
Computergegenereerde steekproeven
FTI EM
2014-2015
>> randomnr=rand(‘aantal stappen’,’max. waarde’)
>> steekproef=random(‘verdelingsnaam’,
parameter1, parameter2, …, ‘rijen’,’ ‘kolommen’)
>> data_sorted=sort(data)
>> min(data)
>> max(data)
>> range(data)
>> hist(data)
>> mean(data)
>> median(data)
>> boxplot(data, ‘whisker’, 5)  zonder uitschieters
>> boxplot(data)  met uitschieters
>> minimun=quantile(data,0)
>> Q1=quantile(data, 0.25)
>> Q2=quantile(data, 0.50)
>> Q3=quantile(data, 0.75)
>> maximum=quantile(data, 1)
>> s=standaard_afwijking=std(data)
>> variantie=var(data)
>> IKA=Interkwartielafstand=quantile(data, 0.75)quantile(data, 0.25)
13
Bram de Leege
VI.
FTI EM
2014-2015
Schatten van parameters – Betrouwbaarheid
Van steekproef naar populatie: interferentie
Interferentie betekend besluitvorming. Laten de
steekproefresultaten ons toe om besluiten te trekken over de
populatie en hoe betrouwbaar zijn ze?
Schatten van het populatiegemiddelde µ
𝑋𝑛
𝑋̅ = ∑𝑛=𝑖
𝑖=1 𝑛 met 𝑛 = steekproefgrootte
Populatie Steekproef
Gemiddelde
µ
𝑥̅
Standaardafwijking
𝜎
𝑠′
Het steekproefgemiddelde 𝑥̅ is een toevalsveranderlijke
µ𝑋̅ = µ
𝜎
𝜎𝑋̅ =
√𝑛
Het steekproefgemiddelde 𝑥̅ als schatter voor µ




𝑋̅ is asymptotisch raak
𝑋̅ is een zuiver schatter
𝑋̅ heeft minimale variantie
𝑋̅ is voldoende: alle brontoevalsveranderlijken spelen een rol
Het steekproefgemiddelde 𝑥̅ is (soms) normaal verdeeld
𝑋̅~𝑁(µ;
𝜎
√𝑛
)
Het betrouwbaarheidsinterval voor µ (𝝈 gekend)
𝑋̅~𝑁(µ;
𝜎
)𝑍
√𝑛
𝑋̅−µ
=𝜎
⁄ 𝑛
√
~𝑁(0,1) 𝑥̅ − 𝑧0 ∗
𝜎
√𝑛
≤ µ ≤ 𝑥̅ + 𝑧0 ∗
>> xbar=mean(steekproef)
>> histfit(xbar)
>> [muxbar,sigbar]=normfit(xbar)
muxbar=…
sigbar=…
𝜎
√𝑛
Betekenis van het betrouwbaarheidsinterval
(1 − 𝛼) noemen we de betrouwbaarheid en 𝛼 de onbetrouwbaarheid van het
interval.
Het betrouwbaarheidsinterval geeft geen zekerheid: af en toe gaan we een interval
voor µ berekenen dat het populatiegemiddelde niet bevat.
14
Bram de Leege
FTI EM
2014-2015
Het betrouwbaarheidsinterval voor µ (𝝈 niet gekend)
𝑛
1
𝑠 =√
∗ ∑(𝑥𝑖 − 𝑥̅ )²
𝑛−1
′
𝑖=1
𝑋̅−µ
𝑆′⁄ ~𝑇(𝑛
√𝑛
− 1)  𝑥̅ − 𝑡0 ∗
𝑠′
√𝑛
≤ µ ≤ 𝑥̅ + 𝑡0 ∗
𝑛 < 30 en M onbekend
𝑠′
√𝑛
>> normplot(x)
Normality plot  kwalitatief
Anderson-Darling test  kwantitatief
“0” betekent quasi-normaal verdeeld
“1” betekent niet quasi-normaal verdeeld
>> adtest(x)
Intervallente 𝐿 en steekproefgrootte 𝑛
𝜎 gekend
𝜎 niet gekend
𝜎
𝑠′
𝐿 = 2 ∗ 𝑧0 ∗
𝐿 = 2 ∗ 𝑡0 ∗
√2
√2
4 ∗ 𝑧02 ∗ 𝜎²
4 ∗ 𝑡02 ∗ 𝑠′²
𝑛>
𝑛>
𝐿20
𝐿20
Intervallente 𝐿
Steekproefgrootte 𝑛
chi2(x,9)
Intervalschatting voor populatievariantie 𝜎²
(𝑛−1)∗𝑆′²
𝜎²
(𝑛−1)∗𝑠′²
~𝑋²(𝑛 − 1) 
𝑋𝑏2
≤ 𝜎² ≤
(𝑛−1)∗𝑠′²
𝑋𝑎2
Schatting van een proportie 𝑝
Bij een dichotome vraagstelling:
Proportie = 𝑝 =
𝑌=
𝑋
𝑛
aantal successen in de populatie
totaal aantal in de populatie
met 𝑌 = aantal relatieve successen, 𝑋 = aantal successen en 𝑛 = de steekproefomvang
15
Related documents
Download