Hoofdstuk 1 Populatie Variabelen Steekproef Beschrijvende statistiek Verklarende/inferentiële stat Kansrekening Verzameling van elementen of objecten die we willen bestuderen Kenmerken/eigenschappen die we onderzoeken Deelverzameling vd populatie Gegevens inzichtelijk voorstellen met tabellen en grafieken Gegevens analyseren en besluiten veralgemenen naar populatie Studie v experimenten waarin toeval een rol speelt nominaal = klasseren in categorieën Kwalitatief nt op numerieke meetschaal meten ordinaal = ordenen Variabelen intervalschaal = nulpt arbitrair kiezen Kwantitatief meten met op numerieke schaal ratioschaal = natuurlijk nulpt continu = tss 2 waarden, een 3e onaftelb discreet = eindig #waarden Hoofdstuk 2 Univariaat Datamatrix (absolute) frequentie Relatieve frequentie Staafdiagram Pareto diagram Cirkeldiagram Univariate kwantitatieve geg (geg van 1 kwant var weergegeven) Histogram Klassebreedte analyse van een enkele kansvariabele Tabel: elementen in rijen, variabelen in kolommen #elementen die in een categorie horen Verhouding absolute f / totaal Weergave van frequenties Staafdiagram herschikken volgens dalende f, relatieve f cumeleren (nominale variabele) Discreet -stengel-en-bad diagram -staafdiagram Continu: -histogram -frequentiepolygoon Geeft continue variabelen weer Breedte klassen in histogram #klassen = √π‘ππ‘πππ #πππππ£πππ (max 20) Klassenbreedte = Frequentiepolygoon Bivariate gegevens Kwantitatieve variabelen (empirische) cumulatieve verdelingsfunctie (^ = steekproef) Kwantielfunctie Een statistiek Tine Declerck max − πππ #ππππ π ππ Grafiek die middens vd toppen vh histogram verbindt Geeft gegevens van twee kwal variabelen tegelijk weer -kruistabel -meervoudig staafdiagram (of stapeldiagram) 2 kwantitatieve geg -scatterdiagram (puntenwolk) -cumulatieve verdelingsfunctie -kwantielfunctie #π€πππππππππππ<π₯ ^ Fn(x) = (n = totaal #geg) =trapfunctie π Inverse cumulatieve verdelingsfunctie (xi kleinste waarneming) ^Q (p) = x met i β np β n i Gegevens samenvatten in 1 getal dat kenmerkend is voor de volledige steekproef 1 Centrumkenmerken Spreidingskenmerken Getrimd gemiddelde Modus Standaardisatie Spreidingsbreedte/bereik Boxplot getal ligt ergens in het midden Geeft verspreiding tov centrum weer Gemiddelde vd resterende gegevens (laat uitschieters vallen) Element dat het meest voorkomt in de steekproef Lineaire transformatie vd geg (met a = 1/s en b = - µ/s) Verschil tussen grootste en kleinste waarneming = box-and-whisker plot Mogelijke uitschieters buiten interval: [π1 − 1.5πΌππ ; π3 + 1.5πΌππ ] Empirische scheefheid Geeft asymmetrie v/e steekproef weer Empirische kurtosis Meet dikte staart steekproef Covariantie Meet de lineaire associatie Kleinstekwadratenmethode Zoekt rechte die totale afwijking tss punten en rechte zo klein mogelijk maakt Tine Declerck 2 Naam Centrumkenmerken Gemiddelde Gewogen som/gemiddelde (mj = mogelijke waarden, fj = abs f) Gebruikte symbolen Symbool X X Formule π 1 µ = ∑ π₯π π =µ π =µ µ = ∑ ππ ππ (k = #mogelijke waarden) Mediaan Spreidingskenmerken (steekproef)variantie (x = steekproef) π=1 π=1 med(x) var(x) sx2 π 1 π£ππ(π₯) = ∑(π₯π − µ)² π−1 π=1 Steekproefstandaardafwijking s Standaardisatie zi Variatiecoëfficiënt cv Interkwartielafstand Empirische k-de orde moment IQR mk Empirische k-de orde centrale moment mk’ Empirische scheefheid ϒ π = √π ² π₯π − π π§π = π π₯ π π₯ ππ£ = πΌππΌ Q3 – Q1 π 1 ππ = ∑ π₯ππ π π π′π = π=1 1 ∑(π₯π − π)π π π=1 Empirische kurtosis k Steekproefcovariantie Cov(x,y) = sxy Correlatiecoëfficiënt r(x,y) π′3 ^ ϒ= 3 (π2′ )2 ^ π′4 π= (π′ 2)2 π _ 1 π π₯π¦ = ∑(π₯π − µ)(yi − y) 1−π π=1 Kleinste kwadraten methode π(π₯, π¦) = √π£ππ(π₯)∗√π£ππ(π¦) π π π=1 π=1 ^ ∑(π¦π − π¦π)2 = ∑(π¦π − ππ₯π − π)2 π= Tine Declerck πππ£(π₯,π¦) πππ£(π₯,π¦) π£ππ(π₯) en _ _ π = π¦ − ππ₯ 3 Hoofdstuk 3 Ω A AC ∪ ∩ ⊆ / Kansexperimenten Steekproef- / uitkomstenruimte Gebeurtenis Elementaire gebeurtenis Zekere gebeurtenis Onmogelijke gebeurtenis Complementaire gebeurtenis Vereniging / unie Doorsnede Exhaustief Disjunct Partitie Impliceren Verschil Kansruimte Frequentie- / empirische definitie Kansdefinitie van Laplace A posteriori kans P(A I B) A priori kans P(A) Onafhankelijke gebeurtenis Wet van de totale kans = stochastische experimenten Verzameling van alle mogelijke uitkomsten Elke (deel)verzameling vd uitkomsten Deelverzamelingen met slechts één element Uitkomstruimte is zelf een gebeurtenis Lege verzameling is ook een gebeurtenis Treedt op wnr A niet optreedt Of En Wanneer de unie de volligede uitkomstruimte is 2 gebeurtenissen sluiten elkaar uit Gebeurtenissen zijn zowel exhaustief als disjunct Als A optreedt, dan treedt B ook op Gebeurtenis B treedt op zonder A Het paar (Ω,P) Stabilisatiewaarde vd relatieve frequentie A onder een groot aantal proeven Symmetrisch experiment -eindig #mogelijke uitkomsten -elke uitkomst is even waarschijnlijk = voorwaardelijke kans = onvoorwaardelijke kans Het al dan niet optreden van B geeft geen invloed op het optreden van A Onvoorwaardelijke kans in termen van een voorwaardelijke kans schrijven Regel van Bayes #π΄ β Laplace: π(π΄) = #Ω β’ P(A1 ∪ A2) = P(A1) + P(A2) (beiden disjunctief) β’ P(A ∪ B) = P(A) + P(B) – P(A ∩ B) (willekeurige gebeurtenissen) = optelregel β’ P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩ C) = uitbreiding optelregel β’ P(AC) = 1 – P(A) β’ als A ⊆ B dan P(A) ≤ P(B) en P(B/A) = P(B) – P(A) OF B = A ∪ (B/A) en dus P(B) = P(A) + P(B/A) β’ P(A ∩ B) ≤ P(A) + P(B) Tine Declerck 4 β combinatorische kansrekeningen Herhaling TOEGELATEN Volgorde VAN belang _ Herhaling NIET TOEGELATEN _ Vkn Px,y..n Volgorde NIET van belang Vkn Pn _ Ckn Ckn OPGELET: een verschillende opdracht: Ckn dezelfde opdracht: Ckn / Pn (onderlinge verwisseling wegdelen) _ β’ Vkn = nk π! β’ Vkn = (π−π)! _ π! β’ Px,y..n = π1!π2!…ππ! _ (π+ π−1)! β’ Ckn = (π−1)!π! (met n1 etc = #keren bepaald element voorkomt) (anagram) π! β’ Ckn = (π−π)!π! β Voorwaardelijke kans π(π΄ ∩ B) π(π΅) π(π΄π ∩B) C P(A I B) = π(π΅) β’ P(A I B) = β’ = 1 – P(A I B) β’ P(A ∩ B) = P(B) * P(A I B) MAAR OOK P(A ∩ B) = P(A) * P(B I A) β onafhankelijke gebeurtenis β’ P(A) = P(A I B) β’ P(B) = P(B I A) β’ P(A ∩ B) = P(A) * P(B) β Wet van de totale kans β’ P(A) = ∑ππ=1 π(A I Bi) * P(Bi) (vermenigvuldigingsregel) (afhankelijk van elkaar) (uitbreiding ook kunnen gebruiken) (A is onafhankelijk van B) (B is onafhankelijk van A) (onvoorwaardelijke kans al voorwaardelijk schrijven) β Regel van Bayes β’ P(A I B) = π(π΄)∗π(π΅ πΌ π΄) π(π΄) ∗ π(π΅ πΌ π΄) + π(π΄π) ∗π(π΅ πΌ π΄π) EN -> P(X) * P(Y) OF -> P(X) + P(Y) Tine Declerck = ∑π π(π΄π)∗π(π΅ πΌ π΄π) π=1 π(π΄π) ∗ π(π΅ πΌ π΄π) 5 Hoofdstuk 4 Stochastische / kansvariabele X=x Cumulatieve verdelingsfunctie Staart- / overlevingsfunctie Discrete kansvariabele X(.) FX (X) px(mi) Continue kansvariabele Kansdichtheid µX Standaarddeviatie fX(x) σX Kwantielfunctie p-kwantiel QX(p) Modus Functie X die de uitkomstenruimte Ω afbeeldt op β “de functie X(.) heeft als waarde x” Kans op een uitkomst kleiner dan of gelijk aan Complement vd cumulatieve overlevingsfunctie Kansvariabele die slechts een eindig /aftelbaar oneindig #waarden kan aannemen Kansvariabele die een onaftelbaar #waarden kan aannemen Afgeleide van de verdelingsfunctie FX (X) Populatiegemiddelde = standaardafwijking Maat voor de spreiding van een variabele Inverse van de verdelingsfunctie De waarde van deze functie in een punt p Kleinste getal waarvoor FX(x) ≥ p Waarde waarvoor kansverdeling/kansdichtheid een (lokaal) maximum bereikt β Cumulatieve verdelingsfunctie β’ FX (X) = P(X ≤ x), x ∈ β _ β’ FX (X) = P(X > x) = 1 - P(X ≤ x) = 1 - FX (X) β’ P(x1 < X ≤ x2) = Fx (x2) - Fx (x1) (staartfunctie) (x1 < x2) β Discrete kansvariabele β’ px(mi) = P(X = mi), i = 1, 2, .., k (kansverdeling) β’ ∑ππ=1 ππ₯(ππ) = 1 β Cumulatieve verdelingsfunctie van een discrete kansvariabele β’ FX (X) = P(X ≤ x) = ∑ππ≤x ππ₯(ππ) , π₯ ∈ β (kan niet >1) β Continue kansvariabele π β’ fX(x) = ππ₯ FX(x) (kansdichtheid) (kan >1) π₯ β’ P(X = x) = ∫π₯ ππ₯(π¦)ππ¦ = 0 β Kansdichtheid bij een lineaire transformatie β’ FY(y) = Tine Declerck 1 |π| ππ ( π¦−π π ) (bewijs) 6 β Kenmerken van populatieverdelingen β’ µX = E(X) = ∑ππ=1 ππ ππ (ππ) (discrete) +∞ β’ µX = E(X) = ∫−∞ π₯ ππ(π₯) ππ₯ (continue) β’ E(Y) = E(aX + b) = aE(X) + b (lineaire transformatie) β’ E(Y) = E(X – E(X)) = 0 (gecentreerde kansvariabele) β’ E(X) = c (cont. kansvar waarvan fX sym is tov rechte) β’ P(X ≥ a) ≤ πΈ(π) , π ∀a>0 (ongelijkheid van Markov)(2 bewijzen) β Variantie en standaardafwijking v/e kansvariabele β’ Var(X) = E[(X – E(X))²] = E(X²) - (E(X))² (bewijs) β’ Var(X) = ∑ππ=1(ππ − πΈ(π))² πX(mi) (discrete) +∞ 2 β’ Var(X) = ∫−∞ (π₯ − πΈ(π₯)) ππ₯(π₯) ππ₯ β’ σX = √πππ(π) β’ Var(Y) = a² Var(X) (lineaire transformatie) β’ σX = |a|σX (lineaire transformatie) β’ Var(b) = 0 (var van een constante = 0) β’ P(|X – E(X)| ≥ t) ≤ β’ Z= πππ(π) , π‘² ∀a>0 π− ππ₯ (t = kπX) (ongelijkheid van Chebyshev) (gestandaardiseerde kansvariabele) ππ₯ β’ E(Z) = 0 β’ Var(Z) = 1 (zelf kunnen nagaan) β Kwantielen, mediaan en kwartielen β’ QX(p) = inf{x π β | FX(x) ≥ p}, 0<p<1 ππ₯(π) β’ ∫−∞ πX (x) dx = p (kwantiel v/e continue variabele) β’ Med(X) = QX(0.5) β Andere kenmerken β’ πΎX = πΈ[(π− ππ₯)3 ] ππ₯³ β’ ϒX = ϒY (Y = X + c) β’ ϒX = 0 β’ KX = Tine Declerck (bewijs) (verschuiving geen effect op scheefheid) (bewijs)(kansvar waarbij fX sym is tov rechte) πΈ[(π−ππ₯)]4 ππ₯ 4 7 Hoofdstuk 5 Multivariate kansvariabele X p(x,y) pX(x) en pY(y) f(x,y) fX(x) en fY(y) ρ (X,Y) ρ (X,Y) = 0 Efficiënt portefeuille Efficiënt frontier Meerdere reële getalen kunnen worden geassocieerd met elke mogelijk uitkomst Functie die de uitkomstenruimte afbeeldt op βk (gezamenlijke) kansverdeling van (X, Y) discreet Marginale kansverdeling (gezamenlijke) kansdichtheid van (X, Y) Continu Marginale kansdichtheid Correlatiecoëfficiënt Ongecorreleerde kansvariabelen Onafhankelijk = ongecorreleerd (maar niet omgekeerd) Portefeuilles die niet gedomineerd worden Alleen efficiënte portefeuilles overhouden β Discrete multivariate kansvariabelen β’ p(x,y) = P(X = xi, Y = yj) = P((X = xi) ∩ (Y = yj)) β’ ∑π ∑π π(xi, yj) = 1 (gezamenlijke kansverdeling) β’ pX(xi) = ∑π π(xi, yj) (marginale) pY(yj) = ∑π π(xi, yj) β continue multivariate kansvariabelen ∞ ∞ β’ ∫−∞ ∫−∞ f(x,y) dx dy = 1 (gezamenlijke kansdichtheid) ∞ β’ fX(x) = ∫−∞ π(π₯, π¦) ππ¦ (marginale) ∞ fY(y) = ∫−∞ π(π₯, π¦) πx indien kansvariabelen onafhankelijk zijn, zijn gezamenlijke = product v marginale β afhankelijkheid en voorwaardelijke verdeling β’ p(xi, yj) = pX(xi) * pY(yi) (discreet) (indien onafhankelijk) β’ f(x,y) = fX(x) * fY(y) (continu) (indien onafhankelijk) β’ pX|Y(xi, yj) = P(X = xi | Y = yj) = P(X = xi | Y = yj) P(Y=yj) = p(xi,yj) ππ(π¦π) (voorwaardelijke kansverdeling van X) β’ ∑π pX|Y(xi, yj) = 1 (analoog voor Y) π(π₯,π¦) π(π₯,π¦) β’ fX|Y(x | y) = ππ(π¦) en fY|X(y | x) = ππ(π₯) Tine Declerck (voorwaardelijke kansdichtheid) 8 β Kenmerken β’ E[g(X,Y)] = ∑π ∑π g(xi, yj) p(xi, yj) ∞ ∞ (discreet) β’ E[g(X,Y)] = ∫−∞ ∫−∞ g(x, y) p(x, y) dx dy (continu) β’ E(aX + bY + c) = aE(X) + bE(Y) + c (lineaire combinatie)(2xbewijs) β’ E(a0 + a1X1 + .. + anXn) = a0 + a1E(X1) + .. + anE(Xn) (bewijs) β’ E(XY) = E(X) * E(Y) (indien X en Y onafh) (factorisatie)(2xbewijs) β’ Cov(X,Y) = E[(X - E(X)) (Y - E(Y))] β’ ρ(X,Y) = πΆππ£(π,π) √πππ(π)πππ(π) o ρ(X,Y) = ∑π ∑π (xi – E(X)) (yj – E(Y)) p(xi, yj) o ρ(X,Y) = ∫−∞ ∫−∞ (x – E(X)) (y – E(Y)) f(x,y) dx dy ∞ ∞ (discreet) (continu) β’ Cov(X,Y) = E(XY) – E(X)E(Y) (rekenformule) β’ Cov(a1X + b1; a2Y + b2) = a1a2 Cov(X,Y) (bewijs) β’ ρ(a1X + b1; a2Y + b2) = teken(a1a2) ρ(X,Y) -1 ≤ ρ(X,Y) ≤ 1 indien lineair verband onafhankelijke kansvariabelen: β’ Cov(X,Y) = 0 = ρ(X,Y) (volgt uit rekenformule & factorisatie) (indien X en Y onafhankelijk) β’ Var(aX + bY + c) = a²Var(X) + b²Var(Y) + 2abCov(X,Y) (bewijs) β’ Var(X + Y) = Var(X) + Var(Y) (indien X en Y onafhankelijk zijn) β’ Var(a0 + ∑ππ=1 aiXi) = Cov(∑ππ=1 aiXi, ∑ππ=1 ajXj) (lineaire transformatie n>2) = ∑ππ=1 ∑ππ=1 aiaj Cov(Xi, Yj) β’ Cov(X + Y, Z) = Cov(X,Z) + Cov(Y,Z) Tine Declerck (bewijs) 9 Hoofdstuk 6 (discrete verdelingen) Uniforme verdeling Bernoulli / alternatieve verdeling X ~ B(1,p) Binaire / dichotome variabele Binomiale verdeling X ~ B(n,p) Poisson verdeling X ~ Poisson(λ) Intensiteit λ Geometrische verdeling X ~ Geom(p) Hypergeometrische verdeling X ~ HGeom(N,r,n) (X ~ B(n, r/N) ) Elke mogelijke waarde 1,2 ,.., k heeft dezelfde kans om op te treden Enkel kans op succes meten (p = succes / q = mislukking) Kansvariabele X die slechts 2 waarden kan aannemen Opeenvolging van identieke en onafhankelijke Bernouilli experimenten, met interesse in #sucessen p = λ/n met λ een positieve constante modelleren vh #keren een gebeurtenis zich voordoet in een bepaalde eenheid van tijd of ruimte Het gemiddeld #gebeurtenissen in de gekozen eenheid Opeenvolging van identieke en onafhankelijke Bernouilli experimenten, met interesse in #exp nodig om een eerste succes te observeren N = populatie van grootte r = #elementen n = steekproef (zonder teruglegging) (met teruglegging) β Uniforme verdeling β’ ∑ππ=1 πX(i) = 1 1 β’ pX(i) = π i = 1, …, k 0 x<1 β’ FX(x) = 1 π x ∈ [i, i+1 [ met i = 1, .., k-1 1 x≥k β’ E(X) = π+1 2 β’ E(X) = a + β’ Var(X) = β’ (bewijs) π−1 (X = a + (X’ -1)b) 2 π 2 −1 (bewijs) 12 π2 −1 Var(X) = π² 12 (X = a + (X’ -1)b) β Bernoulli verdeling β’ E(X) = p β’ Var(X) = p(1-p) = pq (bewijs) (bewijs) β Binomiale verdeling π π β’ pX(k) = ( ) pk(1-p)n-k k = 0,1, .., n (met k successen uit n) β’ pX(k) = (p +1 -p)n = 1 π β’ (x+y)² = ∑ππ=0 (π ) xk yn-k (binomium van Newton) β’ E(X) = np β’ E(Y1 + .. + Yn) = E(Y1) + .. + E(Yn) (indien onafhankelijk) Tine Declerck 10 β’ Var(X) = np(1-p) = npq β’ Var(Y1 + .. + Yn) = Var(Y1) + .. + Var(Yn) β’ Z = X1 + X2 ~ B(n1 + n2, p) (indien onafhankelijk) (som vd binomiale verdelingen n1 + n2 onafhankelijke Bern experimenten) (#mislukkingen) β’ Y = n – X ~ B(n,1-p) β’ ππ lim π(| π – p | ≥ π ) = 0 (wet van de grote aantallen) π→ +∞ ππ -> P(| π – p | ≥ π ) ≤ πππ( ππ ) π ,∀π >0 π² volgt uit Chebyshev β Poisson verdeling β’ pX(k) = π −λ λπ π! β’ pX(k) > 0 β’ ez = ∑+∞ π=0 β’ ,kπβ (vuistregel: n>30 en p<0.1) π§π π! ∑+∞ π=0 πX(k) = ∑+∞ π=0 π −λ λπ π! λπ -λ λ = e-λ ∑+∞ π=0 π! = e e β’ E(x) = λ β’ Var(X) = λ(λ+1) – λ² = λ β’ Z = X1 + X2 ~ poisson(λ1 + λ2) β Geometrische verdeling β’ pX(k) = p (1-p)k-1, k = 1, 2, .. β’ pX(k) > 0 β’ ∑+∞ π=1 πX(k) = 1 β’ F_X(n) = P(X ≤ n) = 1 - (1-p)n β’ FX(n) = P(X > n) = (1- p)n β’ E(X) = ( p π ]0,1[ ) (bewijs) (cum. verdelingsfunctie)(bewijs) (staartfunctie) 1 π β’ Var(X) = β’ (som vd poisson verdelingen)(bewijs) 1−π π² P(X > k1 + k2 | X > k1) = P(X > k2) (geheugenloosheid vd geom verd)(bewijs) Enige discrete verdeling met deze eigenschap!!! β Hypergeometrische verdeling β’ pX(k) = β’ E(X) = π π π−π ) π−π , π ( ) π ( )( ππ π β’ Var(X) = max (0, n – (N-r)) ≤ k ≤ min(n,r) ππ (π−π)(π−π) π²(π−1) β ZRM (2ND VARS ) Tine Declerck Kansverdeling P(X = x) pdf Cumulatieve verdelingsfunctie P(X ≤ x) cdf 11 Tine Declerck 12