Kapitel 0 – Vorwort Liebe Leser, diese Zusammenfassung erhebt keinerlei Anspruch auf Vollständigkeit, sie soll lediglich das Skript von Prof. Schuhr in kondensierter Form darstellen und somit einen Überblick vermitteln, welche Themen, Begriffe oder Formeln besondere Relevanz haben. Sie ist daher vielmehr eine Art Checkliste, anhand derer die vielen Themen übersichtlich zusammengestellt werden und somit die Prüfungsvorbereitung erleichtert werden soll. Sie orientiert sich stark an Skript und Formelsammlung der Vorlesung „Statistik und Wahrscheinlichkeitsrechnung“ von Prof. Schuhr und kann auch begleitend zum Skript verwendet werden bzw. das Skript kann helfen, die Stichworte in diesem Dokument noch einmal nachzuschlagen und besser zu verstehen. Ein weiterer Hinweis sei an dieser Stelle gestattet: Es wird an mancher Stelle auf Teile im Skript hingewiesen. So ist D-X.Y zu verstehen als Definition Y in Kapitel X – oder noch einfacher: D-1.1 ist Definition D-1.1, so wie sie auch im Skript bezeichnet wurde. Analoges gilt für die Beispiele B-X.Y. Ebenso beziehen sich alle Seitenangaben auf die entsprechende Seite im Skript. Es werden nur wenige Rechenfähigkeiten vermittelt, vielmehr wird Theorie komprimiert, was helfen soll die Logik, die hinter den Formeln steckt, zu verstehen. Jedoch kann dies keinesfalls das Rechnen der Aufgaben und Umgehen mit der Formelsammlung ersetzen. Es gilt also, die komprimierte Theorie zu begreifen und selbstständig anzuwenden, d. h. Aufgaben zu lösen, damit beste Erfolge erzielt werden können. Entsprechend soll diese Zusammenfassung verstanden und benutzt werden. Der Autor wünscht ein gutes Arbeiten mit derselben und maximale Erfolge! Leipzig, Januar 2015 Christopher Krohn 1 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 1 – Grundbegriffe a) Daten, Einheiten, Merkmalsvariablen - statistische Einheit / Gesamtheit Ω (D-1.1) ο Untersuchungsmerkmal / Realisation (D-1.2) ο Variable X / Realisation (D-1.4) ο statistische Daten / Datensatz (D-1.3) statistische Einheit: wird untersucht, da sie eine Information besitzt, die uns interessiert (WER wird untersucht?) ο „Gesamtheit“ Ω wird aus Einheiten gebildet Untersuchungsmerkmal: Eigenschaften statistischer Einheiten, die untersucht werden (WAS wird untersucht) Bsp.: B-1.1 (statistische Einheiten: WiWi-Studenten; Untersuchungsmerkmal: Datum der Immatrikulation) Daten: Gesamtheit der statistischen Einheiten und ihren Untersuchungsmerkmalen mit dazugehörigen Zahlenwerten Variable: π: πΊ → β bzw. elementeweise π → π(π) Notation: X... Variable, π₯π ... Ausprägung , π₯Μπ ... Beobachtung b) Klassifikation von Variablen / Datensätzen - Skalenniveaus von Variablen Nominal Kategorien werden festgelegt Beschreibung - Entscheidung (ja, nein) - Geschlecht (m, w) Beispiele - Nationalität (Deutsch, Englisch, Französisch, …) Vergleiche = / ≠ Praktisch nicht (es lassen sich lediglich Anzahlen bestimmen: Rechnung von 28 Personen sind 15 Frauen und 13 Männer anwesend) Tab. 1: Skalenniveaus Christopher Krohn Ordinal Rangfolgen sind bestimmbar, Abstände zwischen 2 Ausprägungen sind jedoch unklar - Noten (1 bis 6) - Bewertungen (sehr gut bis sehr schlecht: -2 bis +2) Metrisch Rangfolgen sind bestimmbar, Abstände zwischen 2 Ausprägungen sind klar definiert und immer gleich groß - Längen - Zeit - Geld - Haushaltsgröße - Anzahl der gewürfelten 6en =/≠/>/< =/≠/>/< Praktisch auch nicht zulässig (auch hier ist es streng genommen nur zulässig die Häufigkeiten der einzelnen Ausprägungen) 2 Institut für VWL, insb. Institutionenökonomische Umweltforschung - diskrete Variablen vs. stetige Variablen o stetig: Der Abstand zwischen 2 Ausprägungen ist unendlich klein (z. B. Variable „Zeit“: zwischen der Ausprägung „1 s“ und der Ausprägung „2 s“ liegen noch unendlich viele weitere, z. B. „1 s und 10 ms“ oder „1 s und 11 ms“ oder „1 s und 437 ms“; weiterhin lassen sich zwischen „1 s und 10 ms“ und „1 s und 11 ms“ wieder unendliche viele weitere Ausprägungen finden)1 o diskret: Abstände sind endlich klein (Würfelspiel: 1, 2, 3, 4, 5, 6; Abstand zwischen 2 Ausprägungen ist jeweils 1; zwischen 1 und 2 kann keine weitere Ausprägung gefunden werden: 1,5 ist unmöglich) - univariate vs. multivariate Datensätze univariat multivariat bivariat multivariat allgemein Nur 1 Variable wird 2 Variablen werden Mehrere Variablen werden untersucht untersucht untersucht Tab. 2: Univariate vs. multivariate Datensätze 1 Notation entsprechend gesetzlicher Vereinbarung: s… Sekunde, ms... Millisekunde Christopher Krohn 3 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 2 – Deskription univariater Datensätze a) Häufigkeiten - Häufigkeitsverteilung: Variable X mit Realisationen π₯Μπ o Absolute Häufigkeit: ππ = π(π = π₯Μπ )2 π o Relative Häufigkeit: βπ = ππ o Kumulierte Häufigkeit: ππ = ∑ππ’=1 ππ’ bzw. o Darstellung: Häufigkeitstabelle π»π = ∑ππ’=1 βπ’ Überschrift Merkmalsvariable Häufigkeiten 1) kumulierte Häufigkeiten 2) absolut relativ absolut relativ ~ x1 n1 h1 H1 ο ~ xi ο ~ xm ο ni ο nm ο hi ο hm N1 ο Ni ο Nm = n ο Hm = 1 Summe n 1 --- --- ο Hi 1) unabhängig vom Skalenniveau, 2) nicht bei Nominalskala Abb. 1: Schema einer Häufigkeitstabelle (Quelle: Schuhr 2011: „Statistik und Wahrscheinlichkeitsrechnung“, Abb. 2.2 S. 18) o Grafische Darstellungen: Stab- / Säulen- / Kreisdiagramm etc. - Klassierte Häufigkeitsverteilung (relative Häufigkeit der Klasse j: βπ = π ππ π ) o Grafische Darstellung: Histogramm (Achtung! ππ ∗ = ππ ) π ∗ - - o Vergleich der Flächen (ππ ), da reziprok gilt: ππ = ππ ∗ ππ (Fläche des Rechtecks Höhe (ππ ∗ ) mal Breite (ππ )) Empirische Verteilungsfunktion π(π₯); Eigenschaften: o Treppenfunktion o 0 ≤ π(π₯) ≤ 1 o Monoton steigend Schiefe (s. S. 34, 35, 53) es gilt für symmetrische Verteilungen x = xmed = xmod rechtsschiefe Verteilungen xmod < xmed < x linksschiefe Verteilungen x < xmed < xmod Sprich: Die Häufigkeit ππ ist gleich der Häufigkeit dafür, dass die Variable X genau den Wert der Realisation π₯Μπ annimmt 2 Christopher Krohn 4 Institut für VWL, insb. Institutionenökonomische Umweltforschung b) Lagemaße - - Modus: häufigster Wert der Verteilung o π(π = π₯πππ ) ≥ π(π = π₯π )∀π Quantile π₯[π] : p*100 Prozent der Werte der Verteilung sind kleiner oder gleich π₯[π] o Spezialfall Median: mittlerer Wert, 50 % der Werte sind kleiner oder gleich dem Median (entsprechend sind 50 % der Werte größer) o π₯πππ = π₯[0,5] , es gilt: β(π ≤ π₯[0,5] ) = 0,5 Mittelwerte o Arithmetischer MW o Gewogener arithmetischer MW o (Geometrischer MW) o (harmonischer MW) c) Streuungsmaße - Varianz: mittlere quadratische Abweichung vom MW (siehe Formel) o Klassenvarianz (vgl. S. 60) ο§ Interne Varianz: Varianz innerhalb einer Klasse gewichtet mit den 2 Klassenhäufigkeiten (∑π π=1 π Μπ ∗ βπ ) ο§ Externe Varianz: Varianz zwischen den Klassen (außerhalb), d. h. es entsteht dadurch Streuung, dass die Klassen verschiedene Mittelwerte haben (im Sinne der „Abweichung vom Mittelwert“ werden hier die Abweichungen der Klassenmittelwerte vom Gesamt-MW betrachtet), 2 ebenfalls gewichtet über relative Häufigkeiten (∑π π=1(π₯Μ π − π₯Μ ) ∗ βπ ) ο§ Summe aus beiden ergibt Gesamtklassenvarianz o Spannweite: Abstand vom höchsten zum niedrigsten Wert: π = π₯πππ₯ − π₯πππ o Quartilsabstand: Abstand vom zwischen den Quartilen: ππ΄ = π₯[0,75] − π₯[0,25] d) Box-Plots - 5-Zahlen-Zusammenfassung benötigt: o Minimum π₯1 = π₯πππ und Maximumπ₯π = π₯πππ₯ o Quartile π₯[0,75] und π₯[0,25] o Median π₯[0,5] e) Lineartransformation - π = π + ππ (z. B. nützlich bei Wechselkursumrechnungen u. ä.) Christopher Krohn 5 Institut für VWL, insb. Institutionenökonomische Umweltforschung d) Konzentrationsmessung - - - - Typische Fragestellung: Ist eine statistische Masse (Merkmalssumme) auf ihre Einheiten gleichmäßig verteilt? Z. B.: Ist das (Gesamt-)Einkommen der Bürger in einer Volkswirtschaft gleichmäßig verteilt oder haben viele Menschen wenig und wenige Menschen viel? Nur für metrische Variablen mit bereits geordneten und nicht-negativen Beobachtungen Entfällt ein großer Anteil der Merkmalssumme auf… o Einen geringen Anteil der statistischen Einheiten, so spricht man von relativer Konzentration o Eine geringe Anzahl der statistischen Einheiten, so spricht man von absoluter Konzentration (für die Veranstaltung nicht relevant) Lorenzkurve: o π»π = ∑ππ’=1 βπ’ bezeichnet die kumulierte relative Häufigkeit (bis zur ν-ten statistischen Einheit) o ππ = ∑ππ’=1 π₯π’ ⁄∑ππ’=1 π₯π’ bezeichnet den kumulierten Anteil an der Merkmalssumme (bis zur ν-ten statistischen Einheit) o Der resultierende Streckenzug, der die Punkte (0,0), (π»1 , π1 ), … , (π»π−1 , ππ−1 ), (1,1) verbindet, wird Lorenzkurve genannt o Monoton wachsende Funktion, die bei Gleichverteilung genau der Winkelhalbierenden entspricht Gini-Koeffizient: o πΊπΎ = πΉ/0.5, mit πΉ = 0.5 − 0.5 β ∑ππ’=1 βπ’ (ππ’−1 + ππ’ )3 Auch Variationskoeffizient lässt sich (ggf.) als Konzentrationsmaß interpretieren Probleme: o Unabhängig von n o Vergleich zweier Verteilungen kann schwierig sein, wenn sich die Lorenzkurven schneiden 3 Erinnert sei an die Flächenberechnung eines Trapezes mit den beiden parallelen Seiten a und c sowie der π+π Distanz zwischen diesen beiden Seiten, welche die Höhe ist: πΉ = β. 2 Christopher Krohn 6 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 3 – Deskription bivariater Datensätze (Korrelation) a) Übersicht SkalenArt des Korrelationskoeffizient Beschränkung 4 niveau Zusammenhangs 2 2 Nominal Empirisch π ∈ [0, ∞), πΎππ ∈ [0,1] πΎππ / π Ordinal Monoton πππ ∈ [−1,1] πππ Metrisch ππ₯π¦ ππ₯π¦ ∈ [−1,1] Linear Tab. 3: Korrelationskoeffizienten (Hinweis: Vgl. auch Schuhr 2011, Abb. 3.5, S. 104) - - Bsp.: Hat X das Niveau metrisch, Y aber nur ordinales Skalenniveau, so ist der KK nach Bravais-Pearson unzulässig, wohingegen Spearman und Kontingenzkoeffizient sinnvoll zu verwenden sind Streudiagramme (s. Schuhr 2011, Abb. 3.7, S. 108) (nicht bei nominalen Daten) b) π 2 -Koeffizient - Bedingte Häufigkeiten β(π₯Μπ |π¦Μπ ), sprich: relative Häufigkeit der Beobachtung π₯Μπ , bedingt auf die spezielle (vorher festgelegte) Ausprägung π¦Μπ Sind bedingte Häufigkeiten für jede Ausprägung π¦Μπ gleich, Untersucht Stärke des empirischen Zusammenhangs / ob X und Y abhängig sind - π π 2 = ∑π π=1 ∑π=1 - - (πππ −πππ )2 πππ , mit πππ … bei Unabhängigkeit erwartete Häufigkeiten Bei Unabhängigkeit müsste gelten: πππ − πππ = 0, d. h. die Differenz zwischen den tatsächlich vorliegenden und den erwarteten Häufigkeiten müsste verschwinden Vice versa gilt: je größer die Differenzen und demnach π 2 , desto stärker der Grad des empirischen Zusammenhangs Da π 2 nicht interpretierbar (kann jeden nicht-negativen Wert annehmen): Normierung durch Kontingenzkoeffizienten πΎππ c) Rangkorrelationskoeffizient nach Spearman - Mathematische Ordnung der Daten (vom kleinsten zum größten Wert) Dabei gehen Informationen verloren (es wird lediglich ein monotoner Zusammenhang untersucht) Dafür ist der Rang-KK robuster gegenüber Ausreißern im Vgl. zum KK nach BravaisPearson Positive wie negative Zusammenhänge sind möglich (s. Abschnitt d) ) 4 Hiermit ist gemeint, dass die Variable mit dem niedrigsten Skalenniveau mindestens das in der entsprechenden Zeile vermerkte Skalenniveau haben muss Christopher Krohn 7 Institut für VWL, insb. Institutionenökonomische Umweltforschung d) Korrelationskoeffizient nach Bravais-Pearson - ππ₯π¦ ∈ [−1,1] ο positive (gleichsinnige), wie negative (gegensinnige) Beziehungen können festgestellt werden Stehen hohen (niedrigen) X-Werten hohe (niedrige) Y-Werte gegenüber, ergibt sich ein positiver Zusammenhang ο gleichsinnig Stehen hohen (niedrigen) X-Werten niedrige (hohe) Y-Werte gegenüber, ergibt sich ein negativer Zusammenhang ο gegensinnig e) Beurteilung der Stärke des Zusammenhangs - ππ₯π¦ = 0 ο X und Y unkorreliert - 0 < |ππ₯π¦ | ≤ 0,5 ο X und Y schwach korreliert - 0,5 < |ππ₯π¦ | ≤ 0,8 ο X und Y mittelstark korreliert - 0,8 < |ππ₯π¦ | < 1 ο X und Y stark korreliert - |ππ₯π¦ | = 1 ο X und Y perfekt korreliert Christopher Krohn 8 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 4 – Mess- und Indexzahlen a) Messzahlen und Änderungsfaktoren / -raten - π₯π‘ πππ‘ π‘ = {0,1, … , π} wird als Zeitreihe, die Zeitpunkte t als Messzeitpunkte bezeichnet (Beachte: Zeitpunkte t sind äquidistant) π₯ ππ,π‘ = π₯ π‘ ist die Messzahl für die Berichtszeit t zur Basiszeit k (oft: k=0); äquivalent: π Änderungs- oder Wachstumsfaktor ππ,π‘ = π₯π‘ π₯π π₯π π₯π π₯ = π₯π‘ = ππ ,π‘ (neue Basis ist s) - Ggf. Umbasierung möglich: π - Verschiedene Konzepte von „Veränderungen“: o Absolute Änderung: π₯π‘ − π₯π π₯ −π₯ o Relative Änderung (Änderungsrate): ππ,π‘ = π‘π₯ π = ππ,π‘ − 1 π,π π π π₯π‘ o Änderungsfaktor (s.o.): ππ,π‘ = π₯ π o Logarithmische Änderungsrate: π€π,π‘ = ππ - π₯π‘ π₯π = πππ₯π‘ − πππ₯π (für hinreichend kleine ππ,π‘ gilt ππ,π‘ ≈ π€π,π‘ , d. h. die logarithmische Änderung ist eine gute Annäherung) Durchschnittliche Änderungen (Beachte: es werden Ein-Perioden-Veränderungen betrachtet (k = t – 1)): 1⁄π π₯ o Faktor: π Μ π = (π0,1 β π1,2 β … β π π−1,π )1⁄π = ( π₯π ) 0 (geometrisches Mittel) o Rate: πΜ = π Μ π − 1 1 o Logarithmisch: π€ Μ = π π€0,π (arithmetisches Mittel) a) Indexzahlen - Es werden Warenkörbe konstruiert mit n Gütern, die durch Preise ππ,π‘ und Mengen ππ,π‘ charakterisiert sind Preisindizes: geben das Verhältnis zwischen dem Wert des Warenkorbs der Berichtszeit im Verhältnis zum Wert des Warenkorbs der Basiszeit, wenn… o Laspeyres: … man die Mengen aus der Basiszeit zur Bewertung heranzieht o Paasche: … man die Mengen aus der Berichtszeit zur Bewertung heranzieht (πΉπ) (πΏπ) o Fisher: bildet das geometrische Mittel aus den vorigen: π0,π‘ = √π0,π‘ - (ππ) β π0,π‘ Der Verbraucherpreisindex (VPI) gilt als ein Beispiel für einen Laspeyres-Preisindex (wird zur Deflationierung von Zeitreihen benutzt) Mengenindizes: funktionieren genau so, nur werden die Preise konstant gehalten, um Mengenänderungen zu analysieren Wertindex: analysiert Veränderungen des Wertes des Warenkorbs der Berichtszeit gegenüber dem Wert der Basiszeit Christopher Krohn 9 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 5 – Elementare Wahrscheinlichkeitsrechnung - - Neues Bild von Menge und Element (ähnlich zur deskriptiven Statistik): o Gesamtheit Ω βΆ= Ergebnisraum o Element π βΆ= Ereignisbild Laplace-Wahrscheinlichkeit (Gleichmöglichkeitssatz): |π΄| o π(π΄) = |Ω| = - - - π(π΄∩π΅) π(π΅) (sprich: Wahrscheinlichkeit von A unter der Bedingung B) Multiplikationssatz (Eintreten zweier Ereignisse): o π(π΄ ∩ π΅) = π(π΄|π΅) ∗ π(π΅) (Umstellen der Formel für die bedingte WS) o ο WS, dass A und B eintreten ist gleich der WS, dass A eintritt, wenn B bereits eingetreten ist mal die WS, dass B überhaupt eintritt (entsprechend der 1. Pfadregel) Satz der totalen Wahrscheinlichkeit o π(π΅) = ∑π π=1 π(π΅|π΄π ) ∗ π(π΄π ) o Ausnutzen der Pfadregeln! o 1.) entlang des Pfades: Multiplizieren o 2.) Einzelpfade summieren Theorem von Bayes o Bedeutung: Die gewöhnliche chronologische Reihenfolge ist: erst tritt B ein, dann A (siehe bedingte WS) o Bayes: Reihenfolge umgekehrt o wir suchenπ(π΅|π΄), d. h. o wenn wir wissen, dass A das Ergebnis ist, wie groß ist dann die WS, dass vorher B eingetreten war o π(π΅|π΄) = - π΄ππ§πβπ πππ πöππππβππ πΈπππππππ π π Bedingte Wahrscheinlichkeit: o Beschränkung des Ergebnisraums Ω auf eine Menge B (neue „Grundgesamtheit“ B) o π(π΄|π΅) = - π΄ππ§πβπ πππ πüπ π΄ πüππ π‘ππππ πΈπππππππ π π π(π΅∩π΄) π(π΄) ππ’ππ‘πππππππ‘ππππ π ππ‘π§ = πππ‘π§ πππ π‘ππ‘ππππ ππ (s.o.) Unabhängigkeit o Bei Unabhängigkeit gilt: π(π΄ ∩ π΅) = π(π΄) ∗ π(π΅) o Laut Multiplikationssatz: π(π΄ ∩ π΅) = π(π΄|π΅) ∗ π(π΅) o Warum gilt π(π΄|π΅) = π(π΄)? Antwort: wegen der Unabhängigkeit ist B keine Bedingung für A Christopher Krohn 10 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 6 – Zufallsvariablen a) Übersicht Diskret Stetig f(x) f(x) 2/6 0.1 1/6 0.05 0 f(x) x -1 0 1 2 3 4 5 6 7 8 0 -4 -2 0 2 a 4 b 6 x 8 10 12 14 Wahrscheinlichkeitsfunktion Dichtefunktion π(π₯) = π(π = π₯) (Punkt-WS) (keine Punkt-WS; quasi-unmögliches Ereignis) F(x ) F(x ) 1 1 0.75 4/6 0.5 2/6 0.25 F(x) 0 x -1 0 1 2 3 4 5 6 Verteilungsfunktion 7 8 0 x -4 -2 0 2 4 6 8 10 12 14 Verteilungsfunktion πΉ(π₯) = π(π ≤ π₯) πΉ(π₯) = π(π ≤ π₯) (Intervall-WS) (Intervall-WS) Abb. 2: Übersicht über Verteilungs-, Wahrscheinlichkeits-, Dichtefunktion (Abbildungen aus: Schuhr 2011, S. 168, 171, 173) - von Wahrscheinlichkeitsfunktion zu Verteilungsfunktion: Summe ∑ von Dichtefunktion zu Verteilungsfunktion: Integral ∫ Christopher Krohn 11 Institut für VWL, insb. Institutionenökonomische Umweltforschung b) Momente - Stetige Zufallsvariablen ∞ o Erwartungswert πΈ(π) = π = ∫−∞ π₯ ∗ π(π₯) ππ₯ (hierbei sind als Integrationsgrenzen -∞ bzw. +∞ die Grenzen des Definitionsbereiches der Dichtefunktion einzusetzen) ∞ o Allgemein gilt: πΈ(π(π₯)) = ∫−∞ π(π₯) ∗ π(π₯) ππ₯ ∞ o Für π(π₯) = π₯² ⇒ ∫−∞ π₯² ∗ π(π₯) ππ₯ (wird für Varianz benötigt) - - - o Varianz πππ(π) = π² = πΈ(π 2 ) − πΈ(π)² (Verschiebungssatz) Diskrete Zufallsvariablen o Erwartungswert πΈ(π) = π = ∑π π₯π ∗ π(π₯π ) o Varianz πππ(π) = π² = πΈ(π 2 ) − πΈ(π)² (Verschiebungssatz) Interpretation: o Ähnlich wie in deskriptiver Statistik o Erwartungswert für diskrete Variablen: Summe der Ausprägungen π₯π gewichtet mit deren WS π(π₯π ) o Erwartungswert für stetige Variablen: gleiche Logik, hier wird lediglich das Integral benötigt o Varianz: nach wie vor „mittlere (erwartete) quadratische Abweichung vom Mittelwert (bzw. Erwartungswert)“ Quantile: π(π ≤ π₯[π] ) = πΉ(π₯[π] ) (Bsp. Median: Wahrscheinlichkeit, dass Werte kleiner oder gleich dem Median sind, ist 50 %, was dem Wert der Verteilungsfunktion an der Stelle des Medians entspricht) Christopher Krohn 12 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 7 – Spezielle Verteilungsmodelle a) diskrete Verteilungsmodelle - - - Gleichverteilung π~π(π) o Alle Ausprägungen haben die gleiche WS Binomialverteilung π~π΅(π, π) o Basis: Bernoulli-Versuch ο es gibt nur 2 mögliche Ausgänge des Versuchs: Erfolg (π΄) oder Misserfolg (π΄Μ ) o Die Variable X ist definiert als: X… Anzahl der Erfolge o (Ein) Erfolg tritt mit WS p ein: π(π΄) = π ⇒ π(π΄Μ ) = 1 − π o Der Bernoulli-Versuch wird n-mal wiederholt o Dabei bleibt p konstant (Unabhängigkeit) o π(π = π₯) = π(π₯) = (ππ₯)π π₯ (1 − π)π−π₯ (Baumdiagramm!) Poissonverteilung π~ππ(π) o „Verteilung seltener Ereignisse“ ο geht aus Binomialverteilung hervor, wenn n sehr hoch und p sehr gering ist o Es existiert ein Zeitintervall, … o Das für die WS des Eintretens des Erfolgs ausschlaggebend ist Geometrische Verteilung π~πΊ(π) o X… Anzahl der Misserfolge bis zum ersten Erfolg o ο Erfolgs-WS p definiert wie bei der Binomialverteilung o ο es gilt für x Fehlversuche bis der erste Erfolg eintritt ((x+1)-te Wiederholung!): π(π₯) = π(π₯) = (1 − π)π₯ ∗ π (Baumdiagramm!) Christopher Krohn 13 Institut für VWL, insb. Institutionenökonomische Umweltforschung - Hypergeometrische Verteilung π~π»(π, π, π) o Zufallsversuche ohne Zurücklegen o Grundgesamtheit N, M davon besitzen eine interessierende Eigenschaft o Binomialkoeffizient (ππ)… Anzahl der möglichen Stichproben beim Ziehen von n Elementen aus der Menge N o Bsp.: Lotto (6 aus 49); X… Anzahl der Richtigen o π~π»(π = 6, π = 49, π = 6); M: 6 Zahlen sind richtig; n: 6 Zahlen werden getippt; N: insgesamt gibt es 49 Zahlen (Zahlen können nicht mehr als einmal auf dem Tippschein auftauchen ο ohne Zurücklegen) b) stetige Verteilungsmodelle - - Rechteckverteilung π~π (πΌ, π½) o Stetige Gleichverteilung Exponentialverteilung π~πΈπ₯(π) o Lebensdauern, Zeitspannen, Wartezeiten o Markov-Eigenschaft: Gedächtnislosigkeit Normalverteilung π~π(π, π 2 ) o Nahezu alle Variablen sind in der Realität näherungsweise normalverteilt (bei genügend großem n) o Standardisierung: π = π−π π ο hatte X zuvor Erwartungswert π und Varianz π 2 , so gilt jetzt πΈ(π) = 0 und außerdem πππ(π) = 1 c) Stichprobenverteilungen - Chi-Quadrat-Verteilung π~π²(π) Student-t-Verteilung π~π‘(π) Fisher-F-Verteilung π~πΉ(π, π) Christopher Krohn 14 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 8 – Parameterschätzungen a) Punktschätzungen - - Für eine Zufallsvariable X werden n Stichproben gezogen und entsprechende Stichprobenvariablen erstellt (π1 , π2 , … , ππ ); es sind gewisse Parameter unbekannt, die geschätzt werden sollen Gesucht: Schätzfunktion π(π, π), die einen interessierenden Parameter π der Verteilung von X möglichst gut annähert Dazu müssen gewisse Eigenschaften erfüllt sein Erwartungstreue: πΈ(ππ,π ) = π ο wenn sehr viele Stichproben gezogen werden, muss die Schätzfunktion den Parameter π treffen Konsistenz: Erwartungstreue muss gelten, UND: limπ→∞ πππ(ππ,π ) = 0 ο bei unendlich großer Stichprobe muss die Varianz der Schätzung verschwinden erwartungstreuer Schätzer für πΈ(π): πΜ erwartungstreuer Schätzer für πππ(π): π 2 ≠ π Μ 2 (!), da durch n-1 geteilt wird b) Intervallschätzungen - mit Punktschätzung wird wahrer Parameter nie auf den Punkt genau getroffen (ähnlich zum quasiunmöglichen Ereignis) stattdessen wird ein Intervall geschätzt, das den Parameter π mit WS 1 − πΌ abdeckt Vorgehen: 1. Welcher Parameter wird geschätzt? (π, π 2 , π) 2. Welche Verteilung liegt für X vor? 3. In Formelsammlung entsprechende Formel für das Konfidenzintervall nutzen Christopher Krohn 15 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 9 - Hypothesentests - Hypothesen: Vermutungen / Aussagen über WS-Verteilungen Vorgehen: 1. Art des Tests ο§ Momente einer Verteilung: 1-Stichproben-Test, z. B. π = π0 (Vgl. mit vorgegebenem Wert) ο§ Vgl. der Momente zweier Verteilungen: 2- Stichproben-Test, z. B. π1 = π2 (Vgl. der verteilungen) ο§ Test auf Verteilung: Anpassungstest, πΉ(π₯) = πΉ0 (π₯) 2. Was wird getestet? (falls nicht Anpassungstest) ο§ Erwartungswert π ο§ Varianz π 2 ο§ Erfolgs-WS π 3. Verteilung feststellen 4. Entsprechende Formel nutzen (entlang der Spalten vorgehen) ο§ Aufstellen der Hypothesen ο§ Berechnung der Teststatistik ο§ Nachschlagen der kritischen Werte in der entsprechenden Tabelle 5. Entscheidung treffen ο§ Fällt die Teststatistik in den kritischen Bereich, so wird π»0 abgelehnt Christopher Krohn 16 Institut für VWL, insb. Institutionenökonomische Umweltforschung Kapitel 10 - Regressionsanalyse - - - - - - Erweiterung der Korrelationsrechnung Bisher: Zusammenhang zweier Variablen, jetzt: Kausalität ο Welche Variable beeinflusst welche? Linearer Zusammenhang wird unterstellt: π = π + ππ („wahres Modell“) Parameter a und b sind unbekannt ο werden geschätzt: π¦Μ = πΜ + πΜπ₯ („geschätztes Modell“) Y… Regressand, endogene Variable, abhängige Variable X… Regressor, exogene Variable, unabhängige Variable Schätzmethode: KQ-Methode (Kleinste Quadrate: Quadratische Abweichungen der Schätzungen π¦Μ von den tatsächlichen Werten π¦) Abweichungen werden auch Residuen genannt: π’Μπ = π¦π − π¦Μπ o π’Μπ > 0 ο Unterschätzung o π’Μπ < 0 ο Überschätzung Streuung der abhängigen Variablen y: TSS = RSS + ESS o πππ = ∑( π¦π − π¦Μ π )² ο Gesamtstreuung: Abweichungen der Variable Y vom Mittelwert; ähnlich wie bei Varianz o π ππ = ∑( π¦π − π¦Μπ )² = ∑ π’Μπ 2 ο Residualstreuung / nicht-erklärte Streuung: Summe der quadrierten Schätzfehler o πΈππ = ∑( π¦Μπ − π¦Μ )² ο erklärte Streuung: inwieweit kann die Streuung durch die Schätzung erklärt werden ο Abweichungen der geschätzten Werte vom Mittelwert, welche durch die Schätzgerade zustande kommen, letztere wiederum variiert mit x ο dies ist der erklärte Teil πΈππ 2 π 2 = πππ = ππ₯π¦ ο Interpretation: Anteil der erklärten Streuung an der Gesamtstreuung, wie viel Prozent der Gesamtstreuung kann durch die Schätzung erklärt werden ο „Erklärungsgüte“ Geschätzte Parameter können getestet werden o π»0 : π = 0 ο Ist der Parameter a signifikant von 0 verschieden? o π»0 : π = 0 ο Ist der Parameter b signifikant von 0 verschieden? ο besonders interessant, da bei Nicht-Verwerfung von π»0 : π = 0 gilt: π¦ = π + 0 ∗ π₯ = π, folglich gilt, dass x keinen Einfluss auf y hat Interpretation der Parameter o a: Wenn x = 0 ist, dann ist y = a o b: Wenn x um eine Einheit steigt, so steigt y um b Einheiten (Anstiegsparameter) mit Werten für πΜ und πΜ und einer Vorgabe für x (π₯0 ) kann prognostiziert werden: π¦Μ0 = πΜ + πΜπ₯0 (Punktprognose, ggf. kann auch ein Intervall bestimmt werden Christopher Krohn 17 Institut für VWL, insb. Institutionenökonomische Umweltforschung