Uploaded by renas67071

Versuchsplanung, Wissenschaftliche Methoden Zusammenfassung

advertisement
„Warum und wie forschen wir?“
-
-
Wie: Kriterien an Wissenschaft nach King/Keohane/Verba:
1. Das Ziel der Forschung ist Inferenz
2. Alle Daten und Methoden sind öffentlich
3. Schlussfolgerungen sind unsicher (Argumente müssen falsifizierbar sein)
4. Inhalt der Forschung ist die Methode
Falsifizierung
Deterministische vs. Probabilistische Erklärungen
Positiv vs. Normativ
02 Basics in Wissenschaftstheorie
1. Methoden des Erkenntnisgewinns
-
-
Ziel der empirischen Wissenschaft
o systematische Prüfung von Theorien in der Realität (Empirie) (Sachverhalte entdecken,
Zusammenhänge formulieren, Aussagen prüfen, Prognosen tätigen)
Anspruch an Wissenschaft: nachvollziehbar, kritisierbar, „wahr“
2. Begriffsdefinition „nachvollziehbar“
-
Nominaldefinitionen
-
Intensionale Bedeutung = alle Begriffsmerkmale (Inhalt)
Extensionale Bedeutung = alle Objekte, die Definition erfüllen (Umfang)
3. Hypothesen
-
Hypothese = Aussage über den Zusammenhang zwischen mindestens zwei Variablen
Variable = Menge v. Merkmalsausprägungen, die Objekten zugeschrieben werden (z.B. Geschlecht)
Gesetz = in der Realität „bewährte“ Aussage über den Zusammenhang zwischen mind. zwei Variablen
Theorie = System von Aussagen, das mehrere Hypothesen/Gesetze umfasst
-
Wenn-dann-Hypothese, z.B. Bewegung verhindert Demenz
„Wenn sich Menschen im Alter bewegen, dann bekommen Sie keine Demenzerkrankung“
Je-desto-Hypothese, z.B. je mehr Bewegung, desto weniger Demenz
„Je mehr sich Menschen... bewegen, desto geringer die Wahrscheinlichkeit für...“
-
1
Versuchsplanung SS19
4. Deduktion and Induktion
5. Kritischer Rationalismus
-
„wahr“
von Karl Popper begründet (*1902, † 1994)
Gegenmodell zum Empirismus (logische Unmöglichkeit der Verifizierung von Theorien durch
Induktionsschluss „nur weiße Schwäne sichtbar“)
Zentral sind die logisch mögliche Widerlegung und die Fehlbarkeit (methodologischer
Falsifikationismus) und die Theorie:
Basierend auf Definitionen, Axiomen (Aussagen deren Wahrheit angenommen wird) u. Propositionen
(Hypothesen und Gesetze) mit festgelegtem Geltungsbereich (zeitlich, räumlich) und Objektbereich
Hypothesen müssen sich empirisch „bewähren“ (aber: Methode kann fehlerhaft sein)
Anforderungen an wissenschaftliche Theorien
1. Innere Widerspruchsfreiheit (Logik)
2. Äußere Widerspruchsfreiheit (zu anderen empirisch bewährten Theorien)
3. Falsifizierbarkeit (empirisch prüfbar und widerlegbar)
4. Hoher Informationsgehalt (großer Geltungsbereich und Präzision)  potentiell viele Falsifikatoren
5. Große Erklärkraft (nicht nur deskriptiv, sondern Ursache-Wirkung)
6. Praktische Anwendbarkeit (Prognosefähigkeit)
7. Einfachheit / Sparsamkeit (Ockham‘srazor)
8. Hoher empirischer Bewährungsgrad (viele Studien, Metaanalysen)
! Achtung: Präsentation nur einer Wiss.theorie von vielen  Positivismusstreit & qualit. Forschungsparadigma
Operationalisieren und Messen – wie man Begriffe messbar macht
1. Konzept spezifizieren
Manifeste Merkmale (= direkt beobachtbare Variablen)  Alter, Körpergröße, Haarfarbe
Komplexe theoretische Konzepte (bzw. latente Variablen)  Vs. Intelligenz, Kondition, Ehrgeiz
- Komplexe theoretische Begriffe/Konzepte müssen daher spezifiziert werden
o Konzeptspezifikation = spezielle Art der Nominaldefinition bei der theoriebasiert die versch.
inhaltliche Dimensionen des Begriffs / des theoretischen Konzepts / der latenten Variable
festgelegt werden
2. Theoretische Konzepte operationalisieren
Operationalisierung bedeutet:
- Indikatoren auswählen &
- Messinstrumente festlegen = Messbarmachung meiner Hypothese
Operationale Definitionen, z.B. „Kondition ist, was mein Ausdauertest misst“ sind unzureichend!
Begriffe sollten nicht tautologisch definiert, sondern einem theoretischen Verständnis verankert sein (z.B. vier
Dimensionen von „Kondition“)
2
Versuchsplanung SS19
Beispiele für Operationalisierungen
Manifeste Variablen:
Alter
Dauer in angefangenen Jahren zwischen Geburtsdatum und Zeitpunkt der
Eingangsuntersuchung
Abstand zwischen Ferse und Kopfoberkante im stehenden Zustand (+ evtl.
Messanweisungen)
Selbsteinschätzung nach der L’Oréal Haarfarbskala
Körpergröße
Haarfarbe
3. Was heißt messen?
Messen =
Zuordnung von numerischen Werten zu den beobachteten (empirischen) Ausprägungen der
Untersuchungseinheiten auf einzelnen Variablen, wobei die Struktur (Relationen) des
empirischen Relativs erhalten bleiben muss.
d.h. empirisches Relativ  Messanweisung  Numerisches Relativ
4. Skalen und Messniveaus
-
Aufgrund der theoretischen Komplexität des Messens (Nachweis, dass meine numerische Ordnung
tatsächlich die empirische Ordnung abbildet) gibt es Skalen-bzw. Messniveaus
Ratioskala
(Verhältnisskala)
Mögliche Aussagen
Gleichheit /
Verschiedenheit
Größer-KleinerRelationen
Gleichheit von
Differenzen
Gleichheit von
Verhältnissen
Nominalskala
Ordinalskala
Intervallskala
Ratioskala
Identität
Ja
Ja
Ja
Ja
Nominalskala
Ordinalskala
Intervallskala
Beispiele
Haarfarbe,
Familienstand
Windstärken,
Schulnoten
Temperatur in °C,
Kalenderzeit
Körpergröße,
Gewicht, Temperatur
in K
Rangfolge
Nein
Ja
Ja
Ja
Abstände
Nein
Nein
Ja
Ja
Nullpunkt
Nein
Nein
Nein
Ja
5. Wie misst man „gut“?
Gütekriterien für Messung sind:
- Kann das Messinstrument das Zielkonstrukt (den Begriff bzw. die Variable) erfassen?
o Validität (extrem wichtig, aber sehr schwierig sicherzustellen)
- Ist die Messung frei von Messfehlern?
o Reliabilität (wichtig, gut sicherzustellen, zu oft vernachlässigt)
3
Versuchsplanung SS19
04 Reliabilität und Validität – Wie man überprüft, ob man das „Richtige“ „richtig“ misst
1. Wie misst man richtig?
Gütekriterien für Messung sind:
Ist die Messung frei von Messfehlern?
[„richtig messen“]
o Reliabilität
Kann das Messinstrument das Zielkonstrukt (den Begriff bzw. die Variable) erfassen? [„das Richtige messen“]
o Validität
Beispiel Altersmessung
Anspruch: vergleichbar, gerecht und rechtssicher
-
zwei Minderjährige sollten beide im Alterstest <18 Jahre erhalten
2.
Das Konzept der Reliabilität
Reliabilität ≜Zuverlässigkeit, Präzision, Messgenauigkeit
Wiederholte Messungen desselben Objektes sollten die gleichen Werte liefern
Nur kleine und zufällige Messfehler sollten auftreten
-
dieselbe Person sollte bei Untersuchung von zwei versch. Ärzten/in verschiedenen Bundesländern dasselbe Ergebnis erhalten
das Ergebnis der Altersmessung sollte möglichst dem realen chronologischen Alter entsprechen)
Beispiel Altersmessung:
-
Altersmessung sollte in Bayern und in Berlin zum selben Ergebnis kommen
3.
Arten die Reliabilität zu prüfen
Messung ist zeitlich stabil: z.B. Ruhepulsmessung morgens und abends sollte zum selben Ergebnis
kommen
o Testwiederholungs-Reliabilität (Test-Retest-Reliabilität)
Messung ist in Kontrollmessung stabil: z.B. zwei verschiedene Blutdruckmessgeräte am linken und
rechten Arm sollten zum gleichen Ergebnis kommen
o Paralleltest-Reliabilität
Alle Teile der Messung/des Tests tragen zum Ergebnis bei: z.B. alle einzelnen Fragen einer MultipleChoice-Klausur sollten dasselbe Konstrukt (Wissen der Studierenden) messen
o Interne Konsistenz
o Messung über Cronbachs Alpha-Koeffizient in Itemanalyse
-
-
-
4.
-
Verschiedene Ärzte sollten bei einer Person dasselbe Alter messen
Das Konzept der Validität
Validität ≜Gültigkeit
Messinstrument (Test, Gerät, Fragebogen) misst tatsächlich das, was es messen soll
Keine systematischen Messfehler sollten auftreten ◊Achtung: systematische Messfehler können zu
hoher Reliabilität führen
Beispiel Altersmessung:
-
Kann die Methode des Röntgen tatsächlich das reale Alter bestimmen oder misst sie eher das biologische Alter?
5.
Die drei Formen der Validität des Messens
Funktioniert die Messmethode bei Jugendlichen mit beschleunigtem/verlangsamtem Wachstum oder Erkrankungen?
Inhaltsvalidität
Konstruktvalidität
Definition
Alle Dimensionen des Zielkonzepts werden vollständig
und sinngemäß berücksichtigt
Messinstrumente, die dasselbe Konstrukt messen sollen,
haben gleiches Ergebnis (Konvergenz) &
Messinstrumente, die etwas anderes messen sollen,
haben anderes Ergebnis (Diskriminanz)
4
Versuchsplanung SS19
Überprüfung
-
Auf Basis der Konzeptspezifikation
-
Nicht objektiv/numerisch überprüfbar
Beurteilung: a) ob alle Aspekte des Konzepts
berücksichtigt b) ob Messbestandteile (Items)
inhaltlich die theoretische Definition treffen
Mithilfe von Korrelationsmatrizen und
Faktorenanalyse
Kriteriumsvalidität
6.
-
-
Messung korreliert mit manifesten Merkmalen
außerhalb der Messsituation (empirisches externes
Außenkriterium
-
V. a. für mehrdimensionale sozialwiss. / psycholog.
Latente Variablen
-
Korrelationen
Retrospektive, konkurrente und prädikative Validität:
Messung korreliert mit Außenkriterium vorher,
zeitgleich oder zukünftig
Validität von Kausalaussagen und Studien
Studien gelten als valide, wenn die Ergebnisse den tatsächlichen Verhältnissen entsprechen
o kein systematischer Fehler (valide)
o möglichst kleiner Zufallsfehler (reliabel)
Interne Validität: kausale Aussagen (Studienergebnisse) treffen tatsächlich auf untersuchte
Studienteilnehmer zu
Externe Validität: kausale Aussagen (Studienergebnisse) sind auf Personen / Populationen
übertragbar, die nicht an der Studie teilgenommen haben (= Generalisierbarkeit)
05 Forschungsprozess - Überblick über die Teilschritte eines Forschungsprojektes
Phasen des Forschungsprozesses im Überblick
1. Forschungsthema
-
Auftragsforschung vs. selbst initiierte Projekte
Entscheidung für ein Forschungsthema
Alkohol am Steuer
Konkretisierung zu einem Forschungsproblem
Ist die Promillegrenze von 0,5‰ angemessen?
Ableitung von Forschungsfragen bzw. Hypothesen Gefahrlos nach 2 Maß noch Autofahren?
Höheres Unfallrisiko nach mehr als 1 Maß?
Nach dem Konsum von 2 Maß Bier als Autofahrer ist das Unfallrisiko höher im Vergleich zu Autofahrern, die
keinen Alkohol konsumiert haben
2. Forschungsstand und Theorie
o
o
-
Verknüpfung der Konzepte mit theoretischen Modellen (Konzeptspezifikation)
Literaturrecherche zum aktuellen Forschungsstand
Literaturdatenbanken (Pubmed, SPORTDiscus, Google Scholar, ...)
Reference Management Software (Endnote, Zotero, …)
Evtl. Nutzung von Theorien anderer Forschungsfelder und Adaption auf eigenes Forschungsthema �
Theoriebildung
5
Versuchsplanung SS19
3.
-
Operationalisierung und Forschungsdesign
Evtl. Durchführung eines Pretests/Pilotstudie/Machbarkeitsstudie
Wahl von Forschungsdesign und Oper. beeinflussen sich gegenseitig (z.B. Befragung  Fragebogen)
Relevante Endpunkte festlegen  Unfallhäufigkeit von Personen mit >0,5‰ vs. Personen mit <0,5‰
4. Studienprotokoll / Versuchsplan
-
Wichtiger Zwischenschritt zwischen Planung und tatsächlicher Durchführung der Studie
Erleichtert die Umsetzung jeglicher Art von Forschung (umso wichtiger bei aufwändiger
Datenerhebung)
Basis für externe Finanzierung und Genehmigungsprozesse (z.B. Ethikkommission, Behörden)
Inhalte: äquivalent zu Forschungsprozess
▪ Theoretischer Hintergrund, Fragestellung (Hypothesen, Studienziele),
Operationalisierung (Endpunkte), Studiendesign, Studienpopulation (Ein/Ausschlusskriterien), Untersuchungsablauf (inkl. Qualitätssicherung),
Datenmanagement, Statistische Analyse, Ethische Aspekte, Publikationsplan
5. Stichprobenziehung
-
Ausgangspunkt ist die Population, über die eine Aussage getroffen werden soll
z.B. alle Autofahrer in Deutschland
- Vollständige Untersuchung oft unmöglich ◊Stichprobe (Sample)
- Definiertes Auswahlverfahren (von Gelegenheitsstichprobe bis Zufallsstichprobe)
z.B. Oktoberfest-BesucherInnen mit Autoschlüssel
Auswahl auf Supermarktparkplatz
zufällige Auswahl aus allen Kfz-Kennzeichen
o Inkl. Festlegung von Stichprobengröße sowie Ein- und Ausschlusskriterien
z.B. mindestens 3 Jahre Führerscheinbesitz, EU-Kennzeichen, ...
6. Datenerhebung
o
o
o
Durchführung der Datensammlung
Verschiedene Arten der Datenerhebung:
o Fragebogen / Interviews
o Messungen bei Experimenten
o Inhaltsanalyse
o Sekundärdatenbeschaffung (existierende Datenbanken, Abrechnungsdaten, AppNutzungsdaten, etc.)
o Analyse existierender Studien
Bei Primärdatenerhebung: standardisierte Messinstrumente und Qualitätssicherung (über geschultes
Studienpersonal)
7. Datenmanagement
o
o
Speicherung der Daten in Datenbanken (Digitalisierung, Codebuch)
z.B. Alter wird in Variable ALTER als Zahlenwert in Jahren gespeichert
Manuelle und systematische Prüfung der Daten in der Datenbank
z.B. ALTER sollte Zahl zwischen 20 und 99 Jahren sein
6
Versuchsplanung SS19
o
o
Bereinigung von Datenfehlern durch Nachforschung (Queries, Orginaldatenprüfung) oder
Bereinigung nach dokumentierten Regeln
z.B. Fahrerfahrung in Jahren = ALTER minus 18
Anonymisierung der Daten
8. Datenanalyse
o
o
o
Zur Beschreibung der Daten � Deskriptive Statistik
Überprüfung, ob theoretisch vorhergesagte Beziehung zwischen Variablen (Hypothesen) in den
erhobenen Daten nachweisbar sind oder nicht � Inferenzstatistik
Rückkopplung zwischen Theorie und Daten
� Statistische Auswertungen sollten sich immer auf die Forschungsfragen/Studienziele/Endpunkte
beziehen
z.B. Unfallhäufigkeit von Personen mit >0,5‰ vs. Personen mit <0,5‰, NICHT: Männer
haben häufiger >0,5‰; Alkoholisierte werden häufiger geblitzt
9. Ergebnispräsentation / Publikation
o
o
Publikation der Forschungsergebnisse
Publikationsformen:
o Studienbericht (intern oder für Geldgeber)
o Wissenschaftliche Veröffentlichung (Zeitschrift, Open Access, begutachtet)
o auf Konferenzen
o Sonstige: Blogs, Podcasts, Radio, Fernsehen, Buch, ...
o Wichtig für die Transparenz des Forschungsprozesses (Open Science –open data, open
materials, preregistration [7])
06 Störfaktoren – Wird y wirklich durch x verursacht oder doch durch z?
1. Hypothesen
o
o
o
o
Hypothese = Aussage über den Zusammenhang zwischen mindestens zwei Variablen
Ableitung aus Forschungsfragen - Kann man gefahrlos nach 2 Maß noch Autofahren?
Hypothese: Nach dem Konsum von 2 Maß Bier als Autofahrer ist das Unfallrisiko höher im
Vergleich zu Autofahrern, die keinen Alkohol konsumiert haben
Alkohol ist Ursache für Unfallrisiko?
2. Abhängige und unabhängige Variablen
Alkohol  Unfallrisiko
Unabhängige Variable
X
„Wenn“
Ursache
Risikofaktor / Exposition / Treatment
Im Experiment: veränderliche Größe
Erklärende Variable
Prädiktor
Abhängige Variable
Y
„Dann“
Wirkung
Outcome
Im Experiment: Messgröße
Vorhergesagte Variable
Ergebnisvariable
3. Gibt es andere Einflüsse?
4. Arten von Störfaktoren
o
o
Personenbezogene Störfaktoren
o Unterschiedliche Merkmale der Personen in Experimental- und Kontrollgruppe
(Auswahlverzerrung)
o Systematische Ausfälle - Höherer Anteil von Autofahrern 75+ in der Gruppe der
Nichttrinker - Mehr Formel-1-Fahrer in der Alkohol-Gruppe
Umwelt- bzw. untersuchungsbedingte Störfaktoren
o Reifungsprozesse“ der Probanden
o „Messeffekte“ und „Beobachtereffekte“ - Verbesserung beim mehrmaligen Fahren
des Slaloms - Vorsichtigeres Fahren im Pylonen-Slalom als im normalen
Straßenverkehr
7
Versuchsplanung SS19
5. Strategien zur Vermeidung von Störfaktoren
Wie erreicht man die Ceteris-Paribus-Bedingung?
A) Elimination
B) Konstanthaltung
C) Parallelisierung (Matching)
D) Randomisierung
A) Elimination
o Ausschaltung von Störgrößen während Durchführung des Experimentes oder auch Merkmalen von
Probanden (Ausschlusskriterien)
o v.a. in Bezug auf Messeffekte und Beobachtereffekte (Verblindung)
B) Konstanthaltung
o Störfaktoren in Experimental- und Kontrollgruppe möglichst gleich wirken lassen
C) Parallelisierung bzw. Matching
o Zuordnung von „ähnlichen“ Personen in Experimental- und Kontrollgruppe
o Entweder Gruppendurchschnitte werden balanciert oder Paare gematcht
D) Randomisierung
- Zufällige Zuordnung von Personen in Experimental- und Kontrollgruppe
- Kann im Idealfall bei großen Gruppen alle Störfaktoren ausschalten
6. Ausblick – Drittvariablen in der Epidemiologie
-
Unterscheidung von Störfaktoren/Drittvariablen nach:
o Bias (Verzerrungen durch Forschungsdesign)
o Cofounder (Störfaktoren, die gleichzeitig X und Y beeinflussen)
o Moderatoren/Interaktionseffekte (X beeinflusst in Zusammenhang mit Z, das Ergebnis Y
unterschiedlich stark)
o Mediatoren/Intermediärfaktoren (Zwischenschritt in der Kausalkette zwischen X und Y)
o Kontrollvariablen (Drittvariablen, die in die statistische Analyse einbezogen werden, um
deren Einfluss zu „kontrollieren“)
07_Forschungsdesigns – Die bunte Welt der Möglichkeiten eine Studie zu designen
1. Bereits getroffene Entscheidungen zum Forschungsdesign
-
Quantitative Studie (keine qualitative oder Mixed-Methods-Studie)
Empirische Studie (keine Methoden- oder Theoriearbeit/Review)
Primärdatenerhebung (keine Sekundärdaten bzw. Metaanalyse)
Explanative Studie (keine explorative oder deskriptive)
 noch zu treffende Entscheidungen: Experiment oder Beobachtung; Labor- oder Feldstudie; Anzahl der
Messzeitpunkte
1. Problematische Forschungsdesigns
-
Einmalige Messung ohne Vergleichsgruppe (VG) (98% würden diese Creme
weiterempfehlen)
Vorher-Nachher-Messung ohne VG (deutlich straffere Haut in nur 7 Tagen)
Einmalige Messung mit VG ohne Randomisierung (Kopfbälle beeinträchtigen
das Denkvermögen)
2. Experimentelle Designs
Echte Experimente:
prüfen eine Hypothese
setzen kontrolliert ein Treatment
kontrollieren Versuchsbedingungen über Elimination, Konstanthaltung und Randomisierung
8
Versuchsplanung SS19
 deswegen auch randomisierter kontrollierter Versuch (RCT)
-
-
d.h. mindestens vorher-nachher Messung mit
Kontrollgruppe
Besser: SOLOMON Vier-Gruppen-Design
Vorteile:
o kontrollierte Situation (Vermeidung von untersuchungsbedingten Störfaktoren)
o Beeinflussung der interessierenden unabhängigen Variablen (Treatment lässt sich beliebig
setzen)
o Kontrolle beliebiger Störfaktoren über Randomisierung möglich
Nachteile:
o bei Laborbedingungen evtl. reduzierte externe Validität
o Randomisierung und/oder gezielte Setzung des Treatments nicht in allen Fällen durchführbar
(ethische und praktische Aspekte)
z.B. Auswirkung von ungewolltem Schwangerschaftsabbruch auf Partnerschaft; Folgen von
überhöhtem Bleigehalt im Trinkwasser
3. Quasi-experimentelle Designs
-
Experiment ohne Randomisierung, d.h. Personen werden nicht durch Studie in Versuchs- und
Kontrollgruppe zugeordnet natürliches Experiment
z.B. Rauchverbot und Asthmaerkrankungen
Problem: zeitgleiche andere Ereignisse, Selektionseffekte
 insbesondere in der Evaluationsforschung angewendet mit dem Problem der Selbstselektion
4. Beobachtungsstudien
-
-
Ex-post-facto Anordnung: d.h. es wird beobachtet und nachträglich in Gruppen geordnet
(unabhängige Variablen/Risikofaktoren wie z.B. Bleibelastung im Trinkwasser; abhängige
Variablen/Outcomes wie z.B. chronische Müdigkeit)
Querschnittsstudie:
-
Wiederholte Querschnittsstudie / Trendstudie:
-
Probleme mit Beobachtungsstudien:
a) Zeitliche Abfolge von X und Y unklar (Kausalität)
b) Varianz der unabhängigen Variablen
c) Kontrolle von Störfaktoren
a+b  Kohortenstudie/ Panelstudie mit Oversampling:
z.B. NAKO Gesundheitsstudie oder Sozio-ökonomisches Panel (SOEP)
-
08_Stichprobenziehung Was ist eine Stichprobe und welche Auswahlverfahren gibt es?
1. Population und Stichprobe
-
-
Population = Gesamtheit aller Fälle über die in einer wissenschaftlichen Studie etwas ausgesagt
werden soll (auch: Grundgesamtheit)
z.B. Diabetespatienten oder Bundesligaspieler
Zielpopulation = definierte Population, die der
Forschungsfrage der Studie entspricht (auch: angestrebte
Grundgesamtheit, target population)
z.B. 18-bis 65-jährige Diabetespatienten in Deutschland oder
aktive Fußballspieler in der DFL-Bundesligasaison 2017/18
9
Versuchsplanung SS19
-
Vollerhebung (Untersuchung aller Objekte einer Zielpopulation) aus verschiedenen Gründen oft nicht
möglich:
o Population unendlich oder nur teilweise bekannt
o zu aufwändig
1. Eine sehr große und sehr verzerrte Stichprobe
Wahlbefragung von Literary Digest im Jahr 1936
10 Millionen Wahlberechtigte erhielten Fragebogen; 2,4 Mio. Antworten � Rückschlüsse auf
Wahlverhalten aller ca. 100 Mio. Wahlberechtigten
Voraussage: Dem. Franklin Roosevelt 41%, Rep. Alf Landon 55% � Roosevelt mit 61% gewählt
Problem 1: willkürliche (nicht-zufällige) Auswahl aus Telefonbüchern und Mitgliedskarteien von
Vereinen (Auswahlrahmen hat nicht Zielpopulation abgedeckt � undercoverage)
Problem 2: hohe Ausfallrate (non-response) mit seltenerer Antwort von unterprivilegierten
Gallup-Institut konnte Wahlerfolg von Roosevelt mit kleiner Stichprobe (n=50000) aber ohne
systematische Verzerrung voraussagen
2. Zufallsstichproben – Einfache Zufallsstichprobe
Aus einer vollständigen Liste aller Objekte einer definierten Zielpopulation (=Auswahlrahmen) wird
nach Zufallsprinzip eine gewisse Anzahl n von Objekten ausgewählt
Auswahlwahrscheinlichkeiten aller Objekte müssen gleich groß sein
3. Geschichtete Zufallsstichprobe
Einteilung der Zielpopulation in Schichten und
Zufallsauswahl pro Schicht (genauere
Schätzungen; bessere Auswertungen pro Schicht)
2. Klumpen- und mehrstufige Zufallsstichprobe
-
Wenn keine vollständige Liste aller
Objekte der Zielpopulation vorhanden
ist (z.B. Schüler in Deutschland), aber
eine Liste von übergeordneten
Einheiten, die alle Objekte enthalten
(z.B. Schulen)
3. Nicht-probabilistische Stichproben
-
-
Gelegenheitsstichprobe (= willkürliche Auswahl):
o z.B. Auswahl von Kommilitonen über Aushang oder Ansprechen nach der Vorlesung; OnlineBefragung auf Newsseiten
o keine klare Definition von Zielpopulation und Auswahlpopulation
o niedrigste Stichprobenqualität
o evtl. angemessen, wenn keine Aussagen über Zielpopulation getroffen werden sollen bzw. bei
explorativen Studien
Quotenverfahren (= Auswahl von Personen, sodass bestimmte Merkmale in der Stichprobe so häufig
sind, wie in Grundgesamtheit)
Schneeballverfahren (für schwer erreichbare Populationen)
Bewusste Auswahl extremer oder typischer Fälle
10
Versuchsplanung SS19
4. Ausfälle und Responserate
-
-
Ausfallgründe:
o Zielperson nicht erreichbar
o Verweigerung der Teilnahme
o keine vollständige Teilnahme bis zum Ende der Studie
o Daten nicht auswertbar
Responserate:
5. Was sind „repräsentative“ Stichproben?
-
-
Problem: nicht-zufällige Ausfälle wie in der Wahlbefragung durch Literary Digest in den USA 1936
Wenn Anteil in der Bevölkerung (Zielpopulation) geschätzt werden soll oder Studienergebnisse auf
Bevölkerung verallgemeinert werden sollen:  Merkmalszusammensetzung in der Stichprobe sollte
unverzerrt die Merkmalszusammensetzung in der Population widerspiegeln
Merkmalsspezifisch-repräsentativ: Stichprobe entspricht hinsichtlich einiger relevanter Merkmale der
Populationszusammensetzung
Global-repräsentativ: Stichprobenzusammensetzung entspricht in allen
interessierenden Variablen (inkl. Störfaktoren) der Zielpopulation
„Repräsentativität“ nur über Zufallsstichproben erreichbar, was bei
angeblich „repräsentativen Studien“ aber oft nicht der Fall ist
(stattdessen Quotenverfahren angewendet)
Zusammenfassung 08
1. Berechnen Sie aus den 20 Professoren und Professorinnen der Fakultät die
durchschnittliche Anzahl der Veröffentlichungen basierend auf:
A) Vollerhebung, B) Einfache Zufallsstichprobe (n=8), C) Geschichtete
Zufallsstichprobe (n=8, 50% männlich, 50% weiblich), D)Quotenverfahren (4
Männer, 4 Frauen)
2. Konstruieren Sie ein Beispiel für ein mehrstufiges Auswahlverfahren, um die
durchschnittliche Anzahl für die gesamte TU München festzustellen.
VL 9 Datenerhebung - Welche verschiedenen Techniken der Datenerhebung gibt es und
welche Einsatzgebiete gibt es dafür?
1. Befragung
-
Fragebogen als Standardinstrument empirischer Sozialforschung zur Ermittlung von Fakten, Wissen,
Meinungen oder Einstellungen
Durchführungsarten:
o Persönlich (Face-to -Face): strukturiertes Interview, auch CAPI (computer assisted personal
interview)
o Schriftlich (Paper-Pencil): auch als postalische Befragung
o Online: Fragebogen, der übers Internet ausgefüllt wird
o Telefonisch: telefonische Befragung, auch CATI (computer assisted telephone interview)
1. Hinweise zur Fragebogengestaltung
-
Frageformat:
Welcher Faktor war bei der Wahl Ihres Studienfachs ausschlaggebend?
Interesse für das Fach ▢ ▢
Berufsaussichten
▢▢
Wunsch meiner Eltern
▢▢
Sonstiges: ___________
▢▢
Ja /Nein
-
Fragereihenfolge: kann Antworten beeinflussen (Halo-Effekt)
Frageformulierung: einfach, kurz, konkret, neutral, eindimensional
Verwendung etablierter Items und Skalen (z.B. Bildungsniveau)
Filterführung; ansprechendes Layout
Pretest durchführen; Unnötiges weglassen  FB sind immer zu lang
11
Versuchsplanung SS19
1. Soziale Erwünschtheit bei „heiklen Themen“
Thema
Drogen
Direkte Abfrage
„Hast du jemals illegale Drogen
genommen?“ (54,8%, n=211)
Gleichgeschlechtliche Liebe
„Hattest du in deinem bisherigen
Leben jemals homosexuelle
Kontakte?“ (14,8 %, n=211)
„Hast du an der Uni schon jemals
in der Bibliothek ein Buch
entwendet?“
(0%, n=211)
Stehlen
Indirekte Abfrage
Wording/Framing Technik: „Auch VIPs, also sehr bedeutsame Personen aus
dem öffentlichen Leben berichten, in ihrer Jugend sogenannte illegale
Drogen (angefangen von Marihuana bis hin zu härteren Sachen) probiert
und genommen zu haben. Hast du schon jemals illegale Drogen
genommen?“ (60,5%, n=367)
Vertraulicher Umschlag (selbe Fragestellung)
(18,5%, n= 367)
Randomized-Response-Technik:
(selbe Fragestellung mit forced response Kartenspiel)
(6,7%, n=367)
2. Messung
-
-
Anatomische, biomechanische oder physiologische Messung z.B. von Körpermaßen, Gehirnaktivität,
Herz-Kreislauf-System, Haut, Muskeln, Augen und Bewegungsabläufen
Vorteile gegenüber Befragung:
o lassen sich weniger leicht/gezielt beeinflussen oder verfälschen
o Erinnerungsfehler werden vermieden
o unbewusste Phänomene können erhoben werden
o Sehr detaillierte Erfassung vieler Daten im Zeitverlauf
o Einblick in Bewegungsabläufe, Informationsverarbeitung, Emotionen
Nachteile:
o Verfügbarkeit und Kosten der Messgeräte
o Validität und Reliabilität der Messungen muss sichergestellt werden (korrekte Bedienung;
Erkennung von Messartefakten)
o stärkere Beanspruchung der Untersuchungspersonen
o reaktive Untersuchungsmethode (Laborsituation evtl. nicht auf reale Lebensbedingungen
übertragbar)
o Physiologische Reaktion ermöglicht keinen direkten Rückschluss auf Handeln der Personen
3. Beobachtung und weitere Datenerhebungstechniken
-
-
Beobachtung:
 Unter einer wissenschaftlichen Beobachtung („scientific observation“) versteht man die
zielgerichtete, systematisch geplante, regelgeleitete Erfassung und Dokumentation
von Merkmalen/Ereignissen/Verhaltensweisen mithilfe menschlicher Sinnesorgane und/oder
technischer Sensoren zum Zeitpunkt ihres Auftretens inkl. Prüfung ihrer
Gültigkeit/Zuverlässigkeit/Genauigkeit
Inhaltsanalyse (z.B. Sexismus bei der Berichterstattung über Frauensport; Behandlung des Thema
Dopings in der Sportlehrerausbildung)
Nicht-reaktive Messung oder Beobachtung (z.B. Drogen im Abwasser, Anzahl der Krankmeldungen)
12
Versuchsplanung SS19
VL 10 Experimentelle Designs
1. Eigenschaften von experimentellen Designs
-
Echte Experimente:
o prüfen eine Hypothese
o setzen kontrolliert ein Treatment = beeinflussen kontrolliert die unabhängige Variable
(Manipulation)
o kontrollieren Versuchsbedingungen über Elimination, Konstanthaltung und Randomisierung
(Kontrolle und Randomisierung)
 deswegen auch randomisierte kontrollierte Studie (RCT)
 d.h. mindestens Vorher-Nachher Messung mit Kontrollgruppe
1. Macht Orangensaft zum Frühstück dick?
Forschungsfrage: Sollte man zuckerhaltige Getränke lieber mit den
Mahlzeiten trinken oder dazwischen?
Studie an der Uni Hohenheim von Hägele et al. 2018 [2]
2. Messwiederholung
Nur Nachher-Messung:
Was, wenn sich Gruppen bereits vorher im Körperfettanteil
unterschieden haben?
Nur sinnvoll, wenn Messung der abhängigen Variablen vorher
unmöglich (z.B. Auswirkung eines Kaiserschnitts auf die
Allergiehäufigkeit bei Babys)
Vorher-Nachher-Messung:
Wenn Treatment X tatsächlich Y beeinflusst, muss NachherMesswert in Experimentalgruppe höher/niedriger sein als
Vorher-Messwert Veränderung ∆ zwischen 🕛und
Mehrere Messwiederholungen in manchen Fragestellungen sinnvoll  Achtung Messeffekte (Lernen,
Ermüden) z.B. Schwellenwertbestimmung
3. Kontrollgruppe
-
-
-
Ohne Kontrollgruppe: nicht sinnvoll (nur Vergleich zu Referenzwert möglich)
Verschiedene Abstufungen zwischen Experimentalgruppe und Kontrollgruppe denkbar:
o X vs. Nichts
o Neues vs. Altes Medikament
o Normales Workout& mentales Training vs. Nur Workout; ...
Orangensaft mit Mahlzeiten konsumiert vs. Zwischen Mahlzeiten
Konstanthaltung der Versuchsbedingungen in beiden Gruppen
beides Mal gleiches Getränk und gleiche Menge, keine sonstige Aufnahme von Zitrusfrüchten,
kontrollierte Versuchsbedingungen
Eigene Kontrolle möglich (z.B. Test von Schuhsohlen, Kontaktlinsen)
Mehrgruppendesigns (falls unterschiedliche Stufen von X getestet werden sollen)
z.B. O-Saft nur zum Frühstück (x1), nur zum Mittag (x2) oder zu 3 Mahlzeiten (x3)
Falls Vorher-Messung Auswirkung auf Wirksamkeit des Treatments haben kann SOLOMON VierGruppen-Design
4. Randomisierung
-
Randomisierung 🎲🎲= zufällige Zuweisung von Studienteilnehmern zur Versuchs- oder
Kontrollgruppe über: Münzwurf, Würfeln; Lose; Zufallszahlen (computergeneriert)
(von Personen durchgeführt, die Forschungsfrage nicht kennen)
-
für gleiche Gruppengrößen: Blockrandomisierung (bei n<100)
13
Versuchsplanung SS19
-
wenn inhaltlich sinnvoll: vor Randomisierung Auswahl von Probanden mit ähnlichen Merkmalen
(Auswirkung auf externe Validität)
bei kleinen Fallzahlen mit großen Gruppenunterschieden (n<30)
evtl. Ausnahme von Randomisierung
Matching oder stratifizierte Randomisierung
5. Cross-Over-Design
-
Tausch von Versuchs- und Kontrollgruppe
-
Zur Vermeidung von Übertragungseffekten  Washout-Periode
6. Mehrfaktorielle Designs
-
Untersuchung von Treatments mit mehreren Dimensionen (=Faktoren):
z.B. Orangensaft zu gewissem Zeitpunkt (Faktor 1)
In verschiedenen Mengen (Faktor 2)
 2 x 3 Versuchsplan:
-
Mit unterschiedlichem Zuckeranteil (null, niedrig,
hoch) (Faktor 3)  Erweiterung zu 2 x 3 x 3 Versuchsplan mit 18 verschiedenen Gruppen
Vorteile:
Kann Interaktionseffekte zwischen den Faktoren ermitteln
z.B. Orangensaft zwischen Mahlzeiten führt nur zur Erhöhung des Körperfettanteils, wenn mehr als
300 ml getrunken
Probleme:
Bei vielen Faktoren:
o entweder sehr viele Versuchsgruppen (hohe benötigte Fallzahl)
o oder viele Experimente pro Teilnehmer (Übertragungseffekte, Ermüdung, Drop-outs)
 Konstanthaltungschwierig
o problematische Auswertung (Interpretation und multiples Testen)
Studienergebnis: Macht Orangensaft dick?
Ergebnisse:
Bei Orangensaft mit Mahlzeiten: Fettmasse bei Probanden um -0,3 kg (SD= 0,6) reduziert; bei
Orangensaft zwischen Mahlzeiten um 1,0 kg (SD=1,8) erhöht
Einschränkungen zur internen Validität:
Körpergewicht kaum verändert; Hypothese zum Blutzuckerspiegel nicht bestätigt; n
Einschränkung zur externen Validität
Probanden tranken 1,3l O-Saft pro Tag (Verbrauch in D nur 7,8l pro Jahr); nur normalgewichtige und
gesunde Probanden [2,3]
14
Versuchsplanung SS19
VL 11 Studienprotokoll
1. Inhalt Studienprotokoll / Versuchsplan
-
-
Versuchsplan:
o bei experimentellen Designs
o inhaltlich meist begrenzt auf Festlegung der Gruppen, Anzahl der Faktoren und Ausprägungen
pro Faktor
o sollte in eine ausführliche Beschreibung aller Schritte des Forschungsprozesses integriert
werden (= Studienprotokoll)
Inhalte Studienprotokoll: äquivalent zu Forschungsprozess
o Theoretischer Hintergrund, Fragestellung (Hypothesen, Studienziele), Operationalisierung
(Endpunkte), Studiendesign, Studienpopulation (Ein-/Ausschlusskriterien),
Untersuchungsablauf (inkl. Qualitätssicherung), Datenmanagement, Statistische Analyse,
Ethische Aspekte, Publikationsplan
o alle Inhalte sind gut zu begründen!
2. Sinn und Zweck des Studienprotokolls
-
Hilfreiche Anleitung zur Durchführung des Forschungsprojektes
Logisches Durchdenken des Forschungsprojektes vorab und Vermeidung von möglichen Problemen
(Forschungseffizienz)
Ermöglicht die Überprüfung der Forschungsmethodik und Ergebnisse durch Reviewer & anderen
Forschern (Replizierbarkeit, Transparenz)
Ermöglicht die Veröffentlichung von negativen Forschungsergebnissen (bei Vorabregistrierung des
Protokolls und guter Methodik)
Basis für externe Finanzierung und Genehmigungsprozesse (z.B. Ethikkommission, Behörden)
3. Fallbeispiel 1 – Sitzposition beim Kajak
Fragestellung: Beeinflusst die Sitzhöhe die Paddeleffizienz beim Kajakfahren?
(1) Theoretischer Hintergrund:
a.
Biomechanik zu Sitzposition und Kraftübertragung/Kontrolle; Definition von Paddeleffizienz über
Geschwindigkeit und die wichtigsten Bootmanöver [3]
(2) Hypothesen:
a.
Eine höhere Sitzposition im Kajak steigert die Paddeleffizienz im Vergleich zur Standardsitzhöhe
(3) Operationalisierung:
a.
b.
X: Sitzhöhe (gemessen in cm zur Standardsitzhöhe)
Y: Paddeleffizienz (Index aus durchschnittlicher Geschwindigkeit, Länge der Paddelbewegung, Heckbewegung,
...)
(4) Hauptendpunkt:
a.
Veränderung des Paddeleffizienzindex in %
(5) Studiendesign:
a.
RCT; Versuchsgruppen und Kontrollgruppe (mit Placebo-Sitzerhöhung); 3 x 2 Design (Faktor 1: Sitzhöhe
0/5/8cm; Faktor 2: Einer/Doppel-Kajak)
(6) Studienpopulation und Auswahlverfahren:
a.
b.
Erfahrene Kajakfahrer (mind. 2 Jahre Teilnahme an Wettbewerben), mind. 18 Jahre, Verwendung von
Standardkajaks (keine Sonderanfertigung), ...
zweistufige Zufallsstichprobe: I) 10 Vereine aus dem Register des DKV; II) 10 Kajakfahrer pro Verein aus
Mitgliederliste zufällig gezogen
(7) Untersuchungsablauf:
a.
b.
Alle Teilnehmer durchlaufen alle 6 Gruppen (Cross-Over-Design) im normalen Trainingsrhythmus
(Konstanthaltung der Versuchsbedingung); alle starten und enden mit Kalibrierungstest (normale
Sitzposition);
Weitere Details zum Ablauf (Material, Messverfahren, kontrollierte Störfaktoren etc.) sollten auch festgelegt
werden
(8) Datenmanagement
(9) Statistische Analyse
a.
Nur t-Test oder Regressionsmodell? welche Kontrollvariablen?
(10) Ethische Aspekte,
(11) Publikationsplan
15
Versuchsplanung SS19
4. Beispiel 2 – Stadtluft und Atemwegserkrankung
-
Fragestellung: Haben Menschen, die in der Stadt wohnen häufiger Atemwegserkrankungen als
Menschen, die auf dem Land wohnen?
(1) Theoretischer Hintergrund:
a.
Hohe Schadstoffbelastung in Städten; WHO Schadstoffliste
(2) Hypothesen:
a.
Menschen, die in der Stadt leben haben ein höheres Risiko eine Atemwegserkrankung zu entwickeln als
Menschen in ländlichen Regionen
(3) Operationalisierung:
a.
b.
X: „in der Stadt leben“ (> 500,000 EW, geschlossene Bebauung) vs. „in ländlicher Region leben“ (< 15,000 EW)
Y: Häufigkeit von Atemwegserkrankungen (Diagnose; ohne Grippe)
(4) Hauptendpunkt:
a.
Relatives Risiko für Atemwegserkrankungen Stadt vs. Land nach 5 Jahren
(5) Studiendesign:
a.
Beobachtungsstudie  Kohortenstudie
(6) Studienpopulation und Auswahlverfahren:
a.
b.
Bevölkerungsbasierte Zufallsstichprobe aus Melderegister von 5 Großstädten und 15 kleinen Gemeinden;
insgesamt 10000 Menschen
Ein-/Ausschlusskriterien: keine existierenden Atemwegserkrankungen zu Studienbeginn, Nichtraucher; evtl.
Einschränkung zu Arbeitsort, Reisen
(7) Untersuchungsablauf:
a.
b.
Befragung der TeilnehmerInnen zum Studienstart über Risikofaktoren (Wohnsituation, Rauchen,
Vorerkrankungen, etc.) und ärztliche Eingangsuntersuchung; jährliche Folgebefragung
Diskussion von Störfaktoren
(8) Datenmanagement
(9) Statistische Analyse
a.
Regressionsmodell für Relatives Risiko inkl. relevanter Kontrollvariablen
(10) Ethische Aspekte,
(11) Publikationsplan
Lernziele der VL:
Sie sollen:
die wichtigsten Aspekte wissenschaftlichen Denkens und Arbeitens kennenlernen
die grundlegende Denkweise vermittelt bekommen, wie Sie eine Fragestellung in ein
Forschungsdesign übersetzen können
verstehen, warum Statistik Zufallsstatistik ist
von allen Forschungsdesigns/Studientypen gehört haben, die später in der Epidemiologie oder Ihren
anderen Vorlesungen wieder auftauchen
lernen, dass wissenschaftliche Methoden universell in vielen Fachgebieten anwendbar sind
bis zum Juli mindestens ein Beispiel für einen methodischen Fehler in einem Wissenschaftsbeitrag
selbst finden
16
Versuchsplanung SS19
Download