„Warum und wie forschen wir?“ - - Wie: Kriterien an Wissenschaft nach King/Keohane/Verba: 1. Das Ziel der Forschung ist Inferenz 2. Alle Daten und Methoden sind öffentlich 3. Schlussfolgerungen sind unsicher (Argumente müssen falsifizierbar sein) 4. Inhalt der Forschung ist die Methode Falsifizierung Deterministische vs. Probabilistische Erklärungen Positiv vs. Normativ 02 Basics in Wissenschaftstheorie 1. Methoden des Erkenntnisgewinns - - Ziel der empirischen Wissenschaft o systematische Prüfung von Theorien in der Realität (Empirie) (Sachverhalte entdecken, Zusammenhänge formulieren, Aussagen prüfen, Prognosen tätigen) Anspruch an Wissenschaft: nachvollziehbar, kritisierbar, „wahr“ 2. Begriffsdefinition „nachvollziehbar“ - Nominaldefinitionen - Intensionale Bedeutung = alle Begriffsmerkmale (Inhalt) Extensionale Bedeutung = alle Objekte, die Definition erfüllen (Umfang) 3. Hypothesen - Hypothese = Aussage über den Zusammenhang zwischen mindestens zwei Variablen Variable = Menge v. Merkmalsausprägungen, die Objekten zugeschrieben werden (z.B. Geschlecht) Gesetz = in der Realität „bewährte“ Aussage über den Zusammenhang zwischen mind. zwei Variablen Theorie = System von Aussagen, das mehrere Hypothesen/Gesetze umfasst - Wenn-dann-Hypothese, z.B. Bewegung verhindert Demenz „Wenn sich Menschen im Alter bewegen, dann bekommen Sie keine Demenzerkrankung“ Je-desto-Hypothese, z.B. je mehr Bewegung, desto weniger Demenz „Je mehr sich Menschen... bewegen, desto geringer die Wahrscheinlichkeit für...“ - 1 Versuchsplanung SS19 4. Deduktion and Induktion 5. Kritischer Rationalismus - „wahr“ von Karl Popper begründet (*1902, † 1994) Gegenmodell zum Empirismus (logische Unmöglichkeit der Verifizierung von Theorien durch Induktionsschluss „nur weiße Schwäne sichtbar“) Zentral sind die logisch mögliche Widerlegung und die Fehlbarkeit (methodologischer Falsifikationismus) und die Theorie: Basierend auf Definitionen, Axiomen (Aussagen deren Wahrheit angenommen wird) u. Propositionen (Hypothesen und Gesetze) mit festgelegtem Geltungsbereich (zeitlich, räumlich) und Objektbereich Hypothesen müssen sich empirisch „bewähren“ (aber: Methode kann fehlerhaft sein) Anforderungen an wissenschaftliche Theorien 1. Innere Widerspruchsfreiheit (Logik) 2. Äußere Widerspruchsfreiheit (zu anderen empirisch bewährten Theorien) 3. Falsifizierbarkeit (empirisch prüfbar und widerlegbar) 4. Hoher Informationsgehalt (großer Geltungsbereich und Präzision) potentiell viele Falsifikatoren 5. Große Erklärkraft (nicht nur deskriptiv, sondern Ursache-Wirkung) 6. Praktische Anwendbarkeit (Prognosefähigkeit) 7. Einfachheit / Sparsamkeit (Ockham‘srazor) 8. Hoher empirischer Bewährungsgrad (viele Studien, Metaanalysen) ! Achtung: Präsentation nur einer Wiss.theorie von vielen Positivismusstreit & qualit. Forschungsparadigma Operationalisieren und Messen – wie man Begriffe messbar macht 1. Konzept spezifizieren Manifeste Merkmale (= direkt beobachtbare Variablen) Alter, Körpergröße, Haarfarbe Komplexe theoretische Konzepte (bzw. latente Variablen) Vs. Intelligenz, Kondition, Ehrgeiz - Komplexe theoretische Begriffe/Konzepte müssen daher spezifiziert werden o Konzeptspezifikation = spezielle Art der Nominaldefinition bei der theoriebasiert die versch. inhaltliche Dimensionen des Begriffs / des theoretischen Konzepts / der latenten Variable festgelegt werden 2. Theoretische Konzepte operationalisieren Operationalisierung bedeutet: - Indikatoren auswählen & - Messinstrumente festlegen = Messbarmachung meiner Hypothese Operationale Definitionen, z.B. „Kondition ist, was mein Ausdauertest misst“ sind unzureichend! Begriffe sollten nicht tautologisch definiert, sondern einem theoretischen Verständnis verankert sein (z.B. vier Dimensionen von „Kondition“) 2 Versuchsplanung SS19 Beispiele für Operationalisierungen Manifeste Variablen: Alter Dauer in angefangenen Jahren zwischen Geburtsdatum und Zeitpunkt der Eingangsuntersuchung Abstand zwischen Ferse und Kopfoberkante im stehenden Zustand (+ evtl. Messanweisungen) Selbsteinschätzung nach der L’Oréal Haarfarbskala Körpergröße Haarfarbe 3. Was heißt messen? Messen = Zuordnung von numerischen Werten zu den beobachteten (empirischen) Ausprägungen der Untersuchungseinheiten auf einzelnen Variablen, wobei die Struktur (Relationen) des empirischen Relativs erhalten bleiben muss. d.h. empirisches Relativ Messanweisung Numerisches Relativ 4. Skalen und Messniveaus - Aufgrund der theoretischen Komplexität des Messens (Nachweis, dass meine numerische Ordnung tatsächlich die empirische Ordnung abbildet) gibt es Skalen-bzw. Messniveaus Ratioskala (Verhältnisskala) Mögliche Aussagen Gleichheit / Verschiedenheit Größer-KleinerRelationen Gleichheit von Differenzen Gleichheit von Verhältnissen Nominalskala Ordinalskala Intervallskala Ratioskala Identität Ja Ja Ja Ja Nominalskala Ordinalskala Intervallskala Beispiele Haarfarbe, Familienstand Windstärken, Schulnoten Temperatur in °C, Kalenderzeit Körpergröße, Gewicht, Temperatur in K Rangfolge Nein Ja Ja Ja Abstände Nein Nein Ja Ja Nullpunkt Nein Nein Nein Ja 5. Wie misst man „gut“? Gütekriterien für Messung sind: - Kann das Messinstrument das Zielkonstrukt (den Begriff bzw. die Variable) erfassen? o Validität (extrem wichtig, aber sehr schwierig sicherzustellen) - Ist die Messung frei von Messfehlern? o Reliabilität (wichtig, gut sicherzustellen, zu oft vernachlässigt) 3 Versuchsplanung SS19 04 Reliabilität und Validität – Wie man überprüft, ob man das „Richtige“ „richtig“ misst 1. Wie misst man richtig? Gütekriterien für Messung sind: Ist die Messung frei von Messfehlern? [„richtig messen“] o Reliabilität Kann das Messinstrument das Zielkonstrukt (den Begriff bzw. die Variable) erfassen? [„das Richtige messen“] o Validität Beispiel Altersmessung Anspruch: vergleichbar, gerecht und rechtssicher - zwei Minderjährige sollten beide im Alterstest <18 Jahre erhalten 2. Das Konzept der Reliabilität Reliabilität ≜Zuverlässigkeit, Präzision, Messgenauigkeit Wiederholte Messungen desselben Objektes sollten die gleichen Werte liefern Nur kleine und zufällige Messfehler sollten auftreten - dieselbe Person sollte bei Untersuchung von zwei versch. Ärzten/in verschiedenen Bundesländern dasselbe Ergebnis erhalten das Ergebnis der Altersmessung sollte möglichst dem realen chronologischen Alter entsprechen) Beispiel Altersmessung: - Altersmessung sollte in Bayern und in Berlin zum selben Ergebnis kommen 3. Arten die Reliabilität zu prüfen Messung ist zeitlich stabil: z.B. Ruhepulsmessung morgens und abends sollte zum selben Ergebnis kommen o Testwiederholungs-Reliabilität (Test-Retest-Reliabilität) Messung ist in Kontrollmessung stabil: z.B. zwei verschiedene Blutdruckmessgeräte am linken und rechten Arm sollten zum gleichen Ergebnis kommen o Paralleltest-Reliabilität Alle Teile der Messung/des Tests tragen zum Ergebnis bei: z.B. alle einzelnen Fragen einer MultipleChoice-Klausur sollten dasselbe Konstrukt (Wissen der Studierenden) messen o Interne Konsistenz o Messung über Cronbachs Alpha-Koeffizient in Itemanalyse - - - 4. - Verschiedene Ärzte sollten bei einer Person dasselbe Alter messen Das Konzept der Validität Validität ≜Gültigkeit Messinstrument (Test, Gerät, Fragebogen) misst tatsächlich das, was es messen soll Keine systematischen Messfehler sollten auftreten ◊Achtung: systematische Messfehler können zu hoher Reliabilität führen Beispiel Altersmessung: - Kann die Methode des Röntgen tatsächlich das reale Alter bestimmen oder misst sie eher das biologische Alter? 5. Die drei Formen der Validität des Messens Funktioniert die Messmethode bei Jugendlichen mit beschleunigtem/verlangsamtem Wachstum oder Erkrankungen? Inhaltsvalidität Konstruktvalidität Definition Alle Dimensionen des Zielkonzepts werden vollständig und sinngemäß berücksichtigt Messinstrumente, die dasselbe Konstrukt messen sollen, haben gleiches Ergebnis (Konvergenz) & Messinstrumente, die etwas anderes messen sollen, haben anderes Ergebnis (Diskriminanz) 4 Versuchsplanung SS19 Überprüfung - Auf Basis der Konzeptspezifikation - Nicht objektiv/numerisch überprüfbar Beurteilung: a) ob alle Aspekte des Konzepts berücksichtigt b) ob Messbestandteile (Items) inhaltlich die theoretische Definition treffen Mithilfe von Korrelationsmatrizen und Faktorenanalyse Kriteriumsvalidität 6. - - Messung korreliert mit manifesten Merkmalen außerhalb der Messsituation (empirisches externes Außenkriterium - V. a. für mehrdimensionale sozialwiss. / psycholog. Latente Variablen - Korrelationen Retrospektive, konkurrente und prädikative Validität: Messung korreliert mit Außenkriterium vorher, zeitgleich oder zukünftig Validität von Kausalaussagen und Studien Studien gelten als valide, wenn die Ergebnisse den tatsächlichen Verhältnissen entsprechen o kein systematischer Fehler (valide) o möglichst kleiner Zufallsfehler (reliabel) Interne Validität: kausale Aussagen (Studienergebnisse) treffen tatsächlich auf untersuchte Studienteilnehmer zu Externe Validität: kausale Aussagen (Studienergebnisse) sind auf Personen / Populationen übertragbar, die nicht an der Studie teilgenommen haben (= Generalisierbarkeit) 05 Forschungsprozess - Überblick über die Teilschritte eines Forschungsprojektes Phasen des Forschungsprozesses im Überblick 1. Forschungsthema - Auftragsforschung vs. selbst initiierte Projekte Entscheidung für ein Forschungsthema Alkohol am Steuer Konkretisierung zu einem Forschungsproblem Ist die Promillegrenze von 0,5‰ angemessen? Ableitung von Forschungsfragen bzw. Hypothesen Gefahrlos nach 2 Maß noch Autofahren? Höheres Unfallrisiko nach mehr als 1 Maß? Nach dem Konsum von 2 Maß Bier als Autofahrer ist das Unfallrisiko höher im Vergleich zu Autofahrern, die keinen Alkohol konsumiert haben 2. Forschungsstand und Theorie o o - Verknüpfung der Konzepte mit theoretischen Modellen (Konzeptspezifikation) Literaturrecherche zum aktuellen Forschungsstand Literaturdatenbanken (Pubmed, SPORTDiscus, Google Scholar, ...) Reference Management Software (Endnote, Zotero, …) Evtl. Nutzung von Theorien anderer Forschungsfelder und Adaption auf eigenes Forschungsthema � Theoriebildung 5 Versuchsplanung SS19 3. - Operationalisierung und Forschungsdesign Evtl. Durchführung eines Pretests/Pilotstudie/Machbarkeitsstudie Wahl von Forschungsdesign und Oper. beeinflussen sich gegenseitig (z.B. Befragung Fragebogen) Relevante Endpunkte festlegen Unfallhäufigkeit von Personen mit >0,5‰ vs. Personen mit <0,5‰ 4. Studienprotokoll / Versuchsplan - Wichtiger Zwischenschritt zwischen Planung und tatsächlicher Durchführung der Studie Erleichtert die Umsetzung jeglicher Art von Forschung (umso wichtiger bei aufwändiger Datenerhebung) Basis für externe Finanzierung und Genehmigungsprozesse (z.B. Ethikkommission, Behörden) Inhalte: äquivalent zu Forschungsprozess ▪ Theoretischer Hintergrund, Fragestellung (Hypothesen, Studienziele), Operationalisierung (Endpunkte), Studiendesign, Studienpopulation (Ein/Ausschlusskriterien), Untersuchungsablauf (inkl. Qualitätssicherung), Datenmanagement, Statistische Analyse, Ethische Aspekte, Publikationsplan 5. Stichprobenziehung - Ausgangspunkt ist die Population, über die eine Aussage getroffen werden soll z.B. alle Autofahrer in Deutschland - Vollständige Untersuchung oft unmöglich ◊Stichprobe (Sample) - Definiertes Auswahlverfahren (von Gelegenheitsstichprobe bis Zufallsstichprobe) z.B. Oktoberfest-BesucherInnen mit Autoschlüssel Auswahl auf Supermarktparkplatz zufällige Auswahl aus allen Kfz-Kennzeichen o Inkl. Festlegung von Stichprobengröße sowie Ein- und Ausschlusskriterien z.B. mindestens 3 Jahre Führerscheinbesitz, EU-Kennzeichen, ... 6. Datenerhebung o o o Durchführung der Datensammlung Verschiedene Arten der Datenerhebung: o Fragebogen / Interviews o Messungen bei Experimenten o Inhaltsanalyse o Sekundärdatenbeschaffung (existierende Datenbanken, Abrechnungsdaten, AppNutzungsdaten, etc.) o Analyse existierender Studien Bei Primärdatenerhebung: standardisierte Messinstrumente und Qualitätssicherung (über geschultes Studienpersonal) 7. Datenmanagement o o Speicherung der Daten in Datenbanken (Digitalisierung, Codebuch) z.B. Alter wird in Variable ALTER als Zahlenwert in Jahren gespeichert Manuelle und systematische Prüfung der Daten in der Datenbank z.B. ALTER sollte Zahl zwischen 20 und 99 Jahren sein 6 Versuchsplanung SS19 o o Bereinigung von Datenfehlern durch Nachforschung (Queries, Orginaldatenprüfung) oder Bereinigung nach dokumentierten Regeln z.B. Fahrerfahrung in Jahren = ALTER minus 18 Anonymisierung der Daten 8. Datenanalyse o o o Zur Beschreibung der Daten � Deskriptive Statistik Überprüfung, ob theoretisch vorhergesagte Beziehung zwischen Variablen (Hypothesen) in den erhobenen Daten nachweisbar sind oder nicht � Inferenzstatistik Rückkopplung zwischen Theorie und Daten � Statistische Auswertungen sollten sich immer auf die Forschungsfragen/Studienziele/Endpunkte beziehen z.B. Unfallhäufigkeit von Personen mit >0,5‰ vs. Personen mit <0,5‰, NICHT: Männer haben häufiger >0,5‰; Alkoholisierte werden häufiger geblitzt 9. Ergebnispräsentation / Publikation o o Publikation der Forschungsergebnisse Publikationsformen: o Studienbericht (intern oder für Geldgeber) o Wissenschaftliche Veröffentlichung (Zeitschrift, Open Access, begutachtet) o auf Konferenzen o Sonstige: Blogs, Podcasts, Radio, Fernsehen, Buch, ... o Wichtig für die Transparenz des Forschungsprozesses (Open Science –open data, open materials, preregistration [7]) 06 Störfaktoren – Wird y wirklich durch x verursacht oder doch durch z? 1. Hypothesen o o o o Hypothese = Aussage über den Zusammenhang zwischen mindestens zwei Variablen Ableitung aus Forschungsfragen - Kann man gefahrlos nach 2 Maß noch Autofahren? Hypothese: Nach dem Konsum von 2 Maß Bier als Autofahrer ist das Unfallrisiko höher im Vergleich zu Autofahrern, die keinen Alkohol konsumiert haben Alkohol ist Ursache für Unfallrisiko? 2. Abhängige und unabhängige Variablen Alkohol Unfallrisiko Unabhängige Variable X „Wenn“ Ursache Risikofaktor / Exposition / Treatment Im Experiment: veränderliche Größe Erklärende Variable Prädiktor Abhängige Variable Y „Dann“ Wirkung Outcome Im Experiment: Messgröße Vorhergesagte Variable Ergebnisvariable 3. Gibt es andere Einflüsse? 4. Arten von Störfaktoren o o Personenbezogene Störfaktoren o Unterschiedliche Merkmale der Personen in Experimental- und Kontrollgruppe (Auswahlverzerrung) o Systematische Ausfälle - Höherer Anteil von Autofahrern 75+ in der Gruppe der Nichttrinker - Mehr Formel-1-Fahrer in der Alkohol-Gruppe Umwelt- bzw. untersuchungsbedingte Störfaktoren o Reifungsprozesse“ der Probanden o „Messeffekte“ und „Beobachtereffekte“ - Verbesserung beim mehrmaligen Fahren des Slaloms - Vorsichtigeres Fahren im Pylonen-Slalom als im normalen Straßenverkehr 7 Versuchsplanung SS19 5. Strategien zur Vermeidung von Störfaktoren Wie erreicht man die Ceteris-Paribus-Bedingung? A) Elimination B) Konstanthaltung C) Parallelisierung (Matching) D) Randomisierung A) Elimination o Ausschaltung von Störgrößen während Durchführung des Experimentes oder auch Merkmalen von Probanden (Ausschlusskriterien) o v.a. in Bezug auf Messeffekte und Beobachtereffekte (Verblindung) B) Konstanthaltung o Störfaktoren in Experimental- und Kontrollgruppe möglichst gleich wirken lassen C) Parallelisierung bzw. Matching o Zuordnung von „ähnlichen“ Personen in Experimental- und Kontrollgruppe o Entweder Gruppendurchschnitte werden balanciert oder Paare gematcht D) Randomisierung - Zufällige Zuordnung von Personen in Experimental- und Kontrollgruppe - Kann im Idealfall bei großen Gruppen alle Störfaktoren ausschalten 6. Ausblick – Drittvariablen in der Epidemiologie - Unterscheidung von Störfaktoren/Drittvariablen nach: o Bias (Verzerrungen durch Forschungsdesign) o Cofounder (Störfaktoren, die gleichzeitig X und Y beeinflussen) o Moderatoren/Interaktionseffekte (X beeinflusst in Zusammenhang mit Z, das Ergebnis Y unterschiedlich stark) o Mediatoren/Intermediärfaktoren (Zwischenschritt in der Kausalkette zwischen X und Y) o Kontrollvariablen (Drittvariablen, die in die statistische Analyse einbezogen werden, um deren Einfluss zu „kontrollieren“) 07_Forschungsdesigns – Die bunte Welt der Möglichkeiten eine Studie zu designen 1. Bereits getroffene Entscheidungen zum Forschungsdesign - Quantitative Studie (keine qualitative oder Mixed-Methods-Studie) Empirische Studie (keine Methoden- oder Theoriearbeit/Review) Primärdatenerhebung (keine Sekundärdaten bzw. Metaanalyse) Explanative Studie (keine explorative oder deskriptive) noch zu treffende Entscheidungen: Experiment oder Beobachtung; Labor- oder Feldstudie; Anzahl der Messzeitpunkte 1. Problematische Forschungsdesigns - Einmalige Messung ohne Vergleichsgruppe (VG) (98% würden diese Creme weiterempfehlen) Vorher-Nachher-Messung ohne VG (deutlich straffere Haut in nur 7 Tagen) Einmalige Messung mit VG ohne Randomisierung (Kopfbälle beeinträchtigen das Denkvermögen) 2. Experimentelle Designs Echte Experimente: prüfen eine Hypothese setzen kontrolliert ein Treatment kontrollieren Versuchsbedingungen über Elimination, Konstanthaltung und Randomisierung 8 Versuchsplanung SS19 deswegen auch randomisierter kontrollierter Versuch (RCT) - - d.h. mindestens vorher-nachher Messung mit Kontrollgruppe Besser: SOLOMON Vier-Gruppen-Design Vorteile: o kontrollierte Situation (Vermeidung von untersuchungsbedingten Störfaktoren) o Beeinflussung der interessierenden unabhängigen Variablen (Treatment lässt sich beliebig setzen) o Kontrolle beliebiger Störfaktoren über Randomisierung möglich Nachteile: o bei Laborbedingungen evtl. reduzierte externe Validität o Randomisierung und/oder gezielte Setzung des Treatments nicht in allen Fällen durchführbar (ethische und praktische Aspekte) z.B. Auswirkung von ungewolltem Schwangerschaftsabbruch auf Partnerschaft; Folgen von überhöhtem Bleigehalt im Trinkwasser 3. Quasi-experimentelle Designs - Experiment ohne Randomisierung, d.h. Personen werden nicht durch Studie in Versuchs- und Kontrollgruppe zugeordnet natürliches Experiment z.B. Rauchverbot und Asthmaerkrankungen Problem: zeitgleiche andere Ereignisse, Selektionseffekte insbesondere in der Evaluationsforschung angewendet mit dem Problem der Selbstselektion 4. Beobachtungsstudien - - Ex-post-facto Anordnung: d.h. es wird beobachtet und nachträglich in Gruppen geordnet (unabhängige Variablen/Risikofaktoren wie z.B. Bleibelastung im Trinkwasser; abhängige Variablen/Outcomes wie z.B. chronische Müdigkeit) Querschnittsstudie: - Wiederholte Querschnittsstudie / Trendstudie: - Probleme mit Beobachtungsstudien: a) Zeitliche Abfolge von X und Y unklar (Kausalität) b) Varianz der unabhängigen Variablen c) Kontrolle von Störfaktoren a+b Kohortenstudie/ Panelstudie mit Oversampling: z.B. NAKO Gesundheitsstudie oder Sozio-ökonomisches Panel (SOEP) - 08_Stichprobenziehung Was ist eine Stichprobe und welche Auswahlverfahren gibt es? 1. Population und Stichprobe - - Population = Gesamtheit aller Fälle über die in einer wissenschaftlichen Studie etwas ausgesagt werden soll (auch: Grundgesamtheit) z.B. Diabetespatienten oder Bundesligaspieler Zielpopulation = definierte Population, die der Forschungsfrage der Studie entspricht (auch: angestrebte Grundgesamtheit, target population) z.B. 18-bis 65-jährige Diabetespatienten in Deutschland oder aktive Fußballspieler in der DFL-Bundesligasaison 2017/18 9 Versuchsplanung SS19 - Vollerhebung (Untersuchung aller Objekte einer Zielpopulation) aus verschiedenen Gründen oft nicht möglich: o Population unendlich oder nur teilweise bekannt o zu aufwändig 1. Eine sehr große und sehr verzerrte Stichprobe Wahlbefragung von Literary Digest im Jahr 1936 10 Millionen Wahlberechtigte erhielten Fragebogen; 2,4 Mio. Antworten � Rückschlüsse auf Wahlverhalten aller ca. 100 Mio. Wahlberechtigten Voraussage: Dem. Franklin Roosevelt 41%, Rep. Alf Landon 55% � Roosevelt mit 61% gewählt Problem 1: willkürliche (nicht-zufällige) Auswahl aus Telefonbüchern und Mitgliedskarteien von Vereinen (Auswahlrahmen hat nicht Zielpopulation abgedeckt � undercoverage) Problem 2: hohe Ausfallrate (non-response) mit seltenerer Antwort von unterprivilegierten Gallup-Institut konnte Wahlerfolg von Roosevelt mit kleiner Stichprobe (n=50000) aber ohne systematische Verzerrung voraussagen 2. Zufallsstichproben – Einfache Zufallsstichprobe Aus einer vollständigen Liste aller Objekte einer definierten Zielpopulation (=Auswahlrahmen) wird nach Zufallsprinzip eine gewisse Anzahl n von Objekten ausgewählt Auswahlwahrscheinlichkeiten aller Objekte müssen gleich groß sein 3. Geschichtete Zufallsstichprobe Einteilung der Zielpopulation in Schichten und Zufallsauswahl pro Schicht (genauere Schätzungen; bessere Auswertungen pro Schicht) 2. Klumpen- und mehrstufige Zufallsstichprobe - Wenn keine vollständige Liste aller Objekte der Zielpopulation vorhanden ist (z.B. Schüler in Deutschland), aber eine Liste von übergeordneten Einheiten, die alle Objekte enthalten (z.B. Schulen) 3. Nicht-probabilistische Stichproben - - Gelegenheitsstichprobe (= willkürliche Auswahl): o z.B. Auswahl von Kommilitonen über Aushang oder Ansprechen nach der Vorlesung; OnlineBefragung auf Newsseiten o keine klare Definition von Zielpopulation und Auswahlpopulation o niedrigste Stichprobenqualität o evtl. angemessen, wenn keine Aussagen über Zielpopulation getroffen werden sollen bzw. bei explorativen Studien Quotenverfahren (= Auswahl von Personen, sodass bestimmte Merkmale in der Stichprobe so häufig sind, wie in Grundgesamtheit) Schneeballverfahren (für schwer erreichbare Populationen) Bewusste Auswahl extremer oder typischer Fälle 10 Versuchsplanung SS19 4. Ausfälle und Responserate - - Ausfallgründe: o Zielperson nicht erreichbar o Verweigerung der Teilnahme o keine vollständige Teilnahme bis zum Ende der Studie o Daten nicht auswertbar Responserate: 5. Was sind „repräsentative“ Stichproben? - - Problem: nicht-zufällige Ausfälle wie in der Wahlbefragung durch Literary Digest in den USA 1936 Wenn Anteil in der Bevölkerung (Zielpopulation) geschätzt werden soll oder Studienergebnisse auf Bevölkerung verallgemeinert werden sollen: Merkmalszusammensetzung in der Stichprobe sollte unverzerrt die Merkmalszusammensetzung in der Population widerspiegeln Merkmalsspezifisch-repräsentativ: Stichprobe entspricht hinsichtlich einiger relevanter Merkmale der Populationszusammensetzung Global-repräsentativ: Stichprobenzusammensetzung entspricht in allen interessierenden Variablen (inkl. Störfaktoren) der Zielpopulation „Repräsentativität“ nur über Zufallsstichproben erreichbar, was bei angeblich „repräsentativen Studien“ aber oft nicht der Fall ist (stattdessen Quotenverfahren angewendet) Zusammenfassung 08 1. Berechnen Sie aus den 20 Professoren und Professorinnen der Fakultät die durchschnittliche Anzahl der Veröffentlichungen basierend auf: A) Vollerhebung, B) Einfache Zufallsstichprobe (n=8), C) Geschichtete Zufallsstichprobe (n=8, 50% männlich, 50% weiblich), D)Quotenverfahren (4 Männer, 4 Frauen) 2. Konstruieren Sie ein Beispiel für ein mehrstufiges Auswahlverfahren, um die durchschnittliche Anzahl für die gesamte TU München festzustellen. VL 9 Datenerhebung - Welche verschiedenen Techniken der Datenerhebung gibt es und welche Einsatzgebiete gibt es dafür? 1. Befragung - Fragebogen als Standardinstrument empirischer Sozialforschung zur Ermittlung von Fakten, Wissen, Meinungen oder Einstellungen Durchführungsarten: o Persönlich (Face-to -Face): strukturiertes Interview, auch CAPI (computer assisted personal interview) o Schriftlich (Paper-Pencil): auch als postalische Befragung o Online: Fragebogen, der übers Internet ausgefüllt wird o Telefonisch: telefonische Befragung, auch CATI (computer assisted telephone interview) 1. Hinweise zur Fragebogengestaltung - Frageformat: Welcher Faktor war bei der Wahl Ihres Studienfachs ausschlaggebend? Interesse für das Fach ▢ ▢ Berufsaussichten ▢▢ Wunsch meiner Eltern ▢▢ Sonstiges: ___________ ▢▢ Ja /Nein - Fragereihenfolge: kann Antworten beeinflussen (Halo-Effekt) Frageformulierung: einfach, kurz, konkret, neutral, eindimensional Verwendung etablierter Items und Skalen (z.B. Bildungsniveau) Filterführung; ansprechendes Layout Pretest durchführen; Unnötiges weglassen FB sind immer zu lang 11 Versuchsplanung SS19 1. Soziale Erwünschtheit bei „heiklen Themen“ Thema Drogen Direkte Abfrage „Hast du jemals illegale Drogen genommen?“ (54,8%, n=211) Gleichgeschlechtliche Liebe „Hattest du in deinem bisherigen Leben jemals homosexuelle Kontakte?“ (14,8 %, n=211) „Hast du an der Uni schon jemals in der Bibliothek ein Buch entwendet?“ (0%, n=211) Stehlen Indirekte Abfrage Wording/Framing Technik: „Auch VIPs, also sehr bedeutsame Personen aus dem öffentlichen Leben berichten, in ihrer Jugend sogenannte illegale Drogen (angefangen von Marihuana bis hin zu härteren Sachen) probiert und genommen zu haben. Hast du schon jemals illegale Drogen genommen?“ (60,5%, n=367) Vertraulicher Umschlag (selbe Fragestellung) (18,5%, n= 367) Randomized-Response-Technik: (selbe Fragestellung mit forced response Kartenspiel) (6,7%, n=367) 2. Messung - - Anatomische, biomechanische oder physiologische Messung z.B. von Körpermaßen, Gehirnaktivität, Herz-Kreislauf-System, Haut, Muskeln, Augen und Bewegungsabläufen Vorteile gegenüber Befragung: o lassen sich weniger leicht/gezielt beeinflussen oder verfälschen o Erinnerungsfehler werden vermieden o unbewusste Phänomene können erhoben werden o Sehr detaillierte Erfassung vieler Daten im Zeitverlauf o Einblick in Bewegungsabläufe, Informationsverarbeitung, Emotionen Nachteile: o Verfügbarkeit und Kosten der Messgeräte o Validität und Reliabilität der Messungen muss sichergestellt werden (korrekte Bedienung; Erkennung von Messartefakten) o stärkere Beanspruchung der Untersuchungspersonen o reaktive Untersuchungsmethode (Laborsituation evtl. nicht auf reale Lebensbedingungen übertragbar) o Physiologische Reaktion ermöglicht keinen direkten Rückschluss auf Handeln der Personen 3. Beobachtung und weitere Datenerhebungstechniken - - Beobachtung: Unter einer wissenschaftlichen Beobachtung („scientific observation“) versteht man die zielgerichtete, systematisch geplante, regelgeleitete Erfassung und Dokumentation von Merkmalen/Ereignissen/Verhaltensweisen mithilfe menschlicher Sinnesorgane und/oder technischer Sensoren zum Zeitpunkt ihres Auftretens inkl. Prüfung ihrer Gültigkeit/Zuverlässigkeit/Genauigkeit Inhaltsanalyse (z.B. Sexismus bei der Berichterstattung über Frauensport; Behandlung des Thema Dopings in der Sportlehrerausbildung) Nicht-reaktive Messung oder Beobachtung (z.B. Drogen im Abwasser, Anzahl der Krankmeldungen) 12 Versuchsplanung SS19 VL 10 Experimentelle Designs 1. Eigenschaften von experimentellen Designs - Echte Experimente: o prüfen eine Hypothese o setzen kontrolliert ein Treatment = beeinflussen kontrolliert die unabhängige Variable (Manipulation) o kontrollieren Versuchsbedingungen über Elimination, Konstanthaltung und Randomisierung (Kontrolle und Randomisierung) deswegen auch randomisierte kontrollierte Studie (RCT) d.h. mindestens Vorher-Nachher Messung mit Kontrollgruppe 1. Macht Orangensaft zum Frühstück dick? Forschungsfrage: Sollte man zuckerhaltige Getränke lieber mit den Mahlzeiten trinken oder dazwischen? Studie an der Uni Hohenheim von Hägele et al. 2018 [2] 2. Messwiederholung Nur Nachher-Messung: Was, wenn sich Gruppen bereits vorher im Körperfettanteil unterschieden haben? Nur sinnvoll, wenn Messung der abhängigen Variablen vorher unmöglich (z.B. Auswirkung eines Kaiserschnitts auf die Allergiehäufigkeit bei Babys) Vorher-Nachher-Messung: Wenn Treatment X tatsächlich Y beeinflusst, muss NachherMesswert in Experimentalgruppe höher/niedriger sein als Vorher-Messwert Veränderung ∆ zwischen 🕛und Mehrere Messwiederholungen in manchen Fragestellungen sinnvoll Achtung Messeffekte (Lernen, Ermüden) z.B. Schwellenwertbestimmung 3. Kontrollgruppe - - - Ohne Kontrollgruppe: nicht sinnvoll (nur Vergleich zu Referenzwert möglich) Verschiedene Abstufungen zwischen Experimentalgruppe und Kontrollgruppe denkbar: o X vs. Nichts o Neues vs. Altes Medikament o Normales Workout& mentales Training vs. Nur Workout; ... Orangensaft mit Mahlzeiten konsumiert vs. Zwischen Mahlzeiten Konstanthaltung der Versuchsbedingungen in beiden Gruppen beides Mal gleiches Getränk und gleiche Menge, keine sonstige Aufnahme von Zitrusfrüchten, kontrollierte Versuchsbedingungen Eigene Kontrolle möglich (z.B. Test von Schuhsohlen, Kontaktlinsen) Mehrgruppendesigns (falls unterschiedliche Stufen von X getestet werden sollen) z.B. O-Saft nur zum Frühstück (x1), nur zum Mittag (x2) oder zu 3 Mahlzeiten (x3) Falls Vorher-Messung Auswirkung auf Wirksamkeit des Treatments haben kann SOLOMON VierGruppen-Design 4. Randomisierung - Randomisierung 🎲🎲= zufällige Zuweisung von Studienteilnehmern zur Versuchs- oder Kontrollgruppe über: Münzwurf, Würfeln; Lose; Zufallszahlen (computergeneriert) (von Personen durchgeführt, die Forschungsfrage nicht kennen) - für gleiche Gruppengrößen: Blockrandomisierung (bei n<100) 13 Versuchsplanung SS19 - wenn inhaltlich sinnvoll: vor Randomisierung Auswahl von Probanden mit ähnlichen Merkmalen (Auswirkung auf externe Validität) bei kleinen Fallzahlen mit großen Gruppenunterschieden (n<30) evtl. Ausnahme von Randomisierung Matching oder stratifizierte Randomisierung 5. Cross-Over-Design - Tausch von Versuchs- und Kontrollgruppe - Zur Vermeidung von Übertragungseffekten Washout-Periode 6. Mehrfaktorielle Designs - Untersuchung von Treatments mit mehreren Dimensionen (=Faktoren): z.B. Orangensaft zu gewissem Zeitpunkt (Faktor 1) In verschiedenen Mengen (Faktor 2) 2 x 3 Versuchsplan: - Mit unterschiedlichem Zuckeranteil (null, niedrig, hoch) (Faktor 3) Erweiterung zu 2 x 3 x 3 Versuchsplan mit 18 verschiedenen Gruppen Vorteile: Kann Interaktionseffekte zwischen den Faktoren ermitteln z.B. Orangensaft zwischen Mahlzeiten führt nur zur Erhöhung des Körperfettanteils, wenn mehr als 300 ml getrunken Probleme: Bei vielen Faktoren: o entweder sehr viele Versuchsgruppen (hohe benötigte Fallzahl) o oder viele Experimente pro Teilnehmer (Übertragungseffekte, Ermüdung, Drop-outs) Konstanthaltungschwierig o problematische Auswertung (Interpretation und multiples Testen) Studienergebnis: Macht Orangensaft dick? Ergebnisse: Bei Orangensaft mit Mahlzeiten: Fettmasse bei Probanden um -0,3 kg (SD= 0,6) reduziert; bei Orangensaft zwischen Mahlzeiten um 1,0 kg (SD=1,8) erhöht Einschränkungen zur internen Validität: Körpergewicht kaum verändert; Hypothese zum Blutzuckerspiegel nicht bestätigt; n Einschränkung zur externen Validität Probanden tranken 1,3l O-Saft pro Tag (Verbrauch in D nur 7,8l pro Jahr); nur normalgewichtige und gesunde Probanden [2,3] 14 Versuchsplanung SS19 VL 11 Studienprotokoll 1. Inhalt Studienprotokoll / Versuchsplan - - Versuchsplan: o bei experimentellen Designs o inhaltlich meist begrenzt auf Festlegung der Gruppen, Anzahl der Faktoren und Ausprägungen pro Faktor o sollte in eine ausführliche Beschreibung aller Schritte des Forschungsprozesses integriert werden (= Studienprotokoll) Inhalte Studienprotokoll: äquivalent zu Forschungsprozess o Theoretischer Hintergrund, Fragestellung (Hypothesen, Studienziele), Operationalisierung (Endpunkte), Studiendesign, Studienpopulation (Ein-/Ausschlusskriterien), Untersuchungsablauf (inkl. Qualitätssicherung), Datenmanagement, Statistische Analyse, Ethische Aspekte, Publikationsplan o alle Inhalte sind gut zu begründen! 2. Sinn und Zweck des Studienprotokolls - Hilfreiche Anleitung zur Durchführung des Forschungsprojektes Logisches Durchdenken des Forschungsprojektes vorab und Vermeidung von möglichen Problemen (Forschungseffizienz) Ermöglicht die Überprüfung der Forschungsmethodik und Ergebnisse durch Reviewer & anderen Forschern (Replizierbarkeit, Transparenz) Ermöglicht die Veröffentlichung von negativen Forschungsergebnissen (bei Vorabregistrierung des Protokolls und guter Methodik) Basis für externe Finanzierung und Genehmigungsprozesse (z.B. Ethikkommission, Behörden) 3. Fallbeispiel 1 – Sitzposition beim Kajak Fragestellung: Beeinflusst die Sitzhöhe die Paddeleffizienz beim Kajakfahren? (1) Theoretischer Hintergrund: a. Biomechanik zu Sitzposition und Kraftübertragung/Kontrolle; Definition von Paddeleffizienz über Geschwindigkeit und die wichtigsten Bootmanöver [3] (2) Hypothesen: a. Eine höhere Sitzposition im Kajak steigert die Paddeleffizienz im Vergleich zur Standardsitzhöhe (3) Operationalisierung: a. b. X: Sitzhöhe (gemessen in cm zur Standardsitzhöhe) Y: Paddeleffizienz (Index aus durchschnittlicher Geschwindigkeit, Länge der Paddelbewegung, Heckbewegung, ...) (4) Hauptendpunkt: a. Veränderung des Paddeleffizienzindex in % (5) Studiendesign: a. RCT; Versuchsgruppen und Kontrollgruppe (mit Placebo-Sitzerhöhung); 3 x 2 Design (Faktor 1: Sitzhöhe 0/5/8cm; Faktor 2: Einer/Doppel-Kajak) (6) Studienpopulation und Auswahlverfahren: a. b. Erfahrene Kajakfahrer (mind. 2 Jahre Teilnahme an Wettbewerben), mind. 18 Jahre, Verwendung von Standardkajaks (keine Sonderanfertigung), ... zweistufige Zufallsstichprobe: I) 10 Vereine aus dem Register des DKV; II) 10 Kajakfahrer pro Verein aus Mitgliederliste zufällig gezogen (7) Untersuchungsablauf: a. b. Alle Teilnehmer durchlaufen alle 6 Gruppen (Cross-Over-Design) im normalen Trainingsrhythmus (Konstanthaltung der Versuchsbedingung); alle starten und enden mit Kalibrierungstest (normale Sitzposition); Weitere Details zum Ablauf (Material, Messverfahren, kontrollierte Störfaktoren etc.) sollten auch festgelegt werden (8) Datenmanagement (9) Statistische Analyse a. Nur t-Test oder Regressionsmodell? welche Kontrollvariablen? (10) Ethische Aspekte, (11) Publikationsplan 15 Versuchsplanung SS19 4. Beispiel 2 – Stadtluft und Atemwegserkrankung - Fragestellung: Haben Menschen, die in der Stadt wohnen häufiger Atemwegserkrankungen als Menschen, die auf dem Land wohnen? (1) Theoretischer Hintergrund: a. Hohe Schadstoffbelastung in Städten; WHO Schadstoffliste (2) Hypothesen: a. Menschen, die in der Stadt leben haben ein höheres Risiko eine Atemwegserkrankung zu entwickeln als Menschen in ländlichen Regionen (3) Operationalisierung: a. b. X: „in der Stadt leben“ (> 500,000 EW, geschlossene Bebauung) vs. „in ländlicher Region leben“ (< 15,000 EW) Y: Häufigkeit von Atemwegserkrankungen (Diagnose; ohne Grippe) (4) Hauptendpunkt: a. Relatives Risiko für Atemwegserkrankungen Stadt vs. Land nach 5 Jahren (5) Studiendesign: a. Beobachtungsstudie Kohortenstudie (6) Studienpopulation und Auswahlverfahren: a. b. Bevölkerungsbasierte Zufallsstichprobe aus Melderegister von 5 Großstädten und 15 kleinen Gemeinden; insgesamt 10000 Menschen Ein-/Ausschlusskriterien: keine existierenden Atemwegserkrankungen zu Studienbeginn, Nichtraucher; evtl. Einschränkung zu Arbeitsort, Reisen (7) Untersuchungsablauf: a. b. Befragung der TeilnehmerInnen zum Studienstart über Risikofaktoren (Wohnsituation, Rauchen, Vorerkrankungen, etc.) und ärztliche Eingangsuntersuchung; jährliche Folgebefragung Diskussion von Störfaktoren (8) Datenmanagement (9) Statistische Analyse a. Regressionsmodell für Relatives Risiko inkl. relevanter Kontrollvariablen (10) Ethische Aspekte, (11) Publikationsplan Lernziele der VL: Sie sollen: die wichtigsten Aspekte wissenschaftlichen Denkens und Arbeitens kennenlernen die grundlegende Denkweise vermittelt bekommen, wie Sie eine Fragestellung in ein Forschungsdesign übersetzen können verstehen, warum Statistik Zufallsstatistik ist von allen Forschungsdesigns/Studientypen gehört haben, die später in der Epidemiologie oder Ihren anderen Vorlesungen wieder auftauchen lernen, dass wissenschaftliche Methoden universell in vielen Fachgebieten anwendbar sind bis zum Juli mindestens ein Beispiel für einen methodischen Fehler in einem Wissenschaftsbeitrag selbst finden 16 Versuchsplanung SS19