Testen en Meten College Aantekeningen

Bachelor Pedagogische Wetenschappen Universitaire Pabo van Amsterdam Testen en Meten college aantekeningen HC1 Door meten tot weten (webcollege) Andries van der Ark Meetinstrument in de pedagogiek en onderwijswetenschappen meestal een test (de respondent moet zijn best doen) of een vragenlijst (de respondent moet eerlijk zijn). Omdat het zoveel voorkomt, is kennis uit deze cursus heel belangrijk voor pedagogen en onderwijswetenschappers. Bij vrijwel al het onderzoek worden tests of vragenlijsten gebruikt, en bij heel veel belangrijke beslissingen worden tests of vragenlijsten gebruikt (ongeacht of je de wetenschap/onderzoeksrichting op gaat, of niet). - Voorbeeld vragenlijst (zie slide 10): met een vragenlijst meet je een begrip, en bevat een instructie. Wat de onderdelen van de vragenlijst betreft: items: stam + antwoordopties. Een test/vragenlijst bestaat uit een verzameling van items. Uit de test komen een aantal antwoorden, gegeven door de respondent (degene bij wie de test wordt afgenomen. De testleider is degene die de test afneemt. Aan elk gegeven antwoord wordt een bepaalde score toegekend, een itemscores genoemd (dit is een variabele = iets dat kan variëren). Testscore/schaalscore/somscore: som van de itemscores, wordt gebruikt om een begrip te meten (ook een variabele). De beoordelaar is degene die het antwoord omzet in een score. Bij heel veel tests staat de score van tevoren vast, dan is geen beoordelaar nodig maar bijv. bij open antwoorden van geschiedenistoets, is de leraar de beoordelaar. Vergelijking met de absolute standaard: scores die een vaste uitkomstmaat/conclusie van tevoren zijn bepaald (zie slide 12 vb absolute standaard). Norm is de vergelijking van testscores met andere testscores: bijna alle tests en vragenlijsten in de sociale gedragswetenschappen werken met normen. Is dit een goede vragenlijst? Vragen die je kunt stellen bij de vragenlijst: Zijn de testscores zinvol te interpreteren? Meet de vragenlijst wel dergelijk sexappeal? Zijn de items van goede kwaliteit? Iemand heeft een testscore 4 en een ander heeft een testscore 5. Is dit verschil wel groot genoeg om een verschil in sexappeal uit te drukken? Zijn er wel genoeg items in de vragenlijst? Antwoorden: De kwaliteit kun je deels bepalen zonder afname (kennis en ervaring) De kwaliteit kun je deels bepalen door te pre-testen De kwaliteit kun je deels alleen bepalen na langdurig onderzoek (€100.000) Advies: gebruik ‘zo mogelijk’ bestaande gevalideerde vragenlijsten Drie prototypes van testgebruik Wij moeten op rode stip komen idealiter Vraagvorm Gesloten antwoorden die van tevoren vastgesteld zijn. Twee vormen: 1) dichotome items: twee itemscores, Xg = 0 of Xg = 1. Voorbeeldvraag slide 15: vraag 3 antwoord B, itemscore A: 0, B: 1, C: 0, D:0. Je kan alleen als score 0 of 1 krijgen. Polytome items: er zijn meer dan 2 itemscores, bv. Xg = {0, 1, 2, 3, 4}. Voorbeeld slide 15. Als je een test hebt afgenomen, zou in SPSS test data er zo uit kunnen zien als in slide 16. Testscore kan je berekenen met SPSS: let op want er staan nog twee contra-indicatieve items in zitten, ‘rommelig’ en ‘verward’. Transform: compute variable: vul bij Target Variable in ‘X’. In ‘numeric expression’ vul je in sum(georganiseerd to nauwkeurig). Als ik op ‘paste’ klik, komt er een syntax file, en dan kan je hem daarna runnen. Voordeel 1: je kunt het nog een keer doen, zonder dat je helemaal opnieuw hoeft te beginnen indien je een klein foutje had gemaakt (bijv. als je nog contra-indicatieve items moet omzetten). Zie 16/17 Rest van college is herhaling BS en paar nieuwe begrippen. Zie ook slides voor simpele oefeningen ∑𝑛 𝑥 Gemiddelde: 𝑋̅ = 𝑖=1 𝑖 som van scores van alle personen gedeeld door alle personen. Wordt ook wel 𝑛 centrummaat genoemd, kan je interpreteren als ‘wat is de waarde die ik verwacht als ik verder niets van jullie weet’ > verwachte waarde. Voor dichotome items geldt e: ̅̅̅̅̅̅̅̅ 𝑋 = 𝑝. P-waarde is de proportie mensen die het goed heeft. 90 van 100 mensen goed, is de gemiddelde itemscore 0.9 ∑𝑛 (𝑋 − 𝑋̅ )2 Standaarddeviatie: 𝑆(𝑋) = √ 𝑖=1 𝑛𝑖 . Spreidingsmaat de ‘verwachte’ afstand tot het gemiddelde. Boek DS delen door n i.p.v. n – 1 > zal niet beïnvloeden. Voor dichotome items geldt: 𝑆 (𝑋) = √𝑝(1 − 𝑝) (wortel uit de proportie die het weet – de proportie die het niet weet). ∑𝑛 (𝑋 − 𝑋̅)2 Variantie: 𝑆 2 (𝑋) = 𝑖=1 𝑛𝑖 . Spreidingsmaat: gekwadrateerde standaarddeviatie, vooral gebruikt achter de schermen om te rekenen Variantie van een dichotoom item kan nooit groter worden dan 0.25. voor dichotome items geldt: 𝑆 (𝑋) = 𝑝(1 − 𝑝) Deviatiescore (afwijkingsscore): 𝑥𝑖 = 𝑋𝑖 − 𝑋̅. Geeft de afwijking van het groepsgemiddelde op de originele schaal. Je kunt zien of iemand boven of onder het gemiddelde scoort. Som van de deviatiescores is altijd 0. En heeft dezelfde standaarddeviatiescore als de testscore. 𝑥𝑖 − 𝑥̅ 𝑥𝑖 Z-score (standaardscore): 𝑧𝑖 = 𝑆(𝑋) = 𝑆(𝑋) geeft de afwijking van het groepsgemiddelde in het aantal standaarddeviaties. Gemiddelde is altijd 0, standaarddeviatie is altijd 1. >Stukje over SPSS toepassen komt in volgende college aan bod, geen tijd meer voor. Samenhang Voeg in uit slide. Correlatie wordt gebruikt om samenhang te berekenen. Ze allebei een gemiddelde van 6, de rode lijn. De rode scores hebben een gemiddelde score, groene score hebben op ene test boven het gemiddelde en op de andere onder het gemiddelde, en zwarte scores hebben op allebei de scores boven- of onder gemiddeld gescoord. De zwarte scores dragen bij aan een positieve correlatie, en de groene aan negatieve correlatie. Je wilt dus heel veel zwarte, en zo min mogelijk groene scores. Door de deviatiescore van beide testen met elkaar te vermenigvuldigen, kan je een uitspraak doen over de correlatie. Als je precies op het gemiddelde zit, draag niet bij aan de correlatie. ∑ (𝑋 −𝑋̅ )(𝑌 −𝑌̅) Covariantie: 𝑆 (𝑋, 𝑌) = 𝑖 𝑖 𝑁 𝑖 ; hoeveel wordt er gemiddeld bijgedragen aan de samenhang, hetzelfde symbool als standaarddeviatie wordt hiervoor gebruikt S. Het is een maat die vooral met rekenen gebruikt wordt (zoals variantie), is 𝑆 (𝑋, 𝑌) > 0, dan positieve samenhang, 𝑆 (𝑋, 𝑌)= 0, dan geen samenhang, 𝑆 (𝑋, 𝑌) < 0, dan negatieve samenhang. Als er 1 variabele tussen haakjes bij S gaat, is het een standaarddeviatie, staan er twee: S (X, Y). 𝑆(𝑋,𝑌) Correlatie:𝑟(𝑋, 𝑌) = 𝑆(𝑋) x 𝑆(𝑌). Een correlatie zit tussen de -1 en 1. Als 0 < 𝑟(𝑋, 𝑌) ≤ 1: positieve lineaire samenhang; r(X,Y) = 0: geen positieve samenhang; −1 ≤ 𝑟(𝑋, 𝑌) < 0: negatieve lineaire samenhang. Variantie-covariantiematrix: alle varianties van de items zet je op de diagonaal, en alle covarianties zijn je op de buitenvakjes (inter-item covariaties). Correlatiematrix Tabel waarin alle correlaties tussen een aantal variabele staan. In ‘gewone’ college 2 beter toegelicht. HC2 “A pilot’s emotional and mental traits are as important to safety in aviation as his physical fitness” –David Wechsler (1896-1981) in New York Times, 1929 (webcollege) Andries van der Ark Einde van HC1 samenhang: kruistabel weergeven van gemiddeldes, de bijdrage van elke stip in de deviatie. Als je de deviatiescore van de twee testen vermenigvuldigd, komt daar de bijdrage aan de correlatie uit. Het gemiddelde van deze bijdrage is de covariantie. In SPSS Correlaties. Geeft standaard niet de covarianties, maar die kan je wel instellen. Daarna volgt correlatiematrix in SPSS (slide 6). Correlatie tussen alle 10 de items van ordelijkheid. Er staat niet alleen de correlatie (op de eerste regels), maar ook significantie en aantal deelnemers. Als je die weghaalt, kan je iets duidelijker zien wat de correlaties zijn. Bij correlatiematrix: Diagonale elementen in matrix lopen van linksboven naar rechtsbeneden door het midden. Bij een correlatie zijn die altijd 1. De andere elementen worden de buitendiagonale elementen genoemd. Je kan ook een (variantie-)covariantiematrix tonen, om een overzicht te krijgen van de covarianties. De covarianties (wat de personen gemiddeld bijdragen aan lineaire samenhang) staan op de buitendiagonale elementen, en de varianties (spreidingsmaat) staan op de diagonale elementen. De buitendiagonale elementen zijn symmetrisch. Onderdelen van een test Testmateriaal: wat je de respondenten aanbied Testformulieren: formulieren waar proefleider of respondent zelf de antwoorden in noteert Testhandleiding: daar staat een exacte testinstructie in, een verwerkingsprocedure (hoe kom je van antwoord van kind tot een score op de test; hoe je moet scoren en registreren), normtabellen, en een bespreking van de wetenschappelijke kwaliteit van de test. Het is ethisch onverantwoord om een test van slechte kwaliteit af te nemen. WISC-III: Wechsler Intelligence Scale for Children III. Het is de Nederlandse bewerking van de Amerikaanse WISC-III. Deze test meet de functionering bij 6-17 jarigen: het valt onder de categorie enkelvoudige algemene niveautest, en is een individuele ontwikkelingstest (DS 78). Deze test lijkt op de RAKIT (DS 96-100). Er zijn grofweg gezegd 2 intelligentietheorieën: 1. Er is een algemene intelligentie (g-factor); 2. Er is sprake van meerdere intelligenties, die niet tot 1 algemene score worden uitgedrukt. De WISC gaat uit van de algemene intelligentiescore, en is een testbatterij bestaande uit 13 subtests. Twee categorieën van de subtests: verbale en performale test. Verbaal 2. Informatie 4. Overeenkomsten 6. Rekenen 8. Woordkennis 10. Begrijpen 12. Cijferreeksen Performaal 1. Onvolledige tekeningen 3. substitutie 5. Plaatjes ordenen 7. Blokpatronen 9. Figuren leggen 11. Symbolen vergelijken 13. Doolhoven Zie slide 9 - 19voorbeelden van de testen en andere testonderdelen. Normtabellen: een norm is een referentiekader waaraan je de individuele score van een kind/respondent kunt interpreteren. De normtabellen bevatten de normen om de scores mee te interpreteren en een uitspraak te kunnen doen over de resultaten. Ook moet eigenlijk de wetenschappelijke kwaliteit in de testhandleiding staan, maar dit hoeft niet altijd. Soms wordt de kwaliteit in wetenschappelijke artikelen/bepaalde instanties onderzocht. In NL hebben we de COTAN (Commissie Testaangelegenheden Nederland): onderzoekt (bijna) alle Nederlandse toetsen. Via UvA computer kan je deze site bezoeken (link dia 18) en tests opzoeken. De COTAN geven op een aantal punten een bepaald criterium op de test. NL is het enige land die zo alle testen verzamelt en ordent. Kenmerken van een test (2.1.3) 1. Efficiëntie: de test is alleen maar gericht op het hypothetisch construct: alles is erop gericht om het juiste begrip te meten. Het doel van efficiëntie is tijdswinst 2. Standaardisatie: de testprocedure moet voor alle respondenten gelijk zijn (dus dezelfde instructie, tijdslimiet, condities). De test moet ongeacht de respondent en testleider hetzelfde gemaakt moet zijn. Het doel van standaardisatie is het vergelijkbaar maken van testscores. Het advies om dit te bereiken is het hebben van een exacte en complete handleiding, en deze zeer nauwkeurig te volgen 3. Normering (zie ook H5): de test moet over recente, representatieve normen beschikken op basis van voldoende grote steekproeven (anders onnauwkeurig>standaardfout). Denk bij recent aan Flynn-effect van intelligentie. Het doel van normering is het vergelijkbaar maken van testscores en het kunnen vergelijken van testscores. Normeringsonderzoek is heel duur en levert niet heel veel op, maar is wel erg belangrijk 4. Objectiviteit: de mate waarin het omzetten van de antwoorden in scores, robuust is voor degene die de antwoorden omzet in scores; het moet niet uitmaken wie de antwoorden van een kind omzet in scores. Het impliceert de transparantie en reproduceerbaarheid van testscores. Het doel van objectiviteit is de vergelijkbaarheid van testscores vergroten. 5. Betrouwbaarheid (H6): De mate waarin bij een herhaalde meting- onder identieke omstandigheden – dezelfde score wordt behaald het doel van betrouwbaarheid is de precisie van testscores te vergroten 6. Validiteit (H8): de mate waarin de test ‘meet wat deze zou moeten meten’. Het doel van validiteit is het zorgen dat testscores betekenis hebben. Objectiviteit wordt bijna altijd bepaald door de interbeoordelaarsbetrouwbaarheid. Het gaat hier om de mate waarin twee beoordelaars het met elkaar eens zijn. Zie slide 22 voorbeelden en toelichting 𝑃𝑜 − 𝑃𝑡 Cohen’s Kappa: 𝜅 = 1−𝑃 . Po is proportie overeenstemming, Pt is proportie toeval. D.m.v. de 𝑡 correlatie te berekenen van de scores van leraar A en B kun je de interbeoordelaarsbetrouwbaarheid berekenen. Er is niet 1 mate van correlatie die ‘goed’ is, want het verschilt heel erg per situatie/test. Een multiple-choicetentamen is de objectiviteit hoger dan bij een openvragententamen. Die kan zelfs perfect objectief kunnen zijn. Met de Cohen’s Kappa kun je de interbeoordelaarsbetrouwbaarheid berekenen. Kappa kan negatief zijn, als de beoordelaars contra overeenstemming hebben. Is kappa 0, dan is er geen overeenstemming en doet iedereen maar wat, en bij kappa 1 is er perfecte overeenstemming. Definitie test Volgens DS: “Een test is een systematische classificatie- of meetprocedure, waarbij het mogelijk wordt een uitspraak te doen over één of meer empirisch-theoretisch gefundeerde eigenschappen van de onderzochte of over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking van reacties van hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde, zorgvuldig gekozen stimuli.” empirisch-theoretisch gefundeerde eigenschappen: hoeft niet altijd het geval te zijn, bijv. CITO voorspelt in welk niveau een leerling het best past en hoe hij zich cognitief zal ontwikkelen. Indeling naar testgedrag (3.1) Tests kunnen worden ingedeeld in test voor prestatieniveau en test voor gedragswijze. Test voor prestatieniveau Test voor gedragswijze Maximum performance test Typical perfomance test Test Vragenlijst Subcategorieën: Subcategorieën - Enkelvoudige algemene niveautests - Observatietests - Veelvoudige algemene niveautests - Somatofysiologische methoden: kijken - Speciale niveautests naar fysieke kenmerken en daarmee iets - vorderingentests zeggen over gedrag (bv. DNA en stresshormonen > gedrag) - Zelfbeoordelingen (meest voorkomend) - Kwalitatieve prestatietests: over het algemeen tests waarbij de respondent denkt dat het een maximum performance test is, maar dit is het niet. Voorbeeld rechtertest op dia. Deze test wordt gebruikt om twee persoonlijkheidstypen te onderscheiden, en niet voor meten van intelligentie. Ook Rorsachstest (inktvlekkentest; scoort bij COTAN overal onvoldoende tegenwoordig) Zie slide 25-28, meer voorbeelden van tests. Einde van college viel van het webcollege af. HC3 “De uitvinding van het item is misschien wel de belangrijkste uitvinding in de sociale en gedragswetenschappen.” Willem Heiser, president van de Psychometric Society (webcollege) Andries van der Ark [NEO-FFI in DS uitgebreid besproken > kan tt-vraag over komen] Stanines zijn scores van 1 – 9, waar 5 middenscore is, en 1 extreem laag, 10 extreem hoog is. Beginnen met afnemen ‘raar’ vragenlijstje om lengte te meten. Er is geen rolmaat (zoals bij lengte normaalgesproken) in de sociale wetenschappen, dus met stellingen wordt geprobeerd een soort rolmaat te creëren om begrippen te meten. Testconstructieprocedure (2.2) Hoe maak je een test > bestaat uit aantal fases 1. Theoretische fase: identificatie van het construct (begrip) op basis van bestaande theorieën. De ‘wat wil ik meten en wat is dat’ 2. Operationaliseringsfase: a. Bepaal welke concrete gedragingen volgen uit de eigenschap: over het algemeen kan je hier gemakkelijk antwoord op geven b. Maak heel veel items die een indicatie zijn van de eigenschap. In de uiteindelijke test zullen er heel veel zijn afgevallen 3. Onderzoeksfase: a. Vooronderzoek: verwijder slechte items op basis van interviews en itemkenmerken b. Hoofdonderzoek: verwijder slechte items op basis van statistisch onderzoek: betrouwbaarheidsen validiteitsonderzoek 4. Terugkoppelingsfase: koppel de resultaten terug aan theorie. Theoretische fase Voorbeeld a.d.h.v. sociale angst meten bij Nederlandse studenten. Eerst worden definities en theorieën aangehaald, zie slide 6 vb.: verzamelen van informatie over het construct. Er wordt een theorie uitgewerkt/aangehaald die wordt gehanteerd bij het vormen van de test. Proberen het abstracte construct te concretiseren. Operationaliseringsfase De concrete gedragingen worden geïdentificeerd: er worden bv. vragen opgesteld die de concrete gedragingen beschrijven. Zo maak je van de concrete gedraging een item: itemconstructie. Je schrijft hier veel meer items dan je uiteindelijk nodig hebt. Onderzoeksfase Je begint met het vooronderzoek (pilot study). Je weet nooit van tevoren of het goede items zijn, dus leg ze eerst voor aan een kleine groep (5-20). Je legt het voor aan mensen uit de populatie en vraagt hen de items te beantwoorden; experts geven commentaar op de items; en beoordelaars (in geval van open vragen) en laat ze enkele antwoorden beoordelen. Vervolgens kun je items verwijderen waar je ontevreden over bent. Dit is een eerste grove schifting, en kan soms wel 50% van het totaal zijn. Vervolgens doe je een proefafname, waar je kijkt of er zorg is voor efficiëntie, standaardisatie en objectiviteit. Hierna volgt het hoofdonderzoek (aankomende weken meer hierover). Hier leg je de selectie items voor aan een grote representatie steekproef (250-20.000). Hier onderzoek je de betrouwbaarheid en validiteit, en aan de hand hiervan construeer je de norm. Dan verwijder je alle items waar je ontevreden mee bent. Dit herhaal je totdat je helemaal tevreden bent. - - Terugkoppelingsfase Koppel terug naar de theorie: Komen de items nog wel overeen met wat de oorspronkelijke theorie? Moet wellicht de theorie aangepast worden? Als alles in orde is, is de test klaar voor gebruik. Vaak gebeuren er een aantal onvolkomenheden: Test al gebruiken in de constructiefase Geen validiteitsonderzoek (eigenlijk schandelijk) Geen normenonderzoek (heel duur/verouderd) Geen goede theorieën beschikbaar Items (H4) Belangrijkste uitvinding in de sociale wetenschappen, ze bestaan nog niet zo lang. Voor 1905 werden machines in de sociale wetenschappen gebruikt (zoals in de natuurkunde). In 1905 maakte Binet de eerste item: gebruik in een intelligentietest. Één itemscore (uit een rekentest) geeft onnauwkeurige informatie over rekenvaardigheid, maar heel veel itemscores samen geven wel een nauwkeurige informatie over rekenvaardigheid (de item was een som met wortel). Daarom bestaan tests die er toe doen ook altijd uit veel items. - - Een item kan van alles zijn: slide 14 voorbeelden Probleemstelling: goed/fout Stellingen: positie Vragen: standpunt/positie Opdrachten: mate van adequaatheid Projecties: vrije reactie Heel veel items zijn geschreven. Richtlijnen: Schrijf veel meer items dan je nodig hebt. Gebruik eenvoudige taal die door de doelgroep gemakkelijk begrepen wordt Zorg voor een eenduidige interpretatie van de vraag Wees zo concreet mogelijk Vermijd woorden als soms, vaak, regelmatig. Dit is niet altijd mogelijk, omdat de vraag anders te kunstmatig wordt: je moet dan dus een afweging maken Vermijd double-barreled questions Wees zo kort mogelijk Vermijd ontkenningen en dubbele ontkenningen Vermijd suggestieve vragen Veronderstel geen voorkennis Gebruik geen afkortingen Beschrijf eerst de situatie, en vraag dan om een reactie Indien mogelijk: schrijf zoveel mogelijk indicatieve als contra-indicatieve items (mensen zijn het hierover oneens: sommigen willen juist allemaal (contra-)indicatieve items Vraagvorm (4.2) Open antwoorden: open vraag: de verwerking is tijdrovend, en de beoordeling is mogelijk niet objectief. Daarnaast kun je relatief weinig items in de test opnemen: dit is mogelijk slecht voor de betrouwbaarheid. Een ander nadeel is dat een antwoord afhangt van de schrijfvaardigheid van de respondent: mogelijk slecht voor de validiteit. Gesloten antwoorden: niet alle constructen kunnen zinvol gemeten worden met gesloten vragen. De constructie van gesloten vragen is vaak tijdrovend. Kwantificering (4.4) Bij kwantificering gaat het erom om een antwoord (kwalitatief) om te zetten in een itemscore (kwantitatief). Bij dichotome items kan het item ‘goed’ (Xg = 1) of ‘fout’ (Xg = 0) zijn: bij MK-vragen bij vier antwoordopties en 1 goed antwoord, heb je 4 mogelijke antwoorden met 2 itemscores. Bij polytome items voorbeeld slide 18 zijn meerdere itemscores mogelijk. Het meetniveau is ordinaal. Advies: houdt aantal antwoordcategorieën gelijk binnen een test. Bij contra-indicatieve items moet je omscoren, dit doe je via SPSS. Via ‘transform’ naar ‘recode into different variables’. Voeg betreffende variabele(n) toe aan vakje. Bij ‘old values’ zet je de oude waarden, en bij ‘new values’ de nieuwe. Dan klik je op ‘add’. Ga hiermee door tot je alle items hebt omgescoord. Zet bij ‘output variable’ de nieuwe naam van de variabele, geef hem dezelfde naam + “R” van recode. Klik vervolgens op ‘paste’, dan verschijnt de syntax, die je dan kan runnen. Dan zijn de nieuwe variabele toegevoegd en gehercodeerd. De oude variabele kun je in de data view verwisselen met nieuwe variabele. In tab ‘variable view’ kan je aanpassingen maken, en de oude variabele weghalen, en nieuwe verslepen. Handig om de data onder een andere naam op te slaan, zodat je altijd terug kan naar ‘origineel’ indien je fout hebt gemaakt. Beoordeling kwaliteit van items in vooronderzoek (4.5) Je kan bij vooronderzoek ook naar de antwoordfrequenties kijken. Inspectie van frequenties multiplechoice items zie slide 21. De foute vragen bij de MK hebben een ∝-waarde (afleider), en het juiste antwoord heeft een p-waarde. Een goed item op basis van frequentieverdeling heeft ∝-waarde hoger dan de p-waardes, en de p-waardes zijn ongeveer gelijk. Bij polytome items: een populair item heeft zeer weinig onderscheid, gemiddelde hoge score: heel veel mensen kiezen ‘eens’ antwoord. Een impopulair item heeft een goed onderscheid. Een neutraal item is een item waar meeste mensen ‘neutraal’ kiezen. Een neutraal item kan ook zijn wanneer de verdeling in itemscore hetzelfde is: alle antwoordopties worden evenveel gegeven. HC4 (webcollege) Andries van der Ark Test afnemen (5.1) Afname van een test is heel belangrijk voor een test. Idealiter worden testen onder maximaal gelijke omstandigheden afgenomen (standaardisatie). Er zijn meerdere factoren die standaardisatie beïnvloeden, drie typen factoren: 1. Testcondities: de test zelf: is er een goede testinstructie aanwezig, en zijn er geen storende elementen 2. Gedrag van proefpersonen: het kan dat een proefpersoon niet geïnteresseerd is (motivatie). Het is moeilijk om hier invloed op uit te oefenen, maar je kan als testleider aantal ‘aanmoedigingen’ geven (staan vaak ook in handleiding) om proefpersoon te motiveren. De fysieke gesteldheid van de proefpersoon heeft ook invloed (bijv. ziek zijn), en emotionele gesteldheid ook. Een ander probleem is test-wiseness: de respondent weet dan eigenlijk al wat de test meet. Hoeft niet de letterlijke test te zijn, maar het specifiek oefenen op testvragen is hier ook al onderdeel van. 3. Gedrag proefleider: hier spelen persoonskenmerken (sympathie/antipathie) en de mate van de handleiding volgen een rol. Factoren kunnen verschil in testscores verklaren, dus je moet proberen dit verschil te voorkomen. Daarnaast kun je ze betrekken bij de interpretatie van de testscores. Dit kan op twee manieren: 1. Klinisch-intuïtieve interpretatie: wanneer je als testleider een inschatting maakt wat de testscore dan wel zou zijn. dit wordt meestal afgeraden, omdat dit de objectiviteit beïnvloed 2. Objectieve interpretatie met voorbehoud: je schrijft bij de test precies wat er gebeurde en welke factoren er speelde, maar krijgt wel gewoon de testscore die uit de afname kwam. Eventueel kan na afloop alsnog een bepaalde uitspraak hierover worden gedaan. Deze vorm wordt meestal aanbevolen. §5.2 en §5.3 zelf lezen [deel komt niet in tt zie daarvoor studiehandleiding] Bewerkte scores en normen (5.4) - - - Normen: een referentiekader voor de evaluatie van ruwe scores dat is gebaseerd op de kenmerken van de distributie van de ruwe scores in de populatie. Normen zijn zeer belangrijk bij tests, waarop je kan terugvallen wanneer je een bepaalde betekenis aan een testscore wil geven. Vergelijking met een absolute standaard (5.4.1) (criterion referenced test). In deze vorm is er eigenlijk geen sprake van een norm, want bij de interpretatie van een testscore wordt geen gebruik gemaakt van de testscore van anderen. Er is van tevoren al een criterium vastgesteld. Verhoudingsnorm (van historisch belang; wordt niet meer gebruikt) (5.4.2). IQ = mentale leeftijd / chronologische leeftijd X 100. Zo is intelligentiequotiënt oorspronkelijk bepaald: er zijn echter veel bezwaren tegen de verhoudingsnorm. Normen gebaseerd op rangorde (5.4.3), bijvoorbeeld percentielscores Normen gebaseerd op gemiddelde en standaarddeviatie (5.4.4), bijv. standaardscores, genormaliseerde standaardscores en bewerkingen. Percentielscores Percentielen zijn 99 punten die een frequentie verdelen in 100 even grote groepen (P1, P2, … P99). P50 is de mediaan: 50% heeft een lagere score, 50% een hogere. Als je P37 hebt, betekent dit dat 37% een lagere score heeft en 63% een hogere. Het is een veelgebruikte score, want hij is relatief makkelijk te interpreteren. Een nadeel van deze score is dat deze vorm er vanuit gaat dat iedereen een andere score heeft. Maar wat als relatief veel personen dezelfde score hebben? A.d.h.v. tabel uitgelegd, zie slide 5. Cumulatieve percentages worden berekend. Je neemt het percentage respondenten dat lagere score heeft plus de helft van de respondenten die dezelfde score heeft. (Lineaire) standaardscores Z-score: 𝑍𝑥 = 𝑥− 𝑥̅ 𝑥 = . Z-scores zijn niet noodzakelijk normaal verdeeld, maar als je de 𝑆(𝑋) 𝑆(𝑋) deviatiescore Lineaire transformaties (appendix) (zelfde als lineaire formule van Wiskunde A) - - Testscore X: nieuwe score Y = a + bX. Aan de hand van voorbeelden: X is aantal km gelopen in 25 min. Y is het aantal m gelopen in 15 min. Y = 0 + 1000 x X. Als X 3.5 dan Y = 0 + 1000 x 3,5 = 3500. Intercept = a, regressieparameter = b X = graden Celsius, Y is Fahrenheit. Testscore omzetten van Celsius naar Fahrenheit. Y = 32 + (9/5) x X. In vak/tentamen weet je bijna altijd a en b al, dus hoef je de formule alleen te transformeren en uit te rekenen: als X = 28 dan Y = 32 + (9/5) x 28 = 82.4 X testscore (𝑋̅ = 4,2, 𝑆(𝑋) = 2) Y Deviatiescore is 𝑌 = − ̅𝑋 + 1 × 𝑋. Als X = 6 dan Y =−4 + 1 × 6 = 2. Dus de deviatiescore is een lineaire transformatie van de testscore. 𝑥̅ 1 1 𝑋̅ X testscore (𝑋̅ = 4,2, 𝑆(𝑋) = 2) Y Standaardscore 𝑌 = − + × 𝑋. Dus = 𝑋− = 𝑠(𝑥) 𝑠(𝑥) 𝑆(𝑋) 𝑆(𝑋) 𝑋 𝑋̅ 𝑋− 𝑋̅ − 𝑆(𝑋) = 𝑆 (𝑋) = 𝑍𝑋 . Dus de standaardscore is een lineaire transformatie van de testscore: 𝑆(𝑋) 𝑥̅ 1 𝑍𝒙 = 𝑎 + 𝑏𝑋 = − 𝑠(𝑥) + 𝑠(𝑥) × 𝑋. Belangrijk: als de ene score een lineaire score is van de andere, kan je relatief makkelijk gemiddelde, standaarddeviatie, variantie en correlatie berekenen: Oefening zie slide 11. M-score wordt gebruikt in de RAKIT. Oefenopdracht je begint met berekenen van de standaardscore. Stanines: van Standard nines: standaardscores worden in 9 invallen geplaatst. Op basis van zscore (standaardscores). Z-scores in de blokjes, is die bijv. tussen -0.25 en 0.25, krijg je stanine 5. Daar zit de grootste groep wanneer de scores normaalverdeeld zijn. De lengte van een stanine is een halve standaarddeviatie. De twee uitersten (1 en 9) lopen tot oneindig door. - Percentielscores zijn geen lineaire transformatie van testscores Genormaliseerde standaardscores zijn ook geen lineaire transformatie van de testscores Wat is de correlatie tussen de percentielscores van de Groninger Lengte Test (GLT) en lengte zoals vermeld in paspoort? > het enige wat je kan zeggen is ‘niet hetzelfde’, je kan geen berekening maken omdat percentielscores geen lineaire transformatie zijn Genormaliseerde standaardscores Veelgebruikt, vooral als de verdeling scheef is. Standaardscores worden bepaald alsof de scores normaal verdeeld zijn (met behulp van percentielscores). Er wordt een soort truc toegepast. Ook gemiddelde Z = 0, en S(Z) = 1. “Je gaat trekken en duwen aan de scores totdat het in een normaalverdeling past.” Als de ruwe testscores normaal verdeeld zijn dan zijn de lineaire Z-score en de genormaliseerde score gelijk maar als de ruwe testscore niet normaal verdeeld zijn kunnen genormaliseerde Z-scores een vertekend beeld geven. Scores berekenen in SPSS Berekenen van gemiddelde, standaarddeviatie, variantie en histogram van itemscores: Berekenen van percentielscores, Z-score, genormaliseerde Z=scores, T-scores, IQ-scores, M-scores en StaNines [staat wel uitgelegd, maar hoef je niet voor TT te weten > zegt Andries in college. Meer als handigheid van Andries als je het later in scriptie o.i.d. nodig hebt] Betrouwbaarheid Betrouwbaarheid is de mate waarin testscores overeenkomen als ze twee of meer keer onder identieke omstandigheden zijn afgenomen. De klassieke testtheorie bepaald de betrouwbaarheid. De formule die hierbij hoor: X = T + E. Deze theorie zegt dat elke testscore bestaat uit een systematisch deel, de betrouwbare score of true score (T) en een meetfout of measurement error (E), dat is de ruis. X is je geobserveerde testscore. Deze theorie gaat ervan uit dat elke testscore een beetje beïnvloed wordt door ruis. T is de verwachte score van een persoon, en deze is niet observeerbaar. Er wordt aangenomen dat de meetfout compleet random; puur toeval) is. Omdat hij compleet random is, is hij nergens mee gecorreleerd, behalve met de testscore zelf. De 𝑆 2 (𝑇) betrouwbaarheid is weergegeven met rxx’ = 𝑆 2 (𝑋) HC5 Betrouwbaarheid (webcollege) Andries van der Ark Na hercoderen (voorbeeld slide 5: 1, 2, 3 SPSS) correlaties. Positief correleren betekent dat ze (deels) hetzelfde meten. Daarna kijk je naar de frequencies van de items: is er iets raars aan de hand, zijn er items die niet kloppen stap 4 zie slide 5. Analyze > descriptive statistics > frequencies > selecteer alle items > vink aan welke statistics je wilt (mean, SD, min, max). Dan komt er een frequentietabel uit. Zo kan je zien of dingen opmerkzaam zijn, zodat je er later rekening mee kan houden. Stap 5 zie slide 6: bereken testscore (al in eerder college voorgedaan) Stap 6 Betrouwbaarheid zie slide 6. Analyze > scale > reliability analysis > items selecteren, niet de ‘testscore’ erbij. Je berekent de betrouwbaarheid van de schaal op basis van de items. Vink bij ‘Statistics’ aan: scale, scale if item deleted & intraclass correlation coefficient’ aan. (Deze laatste misschien niet echt nodig, maar kan je ook wat info uithalen). > OK. Hij maakt hem automatisch met Cronbach’s Alpha. In de tweede tabel staat de item-rest correlatie (Corrected Item-Total Correlation): dit is de correlatie tussen wat 1 item meet, vergeleken met wat de rest van de test meet. Deze wil je zo groot mogelijk hebben. COTAN heeft de richtlijn dat deze correlatie ten minste .20 moet zijn. De richtlijn hangt natuurlijk ook af van het aantal items. Verschillende richtlijnen kunnen dus gehanteerd worden door verschillende onderzoekers. Betrouwbaarheid De mate waarin testscores gelijk blijven wanneer de test tweemaal of vaker onder gelijkblijvende condities aan dezelfde persoon wordt voorgelegd. Dit is lastig om in de praktijk te testen, want je kan bijna nooit onder precies dezelfde omstandigheden met dezelfde personen een test afnemen. Het zegt iets over de maat van precisie waarmee een testscore gemeten wordt. Belang van betrouwbaarheid: wanneer is betrouwbaarheid van de test het meest van belang? 1. Het is het belangrijkste bij individuele diagnostiek. Op het moment dat je een hele precieze test hebt, dan kun je een precieze uitspraak doen over de test van een individu. Wanneer de test onbetrouwbaar is, kun je niet een nauwkeurige uitspraak doen. 2. Onderzoek naar samenhang (belangrijk). Betrouwbaarheid geeft bovengrens van validiteit aan: bijv. correlatie tussen frustratie en agressie: als frustratie en agressie niet betrouwbaar gemeten zijn vind je lage correlaties in het onderzoek, terwijl de echte correlatie misschien wel hoog is. Regressie: voorspel studiesucces op basis van motivatie. Als motivatie niet betrouwbaar gemeten is, kun je moeilijk voorspellen. Bij alles m.b.t. correlatie, regressie en samenhang, is de betrouwbaarheid van belang 3. Het is minder belangrijk bij onderzoek naar verschil in gemiddelde tussen groepen: T-toets: wat is het gemiddeld verschil in agressie tussen jongens en meisjes. Hierbij is de mate van betrouwbaarheid minder belangrijk. Herhaalbaarheid van metingen (6.1) Als je met mensen werkt is het (bijna) nooit mogelijk om metingen onder dezelfde omstandigheden te herhalen > betrouwbaarheid kun je niet zomaar bepalen. Alle taken waarbij cognitie een rol speelt, zijn niet onder dezelfde omstandigheden af te nemen. Je kunt betrouwbaarheid dus niet zomaar bepalen, betrouwbaarheid moet geschat worden. De theorie die ten grondslag ligt aan de betrouwbaarheid is de klassieke testtheorie. Deze theorie stelt dat de testscore (X) op te delen is in: 1. Een systematisch deel (T): a. Betrouwbare score (Eng ‘true score’) b. Het gedeelte dat constant blijft bij onafhankelijke replicaties c. T bevat ook systematische fouten d. T is de verwachte score 2. Ruis (E) a. Meetfout (Eng measurementscore) b. Het gedeelte dat variëert bij onafhankelijke representaties 𝑋 =𝑇+𝐸 Zie slide 15: hypothetische situatie: Persoon i (Ina), j- de replicatie: Xij = Ti + Eij 8 keer wordt de test afgenomen, en 8 keer wordt haar geheugen gewist, zodat ze onder dezelfde omstandigheden de test maakt. De betrouwbare score is de score die je verwacht, en is gelijk aan de gemiddelde testscore over veel replicaties. De meetfout is puur toeval: er zit geen enkele systematiek in: gemiddeld is het 0. De meetfout middelt uit over replicaties. Alle variatie die er is over Ina’s testscores, komt allemaal door de meetfout: de variantie van testscore en meetfout is gelijk. 𝑆 2 (𝑋𝑖 ) = 𝑆 2 (𝐸𝐼 ) De klassieke testtheorie verondersteld dat de meetfout onder personen willekeurig is. Gemiddeld is er geen meetfout, maar op individueel niveau kan iemand beetje geluk of ongeluk hebben. Gemiddeld is er dus geen effect van meetfout. Hieruit volgt dat de gemiddelde testscore en de gemiddelde betrouwbare score gelijk moeten zijn. Aanname 1: Meetfout middelt uit over respondenten. Hieruit volgt dat 𝑋̅ = 𝑇̅ Aanname 2: De meetfout correleert nergens mee (behalve met de testscore). 𝑟 (𝐸, 𝑋) ≥ 0. Hij correleert wel met de testscore zelf. Er bestaat geen enkel verband tussen de meetfout die je krijgt en de betrouwbare score. De meetfout is onderdeel van de testscore, daarom correleren deze wel. Uit aanname 1 en 2 volgt dat 𝑆 2 (𝑋) = 𝑆 2 (𝑇) + 𝑆 2 (𝐸). De verschillen in scores zijn op te delen in systematische verschillen en verschillen in meetfout. 𝑆 2 (𝑇) De betrouwbaarheid 𝑟𝑥𝑥′ = 𝑆 2 (𝑋). Betrouwbaarheid kun je schrijven als het gedeelte in de spreiding in testscores dat veroorzaakt wordt door systematische verschillen. De variantie van de betrouwbare score is dat deel dat systematisch is, en de variantie van de testscore is dat deel dat ‘volledig’ (?) is. Betrouwbaarheid kun je ook schrijven als 1 minus het gedeelte in de spreiding in testscores dat veroorzaakt wordt door meetfout: 𝑟𝑥𝑥′ = 𝑆 2 (𝑋)− 𝑆 2 (𝐸) 𝑆 2 (𝐸) = 1 − 𝑆 2 (𝑋) 𝑆 2 (𝑋) We weten de betrouwbare score (T), niet, dus kunnen we de variantie hiervan ook niet weten. De hoogste betrouwbaarheid die je zou kunnen hebben is 1, zie slide 18. Er is geen sprake van ruis, er is geen meetfout, de precisie is perfect. De betrouwbaarheid is 0, wanneer er alleen maar ruis is. De test is dus geheel onbetrouwbaar, zie slide 19. Standaardmeetfout is de standaarddeviatie van de meetfout: 𝑆(𝐸) = √𝑆 2 (𝐸). Deze wordt gebruikt om betrouwbaarheidsintervallen te maken. Omgebouwd is de formule: 𝑆(𝐸) = 𝑆(𝑋) × √1 − 𝑟𝑥𝑥′ De standaardmeetfout is de maat van de meetprecisie van een testscore. Wat gebeurt er met de standaardmeetfout als de betrouwbaarheid toeneemt? Wordt kleiner. Hoe kleiner de standaardmeetfout, hoe betrouwbaarder test. Deze wordt gebruikt zie slide 21 vb. Betrouwbaarheidsinterval: 95% wil zeggen dat het zo breed is gekozen, dat bij 100 keer testen, 95 van de 100 keer de betrouwbare score in dit gebied zitten. De betrouwbare score zit dan binnen de onder- en bovengrens van het betrouwbaarheidsinterval. 95% betrouwbaarheidsinterval voor Ti: [𝑋𝑖 − 1.96 × 𝑆(𝐸); 𝑋𝑖 + 1.96 × 𝑆(𝐸)] Schrijfopdracht berekenen betrouwbaarheid zie slide 23 Geschatte betrouwbaarheid is Lambda2 die je hebt berekend eerder in deel A. Hiermee en met de S (X) kunnen we de standaardmeetfout berekenen. Vanuit daar bereken je de ondergrens betrouwbaarheidsinterval en bovengrens betrouwbaarheidsinterval. Zit de criteriumwaarde in het betrouwbaarheidsinterval? Dan is de test niet betrouwbaar genoeg om te kunnen vaststellen dat de betrouwbare score hoger is dan het criterium. [In dit geval zal je bij mensen moeten inlichten dat er verder onderzoek nodig is]. HC6 Betrouwbaarheid en validiteit (webcollege) Andries van der Ark Samenvatting betrouwbaarheid en klassieke testtheorie slide 2 Er zijn vier manieren om betrouwbaarheid te schatten, waarop de vierde manier verreweg de meest voorkomende is. 6.3.1 Parallelvorm-methode 2 afnames Vergelijkt scores op 𝑟(𝑋𝐼 , 𝑋𝐼𝐼 ) verschillende (parallelle tests) 6.3.2 Test-herstest-methode 2 afnames Vergelijkt scores op 𝑟(𝑋1 , 𝑋2 ) dezelfde 2x afgenomen tests 6.3.3 Splitsings-methode 1 afname Vergelijkt scores op halve 𝑟𝐾𝐾 tests 6.3.4 Interne-consistentiemethode 1 afname Schat S2 (T) op basis van alfa; Lambda2; covarianties KR-20 1. Parallelvormmethode Het idee is dat je niet twee keer de test afneemt onder dezelfde omstandigheden, maar twee uitwisselbare (parallele) tests: 𝑟(𝑋𝐼 , 𝑋𝐼𝐼 ) Tests X1 en X2 zijn parallel als: a) De betrouwbare scores gelijk zijn: T1 = T2 > niet is dus niet na te gaan b) De varianties gelijk zijn: S2(X1) = S2 (X2) Voorbeeld in slide 4 - Je kan als volgt onderzoeken of tests parallel zijn; nooit helemaal zeggen, alleen onderzoeken of het aannemelijk is dat de test gelijk zijn: Zijn gemiddeldes gelijk? 𝑋̅𝐼 = 𝑋̅𝐼𝐼 Zijn varianties gelijk? 𝑆 2 (𝑋𝐼 ) = 𝑆 2 (𝑋𝐼𝐼 ) Zijn correlaties met andere variabelen (andere tests) gelijk? 𝑟(𝑋𝐼 , 𝑌) = 𝑟(𝑋𝐼𝐼 , 𝑌) Resultaten: - Als niet aan bovenstaande condities is voldoen kun je met zekerheid zeggen dat de tests niet parallel zijn Als wel hieraan wordt voldaan zijn ze mogelijk parallel Aan gelijke varianties en gelijke gemiddeldes is te voldoen door de testscores naar standaardscores te transformeren. Als tests niet parallel zijn, dan 𝑟(𝑋𝐼 , 𝑋𝐼𝐼 ) < 𝑟𝑥𝑥′ De echte betrouwbaarheid, is kleiner dan de correlatie die je vindt. Je onderschat dus de betrouwbaarheid een beetje, en dat is in de praktijk voor onderzoekers niet zo erg: niet overschatten en mooier maken. 2. Test-hertestmethode - Hier wordt twee keer dezelfde test afgenomen, en veronderstelt/hoopt dat de condities gelijk zijn. 𝑟𝑥𝑥′ = 𝑟(𝑋1 , 𝑋2 ) Bij deze methode is sprake van de volgende problemen: Condities zijn nooit hetzelfde Groter probleem: als de condities niet hetzelfde zijn, dan kan de werkelijke betrouwbaarheid zowel groter als kleiner zijn dan de correlatie. Je kunt dus niet een ‘richting’ van een uitspraak doen als je de correlatie hebt berekend. Beter om deze niet te gebruiken. Soms wordt deze methode gebruikt om te testen of een bepaald construct stabiel is. De correlatie zegt namelijk wel wat over de stabiliteit van het construct, maar zegt niks over de betrouwbaarheid. 3. Splitsingsmethode Voordeel bij deze test is dat je maar 1 keer de test hoeft af te nemen. Deze vorm kan je ook in SPSS berekenen*. Het idee is: we gebruiken de parallelvormmethode met twee testhelften. a) Je verdeelt de test in twee helften (HI en HII) en bereken de testscores op elk van de testhelften. Je hebt dan twee halve tests. b) Bereken de correlatie tussen de testhelften: 𝑟(𝐻𝐼 , 𝐻𝐼𝐼 ) . Als beide testhelften parallel zijn, dan is de betrouwbaarheid van de halve test 𝑟𝑥𝑥′ = 𝑟(𝐻𝐼 , 𝐻𝐼𝐼 ). Maar je wilt natuurlijk de betrouwbaarheid van de hele test, die is te berekenen met een correctie 2 × 𝑟𝑥𝑥′ formule: 𝑟𝐾𝐾′ = 1+ 𝑟𝑥𝑥′ Slide 8 SPSS: Analyze > Scale > Reliability Analysis > model: Split-half > OK. In de voetnoot zie je hoe de items in twee helften verdeeld zijn. De correlatie tussen de testhelften is ‘Correlation Between Forms’, en de correctie met Spearman-Brown formule is ‘Spearman-Brown Coefficiënt’ – Equal Length. SPSS splitst standaard in eerste helft en tweede helft van de volgorde van de items, dus als je de volgorde aanpast, kan je mogelijk een iets andere uitkomst krijgen. De werkelijke betrouwbaarheid zit nu ook hoger dan de uitkomst van de Spearman-Brown correctie. 4. Interne-consistentiemethoden Bekenste is Cronbachs Alfa [artikel dat hierover is gepubliceerd door Cronbach is zo ongeveer het meest geciteerde artikel ooit: heel betrouwbaar en veelgebruikte manier]. [k] is het aantal items: ∑𝑔≠ℎ 𝑆(𝑋𝑔 , 𝑋ℎ ) 𝑘 𝑎𝑙𝑓𝑎 = × 𝑘−1 𝑆 2 (𝑋) 𝑘 som buitendiagonale elementen covariantiematrix (blauw) = 𝑘−1 som alle elementen covariantiematrix (blauw + rood) Item 1 Item 2 Item 3 Item 4 Item 1 0.25 0.05 0.05 0.05 Item 2 0.05 0.25 0.05 0.05 Item 3 0.05 0.05 0.25 0.05 Item 4 0.05 0.05 0.05 0.25 In de populatie geldt: alfa [gelijk of kleiner dan rxx’]. De alfa kan variëren over steekproeven. Bij kleine steekproeven gaat de alfa niet op: het kan zo zijn dat de alfa dan hoger of lager is dan de betrouwbaarheid. Slide 10 SPSS. Alfa het best op hele grote steekproeven doen, anders kan je de betrouwbaarheid van de alfa zelf niet meer goed interpreteren. - - - - Paar dingen over alfa: Link tussen alfa en splitsingsbetrouwbaarheid • Alfa geeft de splitsingsbetrouwbaarheid van alle mogelijke splitsingen: secuurder dan methode 3 gebruiken: alfa heeft voorkeur Link met klassieke testtheorie [hoort niet bij tt stof vond Andries leuk om te vertellen] formule Coëfficiënt KR20 [§6.38] ook een interne-consistentiemethoden. Deze is identiek aan alfa, maar kan alleen berekend worden voor dichotome items. 0 ≤ 𝑟𝑥𝑥 ′ ≤ 1, maar alfa kan negatief zijn! De betrouwbaarheid is het laagste als hij 0 is, dan is er alleen maar sprake van ruis. Maar alfa kan dus negatief zijn, het is namelijk niet precies hetzelfde als de betrouwbaarheid, het is een schatter van de betrouwbaarheid. Meestal is er dan wel iets fout gegaan, dan kan alfa ineens enorm laag zijn. bijv. niet alle items omgescoord. Omgaan met Cronbachs alfa; vaak wordt gezegd dat alfa ‘een maat is voor interne consistentie’. Maar dat is iets wat je beter niet kan zeggen. Het is ten eerste een beetje onduidelijk wat ‘interne consistentie’ precies is. Je kan beter zeggen ‘alfa is de ondergrens van de betrouwbaarheid’. Als het aantal items oneindig is/of heel erg groot is, dan gaat de alfa automatisch naar 1: ook als er maar een hele lage correlatie is tussen items. Andere interne-consistentiemethoden • Guttmans Lambda 2 [6.39] is een minder bekende, maar betere ondergrens van de betrouwbaarheid. Hij is altijd iets hoger dan alfa, maar altijd een ondergrens van de betrouwbaarheid. SPSS Vragen over betrouwbaarheid [Antwoorden: 1. nee; 2. Meningen over verdeeld. Bijv. bij individuele diagnostische tests is dit niet hoog. Volgens COTAN moet de alfa minimaal .90 zijn. > hangt af van de situatie waarin je de test gebruikt; 3. Ja; 4. Groter; 5. Nee; 6. Ja. Een item is eigenlijk een klein stukje informatie w.b. het construct; hoe meer informatie, hoe betrouwbaarder je het construct meet; 7. Eigenlijk niet, alfa is ondergrens van de betrouwbaarheid. Maar op het moment dat een test heel heterogeen is, zoals bij TT, zullen covarianties tussen de items heel laag zijn, en zal alfa heel ver onder de berouwbaarheid komen. Wanneer een test niet een heel specifiek construct meet, is alfa niet zinnig om te gebruiken] Itemselectie – niet in DS Alfa en Lambda2 worden groter bij toename van covarianties tussen items. Zie slide 13 Selecteer items in de test met hoge samenhang: hoge covarianties. Alle informatie over interitemcovarianties zitten in de item-rest correlatie Wat is zo’n item-rest correlatie: correlatie tussen itemscore enerzijds en de restscore van test anderzijds. Restscore: testscore van iemand, met een item eruit 𝑅(−𝑔) = 𝑋 − 𝑋𝑔 . Voorbeeld. Item-restcorrelatie 𝑟(𝑋𝑔 , 𝑅(−𝑔) )Vuistregel: neem item op als 𝑟(𝑋𝑔 , 𝑅(−𝑔) ) ≥ .3 of .4 Met weinig items kan je niet zo streng zijn, veel items moet je wel streng zijn. Zijn ook validiteitsredenen: meet de test wat hij zou moeten meten? Als 1 item namelijk helemaal niet samenhangt met de rest van de test, betekent dit dat dit item iets heel anders meet en beter niet in de test opgenomen kan worden. Nauwkeurigheid van metingen Wat we bij klassieke testtheorie eigenlijk willen weten is iemands betrouwbare score, maar die hebben we niet. Met de geschatte betrouwbare score: 𝑇̂ = 𝑋 komen we daarvan in de buurt. Geschatte standaardmeetfout: 𝑆̂(𝐸) = 𝑆(𝑋)√1 − lambda2 Geschat betrouwbaarheidsinterval [𝑋𝑖 − 1.96 × 𝑆(𝐸); 𝑋𝑖 + 1.96 × 𝑆(𝐸)] Voorbeeld slide 15. Betrouwbaarheid en testlengte Meer vergelijkbare items toevoegen maakt de test betrouwbaarder. De betrouwbaarheid na 𝐾 × 𝑟𝑥𝑥′ testverlenging kan inschatten met de Spearman-Brownformule 𝑟𝐾𝐾′ = 1+(𝐾−1)× 𝑟𝑥𝑥′ Dit is de betrouwbaarheid na testverlenging: [k] is de zogenaamde verlengingsfactor: hoeveel langer of korter een test wordt. Kan dit ook met verkorting toepassen: verlengingsfactor kan ook kleiner zijn > inschatten wat de betrouwbaarheid wordt met minder items. Als je de Spearman-Brownformule herschrijft, kun je kijken hoeveel items je moet toevoegen om een betrouwbare test te krijgen: hoeveel maal langer een test moet worden, met welke factor moet je de items uitbreiden: 𝑟𝐾𝐾′ (1 − 𝑟𝑋𝑋 ′ ) 𝐾= 𝑟𝑋𝑋 ′ (1 − 𝑟𝑘𝑘 ′ ) Slotopmerkingen - - Bepaling betrouwbaarheid geldt alleen voor ‘gewone’ tests, d.w.z. waarmee je iedereen in de populatie wilt meten. Betrouwbaarheid wordt anders bepaald voor: snelheidstests, heterogene tests (zoals TT, waar je niet probeert 1 hypothetische begrip te meten, maar meerdere), verschilscores, selectietests Betrouwbaarheid [is niet gelijk aan] validiteit. De twee zijn wel gerelateerd. Validiteit De mate waarin de test aan zijn doel beantwoordt. Je kan niet zomaar zeggen ‘een test is valide’, want de validiteit is afhankelijk van het doel van de test. De bewoording waarmee je met validiteit omgaat is veel subtieler. Bij testen en meten is validiteit onderverdeeld in twee processen: 1. Predictieve validiteit: hoe goed voorspelt een test gedrag/prestatie buiten de testsituatie (criterium in heden, verleden of toekomst) 2. Begripsvaliditeit: in hoeverre is het ‘hypothetisch construct’ verantwoordelijk voor de testscore (inhoudelijke betekenis) Predictieve validiteit en begripsvaliditeit zijn gerelateerd. Onderzoek naar validiteit: de relatie tussen de test en andere variabelen of tests, binnen een nomologisch netwerk Nomologische netwerk: (UIT OM?): zie slide 21+. De ovalen zijn theoretische begrippen, die je niet kan observeren; de blokjes zijn de geobserveerde variabelen; een nomologisch netwerk geeft weer wat mijn theorie is. Bij predictieve validiteit kijk je met name of de test iets anders voorspelt zie voorbeeld Groninger Lente Test (GLT) slide 21+. Het zegt iets over het voorspellende vermogen van de test in de werkelijkheid. Over het algemeen zijn validiteitsmaten vrij laag, soms wel teleurstellend laag. Bij begripsvaliditeit ben je meer geïnteresseerd of de test werkelijk het construct meet. Zie voorbeeld slide 24+. Je kijkt naar zo’n nomologisch netwerk, en hier ga je allerlei toetsbare hypothesen uithalen. Met heel veel onderzoekjes meet je de begripsvaliditeit: maak een toetsbare voorspelling van de theorie (empirisch). Andere onderscheidingen: 1. Predictive validity: voorspelt test toekomstig criterium? Onderzoek: correlatie/regressie testscore (X) en criterium (Y) 2. Concurrent validity: voorspelt test een gelijktijdig criterium? Onderzoek: correlatie/regressie testscore (X) en criterium (Y) 3. Content validity (inhoudsvaliditeit): is de test representatief voor het gemeten construct? Onderzoek: wordt vooral beoordeeld en niet onderzocht 4. Construct validity: zijn testscores betekenisvol in termen van psychologische begrippen? Onderzoek: a. Bedenk welke hypothetische begrippen een verklaring kunnen bieden b. Leidt toetsbare resultaten af uit (a) c. Voer empirisch onderzoek uit om hypothesen te toetsen Construct validity = begripsvaliditeit + wat meet de test eigenlijk? - Verder: synthetische validiteit, congruent validity, face-validity, incremental validity HC1 Introductiecollege Judith Conijn Inhoudelijk – wat geleerd bij BS overlapt deels met TM, bespreken Statistiek in woorden: herhaling: z-score geeft aan hoeveel SD wijk je af van M Notatie: Standaarddeviatie S(X) = Sx, geldt ook voor variatie en correlatie. Verder is z-score gelijk aan standaardscore STOF H1 (Andries in webcollege niet behandeld) Gaat over ontwikkeling van testgebruik en meten. In slide tijdlijn gemaakt en verdeeld in vier periodes, zie slide 16+. In periode 1 en 2 zie je een verschuiving ontstaan van intuïtief onderzoek naar systematisch en empirische gefundeerd. Vanaf 1800 drie stimulansen die periode 1 inluiden met een toename van testgebruik. In 1904 begint periode 2 met de Binet-Simon test in Parijs. Binet kreeg opdracht om een test te maken voor kinderen om te onderzoeken bij welke kinderen het de moeite is om aandacht en energie te steken in kinderen die achterstand hadden opgelopen, en bij welke kinderen echt sprake was van zwakzinnigen. Deze test mat complexe mentale processen, wat voor het eerst werd gedaan. Deze test werd empirisch getoetst, wat ook nieuw was, en waardoor de betrouwbaarheid toenam. Ook werd er een totaalscore aan de resultaten gekoppeld, zodat er echt een ‘IQ-score’ uitkwam. De test werd vertaald in meerdere landen, en bekend daarvan was de Binet-Stanford test. In deze versie werd de test gestandaardiseerd en genormeerd. Periode 3 begint in de Eerste Wereldoorlog (1917). De Army alpha en Army bèta werden ontwikkeld, gericht op het testen van selectieve functies voor de oorlog (army alpha) en voor immigranten die de taal niet spraken (army bèta), gericht op grote groepen. In Europa werd juist nadruk gelegd op individueler testen: 1921 Inktvlekkentest van Rorschach en TAT. In 1931 Thurstone deed onderzoek naar de structuur van intelligentie: wat is intelligentie precies: onderzoek naar constructen. Ook deed hij onderzoek naar de kwaliteit van de bestaande testen. Periode 4 wordt met de Tweede Wereldoorlog (1940) ingeleid: weer expansie van meten en testen. De focus kwam te liggen op theoretische achtergrond: het werd een stuk professioneler. In Amerika werd zo bijvoorbeeld de organisatie ETS opgericht, die gestandaardiseerde testen ontwikkeld – die nog steeds in alle VS scholen wordt gebruikt. In NL: in 1952 eerste versie van literatuurboek voor deze cursus. 1959 voorloper COTAN: verzamelt alle informatie en geeft een overzicht van alle testen en oordeelt over testen a.d.h.v. bestaand onderzoek HC2 Responsiecollege 1 Judith Conijn Verschillen uit Apendix en formuleboek Variantie formules: bij DS deel je door n, in formuleboek door n – 1. In het formuleboek is dat gedaan zodat je de steekproef beter kan generaliseren. Bij DS echter gaan ze uit van hele grote steekproeven, en dat is het verschil dat – 1 maakt heel minimaal, eigenlijk te verwaarlozen. Bij DS wordt kleine ‘x’ aangeduid voor deviatiescore (afwijkingsscore = Xi – gemiddelde X). Bij opgaven gebruik je het liefst DS, je mag ook de andere gebruiken, maar met DS weet je zeker dat je het juiste antwoord krijgt. Opdracht 3 huiswerk a. Je kan voor drie variabelen samenhang kwantificeren tot covariantie. Formules zie slide welke je kan gebruiken. De kleine letter x en y zijn afwijkingsscores. Op p. 38 in het formuleboek staat deze formule ook. Werkt opdracht uit voor covariantie tussen X1 en X2. 1. Bereken de afwijkingsscores (deviatiescores) (X1 – X1 gemiddeld | X2 – X2 gemiddeld) 2. Neem de som van alle producten uit stap 1 3. Dan doe je 1/n x {antwoord uit 2} b. Maak een covariantiematrix voor de drie variabelen. Zie slide. Op de diagonaal komen de varianties: S2(X1) = aanvullen Je weet nu of variabelen positief of negatief samenhangen, en hoeveel spreiding er is. Je kan er verder niet zo veel over zeggen, omdat het ook niet gestandaardiseerd is. Daarom gebruikt men liever correlaties, want die is gestandaardiseerd van -1 tot 1. Kan je de sterkte van samenhang zien. Vanuit covariantie kun je de correlatie berekenen zie slide aanvullen formule + matrix. Werkgroep opdrachten 1. A. Je kunt ze gebruiken om testscores te interpreteren, om betekenis toe te dienen aan ruwe testscores. Je kunt hiermee ook testscores (van 1 persoon) van verschillende testen normeren en vervolgens vergelijken. {Op p. 34 staat een overzicht van bewerkte scores en normen: lineaire scores, stanine, IQ score, Tscore en meer} Bewerkte score vs normen belangrijk! Bewerkte scores, wanneer ruwe scores van respondenten alleen binnen de groep worden vergeleken; normen wanneer de scores van respondenten worden vergeleken en gegeneraliseerd aan populatie. Zie slide, of p. 173 DS Op de slide een aantal voorbeelden van normtabellen. In testhandleiding worden meestal 2 tabellen gegeven om testen te kunnen normeren. Bij welke staninescore hoort elke ruwe score, bij schoolvragenlijst verschil jongens en meisjes. Dit verschil is er omdat de kenmerken in de populatie tussen die groepen verschillen. Daarnaast is er een tabel die betekenis geeft aan de staninescores. B. Als het omzetten van de antwoorden/gegevens in scores (of categorieën) hetzelfde is, ongeacht wie de antwoorden beoordeelt. Het doel is vergelijkbaarheid, transparantie en reproduceerbaarheid van testscores vergroten C. Om testscores vergelijkbaar te maken. Hoe: onderzochten worden in maximaal gelijke omstandigheden getest (o.a. dezelfde instructie, tijdslimiet, testmateriaal, zelfde gedrag van testleider, gelijke gemoedstoestand proefpersoon < laatste is het moeilijkst) D. De mate waarin de test aan zijn doel beantwoordt. Zie hoofdstuk 8. E. Richten op direct waarneembaar gedrag (i.p.v. evaluatie van gedrag), en een heel exact voorgeschreven verwerkingsprocedure. Bijv. bij de schrijfopdracht van deze module hebben we nakijkformulier waar op staat ‘is de spelling correct? ‘Worden APA-regels gehanteerd’ en niet ‘is dit goed of slecht’ o.i.d. 2. A. Bij prestatieniveau wil je een maximale prestatie leveren en is het antwoord goed of fout. Bij test voor gedragswijze gaat het om aanvullen B. 1. Generalisatie: als je prestatieniveaus meet in een test, is de score vrij representatief voor prestatie in de werkelijkheid. De testsituatie bij gedragstest is echter in veel mindere mate representatief voor het dagelijks leven (bijv. het sociaal-geaccepteerde antwoord invullen, i.p.v. je werkelijke antwoord) 2. Ontbreken van objectief criterium 3. Prestaties zijn vaak wel stabiel, vooral vanaf na de pubertijd/begin van volwassenheid. Maar in gedrag kunnen mensen in bijv. verschillende contexten/gemoedstoestanden heel verschillende gedragingen tonen. Meten van gedragswijzen is hierdoor ook minder stabiel C. De resultaten voor individu moeten nauwkeuriger gemeten worden, omdat er op basis van de resultaten anders verkeerde keuzes kunnen worden gemaakt. D. Cohen’s Kappa: formule DS p. 47-49. 3. 4. 5. 6. X niet behandeld in college X niet behandeld in college X niet behandeld in college Zie slide stappen 1. Bepaal dichotome of polytome 2. Slide 3. Slide 4. Slide Vraag 9 zie slide VGT 2 Voor VGT 2 staan voor elke vraag een uitleg, allen vraag 4 wordt hier besproken 4. Je bepaalt de percentielscores altijd aan de hand van de 0.5 regel Schrijfopdracht DEEL A Het doel van deze voorbeeldopdracht en onze eindopdracht is hetzelfde, alleen een ander onderwerp. Je berekent de gemiddelde score, standaardafwijking en schatting van betrouwbaarheid (op basis van Lambda-2). Hoe ga je dat doen: - Items verwijderen op basis van een item-rest correlatie. Alle correlaties <0.30 verwijder je. {in dit voorbeeld gebruikt ze 0.20; als je de cut-off hoger let, krijg je meer variatie in items. Hoge correlatie heeft vaak tot gevolg dat items inhoudelijk heel erg op elkaar lijken, dan heb je het gevoel dat je steeds dezelfde vraag beantwoord (niet zo leuk voor respondent). Onderzoekers} - Lambda-2 en Cronbach’s alpha als maat voor betrouwbaarheid. Lambda-2 is accurater, en Cronbach’s alpha is makkelijkste en best te begrijpen, daarom allebei. SPSS: Hercoderen Variable view: Transform > redoce into same variables > [de juiste variabele] > old and new values > value’s omdraaien en toevoegen, continue > OK. Totaalscore: Variable view: Item-restcorrelatie Scale > reliability analysis > selecteer alle items van de vragenlijst > statistics: vink aan ‘scale’ en ‘scale if determent’ > confirm. Gaat om kolom “Corrected Item-Total Correlation”. Hiermee komt ook een Cronbach’s alpha. {?} Guttman’s Lambda 2 Analyze > Scale > reliability analyses > Model ‘Guttman’ > selecteer alle items van de vragenlijst > statistics: vink aan ‘scale’ en ‘scale if determent’ > confirm. Reliability Statistics kijken bij Lambda 2. Je gaat dus door met analyseren van item-restcorrelatie totdat je een item-restcorrelatie kleiner dan .30 krijgt. DEEL B – methode - Schrijf een methodeparagraaf met betrekking tot de analyses in opdracht A5 t/m A8. Hier horen een beschrijving van Het doel van de analyse De steekproef De oorspronkelijke vragenlijst De uitgevoerde analyse [Webcollege terugkijken om te luisteren wat je precies kan rapporteren: het is nu 12.24] DEEL C – resultaten - Beschrijft je analyse Legt uit waarom sommige items inhoudelijk verwijderd moesten worden, leg uit waarom die mogelijk niet sterk samenhangt (plausibel) Beschrijvende statistieken voor de itemscores van de nieuwe vragenlijst in een tabel Beschrijvende statistieken voor de itemscores van de nieuwe vragenlijst in een figuur Gemiddelde, standaarddev, evt. Mediaan, betrouwbaarheid van de testscores Tekstuele beschrijving van statistieken. Bij elke statistiek (itemgemiddelde, standaarddeviatie, frequentieverdeling en item-restcorrelatie) beschrijven welke items opvallen. DEEL D – begripsvaliditeit Zie slide lap tekst uitleg. Begripsvaliditeit: het gaat erom bij begripsvaliditeit of de test het bedoelde construct (begrip) meet. Meet de tes wat hij zou moeten meten (gaat niet om functie van de test, maar of de juiste variabelen worden gemeten). Een nomologisch netwerk is een theoretisch netwerk van verschillende verbanden van jouw construct met alle andere constructen waarmee jouw construct mee te maken heeft. Zie ook DS. DEEL E – brief > komt in werkgroepen Responsie deel uit webcolleges HC3 Judith Conijn Van OM is webcollege 6 en van BS 1 – 3 op Canvas gezet, voor studenten die dit niet hebben gehad (of voor extra DS 2.2 schaaltypen wordt deels besproken in college 6 van OM. Voor de rest van de samenvatting zijn deze twee vragen van belang; 1. Wat is operationalisme? 2. Wat is representational management? Ad 1: de opvatting van Stevens (1951) was “er is sprake van meten zodra getallen volgens een consistente procedure aan objecten worden toegekend”. Dit noemde hij operationalisme. Later kwam er kritiek op deze uitspraak. Namelijk zou volgens deze opvatting een nummer toedienen aan personen al meten zijn, maar dat klopt niet. DS noemen vervolgens: “een meting gelijkstellen aan de uitkomst van een consistente procedure aanvullen. Het te meten construct wordt gelijkgesteld aan de test (procedure/score). Voorbeeld: je wilt honger meten (construct). Je meet honger door het aantal uren voedseldeprivatie aanvullen. Nadelen van (extreem) operationalisme: psychologische constructen kan je niet observeren, maar zijn abstracte, hypothetische begrippen. Je kan ze niet zomaar koppelen aan een meetprocedure, maar moet je koppelen aan verschillende theorieën. Er is gebrek aan onderzoek naar de betekenis/validiteit van de testscores. Ad 2: representational measurement is een andere opvatting over meten. DS: “Er kan alleen sprake zijn van een meting, indien de formele relaties tussen meetwaarden (in dit boek testscores) overeenkomen met de relaties van die er in de empirie bestaan tussen de ‘objecten’ waarover die meetwaarden iets zeggen”. Slide plaatje: om te kunnen zeggen dat een test werkelijk iets gemeten heeft, moet de volgorde van de resultaten in de testuitkomst in de werkelijkheid dezelfde volgorde hebben. Met empirisch onderzoek moet je bewijzen dat wat je meet overeenkomt met de werkelijkheid. Voorbeeld: test pretendeert ruimtelijk inzicht te meten, en je hebt bepaalde uitkomst. Hoe kan je dan de werkelijke ruimtelijke inzichten weten? Niet, omdat je het niet kan observeren, dus je kan het nooit weten. Responsievragen Methodeparagraaf DEEL B. De getallen die horen bij de oorspronkelijke set van items (na het hercoderen) worden beschreven in de Methode. Je beschrijft de oorspronkelijke vragenlijst, en vervolgens geef je in de analyse aan hoe je het instrument gaat bewerken. De resultaten van de bewerking/analyse van A5 t/m A8 komen in de Resultatensectie. Alles kan in SPSS, behalve opdracht A9-A11. In slides staat omschreven hoe je dat doet. Onderdeel D: voor het vinden van twee externe variabelen, kan je beginnen bij wikipedia pagina over mildheid (agreeableness). Hierin staat beschreven wat het is, en ook welke variabelen invloed hebben. Vanuit hier kan je deze zoeken en de referenties vaak vinden naar artikelen die deze correlatie hebben onderzocht. HC4 Judith Conijn In SPSS werkboekje van BS staat hoe je een histogram APA wilt maken. Huiswerkopgaven week 2 Opdracht 3 bespreken zie slide Implicaties van lineaire transformatie zie sheet 10 van webcollege 4 Cronbachs alfa: uit formuleboek 1e formule k is aantal items Som van alle covarianties in de matrix > alle buitendiagonale elementen (van de variabelen) gedeelde door variantie van de testscore (alle varianties en covarianties uit matrix bij elkaar opgeteld) Tip: je weet hoe de totale variantie S2 (X) tot stand komt > optellen van alle covarianties en variaties tussen aanvullen zie slide. 2e 1- Som van (co?)varianties van de items / varianties van de items > MISSCHIEN ALLE SLIDES PRINTEN MET 3 SLIDES PER PAGINA, ZODAT IK AANT BIJ KAN ZETTEN.

Testen en Meten College Aantekeningen

Related documents

Products

Support

Testen en Meten College Aantekeningen

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib