Uploaded by Famke Mochel

Testen en Meten College aantekeningen

advertisement
Bachelor Pedagogische
Wetenschappen Universitaire Pabo
van Amsterdam
Testen en Meten
college aantekeningen
HC1 Door meten tot weten (webcollege)
Andries van der Ark
Meetinstrument in de pedagogiek en onderwijswetenschappen meestal een test (de respondent
moet zijn best doen) of een vragenlijst (de respondent moet eerlijk zijn). Omdat het zoveel voorkomt,
is kennis uit deze cursus heel belangrijk voor pedagogen en onderwijswetenschappers. Bij vrijwel al
het onderzoek worden tests of vragenlijsten gebruikt, en bij heel veel belangrijke beslissingen worden
tests of vragenlijsten gebruikt (ongeacht of je de wetenschap/onderzoeksrichting op gaat, of niet).
-
Voorbeeld vragenlijst (zie slide 10): met een vragenlijst meet je een begrip, en bevat een
instructie. Wat de onderdelen van de vragenlijst betreft: items: stam + antwoordopties. Een
test/vragenlijst bestaat uit een verzameling van items. Uit de test komen een aantal antwoorden,
gegeven door de respondent (degene bij wie de test wordt afgenomen. De testleider is degene die de
test afneemt. Aan elk gegeven antwoord wordt een bepaalde score toegekend, een itemscores genoemd
(dit is een variabele = iets dat kan variëren). Testscore/schaalscore/somscore: som van de itemscores,
wordt gebruikt om een begrip te meten (ook een variabele). De beoordelaar is degene die het
antwoord omzet in een score. Bij heel veel tests staat de score van tevoren vast, dan is geen
beoordelaar nodig maar bijv. bij open antwoorden van geschiedenistoets, is de leraar de beoordelaar.
Vergelijking met de absolute standaard: scores die een vaste uitkomstmaat/conclusie van tevoren zijn
bepaald (zie slide 12 vb absolute standaard). Norm is de vergelijking van testscores met andere
testscores: bijna alle tests en vragenlijsten in de sociale gedragswetenschappen werken met normen.
Is dit een goede vragenlijst? Vragen die je kunt stellen bij de vragenlijst:
Zijn de testscores zinvol te interpreteren?
Meet de vragenlijst wel dergelijk sexappeal?
Zijn de items van goede kwaliteit?
Iemand heeft een testscore 4 en een ander heeft een testscore 5. Is dit verschil wel groot genoeg om
een verschil in sexappeal uit te drukken?
Zijn er wel genoeg items in de vragenlijst?
Antwoorden:
De kwaliteit kun je deels bepalen zonder afname (kennis en ervaring)
De kwaliteit kun je deels bepalen door te pre-testen
De kwaliteit kun je deels alleen bepalen na langdurig onderzoek (€100.000)
Advies: gebruik ‘zo mogelijk’ bestaande gevalideerde vragenlijsten
Drie prototypes van testgebruik
Wij moeten op rode stip komen idealiter
Vraagvorm
Gesloten antwoorden die van tevoren vastgesteld zijn. Twee vormen: 1) dichotome items: twee
itemscores, Xg = 0 of Xg = 1. Voorbeeldvraag slide 15: vraag 3 antwoord B, itemscore A: 0, B: 1, C: 0,
D:0. Je kan alleen als score 0 of 1 krijgen.
Polytome items: er zijn meer dan 2 itemscores, bv. Xg = {0, 1, 2, 3, 4}. Voorbeeld
slide 15.
Als je een test hebt afgenomen, zou in SPSS test data er zo uit kunnen zien als in slide 16.
Testscore kan je berekenen met SPSS: let op want er staan nog twee contra-indicatieve items in zitten,
‘rommelig’ en ‘verward’. Transform: compute variable: vul bij Target Variable in ‘X’. In ‘numeric
expression’ vul je in sum(georganiseerd to nauwkeurig). Als ik op ‘paste’ klik, komt er een syntax file,
en dan kan je hem daarna runnen. Voordeel 1: je kunt het nog een keer doen, zonder dat je helemaal
opnieuw hoeft te beginnen indien je een klein foutje had gemaakt (bijv. als je nog contra-indicatieve
items moet omzetten). Zie 16/17
Rest van college is herhaling BS en paar nieuwe begrippen.
Zie ook slides voor simpele oefeningen
∑𝑛 π‘₯
Gemiddelde: 𝑋̅ = 𝑖=1 𝑖 som van scores van alle personen gedeeld door alle personen. Wordt ook wel
𝑛
centrummaat genoemd, kan je interpreteren als ‘wat is de waarde die ik verwacht als ik verder niets
van jullie weet’ > verwachte waarde. Voor dichotome items geldt e: Μ…Μ…Μ…Μ…Μ…Μ…Μ…Μ…
𝑋 = 𝑝. P-waarde is de proportie
mensen die het goed heeft. 90 van 100 mensen goed, is de gemiddelde itemscore 0.9
∑𝑛 (𝑋 − 𝑋̅ )2
Standaarddeviatie: 𝑆(𝑋) = √ 𝑖=1 𝑛𝑖
. Spreidingsmaat de ‘verwachte’ afstand tot het gemiddelde.
Boek DS delen door n i.p.v. n – 1 > zal niet beïnvloeden. Voor dichotome items geldt: 𝑆 (𝑋) =
√𝑝(1 − 𝑝) (wortel uit de proportie die het weet – de proportie die het niet weet).
∑𝑛 (𝑋 − 𝑋̅)2
Variantie: 𝑆 2 (𝑋) = 𝑖=1 𝑛𝑖
. Spreidingsmaat: gekwadrateerde standaarddeviatie, vooral gebruikt
achter de schermen om te rekenen Variantie van een dichotoom item kan nooit groter worden dan
0.25. voor dichotome items geldt: 𝑆 (𝑋) = 𝑝(1 − 𝑝)
Deviatiescore (afwijkingsscore): π‘₯𝑖 = 𝑋𝑖 − 𝑋̅. Geeft de afwijking van het groepsgemiddelde op de
originele schaal. Je kunt zien of iemand boven of onder het gemiddelde scoort. Som van de
deviatiescores is altijd 0. En heeft dezelfde standaarddeviatiescore als de testscore.
π‘₯𝑖 − π‘₯Μ…
π‘₯𝑖
Z-score (standaardscore): 𝑧𝑖 = 𝑆(𝑋)
= 𝑆(𝑋)
geeft de afwijking van het groepsgemiddelde in het aantal
standaarddeviaties. Gemiddelde is altijd 0, standaarddeviatie is altijd 1.
>Stukje over SPSS toepassen komt in volgende college aan bod, geen tijd meer voor.
Samenhang
Voeg in uit slide. Correlatie wordt gebruikt om samenhang te berekenen. Ze allebei een gemiddelde
van 6, de rode lijn. De rode scores hebben een gemiddelde score, groene score hebben op ene test
boven het gemiddelde en op de andere onder het gemiddelde, en zwarte scores hebben op allebei de
scores boven- of onder gemiddeld gescoord. De zwarte scores dragen bij aan een positieve correlatie,
en de groene aan negatieve correlatie. Je wilt dus heel veel zwarte, en zo min mogelijk groene scores.
Door de deviatiescore van beide testen met elkaar te vermenigvuldigen, kan je een uitspraak doen over
de correlatie. Als je precies op het gemiddelde zit, draag niet bij aan de correlatie.
∑ (𝑋 −𝑋̅ )(π‘Œ −π‘ŒΜ…)
Covariantie: 𝑆 (𝑋, π‘Œ) = 𝑖 𝑖 𝑁 𝑖 ; hoeveel wordt er gemiddeld bijgedragen aan de samenhang,
hetzelfde symbool als standaarddeviatie wordt hiervoor gebruikt S. Het is een maat die vooral met
rekenen gebruikt wordt (zoals variantie), is 𝑆 (𝑋, π‘Œ) > 0, dan positieve samenhang, 𝑆 (𝑋, π‘Œ)= 0, dan
geen samenhang, 𝑆 (𝑋, π‘Œ) < 0, dan negatieve samenhang. Als er 1 variabele tussen haakjes bij S gaat,
is het een standaarddeviatie, staan er twee: S (X, Y).
𝑆(𝑋,π‘Œ)
Correlatie:π‘Ÿ(𝑋, π‘Œ) = 𝑆(𝑋) x 𝑆(π‘Œ). Een correlatie zit tussen de -1 en 1. Als 0 < π‘Ÿ(𝑋, π‘Œ) ≤ 1: positieve
lineaire samenhang; r(X,Y) = 0: geen positieve samenhang; −1 ≤ π‘Ÿ(𝑋, π‘Œ) < 0: negatieve lineaire
samenhang.
Variantie-covariantiematrix: alle varianties van de items zet je op de diagonaal, en
alle covarianties zijn je op de buitenvakjes (inter-item covariaties). Correlatiematrix
Tabel waarin alle correlaties tussen een aantal variabele staan. In ‘gewone’ college 2 beter toegelicht.
HC2 “A pilot’s emotional and mental traits are as important to safety in aviation as his physical
fitness” –David Wechsler (1896-1981) in New York Times, 1929 (webcollege)
Andries van der Ark
Einde van HC1 samenhang: kruistabel weergeven van gemiddeldes, de bijdrage van elke stip
in de deviatie. Als je de deviatiescore van de twee testen vermenigvuldigd, komt daar de bijdrage aan
de correlatie uit. Het gemiddelde van deze bijdrage is de covariantie.
In SPSS Correlaties. Geeft standaard niet de covarianties, maar die kan je wel instellen.
Daarna volgt correlatiematrix in SPSS (slide 6). Correlatie tussen alle 10 de items van ordelijkheid. Er
staat niet alleen de correlatie (op de eerste regels), maar ook significantie en aantal deelnemers. Als je
die weghaalt, kan je iets duidelijker zien wat de correlaties zijn.
Bij correlatiematrix: Diagonale elementen in matrix lopen van linksboven naar rechtsbeneden
door het midden. Bij een correlatie zijn die altijd 1. De andere elementen worden de buitendiagonale
elementen genoemd.
Je kan ook een (variantie-)covariantiematrix tonen, om een overzicht te krijgen van de covarianties.
De covarianties (wat de personen gemiddeld bijdragen aan lineaire samenhang) staan op de
buitendiagonale elementen, en de varianties (spreidingsmaat) staan op de diagonale elementen.
De buitendiagonale elementen zijn symmetrisch.
Onderdelen van een test
Testmateriaal: wat je de respondenten aanbied
Testformulieren: formulieren waar proefleider of respondent zelf de antwoorden in noteert
Testhandleiding: daar staat een exacte testinstructie in, een verwerkingsprocedure (hoe kom je van
antwoord van kind tot een score op de test; hoe je moet scoren en registreren), normtabellen, en een
bespreking van de wetenschappelijke kwaliteit van de test. Het is ethisch onverantwoord om een test
van slechte kwaliteit af te nemen.
WISC-III: Wechsler Intelligence Scale for Children III. Het is de Nederlandse bewerking van de
Amerikaanse WISC-III. Deze test meet de functionering bij 6-17 jarigen: het valt onder de categorie
enkelvoudige algemene niveautest, en is een individuele ontwikkelingstest (DS 78). Deze test lijkt op
de RAKIT (DS 96-100). Er zijn grofweg gezegd 2 intelligentietheorieën: 1. Er is een algemene
intelligentie (g-factor); 2. Er is sprake van meerdere intelligenties, die niet tot 1 algemene score
worden uitgedrukt. De WISC gaat uit van de algemene intelligentiescore, en is een
testbatterij bestaande uit 13 subtests. Twee categorieën van de subtests: verbale en
performale test.
Verbaal
2. Informatie
4. Overeenkomsten
6. Rekenen
8. Woordkennis
10. Begrijpen
12. Cijferreeksen
Performaal
1. Onvolledige tekeningen
3. substitutie
5. Plaatjes ordenen
7. Blokpatronen
9. Figuren leggen
11. Symbolen vergelijken
13. Doolhoven
Zie slide 9 - 19voorbeelden van de testen en andere testonderdelen.
Normtabellen: een norm is een referentiekader waaraan je de individuele score van een
kind/respondent kunt interpreteren. De normtabellen bevatten de normen om de scores mee te
interpreteren en een uitspraak te kunnen doen over de resultaten.
Ook moet eigenlijk de wetenschappelijke kwaliteit in de testhandleiding staan, maar dit hoeft niet
altijd. Soms wordt de kwaliteit in wetenschappelijke artikelen/bepaalde instanties onderzocht. In NL
hebben we de COTAN (Commissie Testaangelegenheden Nederland): onderzoekt (bijna) alle
Nederlandse toetsen. Via UvA computer kan je deze site bezoeken (link dia 18) en tests opzoeken. De
COTAN geven op een aantal punten een bepaald criterium op de test. NL is het enige land die zo alle
testen verzamelt en ordent.
Kenmerken van een test (2.1.3)
1. Efficiëntie: de test is alleen maar gericht op het hypothetisch construct: alles is erop gericht om het
juiste begrip te meten. Het doel van efficiëntie is tijdswinst
2. Standaardisatie: de testprocedure moet voor alle respondenten gelijk zijn (dus dezelfde instructie,
tijdslimiet, condities). De test moet ongeacht de respondent en testleider hetzelfde gemaakt moet zijn.
Het doel van standaardisatie is het vergelijkbaar maken van testscores. Het advies om dit te bereiken is
het hebben van een exacte en complete handleiding, en deze zeer nauwkeurig te volgen
3. Normering (zie ook H5): de test moet over recente, representatieve normen beschikken op basis van
voldoende grote steekproeven (anders onnauwkeurig>standaardfout). Denk bij recent aan Flynn-effect
van intelligentie. Het doel van normering is het vergelijkbaar maken van testscores en het kunnen
vergelijken van testscores. Normeringsonderzoek is heel duur en levert niet heel veel op, maar is wel
erg belangrijk
4. Objectiviteit: de mate waarin het omzetten van de antwoorden in scores, robuust is voor degene die de
antwoorden omzet in scores; het moet niet uitmaken wie de antwoorden van een kind omzet in scores.
Het impliceert de transparantie en reproduceerbaarheid van testscores. Het doel van objectiviteit is de
vergelijkbaarheid van testscores vergroten.
5. Betrouwbaarheid (H6): De mate waarin bij een herhaalde meting- onder identieke omstandigheden –
dezelfde score wordt behaald het doel van betrouwbaarheid is de precisie van testscores te vergroten
6. Validiteit (H8): de mate waarin de test ‘meet wat deze zou moeten meten’. Het doel van validiteit is
het zorgen dat testscores betekenis hebben.
Objectiviteit wordt bijna altijd bepaald door de interbeoordelaarsbetrouwbaarheid. Het gaat hier om
de mate waarin twee beoordelaars het met elkaar eens zijn. Zie slide 22 voorbeelden en toelichting
π‘ƒπ‘œ − 𝑃𝑑
Cohen’s Kappa: πœ… = 1−𝑃
. Po is proportie overeenstemming, Pt is proportie toeval. D.m.v. de
𝑑
correlatie te berekenen van de scores van leraar A en B kun je de interbeoordelaarsbetrouwbaarheid
berekenen. Er is niet 1 mate van correlatie die ‘goed’ is, want het verschilt heel erg per situatie/test.
Een multiple-choicetentamen is de objectiviteit hoger dan bij een openvragententamen. Die kan zelfs perfect objectief kunnen zijn.
Met de Cohen’s Kappa kun je de interbeoordelaarsbetrouwbaarheid berekenen.
Kappa kan negatief zijn, als de beoordelaars contra overeenstemming hebben. Is kappa 0, dan is er
geen overeenstemming en doet iedereen maar wat, en bij kappa 1 is er perfecte overeenstemming.
Definitie test
Volgens DS: “Een test is een systematische classificatie- of meetprocedure, waarbij het mogelijk
wordt een uitspraak te doen over één of meer empirisch-theoretisch gefundeerde eigenschappen van
de onderzochte of over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking van
reacties van hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde,
zorgvuldig gekozen stimuli.”
empirisch-theoretisch gefundeerde eigenschappen: hoeft niet altijd het geval te zijn, bijv. CITO
voorspelt in welk niveau een leerling het best past en hoe hij zich cognitief zal ontwikkelen.
Indeling naar testgedrag (3.1)
Tests kunnen worden ingedeeld in test voor prestatieniveau en test voor gedragswijze.
Test voor prestatieniveau
Test voor gedragswijze
Maximum performance test
Typical perfomance test
Test
Vragenlijst
Subcategorieën:
Subcategorieën
- Enkelvoudige algemene niveautests
- Observatietests
- Veelvoudige algemene niveautests
- Somatofysiologische methoden: kijken
- Speciale niveautests
naar fysieke kenmerken en daarmee iets
- vorderingentests
zeggen over gedrag (bv. DNA en
stresshormonen > gedrag)
- Zelfbeoordelingen (meest voorkomend)
- Kwalitatieve prestatietests: over het
algemeen tests waarbij de respondent
denkt dat het een maximum
performance test is, maar dit is het niet.
Voorbeeld rechtertest op dia. Deze test
wordt gebruikt om twee
persoonlijkheidstypen te onderscheiden,
en niet voor meten van intelligentie.
Ook Rorsachstest (inktvlekkentest;
scoort bij COTAN overal onvoldoende
tegenwoordig)
Zie slide 25-28, meer voorbeelden van tests. Einde van college viel van het webcollege af.
HC3 “De uitvinding van het item is misschien wel de belangrijkste uitvinding in de sociale en
gedragswetenschappen.” Willem Heiser, president van de Psychometric Society (webcollege)
Andries van der Ark
[NEO-FFI in DS uitgebreid besproken > kan tt-vraag over komen]
Stanines zijn scores van 1 – 9, waar 5 middenscore is, en 1 extreem laag, 10 extreem hoog is.
Beginnen met afnemen ‘raar’ vragenlijstje om lengte te meten. Er is geen rolmaat
(zoals bij lengte normaalgesproken) in de sociale wetenschappen, dus met stellingen wordt geprobeerd
een soort rolmaat te creëren om begrippen te meten.
Testconstructieprocedure (2.2)
Hoe maak je een test > bestaat uit aantal fases
1. Theoretische fase: identificatie van het construct (begrip) op basis van bestaande theorieën. De ‘wat
wil ik meten en wat is dat’
2. Operationaliseringsfase:
a. Bepaal welke concrete gedragingen volgen uit de eigenschap: over het algemeen kan je hier
gemakkelijk antwoord op geven
b. Maak heel veel items die een indicatie zijn van de eigenschap. In de uiteindelijke test zullen er
heel veel zijn afgevallen
3. Onderzoeksfase:
a. Vooronderzoek: verwijder slechte items op basis van interviews en itemkenmerken
b. Hoofdonderzoek: verwijder slechte items op basis van statistisch onderzoek: betrouwbaarheidsen validiteitsonderzoek
4. Terugkoppelingsfase: koppel de resultaten terug aan theorie.
Theoretische fase
Voorbeeld a.d.h.v. sociale angst meten bij Nederlandse studenten. Eerst worden definities en theorieën
aangehaald, zie slide 6 vb.: verzamelen van informatie over het construct. Er wordt een theorie
uitgewerkt/aangehaald die wordt gehanteerd bij het vormen van de test. Proberen het abstracte
construct te concretiseren.
Operationaliseringsfase
De concrete gedragingen worden geïdentificeerd: er worden bv. vragen opgesteld die de concrete
gedragingen beschrijven. Zo maak je van de concrete gedraging een item: itemconstructie. Je schrijft
hier veel meer items dan je uiteindelijk nodig hebt.
Onderzoeksfase
Je begint met het vooronderzoek (pilot study). Je weet nooit van tevoren of het goede items zijn, dus
leg ze eerst voor aan een kleine groep (5-20). Je legt het voor aan mensen uit de populatie en vraagt
hen de items te beantwoorden; experts geven commentaar op de items; en beoordelaars (in geval van
open vragen) en laat ze enkele antwoorden beoordelen. Vervolgens kun je items verwijderen waar je
ontevreden over bent. Dit is een eerste grove schifting, en kan soms wel 50% van het totaal zijn.
Vervolgens doe je een proefafname, waar je kijkt of er zorg is voor efficiëntie, standaardisatie en
objectiviteit.
Hierna volgt het hoofdonderzoek (aankomende weken meer hierover). Hier leg je de selectie items
voor aan een grote representatie steekproef (250-20.000). Hier onderzoek je de betrouwbaarheid en
validiteit, en aan de hand hiervan construeer je de norm. Dan verwijder je alle items waar je
ontevreden mee bent. Dit herhaal je totdat je helemaal tevreden bent.
-
-
Terugkoppelingsfase
Koppel terug naar de theorie:
Komen de items nog wel overeen met wat de oorspronkelijke theorie?
Moet wellicht de theorie aangepast worden?
Als alles in orde is, is de test klaar voor gebruik.
Vaak gebeuren er een aantal onvolkomenheden:
Test al gebruiken in de constructiefase
Geen validiteitsonderzoek (eigenlijk schandelijk)
Geen normenonderzoek (heel duur/verouderd)
Geen goede theorieën beschikbaar
Items (H4)
Belangrijkste uitvinding in de sociale wetenschappen, ze bestaan nog niet zo lang. Voor 1905 werden
machines in de sociale wetenschappen gebruikt (zoals in de natuurkunde). In 1905 maakte Binet de
eerste item: gebruik in een intelligentietest. Één itemscore (uit een rekentest) geeft onnauwkeurige
informatie over rekenvaardigheid, maar heel veel itemscores samen geven wel een nauwkeurige
informatie over rekenvaardigheid (de item was een som met wortel). Daarom bestaan tests die er toe
doen ook altijd uit veel items.
-
-
Een item kan van alles zijn: slide 14 voorbeelden
Probleemstelling: goed/fout
Stellingen: positie
Vragen: standpunt/positie
Opdrachten: mate van adequaatheid
Projecties: vrije reactie
Heel veel items zijn geschreven. Richtlijnen:
Schrijf veel meer items dan je nodig hebt.
Gebruik eenvoudige taal die door de doelgroep gemakkelijk begrepen wordt
Zorg voor een eenduidige interpretatie van de vraag
Wees zo concreet mogelijk
Vermijd woorden als soms, vaak, regelmatig. Dit is niet altijd mogelijk, omdat de vraag anders te
kunstmatig wordt: je moet dan dus een afweging maken
Vermijd double-barreled questions
Wees zo kort mogelijk
Vermijd ontkenningen en dubbele ontkenningen
Vermijd suggestieve vragen
Veronderstel geen voorkennis
Gebruik geen afkortingen
Beschrijf eerst de situatie, en vraag dan om een reactie
Indien mogelijk: schrijf zoveel mogelijk indicatieve als contra-indicatieve items (mensen zijn het
hierover oneens: sommigen willen juist allemaal (contra-)indicatieve items
Vraagvorm (4.2)
Open antwoorden: open vraag: de verwerking is tijdrovend, en de beoordeling is mogelijk niet
objectief. Daarnaast kun je relatief weinig items in de test opnemen: dit is mogelijk slecht voor de
betrouwbaarheid. Een ander nadeel is dat een antwoord afhangt van de schrijfvaardigheid van de
respondent: mogelijk slecht voor de validiteit.
Gesloten antwoorden: niet alle constructen kunnen zinvol gemeten worden met gesloten vragen. De
constructie van gesloten vragen is vaak tijdrovend.
Kwantificering (4.4)
Bij kwantificering gaat het erom om een antwoord (kwalitatief) om te zetten in een itemscore
(kwantitatief). Bij dichotome items kan het item ‘goed’ (Xg = 1) of ‘fout’ (Xg = 0) zijn: bij MK-vragen
bij vier antwoordopties en 1 goed antwoord, heb je 4 mogelijke antwoorden met 2 itemscores. Bij
polytome items voorbeeld slide 18 zijn meerdere itemscores mogelijk. Het meetniveau is ordinaal.
Advies: houdt aantal antwoordcategorieën gelijk binnen een test.
Bij contra-indicatieve items moet je omscoren, dit doe je via SPSS.
Via ‘transform’ naar ‘recode into
different variables’. Voeg
betreffende variabele(n) toe aan vakje. Bij ‘old
values’ zet je de oude waarden, en bij ‘new values’
de nieuwe. Dan klik je op ‘add’. Ga hiermee door
tot je alle items hebt omgescoord. Zet bij ‘output
variable’ de nieuwe naam van de variabele, geef
hem dezelfde naam + “R” van recode. Klik
vervolgens op ‘paste’, dan verschijnt de syntax, die
je dan kan runnen. Dan zijn de nieuwe variabele
toegevoegd en gehercodeerd. De oude variabele kun
je in de data view verwisselen met nieuwe
variabele. In tab ‘variable view’ kan je aanpassingen maken, en de oude variabele weghalen, en
nieuwe verslepen. Handig om de data onder een andere naam op te slaan, zodat je altijd terug kan naar
‘origineel’ indien je fout hebt gemaakt.
Beoordeling kwaliteit van items in vooronderzoek (4.5)
Je kan bij vooronderzoek ook naar de antwoordfrequenties kijken. Inspectie van frequenties multiplechoice items zie slide 21. De foute vragen bij de MK hebben een ∝-waarde (afleider), en het juiste
antwoord heeft een p-waarde. Een goed item op basis van frequentieverdeling heeft ∝-waarde hoger
dan de p-waardes, en de p-waardes zijn ongeveer gelijk.
Bij polytome items: een populair item heeft zeer weinig onderscheid, gemiddelde hoge score: heel
veel mensen kiezen ‘eens’ antwoord. Een impopulair item heeft een goed onderscheid. Een neutraal
item is een item waar meeste mensen ‘neutraal’ kiezen. Een neutraal item kan ook zijn wanneer de
verdeling in itemscore hetzelfde is: alle antwoordopties worden evenveel gegeven.
HC4 (webcollege)
Andries van der Ark
Test afnemen (5.1)
Afname van een test is heel belangrijk voor een test. Idealiter worden testen onder maximaal gelijke
omstandigheden afgenomen (standaardisatie). Er zijn meerdere factoren die standaardisatie
beïnvloeden, drie typen factoren:
1. Testcondities: de test zelf: is er een goede testinstructie aanwezig, en zijn er geen storende elementen
2. Gedrag van proefpersonen: het kan dat een proefpersoon niet geïnteresseerd is (motivatie). Het is
moeilijk om hier invloed op uit te oefenen, maar je kan als testleider aantal ‘aanmoedigingen’ geven
(staan vaak ook in handleiding) om proefpersoon te motiveren. De fysieke gesteldheid van de
proefpersoon heeft ook invloed (bijv. ziek zijn), en emotionele gesteldheid ook. Een ander probleem is
test-wiseness: de respondent weet dan eigenlijk al wat de test meet. Hoeft niet de letterlijke test te zijn,
maar het specifiek oefenen op testvragen is hier ook al onderdeel van.
3. Gedrag proefleider: hier spelen persoonskenmerken (sympathie/antipathie) en de mate van de
handleiding volgen een rol.
Factoren kunnen verschil in testscores verklaren, dus je moet proberen dit verschil te voorkomen.
Daarnaast kun je ze betrekken bij de interpretatie van de testscores. Dit kan op twee manieren:
1. Klinisch-intuïtieve interpretatie: wanneer je als testleider een inschatting maakt wat de testscore dan
wel zou zijn. dit wordt meestal afgeraden, omdat dit de objectiviteit beïnvloed
2. Objectieve interpretatie met voorbehoud: je schrijft bij de test precies wat er gebeurde en welke
factoren er speelde, maar krijgt wel gewoon de testscore die uit de afname kwam. Eventueel kan na
afloop alsnog een bepaalde uitspraak hierover worden gedaan. Deze vorm wordt meestal aanbevolen.
§5.2 en §5.3 zelf lezen [deel komt niet in tt zie daarvoor studiehandleiding]
Bewerkte scores en normen (5.4)
-
-
-
Normen: een referentiekader voor de evaluatie van ruwe scores dat is gebaseerd op de kenmerken van
de distributie van de ruwe scores in de populatie. Normen zijn zeer belangrijk bij tests, waarop je kan
terugvallen wanneer je een bepaalde betekenis aan een testscore wil geven.
Vergelijking met een absolute standaard (5.4.1) (criterion referenced test). In deze vorm is er eigenlijk
geen sprake van een norm, want bij de interpretatie van een testscore wordt geen gebruik gemaakt van
de testscore van anderen. Er is van tevoren al een criterium vastgesteld.
Verhoudingsnorm (van historisch belang; wordt niet meer gebruikt) (5.4.2). IQ = mentale leeftijd /
chronologische leeftijd X 100. Zo is intelligentiequotiënt oorspronkelijk bepaald: er zijn echter veel
bezwaren tegen de verhoudingsnorm.
Normen gebaseerd op rangorde (5.4.3), bijvoorbeeld percentielscores
Normen gebaseerd op gemiddelde en standaarddeviatie (5.4.4), bijv. standaardscores,
genormaliseerde standaardscores en bewerkingen.
Percentielscores
Percentielen zijn 99 punten die een frequentie verdelen in 100 even grote groepen (P1, P2, … P99). P50
is de mediaan: 50% heeft een lagere score, 50% een hogere. Als je P37 hebt, betekent dit dat 37% een
lagere score heeft en 63% een hogere. Het is een veelgebruikte score, want hij is relatief makkelijk te
interpreteren. Een nadeel van deze score is dat deze vorm er vanuit gaat dat iedereen een andere score
heeft. Maar wat als relatief veel personen dezelfde score hebben? A.d.h.v. tabel uitgelegd, zie slide 5.
Cumulatieve percentages worden berekend. Je neemt het percentage respondenten dat lagere score
heeft plus de helft van de respondenten die dezelfde score heeft.
(Lineaire) standaardscores
Z-score: 𝑍π‘₯ =
π‘₯− π‘₯Μ…
π‘₯
=
. Z-scores zijn niet noodzakelijk normaal verdeeld, maar als je de
𝑆(𝑋)
𝑆(𝑋)
deviatiescore
Lineaire transformaties (appendix) (zelfde als lineaire formule van Wiskunde A)
-
-
Testscore X: nieuwe score Y = a + bX. Aan de hand van voorbeelden:
X is aantal km gelopen in 25 min. Y is het aantal m gelopen in 15 min.
Y = 0 + 1000 x X. Als X 3.5 dan Y = 0 + 1000 x 3,5 = 3500. Intercept = a, regressieparameter = b
X = graden Celsius, Y is Fahrenheit. Testscore omzetten van Celsius naar Fahrenheit. Y = 32 + (9/5) x
X. In vak/tentamen weet je bijna altijd a en b al, dus hoef je de formule alleen te transformeren en uit
te rekenen: als X = 28 dan Y = 32 + (9/5) x 28 = 82.4
X testscore (𝑋̅ = 4,2, 𝑆(𝑋) = 2) Y Deviatiescore is π‘Œ = − ̅𝑋 + 1 × π‘‹. Als X = 6 dan Y =−4 +
1 × 6 = 2. Dus de deviatiescore is een lineaire transformatie van de testscore.
π‘₯Μ…
1
1
𝑋̅
X testscore (𝑋̅ = 4,2, 𝑆(𝑋) = 2) Y Standaardscore π‘Œ = −
+
× π‘‹. Dus =
𝑋−
=
𝑠(π‘₯)
𝑠(π‘₯)
𝑆(𝑋)
𝑆(𝑋)
𝑋
𝑋̅
𝑋− 𝑋̅
− 𝑆(𝑋) = 𝑆 (𝑋) = 𝑍𝑋 . Dus de standaardscore is een lineaire transformatie van de testscore:
𝑆(𝑋)
π‘₯Μ…
1
𝑍𝒙 = π‘Ž + 𝑏𝑋 = − 𝑠(π‘₯) + 𝑠(π‘₯) × π‘‹.
Belangrijk: als de ene score een lineaire score is van de andere, kan je relatief makkelijk gemiddelde,
standaarddeviatie, variantie en correlatie berekenen:
Oefening zie slide 11. M-score wordt gebruikt in de RAKIT. Oefenopdracht je begint
met berekenen van de standaardscore.
Stanines: van Standard nines: standaardscores worden in 9 invallen geplaatst. Op basis van zscore (standaardscores). Z-scores in de blokjes, is die bijv. tussen -0.25 en 0.25, krijg je stanine 5.
Daar zit de grootste groep wanneer de scores normaalverdeeld zijn.
De lengte van een stanine is een halve standaarddeviatie. De twee uitersten (1 en 9) lopen tot oneindig
door.
-
Percentielscores zijn geen lineaire transformatie van testscores
Genormaliseerde standaardscores zijn ook geen lineaire transformatie van de testscores
Wat is de correlatie tussen de percentielscores van de Groninger Lengte Test (GLT) en lengte zoals
vermeld in paspoort? > het enige wat je kan zeggen is ‘niet hetzelfde’, je kan geen berekening maken
omdat percentielscores geen lineaire transformatie zijn
Genormaliseerde standaardscores
Veelgebruikt, vooral als de verdeling scheef is. Standaardscores worden bepaald alsof de scores
normaal verdeeld zijn (met behulp van percentielscores). Er wordt een soort truc toegepast. Ook
gemiddelde Z = 0, en S(Z) = 1. “Je gaat trekken en duwen aan de scores totdat het in een
normaalverdeling past.” Als de ruwe testscores normaal verdeeld zijn dan zijn de lineaire Z-score en
de genormaliseerde score gelijk maar als de ruwe testscore niet normaal verdeeld zijn kunnen
genormaliseerde Z-scores een vertekend beeld geven.
Scores berekenen in SPSS
Berekenen van gemiddelde, standaarddeviatie, variantie en histogram van itemscores:
Berekenen van percentielscores, Z-score, genormaliseerde Z=scores, T-scores, IQ-scores, M-scores en
StaNines [staat wel uitgelegd, maar hoef je niet voor TT te weten > zegt Andries in college. Meer als
handigheid van Andries als je het later in scriptie o.i.d. nodig hebt]
Betrouwbaarheid
Betrouwbaarheid is de mate waarin testscores overeenkomen als ze twee of meer keer onder
identieke omstandigheden zijn afgenomen. De klassieke testtheorie bepaald de betrouwbaarheid. De
formule die hierbij hoor: X = T + E. Deze theorie zegt dat elke testscore bestaat uit een systematisch
deel, de betrouwbare score of true score (T) en een meetfout of measurement error (E), dat is de ruis.
X is je geobserveerde testscore. Deze theorie gaat ervan uit dat elke testscore een
beetje beïnvloed wordt door ruis. T is de verwachte score van een persoon, en deze is
niet observeerbaar. Er wordt aangenomen dat de meetfout compleet random; puur toeval) is. Omdat hij
compleet random is, is hij nergens mee gecorreleerd, behalve met de testscore zelf. De
𝑆 2 (𝑇)
betrouwbaarheid is weergegeven met rxx’ = 𝑆 2 (𝑋)
HC5 Betrouwbaarheid (webcollege)
Andries van der Ark
Na hercoderen (voorbeeld slide 5: 1, 2, 3 SPSS) correlaties. Positief correleren betekent dat ze (deels)
hetzelfde meten. Daarna kijk je naar de frequencies van de items: is er iets raars aan de hand, zijn er
items die niet kloppen stap 4 zie slide 5.
Analyze > descriptive statistics > frequencies > selecteer alle items > vink aan welke statistics je wilt
(mean, SD, min, max). Dan komt er een frequentietabel uit.
Zo kan je zien of dingen opmerkzaam zijn, zodat je er later rekening mee kan houden.
Stap 5 zie slide 6: bereken testscore (al in eerder college voorgedaan)
Stap 6 Betrouwbaarheid zie slide 6.
Analyze > scale > reliability analysis > items selecteren, niet de ‘testscore’ erbij. Je berekent de
betrouwbaarheid van de schaal op basis van de items. Vink bij ‘Statistics’ aan: scale, scale if item
deleted & intraclass correlation coefficient’ aan. (Deze laatste misschien niet echt nodig, maar kan je
ook wat info uithalen). > OK. Hij maakt hem automatisch met Cronbach’s Alpha. In de tweede tabel
staat de item-rest correlatie (Corrected Item-Total Correlation): dit is de correlatie tussen wat 1 item
meet, vergeleken met wat de rest van de test meet. Deze wil je zo groot mogelijk hebben.
COTAN heeft de richtlijn dat deze correlatie ten minste .20 moet zijn. De richtlijn hangt
natuurlijk ook af van het aantal items. Verschillende richtlijnen kunnen dus gehanteerd worden door
verschillende onderzoekers.
Betrouwbaarheid
De mate waarin testscores gelijk blijven wanneer de test tweemaal of vaker onder gelijkblijvende
condities aan dezelfde persoon wordt voorgelegd. Dit is lastig om in de praktijk te testen, want je kan
bijna nooit onder precies dezelfde omstandigheden met dezelfde personen een test afnemen. Het zegt
iets over de maat van precisie waarmee een testscore gemeten wordt.
Belang van betrouwbaarheid: wanneer is betrouwbaarheid van de test het meest van belang?
1. Het is het belangrijkste bij individuele diagnostiek. Op het moment dat je een hele precieze test hebt,
dan kun je een precieze uitspraak doen over de test van een individu. Wanneer de test onbetrouwbaar
is, kun je niet een nauwkeurige uitspraak doen.
2. Onderzoek naar samenhang (belangrijk). Betrouwbaarheid geeft bovengrens van validiteit aan: bijv.
correlatie tussen frustratie en agressie: als frustratie en agressie niet betrouwbaar gemeten zijn vind je
lage correlaties in het onderzoek, terwijl de echte correlatie misschien wel hoog is. Regressie: voorspel
studiesucces op basis van motivatie. Als motivatie niet betrouwbaar gemeten is, kun je moeilijk
voorspellen.
Bij alles m.b.t. correlatie, regressie en samenhang, is de betrouwbaarheid van belang
3. Het is minder belangrijk bij onderzoek naar verschil in gemiddelde tussen groepen: T-toets: wat is het
gemiddeld verschil in agressie tussen jongens en meisjes. Hierbij is de mate van betrouwbaarheid
minder belangrijk.
Herhaalbaarheid van metingen (6.1)
Als je met mensen werkt is het (bijna) nooit mogelijk om metingen onder dezelfde omstandigheden te
herhalen > betrouwbaarheid kun je niet zomaar bepalen. Alle taken waarbij cognitie een rol speelt, zijn
niet onder dezelfde omstandigheden af te nemen. Je kunt betrouwbaarheid dus niet
zomaar bepalen, betrouwbaarheid moet geschat worden.
De theorie die ten grondslag ligt aan de betrouwbaarheid is de klassieke testtheorie. Deze theorie stelt
dat de testscore (X) op te delen is in:
1. Een systematisch deel (T):
a. Betrouwbare score (Eng ‘true score’)
b. Het gedeelte dat constant blijft bij onafhankelijke replicaties
c. T bevat ook systematische fouten
d. T is de verwachte score
2. Ruis (E)
a. Meetfout (Eng measurementscore)
b. Het gedeelte dat variëert bij onafhankelijke representaties
𝑋 =𝑇+𝐸
Zie slide 15: hypothetische situatie: Persoon i (Ina), j- de replicatie: Xij = Ti + Eij
8 keer wordt de test afgenomen, en 8 keer wordt haar geheugen gewist, zodat ze onder dezelfde
omstandigheden de test maakt. De betrouwbare score is de score die je verwacht, en is gelijk aan de
gemiddelde testscore over veel replicaties. De meetfout is puur toeval: er zit geen enkele systematiek
in: gemiddeld is het 0. De meetfout middelt uit over replicaties. Alle variatie die er is over Ina’s
testscores, komt allemaal door de meetfout: de variantie van testscore en meetfout is gelijk.
𝑆 2 (𝑋𝑖 ) = 𝑆 2 (𝐸𝐼 )
De klassieke testtheorie verondersteld dat de meetfout onder personen willekeurig is. Gemiddeld is er
geen meetfout, maar op individueel niveau kan iemand beetje geluk of ongeluk hebben. Gemiddeld is
er dus geen effect van meetfout. Hieruit volgt dat de gemiddelde testscore en de gemiddelde
betrouwbare score gelijk moeten zijn.
Aanname 1: Meetfout middelt uit over respondenten. Hieruit volgt dat 𝑋̅ = 𝑇̅
Aanname 2: De meetfout correleert nergens mee (behalve met de testscore). π‘Ÿ (𝐸, 𝑋) ≥ 0. Hij
correleert wel met de testscore zelf. Er bestaat geen enkel verband tussen de meetfout die je krijgt en
de betrouwbare score. De meetfout is onderdeel van de testscore, daarom correleren deze wel.
Uit aanname 1 en 2 volgt dat 𝑆 2 (𝑋) = 𝑆 2 (𝑇) + 𝑆 2 (𝐸). De verschillen in scores zijn op te
delen in systematische verschillen en verschillen in meetfout.
𝑆 2 (𝑇)
De betrouwbaarheid π‘Ÿπ‘₯π‘₯′ = 𝑆 2 (𝑋).
Betrouwbaarheid kun je schrijven als het gedeelte in de spreiding in testscores dat veroorzaakt wordt
door systematische verschillen. De variantie van de betrouwbare score is dat deel dat systematisch is,
en de variantie van de testscore is dat deel dat ‘volledig’ (?) is. Betrouwbaarheid kun je ook schrijven
als 1 minus het gedeelte in de spreiding in testscores dat veroorzaakt wordt door meetfout:
π‘Ÿπ‘₯π‘₯′ =
𝑆 2 (𝑋)− 𝑆 2 (𝐸)
𝑆 2 (𝐸)
= 1 − 𝑆 2 (𝑋)
𝑆 2 (𝑋)
We weten de betrouwbare score (T), niet, dus kunnen we de variantie hiervan ook niet weten.
De hoogste betrouwbaarheid die je zou kunnen hebben is 1, zie slide 18. Er is geen sprake van ruis, er
is geen meetfout, de precisie is perfect. De betrouwbaarheid is 0, wanneer er alleen maar ruis is. De
test is dus geheel onbetrouwbaar, zie slide 19.
Standaardmeetfout is de standaarddeviatie van de meetfout: 𝑆(𝐸) = √𝑆 2 (𝐸). Deze wordt gebruikt
om betrouwbaarheidsintervallen te maken. Omgebouwd is de formule:
𝑆(𝐸) = 𝑆(𝑋) × √1 − π‘Ÿπ‘₯π‘₯′
De standaardmeetfout is de maat van de meetprecisie van een testscore. Wat gebeurt er met de
standaardmeetfout als de betrouwbaarheid toeneemt? Wordt kleiner. Hoe kleiner de
standaardmeetfout, hoe betrouwbaarder test. Deze wordt gebruikt zie slide 21 vb.
Betrouwbaarheidsinterval: 95% wil zeggen dat het zo breed is gekozen, dat bij 100
keer testen, 95 van de 100 keer de betrouwbare score in dit gebied zitten. De
betrouwbare score zit dan binnen de onder- en bovengrens van het betrouwbaarheidsinterval. 95%
betrouwbaarheidsinterval voor Ti:
[𝑋𝑖 − 1.96 × π‘†(𝐸); 𝑋𝑖 + 1.96 × π‘†(𝐸)]
Schrijfopdracht berekenen betrouwbaarheid zie slide 23
Geschatte betrouwbaarheid is Lambda2 die je hebt berekend eerder in deel A. Hiermee en met de S (X)
kunnen we de standaardmeetfout berekenen. Vanuit daar bereken je de ondergrens
betrouwbaarheidsinterval en bovengrens betrouwbaarheidsinterval. Zit de criteriumwaarde in het
betrouwbaarheidsinterval? Dan is de test niet betrouwbaar genoeg om te kunnen vaststellen dat de
betrouwbare score hoger is dan het criterium. [In dit geval zal je bij mensen moeten inlichten dat er
verder onderzoek nodig is].
HC6 Betrouwbaarheid en validiteit (webcollege)
Andries van der Ark
Samenvatting betrouwbaarheid en klassieke testtheorie slide 2
Er zijn vier manieren om betrouwbaarheid te schatten, waarop de vierde manier verreweg de meest
voorkomende is.
6.3.1 Parallelvorm-methode
2 afnames Vergelijkt scores op
π‘Ÿ(𝑋𝐼 , 𝑋𝐼𝐼 )
verschillende (parallelle
tests)
6.3.2 Test-herstest-methode
2 afnames Vergelijkt scores op
π‘Ÿ(𝑋1 , 𝑋2 )
dezelfde 2x afgenomen
tests
6.3.3 Splitsings-methode
1 afname
Vergelijkt scores op halve
π‘ŸπΎπΎ
tests
6.3.4 Interne-consistentiemethode 1 afname
Schat S2 (T) op basis van
alfa; Lambda2;
covarianties
KR-20
1. Parallelvormmethode
Het idee is dat je niet twee keer de test afneemt onder dezelfde omstandigheden, maar twee
uitwisselbare (parallele) tests: π‘Ÿ(𝑋𝐼 , 𝑋𝐼𝐼 )
Tests X1 en X2 zijn parallel als:
a) De betrouwbare scores gelijk zijn: T1 = T2 > niet is dus niet na te gaan
b) De varianties gelijk zijn: S2(X1) = S2 (X2)
Voorbeeld in slide 4
-
Je kan als volgt onderzoeken of tests parallel zijn; nooit helemaal zeggen, alleen onderzoeken of het
aannemelijk is dat de test gelijk zijn:
Zijn gemiddeldes gelijk? 𝑋̅𝐼 = 𝑋̅𝐼𝐼
Zijn varianties gelijk? 𝑆 2 (𝑋𝐼 ) = 𝑆 2 (𝑋𝐼𝐼 )
Zijn correlaties met andere variabelen (andere tests) gelijk? π‘Ÿ(𝑋𝐼 , π‘Œ) = π‘Ÿ(𝑋𝐼𝐼 , π‘Œ)
Resultaten:
-
Als niet aan bovenstaande condities is voldoen kun je met zekerheid zeggen dat de
tests niet parallel zijn
Als wel hieraan wordt voldaan zijn ze mogelijk parallel
Aan gelijke varianties en gelijke gemiddeldes is te voldoen door de testscores naar standaardscores te
transformeren.
Als tests niet parallel zijn, dan π‘Ÿ(𝑋𝐼 , 𝑋𝐼𝐼 ) < π‘Ÿπ‘₯π‘₯′
De echte betrouwbaarheid, is kleiner dan de correlatie die je vindt. Je onderschat dus de
betrouwbaarheid een beetje, en dat is in de praktijk voor onderzoekers niet zo erg: niet overschatten en
mooier maken.
2. Test-hertestmethode
-
Hier wordt twee keer dezelfde test afgenomen, en veronderstelt/hoopt dat de condities gelijk zijn.
π‘Ÿπ‘₯π‘₯′ = π‘Ÿ(𝑋1 , 𝑋2 )
Bij deze methode is sprake van de volgende problemen:
Condities zijn nooit hetzelfde
Groter probleem: als de condities niet hetzelfde zijn, dan kan de werkelijke betrouwbaarheid zowel
groter als kleiner zijn dan de correlatie. Je kunt dus niet een ‘richting’ van een uitspraak doen als je de
correlatie hebt berekend.
Beter om deze niet te gebruiken. Soms wordt deze methode gebruikt om te testen of een bepaald
construct stabiel is. De correlatie zegt namelijk wel wat over de stabiliteit van het construct, maar zegt
niks over de betrouwbaarheid.
3. Splitsingsmethode
Voordeel bij deze test is dat je maar 1 keer de test hoeft af te nemen. Deze vorm kan je ook in SPSS
berekenen*. Het idee is: we gebruiken de parallelvormmethode met twee testhelften.
a) Je verdeelt de test in twee helften (HI en HII) en bereken de testscores op elk van de
testhelften. Je hebt dan twee halve tests.
b) Bereken de correlatie tussen de testhelften: π‘Ÿ(𝐻𝐼 , 𝐻𝐼𝐼 ) . Als beide testhelften parallel zijn, dan
is de betrouwbaarheid van de halve test π‘Ÿπ‘₯π‘₯′ = π‘Ÿ(𝐻𝐼 , 𝐻𝐼𝐼 ).
Maar je wilt natuurlijk de betrouwbaarheid van de hele test, die is te berekenen met een correctie
2 × π‘Ÿπ‘₯π‘₯′
formule: π‘ŸπΎπΎ′ =
1+ π‘Ÿπ‘₯π‘₯′
Slide 8 SPSS: Analyze > Scale > Reliability Analysis > model: Split-half > OK. In de voetnoot zie je
hoe de items in twee helften verdeeld zijn. De correlatie tussen de testhelften is ‘Correlation Between
Forms’, en de correctie met Spearman-Brown formule is ‘Spearman-Brown Coefficiënt’ – Equal
Length. SPSS splitst standaard in eerste helft en tweede helft van de volgorde van de items, dus als je
de volgorde aanpast, kan je mogelijk een iets andere uitkomst krijgen.
De werkelijke betrouwbaarheid zit nu ook hoger dan de uitkomst van de Spearman-Brown correctie.
4. Interne-consistentiemethoden
Bekenste is Cronbachs Alfa [artikel dat hierover is gepubliceerd door Cronbach is zo ongeveer het
meest geciteerde artikel ooit: heel betrouwbaar en veelgebruikte manier]. [k] is het aantal items:
∑𝑔≠β„Ž 𝑆(𝑋𝑔 , π‘‹β„Ž )
π‘˜
π‘Žπ‘™π‘“π‘Ž =
×
π‘˜−1
𝑆 2 (𝑋)
π‘˜
som buitendiagonale elementen covariantiematrix (blauw)
=
π‘˜−1
som alle elementen covariantiematrix (blauw + rood)
Item 1
Item 2
Item 3
Item 4
Item 1
0.25
0.05
0.05
0.05
Item 2
0.05
0.25
0.05
0.05
Item 3
0.05
0.05
0.25
0.05
Item 4
0.05
0.05
0.05
0.25
In de populatie geldt: alfa [gelijk of kleiner dan rxx’]. De alfa kan variëren over steekproeven. Bij
kleine steekproeven gaat de alfa niet op: het kan zo zijn dat de alfa dan hoger of lager is dan de
betrouwbaarheid. Slide 10 SPSS.
Alfa het best op hele grote steekproeven doen, anders kan je de betrouwbaarheid van de alfa zelf niet
meer goed interpreteren.
-
-
-
-
Paar dingen over alfa:
Link tussen alfa en splitsingsbetrouwbaarheid
• Alfa geeft de splitsingsbetrouwbaarheid van alle mogelijke splitsingen: secuurder dan
methode 3 gebruiken: alfa heeft voorkeur
Link met klassieke testtheorie [hoort niet bij tt stof vond Andries leuk om te vertellen] formule
Coëfficiënt KR20 [§6.38] ook een interne-consistentiemethoden. Deze is identiek aan alfa, maar kan
alleen berekend worden voor dichotome items.
0 ≤ π‘Ÿπ‘₯π‘₯ ′ ≤ 1, maar alfa kan negatief zijn! De betrouwbaarheid is het laagste als hij 0 is, dan is er
alleen maar sprake van ruis. Maar alfa kan dus negatief zijn, het is namelijk niet precies hetzelfde als
de betrouwbaarheid, het is een schatter van de betrouwbaarheid. Meestal is er dan wel iets fout
gegaan, dan kan alfa ineens enorm laag zijn. bijv. niet alle items omgescoord.
Omgaan met Cronbachs alfa; vaak wordt gezegd dat alfa ‘een maat is voor interne consistentie’. Maar
dat is iets wat je beter niet kan zeggen. Het is ten eerste een beetje onduidelijk wat ‘interne
consistentie’ precies is. Je kan beter zeggen ‘alfa is de ondergrens van de betrouwbaarheid’. Als
het aantal items oneindig is/of heel erg groot is, dan gaat de alfa automatisch naar 1: ook als er maar
een hele lage correlatie is tussen items.
Andere interne-consistentiemethoden
• Guttmans Lambda 2 [6.39] is een minder bekende, maar betere ondergrens van de
betrouwbaarheid. Hij is altijd iets hoger dan alfa, maar altijd een ondergrens van de
betrouwbaarheid. SPSS
Vragen over betrouwbaarheid
[Antwoorden: 1. nee; 2. Meningen over verdeeld. Bijv. bij individuele diagnostische tests is dit niet
hoog. Volgens COTAN moet de alfa minimaal .90 zijn. > hangt af van de situatie waarin je de test
gebruikt; 3. Ja; 4. Groter; 5. Nee; 6. Ja. Een item is eigenlijk een klein stukje informatie w.b. het
construct; hoe meer informatie, hoe betrouwbaarder je het construct meet; 7. Eigenlijk niet, alfa is
ondergrens van de betrouwbaarheid. Maar op het moment dat een test heel heterogeen is, zoals bij TT,
zullen covarianties tussen de items heel laag zijn, en zal alfa heel ver onder de berouwbaarheid komen.
Wanneer een test niet een heel specifiek construct meet, is alfa niet zinnig om te gebruiken]
Itemselectie – niet in DS
Alfa en Lambda2 worden groter bij toename van covarianties tussen items. Zie slide 13
Selecteer items in de test met hoge samenhang: hoge covarianties. Alle informatie over interitemcovarianties zitten in de item-rest correlatie
Wat is zo’n item-rest correlatie: correlatie tussen itemscore enerzijds en de restscore van test
anderzijds.
Restscore: testscore van iemand, met een item eruit 𝑅(−𝑔) = 𝑋 − 𝑋𝑔 . Voorbeeld.
Item-restcorrelatie π‘Ÿ(𝑋𝑔 , 𝑅(−𝑔) )Vuistregel: neem item op als π‘Ÿ(𝑋𝑔 , 𝑅(−𝑔) ) ≥ .3 of .4
Met weinig items kan je niet zo streng zijn, veel items moet je wel streng zijn.
Zijn ook validiteitsredenen: meet de test wat hij zou moeten meten? Als 1 item namelijk helemaal niet
samenhangt met de rest van de test, betekent dit dat dit item iets heel anders meet en beter niet in de
test opgenomen kan worden.
Nauwkeurigheid van metingen
Wat we bij klassieke testtheorie eigenlijk willen weten is iemands betrouwbare score,
maar die hebben we niet. Met de geschatte betrouwbare score: 𝑇̂ = 𝑋 komen we daarvan in de buurt.
Geschatte standaardmeetfout: 𝑆̂(𝐸) = 𝑆(𝑋)√1 − lambda2
Geschat betrouwbaarheidsinterval [𝑋𝑖 − 1.96 × π‘†(𝐸); 𝑋𝑖 + 1.96 × π‘†(𝐸)]
Voorbeeld slide 15.
Betrouwbaarheid en testlengte
Meer vergelijkbare items toevoegen maakt de test betrouwbaarder. De betrouwbaarheid na
𝐾 × π‘Ÿπ‘₯π‘₯′
testverlenging kan inschatten met de Spearman-Brownformule π‘ŸπΎπΎ′ =
1+(𝐾−1)× π‘Ÿπ‘₯π‘₯′
Dit is de betrouwbaarheid na testverlenging: [k] is de zogenaamde verlengingsfactor: hoeveel langer
of korter een test wordt. Kan dit ook met verkorting toepassen: verlengingsfactor kan ook kleiner zijn
> inschatten wat de betrouwbaarheid wordt met minder items. Als je de Spearman-Brownformule
herschrijft, kun je kijken hoeveel items je moet toevoegen om een betrouwbare test te krijgen: hoeveel
maal langer een test moet worden, met welke factor moet je de items uitbreiden:
π‘ŸπΎπΎ′ (1 − π‘Ÿπ‘‹π‘‹ ′ )
𝐾=
π‘Ÿπ‘‹π‘‹ ′ (1 − π‘Ÿπ‘˜π‘˜ ′ )
Slotopmerkingen
-
-
Bepaling betrouwbaarheid geldt alleen voor ‘gewone’ tests, d.w.z. waarmee je iedereen in de populatie
wilt meten. Betrouwbaarheid wordt anders bepaald voor: snelheidstests, heterogene tests (zoals TT,
waar je niet probeert 1 hypothetische begrip te meten, maar meerdere), verschilscores, selectietests
Betrouwbaarheid [is niet gelijk aan] validiteit. De twee zijn wel gerelateerd.
Validiteit
De mate waarin de test aan zijn doel beantwoordt. Je kan niet zomaar zeggen ‘een test is valide’,
want de validiteit is afhankelijk van het doel van de test. De bewoording waarmee je met validiteit
omgaat is veel subtieler. Bij testen en meten is validiteit onderverdeeld in twee processen:
1. Predictieve validiteit: hoe goed voorspelt een test gedrag/prestatie buiten de testsituatie (criterium in
heden, verleden of toekomst)
2. Begripsvaliditeit: in hoeverre is het ‘hypothetisch construct’ verantwoordelijk voor de testscore
(inhoudelijke betekenis)
Predictieve validiteit en begripsvaliditeit zijn gerelateerd. Onderzoek naar validiteit: de relatie tussen
de test en andere variabelen of tests, binnen een nomologisch netwerk
Nomologische netwerk: (UIT OM?): zie slide 21+. De ovalen zijn theoretische begrippen, die je niet
kan observeren; de blokjes zijn de geobserveerde variabelen; een nomologisch netwerk geeft weer wat
mijn theorie is. Bij predictieve validiteit kijk je met name of de test iets anders voorspelt zie voorbeeld
Groninger Lente Test (GLT) slide 21+. Het zegt iets over het voorspellende vermogen van de test in
de werkelijkheid.
Over het algemeen zijn validiteitsmaten vrij laag, soms wel teleurstellend laag.
Bij begripsvaliditeit ben je meer geïnteresseerd of de test werkelijk het construct meet. Zie voorbeeld
slide 24+. Je kijkt naar zo’n nomologisch netwerk, en hier ga je allerlei toetsbare hypothesen uithalen.
Met heel veel onderzoekjes meet je de begripsvaliditeit: maak een toetsbare voorspelling van de
theorie (empirisch).
Andere onderscheidingen:
1. Predictive validity: voorspelt test toekomstig criterium?
Onderzoek: correlatie/regressie testscore (X) en criterium (Y)
2. Concurrent validity: voorspelt test een gelijktijdig criterium?
Onderzoek: correlatie/regressie testscore (X) en criterium (Y)
3. Content validity (inhoudsvaliditeit): is de test representatief voor het gemeten
construct?
Onderzoek: wordt vooral beoordeeld en niet onderzocht
4. Construct validity: zijn testscores betekenisvol in termen van psychologische begrippen?
Onderzoek:
a. Bedenk welke hypothetische begrippen een verklaring kunnen bieden
b. Leidt toetsbare resultaten af uit (a)
c. Voer empirisch onderzoek uit om hypothesen te toetsen
Construct validity = begripsvaliditeit + wat meet de test eigenlijk?
- Verder: synthetische validiteit, congruent validity, face-validity, incremental validity
HC1 Introductiecollege
Judith Conijn
Inhoudelijk – wat geleerd bij BS overlapt deels met TM, bespreken
Statistiek in woorden: herhaling:
z-score geeft aan hoeveel SD wijk je af van M
Notatie: Standaarddeviatie S(X) = Sx, geldt ook voor variatie en correlatie. Verder is z-score gelijk aan
standaardscore
STOF H1 (Andries in webcollege niet behandeld)
Gaat over ontwikkeling van testgebruik en meten. In slide tijdlijn gemaakt en verdeeld in vier
periodes, zie slide 16+. In periode 1 en 2 zie je een verschuiving ontstaan van intuïtief onderzoek naar
systematisch en empirische gefundeerd. Vanaf 1800 drie stimulansen die periode 1 inluiden met een
toename van testgebruik. In 1904 begint periode 2 met de Binet-Simon test in Parijs. Binet kreeg
opdracht om een test te maken voor kinderen om te onderzoeken bij welke kinderen het de moeite is
om aandacht en energie te steken in kinderen die achterstand hadden opgelopen, en bij welke kinderen
echt sprake was van zwakzinnigen. Deze test mat complexe mentale processen, wat voor het eerst
werd gedaan. Deze test werd empirisch getoetst, wat ook nieuw was, en waardoor de betrouwbaarheid
toenam. Ook werd er een totaalscore aan de resultaten gekoppeld, zodat er echt een ‘IQ-score’
uitkwam. De test werd vertaald in meerdere landen, en bekend daarvan was de Binet-Stanford test. In
deze versie werd de test gestandaardiseerd en genormeerd.
Periode 3 begint in de Eerste Wereldoorlog (1917). De Army alpha en Army bèta werden
ontwikkeld, gericht op het testen van selectieve functies voor de oorlog (army alpha) en voor
immigranten die de taal niet spraken (army bèta), gericht op grote groepen. In Europa werd juist
nadruk gelegd op individueler testen: 1921 Inktvlekkentest van Rorschach en TAT. In 1931 Thurstone
deed onderzoek naar de structuur van intelligentie: wat is intelligentie precies: onderzoek naar
constructen. Ook deed hij onderzoek naar de kwaliteit van de bestaande testen.
Periode 4 wordt met de Tweede Wereldoorlog (1940) ingeleid: weer expansie van meten en
testen. De focus kwam te liggen op theoretische achtergrond: het werd een stuk professioneler. In
Amerika werd zo bijvoorbeeld de organisatie ETS opgericht, die gestandaardiseerde testen ontwikkeld
– die nog steeds in alle VS scholen wordt gebruikt. In NL: in 1952 eerste versie van literatuurboek
voor deze cursus. 1959 voorloper COTAN: verzamelt alle informatie en geeft een overzicht van alle
testen en oordeelt over testen a.d.h.v. bestaand onderzoek
HC2 Responsiecollege 1
Judith Conijn
Verschillen uit Apendix en formuleboek
Variantie formules: bij DS deel je door n, in formuleboek door n – 1. In het formuleboek is dat
gedaan zodat je de steekproef beter kan generaliseren. Bij DS echter gaan ze uit van hele grote
steekproeven, en dat is het verschil dat – 1 maakt heel minimaal, eigenlijk te verwaarlozen.
Bij DS wordt kleine ‘x’ aangeduid voor deviatiescore (afwijkingsscore = Xi – gemiddelde X). Bij
opgaven gebruik je het liefst DS, je mag ook de andere gebruiken, maar met DS weet je zeker dat je
het juiste antwoord krijgt.
Opdracht 3 huiswerk
a. Je kan voor drie variabelen samenhang kwantificeren tot covariantie. Formules zie slide welke je kan
gebruiken. De kleine letter x en y zijn afwijkingsscores. Op p. 38 in het formuleboek staat deze
formule ook.
Werkt opdracht uit voor covariantie tussen X1 en X2.
1. Bereken de afwijkingsscores (deviatiescores) (X1 – X1 gemiddeld | X2 – X2 gemiddeld)
2. Neem de som van alle producten uit stap 1
3. Dan doe je 1/n x {antwoord uit 2}
b. Maak een covariantiematrix voor de drie variabelen. Zie slide. Op de diagonaal komen de varianties:
S2(X1) = aanvullen
Je weet nu of variabelen positief of negatief samenhangen, en hoeveel spreiding er is. Je kan er verder
niet zo veel over zeggen, omdat het ook niet gestandaardiseerd is. Daarom gebruikt men liever
correlaties, want die is gestandaardiseerd van -1 tot 1. Kan je de sterkte van samenhang zien. Vanuit
covariantie kun je de correlatie berekenen zie slide aanvullen formule + matrix.
Werkgroep opdrachten
1. A. Je kunt ze gebruiken om testscores te interpreteren, om betekenis toe te dienen aan ruwe testscores.
Je kunt hiermee ook testscores (van 1 persoon) van verschillende testen normeren en vervolgens
vergelijken.
{Op p. 34 staat een overzicht van bewerkte scores en normen: lineaire scores, stanine, IQ score, Tscore en meer}
Bewerkte score vs normen belangrijk! Bewerkte scores, wanneer ruwe scores van respondenten alleen
binnen de groep worden vergeleken; normen wanneer de scores van respondenten worden vergeleken
en gegeneraliseerd aan populatie. Zie slide, of p. 173 DS
Op de slide een aantal voorbeelden van normtabellen. In testhandleiding worden meestal 2 tabellen
gegeven om testen te kunnen normeren. Bij welke staninescore hoort elke ruwe score, bij
schoolvragenlijst verschil jongens en meisjes. Dit verschil is er omdat de kenmerken in de populatie
tussen die groepen verschillen. Daarnaast is er een tabel die betekenis geeft aan de staninescores.
B. Als het omzetten van de antwoorden/gegevens in scores (of categorieën) hetzelfde is, ongeacht wie
de antwoorden beoordeelt. Het doel is vergelijkbaarheid, transparantie en reproduceerbaarheid van
testscores vergroten
C. Om testscores vergelijkbaar te maken. Hoe: onderzochten worden in maximaal gelijke
omstandigheden getest (o.a. dezelfde instructie, tijdslimiet, testmateriaal, zelfde gedrag van testleider,
gelijke gemoedstoestand proefpersoon < laatste is het moeilijkst)
D. De mate waarin de test aan zijn doel beantwoordt. Zie hoofdstuk 8.
E. Richten op direct waarneembaar gedrag (i.p.v. evaluatie van gedrag), en een heel
exact voorgeschreven verwerkingsprocedure. Bijv. bij de schrijfopdracht van deze
module hebben we nakijkformulier waar op staat ‘is de spelling correct? ‘Worden APA-regels
gehanteerd’ en niet ‘is dit goed of slecht’ o.i.d.
2. A. Bij prestatieniveau wil je een maximale prestatie leveren en is het antwoord goed of fout. Bij test
voor gedragswijze gaat het om aanvullen
B.
1. Generalisatie: als je prestatieniveaus meet in een test, is de score vrij representatief voor
prestatie in de werkelijkheid. De testsituatie bij gedragstest is echter in veel mindere mate
representatief voor het dagelijks leven (bijv. het sociaal-geaccepteerde antwoord invullen, i.p.v. je
werkelijke antwoord)
2. Ontbreken van objectief criterium
3. Prestaties zijn vaak wel stabiel, vooral vanaf na de pubertijd/begin van volwassenheid. Maar
in gedrag kunnen mensen in bijv. verschillende contexten/gemoedstoestanden heel verschillende
gedragingen tonen. Meten van gedragswijzen is hierdoor ook minder stabiel
C. De resultaten voor individu moeten nauwkeuriger gemeten worden, omdat er op basis van de
resultaten anders verkeerde keuzes kunnen worden gemaakt.
D. Cohen’s Kappa: formule DS p. 47-49.
3.
4.
5.
6.
X niet behandeld in college
X niet behandeld in college
X niet behandeld in college
Zie slide stappen
1. Bepaal dichotome of polytome
2. Slide
3. Slide
4. Slide
Vraag 9 zie slide
VGT 2
Voor VGT 2 staan voor elke vraag een uitleg, allen vraag 4 wordt hier besproken
4. Je bepaalt de percentielscores altijd aan de hand van de 0.5 regel
Schrijfopdracht
DEEL A
Het doel van deze voorbeeldopdracht en onze eindopdracht is hetzelfde, alleen een ander onderwerp.
Je berekent de gemiddelde score, standaardafwijking en schatting van betrouwbaarheid (op basis van
Lambda-2). Hoe ga je dat doen:
- Items verwijderen op basis van een item-rest correlatie. Alle correlaties <0.30 verwijder je. {in
dit voorbeeld gebruikt ze 0.20; als je de cut-off hoger let, krijg je meer variatie in items. Hoge
correlatie heeft vaak tot gevolg dat items inhoudelijk heel erg op elkaar lijken, dan heb je het
gevoel dat je steeds dezelfde vraag beantwoord (niet zo leuk voor respondent). Onderzoekers}
- Lambda-2 en Cronbach’s alpha als maat voor betrouwbaarheid. Lambda-2 is accurater, en
Cronbach’s alpha is makkelijkste en best te begrijpen, daarom allebei.
SPSS:
Hercoderen
Variable view: Transform > redoce into same variables > [de juiste variabele] > old and new values >
value’s omdraaien en toevoegen, continue > OK.
Totaalscore:
Variable view:
Item-restcorrelatie
Scale > reliability analysis > selecteer alle items van de vragenlijst > statistics: vink aan ‘scale’ en
‘scale if determent’ > confirm. Gaat om kolom “Corrected Item-Total Correlation”.
Hiermee komt ook een Cronbach’s alpha. {?}
Guttman’s Lambda 2
Analyze > Scale > reliability analyses > Model ‘Guttman’ > selecteer alle items van de vragenlijst >
statistics: vink aan ‘scale’ en ‘scale if determent’ > confirm. Reliability Statistics kijken bij Lambda 2.
Je gaat dus door met analyseren van item-restcorrelatie totdat je een item-restcorrelatie kleiner dan .30
krijgt.
DEEL B – methode
-
Schrijf een methodeparagraaf met betrekking tot de analyses in opdracht A5 t/m A8. Hier horen een
beschrijving van
Het doel van de analyse
De steekproef
De oorspronkelijke vragenlijst
De uitgevoerde analyse
[Webcollege terugkijken om te luisteren wat je precies kan rapporteren: het is nu 12.24]
DEEL C – resultaten
-
Beschrijft je analyse
Legt uit waarom sommige items inhoudelijk verwijderd moesten worden, leg uit waarom die
mogelijk niet sterk samenhangt (plausibel)
Beschrijvende statistieken voor de itemscores van de nieuwe vragenlijst in een tabel
Beschrijvende statistieken voor de itemscores van de nieuwe vragenlijst in een figuur
Gemiddelde, standaarddev, evt. Mediaan, betrouwbaarheid van de testscores
Tekstuele beschrijving van statistieken. Bij elke statistiek (itemgemiddelde, standaarddeviatie,
frequentieverdeling en item-restcorrelatie) beschrijven welke items opvallen.
DEEL D – begripsvaliditeit
Zie slide lap tekst uitleg.
Begripsvaliditeit: het gaat erom bij begripsvaliditeit of de test het bedoelde construct (begrip) meet.
Meet de tes wat hij zou moeten meten (gaat niet om functie van de test, maar of de juiste variabelen
worden gemeten). Een nomologisch netwerk is een theoretisch netwerk van verschillende verbanden
van jouw construct met alle andere constructen waarmee jouw construct mee te maken heeft. Zie ook
DS.
DEEL E – brief > komt in werkgroepen
Responsie deel uit webcolleges
HC3
Judith Conijn
Van OM is webcollege 6 en van BS 1 – 3 op Canvas gezet, voor studenten die dit niet hebben
gehad (of voor extra
DS 2.2 schaaltypen wordt deels besproken in college 6 van OM. Voor de rest van de samenvatting zijn
deze twee vragen van belang;
1. Wat is operationalisme?
2. Wat is representational management?
Ad 1: de opvatting van Stevens (1951) was “er is sprake van meten zodra getallen volgens een
consistente procedure aan objecten worden toegekend”. Dit noemde hij operationalisme. Later kwam
er kritiek op deze uitspraak. Namelijk zou volgens deze opvatting een nummer toedienen aan personen
al meten zijn, maar dat klopt niet. DS noemen vervolgens: “een meting gelijkstellen aan de uitkomst
van een consistente procedure aanvullen. Het te meten construct wordt gelijkgesteld aan de test
(procedure/score). Voorbeeld: je wilt honger meten (construct). Je meet honger door het aantal uren
voedseldeprivatie aanvullen.
Nadelen van (extreem) operationalisme: psychologische constructen kan je niet observeren,
maar zijn abstracte, hypothetische begrippen. Je kan ze niet zomaar koppelen aan een meetprocedure,
maar moet je koppelen aan verschillende theorieën. Er is gebrek aan onderzoek naar de
betekenis/validiteit van de testscores.
Ad 2: representational measurement is een andere opvatting over meten. DS: “Er kan alleen sprake
zijn van een meting, indien de formele relaties tussen meetwaarden (in dit boek testscores)
overeenkomen met de relaties van die er in de empirie bestaan tussen de ‘objecten’ waarover die
meetwaarden iets zeggen”. Slide plaatje: om te kunnen zeggen dat een test werkelijk iets gemeten
heeft, moet de volgorde van de resultaten in de testuitkomst in de werkelijkheid dezelfde volgorde
hebben. Met empirisch onderzoek moet je bewijzen dat wat je meet overeenkomt met de
werkelijkheid. Voorbeeld: test pretendeert ruimtelijk inzicht te meten, en je hebt bepaalde uitkomst.
Hoe kan je dan de werkelijke ruimtelijke inzichten weten? Niet, omdat je het niet kan observeren, dus
je kan het nooit weten.
Responsievragen
Methodeparagraaf DEEL B. De getallen die horen bij de oorspronkelijke set van items (na het
hercoderen) worden beschreven in de Methode. Je beschrijft de oorspronkelijke vragenlijst, en
vervolgens geef je in de analyse aan hoe je het instrument gaat bewerken. De resultaten van de
bewerking/analyse van A5 t/m A8 komen in de Resultatensectie.
Alles kan in SPSS, behalve opdracht A9-A11. In slides staat omschreven hoe je dat doet.
Onderdeel D: voor het vinden van twee externe variabelen, kan je beginnen bij wikipedia pagina over
mildheid (agreeableness). Hierin staat beschreven wat het is, en ook welke variabelen invloed hebben.
Vanuit hier kan je deze zoeken en de referenties vaak vinden naar artikelen die deze correlatie hebben
onderzocht.
HC4
Judith Conijn
In SPSS werkboekje van BS staat hoe je een histogram APA wilt maken.
Huiswerkopgaven week 2
Opdracht 3 bespreken zie slide
Implicaties van lineaire transformatie zie sheet 10 van webcollege 4
Cronbachs alfa: uit formuleboek
1e formule
k is aantal items
Som van alle covarianties in de matrix > alle buitendiagonale elementen (van de variabelen) gedeelde
door variantie van de testscore (alle varianties en covarianties uit matrix bij elkaar opgeteld)
Tip: je weet hoe de totale variantie S2 (X) tot stand komt > optellen van alle covarianties en variaties
tussen aanvullen zie slide.
2e
1- Som van (co?)varianties van de items / varianties van de items
> MISSCHIEN ALLE SLIDES PRINTEN MET 3 SLIDES PER PAGINA, ZODAT IK AANT BIJ KAN
ZETTEN.
Download