Workshop 'Het bepalen van de cesuur en het geven van cijfers‘ Faculteit Psychologie en Pedagogische Wetenschappen 14 maart 2012 Enkele beschouwingen vanuit ‘Educational measurement’ Rianne Janssen Kwantitatieve psychologie en individuele verschillen Onderwijseffectiviteit & -Evaluatie Borderline method Itemcentered methods State view High-stakes Criterionreferenced measurement Grade inflation Vooraf Normconstantie Domain score licensure Angoff Cesuurbepaling Standard setting Certification mastery Analytical procedures Grading Equating Holistic scoring Continuum view of mastery personcentered methods Overzicht • Onderzoek naar cesuurbepaling • Basiskader • Enkele aanbevelingen? Onderzoek naar cesuurbepaling • Wie? • Wat? • Besluit? Wie? • “High-stakes pupil testing” • “Licensure and certification” – Bv. National Board of Medical Examiners • (inter)nationale peilingen – Bv. behalen eindtermen? – Bv. ESLC: taalbeheersing in verschillende talen Wat? • Ontwikkeling en vergelijking van verschillende methodes van cesuurbepaling • Empirisch en conceptueel • Formeel en niet-formeel • Experimenteel en praktijkgericht Besluit? • Voor 1980: optimisme – 1970: mandated pupil proficiency testing (deels als antwoord op ‘grade inflation’) • daarna: pessimisme – Glass (1978): “setting performance standards on tests and exercises by known methods is a waste of time or worse” (reden: leidt tot arbitraire beslissingen) – Shepard (1979): “avoid setting standards whenever possible’ (reden: cognitief te complex voor beoordelaars) – Jaeger (1989): “Different procedures lead to different results” Besluit? • Momenteel: realisme? – Cizek (2001): ‘You can’t live with it. You can’t live without it.’ – Kane (1994): “There is no gold standard. There is not even a silver standard.” • Onderscheid: ‘performance standard’ (conceptueel criterium) en ‘cut score’ (operationeel criterium) • “coherence of standard-setting process” – Referentiewerken • Cizek, G. J. (Ed.). Setting performance standards: Concepts, methods, and perspectives. Mahwah, NJ: Lawrence Erlbaum. • Cizet, G.J. & Bunch, M.B. (2007). Standard setting: A guide to establishing and evaluating performance standards on tests. Thousand Oaks, CA: Sage. Onderzoek naar cesuurbepaling • Veel procedures • Veel kritiek • Attitude: ‘er toch het beste van maken’ Overzicht • Onderzoek naar cesuurbepaling • Basiskader • Enkele aanbevelingen? basiskader • Drie basisprincipes • de idee van meetschaal • Verschillende methodes Meskauskas (1976): mastery state view – all or none – qualitative distinction – applicability • specific domains (e.g., sums till 10) • or very general domains (e.g. pilot, doctor) continuum view – different degrees – cut score needed – generally applied in educational measurement 12 The continuum view of mastery nonmastery mastery ability cutoff Opmerking: kritek Glass (1978) onvermijdelijk voor mensen rond de cesuur 13 Criteriumgericht • Criteriumgericht (“criterion-referenced”) en niet normgericht (“norm-referenced”): – Wel: Behalen studenten doelstellingen? – Niet: Hoeveel studenten slagen in andere opo’s? • Vertaling van criterium in minimumscore Aanpak domeinscore volstaat niet Universum van vragen steekproef Proportie juiste antwoorden als schatting van domeinscore Probleem: verschillen tussen toetsopgaven! Drie basisprincipes • Categorisatie van continue (latente) variabele • O.b.v. vertaling criterium in minimumscroe • Rekening houdend met verschillen tussen items basiskader • Drie basisprincipes • de idee van meetschaal • Verschillende methodes MEETSCHAAL LEERLINGEN vaardigheid OPGAVEN moeilijkheidsgraad beheersing in termen van kansen 18 TOETSNORM Behalen eindterm Deze opgaven moeten de leerlingen nog niet beheersen Behalen eindterm nog niet Deze opgaven moeten de leerlingen beheersen 19 basiskader • Drie basisprincipes • de idee van meetschaal • Verschillende methodes category or state view Borderline (Livingston & standard setting Zieky, 1982) examinee-centered contrasting-groups (idem) continuum view Angoff (1971) Nedelsky (1954) item-centered Ebel (1972) Bookmark (Mitzel et al., 2001) Cito (van der Schoot, 1994) … 21 examinee-centered methods a. borderline method cutoff ability 22 examinee-centered methods b. contrasting-groups method masters nonmasters cutoff 23 category or state view Borderline (Livingston & standard setting Zieky, 1982) examinee-centered contrasting-groups (idem) continuum view Angoff (1971) Nedelsky (1954) item-centered Ebel (1972) Bookmark (Mitzel et al., 2001) Cito (van der Schoot, 1994) … 24 item-centered methods Angoff method Procedure 1. Estimate P(success|MCS) 2. Cut score = sum of probabilities high probability of success .50 low probability of success items ability Minimally competent student Opmerking: kritiek Shepard (1979) Cognitief complexe taak! 25 item-centered methods Nedelsky method: probabilistic method for multiple-choice questions high probability of success MCS low probability of success difficulty ability 1. How many distractors can a MCS eliminate? 2. Determine the probability of success by guessing on the remaining response alternatives. 3. Cut score = sum of probabilities 26 item-centered methods IRT-based methods Bookmark method do not have to be mastered have to be mastered difficulty cutoff 27 item-centered methods IRT-based methods Cito method (p50 and p80 points on scale) 28 cutoff Different procedures, lead to different results… Van Nijlen, D., & Janssen, R. (2008). Modeling judgments in the Angoff and contrasting-groups method of standard setting. Journal of Educational Measurement, 45, 45-63 29 Gemeenschappelijke kenmerken • Groep beoordelaars • Verschillende rondes – Individuele oordelen – Discussie in kleine groepjes – Impact scores • Overbrenging cesuur op verschillende toetsen via gemeenschappelijke meetschaal 30 Verschillende methodes • Persoons- of itemgericht • IRT-gebaseerd of niet • Inschatting prestatie ‘grensgeval’ • Verschillende beoordelaars 31 Overzicht • Onderzoek naar cesuurbepaling • Basiskader • Enkele aanbevelingen? Aanbevelingen? The union of the mathematician with the poet, fervor with measure, passion with correctness, this surely is the ideal. William James Aanbevelingen? • Procedure van verantwoording – Formulering doelstellingen (‘performance standards’) – Expliciete toetsmatrijs – Kwaliteitsvolle items en scoring – Ideaal: meetschaal – Bepaling cesuur Aanbevelingen? • Verantwoordelijkheid – Individuele docent – Docententeam! • Cf. formulering ‘performance standard’ • Cf. cesuurbepaling o.b.v. panel van experten Aanbevelingen? • Voor verbetering vatbaar… IRT oplossing voor equivaleren • de gemeenschappelijke opgaven bieden de mogelijkheid om een gemeenschappelijke meetschaal te construeren 37 Toetsmatrijs Definitieve versie later op het jaar Onderdeel Nvragen Inleiding 4 Ontstaan van moderne wetenschappen 3 Rationalisme 4 Empirisme en associationisme 6 Verlichting en Romantiek 2 Achtergronden vanuit empirische bevindingen 5 Onmiddellijke voorlopers 4 De vaders van de psychologie 4 Verdere ontwikkelingen Duitsland en VS Psychologie en samenleving 4 4 Verwerkingsniveau 40% kennisvragen Een oppervlakkige verwerking van de leerstof is niet voldoende! 60% inzicht- en toepassingsvragen 38 Anecdote • Vraag: Geef de gaswet van Boyle. • Antwoord: P.V = constant • Score – ‘middelbaar’: 9.5/10 – ‘universiteit’: 0/10 • Immers: P.V = constant bij constante temperatuur 39