Enkele beschouwingen vanuit `Educational measurement`

advertisement
Workshop
'Het bepalen van de cesuur en het geven van cijfers‘
Faculteit Psychologie en Pedagogische Wetenschappen
14 maart 2012
Enkele beschouwingen vanuit
‘Educational measurement’
Rianne Janssen
Kwantitatieve psychologie en individuele verschillen
Onderwijseffectiviteit & -Evaluatie
Borderline
method
Itemcentered
methods
State view
High-stakes
Criterionreferenced
measurement
Grade inflation
Vooraf
Normconstantie
Domain score
licensure
Angoff
Cesuurbepaling
Standard setting
Certification
mastery
Analytical procedures
Grading Equating
Holistic scoring
Continuum view of mastery
personcentered
methods
Overzicht
• Onderzoek naar cesuurbepaling
• Basiskader
• Enkele aanbevelingen?
Onderzoek naar cesuurbepaling
• Wie?
• Wat?
• Besluit?
Wie?
• “High-stakes pupil testing”
• “Licensure and certification”
– Bv. National Board of Medical Examiners
• (inter)nationale peilingen
– Bv. behalen eindtermen?
– Bv. ESLC: taalbeheersing in verschillende talen
Wat?
• Ontwikkeling en vergelijking van verschillende
methodes van cesuurbepaling
• Empirisch en conceptueel
• Formeel en niet-formeel
• Experimenteel en praktijkgericht
Besluit?
• Voor 1980: optimisme
– 1970: mandated pupil proficiency testing (deels als
antwoord op ‘grade inflation’)
• daarna: pessimisme
– Glass (1978): “setting performance standards on tests
and exercises by known methods is a waste of time or
worse” (reden: leidt tot arbitraire beslissingen)
– Shepard (1979): “avoid setting standards whenever
possible’ (reden: cognitief te complex voor
beoordelaars)
– Jaeger (1989): “Different procedures lead to different
results”
Besluit?
• Momenteel: realisme?
– Cizek (2001): ‘You can’t live with it. You can’t live without
it.’
– Kane (1994): “There is no gold standard. There is not even
a silver standard.”
• Onderscheid: ‘performance standard’ (conceptueel criterium) en
‘cut score’ (operationeel criterium)
• “coherence of standard-setting process”
– Referentiewerken
• Cizek, G. J. (Ed.). Setting performance standards: Concepts,
methods, and perspectives. Mahwah, NJ: Lawrence Erlbaum.
• Cizet, G.J. & Bunch, M.B. (2007). Standard setting: A guide to
establishing and evaluating performance standards on tests.
Thousand Oaks, CA: Sage.
Onderzoek naar cesuurbepaling
• Veel procedures
• Veel kritiek
• Attitude: ‘er toch het beste van maken’
Overzicht
• Onderzoek naar cesuurbepaling
• Basiskader
• Enkele aanbevelingen?
basiskader
• Drie basisprincipes
• de idee van meetschaal
• Verschillende methodes
Meskauskas (1976):
mastery
state view
– all or none
– qualitative distinction
– applicability
• specific domains (e.g.,
sums till 10)
• or very general domains
(e.g. pilot, doctor)
continuum view
– different degrees
– cut score needed
– generally applied in
educational
measurement
12
The continuum view of mastery
nonmastery
mastery
ability
cutoff
Opmerking:
kritek Glass (1978) onvermijdelijk voor mensen rond de cesuur
13
Criteriumgericht
• Criteriumgericht (“criterion-referenced”) en
niet normgericht (“norm-referenced”):
– Wel: Behalen studenten doelstellingen?
– Niet: Hoeveel studenten slagen in andere opo’s?
• Vertaling van criterium in minimumscore
Aanpak domeinscore volstaat niet
Universum van vragen
steekproef
Proportie juiste antwoorden als
schatting van domeinscore
Probleem: verschillen tussen toetsopgaven!
Drie basisprincipes
• Categorisatie van continue (latente) variabele
• O.b.v. vertaling criterium in minimumscroe
• Rekening houdend met verschillen tussen
items
basiskader
• Drie basisprincipes
• de idee van meetschaal
• Verschillende methodes
MEETSCHAAL
LEERLINGEN
vaardigheid
OPGAVEN
moeilijkheidsgraad
beheersing in termen van kansen
18
TOETSNORM
Behalen
eindterm
Deze opgaven moeten de
leerlingen nog niet beheersen
Behalen
eindterm nog
niet
Deze opgaven moeten
de leerlingen beheersen
19
basiskader
• Drie basisprincipes
• de idee van meetschaal
• Verschillende methodes
category or state view
Borderline (Livingston &
standard setting
Zieky, 1982)
examinee-centered
contrasting-groups (idem)
continuum view
Angoff (1971)
Nedelsky (1954)
item-centered
Ebel (1972)
Bookmark (Mitzel et al., 2001)
Cito (van der Schoot, 1994)
…
21
examinee-centered methods
a. borderline method
cutoff
ability
22
examinee-centered methods
b. contrasting-groups method
masters
nonmasters
cutoff
23
category or state view
Borderline (Livingston &
standard setting
Zieky, 1982)
examinee-centered
contrasting-groups (idem)
continuum view
Angoff (1971)
Nedelsky (1954)
item-centered
Ebel (1972)
Bookmark (Mitzel et al., 2001)
Cito (van der Schoot, 1994)
…
24
item-centered methods
Angoff method
Procedure
1. Estimate P(success|MCS)
2. Cut score = sum of probabilities
high
probability
of success
.50
low probability of
success
items
ability
Minimally
competent
student
Opmerking:
kritiek Shepard (1979)
Cognitief complexe taak!
25
item-centered methods
Nedelsky method:
probabilistic method for multiple-choice questions
high
probability
of success
MCS
low probability of
success
difficulty
ability
1. How many distractors can a MCS eliminate?
2. Determine the probability of success by guessing
on the remaining response alternatives.
3. Cut score = sum of probabilities
26
item-centered methods
IRT-based methods
Bookmark method
do not have to
be mastered
have to be
mastered
difficulty
cutoff
27
item-centered methods
IRT-based methods
Cito method (p50 and p80 points on scale)
28
cutoff
Different procedures, lead to
different results…
Van Nijlen, D., & Janssen, R. (2008). Modeling judgments in the Angoff and contrasting-groups method of standard setting.
Journal of Educational Measurement, 45, 45-63
29
Gemeenschappelijke kenmerken
• Groep beoordelaars
• Verschillende rondes
– Individuele oordelen
– Discussie in kleine groepjes
– Impact scores
• Overbrenging cesuur op verschillende toetsen
via gemeenschappelijke meetschaal
30
Verschillende methodes
• Persoons- of itemgericht
• IRT-gebaseerd of niet
• Inschatting prestatie ‘grensgeval’
• Verschillende beoordelaars
31
Overzicht
• Onderzoek naar cesuurbepaling
• Basiskader
• Enkele aanbevelingen?
Aanbevelingen?
The union of the mathematician
with the poet,
fervor with measure,
passion with correctness,
this surely is the ideal.
William James
Aanbevelingen?
• Procedure van verantwoording
– Formulering doelstellingen (‘performance
standards’)
– Expliciete toetsmatrijs
– Kwaliteitsvolle items en scoring
– Ideaal: meetschaal
– Bepaling cesuur
Aanbevelingen?
• Verantwoordelijkheid
– Individuele docent
– Docententeam!
• Cf. formulering ‘performance standard’
• Cf. cesuurbepaling o.b.v. panel van experten
Aanbevelingen?
• Voor verbetering vatbaar…
IRT oplossing voor equivaleren
• de gemeenschappelijke opgaven bieden de
mogelijkheid om een gemeenschappelijke
meetschaal te construeren
37
Toetsmatrijs
Definitieve versie later op het jaar
Onderdeel
Nvragen
Inleiding
4
Ontstaan van moderne wetenschappen
3
Rationalisme
4
Empirisme en associationisme
6
Verlichting en Romantiek
2
Achtergronden vanuit empirische bevindingen
5
Onmiddellijke voorlopers
4
De vaders van de psychologie
4
Verdere ontwikkelingen Duitsland en VS
Psychologie en samenleving
4
4
Verwerkingsniveau
40% kennisvragen
Een oppervlakkige verwerking
van de leerstof is niet voldoende!
60% inzicht- en toepassingsvragen
38
Anecdote
• Vraag: Geef de gaswet van Boyle.
• Antwoord: P.V = constant
• Score
– ‘middelbaar’: 9.5/10
– ‘universiteit’: 0/10
• Immers: P.V = constant bij constante
temperatuur
39
Download