˚ A lære fra erfaring: Et validitetsproblem Semesteroppgave i HUMIT4700

advertisement
Å lære fra erfaring:
Et validitetsproblem
Semesteroppgave i HUMIT4700
Høsten 2006
Kandidat nr:
19. april 2007
1
Innhold
1
2
3
Innledning
3
Ikke fra erfaring
2.1 Induksjon . . . . . . . . . . . . . . . . .
2.2 Hypotesetesting . . . . . . . . . . . . . .
2.2.1 Wasons forsøk . . . . . . . . . . .
2.3 Relasjoner mellom variabler . . . . . . .
2.3.1 Probabilistisk vs. deterministisk .
2.3.2 Illusoriske korrelasjoner . . . . .
2.4 Når utfallet er avhengig av beslutningen
2.4.1 Regresjonseffekten . . . . . . . .
2.4.2 Selvoppfyllende profetier . . . . .
Avslutning
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
4
4
5
5
5
6
7
7
8
9
2
1
Innledning
Jeg har i hele min akademiske ”karriære” vært svært interresert i all de ulike små og
store ”feilene” vi friske mennesker gjør hver eneste dag. Mye skyldes at optimalisering
har måttet gi vei for effektivisering, som vi nå vet mye om fra bl.a. ”heuristics
and biases”-tradisjonen. I fjor skrev jeg om menneskers problemer med Bayseiske
slutninger, og hvordan prestasjoenen kan forbedres. Her fokuserte jeg på hvordan
disse problemene kan føre til tolkninger, som igjen kan få dramatiske konsekvenser.
F.eks når pasienter får diagnoser og avbefalt en aggresiv behandling av sin lege
basert på en feilaktig slutning1 (Svensen 2005). Dette har for min del ført til at jeg
har forsøkt å fokusere på viktige elementer innenfor medisinsk beslutningstaking.
Derfor lot jeg meg også fasinere da jeg fant artikkelen til Brehmer (1980) i
pensumskompendiumet. Her snakkes det forsovidt om læring generellt, men mange
av eksemplene er hentet fra kliniske settinger. Oppgaven videre vil gi en gjennomgang av sentrale elementer nevnt i Brehmers ”In one word: Not from experience”.
2
Ikke fra erfaring
Det er ikke noe problem å finne eksempler på at man kan lære av sin erfaring. Om
vi ikke hadde lært av å erfare hadde vi ikke kommet langt. ”Men”et her er at det er
knyttet en rekke problemer til dette å lære av erfaring. Brehmer poengterer at man
lett kan lære igjennom erfaring hvis man bare vet hva man skal lære, og ikke minst
om det er noe å lære i det hele tatt.
I en skolesituasjon kan man med rimelig sikkerhet anta at det er noe å lære, samt
at det gjerne blir fortalt hva som skal læres. I eksperimenter med parvis assosiasjon
lærer man en liste med ord-par, for å så kunne predikere den andre i paret ved
presentasjon av den første. Slike oppgaver klarer vi mennesker overraskende bra.
Men ute i den virkelige verden er det skjelden slik. Vi må gjerne bli fortalt eller
finne ut selv når det er noe å lære, og hva vi kan lære kommer vi ofte opp med selv.
Problemet da er at man verken kan vite om det faktisk er noe å lære, eller om vi
tar riktig og valid lærdom fra det. Hvorfor skal vi se nærmere på videre.
1
Hvis en kvinne blir diagnosert med tidlig brystkreft, vil man gjerne foreta en forhastet
propylaktisk masektomi
3
2.1
Induksjon
Vi mennesker lærer gjennom induksjon, og det er slik vår kunnskap vokser. Vi
generaliserer fra det vi har sett og opplevd til regler, konsepter og teorier, som vi igjen
bruker for å predikere adferd og andre hendelser i fremtiden. Vi gjør dette til tross for
at induksjon, i motsetning til deduksjon, ikke er en logisk gyldig sluttningsform. En
induktiv sluttning ansees korrekt, helt til den en gang predikerer feil (det oppdages
motstridende data). Den er altså ikke sann som følge av et sett sanne premisser,
hvilket er tilfelle med deduksjon. Problemet er altså at man aldri kan dra sikker
kunnskap ut fra en induktiv slutning. Men på den andre siden, kan vi heller ikke
lære stort nytt igjennom deduksjon.
”Data without generalisation is just gossip”
— R. Parsig
Følgelig har vi et problem med at vår kunnskap ikke nødvendigvis er verken sann
eller valid. Vi kan utlede teorier om omverdenen som kan fungere fint, og som for
alt vi vet kan være sanne. Men, man har ingen mulighet til å finne ut hvorvidt,
og i hvilken grad de er valide. Om vi ser en flokk flamingoer, kan det hende vi
drar konklusjonen at rasen kun består av rosa individer. Denne teorien kan bare
valideres igjennom å observere samtlige individer, noe som er bortimot umulig. Det
er ihvertfall ikke noe man pleier å gjøre til vanlig. Mye av problemet er vel snarere
det motsatte; at man ikke aktivt søker å teste sine teorier igjennom hypoteser.
2.2
Hypotesetesting
I hypotesetesting formulerer man et testbart utsagn av teorien, som man så tester
opp mot innsamlet data. Støtter dataenen hypotesen er det styrket (men ikke
bekrefter), og går dataene imot hypotesen er den avkreftet. Som man ser kommer
man egentlig ingen vei ved å styrke hypoteser, mens avkreftingen er interessent, og
gir ”fremskritt”.
Dessverre har vi en lei tendens til å gjøre det stikk motsatte. Fenomenet har
blitt kalt ”confirmation bias”, og gir seg utslag på flere måter i vår vurderingen av
hypoteser og tilhørende data. For det første søker vi bekreftende evidens for å støtte
hypotesen vår. På denne måten er det stor sjanse for å bare finne data som er i trå
med hypotesen. Når det først blir avdekket avkreftende data blir de som oftest ikke
brukt, ved at de enten glemmes, ses bortifra eller ilegges liten vekt, og således ikke
4
får noen innvirkning på teorien. En slik besyttelse kalles også ”oppfattnings opprettholdelse” (belief perseverance), og kan føre til at vi kan lage og beholde regler som
liten eller ingen validitet. Bekrevtende evidens, forteller som sagt, ingenting nytt
og gjør heller ikke hypotesen mer valid. En avkreftelse av en konkurrende hypotese
kunne ha hjulpet litt på, men vi er fremdeles langt i fra å bekrefte hypotesen.
2.2.1
Wasons forsøk
Wason har designet flere forsøk som enkelt viser ”confirmation bias” i aksjon. I
tallsekvens-eksperimentet skulle forsøkspersonene finne ut en regel ved å foreslå
3-tallssekvenser. Eksperiment-leder ga fortløpende feedback på om de foreslåtte
sekvensene var i tråd med regelsen, helt til forsøkspersonen mente han kunne reglen.
De aller fleste hadde store problemer med å komme frem til den enkle reglen tallene
skulle følge (stigende rekkefølge) (Wason 1960). Grunnen til dette er stort sett at man
former en (mer komplisert) hypotese, som man så tester mot sekvenser som følger
den hypotiserte reglen, og ikke tester den mot sekvenser som vil velte hypotesen.
Det samme mønsteret finner vi i samme manns ”fire korts problem” (Wason 1968).
Forsøkspersonene snur her de bekreftende og uvesentlige kortene oftere enn de som
kan avbekrefte hypotesen. Senere har Griggs & Cox (2004) funnet at en relevant og
mindre abstrakt formulering2 kan hjelpe på prestasjonen.
2.3
Relasjoner mellom variabler
I forlengelsen av å oppfatte og forme klassifiseringsregler, kommer evnen til å se
sammenheng mellom variable. Hvordan denne eventuelle sammenhengen utarter seg
kan ta flere former, hvor det enkleste forholdet er det postitive linjære. Brehmer
(1974) fant at det er dette forholdet mennesker hypotiserer først at det eksisterer
mellom variable. Dawes & Corrigan (1974) viste at den linjære-modellen er en god
tilnærming i brorparten av beslutninger. Det gjør den også svært robust, og det
kreves således mye for at man skal ville lete etter andre (mer) passende modeller.
2.3.1
Probabilistisk vs. deterministisk
Vi får også problemer når vi stilles ovenfor et underliggende probabilsitisk forhold.
Vi er ikke veldig fortrolige med probäbilisme, og forsøker istedet å tvinge det som
vurderes inn i et deterministisk spor. Tversky & Kahneman (1978) mener dette
fører til at vi bruker deterministiske slutningsregler på datamaterialet, istedet for å
anvende statistiske modeller. Når i tillegg Wason & Jason-Laird (1972) fant at vi har
2
Griggs & Cox (2004) lot alkohollovgivningen gjelde som regel, og byttet ut kortene med ulike
situasjoner (f.eks. ”under/over 18 år” og ”drikker øl/brus”)
5
tilsvarende problemer i logiske settinger, tyder mye på at determiniske er et robust
skjema for å forstå verden. Ikke uten grunn selfølgelig, siden de både er anvenlig i
mange tilfeller og enkelt å forstå. Men dessverre fører det til en god del feil, siden
det ikke er passende i en hver anledning.
Brehmer & Kuylenstierna (1978) har forsøkte å bøte på dette problemet ved å gi
informasjon og hint om det probabilistiske forholdet, men uten resultat. Selv med slik
instruksjon klarte ikke forsøkspersonene å anvende de riktige stategiene de trengte
for å forstå det probabilistiske forholdet mellom variablene.
Fenomenet eksisterer også utenfor labratorier, noe Brehmer (1976) har påvist
blant psykologer. Mye tyder på at vi mangler de kognitive skjema vi trenger for å
fungere optimalt i slike oppgave. Den sene utviklingen av forståelsen av tilfeldighet
kan ha endel av skylden. Når dette utvilkes i det formal oprasjonelle stadiet (rundt
11-12 år) er allerede det deterministiske og kausale skjema godt innlært (Piaget &
Inhelder 1975).
2.3.2
Illusoriske korrelasjoner
Relatert til forrige problem, er problemet med illusoriske korrelasjoner. Vi er som
nevnt glade i system og kasualitet, og ikke så glad i kaos og tilfeldighet. Resultatet
av dette kan bli at vi ser system der det ikke eksisterer. En grunn kan være at vi
har en hypotese om en sammenheng, som ikke blir svekket nok av data, av grunnene
nevnt i kapittel 2.2.
Chapman & Chapman brukte den psykodiagnostiske testen ”draw-a-person”3 som
base for å undersøke fenomenet. Diagnoser og tegninger ble paret sammen uten
noen form for korrellasjon og presentert til collage-studenter uten erfaring med
slike tester. På samme måte som de kliniske psykologene som brukte testen, fant
forsøkspersonene korrellasjoner uten at de eksisterte. Kommentaren under er fra
en psykolog som ble konfrontert med den manglende sammenhengen. Det samme
problemet finner vi óg i Rorschach tester4 , hvor ulike par med respons/tegning ilegges
gale korrelasjoner.
”I know what paranoids don’t seem to draw big eyes in reseach labs, but
they sure do in my office”
— Psykolog i Chapman & Chapman (1971)
3
4
Pasienten tegner en person, som så analyseres og gir grunnlag for diagnose
Tolkning av respons på blekkflekker
6
Også i abstrakte situasjoner forsøker vi å finne system. Hake & Hyman (1953)
presenterte personer for en tilfeldig sekvens av lysrør, som alternerte mellom å være
vertikale og horisontale (med en 50/50 total mix). Oppgaven gikk i å antisipere
hvilken vei det ville lyse ved neste presentasjon. De to alternativene fikk grovt regnet
like mange gjett sett under ett. Det interresante de fant var at folk lot seg influere
av om deres forrige prediksjon hadde vært rett. Etter å ha gjettet riktig horisontal,
gjettet 64% det samme igjen. Hele 72% gjentok valget sitt etter 2 rette på rad. De
konkluderet med:
”If our subjects are typical, this means that people will always perceive
an ambiguous series of events as being more structured that it really is.”
— Hake & Hyman (1953)
Whight (1962) fant mye av det samme i sitt trykkknapp-forsøk. Personene i dette
forsøket lot seg også påvirke av tilfeldig gitt feedback.
2.4
Når utfallet er avhengig av beslutningen
Ofte er det observerbare noe mer enn utenfor vår kontroll, og snarere et direkte
eller indirekte resultat av våre belutninger. F.eks når en lege velger et behandlingsalternativ for sin pasient, kan han følge med på effektene. Om man har tatt et klokt
valg er riktignok vanskelig å bedømme, selv om behandligen er vellykket. Grunnen
til det er at man ikke kan vite hvordan det hadde gått hadde han valgt en annen
strategi. Om en annen hadde vært mer effektiv har man gjort et dårlig valg, men
det får man aldri vite.
2.4.1
Regresjonseffekten
Pasienten fra eksempelet over ble bedre av behandlingen, men kunne godt ha blitt
bedre uten behandling og. Står det ille til kan det hende man blir friskere av seg selv,
og den observerte effekten er således bare en regresjons effekt. Om man ikke er klar
over dette kan man feilaktig tolke sin beslutning som korrekt, og på denne måten
lære seg et handligsmønster som ikke baserer seg på en valid regel. Dette kalles også
en ”regresjon feil”.
Et eksempel med data på effekten kan vi se i figur 1. Regressionseffekten gjør at
et individs ”post-test” måling faller et sted mellom ens resultat på ”pre-testen” og
”pre-testens” gjennomsnitt. De som ligger lavt i den første testen vil skårer jevnt
over høyere i andre testen, og omvendt. Verd å merke seg at både gjennomsnittene
7
Figur 1: Regresjonseffekten
og standard avvikene i de to utvalgene er tilnærmet identiske, og således indikerer
at de to settene er ”like”.
Kahneman & Tversky (1973) peker i sin artikkel på at denne effekten kan ha leie
følger. Den bidrar nemlig til å fremme straff ved dålige prestasjoner som effektivt.
Dette skjer ved at prestasjonene vil bedres over tid som følge av regresjonseffekten.
Tilsvarende vil også de gode presasjonene reduseres mot gjennomsnittet, uavhengig
av om de belønnes eller ikke. Av ren erfaring vil det virke som straff er effektivt,
mens belønning er meningsløst.
2.4.2
Selvoppfyllende profetier
En annen måte å feiltolke resultater er ved ”selvoppfyllende profetier”. Hvis man
som lærer gir ekstra oppmerksomhet til en elev man tror har størst potensial, vil
muligens denne oppmerksomheten alene være nok til å få eleven til å blomstre. Man
vil således få rett ved at eleven gjør det bra, men kan godt være på grunn av økt
oppfølging og ikke på at man har utløst et potensial. Man kan likegodt ha forbigått
en annen med langt større rekkevidde uten å vite det, eller å noen gang få vite det.
8
Einhorn (1974) har et annet eksempel men forskningsstøtte. Her vil også
vurderingene til de som gir støtten virke fornuftig, siden de som får støtte vil
produsere mye forskning. Dette gjør mest sannsynlig fordi de har midler til det, og
ikke fordi de er så mye bedre enn sine motkandidater. Så også her er tilsynelatende
korrekte beslutninger uten særlig validitet.
3
Avslutning
Jeg har i denne oppgaven forsøkt å belyse noen av problemene med å lære fra
erfaring, med utgangspunkt i Brehmer (1980). Jeg har fylt på med et par punkter
som ikke var med i artiklen, samt unnlatt en god del for å begrense. Problemene
kommentert over er ikke ment å dekke alle betenklighetene med å lære av erfaring,
men illustrerer godt hvor mange fallgruver vi må passe oss for. Det er veldig lett å
ta en beslutning på gale premisser. Som Brehmer sier i sin konklusjon:
”...our faith in experience os, if not totally without foundation, so at least
far from well grounded.”
— Brehmer (1980)
9
Referanser
Brehmer, B. (1974), ‘Hypotheses about relations between scaled variables in the
learning of probabilistic inferance tasks’, Organizational behavior and human
performance 11, 1–27.
Brehmer, B. (1976), ‘Note on clinical judgement & the formal characteristics of
clinikcal tasks’, Psychological bulletin 83, 778–782.
Brehmer, B. (1980), ‘In one word: Not from experience’, Acta psychologica 45, 223–
241.
Brehmer, B. & Kuylenstierna, J. (1978), ‘Task information and performance in
probabilistic inference tasks’, Organizational behavior and human performance
22, 445–464.
Chapman, L. & Chapman, J. P. (1971), Associatively based illusory correlates as
a source of psychodiagnostic folklore, in ‘Readings in personality assessment’,
New York: Wiley.
Dawes, R. M. & Corrigan, B. (1974), ‘Linear models in decision making’,
Psychological bulletin 81, 95–106.
Einhorn, H. J. (1974), Learning from experience and subotimal rules in decision
making, in T. Wallsten, ed., ‘Cognitive processes in choice and decision
behavior’, Hillsdale, NJ: Lawrence Erlbaum.
Griggs, R. A. & Cox, J. R. (2004), ‘The elusive thematic-materials effect in Wason’s
selection tasks’, Psychological science 15(8), 534–539.
Hake, H. & Hyman, R. (1953), ‘Perception of the statistical structure of a random
series of binary symbols’, Journal of experimental psychology 45, 64–74.
Kahneman, D. & Tversky, A. (1973), ‘On the psychology of prediction’, Psychological
review 80, 237–251.
Piaget, J. & Inhelder, B. (1975), The origin of the idea of chance in children,
Routledge & Kegan Paul.
Svensen, F. (2005), ‘Bayesiske sluttninger: Hvor dårlige er vi egentlig og hvordan
kan prestasjonene forbedres’.
10
Tversky, A. & Kahneman, D. (1978), Causual schemata in judgements under
uncertainty, in M. Fishbein, ed., ‘Progress in social psychology’, Hillsdale, NJ:
Lawrence Erlbaum.
Wason, P. C. (1960), ‘On the failure to eliminate hypotheses in a conceptual task’,
Quarterly journal of experimental psychology 12, 129–140.
Wason, P. C. (1968), On the failure to eliminate hypotheses in a conceptual task - a
second look, in ‘Thinking & reasoning’, New York: Cambridge university press,
pp. 165–174.
Wason, P. C. & Jason-Laird, P. N. (1972), Psychology of reasoning: Structure &
content, Cambridge, MA: Harvard university press.
Whight, J. (1962), ‘Consistency and complexity of response sequences as a function
of schedules of noncontingent reward’, Journal of experimental psychology
63, 601–609.
11
Download