Å lære fra erfaring: Et validitetsproblem Semesteroppgave i HUMIT4700 Høsten 2006 Kandidat nr: 19. april 2007 1 Innhold 1 2 3 Innledning 3 Ikke fra erfaring 2.1 Induksjon . . . . . . . . . . . . . . . . . 2.2 Hypotesetesting . . . . . . . . . . . . . . 2.2.1 Wasons forsøk . . . . . . . . . . . 2.3 Relasjoner mellom variabler . . . . . . . 2.3.1 Probabilistisk vs. deterministisk . 2.3.2 Illusoriske korrelasjoner . . . . . 2.4 Når utfallet er avhengig av beslutningen 2.4.1 Regresjonseffekten . . . . . . . . 2.4.2 Selvoppfyllende profetier . . . . . Avslutning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 4 5 5 5 6 7 7 8 9 2 1 Innledning Jeg har i hele min akademiske ”karriære” vært svært interresert i all de ulike små og store ”feilene” vi friske mennesker gjør hver eneste dag. Mye skyldes at optimalisering har måttet gi vei for effektivisering, som vi nå vet mye om fra bl.a. ”heuristics and biases”-tradisjonen. I fjor skrev jeg om menneskers problemer med Bayseiske slutninger, og hvordan prestasjoenen kan forbedres. Her fokuserte jeg på hvordan disse problemene kan føre til tolkninger, som igjen kan få dramatiske konsekvenser. F.eks når pasienter får diagnoser og avbefalt en aggresiv behandling av sin lege basert på en feilaktig slutning1 (Svensen 2005). Dette har for min del ført til at jeg har forsøkt å fokusere på viktige elementer innenfor medisinsk beslutningstaking. Derfor lot jeg meg også fasinere da jeg fant artikkelen til Brehmer (1980) i pensumskompendiumet. Her snakkes det forsovidt om læring generellt, men mange av eksemplene er hentet fra kliniske settinger. Oppgaven videre vil gi en gjennomgang av sentrale elementer nevnt i Brehmers ”In one word: Not from experience”. 2 Ikke fra erfaring Det er ikke noe problem å finne eksempler på at man kan lære av sin erfaring. Om vi ikke hadde lært av å erfare hadde vi ikke kommet langt. ”Men”et her er at det er knyttet en rekke problemer til dette å lære av erfaring. Brehmer poengterer at man lett kan lære igjennom erfaring hvis man bare vet hva man skal lære, og ikke minst om det er noe å lære i det hele tatt. I en skolesituasjon kan man med rimelig sikkerhet anta at det er noe å lære, samt at det gjerne blir fortalt hva som skal læres. I eksperimenter med parvis assosiasjon lærer man en liste med ord-par, for å så kunne predikere den andre i paret ved presentasjon av den første. Slike oppgaver klarer vi mennesker overraskende bra. Men ute i den virkelige verden er det skjelden slik. Vi må gjerne bli fortalt eller finne ut selv når det er noe å lære, og hva vi kan lære kommer vi ofte opp med selv. Problemet da er at man verken kan vite om det faktisk er noe å lære, eller om vi tar riktig og valid lærdom fra det. Hvorfor skal vi se nærmere på videre. 1 Hvis en kvinne blir diagnosert med tidlig brystkreft, vil man gjerne foreta en forhastet propylaktisk masektomi 3 2.1 Induksjon Vi mennesker lærer gjennom induksjon, og det er slik vår kunnskap vokser. Vi generaliserer fra det vi har sett og opplevd til regler, konsepter og teorier, som vi igjen bruker for å predikere adferd og andre hendelser i fremtiden. Vi gjør dette til tross for at induksjon, i motsetning til deduksjon, ikke er en logisk gyldig sluttningsform. En induktiv sluttning ansees korrekt, helt til den en gang predikerer feil (det oppdages motstridende data). Den er altså ikke sann som følge av et sett sanne premisser, hvilket er tilfelle med deduksjon. Problemet er altså at man aldri kan dra sikker kunnskap ut fra en induktiv slutning. Men på den andre siden, kan vi heller ikke lære stort nytt igjennom deduksjon. ”Data without generalisation is just gossip” — R. Parsig Følgelig har vi et problem med at vår kunnskap ikke nødvendigvis er verken sann eller valid. Vi kan utlede teorier om omverdenen som kan fungere fint, og som for alt vi vet kan være sanne. Men, man har ingen mulighet til å finne ut hvorvidt, og i hvilken grad de er valide. Om vi ser en flokk flamingoer, kan det hende vi drar konklusjonen at rasen kun består av rosa individer. Denne teorien kan bare valideres igjennom å observere samtlige individer, noe som er bortimot umulig. Det er ihvertfall ikke noe man pleier å gjøre til vanlig. Mye av problemet er vel snarere det motsatte; at man ikke aktivt søker å teste sine teorier igjennom hypoteser. 2.2 Hypotesetesting I hypotesetesting formulerer man et testbart utsagn av teorien, som man så tester opp mot innsamlet data. Støtter dataenen hypotesen er det styrket (men ikke bekrefter), og går dataene imot hypotesen er den avkreftet. Som man ser kommer man egentlig ingen vei ved å styrke hypoteser, mens avkreftingen er interessent, og gir ”fremskritt”. Dessverre har vi en lei tendens til å gjøre det stikk motsatte. Fenomenet har blitt kalt ”confirmation bias”, og gir seg utslag på flere måter i vår vurderingen av hypoteser og tilhørende data. For det første søker vi bekreftende evidens for å støtte hypotesen vår. På denne måten er det stor sjanse for å bare finne data som er i trå med hypotesen. Når det først blir avdekket avkreftende data blir de som oftest ikke brukt, ved at de enten glemmes, ses bortifra eller ilegges liten vekt, og således ikke 4 får noen innvirkning på teorien. En slik besyttelse kalles også ”oppfattnings opprettholdelse” (belief perseverance), og kan føre til at vi kan lage og beholde regler som liten eller ingen validitet. Bekrevtende evidens, forteller som sagt, ingenting nytt og gjør heller ikke hypotesen mer valid. En avkreftelse av en konkurrende hypotese kunne ha hjulpet litt på, men vi er fremdeles langt i fra å bekrefte hypotesen. 2.2.1 Wasons forsøk Wason har designet flere forsøk som enkelt viser ”confirmation bias” i aksjon. I tallsekvens-eksperimentet skulle forsøkspersonene finne ut en regel ved å foreslå 3-tallssekvenser. Eksperiment-leder ga fortløpende feedback på om de foreslåtte sekvensene var i tråd med regelsen, helt til forsøkspersonen mente han kunne reglen. De aller fleste hadde store problemer med å komme frem til den enkle reglen tallene skulle følge (stigende rekkefølge) (Wason 1960). Grunnen til dette er stort sett at man former en (mer komplisert) hypotese, som man så tester mot sekvenser som følger den hypotiserte reglen, og ikke tester den mot sekvenser som vil velte hypotesen. Det samme mønsteret finner vi i samme manns ”fire korts problem” (Wason 1968). Forsøkspersonene snur her de bekreftende og uvesentlige kortene oftere enn de som kan avbekrefte hypotesen. Senere har Griggs & Cox (2004) funnet at en relevant og mindre abstrakt formulering2 kan hjelpe på prestasjonen. 2.3 Relasjoner mellom variabler I forlengelsen av å oppfatte og forme klassifiseringsregler, kommer evnen til å se sammenheng mellom variable. Hvordan denne eventuelle sammenhengen utarter seg kan ta flere former, hvor det enkleste forholdet er det postitive linjære. Brehmer (1974) fant at det er dette forholdet mennesker hypotiserer først at det eksisterer mellom variable. Dawes & Corrigan (1974) viste at den linjære-modellen er en god tilnærming i brorparten av beslutninger. Det gjør den også svært robust, og det kreves således mye for at man skal ville lete etter andre (mer) passende modeller. 2.3.1 Probabilistisk vs. deterministisk Vi får også problemer når vi stilles ovenfor et underliggende probabilsitisk forhold. Vi er ikke veldig fortrolige med probäbilisme, og forsøker istedet å tvinge det som vurderes inn i et deterministisk spor. Tversky & Kahneman (1978) mener dette fører til at vi bruker deterministiske slutningsregler på datamaterialet, istedet for å anvende statistiske modeller. Når i tillegg Wason & Jason-Laird (1972) fant at vi har 2 Griggs & Cox (2004) lot alkohollovgivningen gjelde som regel, og byttet ut kortene med ulike situasjoner (f.eks. ”under/over 18 år” og ”drikker øl/brus”) 5 tilsvarende problemer i logiske settinger, tyder mye på at determiniske er et robust skjema for å forstå verden. Ikke uten grunn selfølgelig, siden de både er anvenlig i mange tilfeller og enkelt å forstå. Men dessverre fører det til en god del feil, siden det ikke er passende i en hver anledning. Brehmer & Kuylenstierna (1978) har forsøkte å bøte på dette problemet ved å gi informasjon og hint om det probabilistiske forholdet, men uten resultat. Selv med slik instruksjon klarte ikke forsøkspersonene å anvende de riktige stategiene de trengte for å forstå det probabilistiske forholdet mellom variablene. Fenomenet eksisterer også utenfor labratorier, noe Brehmer (1976) har påvist blant psykologer. Mye tyder på at vi mangler de kognitive skjema vi trenger for å fungere optimalt i slike oppgave. Den sene utviklingen av forståelsen av tilfeldighet kan ha endel av skylden. Når dette utvilkes i det formal oprasjonelle stadiet (rundt 11-12 år) er allerede det deterministiske og kausale skjema godt innlært (Piaget & Inhelder 1975). 2.3.2 Illusoriske korrelasjoner Relatert til forrige problem, er problemet med illusoriske korrelasjoner. Vi er som nevnt glade i system og kasualitet, og ikke så glad i kaos og tilfeldighet. Resultatet av dette kan bli at vi ser system der det ikke eksisterer. En grunn kan være at vi har en hypotese om en sammenheng, som ikke blir svekket nok av data, av grunnene nevnt i kapittel 2.2. Chapman & Chapman brukte den psykodiagnostiske testen ”draw-a-person”3 som base for å undersøke fenomenet. Diagnoser og tegninger ble paret sammen uten noen form for korrellasjon og presentert til collage-studenter uten erfaring med slike tester. På samme måte som de kliniske psykologene som brukte testen, fant forsøkspersonene korrellasjoner uten at de eksisterte. Kommentaren under er fra en psykolog som ble konfrontert med den manglende sammenhengen. Det samme problemet finner vi óg i Rorschach tester4 , hvor ulike par med respons/tegning ilegges gale korrelasjoner. ”I know what paranoids don’t seem to draw big eyes in reseach labs, but they sure do in my office” — Psykolog i Chapman & Chapman (1971) 3 4 Pasienten tegner en person, som så analyseres og gir grunnlag for diagnose Tolkning av respons på blekkflekker 6 Også i abstrakte situasjoner forsøker vi å finne system. Hake & Hyman (1953) presenterte personer for en tilfeldig sekvens av lysrør, som alternerte mellom å være vertikale og horisontale (med en 50/50 total mix). Oppgaven gikk i å antisipere hvilken vei det ville lyse ved neste presentasjon. De to alternativene fikk grovt regnet like mange gjett sett under ett. Det interresante de fant var at folk lot seg influere av om deres forrige prediksjon hadde vært rett. Etter å ha gjettet riktig horisontal, gjettet 64% det samme igjen. Hele 72% gjentok valget sitt etter 2 rette på rad. De konkluderet med: ”If our subjects are typical, this means that people will always perceive an ambiguous series of events as being more structured that it really is.” — Hake & Hyman (1953) Whight (1962) fant mye av det samme i sitt trykkknapp-forsøk. Personene i dette forsøket lot seg også påvirke av tilfeldig gitt feedback. 2.4 Når utfallet er avhengig av beslutningen Ofte er det observerbare noe mer enn utenfor vår kontroll, og snarere et direkte eller indirekte resultat av våre belutninger. F.eks når en lege velger et behandlingsalternativ for sin pasient, kan han følge med på effektene. Om man har tatt et klokt valg er riktignok vanskelig å bedømme, selv om behandligen er vellykket. Grunnen til det er at man ikke kan vite hvordan det hadde gått hadde han valgt en annen strategi. Om en annen hadde vært mer effektiv har man gjort et dårlig valg, men det får man aldri vite. 2.4.1 Regresjonseffekten Pasienten fra eksempelet over ble bedre av behandlingen, men kunne godt ha blitt bedre uten behandling og. Står det ille til kan det hende man blir friskere av seg selv, og den observerte effekten er således bare en regresjons effekt. Om man ikke er klar over dette kan man feilaktig tolke sin beslutning som korrekt, og på denne måten lære seg et handligsmønster som ikke baserer seg på en valid regel. Dette kalles også en ”regresjon feil”. Et eksempel med data på effekten kan vi se i figur 1. Regressionseffekten gjør at et individs ”post-test” måling faller et sted mellom ens resultat på ”pre-testen” og ”pre-testens” gjennomsnitt. De som ligger lavt i den første testen vil skårer jevnt over høyere i andre testen, og omvendt. Verd å merke seg at både gjennomsnittene 7 Figur 1: Regresjonseffekten og standard avvikene i de to utvalgene er tilnærmet identiske, og således indikerer at de to settene er ”like”. Kahneman & Tversky (1973) peker i sin artikkel på at denne effekten kan ha leie følger. Den bidrar nemlig til å fremme straff ved dålige prestasjoner som effektivt. Dette skjer ved at prestasjonene vil bedres over tid som følge av regresjonseffekten. Tilsvarende vil også de gode presasjonene reduseres mot gjennomsnittet, uavhengig av om de belønnes eller ikke. Av ren erfaring vil det virke som straff er effektivt, mens belønning er meningsløst. 2.4.2 Selvoppfyllende profetier En annen måte å feiltolke resultater er ved ”selvoppfyllende profetier”. Hvis man som lærer gir ekstra oppmerksomhet til en elev man tror har størst potensial, vil muligens denne oppmerksomheten alene være nok til å få eleven til å blomstre. Man vil således få rett ved at eleven gjør det bra, men kan godt være på grunn av økt oppfølging og ikke på at man har utløst et potensial. Man kan likegodt ha forbigått en annen med langt større rekkevidde uten å vite det, eller å noen gang få vite det. 8 Einhorn (1974) har et annet eksempel men forskningsstøtte. Her vil også vurderingene til de som gir støtten virke fornuftig, siden de som får støtte vil produsere mye forskning. Dette gjør mest sannsynlig fordi de har midler til det, og ikke fordi de er så mye bedre enn sine motkandidater. Så også her er tilsynelatende korrekte beslutninger uten særlig validitet. 3 Avslutning Jeg har i denne oppgaven forsøkt å belyse noen av problemene med å lære fra erfaring, med utgangspunkt i Brehmer (1980). Jeg har fylt på med et par punkter som ikke var med i artiklen, samt unnlatt en god del for å begrense. Problemene kommentert over er ikke ment å dekke alle betenklighetene med å lære av erfaring, men illustrerer godt hvor mange fallgruver vi må passe oss for. Det er veldig lett å ta en beslutning på gale premisser. Som Brehmer sier i sin konklusjon: ”...our faith in experience os, if not totally without foundation, so at least far from well grounded.” — Brehmer (1980) 9 Referanser Brehmer, B. (1974), ‘Hypotheses about relations between scaled variables in the learning of probabilistic inferance tasks’, Organizational behavior and human performance 11, 1–27. Brehmer, B. (1976), ‘Note on clinical judgement & the formal characteristics of clinikcal tasks’, Psychological bulletin 83, 778–782. Brehmer, B. (1980), ‘In one word: Not from experience’, Acta psychologica 45, 223– 241. Brehmer, B. & Kuylenstierna, J. (1978), ‘Task information and performance in probabilistic inference tasks’, Organizational behavior and human performance 22, 445–464. Chapman, L. & Chapman, J. P. (1971), Associatively based illusory correlates as a source of psychodiagnostic folklore, in ‘Readings in personality assessment’, New York: Wiley. Dawes, R. M. & Corrigan, B. (1974), ‘Linear models in decision making’, Psychological bulletin 81, 95–106. Einhorn, H. J. (1974), Learning from experience and subotimal rules in decision making, in T. Wallsten, ed., ‘Cognitive processes in choice and decision behavior’, Hillsdale, NJ: Lawrence Erlbaum. Griggs, R. A. & Cox, J. R. (2004), ‘The elusive thematic-materials effect in Wason’s selection tasks’, Psychological science 15(8), 534–539. Hake, H. & Hyman, R. (1953), ‘Perception of the statistical structure of a random series of binary symbols’, Journal of experimental psychology 45, 64–74. Kahneman, D. & Tversky, A. (1973), ‘On the psychology of prediction’, Psychological review 80, 237–251. Piaget, J. & Inhelder, B. (1975), The origin of the idea of chance in children, Routledge & Kegan Paul. Svensen, F. (2005), ‘Bayesiske sluttninger: Hvor dårlige er vi egentlig og hvordan kan prestasjonene forbedres’. 10 Tversky, A. & Kahneman, D. (1978), Causual schemata in judgements under uncertainty, in M. Fishbein, ed., ‘Progress in social psychology’, Hillsdale, NJ: Lawrence Erlbaum. Wason, P. C. (1960), ‘On the failure to eliminate hypotheses in a conceptual task’, Quarterly journal of experimental psychology 12, 129–140. Wason, P. C. (1968), On the failure to eliminate hypotheses in a conceptual task - a second look, in ‘Thinking & reasoning’, New York: Cambridge university press, pp. 165–174. Wason, P. C. & Jason-Laird, P. N. (1972), Psychology of reasoning: Structure & content, Cambridge, MA: Harvard university press. Whight, J. (1962), ‘Consistency and complexity of response sequences as a function of schedules of noncontingent reward’, Journal of experimental psychology 63, 601–609. 11