˚ A lære fra erfaring: Et validitetsproblem Semesteroppgave i HUMIT4700

Å lære fra erfaring: Et validitetsproblem Semesteroppgave i HUMIT4700 Høsten 2006 Kandidat nr: 19. april 2007 1 Innhold 1 2 3 Innledning 3 Ikke fra erfaring 2.1 Induksjon . . . . . . . . . . . . . . . . . 2.2 Hypotesetesting . . . . . . . . . . . . . . 2.2.1 Wasons forsøk . . . . . . . . . . . 2.3 Relasjoner mellom variabler . . . . . . . 2.3.1 Probabilistisk vs. deterministisk . 2.3.2 Illusoriske korrelasjoner . . . . . 2.4 Når utfallet er avhengig av beslutningen 2.4.1 Regresjonseffekten . . . . . . . . 2.4.2 Selvoppfyllende profetier . . . . . Avslutning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 4 5 5 5 6 7 7 8 9 2 1 Innledning Jeg har i hele min akademiske ”karriære” vært svært interresert i all de ulike små og store ”feilene” vi friske mennesker gjør hver eneste dag. Mye skyldes at optimalisering har måttet gi vei for effektivisering, som vi nå vet mye om fra bl.a. ”heuristics and biases”-tradisjonen. I fjor skrev jeg om menneskers problemer med Bayseiske slutninger, og hvordan prestasjoenen kan forbedres. Her fokuserte jeg på hvordan disse problemene kan føre til tolkninger, som igjen kan få dramatiske konsekvenser. F.eks når pasienter får diagnoser og avbefalt en aggresiv behandling av sin lege basert på en feilaktig slutning1 (Svensen 2005). Dette har for min del ført til at jeg har forsøkt å fokusere på viktige elementer innenfor medisinsk beslutningstaking. Derfor lot jeg meg også fasinere da jeg fant artikkelen til Brehmer (1980) i pensumskompendiumet. Her snakkes det forsovidt om læring generellt, men mange av eksemplene er hentet fra kliniske settinger. Oppgaven videre vil gi en gjennomgang av sentrale elementer nevnt i Brehmers ”In one word: Not from experience”. 2 Ikke fra erfaring Det er ikke noe problem å finne eksempler på at man kan lære av sin erfaring. Om vi ikke hadde lært av å erfare hadde vi ikke kommet langt. ”Men”et her er at det er knyttet en rekke problemer til dette å lære av erfaring. Brehmer poengterer at man lett kan lære igjennom erfaring hvis man bare vet hva man skal lære, og ikke minst om det er noe å lære i det hele tatt. I en skolesituasjon kan man med rimelig sikkerhet anta at det er noe å lære, samt at det gjerne blir fortalt hva som skal læres. I eksperimenter med parvis assosiasjon lærer man en liste med ord-par, for å så kunne predikere den andre i paret ved presentasjon av den første. Slike oppgaver klarer vi mennesker overraskende bra. Men ute i den virkelige verden er det skjelden slik. Vi må gjerne bli fortalt eller finne ut selv når det er noe å lære, og hva vi kan lære kommer vi ofte opp med selv. Problemet da er at man verken kan vite om det faktisk er noe å lære, eller om vi tar riktig og valid lærdom fra det. Hvorfor skal vi se nærmere på videre. 1 Hvis en kvinne blir diagnosert med tidlig brystkreft, vil man gjerne foreta en forhastet propylaktisk masektomi 3 2.1 Induksjon Vi mennesker lærer gjennom induksjon, og det er slik vår kunnskap vokser. Vi generaliserer fra det vi har sett og opplevd til regler, konsepter og teorier, som vi igjen bruker for å predikere adferd og andre hendelser i fremtiden. Vi gjør dette til tross for at induksjon, i motsetning til deduksjon, ikke er en logisk gyldig sluttningsform. En induktiv sluttning ansees korrekt, helt til den en gang predikerer feil (det oppdages motstridende data). Den er altså ikke sann som følge av et sett sanne premisser, hvilket er tilfelle med deduksjon. Problemet er altså at man aldri kan dra sikker kunnskap ut fra en induktiv slutning. Men på den andre siden, kan vi heller ikke lære stort nytt igjennom deduksjon. ”Data without generalisation is just gossip” — R. Parsig Følgelig har vi et problem med at vår kunnskap ikke nødvendigvis er verken sann eller valid. Vi kan utlede teorier om omverdenen som kan fungere fint, og som for alt vi vet kan være sanne. Men, man har ingen mulighet til å finne ut hvorvidt, og i hvilken grad de er valide. Om vi ser en flokk flamingoer, kan det hende vi drar konklusjonen at rasen kun består av rosa individer. Denne teorien kan bare valideres igjennom å observere samtlige individer, noe som er bortimot umulig. Det er ihvertfall ikke noe man pleier å gjøre til vanlig. Mye av problemet er vel snarere det motsatte; at man ikke aktivt søker å teste sine teorier igjennom hypoteser. 2.2 Hypotesetesting I hypotesetesting formulerer man et testbart utsagn av teorien, som man så tester opp mot innsamlet data. Støtter dataenen hypotesen er det styrket (men ikke bekrefter), og går dataene imot hypotesen er den avkreftet. Som man ser kommer man egentlig ingen vei ved å styrke hypoteser, mens avkreftingen er interessent, og gir ”fremskritt”. Dessverre har vi en lei tendens til å gjøre det stikk motsatte. Fenomenet har blitt kalt ”confirmation bias”, og gir seg utslag på flere måter i vår vurderingen av hypoteser og tilhørende data. For det første søker vi bekreftende evidens for å støtte hypotesen vår. På denne måten er det stor sjanse for å bare finne data som er i trå med hypotesen. Når det først blir avdekket avkreftende data blir de som oftest ikke brukt, ved at de enten glemmes, ses bortifra eller ilegges liten vekt, og således ikke 4 får noen innvirkning på teorien. En slik besyttelse kalles også ”oppfattnings opprettholdelse” (belief perseverance), og kan føre til at vi kan lage og beholde regler som liten eller ingen validitet. Bekrevtende evidens, forteller som sagt, ingenting nytt og gjør heller ikke hypotesen mer valid. En avkreftelse av en konkurrende hypotese kunne ha hjulpet litt på, men vi er fremdeles langt i fra å bekrefte hypotesen. 2.2.1 Wasons forsøk Wason har designet flere forsøk som enkelt viser ”confirmation bias” i aksjon. I tallsekvens-eksperimentet skulle forsøkspersonene finne ut en regel ved å foreslå 3-tallssekvenser. Eksperiment-leder ga fortløpende feedback på om de foreslåtte sekvensene var i tråd med regelsen, helt til forsøkspersonen mente han kunne reglen. De aller fleste hadde store problemer med å komme frem til den enkle reglen tallene skulle følge (stigende rekkefølge) (Wason 1960). Grunnen til dette er stort sett at man former en (mer komplisert) hypotese, som man så tester mot sekvenser som følger den hypotiserte reglen, og ikke tester den mot sekvenser som vil velte hypotesen. Det samme mønsteret finner vi i samme manns ”fire korts problem” (Wason 1968). Forsøkspersonene snur her de bekreftende og uvesentlige kortene oftere enn de som kan avbekrefte hypotesen. Senere har Griggs & Cox (2004) funnet at en relevant og mindre abstrakt formulering2 kan hjelpe på prestasjonen. 2.3 Relasjoner mellom variabler I forlengelsen av å oppfatte og forme klassifiseringsregler, kommer evnen til å se sammenheng mellom variable. Hvordan denne eventuelle sammenhengen utarter seg kan ta flere former, hvor det enkleste forholdet er det postitive linjære. Brehmer (1974) fant at det er dette forholdet mennesker hypotiserer først at det eksisterer mellom variable. Dawes & Corrigan (1974) viste at den linjære-modellen er en god tilnærming i brorparten av beslutninger. Det gjør den også svært robust, og det kreves således mye for at man skal ville lete etter andre (mer) passende modeller. 2.3.1 Probabilistisk vs. deterministisk Vi får også problemer når vi stilles ovenfor et underliggende probabilsitisk forhold. Vi er ikke veldig fortrolige med probäbilisme, og forsøker istedet å tvinge det som vurderes inn i et deterministisk spor. Tversky & Kahneman (1978) mener dette fører til at vi bruker deterministiske slutningsregler på datamaterialet, istedet for å anvende statistiske modeller. Når i tillegg Wason & Jason-Laird (1972) fant at vi har 2 Griggs & Cox (2004) lot alkohollovgivningen gjelde som regel, og byttet ut kortene med ulike situasjoner (f.eks. ”under/over 18 år” og ”drikker øl/brus”) 5 tilsvarende problemer i logiske settinger, tyder mye på at determiniske er et robust skjema for å forstå verden. Ikke uten grunn selfølgelig, siden de både er anvenlig i mange tilfeller og enkelt å forstå. Men dessverre fører det til en god del feil, siden det ikke er passende i en hver anledning. Brehmer & Kuylenstierna (1978) har forsøkte å bøte på dette problemet ved å gi informasjon og hint om det probabilistiske forholdet, men uten resultat. Selv med slik instruksjon klarte ikke forsøkspersonene å anvende de riktige stategiene de trengte for å forstå det probabilistiske forholdet mellom variablene. Fenomenet eksisterer også utenfor labratorier, noe Brehmer (1976) har påvist blant psykologer. Mye tyder på at vi mangler de kognitive skjema vi trenger for å fungere optimalt i slike oppgave. Den sene utviklingen av forståelsen av tilfeldighet kan ha endel av skylden. Når dette utvilkes i det formal oprasjonelle stadiet (rundt 11-12 år) er allerede det deterministiske og kausale skjema godt innlært (Piaget & Inhelder 1975). 2.3.2 Illusoriske korrelasjoner Relatert til forrige problem, er problemet med illusoriske korrelasjoner. Vi er som nevnt glade i system og kasualitet, og ikke så glad i kaos og tilfeldighet. Resultatet av dette kan bli at vi ser system der det ikke eksisterer. En grunn kan være at vi har en hypotese om en sammenheng, som ikke blir svekket nok av data, av grunnene nevnt i kapittel 2.2. Chapman & Chapman brukte den psykodiagnostiske testen ”draw-a-person”3 som base for å undersøke fenomenet. Diagnoser og tegninger ble paret sammen uten noen form for korrellasjon og presentert til collage-studenter uten erfaring med slike tester. På samme måte som de kliniske psykologene som brukte testen, fant forsøkspersonene korrellasjoner uten at de eksisterte. Kommentaren under er fra en psykolog som ble konfrontert med den manglende sammenhengen. Det samme problemet finner vi óg i Rorschach tester4 , hvor ulike par med respons/tegning ilegges gale korrelasjoner. ”I know what paranoids don’t seem to draw big eyes in reseach labs, but they sure do in my office” — Psykolog i Chapman & Chapman (1971) 3 4 Pasienten tegner en person, som så analyseres og gir grunnlag for diagnose Tolkning av respons på blekkflekker 6 Også i abstrakte situasjoner forsøker vi å finne system. Hake & Hyman (1953) presenterte personer for en tilfeldig sekvens av lysrør, som alternerte mellom å være vertikale og horisontale (med en 50/50 total mix). Oppgaven gikk i å antisipere hvilken vei det ville lyse ved neste presentasjon. De to alternativene fikk grovt regnet like mange gjett sett under ett. Det interresante de fant var at folk lot seg influere av om deres forrige prediksjon hadde vært rett. Etter å ha gjettet riktig horisontal, gjettet 64% det samme igjen. Hele 72% gjentok valget sitt etter 2 rette på rad. De konkluderet med: ”If our subjects are typical, this means that people will always perceive an ambiguous series of events as being more structured that it really is.” — Hake & Hyman (1953) Whight (1962) fant mye av det samme i sitt trykkknapp-forsøk. Personene i dette forsøket lot seg også påvirke av tilfeldig gitt feedback. 2.4 Når utfallet er avhengig av beslutningen Ofte er det observerbare noe mer enn utenfor vår kontroll, og snarere et direkte eller indirekte resultat av våre belutninger. F.eks når en lege velger et behandlingsalternativ for sin pasient, kan han følge med på effektene. Om man har tatt et klokt valg er riktignok vanskelig å bedømme, selv om behandligen er vellykket. Grunnen til det er at man ikke kan vite hvordan det hadde gått hadde han valgt en annen strategi. Om en annen hadde vært mer effektiv har man gjort et dårlig valg, men det får man aldri vite. 2.4.1 Regresjonseffekten Pasienten fra eksempelet over ble bedre av behandlingen, men kunne godt ha blitt bedre uten behandling og. Står det ille til kan det hende man blir friskere av seg selv, og den observerte effekten er således bare en regresjons effekt. Om man ikke er klar over dette kan man feilaktig tolke sin beslutning som korrekt, og på denne måten lære seg et handligsmønster som ikke baserer seg på en valid regel. Dette kalles også en ”regresjon feil”. Et eksempel med data på effekten kan vi se i figur 1. Regressionseffekten gjør at et individs ”post-test” måling faller et sted mellom ens resultat på ”pre-testen” og ”pre-testens” gjennomsnitt. De som ligger lavt i den første testen vil skårer jevnt over høyere i andre testen, og omvendt. Verd å merke seg at både gjennomsnittene 7 Figur 1: Regresjonseffekten og standard avvikene i de to utvalgene er tilnærmet identiske, og således indikerer at de to settene er ”like”. Kahneman & Tversky (1973) peker i sin artikkel på at denne effekten kan ha leie følger. Den bidrar nemlig til å fremme straff ved dålige prestasjoner som effektivt. Dette skjer ved at prestasjonene vil bedres over tid som følge av regresjonseffekten. Tilsvarende vil også de gode presasjonene reduseres mot gjennomsnittet, uavhengig av om de belønnes eller ikke. Av ren erfaring vil det virke som straff er effektivt, mens belønning er meningsløst. 2.4.2 Selvoppfyllende profetier En annen måte å feiltolke resultater er ved ”selvoppfyllende profetier”. Hvis man som lærer gir ekstra oppmerksomhet til en elev man tror har størst potensial, vil muligens denne oppmerksomheten alene være nok til å få eleven til å blomstre. Man vil således få rett ved at eleven gjør det bra, men kan godt være på grunn av økt oppfølging og ikke på at man har utløst et potensial. Man kan likegodt ha forbigått en annen med langt større rekkevidde uten å vite det, eller å noen gang få vite det. 8 Einhorn (1974) har et annet eksempel men forskningsstøtte. Her vil også vurderingene til de som gir støtten virke fornuftig, siden de som får støtte vil produsere mye forskning. Dette gjør mest sannsynlig fordi de har midler til det, og ikke fordi de er så mye bedre enn sine motkandidater. Så også her er tilsynelatende korrekte beslutninger uten særlig validitet. 3 Avslutning Jeg har i denne oppgaven forsøkt å belyse noen av problemene med å lære fra erfaring, med utgangspunkt i Brehmer (1980). Jeg har fylt på med et par punkter som ikke var med i artiklen, samt unnlatt en god del for å begrense. Problemene kommentert over er ikke ment å dekke alle betenklighetene med å lære av erfaring, men illustrerer godt hvor mange fallgruver vi må passe oss for. Det er veldig lett å ta en beslutning på gale premisser. Som Brehmer sier i sin konklusjon: ”...our faith in experience os, if not totally without foundation, so at least far from well grounded.” — Brehmer (1980) 9 Referanser Brehmer, B. (1974), ‘Hypotheses about relations between scaled variables in the learning of probabilistic inferance tasks’, Organizational behavior and human performance 11, 1–27. Brehmer, B. (1976), ‘Note on clinical judgement & the formal characteristics of clinikcal tasks’, Psychological bulletin 83, 778–782. Brehmer, B. (1980), ‘In one word: Not from experience’, Acta psychologica 45, 223– 241. Brehmer, B. & Kuylenstierna, J. (1978), ‘Task information and performance in probabilistic inference tasks’, Organizational behavior and human performance 22, 445–464. Chapman, L. & Chapman, J. P. (1971), Associatively based illusory correlates as a source of psychodiagnostic folklore, in ‘Readings in personality assessment’, New York: Wiley. Dawes, R. M. & Corrigan, B. (1974), ‘Linear models in decision making’, Psychological bulletin 81, 95–106. Einhorn, H. J. (1974), Learning from experience and subotimal rules in decision making, in T. Wallsten, ed., ‘Cognitive processes in choice and decision behavior’, Hillsdale, NJ: Lawrence Erlbaum. Griggs, R. A. & Cox, J. R. (2004), ‘The elusive thematic-materials effect in Wason’s selection tasks’, Psychological science 15(8), 534–539. Hake, H. & Hyman, R. (1953), ‘Perception of the statistical structure of a random series of binary symbols’, Journal of experimental psychology 45, 64–74. Kahneman, D. & Tversky, A. (1973), ‘On the psychology of prediction’, Psychological review 80, 237–251. Piaget, J. & Inhelder, B. (1975), The origin of the idea of chance in children, Routledge & Kegan Paul. Svensen, F. (2005), ‘Bayesiske sluttninger: Hvor dårlige er vi egentlig og hvordan kan prestasjonene forbedres’. 10 Tversky, A. & Kahneman, D. (1978), Causual schemata in judgements under uncertainty, in M. Fishbein, ed., ‘Progress in social psychology’, Hillsdale, NJ: Lawrence Erlbaum. Wason, P. C. (1960), ‘On the failure to eliminate hypotheses in a conceptual task’, Quarterly journal of experimental psychology 12, 129–140. Wason, P. C. (1968), On the failure to eliminate hypotheses in a conceptual task - a second look, in ‘Thinking & reasoning’, New York: Cambridge university press, pp. 165–174. Wason, P. C. & Jason-Laird, P. N. (1972), Psychology of reasoning: Structure & content, Cambridge, MA: Harvard university press. Whight, J. (1962), ‘Consistency and complexity of response sequences as a function of schedules of noncontingent reward’, Journal of experimental psychology 63, 601–609. 11

˚ A lære fra erfaring: Et validitetsproblem Semesteroppgave i HUMIT4700

Related documents

Products

Support

˚ A lære fra erfaring: Et validitetsproblem Semesteroppgave i HUMIT4700

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib