Måling av utility: Problemer med en løsning? Semesteroppgave i HUMIT4740 Høsten 2006 Kandidatnr: 105 7. desember 2006 1 Innhold 1 2 3 Innledning 1.1 Utility bakgrunn 1.2 Måling av utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metoder 2.1 Standard gamble (SG) . . . . . . . . . . . 2.2 Time tradeoff (TTO) . . . . . . . . . . . . 2.3 Person-tradeoff (PTO) . . . . . . . . . . . 2.4 Visual analog scale/rating scale (VAS/RS) 2.5 Willingness-to-pay/accept (WTP/WTA) . 3 3 3 . . . . . 4 4 5 5 5 5 Problemer 3.1 Mellom metodene . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Innad metodene . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Konstruksjon av preferanser: Et ekspempel 10 5 Avslutning 11 2 1 Innledning Jeg har valgt å skrive om utility siden det har krysset min vei mot mastergraden, og jeg tenkte det kunne vært greit å kunne en del om det fremover. Den utløsende motivasjonen kom fra Johnson, Seffel & Goldstein (2005), som jeg har jobbet med det siste året. Jeg fikk i fjor skrevet om det meste andre i denne artikkelen, men ikke så mye om måling av utility (Svensen 2006). Jeg skal begynne litt med bakgrunnen til utility måling før jeg går videre med et knippe målingsmetoder og en rekke problemer assossiert med disse. Jeg kommer til å konsentrere meg om måling av utility knyttet til medisin, siden jeg vil kanalisere kunnskapen min rundt bedømminger og beslutninger i dette domenet. 1.1 Utility bakgrunn Utility teori begynte som et forsøk på å lage et normativt rammeverk for hvordan besluttninger burde tas. Gitt at man har flere valgmuligheter bør man være ute etter å maximere sin utility, og således velge den muligheten som har høyest utilily. Den finner man ved å gange opp hvert utfall med sin respektive sannsynlighet, og så summere disse innenfor hver valgmulighet. Slik gir man valgmulighetene en verdi som man kan bruke til å sammenligne, og finne en med høyest verdi. Slik tenker riktignok ikke vi mennesker til en hver tid, derfor forblir denne teorien normativ og ikke deskriptiv. Vår intuisjon lurer oss stadig vekk bort fra det normative med heuristikker og andre kognitive ”svakheter”. Eksempler på slike uoverenstemmelser har blitt konkretisert i en rekke paradokser som Allais, Ellsbergs og St. Petersburgs paradoksene. Disse er alle gamblingseksempler hvor mennesker enten er inkonsistene eller avviker fra det normative. Dette førte til at man begynnte å undersøke hvorfor man fikk disse avvikene. Bernoulli (1738) var den første til å teorisere at utilitien til penger er mer enn pengenes verdi. Ved å hevde at pengers utility avtar logaritmisk med økt formue, løste han St. Petersburg paradokset hans fetter hadde fremsatt 25 år tidligere. I 1944 la von Neuman & Morgenstern første steinen i den moderne tids forståelse av utility, som førte til formuleringen av spillteorien og risikoaversjon. Senere, i 1979 fulgte Kahneman & Tversky opp med sin prospekt teori, med ytteligere forklaringer, bl.a. rundt tapsaversjon og endowment effekten. 1.2 Måling av utility Ikke alt handler om penger her i verden, også ting, egenskaper og tilstander har en utility (eller dis-utility) for oss. Det kan riktig nok ofte være enda vanskelige å måle slike verdier enn penger. Hvor mye ”kort vei til jobben” og 3 ”en ekstra uke ferie” er verd kan være problematiskå måle, men er nødvendig å tilegne en verdi om vi skal kunne måle to jobber som kun skiller seg med en av disse ”frynsegodene”. Om ferien veier tyngre enn kort vei, er det fornuftig å velge den jobben som tilbyr det. I andre sammenhenger måler man utility for å få vite hvordan man kan få mest ut av pengene sine. På 80-tallet ble Oregons helseplan forsøkt reformert for å få mer ut av den nasjonale helseforsikringen for barn og trengende, MedicAid. En kommisjon fikk innbyggerne i staten til å vurdere 23 symtomer ved å gi dem en verdi fra 0 til 100. Undersøkelsen resulterte i en 709 punkts ”utility per dollar”-tabell med sykdommer og behandlinger, som det så ble satt en viktig strek i. Alt over streken var kostnadseffektive behandlinger og ble dekket av planen, mens alt under falt utenfor. Listen (eller rettere sagt streken) møtte store protester, og ble så senere revidert. Grunnen var at planen gikk i mot manges kommonsensiske oppfattning av rettferdighet, for eksempel at man dekket behandlig utsatte jeksler, men ikke livstruende ektopiske graviditeter1 . Da den nye planen tilslutt ble satt ut i livs, var den omtrent tilbake der den begynte (Baron 2000). Selv om revideringen av Oregons helseplan ”feilet”, er det fremdeles behov for og nytte i måling av utility i helsesammenheng. Man kan eksempelvis bruke det til å veilede pasienter i valg av behandligsalternativ. Hvis man har verdier på hvordan en vurderer sin egen tilstand, eventuelle behandlingsubehag/komplikasjoner, forbedringspotensial og utfallssannynligheter, kan man regne ut hvilket alternativ pasienten bør velge. Det har blitt utviklet en rekke metoder for å forsøke å måle utility best mulig. Det er disse metodene denne oppgaven skal ta for seg i de neste kapittelene. 2 Metoder Jeg kommer, som sagt, til å legge fokuset mitt på måling av helsetilstander, men alle disse metodene kan godt brukes til å måle andre ting óg. Idéen med disse metoder er å finne en kvotient som beskriver utility-forholdet mellom to (eller flere) objekter/tilstander (f.eks en gitt tilstand og perfekt helse). De har alle en egen innfallsvinkel for å sette verdier på det som skal måles, og følgelig også kvotienten mellom dem. 2.1 Standard gamble (SG) Tenker vi gambling tenker vi fort penger, og kanskje på taps- og risikoaversjon. Men ut av gamblingen kommer også en metode for å måle utility. For å finne ut hvordan man verdsetter et gitt pengebeløp Y, kan man 1 greviditeter utenfor livmoren, f.eks i egglederen 4 her spørre om når man er likegyldig til et beløp X og et 50/50 sjansespill mellom 0 og beløpet Y. En annen variant fra medisin, er å vekte opp en gitt sykdom mot et P/1 − P sjansespill mellom henholdvis topp helse og død. Mener man en sykdom er verd en 60/40 fordeling, har denne gitte sykdommen en utility på 0.6 (hvor topp helse er 1). Utilitien finnes, i begge tilfeller, frem til ved iterativ prosess, hvor verdien sirkles inn (en slags pruting). 2.2 Time tradeoff (TTO) I TTO forsøker man å måle folks utility ved å bruke tid som variabel. Metoden ble i sin tid utvliklet for å erstatte SG med en enklere metode. Man setter den situasjonen som skal måles opp mot en ”ideell” situasjon (perfekt helse), for å se hva tiden i de to er verd relativt sett. Man kan f.eks spørre hvor mange år som helt frisk man mener tilsvarer 10 år som blind. Svarer man her 7 år, vil utilitien for å være blind være 0.7, når helt frisk er 1. Man kan helt fint bytte ut ’helt frisk’ med andre helsetilstander hvis ønskelig. Metoden er i motsettning til SG, ikke iterativ og tar krever således mindre tid. 2.3 Person-tradeoff (PTO) PTO ligner på TTO, men tar i bruk mennesker i stedet for tid, som variabel. Her kan man bli bedt om å vurdere, når det å kurere 100 pasienter med lungebetennelse er likt med det å kurere et X antall med KOLS2 . X’en delt på 100 vil si hvor ille man mener KOLS er i forhold til lungebetennelse. Mener man at 50 er et riktig tall har man gitt KOLS halvparten av utilitien til lungebetennelse. 2.4 Visual analog scale/rating scale (VAS/RS) VAS er en enkel og visuell måte å måle utility på. Metoden består av en skala fra 0 til 100 (eller lignende), hvor ekstremverdiene er knyttet til bestemte tilstander (f.eks perfekt helse og verst tenkelig helse) (se figur 1). Idéen er så at man krysser/plasserer en eller flere tilstander på skalaen i forhold til hverandre og skalaens initielle verdier. Plasseres noe, f.eks det å være lam fra hoften og ned, midt på skalaen, er utilitien til denne tilstanden 0.5 av perfekt helse. Metoden skiller seg fra de tre over, ved at man kan (men ikke må) måle flere tilstander om gangen. 2.5 Willingness-to-pay/accept (WTP/WTA) I disse metodene finner man frem til et pengebeløp man synes passer til å, henholdsvis få og gi opp et gode. Man kan slik sette en pris på en gitt 2 Kronisk obstruktiv lungesykdom 5 Figur 1: Eksempel på en VAS helsetilstand, ved å spørre hva man er villig til å betale for å slippe en sykdom e.l. Er ikke veldig utbredt ved måling av helsetilstander. Denne metoden vil følgelig ikke bli kommentert mer enn nødvendig. 3 Problemer Dessverre finnes det et knippe problemer med disse metodene. De har alle sine svakheter, noe som gir utslag ved enkelte tilfeller (Baron 1997). Noen relateres til problemer innad en metode, mens andre betenkligheter går på at metodene ikke alltid gir like resultater ved måling av samme tilstand eller situasjon (Elkin, Cowen, Cahill, Seffel & Kattan 2004, Read, Quinn, Berwick, Fineberg & Weinstein 1984, Salomon, Murray, Üstun & Chatterji 2003). Dette har gitt grobunn for en kritikk av samtlige metoder at de ikke måler det de skal, men at heller at verdier og preferanser konstrueres ved hjelp av metoden (Slovic 1995). Denne skolen mener det ikke finnes stabile preferanser, og de kan derfor heller måles. Mer om det siden, men vil det i dette kapittelet bli mye fra medisin og måling av utility i helsetilstander, siden mye av den aktuelle forskningen foregår på dette feltet. 3.1 Mellom metodene Et problem er altså at metodene kan gi ulike resultater på samme situasjon. Undersøkelsen av utility-måling av helsetilstander i Krabbe, Essink-Bot & Bonsel (1997) viser at RS-metoden havner langt lavere på skalaen (værst tenkte helsetilstand), enn tre andre metoder (SG, TTO, WTP). De følger alle fire samme mønster, men RS-grafen ligger ganske jevnt rundt 30%-poeng lavere (se figur 2. Forfatternene mener at denne effekten kan skyldes at man i RS-metoden ikke foretar en ”trade-off” som i de andre, men heller kommer 6 Figur 2: Vurderingsfordeling mellom 4 metoder frem til utilitiene ved sammenligninger. Om det er metodene med ”tradeoff” eller samenligning som gir best resultat er vanskelig å bestemme, og er stadig oppe til diskusjon. I Nords (1992) oversikt over tilsvarende studier, gir RS-metoden jevnt over lavere resultater enn både TTO og SG-metodene. Forholdet mellom TTO og SG er ikke like klart, hvor SG gir høyere verdier enn TTO i halvparten av de utvalgte studiene. I de resterende er TTO og RS mer eller mindre like, uten signifikante forskjeller. I en artikkel av Elkin et al. (2004) sammenlignes RS, TTO og en relativt ny variant av RS, ”transformed rating scale” (TRS3 ) over fem ulike stadier av prostatakreft. Som man kan se av tabellen in figur 3 gav de tre metodene svært ulike verdier. RS-metoden gav lavere resultater enn TTO i tre av de fem helsetilstandene (og en lik), mens TRS havnet høyere enn TTO i samtlige variasjoner. Men siden størrelsen på utvalget var ganske liten4 var ikke forskjellene mellom metodene statistisk signifikante. Riktignok gir tallene en god indikasjon og er ikke i konflikt med tildligere resultater. Interessant er det også at bare 2 av de 63 som var med på undersøkelsen rangerte tilstandene likt med TRS og TTO (Elkin et al. 2004). Spriket i tilstandsvurdeingene førte til at det ble foreslått ulik behandlig for samme tilstand, etter en anbefalingsmodell. Enigheten om behandlingen var høyset mellom RS og TRS (rundt 70%), mens TTO og RS hadde minst enig (rundt En transformering av RS ved formelen T RS = 1 − (1 − RS)γ , hvor γ er 2.29 (Torrance, Feeny & Furlong 2001) 4 n = 63 3 7 Figur 3: Vurderingsfordeling mellom 3 metoder 55%), tilsammen en enighet på ca 60% av tilfellene. Read et al. (1984) fant frem til det samme tallet i sin sammenligning av verdiene fra RS og SG metodene tyve år tidligere. Salomon et al. (2003) hentet i motsettning til Elkin et al. (2004) store mengder data, nærmere bestemt fra over 46000 personer i tilsammen 14 land5 fra ulike hjørner kloden. I alt 35 tilstander (fordelt på fire sett) ble målt, og omfattet alt fra en mild synsforstyrrelse til quadriplegia6 , samt ens egen rapporterte helsetilstand. Resultatene viser at det tidvis er enorme gap i gjennomsnittlige vurderingen gitt av de brukte 4 metodene (VAS, TTO, SG, PTO). Spesielt gjelder dette i nedre del av skalaen, for ekspempel for paraplegia7 hvor VAS og PTO skiller så mye som 0.4 (0.255 mot 0.652). Dette er ganske ekstremt og illustrerer godt hvor ulike metodene kan være. På en annen side er metodene relativt enige om rekkefølgen på tilstandene, med et par unntak her og der. Gjennonsnittene til de fire metodene legger seg ganske systematisk i en stigende rekkefølge (med svært få unntak): V AS < T T O < SG < P T O. 3.2 Innad metodene Flere problemer finner vi hvis vi ser nærmere på metodene og hvilke svakheter de har. De respektive formuleringene og innfallsvinklene metodene har byr på ulike skjevheter og problemer. Under er en oversikt over en del av de, og er på ingen måte uttømmende. 5 Kina, Colombia, Egypt, Georgia, Indonesia, India, Iran, Libanon, Mexico, Nigeria, Singapor, Slovakia, Syria & Tyrkia 6 lammelse fra nakket og ned 7 lammelse fra hoften og ned 8 Weber & Borcherding (1993) fant at man har en tendens til å passere tilstander for tett hverandre i RS-metoden (og da også VAS). Effekten er trolig et resultat av ankering, hvor de første plasserte tilstandene setter standarden for de påfølgende. Bleichrodt & Johanneson (1997) har også funnet en annen svakhet med skalaene, at vi ofte unngår de ekstreme delene av skalaen. Dette kan forklare noe av de store forskjellene i forrige kapittel. PTO-metoden er også sårbar for tilstandssammenligning, ved at to sykdomstilfeller med likt forbedringspotensial, men ulik alvorlighetsgrad, får lik prioritet og således måles til lik utility. Dette gjøres likegyldig av alternativenes gagn og kostnad. Nord, Richardson, Kuhse & Singer (1995) viste at mennesker stilt ovenfor en slik situasjon ikke velger det maksimerende valget. I stedet velger 7 av 10 et ”rettferdig” alternativ, fremfor det maksimerende (her, redde 18 fremfor 50 syke). I Nord (1992) vises det at PTO-metoden er sensitiv til hvordan spørsmålet stilles, og til hvilket synspunkt man gis. Når mennesker skal gjøre en PTO i et rettningslinjespørsmål vil de med pasientsynspunkt velge å behandle de sykeste først, uten tanke på forbedringspotensial. De sykeste trenger ofte mye resurser, og kan ha lang vei å gå til å bli helt frisk, mens det da finnes mindre syke man kan kurere helt. Øker man en persons tilstands-utility fra .7 til 1, er det bedre (større økning 0.3 > 0.2) enn å øke en annens fra 0.3 til 0.5. Gir man derimot forsøkspersonene et bestyrelsessynspunkt vil de ressonere mer utilitært. Et beslektet emne er at det ikke tas hensyn til budsjettrammer, og maksimering innenfor disse. Får folk velge vil de behandle de som er alvorligst utsatt først, uavhenging av kostnad og hvor stor del det tar av busjettet. Übel, Loewenstein, Scanlon & Kamlet (1996) mener dette kan forklare intransitiviteten de fant i sitt forsøk på å forklare hvorfor ”Oregon health plan” ikke fungerte så bra i praksis. Hvis man vurderer tre tilstander A, B & C i PTO, og sier A er 10 ganger værre enn B og B tilsvarende værre enn C, vil ratio C/A være lavere enn 100, som er produktet av B/A og C/B. Siden SG-metoden baserer seg på gambling, er den følgelig sårbar for effekter fra dette domenet. En av de er visshetseffekten (certainty-effekt) fra Kahneman & Tverskys ”Prospekt teori” (1979). Dette er tendensen til å overvekte utfall med sannsynlighetfaktor 1, og følgene undervekte de andre alternativene med risiko. Denne taps-aversjonen fører til at det potenselle tapet overskygger gevinsten, fordi det sikre alternativet er ansett som statusquo (Hershey & Shoemaker 1986). Baron (1997) hevder at SG ikke kan gi konsistente utility-estimater på tvers av sannsynlighetsverdier. 9 Figur 4: Kulturelle forskjeller I Salomon et al. (2003) oppdaget man at det eksisterte store kulturelle forskjeller mellom de inkluderte landene. I figur 4 har vi resultatene fra VAS målinger i 10 land over 18 tilstander. Vi ser her at det er stor uenighet på tvers av landene, om hvor ille disse helsetilstandene er. For eksempel er mener nigerianerene at inkontines (URI) er mye værre enn indoneserne (0.25 mot 0.65). Vi også kan se at land som Kina og Inddonesia ligger relativt høyt, mens Nigeria og Georgia ligger lavere enn de fleste. Dette er selvsagt ikke en metodisk feil ved VAS, men viktig å vite hvis man skal over landegrensene, for å anvende metoder og modeller andre steder enn de er utledet. Det er óg naturlig å anslå at man vil se mye av den samme effekten ved bruk av andre metoder. 4 Konstruksjon av preferanser: Et ekspempel På bakgrunn av av disse problemene med metodene har man begynt å tenke nytt. Hvis preferansene konstrueres av metodene bør man ta konsekvensen av det. Dette har Johnson et al. (2005) gjort ved å strukturere besluttingsomgivelsene slik at de gir best mulig utfall. For å få til dette må vi kontrollere og veie opp for heuristikker og slagsider i menneskets resonering. I sin ”Distribution builder” tar de høyde for en rekke slike. De belyser ”default”verdienes makt, og at det er et virkemiddel som bør brukes med omhu. Videre trekkes det frem at bruken av prosent-fremstilling av sansynlighet forstyrrer folk, og at frekvensformatet fremmer forståelsen (Hoffrage & Gigerenzer 1998). Risko som oppleves oppfattes på en helt annen måte en den som bare beskrives. Ved hjelp av simuleringer gis det tilbakemelding, noe som gir folk en bedre oppfattelse av hvilken risiko ulike valg innebærer (Hertwig, Barron, Weber & Erev 2004). Til slutt trekkes det frem at flere isolerte valg, og de samme valgene integrert som ett, vil produsere ulike 10 resultater (Thaler & Johnson 1990). Noe som er ufarlig i 2 av 100 tilfeller virker ikke avskrekkende, men hvis man påtar seg denne risikoen 100 ganger er det hele 86.74%8 sjanse for at det uønskede skal inntreffe minst en gang. 5 Avslutning Jeg her i denne oppgaven forsøkt å belyse deler av historien til utility, litt om hvordan man har forsøkt å måle utility. En rekke metoder har blitt utviklet, men de har alle sine problemer i tillegg til at de gir sprikende svar. Det kunne ha vært greit forsåvidt hvis vi hadde visst hvilken metode som målte det vi er ute etter, noe vi detsverre ikke gjør. Derfor har det vist seg lurt å prøve å konstruere kontrollerte omgivelser rundt målingene. Slik får man konstruert utilitien på en god måte, ved å ha luket bort kjente faktorer som kan påvirke vår besluttning i uønsket rettning. Faktorene nevnt i eksempelet over er noen slike, men det finnes sikkert et rekke flere. 8 1 − (.98100 ) = 1 − .133 = .867 = 86.7% 11 Referanser Baron, J. (1997), ‘Biases in the quantative measurement of values for public decisions’, Psychological bulletin 122(1), 72–88. Baron, J. (2000), Thinking & deciding, third edn, Cambridge: Cambridge university press. Übel, P. A., Loewenstein, G., Scanlon, D. & Kamlet, M. (1996), ‘Individual utilities are inconsistent with rationing choices: A partial explanation of why Oregon’s cost-effectiveness list failed’, Medical decision making 16, 108–116. Bernoulli, D. (1738), ‘Specimen theoriae novae de mensura sortis’, Commentarii Academiae Scientiarum Imperialis Petropolitanae 5, 175–192. Bleichrodt, H. & Johanneson, M. (1997), ‘Standard gamble, time trade-offs and rating scale: Eperimental results the ranking properties of qalys’, Journal of Health economy 16, 132–137. Elkin, E. B., Cowen, M. E., Cahill, D., Seffel, M. & Kattan, M. W. (2004), ‘Preference assessment method addects decision-analytic recommendations: A prostate cancer treatment example’, Medical decision making 24(5), 504–510. Hershey, J. C. & Shoemaker, P. J. H. (1986), ‘Probability versus certainty equivalence mathods in utility measurement’, Organizational behavior and human performance 31, 1213–1231. Hertwig, R., Barron, G., Weber, E. U. & Erev, I. (2004), ‘Decisions from experience and the effect of rare events in risky choice’, Psychological science 15(8), 534–539. Hoffrage, U. & Gigerenzer, G. (1998), ‘Using natural frequencies to improve diagnostic inferences’, Academic medicine 73, 538–540. Johnson, E. J., Seffel, M. & Goldstein, D. G. (2005), ‘Making better decisions: From measuring to construkting preferences’, Health psychology 24(4 (suppl.)), S17S22. Kahneman, D. & Tversky, A. (1979), ‘Prospect teory: An analysis of decision under risk’, Econometrica 47, 263–291. Krabbe, P. F. M., Essink-Bot, M.-L. & Bonsel, G. J. (1997), ‘The comparability and reliability of five health-state valuation methods’, Social science and medicine 45(11), 1641–1652. Nord, E. (1992), ‘Methods of quailty adjustments of life years’, Social science and medicine 34, 559–569. 12 Nord, E., Richardson, J., Kuhse, H. & Singer, P. (1995), ‘Who cares about cost? Does economic analysis impose or reflect social values?’, Health policy 34, 79–94. Read, J. L., Quinn, R. J., Berwick, D. M., Fineberg, H. V. & Weinstein, M. C. (1984), ‘Preferences for health outcomes: Comparison of assessment methods’, Medical decision making 3, 315–329. Salomon, J. A., Murray, C. J., Üstun, T. B. & Chatterji, S. (2003), Health state valuations in summary measures of population health, Geneva: World health organization, chapter 32. Slovic, P. (1995), ‘The construction of preferance’, American psychologist 50, 364–371. Svensen, F. (2006), The distribution builder: Domeneskifte fra økonomi til medisin. Semesteroppgave i HUMIT4760. Thaler, R. H. & Johnson, E. J. (1990), ‘Gambling with house money and trying to break even: The effects of prior outcomes on risky choice’, Managment science 36, 643–660. Torrance, G. W., Feeny, D. & Furlong, W. (2001), ‘Visual analog scales: Do they have a role in the measurment of preferences in health states?’, Medical decision making 21, 329–334. von Neuman, J. & Morgenstern, O. (1947), Theory of games and economic behavior, 2nd edn, Princeton: Princeton university press. Weber, M. & Borcherding, K. (1993), ‘Behavioral influences on weight judgments in multiattribute decision making’, European journal of operations reseach 67, 1–12. Figurer 1 2 3 4 Eksempel på en VAS . . . . . . . . . . Vurderingsfordeling mellom 4 metoder Vurderingsfordeling mellom 3 metoder Kulturelle forskjeller . . . . . . . . . . 13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 7 8 10