Uploaded by dorinasziszi

Nominális eredményváltozók modellezése PPT jegyzet

advertisement
Szerző: Hajdu Ottó
1
Bináris regresszió
Az Igen/Nem kimenetű Y={1,0} bináris módon kódolt eredményváltozó előrejelzése a
statisztikai feladat. Az Y változó értéke csak az 1(Igen) vagy 0(Nem) értékek egyikét veheti
fel. Az Y=1 eset valamely tulajdonság meglétét, az Y=0 eset pedig a hiányát jelzi.
A példa szerint Y=1 ha a cég Csődbe ment, és Y=0 egyébként.
Az adatállomány 100 vállalkozás Y sorsát vizsgálja az X1 jövedelmezőség és az X2
eladósodottság ismeretében, gyakorisági sorba rendezve.
A Nyereség és az Eladósodottság a Csődesemény magyarázó változói (prediktorai) melyek
diszkretizált szintjeit a mintában az X1 és X2 oszlopok közlik. Azt, hogy az X1_X2 párok –
értsd kovariánsok - hány cég esetén következtek be, az f gyakorisági oszlop mutatja.
Az X1 szint a lehetséges [-10, +10] intervallumon közli a megfigyelt értékeket, míg X2
szintjei a [0, +10] skálára vonatkoznak.
Az Y oszlop közli, hogy csődbe mentek-e az X kovariánshoz tartozó cégek vagy sem.
Mintánkban adott X kovariánshoz tisztán csak Csőd vagy Működő cégek tartoznak, de
módszertanilag ez közömbös.
Feladat, hogy a rendelkezésre álló információk alapján előre jelezzük az Y=1, vagy Y=0
értékek egyikét.
Az előrejelzés két lépésből áll:
1) előbb meghatározzuk az X prediktor ismeretében az Y=1 kimenet Pr(1|X) feltételes
valószínűségét,
2) rögzítve egy kritikus C (Cut-off-value) döntési szintet e feltételes valószínűség alapján
jelezzük előre az Y=1 értéket, ha az meghaladja a kritikus C értéket, vagy az Y=0
értéket egyébként.
A csőd feltételes Pr(1|X) valószínűsége röviden: PX. Ez az érték 80,4% az első
cégcsoportnál, 68.67% a másodiknál, stb. Ha C=0.3, akkor azokra akik ezt meghaladják az
előrejelzés Y=1, egyébként Y=0. Ezt közli a C=0.3 oszlop. Ha C=0.5, akkor megfelelően
módosul az előrejelzés.
Látható, hogy mely X1_X2 variánsoknál követtünk el, és milyen irányú hibákat.
Jelen esetben az 1_helyett_0 hiba pénzügyileg veszélyesebb, kerülendőbb, mert a
meghitelezett, de csődbement Cég nem fizeti vissza a hitelt.
Szerző: Hajdu Ottó
2
A logisztikus regresszió (a logit-link)
A Csőd feltételes PX valószínűségét az ún. odds hányados függvényében fejezzük ki.
Legyen
(1 - PX) = QX
a működés valószínűsége.
Felírjuk a PX valószínűséget a
PX = PX / ( PX + (1 - PX) )
formában.
Egyszerűsítve a törtet – osztva a számlálót és a nevezőt is a QX működési
valószínűséggel – jelenik meg a számlálóban és a nevezőben is a P/Q tartalmú odds (két
valószínűség hányadosa). Ha ez pl. 4, akkor a csőd valószínűsége négyszerese a
működésének.
Ha az odds értéke ismert, akkor a csőd valószínűsége:
odds / (1+odds),
a működésé pedig
1 / (1+odds).
A modell feltevése szerint az odds a prediktorokban exponenciálisan, logaritmusa pedig
lineárisan alakul. Az odds kalkulálása igényli az α és β paraméterek értékeit.
A log(odds) mennyiség megnevezése logit, innen a módszer neve: logit-regresszió.
A csődvalószínűség a regressziós koefficiensek és az X prediktorok értékeinek az
ismeretében előbb a logit majd az odds értékek kalkulálásán át számíthatóvá válik.
Szerző: Hajdu Ottó
3
Paraméterbecslés a Maximum Likelihood módszerrel
A táblázatban újra megjelennek a korábban már bemutatott paraméterek számszerű értékei:
„a” tengelymetszet, b1 nyereség, b2 pedig az adósság koefficiensek.
Ezek alkalmazásával számítjuk a Csőd PX valószínűségeket az alábbi módon.
Az első kovariáns esetén az ln(odds) érték, vagyis a Logit számítása:
Logit = -5,77+(-0,63)*(-4) + 2,31*2 = 1,413 ami egyben az odds logaritmusa.
Ebből az Odds=Exp(1.413)=4.1082 érték adódik. Az Odds tartalma, hogy ezen X1=-4, X2=2
feltétel mellett a csőd valószínűsége 4.11-szerese a működés valószínűségének.
A Csőd PX valószínűsége ezek birtokában: Odds/(1+Odds)=4.1082/5.1082=0.8042, a
működésé pedig 1/(1+Odds)=0.1958. A Csődvalószínűségek a regressziós koefficiensek
változtatásával változnak.
A paraméterek becslése a Maximum Likelihood módszerrel történik.
Az LX oszlop szelektálja a Csődvalószínűséget a csődbement cégek esetén és a Működés
valószínűségét a működő cégek esetén, tehát mindenkire a saját mintabeli sorsának a
valószínűségét. Így kapunk 10 db különböző kovariáns valószínűséget, mely 10 különböző
osztályt valószínűsít, de 100 cégre vonatkozik, súlyozottan.
Előbb osztályon belül összeszorozva az LX értékét annyiszor ahány cég van az osztályban,
majd mind a 10 osztály Li értékét összeszorozva, az eredmény egy 100-tényezős szorzat,
aminek a számított végeredménye L = 1.233E-12, vagyis a minta Likelihoodja
(valószínűsége).
Ha a koefficiensek elmozdulnak, akkor a minta valószínűsége is elmozdul, és optimális
megoldás azon koefficienseket választani, melyek mellett a Likelihood maximális. A
becslés iteratív módszert igénylő technika.
Numerikus, majd modellszelekciós hipotézisvizsgálati és illeszkedésvizsgálati
alkalmazások érdekében érdemes a Likelihood maximálása helyett a -2ln(Likelihood)
célfüggvény minimálása. Példánkban a modell konvergált -2ln(Likelihood) értéke: 54.8.
Értelemszerűen nem-negatív érték.
Szerző: Hajdu Ottó
4
A paraméterek elemzése
A paraméterek értelmezése a következő.
A negatív -0.63 nyereség koefficiens azt jelenti, hogy a nyereség emelkedése
csődesélyt csökkentő magyarázó változó.
Az odds ratio (OR) odds arány mutató tartalma: ha a jövedelmezőség egy egységgel
magasabb szintű, akkor ennek eredményeképpen az odds Exp(-0.63)=0.53 arányban
inflálódik, tehát 47 százalékkal csökken. Ez látszik a következő táblázat első két
sorában is, mert ott csak a nyereség szint javul éppen egy egységnyit, miközben az
adósság szintje változatlan, és ekkor 47%-kal csökken az odds a 2.192 értékre.
Analóg módon, az eladósodás egységnyi szintű emelkedése közel 10-szeres csődodds emelkedést okoz. c.p. (ceteris paribus)
A második képlet számítja a marginális hatást, miszerint magára a csőd
valószínűségre milyen hatással van az, ha valamelyik X prediktor c.p. 1 egységnyit
változik.
Itt 14.1 százalékponttal csökken a csőd valószínűsége, ha a NY=3 és az A=3 együttes
szintjéről a Nyereség egy „osztályt” javul.
Szerző: Hajdu Ottó
5
Pszeudó R2: Heurisztikus illeszkedésvizsgálat
A modell mintához való illeszkedésének a jóságát a célfüggvény konvergált értéke
jellemzi, mely esetünkben
-2*ln(L) = 54.84.
A -2*ln(L) metrika végletesen legfeljebb a perfekt előrejelzésű, szaturált modelléig
csökkenhet, ami esetünkben 0, mert ekkor LX =1 minden kovariánsra, tehát a
szorzatuk is 1, és így ln(1)=0.
A Null modell esetén pedig, ami X tekintetében üres:
-2lnL= -2(14‧ln0.14 + 86 ‧ ln0.86) = 81.0.
A két extrém modell közötti úton a becsült tárgyi modell így
R2 = (81-54.849) / 81 = 32,3%
javulást eredményez.
A McFadden R2-mutató az aktuálisan becsült modell előrejelzésének a relatív (%)
távolságát méri az „üres”, ún. „null” modellétől.
Szerző: Hajdu Ottó
6
A klasszifikációs mátrix
A klasszifikációs tábla egy gyakorisági típusú tábla, mely az alkalmazott
klasszifikációs modell empirikus ellenőrzését segíti. A tábla oldalrovatában és
fejrovatában azonos sorrendben a vizsgált kategóriák kódjai szerepelnek (most 1;0 és
1;0), a megfelelő cellákban pedig az előrejelzés helyességének [(1_1),(0_0)], vagy
hibájának [(1_0),(0_1)] gyakoriságai szerepelnek.
A főátló a korrekt klasszifikációk gyakoriságait publikálja, míg a mellékátló az
inkorrekt gyakoriságokat méri.
A klasszifikációs tábla ismerete több alapvető kérdés megválaszolásának az eszköze:
Más és más „cut-value” határ más és más klasszifikációs mátrixokat eredményez.
Adott „cut-value” klasszifikációs mátrix alapján rögzíthetünk egy végső cut-value
értéket az előrejelző modell megadása érdekében.
Szerző: Hajdu Ottó
7
Szerző: Hajdu Ottó
8
A Wald teszt alkalmazása
Paramétereikben egymásba ágyazott modellek szelektálásának egyféle hipotézis
vizsgálati eszköze a Wald-teszt, mikor a paraméterbecslés a ML módszerrel történt.
A Wald teszt a H0 null és a H1 alternatív hipotézisek közötti standardizált Chi2 távolságot
számítja és teszteli. A W_Chi2 teszt szabadsági foka a megszorítások száma.
A „Likelihood Ratio” teszt alkalmazása
Paramétereikben egymásba ágyazott modellek szelektálásának másik hipotézis vizsgálati
eszköze a LR-teszt, mikor a paraméterbecslés a ML módszerrel történt.
A H0 hipotézis megszorításai egy a paramétereiben korlátozott H0-modellt eredményez,
mely szükségszerűen rosszabb LH0 Likelihood értéket ad, mint a paramétereiben H1
hipotézis alatt nem korlátozott H1-modell LH1 Likelihood értéke.
H0 és H1 egyetértését vagy ellentmondását LH0 és LH1 viszonya minősíti. E távolság
megítélésének relatív eszköze az LH0/LH1 likelihood-ratio statisztika, mely
szükségszerűen 0 és 1 közötti érték.
Nagymintás esetben az LR=(-2lnLH0)–(-2lnLH1) statisztika Chi2 eloszlású H0 érvénye
mellett, annyi DF szabadsági fokkal, amennyi korlátozást tettünk a H0 és H1 modellek
megkülönböztetése érdekében. A Chi2 metrika a H0 és a H1 hipotézisek Pszeudo-R2
távolságát méri.
Speciális H0 hipotézisek:
1. A predictor X változók egy m számú (j+1, j+2, …,j+m) köre nem releváns,
paramétereik értéke egyöntetűen zéró: elhagyásuk nem ront jelentősen a jelen
modellen,
2. Adott X(j) predictor nem releváns, paramétere zéró: elhagyása nem ront jelentősen a
jelen modellen,
3. Modell függetlenség (Independence): valamennyi X predictor irreleváns,
paramétereik értéke egyöntetűen zéró : jelen modell előrejelzése lényegesen nem
jobb mint a Null modellé.
Szerző: Hajdu Ottó
9
Probit regresszió
A probit regresszió célja szintén az Igen/Nem kategóriák egyikének az előrejelzése, feltételes
valószínűség alapján, X prediktor változók értékeinek az ismeretében. A modell rokon a logit
modellével, a módszertan a feltételes valószínűség eloszlástípusában különbözik.
A feltevés egy latens, másképpen index-változó létezése, melynek skáláján extrém alacsony
érték inkább a 0 (Nem), és extrém magas érték inkább az 1 (Igen) esemény bekövetkezésére
utal.
Maradva a csődmodell példánál, a latens index-változó neve a Csődhelyzet*, ami közvetlenül
nem mérhető. Feltesszük, hogy van egy kritikus Cut_Csődhelyzet érték, amit meghaladva a
kimenet Igen(1), egyébként a kimenet Nem(0).
A Nyereség és Adósság szint prediktorok alkalmazásával a csődhelyzet modellezett értéke:
Csődhelyzet(X) = Alfa + Béta1·Nyereség + Béta2·Adósság:
alacsonyabb a csődhelyzet, ha magasabb a nyereség, és magasabb a csődhelyzet, ha magasabb
az adósságszint.
Eredményképp mi ebből annyit látunk, hogy a vállalkozás adott Nyereség és Adósság
kombináció mellett Igen vagy Nem kimenetű.
E feltevés mellett minden olyan Cut-értékre, mely kisebb mint a kalkulált Csődhelyzet(X), az
előrejelzés: Igen(1). Ezért az Igen(1) esemény valószínűsége:
Pr(1|X) = Pr( Cut < Csődhelyzet(X) ).
A probit modell a Pr(1|X) valószínűséget a standard normális eloszlás Φ(.) eloszlásfüggvénye
szerint kalkulálja a Csődhelyzet(X) pontban:
Pr(1|X)_Probit = Pr( Cut < Csődhelyzet(X)) = Φ(Csődhelyzet(X) ).
A paraméterbecslés – a Pr(1|X) és Pr(0|X) valószínűségek mintaelemeknek megfelelő
választásával – a Maximum Likelihood módszerrel történik.
A fenti gondolatmenet a logit modellre is alkalmazható:
a logit regresszió a Pr( Cut < Csődhelyzet(X) )
valószínűséget a logisztikus eloszlás eloszlásfüggvénye szerint számítja:
Pr(1|X)_Logit = Pr( Cut < Csődhelyzet(X) ) = 1 / [ 1+ e ^ -Csődhelyzet(X) ].
Szerző: Hajdu Ottó
10
Probit számítások
Az összehasonlítás végett a 100 elemű Csőd-kimenet adatállományát elemezzük, melyek
között 14 a Csőd(1) kimenet.
Az index-változó becsült lineáris prediktora:
Csődhelyzet = -2.059 -0.352Nyereség + 0.753Adósság.
A [Nyereség = -4, Adósság = 2] vállalkozás becsült Csődhelyzete a standard normális z
skálán:
z = -2.059 -0.352·(-4) + 0.753·2=0.855,
Tehát a feltételes csődvalószínűség:
Pr( Csőd | Nyereség = -4, Adósság = 2 ) = Φ(0.855) = 0.804.
Lévén ez a valószínűség két vállalkozásra vonatkozik, a következő 0.693 valószínűség pedig
4 vállalkozásra, stb., a minta likelihoodja: L=0.804^2 * 0.693^4 *…* 0.000^2 a fenti 3
koefficiens mellett maximális.
Szerző: Hajdu Ottó
11
Szerző: Hajdu Ottó
12
Download