Szerző: Hajdu Ottó 1 Bináris regresszió Az Igen/Nem kimenetű Y={1,0} bináris módon kódolt eredményváltozó előrejelzése a statisztikai feladat. Az Y változó értéke csak az 1(Igen) vagy 0(Nem) értékek egyikét veheti fel. Az Y=1 eset valamely tulajdonság meglétét, az Y=0 eset pedig a hiányát jelzi. A példa szerint Y=1 ha a cég Csődbe ment, és Y=0 egyébként. Az adatállomány 100 vállalkozás Y sorsát vizsgálja az X1 jövedelmezőség és az X2 eladósodottság ismeretében, gyakorisági sorba rendezve. A Nyereség és az Eladósodottság a Csődesemény magyarázó változói (prediktorai) melyek diszkretizált szintjeit a mintában az X1 és X2 oszlopok közlik. Azt, hogy az X1_X2 párok – értsd kovariánsok - hány cég esetén következtek be, az f gyakorisági oszlop mutatja. Az X1 szint a lehetséges [-10, +10] intervallumon közli a megfigyelt értékeket, míg X2 szintjei a [0, +10] skálára vonatkoznak. Az Y oszlop közli, hogy csődbe mentek-e az X kovariánshoz tartozó cégek vagy sem. Mintánkban adott X kovariánshoz tisztán csak Csőd vagy Működő cégek tartoznak, de módszertanilag ez közömbös. Feladat, hogy a rendelkezésre álló információk alapján előre jelezzük az Y=1, vagy Y=0 értékek egyikét. Az előrejelzés két lépésből áll: 1) előbb meghatározzuk az X prediktor ismeretében az Y=1 kimenet Pr(1|X) feltételes valószínűségét, 2) rögzítve egy kritikus C (Cut-off-value) döntési szintet e feltételes valószínűség alapján jelezzük előre az Y=1 értéket, ha az meghaladja a kritikus C értéket, vagy az Y=0 értéket egyébként. A csőd feltételes Pr(1|X) valószínűsége röviden: PX. Ez az érték 80,4% az első cégcsoportnál, 68.67% a másodiknál, stb. Ha C=0.3, akkor azokra akik ezt meghaladják az előrejelzés Y=1, egyébként Y=0. Ezt közli a C=0.3 oszlop. Ha C=0.5, akkor megfelelően módosul az előrejelzés. Látható, hogy mely X1_X2 variánsoknál követtünk el, és milyen irányú hibákat. Jelen esetben az 1_helyett_0 hiba pénzügyileg veszélyesebb, kerülendőbb, mert a meghitelezett, de csődbement Cég nem fizeti vissza a hitelt. Szerző: Hajdu Ottó 2 A logisztikus regresszió (a logit-link) A Csőd feltételes PX valószínűségét az ún. odds hányados függvényében fejezzük ki. Legyen (1 - PX) = QX a működés valószínűsége. Felírjuk a PX valószínűséget a PX = PX / ( PX + (1 - PX) ) formában. Egyszerűsítve a törtet – osztva a számlálót és a nevezőt is a QX működési valószínűséggel – jelenik meg a számlálóban és a nevezőben is a P/Q tartalmú odds (két valószínűség hányadosa). Ha ez pl. 4, akkor a csőd valószínűsége négyszerese a működésének. Ha az odds értéke ismert, akkor a csőd valószínűsége: odds / (1+odds), a működésé pedig 1 / (1+odds). A modell feltevése szerint az odds a prediktorokban exponenciálisan, logaritmusa pedig lineárisan alakul. Az odds kalkulálása igényli az α és β paraméterek értékeit. A log(odds) mennyiség megnevezése logit, innen a módszer neve: logit-regresszió. A csődvalószínűség a regressziós koefficiensek és az X prediktorok értékeinek az ismeretében előbb a logit majd az odds értékek kalkulálásán át számíthatóvá válik. Szerző: Hajdu Ottó 3 Paraméterbecslés a Maximum Likelihood módszerrel A táblázatban újra megjelennek a korábban már bemutatott paraméterek számszerű értékei: „a” tengelymetszet, b1 nyereség, b2 pedig az adósság koefficiensek. Ezek alkalmazásával számítjuk a Csőd PX valószínűségeket az alábbi módon. Az első kovariáns esetén az ln(odds) érték, vagyis a Logit számítása: Logit = -5,77+(-0,63)*(-4) + 2,31*2 = 1,413 ami egyben az odds logaritmusa. Ebből az Odds=Exp(1.413)=4.1082 érték adódik. Az Odds tartalma, hogy ezen X1=-4, X2=2 feltétel mellett a csőd valószínűsége 4.11-szerese a működés valószínűségének. A Csőd PX valószínűsége ezek birtokában: Odds/(1+Odds)=4.1082/5.1082=0.8042, a működésé pedig 1/(1+Odds)=0.1958. A Csődvalószínűségek a regressziós koefficiensek változtatásával változnak. A paraméterek becslése a Maximum Likelihood módszerrel történik. Az LX oszlop szelektálja a Csődvalószínűséget a csődbement cégek esetén és a Működés valószínűségét a működő cégek esetén, tehát mindenkire a saját mintabeli sorsának a valószínűségét. Így kapunk 10 db különböző kovariáns valószínűséget, mely 10 különböző osztályt valószínűsít, de 100 cégre vonatkozik, súlyozottan. Előbb osztályon belül összeszorozva az LX értékét annyiszor ahány cég van az osztályban, majd mind a 10 osztály Li értékét összeszorozva, az eredmény egy 100-tényezős szorzat, aminek a számított végeredménye L = 1.233E-12, vagyis a minta Likelihoodja (valószínűsége). Ha a koefficiensek elmozdulnak, akkor a minta valószínűsége is elmozdul, és optimális megoldás azon koefficienseket választani, melyek mellett a Likelihood maximális. A becslés iteratív módszert igénylő technika. Numerikus, majd modellszelekciós hipotézisvizsgálati és illeszkedésvizsgálati alkalmazások érdekében érdemes a Likelihood maximálása helyett a -2ln(Likelihood) célfüggvény minimálása. Példánkban a modell konvergált -2ln(Likelihood) értéke: 54.8. Értelemszerűen nem-negatív érték. Szerző: Hajdu Ottó 4 A paraméterek elemzése A paraméterek értelmezése a következő. A negatív -0.63 nyereség koefficiens azt jelenti, hogy a nyereség emelkedése csődesélyt csökkentő magyarázó változó. Az odds ratio (OR) odds arány mutató tartalma: ha a jövedelmezőség egy egységgel magasabb szintű, akkor ennek eredményeképpen az odds Exp(-0.63)=0.53 arányban inflálódik, tehát 47 százalékkal csökken. Ez látszik a következő táblázat első két sorában is, mert ott csak a nyereség szint javul éppen egy egységnyit, miközben az adósság szintje változatlan, és ekkor 47%-kal csökken az odds a 2.192 értékre. Analóg módon, az eladósodás egységnyi szintű emelkedése közel 10-szeres csődodds emelkedést okoz. c.p. (ceteris paribus) A második képlet számítja a marginális hatást, miszerint magára a csőd valószínűségre milyen hatással van az, ha valamelyik X prediktor c.p. 1 egységnyit változik. Itt 14.1 százalékponttal csökken a csőd valószínűsége, ha a NY=3 és az A=3 együttes szintjéről a Nyereség egy „osztályt” javul. Szerző: Hajdu Ottó 5 Pszeudó R2: Heurisztikus illeszkedésvizsgálat A modell mintához való illeszkedésének a jóságát a célfüggvény konvergált értéke jellemzi, mely esetünkben -2*ln(L) = 54.84. A -2*ln(L) metrika végletesen legfeljebb a perfekt előrejelzésű, szaturált modelléig csökkenhet, ami esetünkben 0, mert ekkor LX =1 minden kovariánsra, tehát a szorzatuk is 1, és így ln(1)=0. A Null modell esetén pedig, ami X tekintetében üres: -2lnL= -2(14‧ln0.14 + 86 ‧ ln0.86) = 81.0. A két extrém modell közötti úton a becsült tárgyi modell így R2 = (81-54.849) / 81 = 32,3% javulást eredményez. A McFadden R2-mutató az aktuálisan becsült modell előrejelzésének a relatív (%) távolságát méri az „üres”, ún. „null” modellétől. Szerző: Hajdu Ottó 6 A klasszifikációs mátrix A klasszifikációs tábla egy gyakorisági típusú tábla, mely az alkalmazott klasszifikációs modell empirikus ellenőrzését segíti. A tábla oldalrovatában és fejrovatában azonos sorrendben a vizsgált kategóriák kódjai szerepelnek (most 1;0 és 1;0), a megfelelő cellákban pedig az előrejelzés helyességének [(1_1),(0_0)], vagy hibájának [(1_0),(0_1)] gyakoriságai szerepelnek. A főátló a korrekt klasszifikációk gyakoriságait publikálja, míg a mellékátló az inkorrekt gyakoriságokat méri. A klasszifikációs tábla ismerete több alapvető kérdés megválaszolásának az eszköze: Más és más „cut-value” határ más és más klasszifikációs mátrixokat eredményez. Adott „cut-value” klasszifikációs mátrix alapján rögzíthetünk egy végső cut-value értéket az előrejelző modell megadása érdekében. Szerző: Hajdu Ottó 7 Szerző: Hajdu Ottó 8 A Wald teszt alkalmazása Paramétereikben egymásba ágyazott modellek szelektálásának egyféle hipotézis vizsgálati eszköze a Wald-teszt, mikor a paraméterbecslés a ML módszerrel történt. A Wald teszt a H0 null és a H1 alternatív hipotézisek közötti standardizált Chi2 távolságot számítja és teszteli. A W_Chi2 teszt szabadsági foka a megszorítások száma. A „Likelihood Ratio” teszt alkalmazása Paramétereikben egymásba ágyazott modellek szelektálásának másik hipotézis vizsgálati eszköze a LR-teszt, mikor a paraméterbecslés a ML módszerrel történt. A H0 hipotézis megszorításai egy a paramétereiben korlátozott H0-modellt eredményez, mely szükségszerűen rosszabb LH0 Likelihood értéket ad, mint a paramétereiben H1 hipotézis alatt nem korlátozott H1-modell LH1 Likelihood értéke. H0 és H1 egyetértését vagy ellentmondását LH0 és LH1 viszonya minősíti. E távolság megítélésének relatív eszköze az LH0/LH1 likelihood-ratio statisztika, mely szükségszerűen 0 és 1 közötti érték. Nagymintás esetben az LR=(-2lnLH0)–(-2lnLH1) statisztika Chi2 eloszlású H0 érvénye mellett, annyi DF szabadsági fokkal, amennyi korlátozást tettünk a H0 és H1 modellek megkülönböztetése érdekében. A Chi2 metrika a H0 és a H1 hipotézisek Pszeudo-R2 távolságát méri. Speciális H0 hipotézisek: 1. A predictor X változók egy m számú (j+1, j+2, …,j+m) köre nem releváns, paramétereik értéke egyöntetűen zéró: elhagyásuk nem ront jelentősen a jelen modellen, 2. Adott X(j) predictor nem releváns, paramétere zéró: elhagyása nem ront jelentősen a jelen modellen, 3. Modell függetlenség (Independence): valamennyi X predictor irreleváns, paramétereik értéke egyöntetűen zéró : jelen modell előrejelzése lényegesen nem jobb mint a Null modellé. Szerző: Hajdu Ottó 9 Probit regresszió A probit regresszió célja szintén az Igen/Nem kategóriák egyikének az előrejelzése, feltételes valószínűség alapján, X prediktor változók értékeinek az ismeretében. A modell rokon a logit modellével, a módszertan a feltételes valószínűség eloszlástípusában különbözik. A feltevés egy latens, másképpen index-változó létezése, melynek skáláján extrém alacsony érték inkább a 0 (Nem), és extrém magas érték inkább az 1 (Igen) esemény bekövetkezésére utal. Maradva a csődmodell példánál, a latens index-változó neve a Csődhelyzet*, ami közvetlenül nem mérhető. Feltesszük, hogy van egy kritikus Cut_Csődhelyzet érték, amit meghaladva a kimenet Igen(1), egyébként a kimenet Nem(0). A Nyereség és Adósság szint prediktorok alkalmazásával a csődhelyzet modellezett értéke: Csődhelyzet(X) = Alfa + Béta1·Nyereség + Béta2·Adósság: alacsonyabb a csődhelyzet, ha magasabb a nyereség, és magasabb a csődhelyzet, ha magasabb az adósságszint. Eredményképp mi ebből annyit látunk, hogy a vállalkozás adott Nyereség és Adósság kombináció mellett Igen vagy Nem kimenetű. E feltevés mellett minden olyan Cut-értékre, mely kisebb mint a kalkulált Csődhelyzet(X), az előrejelzés: Igen(1). Ezért az Igen(1) esemény valószínűsége: Pr(1|X) = Pr( Cut < Csődhelyzet(X) ). A probit modell a Pr(1|X) valószínűséget a standard normális eloszlás Φ(.) eloszlásfüggvénye szerint kalkulálja a Csődhelyzet(X) pontban: Pr(1|X)_Probit = Pr( Cut < Csődhelyzet(X)) = Φ(Csődhelyzet(X) ). A paraméterbecslés – a Pr(1|X) és Pr(0|X) valószínűségek mintaelemeknek megfelelő választásával – a Maximum Likelihood módszerrel történik. A fenti gondolatmenet a logit modellre is alkalmazható: a logit regresszió a Pr( Cut < Csődhelyzet(X) ) valószínűséget a logisztikus eloszlás eloszlásfüggvénye szerint számítja: Pr(1|X)_Logit = Pr( Cut < Csődhelyzet(X) ) = 1 / [ 1+ e ^ -Csődhelyzet(X) ]. Szerző: Hajdu Ottó 10 Probit számítások Az összehasonlítás végett a 100 elemű Csőd-kimenet adatállományát elemezzük, melyek között 14 a Csőd(1) kimenet. Az index-változó becsült lineáris prediktora: Csődhelyzet = -2.059 -0.352Nyereség + 0.753Adósság. A [Nyereség = -4, Adósság = 2] vállalkozás becsült Csődhelyzete a standard normális z skálán: z = -2.059 -0.352·(-4) + 0.753·2=0.855, Tehát a feltételes csődvalószínűség: Pr( Csőd | Nyereség = -4, Adósság = 2 ) = Φ(0.855) = 0.804. Lévén ez a valószínűség két vállalkozásra vonatkozik, a következő 0.693 valószínűség pedig 4 vállalkozásra, stb., a minta likelihoodja: L=0.804^2 * 0.693^4 *…* 0.000^2 a fenti 3 koefficiens mellett maximális. Szerző: Hajdu Ottó 11 Szerző: Hajdu Ottó 12