lOMoARcPSD|10594476 Appunti Econometria Econometria applicata (Università di Bologna) StuDocu is not sponsored or endorsed by any college or university Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Econometria – 1° parziale L’econometria è usare i dati per misurare gli effetti. I dati possono essere cross-sectional (multiple entità osservate in un singolo periodo) e time-series (singole entità osservate in più momenti). Esaminiamo ora un caso concreto: che effetto ha sui punteggi dei test una riduzione delle dimensioni delle classi degli studenti? Le nostre variabili sono: TestScore (punteggio del test) e STR (student-teacher ratio, numero degli studenti diviso il numero dei professori). Ci sono tre step: 1. Stima: comparare i punteggi dei test con un basso STR con quelli con alto STR. 2. Ipotesi test: verifica l’ipotesi nulla che i punteggi medi del test nei due tipi di distretti siano gli stessi, contro l’ipotesi alternativa in cui differiscono. 3. Intervalli di confidenza: stimare un intervallo nei punteggi medi del test, comparando STR alto vs STR basso. Momenti di una distribuzione Univariata 1. Media: anche detto valore atteso, è il momento 1°. 2. Varianza: momento 2°. 3. Skewness 3 πΈ(π−ππ¦) ππ¦3 : misura l’asimmetria della distribuzione ed è il momento 3°. Se Sk = 0 la distribuzione è simmetrica. Se Sk > 0 la distribuzione ha una lunga coda destra (asimmetria positiva), mentre se Sk < 0 la distribuzione ha una lunga coda sinistra (asimmetria negativa). 4. Curtosi πΈ(π−ππ¦) ππ¦4 4 : è una misura di quanta massa c'è nelle sue code e pertanto, è una misura di quanto la varianza di Y derivi da valori estremi. Più è grande la curtosi, più probabili sono gli outlier. È il momento 4°. Se la curtosi = 3, la distribuzione è Normale, mentre se Sk > 3 è detta distribuzione leptocurtica. Multivariate π Covarianza πππ = π΅ ∑ ππ ππ − ππ ππ: è la misura di associazione lineare tra X e Y, detto in altre parole è una misura dell’intensità con la quale due v. c. si muovono insieme. Siccome la covarianza è il prodotto tra X e Y, la sua unità di misura è espressa nell'unità di misura di X*Y. Il massimo della covarianza è la varianza e quando è zero, X e Y sono indipendenti. È il momento 2° dell’analisi multivariata. π Correlazione πππ = π πππ : detta anche coefficiente di correlazione lineare, è la misura alternativa di π π indipendenza tra X e Y, che risolve il problema dell'unità di misura. È un numero puro compreso tra -1 e 1. Quando è zero, X e Y sono incorrelate e le rette sono perpendicolari tra loro. Quando è -1 c’è perfetta associazione lineare negativa. Quando invece è 1 c’è perfetta associazione lineare positiva. Stima Uno stimatore è una funzione di un campione di dati da estrarre in modo casuale da una popolazione, mentre una stima è un valore osservato di uno stimatore. Un parametro è una caratteristica della popolazione (come media, varianza). Nella stima l’obiettivo è quello di poter individuare un valore (stima puntuale) o un insieme di valori (stima intervallare), che risultino adeguati per approssimare la corrispondente quantità incognita della popolazione. Non si dispone di strumenti che consentano di valutare l’effettiva vicinanza del valore stimato al parametro reale, tuttavia è possibile specificare alcuni criteri di ottimalità nella scelta della statistica campionaria da utilizzare. Lo stimatore potrà avere valori diversi al variare del campione selezionato. Il valore realizzato sul campione osservato prende il nome di stima. Le principali caratteristiche per un buon stimatore sono: 1. Correttezza (o non distorsione): se la media campionaria è uguale alla media della popolazione, per n grande (legge dei grandi numeri). 2. Consistenza: è quando la probabilità che la media campionaria assuma valori in un piccolo intorno del vero valore della media e tenda a 1 al crescere della dimensione campionaria. 3. Efficienza: quando si tende a preferire lo stimatore con varianza minore. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 P-value Il p-value è la probabilità di commettere un errore di 1° specie (rifiuto la nulla quando questa è vera). In pratica è l'area nelle code della distribuzione. Se la probabilità di osservare valori più estremi di quello calcolato sulla base del campione è superiore al livello di significatività che si ha in mente, allora l’ipotesi nulla viene accettata, se invece è minore si rifiuta π»0 in favore dell’alternativa. In questo caso si mettono a confronto aree sotto la distribuzione campionaria anziché valori assumibili dalla statistica. Se riduco l’errore di 1° specie, incremento quello di 2° specie. Intervalli di confidenza Sono degli insiemi di valori che contengono la vera media della popolazione con una probabilità prefissata. Livello di confidenza: probabilità che la media appartenga all'intervallo. Probabilità di copertura: è la probabilità, calcolata su tutti i campioni casuali possibili, che esso contenga la vera media della popolazione. Test di ipotesi La verifica di ipotesi consiste nella valutazione della plausibilità di una certa assunzione, relativa alla popolazione statistica di riferimento, sulla base dell’evidenza fornita da un campione di osservazioni. L’ipotesi di lavoro viene denominata ipotesi nulla (H0), alla quale si è soliti contrapporre un’ipotesi alternativa (H1). La potenza del test equivale alla probabilità di rifiutare l’ipotesi nulla quando questa è falsa e, quindi, corrisponde ad una decisione corretta. Definiamo sinteticamente ‘test’ la regola che specifica per quali valori campionari si debba accettare l’ipotesi nulla e per quali valori campionari la si debba rifiutare. Qualsiasi sia la regola di decisione adottata, questa potrà portare ad una conclusione corretta, ma potrà anche indurre a commettere degli errori, che sono classificabili in due diverse tipologie: Vera H0 Vera H1 Accetto H0 Decisione corretta Errore del II tipo Accetto H1 Errore del I tipo Decisione corretta La strategia da utilizzare è quella di fissare il valore massimo delle probabilità dell’errore di 1° tipo che si è disposti ad accettare, e individuare la regione critica che minimizza la probabilità dell’errore di 2° tipo. Il valore di πΌ fissato a priori come massima probabilità di errore di 1° tipo prende il nome di livello di significatività del test (probabilità massima di rifiutare l’ipotesi nulla quando è vera) e consente di individuare il valore critico che separa la zona R da quella A. Regressione lineare La regressione lineare studia la dipendenza in media della variabile dipendente Y, dalla variabile esplicativa X. È detta “semplice” perché ha una sola variabile indipendente (X) e “lineare” perché studiamo la dipendenza in media attraverso una retta, detta retta di regressione lineare. L’obiettivo della costruzione di un modello è quello di fornire una rappresentazione semplificata della realtà che consenta di formulare interpretazioni e previsioni relativamente alla relazione oggetto di studio. La relazione non è di tipo deterministico, ma contiene, oltre all’equazione della retta, un termine di errore denotato come π’π . Tale componente di errore è l’insieme delle entità di minor importanza (omesse dal nostro modello), che non sono spiegate dalla X. I coefficienti della retta non sono ovviamente noti e devono essere stimati. L’obiettivo da perseguire è la vicinanza della retta ai dati osservati. Scrivendo questo modello facciamo due ipotesi fondamentali: la prima è che la variabile X sia l’unica variabile esplicativa, e la seconda è che assumiamo che questo legame tra X e Y sia spiegato tramite una retta. π½0 π π½1 sono due costanti e quindi se prendiamo in considerazione il valore atteso di una delle due avremo corrispondentemente come risultato una delle due. La πΜ è la fit, mentre π’Μ è il residuo, che mi permettono, se sommati al fit, di ottenere le n osservazioni prese in considerazione nel nostro modello, che necessariamente non saranno uguali a quelle stimate, perché noi non andiamo ad interpolare singolarmente tutti i punti, ma ne facciamo una stima tramite la retta. Più π’Μ è ampio e più il nostro modello spiega poco e male quello che vogliamo spiegare. In soldoni, π’Μ è la stima dei punti della variabile π’. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 π½Μ1 è quindi la variazione di voto in conseguenza di una variazione unitaria della dimensione della classe βπππ π‘ π ππππ ( βπππ ). Essa esprime la relazione esistente in media tra Y e X. Con gli OLS, i residui a zero, sono garantiti come risultato dall’aver stimato la costante con la stima degli OLS. 1. 2. 3. 4. 5. ππ₯π¦ ∑(ππ −πΜ )(ππ −πΜ ) = π2 : se la covarianza tra X e Y è positiva, allora il nostro π½Μ1 sarà positivo, e viceversa. π½Μ1 = ∑(π −πΜ )2 π π½Μ0 = πΜ − π½Μ1 πΜ π₯ 1 πΆππ£[(π ,π’ ] ππ½Μ21 = π [π£ππ(ππ )]2π π Μ 2 = 1 π−1 π ∑(ππ − πΜ )2 ππΈπ = √ 1 π−2 ∑ π’Μπ2 Misure di Fit L’πΉπ è calcolato come una misura del rapporto della variabilità di quello che la mia retta è in grado di spiegare rispetto alla variabilità del fenomeno. Esso è comodo perché quando non spiego niente della variabilità campionaria, l’πΉπ varrà zero. Al contrario, esso è 1. Inoltre, essendo un rapporto tra varianza sarà sempre positivo e non potrà andare né sotto né sopra l’unità. Esso è la frazione della varianza campionaria di ππ spiegata dai regressori. Equivalentemente, l’π 2 è uguale a uno meno la frazione della varianza di ππ non spiegata dai regressori. π»πΊπΊ (πππ‘ππ ππ’π ππ πππ’ππππ ) = π¬πΊπΊ (πΈπ₯πππππππ ππ) + πΉπΊπΊ (π ππ πππ’ππ ππ) = 2 ∑ π’Μπ2 πΈππ ∑(πΜπ − πΜ ) = ππππ’π = 1 − 2 ∑(ππ − πΜ )2 πππ ∑(ππ − πΜ ) πΉπ = π ο Il coefficiente angolare della retta è zero e quindi l’unica retta possibile è parallela all’asse delle ascisse e interseca l’asse delle ordinate in corrispondenza di ππ¦ . Il carattere X non ha nessun ruolo nello spiegare il comportamento della variabile dipendente, quindi il modello ha un pessimo adattamento ai dati. πΉπ = π ο Quando è 0 la devianza residua, ovvero quando tutti gli errori sono nulli. Tale situazione si verifica quando tutti i punti risultano allineati sulla retta: il modello mostra un adattamento perfetto ai dati. In questo caso tra i due caratteri X e Y quantitativi ci sarà indipendenza statistica. π ∑π Μ ππ ), è un indicatore che misura l’ordine di grandezza della variabilità degli Il secondo indicatore è il SER (√π−π errori. In altri termini, è lo stimatore della deviazione standard dell’errore di regressione ππ . Le unità di misura di π’π e ππ sono identiche, così il SER è una misura della dispersione delle osservazioni intorno alla retta di regressione, misurata nelle unità di misura della variabile dipendente. Poiché gli errori π’π sono inosservati, il SER è calcolato usando le loro controparti campionarie (π’Μπ ). Viene diviso per n – 2 perché sono due i parametri stimati. Il valore del SER è interpretabile nel momento in cui abbiamo un modello competitore con il quale paragonarlo. 1 1 ∑ π’Μπ2 e √ ∑(π’Μπ − π’Μ Μ )2 è che io posso riscrivere le “u” tra parentesi come π’ La differenza tra √π−2 Μ π2 perché negli π−2 OLS il valore medio dei residui è sempre zero. La differenza tra SE e SER è che lo Standard Error è in generale la radice quadrata della varianza (deviazione standard o scarto), lo Standar Error of Regression è una misura della varianza della regressione e quindi di bontà della regressione Traslazione degli assi È una notazione particolare del modello di regressione. La variabile è misurata in scarti rispetto alla media e i regressori vengono indicati con lettere minuscole. Ad esempio: π¦π = ππ − πΜ e π₯π = ππ − πΜ . Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Sostanzialmente si sposta l’origine da (π¦ = 0, π₯ = 0) π (π = πΜ , π = πΜ ). La retta stimata è sempre la stessa, ma è misurata lungo gli assi traslati (π¦π = π½Μ1 π₯π + π’π ). Manca la costante perché nel nostro nuovo grafico la retta passa per l’origine. La traslazione degli assi consiste nel tracciare una linea orizzontale e verticale in corrispondenza rispettivamente della media della X e della Y. Minimi quadrati ordinari Lo stimatore OLS sceglie i coefficienti di regressione in modo che la retta di regressione stimata sia il più possibile vicina ai dati osservati, dove la vicinanza è misurata dalla somma dei quadrati degli errori commessi nel predire Y utilizzando l'informazione in X. Il residuo è la differenza tra Yi e il suo valore predetto (π’Μπ = ππ − πΜπ ). Perché usare lo stimatore OLS? Innanzitutto, perché quello degli OLS è diventato il linguaggio comune degli economisti e degli statisti e poi perché lo stimatore OLS è non distorto, consistente ed efficiente (solo sotto alcune condizioni particolari). Legge delle aspettative iterate, se si prende il valore atteso di un valore atteso condizionale, ne viene fuori il valore non atteso del valore condizionato A: πΈ[πΈ(π΄|π΅)] = πΈ(π΄). Con il criterio dei minimi quadrati ordinari si procede minimizzando le differenze in verticale tra valori effettivi di ordinata e valori sulla retta corrispondenti alle osservazioni π₯π . Tali differenze vengono elevate al quadrato, eliminando in tal modo differenze di segno. Si cercano quei valori di intercetta e coefficiente angolare che minimizzano la somma dei quadrati degli errori, definiti come differenza tra valori effettivi della variabile dipendente e corrispondenti valori teorici sulla retta (π¦Μπ ). La retta è unica ed esiste un unico punto di minimo della funzione. Il coefficiente, avendo al numeratore la covarianza tra i due caratteri, può essere interpretato come segue: Μ π > π, si ha concordanza. 1. Se π· Μ 2. Se π·π < π, si ha discordanza. Μ π = π, si ha una situazione di indipendenza lineare poiché la covarianza è nulla (retta parallela 3. Se π· all’asse delle ascisse). Μ π = π, all’aumentare di un’unità di X anche Y aumenta di 1. 4. Se π· Con Gretl lasciamo sempre const (π½0 ) perché se io non la stimo con gli OLS allora non sto traslando gli assi, ma stimando un modello in livelli (che non ha la costante). Quindi se io non uso la costante negli OLS, la somma dei residui non ha più media zero. Fondamenti teorici degli OLS Quando n è grande, lo stimatore OLS è non distorto, consistente, ha varianza inversamente proporzionale a n e distribuzione campionaria Normale. Inoltre, se valgono le assunzioni degli OLS e se gli errori sono omoschedastici, allora lo stimatore OLS è BLUE. Queste assunzioni hanno un duplice ruolo. Il primo è matematico: se valgono queste assunzioni allora, in grandi campioni, gli stimatori OLS hanno una distribuzione campionaria Normale, che permette di sviluppare metodi per la verifica di ipotesi e la costruzione di intervalli di confidenza. Il secondo ruolo è quello di identificare le circostanze che creano difficoltà per la regressione OLS. Assunzioni degli OLS Assunzione 1: la distribuzione di ππ condizionata a πΏπ ha media nulla Questa assunzione è una formalizzazione matematica riguardante il ruolo degli “altri fattori” contenuti in π’π e afferma che essi non sono legati a ππ . Se una v. c. ha media nulla condizionata ad un’altra v. c., allora esse hanno covarianza nulla e sono perciò incorrelate. Per questo motivo, l’assunzione circa la media condizionata πΈ(π’π |ππ ) = 0 implica che ππ e π’π sono incorrelate. Siccome la correlazione è una misura di associazione lineare, non vale invece il contrario. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Assunzione 2: (πΏπ , ππ ) sono i.i.d. Se le osservazioni sono estratte con campionamento casuale semplice da un’unica ampia popolazione allora (ππ , ππ ) sono i.i.d. Assunzione 3: gli outlier sono improbabili Gli outlier possono rendere fuorvianti i risultati della regressione. Assumiamo che X e Y abbiano momenti quarti finiti e non nulli. Un altro modo di esprimere questa assunzione è dire che X e Y hanno curtosi finita. Distribuzione campionaria degli stimatori OLS Siccome gli stimatori OLS π½Μ0 e π½Μ1 sono calcolati per un campione i.i.d., sono essi stessi v. c. con una distribuzione di probabilità, che descrive i valori che essi possono assumere nei diversi campioni possibili. Se il campione è sufficientemente numeroso, per il teorema del limite centrale la distribuzione campionaria di π½Μ0 e π½Μ1 è ben approssimata da una Normale bivariata. Inoltre, quando n è grande i due parametri sono vicini ai veri coefficienti della popolazione π½0 π π½1 . Questo accade perché le varianze ππ·Μ2π e ππ·Μ2π tendono a zero al crescere di n. In generale, maggiore è la varianza di ππ , minore è ππ·Μ2π . Inoltre, maggiore è la varianza di X, più preciso risulta π½Μ1 . Matematicamente questo accade perché ππ·Μ2π è inversamente proporzionale al quadrato della varianza di ππ . È vero anche che più piccola è la varianza dell’errore, più piccola è la varianza di π½Μ1 , perché l’errore è presente al numeratore. Regressione con un singolo regressore: verifica di ipotesi e intervalli di confidenza Verifica di ipotesi circa π·π La verifica di ipotesi consiste nel porre π½1 = 0 come π»0, contro π»1 : π½1 ≠ 0. Per ottenere questa statistica basta prendere π½Μ1 e dividerlo per lo ππΈ(π½Μ1 ). Per verificare π»0, seguiamo tre step. Il primo è quello di calcolare ππΈ(π½Μ1 ), che è uno stimatore di ππ½Μ1 . Il secondo passo è la statistica test. Il terzo passo è il p-value, dove nel caso in cui fosse inferiore al 5% fornirebbe evidenza sfavorevole ad π»0, nel senso che, sotto l’ipotesi nulla, la probabilità di ottenere un valore di π½Μ1 lontano da π»0, almeno quanto quello effettivamente osservato, è inferiore al 5%. In questo caso, π»0 è rifiutata al livello di significatività del 5%. In alternativa, π»0 può essere verificata al 5% semplicemente confrontando il valore assoluto della statistica t con 1,96 e rifiutando π»0 se |π‘ πππ‘ | > 1,96. Nel caso dell’alternativa unilaterale, si rifiuta π»0 in favore di π»1, per valori grandi e negativi della statistica t, ma non per valori grandi e positivi. Uso della statistica t nella regressione quando il campione è piccolo Quando n è piccolo, la distribuzione esatta della statistica-t è complicata e dipende dalla distribuzione ignota dei dati nella popolazione. Tuttavia, se valgono le tre assunzioni degli OLS e se gli errori di regressione sono omoschedastici e si distribuiscono normalmente, allora lo stimatore OLS si distribuisce normalmente e la statistica t classica ha una distribuzione t di Student. Poiché la differenza tra la distribuzione t di Student e la normale è trascurabile per n grande, questa distinzione vale solo se n è piccolo. Queste cinque assunzioni sono dette assunzioni della regressione normale omoschedastica. Formule per la statistica t 1. 2. Μ 1 −π½1 π½ Μ1) √ππ΄π (π½ Μ 1 −π½1 π½ Μ1) ππΈ(π½ ~π(0,1). ~ π‘π−2 . Intervalli di confidenza per π·π Un intervallo di confidenza di livello 95% per π½1 ha due definizioni equivalenti: in base alla prima, è l’insieme dei valori che non si possono rifiutare usando un test d’ipotesi bilaterale con il livello di significatività del 5%. In base alla seconda, è un intervallo che ha probabilità del 95% di contenere il vero valore di π½1 . Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Le due definizioni sono equivalenti perché un test con significatività del 5%, per definizione, rifiuterà il vero valore di π½1 soltanto nel 5% di tutti i possibili campioni. Eteroschedasticità e omoschedasticità Se, in aggiunta alla 1° assunzione degli OLS, la varianza di questa distribuzione non dipende da ππ , allora, si dice che gli errori sono omoschedastici. Altrimenti, l’errore è eteroschedastico. Le assunzioni degli OLS si applicano sia al caso generale di etero, sia al caso speciale di omo. Dunque, gli stimatori OLS rimangono non distorti e consistenti. Oltre che inversamente proporzionale ad n e alla π£ππ(ππ ), nel modello omoschedastico, π£ππ(π½Μ1 ), è direttamente proporzionale alla π£ππ(π’π ). Se gli errori sono eteroschedastici, la statistica t non ha una distribuzione Normale neanche per grandi campioni. 1 ππ΄π (π₯π π’π) Errori eteroschedastici: ππ΄π (π½Μ1 ) = ed Errori omoschedastici: ππ΄π (π½Μ1 ) = 4 π ππ₯ 2π2 1 ππ’ π₯ π ππ₯2 ππ₯2 = 2 1 ππ’ π ππ₯2 → ππΈ(π½Μ1 ) Efficienza dello stimatore OLS quando gli errori sono omoschedastici Se valgono le assunzioni degli OLS e, in aggiunta, gli errori sono omoschedastici, allora gli stimatori OLS π½Μ0 e π½Μ1 sono BLUE (teorema di Gauss-Markov). Questo teorema ha però due limiti importanti. In primo luogo, le sue condizioni potrebbero non valere. In questo caso potrebbe tornare utile lo stimatore dei minimi quadrati ponderati. Il secondo limite è che, sebbene possano valere le condizioni del teorema, ci sono altri stimatori alternativi che non sono lineari e condizionatamente non distorti. Sotto certe condizioni, questi altri stimatori sono più efficienti degli OLS. È più realistica l’omoschedasticità o l’eteroschedasticità? La risposta dipende dall’applicazione. In generale l’eteroschedasticità si ritrova in molte applicazioni econometriche. A livello generale, dunque, la teoria economia raramente offre ragioni per credere che gli errori siano omoschedastici, a meno che non ci sia un’evidenza chiara per credere il contrario. Il maggior problema in questo caso è rappresentato dal dubbio di usare gli errori standard classici o quelli robusti all’eteroschedasticità. Se essi sono simili, non si perde nulla ad usare quelli robusti. Se però differiscono, bisognerebbe usare quelli più affidabili che tengono conto dell’eteroschedasticità. La via più semplice è appunto usare sempre gli errori standard classici. Capitolo 6 – Regressione lineare con regressori multipli Quando abbiamo solo un’esplicativa, allora l’interpretazione del parametro è la variazione di Y per una variazione unitaria di X. Nel modello con più variabili esplicative, π½Μ1 è la variazione di Y per una variazione unitaria di X1 a parità di X2. Quindi π½Μ1 isola l’effetto della classe dopo che idealmente abbiamo tenuto costante la composizione di questa classe. Dunque, il nostro π½Μ1 ci fornirà un’informazione molto più concentrata sull’effetto della X, perché ci spiega l’effetto della X in un mondo teorico dove l’effetto della classe è mantenuto costante. Quindi se io ometto l’effetto della composizione della classe, esso finisce nel nostro modello e dunque risulterà distorto. Come può un metodo di stima, che conosce dati ex-post, riuscire a isolare un effetto di ceteris paribus? Quando abbiamo solo un’esplicativa, π½Μ1 gioca sul rapporto tra covarianza di Y (che contiene anche l’effetto della X2) ed X1 e la varianza di X1. Questa formula però cambia quando ho una X2, in una formula più complessa che comprende la covarianza tra X1 e X2 (fattore cruciale perché compare sia a numeratore che a denominatore), la covarianza tra Y e X2, e la varianza di X2. Quindi se supponiamo che X1 e X2 non covarino, allora la formula che rimane è quella di π½Μ1 nel caso di una sola variabile esplicativa. Nel caso in cui abbiamo due variabili esplicative, la somma del quadrato dei residui è minore rispetto al primo caso in cui abbiamo una sola esplicativa. Questo perché nel primo caso abbiamo due parametri e nel secondo ne abbiamo tre. Quanto più è importante l’avere aggiunto la variabile Z, tanto più la somma dei residui del secondo modello sarà più bassa. Più sono le variabili esplicative e più la condizione di minimo può scendere. Di quanto scende questa somma, dipenderà dall’importanza della X2 che ho aggiunto. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Definizione di distorsione da variabili omesse La distorsione da variabile omessa si verifica quando valgono due condizioni: la variabile omessa è correlata con il regressore incluso e la variabile omessa contribuisce a determinare la variabile dipendente. La distorsione da variabile omessa è dovuta al venir meno della prima ipotesi dei minimi quadrati πΈ (π’π |ππ ) = 0. In altre parole, se una variabile omessa è una determinante di ππ , essa è inclusa nell’errore e, se è correlata con ππ , anche l’errore è correlato con ππ . Siccome π’π π ππ sono correlati, avremo πΈ(π’π |ππ ) ≠ 0. Questa correlazione perciò viola la prima ipotesi degli OLS e la conseguenza è che lo stimatore OLS è distorto ed inconsistente (non svanisce neanche in grandi campioni). Una formula per la distorsione da variabili omesse Sia ππππ(ππ , π’π ) = πππ’ la correlazione tra ππ e π’π . Si supponga che valgano la seconda e terza assunzione degli π OLS, ma non la prima dato che πππ’ è non nullo. Allora, il limite dello stimatore OLS è: π½Μ1 → π½1 + πππ’ ππ’ . In π π₯ altre parole, al crescere della dimensione campionaria, π½Μ1 è prossimo a π½1 + πππ’ ππ’ con probabilità sempre π₯ più elevata. Maggiore è πππ’ e maggiore sarà la distorsione. Il segno della distorsione di π½Μ1 dipende dal fatto che X e u siano positivamente o negativamente correlati. 1 Nella regressione multipla, il SER è = √π−π−1 ∑ π’Μπ2. Si divide per π − π − 1 perché corregge la distorsione verso il basso introdotta dalla stima di k+1 coefficienti (correzione per i gradi di libertà). Μ π Indice di determinazione lineare corretto πΉ Nella regressione multipla, l’π 2 cresce ogni volta che si aggiunge un regressore, a meno che il coefficiente del regressore aggiunto sia esattamente pari a zero. Ma un aumento dell’π 2 non significa che aggiungere una variabile migliori realmente l’adattamento del modello. In questo senso, l’π 2 fornisce una stima in eccesso della bontà della regressione. Un modo per correggere questo effetto è quello di utilizzare l’π Μ 2 . Esso non π 2 πππ π−1 ∗ = 1 − π’2Μ , dove il aumenta necessariamente se si aggiunge un nuovo regressore. La sua formula: π Μ 2 = 1 − π−π−1 π π πππ π−1 tutto è moltiplicato per π−π−1 . Tre risultati utili da sapere: π−1 1. Innanzitutto, essendo π−π−1 sempre maggiore di 1, l’π Μ 2 sarà sempre minore dell’π 2 . 2. In secondo luogo, l’aggiunta di un regressore ha due effetti opposti sull’π Μ 2 . Da un lato, l’SSR decresce, π−1 il che fa aumentare l’π Μ 2 . Dall’altro, il fattore π−π−1 aumenta. L’aumento o diminuzione dell’π Μ 2 dipende da quale dei due effetti è il più forte. Μ 2 può essere negativo. Questo accade quando i regressori riducono la somma dei 3. In terzo luogo, l’π π−1 . quadrati dei residui di un ammontare così piccolo da non bilanciare il fattore π−π−1 Μ π Interpretazione pratica dell’πΉπ e dell’πΉ Ci sono quattro potenziali problemi da cui guardarsi quando si usano l’π 2 e l’π Μ 2 : 1. Un aumento dell’π 2 , o dell’π Μ 2, non significa necessariamente che la variabile aggiunta sia statisticamente significativa. L’π 2 cresce ogni volta che si aggiunge un regressore, indipendentemente dalla significatività. L’π Μ 2 non cresce in ogni occasione, ma se aumenta non vuol dire necessariamente che il coefficiente del regressore aggiunto sia statisticamente significativo. Per accertarsi della significatività di una variabile aggiunta, è necessario condurre un test di ipotesi usando la t. 2. Un π 2 o un π Μ 2 elevato non implica che i regressori siano la vera causa della variabile dipendente. 3. Un π 2 o un π Μ 2 elevato non implica che non vi sia distorsione da variabili omesse. Di contro, un basso π 2 non implica che ci sia necessariamente una distorsione da variabile omessa. 4. Un π 2 o un π Μ 2 elevato non significa necessariamente che abbiamo scelto l’insieme di regressori più appropriato, né un basso π 2 o π Μ 2 implica che ne abbiamo scelto uno inappropriato. In sintesi l’π 2 e l’π Μ 2 non ci dicono se: 1. 2. 3. 4. Una variabile inclusa è statisticamente significativa. I regressori sono causa effettiva dei movimenti della variabile dipendente. C’è distorsione da variabili omesse. Abbiamo scelto il gruppo di regressori più appropriato. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Collinearità Nel caso di collinearità perfetta è impossibile calcolare lo stimatore OLS. Si dice che i regressori mostrano collinearità perfetta se uno di essi è funzione lineare esatta degli altri. In sostanza, la quarta assunzione è che i regressori non siano perfettamente collineari. Nella regressione multipla, il coefficiente di uno dei regressori è l’effetto di una variazione nel regressore stesso, tenendo gli altri costanti. Diversamente, la collinearità imperfetta non impedisce la stima della regressione, né comporta un problema logico con la scelta dei regressori. Tuttavia, essa implica che uno o più coefficienti di regressione possono essere stimati in modo impreciso. Quanto più grande è la correlazione tra i due regressori, tanto più questo termine è prossimo a zero e quindi tanto più grande è la varianza di π½Μ1 . Più in generale, quando i regressori multipli sono imperfettamente collineari, allora i coefficienti di uno o più di questi regressori sono stimati in modo impreciso. Se noi abbiamo due variabili esplicative ed esse sono correlate, sappiamo che necessariamente aumenta la varianza rispetto al caso in cui la seconda variabile non compariva. Ma ci sono alcuni casi in cui la varianza può addirittura ridursi, perché l’effetto della correlazione fa aumentare la varianza, ma quando aggiungiamo variabili importanti, la stima di questo cambia e il SER diventa più piccolo e allora la varianza con due esplicative ha un effetto netto che dipende da un lato di quanto le due esplicative sono correlate (questo mi confonde e fa aumentare la varianza), e dall’altro se l’aggiunta della seconda mi abbatte il SER, allora può succedere che la varianza diminuisce rispetto a prima, nonostante la collinearità. Capitolo 7 – Verifica di ipotesi e intervalli di confidenza nella regressione multipla Verificare un π»0 congiunta usando la solita statistica t non è possibile. Inoltre, se i regressori sono correlati, la situazione è ancora più complicata. Il livello minimo della procedura “coefficiente per coefficiente” dipende dal valore della correlazione tra i regressori. Poiché questo approccio ha un livello minimo errato, ovvero il suo tasso di rifiuto sotto π»0 non è uguale a livello di significatività desiderato, è necessario un nuovo approccio. Un’ipotesi congiunta è un’ipotesi che impone due o più restrizioni sui coefficienti di regressione. Se una, o più, delle uguaglianze sotto π»0 è falsa, allora π»0 congiunta è falsa. Perciò, π»1 è che almeno una delle uguaglianze di π»0 non valga. La statistica F La statistica F è usata per verificare ipotesi congiunte sui coefficienti di regressione. Quando π»0 contiene le 2 2 −2π Μπ‘1,π‘2 π‘1 π‘2 due restrizioni π½1 = 0 e π½2 = 0, la statistica F combina le due statistiche t tramite la formula: πΉ = 12 (π‘1 +π‘21−π ), Μ2 π‘1,π‘2 dove πΜπ‘1,π‘2 è uno stimatore della correlazione tra le due statistiche t. Se le statistiche sono incorrelate, invece, la formula diventa πΉ = 12 (π‘12 + π‘22 ), che è la media dei quadrati delle statistiche t. Nel caso di π = 1, la statistica F verifica una singola restrizione, quindi π»0 congiunta si riduce all’ipotesi nulla su un singolo coefficiente di regressione, e la statistica F è il quadrato della statistica t. La si rifiuta se è maggiore di 3, valore critico al 5%. Una statistica F grande dovrebbe essere associata ad un sostanziale aumento dell’π 2 . In effetti, se il termine di errore è omoschedastico, la statistica F può essere scritta in termini di miglioramento nell’adattamento della regressione, misurato dalla somma dei quadrati dei residui oppure dall’π 2 della regressione. La statistica F risultante è nota come statistica F classica, ed è valida solo se il termine di errore è omoschedastico. Al contrario, la statistica F robusta all’eteroschedasticità è valida a prescindere che il termine di errore sia omo o eteroschedastico. La statistica F classica si calcola tramite una semplice formula basata sulla somma dei quadrati dei residui di due regressori. Nella prima regressione, chiamata regressione vincolata, si impone π»0. Nella seconda regressione, chiamata regressione non vincolata è considerata vera π»1. Se la somma dei quadrati dei residui è sufficientemente più piccola nella regressione non vincolata, il test rifiuta π»0. La statistica F classica è data dalla formula: πΉ = πππ πππ π‘ππππ‘ππ − πππ π’ππππ π‘ππππ‘ππ ⁄π , con πππ πππ π‘ππππ‘ππ (somma dei quadrati dei residui della regressione vincolata), ⁄π−π πππ −1 π’ππππ π‘ππππ‘ππ π’ππππ π‘ππππ‘ππ (somma dei quadrati dei residui della regressione non vincolata), q (numero di restrizioni sotto l’ipotesi nulla) e ππ’ππππ π‘ππππ‘ππ (numero di regressori nella regressione non vincolata). πππ π’ππππ π‘ππππ‘ππ Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 2 2 ⁄π − π πππ π‘ππππ‘ππ) Una formula equivalente è basata sugli π 2 delle due regressioni: πΉ = 1−π (π 2π’ππππ π‘ππππ‘ππ⁄π−π π’ππππ π‘ππππ‘ππ π’ππππ π‘ππππ‘ππ −1 . Queste formule valgono solo se gli errori sono omoschedastici. Meno accettabili sono le restrizioni di π»0, più forte sarà la caduta in termini di π 2 , e quindi una F che sarà maggiore, e tanto più maggiore quanto più è la perdita di π 2 a causa delle restrizioni introdotte. Maggiore è la F, più piccola sarà la coda di questa statistica. Lo stesso discorso può essere fatto guardando non tanto al differenziale tra gli π 2 , ma guardando al differenziale tra la somma del quadrato dei residui del modello vincolato e non vincolato, perché se noi sotto π»0 restringiamo a zero dei parametri che sono importanti per spiegare il modello, non solo avremo una caduta dell’π 2 , ma simmetricamente avremo una somma del quadrato dei residui sempre più grande (perché riesco a minimizzare di meno, mancando delle variabili importanti). Tra le due formule, vincolato e non vincolato si invertono perché più tolgo delle variabili importanti sotto π»0, più il modello vincolato avrà delle performance peggiori sotto l’π 2 , quindi bisognerà avere il modello non vincolato prima, così da non far risultare la differenza negativa, dato che la F è sempre positiva. Il passaggio da un πΉπ = π, ππ ad un πΉπ = π, ππ, è un salto poco o molto forte? Questo dipenderà dalla F che ne verrà fuori. In questo caso la πΉ = 8, e quindi il valore di probabilità è sicuramente inferiore al 5%. Dunque, va molto nelle code ed io non accetto le restrizioni che mi portano a π 2 = 0,41. Come fare a considerare congiuntamente questi movimenti di due o più parametri? Fin tanto che ci muoviamo con due parametri, allora possiamo vedere la cosa graficamente e quindi ciò che sta a monte del test F (intervallo di confidenza) diventa una regione di confidenza (ellisse). Ne viene fuori un’ellisse perché avendo calcolato la regione di confidenza con la F, non si usano solo lo SE e la stima dei singoli parametri ma si usa anche la covarianza tra X1 e X2. La parte più lunga è orientata in direzione basso-sinistra/alto-destra. La ragione di tale orientamento è che la correzione stimata tra π½Μ1 π π½Μ2 è positiva, il che deriva a sua volta dalla correlazione negativa tra Y e X2. Capitolo 8 – Funzioni di regressione non lineari Se la relazione tra X e Y è non lineare allora: 1. Gli effetti su Y di un cambiamento di X dipendono dal valore di quest’ultimo, cioè che l’effetto marginale di X (derivata prima) non è costante. 2. La regressione lineare è mal spiegata. La forma funzionale è sbagliata. 3. Gli stimatori degli effetti su Y di X sono distorti. Un approccio generale per modellare la non linearità usando la regressione multipla 1. Identificare una possibile relazione non lineare: ci si deve chiedere se la pendenza della funzione di regressione che mette in relazione Y e X possa dipendere dal valore di X o da un’altra variabile. 2. Specificare una funzione non lineare e stimarne i parametri con gli OLS. 3. Comprendere se il modello non lineare costituisce un miglioramento rispetto a un modello lineare. 4. Disegnare la funzione di regressione non lineare stimata. 5. Stimare l’effetto di una variazione di X su Y. Funzione di regressione non lineare generale: ππ = π(πΏππ , πΏππ , πΏππ ) + ππ Polinomi 2 ππ = π½0 + π½1 π1π + π½2 π2π + π’π è detto modello di regressione quadratico perché la funzione di regressione della 2 popolazione πΈ(ππ |ππ ) = π½0 + π½1 π1π + π½2 π2π è ipotizzata quadratica nella variabile indipendente X. Poiché il modello di regressione quadratico è una variante della regressione multipla, i suoi coefficienti ignoti possono essere stimati e sottoposti a verifica. Il grado del polinomio dipende dalla potenza r più elevata di X inclusa nella regressione. Se la funzione di regressione della popolazione è lineare, il termine quadratico e quello di ordine superiore non rientrano nella funzione di regressione. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Quale grado di polinomio usare? Di solito non si va oltre il terzo grado. L’aumento del grado R introduce maggiore flessibilità nella funzione di regressione e permette di catturare forme più varie. Aumentare r significa però aggiungere più regressori, il che può ridurre la precisione delle stime. Un modo pratico per determinare il grado del polinomio consiste nel verificare se i coefficienti associati ai valori più elevati di r siano nulli. Se lo sono, questi termini possono essere eliminati dalla regressione. Questo procedimento, chiamato verifica di ipotesi sequenziale, consiste nei seguenti passaggi: 1. Si sceglie un valore massimo per r e si stima la regressione polinomiale per quel valore. 2. Si utilizza la statistica t per verificare l’ipotesi che il coefficiente di π π sia nullo. Se tale ipotesi viene rifiutata, allora π π entra nella regressione e va usato un polinomio di grado r. 3. Se non si rifiuta π½π = 0 al passaggio 2, si elimina π π dalla regressione e si stima una regressione di grado inferiore. Si verifica che il coefficiente di π π−1 sia nullo. Se tale ipotesi viene rifiutata, si usa un polinomio di grado r-1 4. Se non si rifuta π½π−1 = 0 al passaggio 3, allora questo procedimento deve essere ripetuto finché il coefficiente della potenza massima nel nostro polinomio diventa statisticamente significativo. In questo caso bisogna utilizzare una statistica F. Logaritmi Un altro modo di specificare una funzione di regressione non lineare, è quello di usare il logaritmo naturale di Y o di X. I logaritmi convertono variazioni delle variabili in variazioni percentuali, e molte relazioni sono espresse in modo naturale in termini percentuali. La funzione esponenziale e il logaritmo naturale (sua inversa) giocano un ruolo importante nel modellare funzioni di regressioni non lineari. La funzione esponenziale di x è π π₯ , π = 2,718. Il logaritmo naturale è l’inverso della funzione esponenziale. Il legame tra logaritmi e percentuali si basa sulla seguente proprietà: quando βπ₯ è piccolo, la differenza tra il βπ₯ logaritmo di π₯ + βπ₯ e il logaritmo di x è approssimativamente π₯ (stretta approssimazione percentuale), la variazione percentuale di x divisa per 100: ln(π₯ + βπ₯) − ln(π₯) ≅ βπ₯ π₯ . I residui, gli π 2 e qualsiasi indicazione che ha a che vedere con l’adattamento del modello ai dati, non sono confrontabili con quelli lineari poiché i primi spiegano una variazione percentuale, mentre i secondi spiegano una variazione lineare. βπ⁄π π·π = βπΏ/πΏ → π¬ππππππππà, πππ πππ πππππππ π πππ′ πππ πππ π π πππππ ππππ π π πΏ. Capitolo 12 – Regressione con variabili strumentali Ci sono tre minacce che mettono in pericolo l’ipotesi πΈ(π’π |ππ ) = 0: omissione da variabile omessa, causalità simultanea (X causa Y e viceversa), errori in variabili distorte (X è misurata con errore). Le variabili strumentali possono eliminare questa distorsione, usando una variabile strumentale Z. Questo modello utilizza quindi un’informazione contenuta in una variabile Z esterna al modello (incorrelata con u). Esso opera, quando siamo nella situazione in cui la X è una variabile endogena esplicativa, dividendo la X in due parti: una parte correlata con l’errore e una no. Isolando la parte che non è correlata con l’errore, è possibile stimare π½1 . Affinché lo strumento Z sia valido, deve soddisfare due condizioni: Rilevanza: ππππ(ππ , ππ ) ≠ 0 ed Esogeneità: ππππ(ππ , π’π ) = 0. Variabile endogena: è una variabile che è correlata con l’errore. Quindi la Y è sempre correlata con l’errore. Variabile esogena: è una variabile che è incorrelata con l’errore. Quindi la Y non può essere esogena, mentre la X si, poiché in questo caso si possono usare gli OLS. Esempio criminalità con π·π > π Nel caso in cui si avesse la spesa per la sicurezza per spiegare il tasso di criminalità, si regredisse con gli OLS e π½1 venisse positivo, cosa vorrebbe dire? Questo segno positivo dipende dal fatto che in un modello in cui la spesa per la sicurezza causa la criminalità, gli errori di quel modello sono correlati con la variabile esplicativa Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 “spesa per la sicurezza”, perché non solo a maggiori spese per la sicurezza corrisponde minore criminalità, ma a meno criminalità corrisponde meno spesa per la sicurezza. Ad esempio, in alcune zone con alti tassi di criminalità si riscontra una maggiore spesa per la sicurezza, ma questo non perché la maggior spesa porta ad una maggiore criminalità, ma proprio perché si investe in quelle zone che sono più afflitte da questo problema. In sintesi, negli OLS, il parametro π½1 dipende dalla ππ₯π¦ , per questo viene positivo e non negativo nell’esempio prima. Quindi non andrebbero proprio usati gli OLS in questo caso. Minimi quadrati a due stadi (TSLS) – Stima con variabili strumentali Questa stima viene sviluppata tramite due regressioni consecutive con gli OLS. Il primo stadio consiste nell’isolamento della X che non è correlata con il termine di errore e questa scomposizione viene fatta tramite una regressione in cui la variabile dipendente è X e la variabile esplicativa è Z. Questa regressione non ha nulla a che vedere con il modello iniziale, ma ci dice semplicemente il modo in cui la variabile Z spiega la variabile X (esogena). Il modello è il seguente: ππ = π0 + π1 ππ + π£π , di cui π0 + π1 ππ non è correlata con π’π , mentre π£π e ππ sono correlati con π’π . Affinché la Z sia valida, non basta che sia esogena, ma deve anche essere rilevante. Quest’ultima cosa la capiamo dal fatto che la Z la usiamo come variabile esplicativa. Regressione di forma ridotta 1° stadio L’ipotesi di rilevanza di Z l’andiamo a verificare andando a studiare l’ipotesi nulla che π1 = 0. Quindi prenderemo πΜ1 , lo divideremo per il suo SE e calcoleremo la t di Student. Se rifiutiamo l’ipotesi nulla, allora possiamo affermare che Z è uno strumento rilevante. La rilevanza equivale alla verifica statistica della significatività dei parametri delle variabili esogene, a partire dai risultati di stima degli OLS del modello di 1° stadio, regressione di forma ridotta, un modello in cui la variabile X, endogena ed esplicativa, viene regredita contro tutti gli strumenti che ho a disposizione. 2° stadio Al secondo stadio, stimiamo il nostro modello OLS: ππ = π½0 + π½1 πΜπ + π’π , dove πΜπ è stata ottenuta nella regressione del 1° stadio (che sarà quindi incorrelata con l’errore). Questo modello TSLS si fonda sulla teoria dei grandi campioni. Nella regressione di 2° stadio, l’unico prodotto che può essere utilizzato con certezza e proprietà statistica sono le due stime. Modello di regressione multipla con variabili strumentali In questo modello possiamo avere k variabili esplicative endogene X ed r variabili esogene W. Quindi avremo potenzialmente k+r+1 parametri da stimare con le variabili strumentali. In generale, possiamo ipotizzare di avere m variabili strumentali Z. Identificazione In una regressione con variabili strumentali, se i coefficienti sono identificati o meno dipende dalla relazione tra il numero di strumenti (m) e il numero di regressori endogeni (k). Se il modello è non identificato (π > π), non possiamo stimare con variabili strumentali perché non abbiamo abbasta strumenti. Nel caso in cui π = π (esattamente identificato), abbiamo l’informazione minima per poter stimare con variabili strumentali. Se invece π > π (sovraidentificato), abbiamo più strumenti di quelli di cui avremo bisogno. La sovraidentificazione è interessante perché noi abbiamo a disposizione dei test che vengono detti test di esogeneità degli strumenti che possono essere effettuati solamente se siamo in presenza di modelli sovraidentificati. Se π = 1 ed abbiamo m strumenti, nel 1° stadio, per scorporare la componente esogena della X rispetto a quella endogena, regrediamo la variabile X contro tutte le variabili esogene. Nel 2° stadio, come sempre, sostituiremo la X endogena, con quella esogena stimata. Per avere uno SE corretto su Gretl, dovremo stimare in un colpo tramite i TSLS. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Controllo della rilevanza ed esogeneità Rilevanza: almeno uno strumento deve essere utilizzato per poter fare la regressione di 1° stadio. Almeno uno strumento perché, nel caso in cui non avessimo strumenti, andremo a regredire la X contro la W (perfetta collinearità). Se noi abbiamo strumenti deboli, significa che gli strumenti non sono rilevanti. Gli strumenti deboli spiegano molto poco della variazione di X, oltre quella spiegata da W. In questo caso, possiamo fare una statistica F per verificare, sotto π»0, che tutti i nostri ππ siano zero. Se, nel 1° stadio, la F è minore di 10, gli strumenti saranno deboli. Se gli strumenti sono deboli, saranno distorti ed inconsistenti, quindi l’inferenza che faremo sarà sbagliata. Cosa succede se ci troviamo nel caso di strumenti deboli? Noi sappiamo che π½Μ1πππΏπ = πππ ⁄πππ . Nel caso di strumenti deboli, il denominatore tende a zero e dunque la sua distribuzione asintotica, e le corrispondenti t statistiche, non saranno approssimativamente Normali. Esogeneità: tutti gli strumenti devono essere incorrelati con il termine di errore. Questo perché se uno dei nostri strumenti fosse correlato con l’errore, avremo una contaminazione della X stimata. Il J-test (test di esogeneità degli strumenti, di sovraidentificazione o test di Sargan) che va a fare il confronto tra stime alternative, ci dice se i parametri sono molto simili o poco simili. Questo test prevede che, sotto π»0, le restrizioni di sovraidentificazione non sono rifiutate, e quindi che gli strumenti sono esogeni. I passi da seguire per calcolare il test J sono più complessi. Innazitutto, bisogna fare la stima con i TSLS, usando tutti gli strumenti. Dopodiché, di questa stima, bisogna memorizzare i residui. Infine, bisogna regredire questi residui contro tutte le variabili esogene che compaiono nel nostro problema. La J-statistica si calcola: π± = ππ, dove la F è ottenuta al terzo punto, andando a verificare l’ipotesi che i coefficienti sulle Z siano tutti zero. Supponiamo un modello che ha una sola variabile esplicativa endogena e due strumenti. Quante stime consistenti posso fare usando il metodo delle variabili strumentali? La risposta è tre, di cui una sovraidentificata (quella con lo SE minore), e le altre due esattamente identificate. Se esse risultano simili, allora saranno consistenti, dunque tutti gli strumenti saranno validi. Se invece differiscono di molto, esse non saranno consistenti e gli strumenti non saranno validi (endogeni e non esogeni). Distribuzione della J-statistica Sotto l’ipotesi nulla che tutti gli strumenti siano esogeni, J si comporta come un π2 con π − π gradi di libertà. Se π = π, (π½ = 0), allora non possiamo fare la verifica perché ci deve essere almeno un grado di libertà. Se alcuni strumenti sono esogeni ed altri endogeni, la J sarà grande e dunque noi tenderemo a rifiutare π»0 che tutti gli strumenti sono esogeni. Test di Hausman – test di esogeneità debole Il test di Hausman è un test di esogeneità congiunta di tutte le variabili esplicative del modello. La procedura è la seguente: stimo il modello con varabili strumentali, dopo che ho verificato che gli strumenti che sto utilizzando sono validi. Poi lo stesso modello lo stimo con gli OLS. Quest’ultima stima sarebbe corretta e consistente, solo nel caso in cui la variabile considerata endogena sia esogena. Quindi il test di Hausman confronta la stima OLS con quella delle variabili strumentali. Più queste stime sono vicine, più significa che la variabile considerata endogena è in realtà esogena. In questo caso, si preferiscono quelle degli OLS, poiché sono BLUE. Serie storiche Nel caso delle cross-section, noi assumevamo che i dati erano i.i.d. Dirlo anche per le serie storiche non ha senso, perché i dati in quest’ultima hanno memoria e quindi necessariamente saranno collegati tra di loro. Dunque, la seconda assunzione nel caso delle serie storiche presuppone che il campione sia estratto da una popolazione stazionaria, perché se così non fosse, tutte le medie, autocovarianze e varianze si basano su parametri che nella popolazione non sono costanti. Gli indici finanziari invece sono i.i.d. ed infatti non è possibile prevedere i loro valori futuri, a differenza delle serie storiche, poiché sono delle random walks. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Perché usare le serie storiche? Svariati sono i campi di applicazione, ma principalmente per trovare degli strumenti di previsione univariata. Le serie storiche introducono un insieme di temi, ad esempio ritardi temporali, oppure quello dell’autocorrelazione (correlazione nel tempo). I modelli di previsione che verranno stimati con gli OLS saranno modelli di autoregressione (AR). La nostra variabile si chiama ππ‘ , ossia il valore di Y nel periodo t. Lags (ritardo): il primo ritardo di una serie storica ππ‘ è ππ‘−1 . First difference (differenza prima): viene identificata con βππ‘ ed è la variazione di Y dal periodo t-1 al periodo t, quindi βππ‘ = ππ‘ − ππ‘−1 . Nel caso dei logaritmi, avremo che β ln(ππ‘ ) = ln(ππ‘ ) − ln(ππ‘−1 ). Una cosa interessante è che una variazione percentuale di una serie storica βππ‘ sarà approssimativamente 100β ln(ππ‘ ), dove l’approssimazione è più accurata quando la variazione percentuale è piccola. Autocorrelazione (correlazione seriale) La correlazione di una serie con il proprio valore ritardato è detta autocorrelazione. La prima autocorrelazione di ππ‘ è ππππ(ππ‘ , ππ‘−1 ). La prima autocovarianza di ππ‘ è πππ£(ππ‘ , ππ‘−1 ). πππ£(π ,π ) π‘ π‘−1 Quindi ππππ(ππ‘ , ππ‘−1 ) = √π£ππ(π )∗π£ππ(π π‘ π‘−1 ) = π1 . Non avrà senso scrivere i pedici al π, perché è un coefficiente di autocorrelazione. È importante specificare però il numero al pedice che corrisponde alla distanza temporale πππ£ Μ (ππ‘ , ππ‘−1 ) da t a π‘ − 1. Quando si usano le serie storiche e si vuole stimare π, allora avremo che πΜπ = π£ππ , dove Μ (π ) 1 πππ£ Μ (ππ‘ , ππ‘−1 ) = π ∑(ππ‘ − πΜ π+1,π ) (ππ‘−π − πΜ 1,π−π ), dove πΜ π+1,π è la semplice media di ππ‘ . π‘ Inoltre, ho la possibilità di mettere π£ππ Μ (ππ‘ ) poiché la π£ππ(ππ‘ ) ∗ π£ππ(ππ‘−1 ) sono considerate molto simili come se la Y fosse omoschedastica (la stessa varianza, poiché il periodo temporale non è esattamente lo stesso), 2 quindi è come se fosse (π£ππ(ππ‘ )) che sotto radice diventa π£ππ(ππ‘ ). Persistenza di una serie La memoria del processo stocastico, tende a decrescere man mano che si va a studiare il legame del presente con ritardi maggiori. Sono meglio i casi in cui la memoria è finita, perché se non fosse finita avremmo bisogno di periodi temporali molto ampi. Il termine memoria può essere sostituito da quello della persistenza. Essa può essere graficamente interpretata come la persistenza della serie sopra o sotto la sua media. Più una serie è persistente e meno la serie intersecherà il suo valore medio. Essa può essere espressa anche come la velocità con cui una serie storica converge al suo equilibrio di lungo periodo a seguito di uno shock. Il problema principale quando si hanno delle serie molto persistenti, si ha quando bisogna stimare un parametro. Più la serie è persistente e più la stima sarà non stazionaria (distorta). Un’elevata persistenza eΜ in contrasto con l’ergodicitaΜ (stazionarietà). Una serie non ergodica ha caratteristiche di persistenza così accentuate che una sua porzione finita, per quanto lunga, non consente di predirne i futuri valori, neΜ di determinare la distribuzione. Uno strumento grafico per la valutazione della persistenza eΜ il correlogramma, grafico a barre nel quale ogni rettangolo riporta il valore dell’autocorrelazione ππ (autocovarianza), in ascissa. In una serie storica stazionaria ed ergodica questo eΜ tipicamente caratterizzato da barre di altezza decrescente che si abbassano rapidamente all’aumentare di j. Il white noise eΜ un esempio di processo stocastico stazionario ed ergodico che non presenta alcuna persistenza. Maggiore persistenza suggerisce una forte memoria nel tempo. Quando la memoria tende ad essere infinita (persistenza infinita) allora l’effetto di uno shock perdura infinitamente nel tempo e il processo stocastico (popolazione) che ha generato il campione a disposizione (la serie storica) viene detto non stazionario (integrato, con radici unitarie). Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Autoregressione - AR Un modello autoregressivo è un modello in cui le variabili esplicative sono solamente dei ritardi della variabile dipendente. In una regressione di ordine p, si regredisce ππ‘ contro ππ‘−1 , ππ‘−2 , … , ππ‘−π . L’autoregressione è diversa dall’autocorrelazione (correlazione da t a t-k). Quando io scelgo un ordine p per rappresentare un correlogramma, io stimo i primi p coefficienti di autocorrelazione, in cui il periodo campionario varia a seconda del numero di ritardi per cui voglio stimare l’autocorrelazione. Ma nella scelta dell’ordine, non bisogna esagerare altrimenti si rischia di stimare i coefficienti con valori diversi. È meglio fare il modello usando, per Y, πππ o βπππ? È meglio βπππ perché è più stazionaria, mentre se volessi usare πππ sarei poco tranquillo nell’ipotizzare la stazionarietà di quel modello. L’errore di previsione è la differenza tra il valore della nostra Y nel periodo successivo e il valore della Y stimato prima che questo valore di Y si conoscesse: ππ+1 − πΜπ+1|π . La differenza tra errore di previsione e residuo è la stessa che c’è tra previsione e stima: il residuo riguarda le osservazioni dentro al campione, mentre l’errore di previsione è fuori dal campione (il valore di ππ+1 non è usato nella stima). Se ipotizziamo correttamente che nella popolazione, le variazioni di inflazione siano spiegate da un processo autoregressivo del 1° ordine e se valgono le assunzioni degli OLS, noi abbiamo la possibilità di prevedere non solo le variazioni di inflazione fuori dal periodo campionario (cioè un passo avanti), ma sommando questa variazione dell’inflazione, al livello dell’inflazione che conosciamo per l’ultimo trimestre disponibile, noi Μ 2005:πΌ | 2004:πΌπ = otteniamo una previsione fuori dal periodo campionario del nostro tasso di inflazione: πππ Μ 2005:πΌ | 2004:πΌπ πππ2004:πΌπ + βπππ 1° assunzione Nel caso delle serie storiche, l’assunzione #1 è πΈ(π’π‘ |π¦π‘−1 , π¦π‘−2 , π¦π‘−π ) = 0, cioè assenza di autocorrelazione di qualsiasi ordine. Nel caso in cui quest’ipotesi fosse vera, nel correlogramma dei residui avremo che gli istogrammi saranno tutti compresi all’interno dell’intervallo di confidenza intorno a zero, poiché tutti i π che si trovano all’interno di tale intervallo, nella popolazione sono zero. Se noi andiamo a stimare un AR(1) quando in realtà il modello necessario è un AR(2), quindi il modello che andiamo a stimare omette una variabile esplicativa ππ‘−2 , sostanzialmente andremo a stimare un modello con un termine di errore che contiene sia il termine di errore ideale (π’π‘ ) sia la componente che ho omesso (π½2 π¦π‘−2 ). Dunque: ππ‘ = π½1 π¦π‘−1 + [π½2 π¦π‘−2 + π’π‘ ] dove il termine tra parentesi è π’π‘∗. Le due condizioni da variabile omessa in questo caso sono che: 1. π½2 ≠ 0. 2. πΆππ£(ππ‘−1 , ππ‘−2 ) ≠ 0. Ma se è vero il modello AR(2) sarà anche vero che: ππ‘−1 = π½1 π¦π‘−2 + π½2 π¦π‘−3 + π’π‘−1. Quindi nel modello AR(2), se π½1 ≠ 0 sarà sempre vero che πΆππ£(ππ‘−1 , ππ‘−2 ) ≠ 0. Nel modello AR, l’omissione di esplicative equivale a una scorretta specificazione della dinamica. In questo caso, il sintomo è che il modello AR di ordine “sbagliato” (troppo basso, ad esempio AR1 invece di AR2) avrà Μ π che sono autocorrelati. La procedura in questo caso è decidere l’ordine p del modello AR e appena residui π stimato, verificare la presenza o meno di autocorrelazione in π’Μπ‘ mediante l’ispezione del correlogramma dei residui. Se il correlogramma dei residui è vuoto, cioè se i coefficienti di autocorrelazione non sono significativamente diversi da zero, allora avrò che l’ordine p che ho scelto è quello appropriato. Invece, se i residui di regressione presentano un correlogramma con dei coefficienti di autocorrelazione significativamente diversi da zero, allora tutto questo mi contradice la scelta dell’ordine p del modello che ho fatto, cioè l’ordine che avrei dovuto utilizzare doveva essere maggiore. Perché si sottolinea l’approccio superiore rispetto a p? Perché se io ometto della dinamica da un modello AR(2), stimo un AR(1). In questo caso, i residui π’π‘∗ sono autocorrelati. Sbagliare l’ordine significa omettere dei ritardi e l’autocorrelazione è spiegabile solamente dall’aver omesso dei ritardi. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Non bisognare confondere la persistenza dall’autocorrelazione. Quando un fenomeno è persistente vuol dire che i suoi coefficienti di autocorrelazione persistono e sono elevati in t-1, t-2, t-k. ∗ ∗ Se ometto una variabile rilevante, πΈ(π’π‘∗ | π’π‘−1 ) = πΆππ£(π’π‘∗ , π’π‘−1 ) ed è come dire: πΆππ£[(π½2 π¦π‘−2 + π’π‘ ), (π½2 π¦π‘−3 + π’π‘−1 )] ≠ 0. Modello generale AR(p) Se l’ordine p che ho scelto non omette variabili importanti, quindi la p è giusta (non è bassa), allora l’ipotesi è che gli errori saranno incorrelati a qualsiasi ritardo e quindi mediante il correlogramma dei residui di stima, io posso andare a verificare che tutti questi errori siano incorrelati con il proprio passato, quindi che i singoli coefficienti di autocorrelazione siano tutti zero e cioè che nulla del passato dell’errore possa essere usato per spiegare il presente. La seconda assunzione per un modello AR è che la ππ‘ sia stazionaria. Se il fenomeno non è stazionario, allora tutte le varianze, medie e autocovarianze sono distorte perché sono ottenute da un campione che è generato da una popolazione che cambia nel tempo. Quando si va a stimare un modello più efficiente togliendo delle stime ridondanti (con un test F), il p-value scende, perché se queste variabili irrilevanti di cui ho stimato i parametri, sono correlate con le variabili incluse (in un processo autoregressivo tutte le variabili sono collineari), lo SE di questa stima diventa minore. In sostanza, l’aver tolto dal modello delle variabili irrilevanti, mi consente di avere uno SE più basso. Previsione h passi avanti Μ∞ Μ 1−π½1 + π½Μ1∞ ππ , notando Μ∞ Μπ La previsione di lungo periodo (per β → ∞) è pari a: ππ+∞ | π = π½Μ0 ∑∞ π=0 π½1 + π½1 ππ = π½0 1−π½ Μ che Μπ ∑β−1 π=0 π½1 = Μ 1β 1−π½ Μ1 , 1−π½ è una progressione geometrica di h termini e di ragione π½Μ1 . 1 Μ π½ Se −1 < π½Μ1 < 1, che è la condizione di stazionarietà per un AR(1), si ha che: ππ+∞ | π = 1−π½0Μ (soluzione di stato 1 stazionario o di previsione di lungo periodo). In sostanza, man mano che si prevede avanti nel tempo, si perde l’informazione sulle condizioni iniziali della previsione, quindi il futuro non dipende più da quello che è successo fino a T (stazionarietà). Se π½Μ1 = 1, la Y è rappresentata da un processo autoregressivo non stazionario. Dunque, quando si arriva a verificare se il passato è utile per prevedere il futuro, e quindi il test a zero di π½1 con il test t, si deve essere sicuri di utilizzare un modello stimato da una popolazione stazionaria (cioè con una distribuzione Normale). Si rifiuta l’ipotesi se il risultato della nostra t è maggiore di 1,96. Se π½1 = 0, i valori passati della Y non servono per prevedere il futuro e quindi, in questo contesto, l’unica previsione possibile della Y h passi avanti sarà la costante. Ma affinché questo sia vero, è necessario che nella popolazione il π½1 < 1, perché altrimenti il calcolo della previsione di lungo periodo è reso impossibile poiché il processo autoregressivo a parametro beta unitario non è stazionaria. Se si vuole verificare che π½1 = 1, visto che in tale situazione non si rispetta la condizione di stazionarietà, si può calcolare la t, ma essa deve essere tabulata non come un’asintotica Normale, perché quando la variabile non è stazionaria non è più vero che la distribuzione è una Normale. Perché ha un senso, anche economico, la restrizione della costante a zero? Se il parametro è zero nelle variazioni dell’inflazione, quanto varierà nell’infinito futuro in assenza di shock l’inflazione? La risposta è zero. Se l’inflazione fosse un processo stazionario, la costante verrebbe sicuramente diversa da zero, perché se l’inflazione fosse stazionaria, nell’infinito futuro essa sarà un numero e non zero. Quindi la costante aiuta a spiegare il futuro della variabile Y a mano a mano che questo futuro è distante nel tempo. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Cosa cambia per un modello AR(p)? La condizione di stazionarietà per un AR(p) è ∑ππ=1 π½π < 1. Dunque, la Μ0 π½ soluzione di stato stazionario di un AR(p) è: ππ+∞ | π = 1−∑π Μ π½ <1 π=1 π . Detto in altre parole, la condizione di stazionarietà in questo caso richiede che la somma dei parametri sia inferiore all’unità. Se il processo non è stazionario, deve essere reso tale, trasformando la variabile ππ‘ in differenze prime: βππ‘ = ππ‘ − ππ‘−1 . La stazionarietà prevede che la distribuzione congiunta delle variabili temporali non cambi nel corso del tempo. Essa prevede che il futuro sia come il passato, almeno in termini probabilistici. Parlare di non stazionarietà equivale a dire che il processo stocastico/popolazione/modello che ha generato i dati ha: 1. Memoria finita. 2. Persistenza infinita. 3. Parametri che dipendono dal tempo (non costanti). 4. Radici unitarie. 5. Trend stocastici. Ci sono vari problemi quando ci sono trend stocastici (non stazionarietà): 1. I coefficienti di qualsiasi modello AR possono essere distorti verso zero. Questo significa che se si stima un modello AR e si fa una previsione, si sta utilizzando dei parametri distorti. 2. Alcune t-statistiche non hanno una distribuzione Normale, anche in grandi campioni. 3. Se io voglio studiare il legame tra X e Y, e se queste due variabili non sono stazionarie, allora può sembrare che queste due variabili siano correlate quando in realtà nella popolazione questo legame non esiste, dunque trovo dei legami spuri. Esempio: se uso i dati svedesi sulla natalità e sul numero di cicogne e vado a fare una regressione, trovo che il parametro che lega le due variabili è significativamente diverso da zero. Ma questo non è vero. Come si fa a verificare che nei parametri del modello AR, il π·π sia zero? La prima cosa è riparametrizzare il modello AR, cioè sottrarre sia a destra che a sinistra dell’uguale ππ‘−1 → ππ‘ − ππ‘−1 = π½1 ππ‘−1 − ππ‘−1 + π’π‘ , che è come dire βπ¦π‘ = πππ‘−1 + π’π‘ dove π = π½1 − 1. Test radici unitarie DF Esso è necessario per verificare la presenza di un trend stocastico. π»0: π = 0, cioè π½1 = 1 (non stazionarietà di ππ‘ ). π»1 : π < 0, cioè π½1 < 1 (stazionarietà di ππ‘ ). Se il modello fosse di ordine π > π, quale sarebbe la procedura? Il modello va ancora riparametrizzato e ciò prevede che la variabile dipendente sia messa in differenze, la prima variabile esplicativa in t-1 sia messa sempre in livelli e poi si devono aggiungere tante esplicative quante sono le variabili Y in differenze in t-k, se ho un modello AR di ordine p. Se così è, allora si può dimostrare che la stima del π equivale a stimare π½1 + π½2 + β― + π½π − 1. Questa è chiamata augmentation e consiste nell’aggiungere p ritardi della variabile dipendente βπ¦π‘ . La stima OLS del livello della Y in t-1, è il parametro π. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)