Appunti Econometria: Stima, Regressione, Test di Ipotesi

lOMoARcPSD|10594476 Appunti Econometria Econometria applicata (Università di Bologna) StuDocu is not sponsored or endorsed by any college or university Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Econometria – 1° parziale L’econometria è usare i dati per misurare gli effetti. I dati possono essere cross-sectional (multiple entità osservate in un singolo periodo) e time-series (singole entità osservate in più momenti). Esaminiamo ora un caso concreto: che effetto ha sui punteggi dei test una riduzione delle dimensioni delle classi degli studenti? Le nostre variabili sono: TestScore (punteggio del test) e STR (student-teacher ratio, numero degli studenti diviso il numero dei professori). Ci sono tre step: 1. Stima: comparare i punteggi dei test con un basso STR con quelli con alto STR. 2. Ipotesi test: verifica l’ipotesi nulla che i punteggi medi del test nei due tipi di distretti siano gli stessi, contro l’ipotesi alternativa in cui differiscono. 3. Intervalli di confidenza: stimare un intervallo nei punteggi medi del test, comparando STR alto vs STR basso. Momenti di una distribuzione Univariata 1. Media: anche detto valore atteso, è il momento 1°. 2. Varianza: momento 2°. 3. Skewness 3 𝐸(𝑌−𝜇𝑦) 𝜎𝑦3 : misura l’asimmetria della distribuzione ed è il momento 3°. Se Sk = 0 la distribuzione è simmetrica. Se Sk > 0 la distribuzione ha una lunga coda destra (asimmetria positiva), mentre se Sk < 0 la distribuzione ha una lunga coda sinistra (asimmetria negativa). 4. Curtosi 𝐸(𝑌−𝜇𝑦) 𝜎𝑦4 4 : è una misura di quanta massa c'è nelle sue code e pertanto, è una misura di quanto la varianza di Y derivi da valori estremi. Più è grande la curtosi, più probabili sono gli outlier. È il momento 4°. Se la curtosi = 3, la distribuzione è Normale, mentre se Sk > 3 è detta distribuzione leptocurtica. Multivariate 𝟏 Covarianza 𝝈𝒙𝒚 = 𝑵 ∑ 𝒙𝒖 𝒚𝒖 − 𝝁𝒙 𝝁𝒚: è la misura di associazione lineare tra X e Y, detto in altre parole è una misura dell’intensità con la quale due v. c. si muovono insieme. Siccome la covarianza è il prodotto tra X e Y, la sua unità di misura è espressa nell'unità di misura di X*Y. Il massimo della covarianza è la varianza e quando è zero, X e Y sono indipendenti. È il momento 2° dell’analisi multivariata. 𝝈 Correlazione 𝒓𝒙𝒚 = 𝝈 𝒙𝒚𝝈 : detta anche coefficiente di correlazione lineare, è la misura alternativa di 𝒙 𝒚 indipendenza tra X e Y, che risolve il problema dell'unità di misura. È un numero puro compreso tra -1 e 1. Quando è zero, X e Y sono incorrelate e le rette sono perpendicolari tra loro. Quando è -1 c’è perfetta associazione lineare negativa. Quando invece è 1 c’è perfetta associazione lineare positiva. Stima Uno stimatore è una funzione di un campione di dati da estrarre in modo casuale da una popolazione, mentre una stima è un valore osservato di uno stimatore. Un parametro è una caratteristica della popolazione (come media, varianza). Nella stima l’obiettivo è quello di poter individuare un valore (stima puntuale) o un insieme di valori (stima intervallare), che risultino adeguati per approssimare la corrispondente quantità incognita della popolazione. Non si dispone di strumenti che consentano di valutare l’effettiva vicinanza del valore stimato al parametro reale, tuttavia è possibile specificare alcuni criteri di ottimalità nella scelta della statistica campionaria da utilizzare. Lo stimatore potrà avere valori diversi al variare del campione selezionato. Il valore realizzato sul campione osservato prende il nome di stima. Le principali caratteristiche per un buon stimatore sono: 1. Correttezza (o non distorsione): se la media campionaria è uguale alla media della popolazione, per n grande (legge dei grandi numeri). 2. Consistenza: è quando la probabilità che la media campionaria assuma valori in un piccolo intorno del vero valore della media e tenda a 1 al crescere della dimensione campionaria. 3. Efficienza: quando si tende a preferire lo stimatore con varianza minore. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 P-value Il p-value è la probabilità di commettere un errore di 1° specie (rifiuto la nulla quando questa è vera). In pratica è l'area nelle code della distribuzione. Se la probabilità di osservare valori più estremi di quello calcolato sulla base del campione è superiore al livello di significatività che si ha in mente, allora l’ipotesi nulla viene accettata, se invece è minore si rifiuta 𝐻0 in favore dell’alternativa. In questo caso si mettono a confronto aree sotto la distribuzione campionaria anziché valori assumibili dalla statistica. Se riduco l’errore di 1° specie, incremento quello di 2° specie. Intervalli di confidenza Sono degli insiemi di valori che contengono la vera media della popolazione con una probabilità prefissata. Livello di confidenza: probabilità che la media appartenga all'intervallo. Probabilità di copertura: è la probabilità, calcolata su tutti i campioni casuali possibili, che esso contenga la vera media della popolazione. Test di ipotesi La verifica di ipotesi consiste nella valutazione della plausibilità di una certa assunzione, relativa alla popolazione statistica di riferimento, sulla base dell’evidenza fornita da un campione di osservazioni. L’ipotesi di lavoro viene denominata ipotesi nulla (H0), alla quale si è soliti contrapporre un’ipotesi alternativa (H1). La potenza del test equivale alla probabilità di rifiutare l’ipotesi nulla quando questa è falsa e, quindi, corrisponde ad una decisione corretta. Definiamo sinteticamente ‘test’ la regola che specifica per quali valori campionari si debba accettare l’ipotesi nulla e per quali valori campionari la si debba rifiutare. Qualsiasi sia la regola di decisione adottata, questa potrà portare ad una conclusione corretta, ma potrà anche indurre a commettere degli errori, che sono classificabili in due diverse tipologie: Vera H0 Vera H1 Accetto H0 Decisione corretta Errore del II tipo Accetto H1 Errore del I tipo Decisione corretta La strategia da utilizzare è quella di fissare il valore massimo delle probabilità dell’errore di 1° tipo che si è disposti ad accettare, e individuare la regione critica che minimizza la probabilità dell’errore di 2° tipo. Il valore di 𝛼 fissato a priori come massima probabilità di errore di 1° tipo prende il nome di livello di significatività del test (probabilità massima di rifiutare l’ipotesi nulla quando è vera) e consente di individuare il valore critico che separa la zona R da quella A. Regressione lineare La regressione lineare studia la dipendenza in media della variabile dipendente Y, dalla variabile esplicativa X. È detta “semplice” perché ha una sola variabile indipendente (X) e “lineare” perché studiamo la dipendenza in media attraverso una retta, detta retta di regressione lineare. L’obiettivo della costruzione di un modello è quello di fornire una rappresentazione semplificata della realtà che consenta di formulare interpretazioni e previsioni relativamente alla relazione oggetto di studio. La relazione non è di tipo deterministico, ma contiene, oltre all’equazione della retta, un termine di errore denotato come 𝑢𝑖 . Tale componente di errore è l’insieme delle entità di minor importanza (omesse dal nostro modello), che non sono spiegate dalla X. I coefficienti della retta non sono ovviamente noti e devono essere stimati. L’obiettivo da perseguire è la vicinanza della retta ai dati osservati. Scrivendo questo modello facciamo due ipotesi fondamentali: la prima è che la variabile X sia l’unica variabile esplicativa, e la seconda è che assumiamo che questo legame tra X e Y sia spiegato tramite una retta. 𝛽0 𝑒 𝛽1 sono due costanti e quindi se prendiamo in considerazione il valore atteso di una delle due avremo corrispondentemente come risultato una delle due. La 𝑌̂ è la fit, mentre 𝑢̂ è il residuo, che mi permettono, se sommati al fit, di ottenere le n osservazioni prese in considerazione nel nostro modello, che necessariamente non saranno uguali a quelle stimate, perché noi non andiamo ad interpolare singolarmente tutti i punti, ma ne facciamo una stima tramite la retta. Più 𝑢̂ è ampio e più il nostro modello spiega poco e male quello che vogliamo spiegare. In soldoni, 𝑢̂ è la stima dei punti della variabile 𝑢. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 𝛽̂1 è quindi la variazione di voto in conseguenza di una variazione unitaria della dimensione della classe ∆𝑇𝑒𝑠𝑡 𝑠𝑐𝑜𝑟𝑒 ( ∆𝑆𝑇𝑅 ). Essa esprime la relazione esistente in media tra Y e X. Con gli OLS, i residui a zero, sono garantiti come risultato dall’aver stimato la costante con la stima degli OLS. 1. 2. 3. 4. 5. 𝜎𝑥𝑦 ∑(𝑋𝑖 −𝑋̅ )(𝑌𝑖 −𝑌̅ ) = 𝜎2 : se la covarianza tra X e Y è positiva, allora il nostro 𝛽̂1 sarà positivo, e viceversa. 𝛽̂1 = ∑(𝑋 −𝑋̅)2 𝑖 𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅ 𝑥 1 𝐶𝑜𝑣[(𝑋 ,𝑢 ] 𝜎𝛽̂21 = 𝑛 [𝑣𝑎𝑟(𝑋𝑖 )]2𝑖 𝑠̂ 2 = 1 𝑛−1 𝑖 ∑(𝑋𝑖 − 𝑋̅)2 𝑆𝐸𝑅 = √ 1 𝑛−2 ∑ 𝑢̂𝑖2 Misure di Fit L’𝑹𝟐 è calcolato come una misura del rapporto della variabilità di quello che la mia retta è in grado di spiegare rispetto alla variabilità del fenomeno. Esso è comodo perché quando non spiego niente della variabilità campionaria, l’𝑹𝟐 varrà zero. Al contrario, esso è 1. Inoltre, essendo un rapporto tra varianza sarà sempre positivo e non potrà andare né sotto né sopra l’unità. Esso è la frazione della varianza campionaria di 𝑌𝑖 spiegata dai regressori. Equivalentemente, l’𝑅2 è uguale a uno meno la frazione della varianza di 𝑌𝑖 non spiegata dai regressori. 𝑻𝑺𝑺 (𝑇𝑜𝑡𝑎𝑙 𝑆𝑢𝑚 𝑜𝑓 𝑆𝑞𝑢𝑎𝑟𝑒𝑠) = 𝑬𝑺𝑺 (𝐸𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑆𝑆) + 𝑹𝑺𝑺 (𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑆𝑆) = 2 ∑ 𝑢̂𝑖2 𝐸𝑆𝑆 ∑(𝑌̂𝑖 − 𝑌̅) = 𝑜𝑝𝑝𝑢𝑟 = 1 − 2 ∑(𝑌𝑖 − 𝑌̅)2 𝑇𝑆𝑆 ∑(𝑌𝑖 − 𝑌̅) 𝑹𝟐 = 𝟎  Il coefficiente angolare della retta è zero e quindi l’unica retta possibile è parallela all’asse delle ascisse e interseca l’asse delle ordinate in corrispondenza di 𝜇𝑦 . Il carattere X non ha nessun ruolo nello spiegare il comportamento della variabile dipendente, quindi il modello ha un pessimo adattamento ai dati. 𝑹𝟐 = 𝟏  Quando è 0 la devianza residua, ovvero quando tutti gli errori sono nulli. Tale situazione si verifica quando tutti i punti risultano allineati sulla retta: il modello mostra un adattamento perfetto ai dati. In questo caso tra i due caratteri X e Y quantitativi ci sarà indipendenza statistica. 𝟏 ∑𝒖 ̂ 𝟐𝒊 ), è un indicatore che misura l’ordine di grandezza della variabilità degli Il secondo indicatore è il SER (√𝒏−𝟐 errori. In altri termini, è lo stimatore della deviazione standard dell’errore di regressione 𝒖𝒊 . Le unità di misura di 𝑢𝑖 e 𝑌𝑖 sono identiche, così il SER è una misura della dispersione delle osservazioni intorno alla retta di regressione, misurata nelle unità di misura della variabile dipendente. Poiché gli errori 𝑢𝑖 sono inosservati, il SER è calcolato usando le loro controparti campionarie (𝑢̂𝑖 ). Viene diviso per n – 2 perché sono due i parametri stimati. Il valore del SER è interpretabile nel momento in cui abbiamo un modello competitore con il quale paragonarlo. 1 1 ∑ 𝑢̂𝑖2 e √ ∑(𝑢̂𝑖 − 𝑢̅̂ )2 è che io posso riscrivere le “u” tra parentesi come 𝑢 La differenza tra √𝑛−2 ̂ 𝑖2 perché negli 𝑛−2 OLS il valore medio dei residui è sempre zero. La differenza tra SE e SER è che lo Standard Error è in generale la radice quadrata della varianza (deviazione standard o scarto), lo Standar Error of Regression è una misura della varianza della regressione e quindi di bontà della regressione Traslazione degli assi È una notazione particolare del modello di regressione. La variabile è misurata in scarti rispetto alla media e i regressori vengono indicati con lettere minuscole. Ad esempio: 𝑦𝑖 = 𝑌𝑖 − 𝑌̅ e 𝑥𝑖 = 𝑋𝑖 − 𝑋̅. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Sostanzialmente si sposta l’origine da (𝑦 = 0, 𝑥 = 0) 𝑎 (𝑌 = 𝑌̅, 𝑋 = 𝑋̅). La retta stimata è sempre la stessa, ma è misurata lungo gli assi traslati (𝑦𝑖 = 𝛽̂1 𝑥𝑖 + 𝑢𝑖 ). Manca la costante perché nel nostro nuovo grafico la retta passa per l’origine. La traslazione degli assi consiste nel tracciare una linea orizzontale e verticale in corrispondenza rispettivamente della media della X e della Y. Minimi quadrati ordinari Lo stimatore OLS sceglie i coefficienti di regressione in modo che la retta di regressione stimata sia il più possibile vicina ai dati osservati, dove la vicinanza è misurata dalla somma dei quadrati degli errori commessi nel predire Y utilizzando l'informazione in X. Il residuo è la differenza tra Yi e il suo valore predetto (𝑢̂𝑖 = 𝑌𝑖 − 𝑌̂𝑖 ). Perché usare lo stimatore OLS? Innanzitutto, perché quello degli OLS è diventato il linguaggio comune degli economisti e degli statisti e poi perché lo stimatore OLS è non distorto, consistente ed efficiente (solo sotto alcune condizioni particolari). Legge delle aspettative iterate, se si prende il valore atteso di un valore atteso condizionale, ne viene fuori il valore non atteso del valore condizionato A: 𝐸[𝐸(𝐴|𝐵)] = 𝐸(𝐴). Con il criterio dei minimi quadrati ordinari si procede minimizzando le differenze in verticale tra valori effettivi di ordinata e valori sulla retta corrispondenti alle osservazioni 𝑥𝑖 . Tali differenze vengono elevate al quadrato, eliminando in tal modo differenze di segno. Si cercano quei valori di intercetta e coefficiente angolare che minimizzano la somma dei quadrati degli errori, definiti come differenza tra valori effettivi della variabile dipendente e corrispondenti valori teorici sulla retta (𝑦̂𝑖 ). La retta è unica ed esiste un unico punto di minimo della funzione. Il coefficiente, avendo al numeratore la covarianza tra i due caratteri, può essere interpretato come segue: ̂ 𝟏 > 𝟎, si ha concordanza. 1. Se 𝜷 ̂ 2. Se 𝜷𝟏 < 𝟎, si ha discordanza. ̂ 𝟏 = 𝟎, si ha una situazione di indipendenza lineare poiché la covarianza è nulla (retta parallela 3. Se 𝜷 all’asse delle ascisse). ̂ 𝟏 = 𝟏, all’aumentare di un’unità di X anche Y aumenta di 1. 4. Se 𝜷 Con Gretl lasciamo sempre const (𝛽0 ) perché se io non la stimo con gli OLS allora non sto traslando gli assi, ma stimando un modello in livelli (che non ha la costante). Quindi se io non uso la costante negli OLS, la somma dei residui non ha più media zero. Fondamenti teorici degli OLS Quando n è grande, lo stimatore OLS è non distorto, consistente, ha varianza inversamente proporzionale a n e distribuzione campionaria Normale. Inoltre, se valgono le assunzioni degli OLS e se gli errori sono omoschedastici, allora lo stimatore OLS è BLUE. Queste assunzioni hanno un duplice ruolo. Il primo è matematico: se valgono queste assunzioni allora, in grandi campioni, gli stimatori OLS hanno una distribuzione campionaria Normale, che permette di sviluppare metodi per la verifica di ipotesi e la costruzione di intervalli di confidenza. Il secondo ruolo è quello di identificare le circostanze che creano difficoltà per la regressione OLS. Assunzioni degli OLS Assunzione 1: la distribuzione di 𝒖𝒊 condizionata a 𝑿𝒊 ha media nulla Questa assunzione è una formalizzazione matematica riguardante il ruolo degli “altri fattori” contenuti in 𝑢𝑖 e afferma che essi non sono legati a 𝑋𝑖 . Se una v. c. ha media nulla condizionata ad un’altra v. c., allora esse hanno covarianza nulla e sono perciò incorrelate. Per questo motivo, l’assunzione circa la media condizionata 𝐸(𝑢𝑖 |𝑋𝑖 ) = 0 implica che 𝑋𝑖 e 𝑢𝑖 sono incorrelate. Siccome la correlazione è una misura di associazione lineare, non vale invece il contrario. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Assunzione 2: (𝑿𝒊 , 𝒀𝒊 ) sono i.i.d. Se le osservazioni sono estratte con campionamento casuale semplice da un’unica ampia popolazione allora (𝑋𝑖 , 𝑌𝑖 ) sono i.i.d. Assunzione 3: gli outlier sono improbabili Gli outlier possono rendere fuorvianti i risultati della regressione. Assumiamo che X e Y abbiano momenti quarti finiti e non nulli. Un altro modo di esprimere questa assunzione è dire che X e Y hanno curtosi finita. Distribuzione campionaria degli stimatori OLS Siccome gli stimatori OLS 𝛽̂0 e 𝛽̂1 sono calcolati per un campione i.i.d., sono essi stessi v. c. con una distribuzione di probabilità, che descrive i valori che essi possono assumere nei diversi campioni possibili. Se il campione è sufficientemente numeroso, per il teorema del limite centrale la distribuzione campionaria di 𝛽̂0 e 𝛽̂1 è ben approssimata da una Normale bivariata. Inoltre, quando n è grande i due parametri sono vicini ai veri coefficienti della popolazione 𝛽0 𝑒 𝛽1 . Questo accade perché le varianze 𝜎𝜷̂2𝟎 e 𝜎𝜷̂2𝟏 tendono a zero al crescere di n. In generale, maggiore è la varianza di 𝑋𝑖 , minore è 𝜎𝜷̂2𝟏 . Inoltre, maggiore è la varianza di X, più preciso risulta 𝛽̂1 . Matematicamente questo accade perché 𝜎𝜷̂2𝟏 è inversamente proporzionale al quadrato della varianza di 𝑋𝑖 . È vero anche che più piccola è la varianza dell’errore, più piccola è la varianza di 𝛽̂1 , perché l’errore è presente al numeratore. Regressione con un singolo regressore: verifica di ipotesi e intervalli di confidenza Verifica di ipotesi circa 𝜷𝟏 La verifica di ipotesi consiste nel porre 𝛽1 = 0 come 𝐻0, contro 𝐻1 : 𝛽1 ≠ 0. Per ottenere questa statistica basta prendere 𝛽̂1 e dividerlo per lo 𝑆𝐸(𝛽̂1 ). Per verificare 𝐻0, seguiamo tre step. Il primo è quello di calcolare 𝑆𝐸(𝛽̂1 ), che è uno stimatore di 𝜎𝛽̂1 . Il secondo passo è la statistica test. Il terzo passo è il p-value, dove nel caso in cui fosse inferiore al 5% fornirebbe evidenza sfavorevole ad 𝐻0, nel senso che, sotto l’ipotesi nulla, la probabilità di ottenere un valore di 𝛽̂1 lontano da 𝐻0, almeno quanto quello effettivamente osservato, è inferiore al 5%. In questo caso, 𝐻0 è rifiutata al livello di significatività del 5%. In alternativa, 𝐻0 può essere verificata al 5% semplicemente confrontando il valore assoluto della statistica t con 1,96 e rifiutando 𝐻0 se |𝑡 𝑎𝑐𝑡 | > 1,96. Nel caso dell’alternativa unilaterale, si rifiuta 𝐻0 in favore di 𝐻1, per valori grandi e negativi della statistica t, ma non per valori grandi e positivi. Uso della statistica t nella regressione quando il campione è piccolo Quando n è piccolo, la distribuzione esatta della statistica-t è complicata e dipende dalla distribuzione ignota dei dati nella popolazione. Tuttavia, se valgono le tre assunzioni degli OLS e se gli errori di regressione sono omoschedastici e si distribuiscono normalmente, allora lo stimatore OLS si distribuisce normalmente e la statistica t classica ha una distribuzione t di Student. Poiché la differenza tra la distribuzione t di Student e la normale è trascurabile per n grande, questa distinzione vale solo se n è piccolo. Queste cinque assunzioni sono dette assunzioni della regressione normale omoschedastica. Formule per la statistica t 1. 2. ̂ 1 −𝛽1 𝛽 ̂1) √𝑉𝐴𝑅(𝛽 ̂ 1 −𝛽1 𝛽 ̂1) 𝑆𝐸(𝛽 ~𝑁(0,1). ~ 𝑡𝑛−2 . Intervalli di confidenza per 𝜷𝟏 Un intervallo di confidenza di livello 95% per 𝛽1 ha due definizioni equivalenti: in base alla prima, è l’insieme dei valori che non si possono rifiutare usando un test d’ipotesi bilaterale con il livello di significatività del 5%. In base alla seconda, è un intervallo che ha probabilità del 95% di contenere il vero valore di 𝛽1 . Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Le due definizioni sono equivalenti perché un test con significatività del 5%, per definizione, rifiuterà il vero valore di 𝛽1 soltanto nel 5% di tutti i possibili campioni. Eteroschedasticità e omoschedasticità Se, in aggiunta alla 1° assunzione degli OLS, la varianza di questa distribuzione non dipende da 𝑋𝑖 , allora, si dice che gli errori sono omoschedastici. Altrimenti, l’errore è eteroschedastico. Le assunzioni degli OLS si applicano sia al caso generale di etero, sia al caso speciale di omo. Dunque, gli stimatori OLS rimangono non distorti e consistenti. Oltre che inversamente proporzionale ad n e alla 𝑣𝑎𝑟(𝑋𝑖 ), nel modello omoschedastico, 𝑣𝑎𝑟(𝛽̂1 ), è direttamente proporzionale alla 𝑣𝑎𝑟(𝑢𝑖 ). Se gli errori sono eteroschedastici, la statistica t non ha una distribuzione Normale neanche per grandi campioni. 1 𝑉𝐴𝑅(𝑥𝑖 𝑢𝑖) Errori eteroschedastici: 𝑉𝐴𝑅(𝛽̂1 ) = ed Errori omoschedastici: 𝑉𝐴𝑅(𝛽̂1 ) = 4 𝑛 𝜎𝑥 2𝜎2 1 𝜎𝑢 𝑥 𝑛 𝜎𝑥2 𝜎𝑥2 = 2 1 𝜎𝑢 𝑛 𝜎𝑥2 → 𝑆𝐸(𝛽̂1 ) Efficienza dello stimatore OLS quando gli errori sono omoschedastici Se valgono le assunzioni degli OLS e, in aggiunta, gli errori sono omoschedastici, allora gli stimatori OLS 𝛽̂0 e 𝛽̂1 sono BLUE (teorema di Gauss-Markov). Questo teorema ha però due limiti importanti. In primo luogo, le sue condizioni potrebbero non valere. In questo caso potrebbe tornare utile lo stimatore dei minimi quadrati ponderati. Il secondo limite è che, sebbene possano valere le condizioni del teorema, ci sono altri stimatori alternativi che non sono lineari e condizionatamente non distorti. Sotto certe condizioni, questi altri stimatori sono più efficienti degli OLS. È più realistica l’omoschedasticità o l’eteroschedasticità? La risposta dipende dall’applicazione. In generale l’eteroschedasticità si ritrova in molte applicazioni econometriche. A livello generale, dunque, la teoria economia raramente offre ragioni per credere che gli errori siano omoschedastici, a meno che non ci sia un’evidenza chiara per credere il contrario. Il maggior problema in questo caso è rappresentato dal dubbio di usare gli errori standard classici o quelli robusti all’eteroschedasticità. Se essi sono simili, non si perde nulla ad usare quelli robusti. Se però differiscono, bisognerebbe usare quelli più affidabili che tengono conto dell’eteroschedasticità. La via più semplice è appunto usare sempre gli errori standard classici. Capitolo 6 – Regressione lineare con regressori multipli Quando abbiamo solo un’esplicativa, allora l’interpretazione del parametro è la variazione di Y per una variazione unitaria di X. Nel modello con più variabili esplicative, 𝛽̂1 è la variazione di Y per una variazione unitaria di X1 a parità di X2. Quindi 𝛽̂1 isola l’effetto della classe dopo che idealmente abbiamo tenuto costante la composizione di questa classe. Dunque, il nostro 𝛽̂1 ci fornirà un’informazione molto più concentrata sull’effetto della X, perché ci spiega l’effetto della X in un mondo teorico dove l’effetto della classe è mantenuto costante. Quindi se io ometto l’effetto della composizione della classe, esso finisce nel nostro modello e dunque risulterà distorto. Come può un metodo di stima, che conosce dati ex-post, riuscire a isolare un effetto di ceteris paribus? Quando abbiamo solo un’esplicativa, 𝛽̂1 gioca sul rapporto tra covarianza di Y (che contiene anche l’effetto della X2) ed X1 e la varianza di X1. Questa formula però cambia quando ho una X2, in una formula più complessa che comprende la covarianza tra X1 e X2 (fattore cruciale perché compare sia a numeratore che a denominatore), la covarianza tra Y e X2, e la varianza di X2. Quindi se supponiamo che X1 e X2 non covarino, allora la formula che rimane è quella di 𝛽̂1 nel caso di una sola variabile esplicativa. Nel caso in cui abbiamo due variabili esplicative, la somma del quadrato dei residui è minore rispetto al primo caso in cui abbiamo una sola esplicativa. Questo perché nel primo caso abbiamo due parametri e nel secondo ne abbiamo tre. Quanto più è importante l’avere aggiunto la variabile Z, tanto più la somma dei residui del secondo modello sarà più bassa. Più sono le variabili esplicative e più la condizione di minimo può scendere. Di quanto scende questa somma, dipenderà dall’importanza della X2 che ho aggiunto. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Definizione di distorsione da variabili omesse La distorsione da variabile omessa si verifica quando valgono due condizioni: la variabile omessa è correlata con il regressore incluso e la variabile omessa contribuisce a determinare la variabile dipendente. La distorsione da variabile omessa è dovuta al venir meno della prima ipotesi dei minimi quadrati 𝐸 (𝑢𝑖 |𝑋𝑖 ) = 0. In altre parole, se una variabile omessa è una determinante di 𝑌𝑖 , essa è inclusa nell’errore e, se è correlata con 𝑋𝑖 , anche l’errore è correlato con 𝑋𝑖 . Siccome 𝑢𝑖 𝑒 𝑋𝑖 sono correlati, avremo 𝐸(𝑢𝑖 |𝑋𝑖 ) ≠ 0. Questa correlazione perciò viola la prima ipotesi degli OLS e la conseguenza è che lo stimatore OLS è distorto ed inconsistente (non svanisce neanche in grandi campioni). Una formula per la distorsione da variabili omesse Sia 𝑐𝑜𝑟𝑟(𝑋𝑖 , 𝑢𝑖 ) = 𝜌𝑋𝑢 la correlazione tra 𝑋𝑖 e 𝑢𝑖 . Si supponga che valgano la seconda e terza assunzione degli 𝜎 OLS, ma non la prima dato che 𝜌𝑋𝑢 è non nullo. Allora, il limite dello stimatore OLS è: 𝛽̂1 → 𝛽1 + 𝜌𝑋𝑢 𝜎𝑢 . In 𝜎 𝑥 altre parole, al crescere della dimensione campionaria, 𝛽̂1 è prossimo a 𝛽1 + 𝜌𝑋𝑢 𝜎𝑢 con probabilità sempre 𝑥 più elevata. Maggiore è 𝜌𝑋𝑢 e maggiore sarà la distorsione. Il segno della distorsione di 𝛽̂1 dipende dal fatto che X e u siano positivamente o negativamente correlati. 1 Nella regressione multipla, il SER è = √𝑛−𝑘−1 ∑ 𝑢̂𝑖2. Si divide per 𝑛 − 𝑘 − 1 perché corregge la distorsione verso il basso introdotta dalla stima di k+1 coefficienti (correzione per i gradi di libertà). ̅𝟐 Indice di determinazione lineare corretto 𝑹 Nella regressione multipla, l’𝑅2 cresce ogni volta che si aggiunge un regressore, a meno che il coefficiente del regressore aggiunto sia esattamente pari a zero. Ma un aumento dell’𝑅2 non significa che aggiungere una variabile migliori realmente l’adattamento del modello. In questo senso, l’𝑅2 fornisce una stima in eccesso della bontà della regressione. Un modo per correggere questo effetto è quello di utilizzare l’𝑅̅ 2 . Esso non 𝑠2 𝑆𝑆𝑅 𝑛−1 ∗ = 1 − 𝑢2̂ , dove il aumenta necessariamente se si aggiunge un nuovo regressore. La sua formula: 𝑅̅2 = 1 − 𝑛−𝑘−1 𝑠𝑌 𝑇𝑆𝑆 𝑛−1 tutto è moltiplicato per 𝑛−𝑘−1 . Tre risultati utili da sapere: 𝑛−1 1. Innanzitutto, essendo 𝑛−𝑘−1 sempre maggiore di 1, l’𝑅̅ 2 sarà sempre minore dell’𝑅2 . 2. In secondo luogo, l’aggiunta di un regressore ha due effetti opposti sull’𝑅̅2 . Da un lato, l’SSR decresce, 𝑛−1 il che fa aumentare l’𝑅̅ 2 . Dall’altro, il fattore 𝑛−𝑘−1 aumenta. L’aumento o diminuzione dell’𝑅̅2 dipende da quale dei due effetti è il più forte. ̅ 2 può essere negativo. Questo accade quando i regressori riducono la somma dei 3. In terzo luogo, l’𝑅 𝑛−1 . quadrati dei residui di un ammontare così piccolo da non bilanciare il fattore 𝑛−𝑘−1 ̅𝟐 Interpretazione pratica dell’𝑹𝟐 e dell’𝑹 Ci sono quattro potenziali problemi da cui guardarsi quando si usano l’𝑅2 e l’𝑅̅ 2 : 1. Un aumento dell’𝑅2 , o dell’𝑅̅2, non significa necessariamente che la variabile aggiunta sia statisticamente significativa. L’𝑅2 cresce ogni volta che si aggiunge un regressore, indipendentemente dalla significatività. L’𝑅̅2 non cresce in ogni occasione, ma se aumenta non vuol dire necessariamente che il coefficiente del regressore aggiunto sia statisticamente significativo. Per accertarsi della significatività di una variabile aggiunta, è necessario condurre un test di ipotesi usando la t. 2. Un 𝑅2 o un 𝑅̅ 2 elevato non implica che i regressori siano la vera causa della variabile dipendente. 3. Un 𝑅2 o un 𝑅̅ 2 elevato non implica che non vi sia distorsione da variabili omesse. Di contro, un basso 𝑅2 non implica che ci sia necessariamente una distorsione da variabile omessa. 4. Un 𝑅2 o un 𝑅̅ 2 elevato non significa necessariamente che abbiamo scelto l’insieme di regressori più appropriato, né un basso 𝑅2 o 𝑅̅ 2 implica che ne abbiamo scelto uno inappropriato. In sintesi l’𝑅2 e l’𝑅̅ 2 non ci dicono se: 1. 2. 3. 4. Una variabile inclusa è statisticamente significativa. I regressori sono causa effettiva dei movimenti della variabile dipendente. C’è distorsione da variabili omesse. Abbiamo scelto il gruppo di regressori più appropriato. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Collinearità Nel caso di collinearità perfetta è impossibile calcolare lo stimatore OLS. Si dice che i regressori mostrano collinearità perfetta se uno di essi è funzione lineare esatta degli altri. In sostanza, la quarta assunzione è che i regressori non siano perfettamente collineari. Nella regressione multipla, il coefficiente di uno dei regressori è l’effetto di una variazione nel regressore stesso, tenendo gli altri costanti. Diversamente, la collinearità imperfetta non impedisce la stima della regressione, né comporta un problema logico con la scelta dei regressori. Tuttavia, essa implica che uno o più coefficienti di regressione possono essere stimati in modo impreciso. Quanto più grande è la correlazione tra i due regressori, tanto più questo termine è prossimo a zero e quindi tanto più grande è la varianza di 𝛽̂1 . Più in generale, quando i regressori multipli sono imperfettamente collineari, allora i coefficienti di uno o più di questi regressori sono stimati in modo impreciso. Se noi abbiamo due variabili esplicative ed esse sono correlate, sappiamo che necessariamente aumenta la varianza rispetto al caso in cui la seconda variabile non compariva. Ma ci sono alcuni casi in cui la varianza può addirittura ridursi, perché l’effetto della correlazione fa aumentare la varianza, ma quando aggiungiamo variabili importanti, la stima di questo cambia e il SER diventa più piccolo e allora la varianza con due esplicative ha un effetto netto che dipende da un lato di quanto le due esplicative sono correlate (questo mi confonde e fa aumentare la varianza), e dall’altro se l’aggiunta della seconda mi abbatte il SER, allora può succedere che la varianza diminuisce rispetto a prima, nonostante la collinearità. Capitolo 7 – Verifica di ipotesi e intervalli di confidenza nella regressione multipla Verificare un 𝐻0 congiunta usando la solita statistica t non è possibile. Inoltre, se i regressori sono correlati, la situazione è ancora più complicata. Il livello minimo della procedura “coefficiente per coefficiente” dipende dal valore della correlazione tra i regressori. Poiché questo approccio ha un livello minimo errato, ovvero il suo tasso di rifiuto sotto 𝐻0 non è uguale a livello di significatività desiderato, è necessario un nuovo approccio. Un’ipotesi congiunta è un’ipotesi che impone due o più restrizioni sui coefficienti di regressione. Se una, o più, delle uguaglianze sotto 𝐻0 è falsa, allora 𝐻0 congiunta è falsa. Perciò, 𝐻1 è che almeno una delle uguaglianze di 𝐻0 non valga. La statistica F La statistica F è usata per verificare ipotesi congiunte sui coefficienti di regressione. Quando 𝐻0 contiene le 2 2 −2𝜌 ̂𝑡1,𝑡2 𝑡1 𝑡2 due restrizioni 𝛽1 = 0 e 𝛽2 = 0, la statistica F combina le due statistiche t tramite la formula: 𝐹 = 12 (𝑡1 +𝑡21−𝜌 ), ̂2 𝑡1,𝑡2 dove 𝜌̂𝑡1,𝑡2 è uno stimatore della correlazione tra le due statistiche t. Se le statistiche sono incorrelate, invece, la formula diventa 𝐹 = 12 (𝑡12 + 𝑡22 ), che è la media dei quadrati delle statistiche t. Nel caso di 𝑞 = 1, la statistica F verifica una singola restrizione, quindi 𝐻0 congiunta si riduce all’ipotesi nulla su un singolo coefficiente di regressione, e la statistica F è il quadrato della statistica t. La si rifiuta se è maggiore di 3, valore critico al 5%. Una statistica F grande dovrebbe essere associata ad un sostanziale aumento dell’𝑅2 . In effetti, se il termine di errore è omoschedastico, la statistica F può essere scritta in termini di miglioramento nell’adattamento della regressione, misurato dalla somma dei quadrati dei residui oppure dall’𝑅2 della regressione. La statistica F risultante è nota come statistica F classica, ed è valida solo se il termine di errore è omoschedastico. Al contrario, la statistica F robusta all’eteroschedasticità è valida a prescindere che il termine di errore sia omo o eteroschedastico. La statistica F classica si calcola tramite una semplice formula basata sulla somma dei quadrati dei residui di due regressori. Nella prima regressione, chiamata regressione vincolata, si impone 𝐻0. Nella seconda regressione, chiamata regressione non vincolata è considerata vera 𝐻1. Se la somma dei quadrati dei residui è sufficientemente più piccola nella regressione non vincolata, il test rifiuta 𝐻0. La statistica F classica è data dalla formula: 𝐹 = 𝑆𝑆𝑅𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 − 𝑆𝑆𝑅𝑢𝑛𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 ⁄𝑞 , con 𝑆𝑆𝑅𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 (somma dei quadrati dei residui della regressione vincolata), ⁄𝑛−𝑘 𝑆𝑆𝑅 −1 𝑢𝑛𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 𝑢𝑛𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 (somma dei quadrati dei residui della regressione non vincolata), q (numero di restrizioni sotto l’ipotesi nulla) e 𝑘𝑢𝑛𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 (numero di regressori nella regressione non vincolata). 𝑆𝑆𝑅𝑢𝑛𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 2 2 ⁄𝑞 − 𝑅𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑) Una formula equivalente è basata sugli 𝑅2 delle due regressioni: 𝐹 = 1−𝑅(𝑅2𝑢𝑛𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑⁄𝑛−𝑘 𝑢𝑛𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 𝑢𝑛𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑 −1 . Queste formule valgono solo se gli errori sono omoschedastici. Meno accettabili sono le restrizioni di 𝐻0, più forte sarà la caduta in termini di 𝑅2 , e quindi una F che sarà maggiore, e tanto più maggiore quanto più è la perdita di 𝑅2 a causa delle restrizioni introdotte. Maggiore è la F, più piccola sarà la coda di questa statistica. Lo stesso discorso può essere fatto guardando non tanto al differenziale tra gli 𝑅2 , ma guardando al differenziale tra la somma del quadrato dei residui del modello vincolato e non vincolato, perché se noi sotto 𝐻0 restringiamo a zero dei parametri che sono importanti per spiegare il modello, non solo avremo una caduta dell’𝑅2 , ma simmetricamente avremo una somma del quadrato dei residui sempre più grande (perché riesco a minimizzare di meno, mancando delle variabili importanti). Tra le due formule, vincolato e non vincolato si invertono perché più tolgo delle variabili importanti sotto 𝐻0, più il modello vincolato avrà delle performance peggiori sotto l’𝑅2 , quindi bisognerà avere il modello non vincolato prima, così da non far risultare la differenza negativa, dato che la F è sempre positiva. Il passaggio da un 𝑹𝟐 = 𝟎, 𝟒𝟑 ad un 𝑹𝟐 = 𝟎, 𝟒𝟏, è un salto poco o molto forte? Questo dipenderà dalla F che ne verrà fuori. In questo caso la 𝐹 = 8, e quindi il valore di probabilità è sicuramente inferiore al 5%. Dunque, va molto nelle code ed io non accetto le restrizioni che mi portano a 𝑅2 = 0,41. Come fare a considerare congiuntamente questi movimenti di due o più parametri? Fin tanto che ci muoviamo con due parametri, allora possiamo vedere la cosa graficamente e quindi ciò che sta a monte del test F (intervallo di confidenza) diventa una regione di confidenza (ellisse). Ne viene fuori un’ellisse perché avendo calcolato la regione di confidenza con la F, non si usano solo lo SE e la stima dei singoli parametri ma si usa anche la covarianza tra X1 e X2. La parte più lunga è orientata in direzione basso-sinistra/alto-destra. La ragione di tale orientamento è che la correzione stimata tra 𝛽̂1 𝑒 𝛽̂2 è positiva, il che deriva a sua volta dalla correlazione negativa tra Y e X2. Capitolo 8 – Funzioni di regressione non lineari Se la relazione tra X e Y è non lineare allora: 1. Gli effetti su Y di un cambiamento di X dipendono dal valore di quest’ultimo, cioè che l’effetto marginale di X (derivata prima) non è costante. 2. La regressione lineare è mal spiegata. La forma funzionale è sbagliata. 3. Gli stimatori degli effetti su Y di X sono distorti. Un approccio generale per modellare la non linearità usando la regressione multipla 1. Identificare una possibile relazione non lineare: ci si deve chiedere se la pendenza della funzione di regressione che mette in relazione Y e X possa dipendere dal valore di X o da un’altra variabile. 2. Specificare una funzione non lineare e stimarne i parametri con gli OLS. 3. Comprendere se il modello non lineare costituisce un miglioramento rispetto a un modello lineare. 4. Disegnare la funzione di regressione non lineare stimata. 5. Stimare l’effetto di una variazione di X su Y. Funzione di regressione non lineare generale: 𝒀𝒊 = 𝒇(𝑿𝟏𝒊 , 𝑿𝟐𝒊 , 𝑿𝒌𝒊 ) + 𝒖𝒊 Polinomi 2 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝑢𝑖 è detto modello di regressione quadratico perché la funzione di regressione della 2 popolazione 𝐸(𝑌𝑖 |𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 è ipotizzata quadratica nella variabile indipendente X. Poiché il modello di regressione quadratico è una variante della regressione multipla, i suoi coefficienti ignoti possono essere stimati e sottoposti a verifica. Il grado del polinomio dipende dalla potenza r più elevata di X inclusa nella regressione. Se la funzione di regressione della popolazione è lineare, il termine quadratico e quello di ordine superiore non rientrano nella funzione di regressione. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Quale grado di polinomio usare? Di solito non si va oltre il terzo grado. L’aumento del grado R introduce maggiore flessibilità nella funzione di regressione e permette di catturare forme più varie. Aumentare r significa però aggiungere più regressori, il che può ridurre la precisione delle stime. Un modo pratico per determinare il grado del polinomio consiste nel verificare se i coefficienti associati ai valori più elevati di r siano nulli. Se lo sono, questi termini possono essere eliminati dalla regressione. Questo procedimento, chiamato verifica di ipotesi sequenziale, consiste nei seguenti passaggi: 1. Si sceglie un valore massimo per r e si stima la regressione polinomiale per quel valore. 2. Si utilizza la statistica t per verificare l’ipotesi che il coefficiente di 𝑋 𝑟 sia nullo. Se tale ipotesi viene rifiutata, allora 𝑋 𝑟 entra nella regressione e va usato un polinomio di grado r. 3. Se non si rifiuta 𝛽𝑟 = 0 al passaggio 2, si elimina 𝑋 𝑟 dalla regressione e si stima una regressione di grado inferiore. Si verifica che il coefficiente di 𝑋 𝑟−1 sia nullo. Se tale ipotesi viene rifiutata, si usa un polinomio di grado r-1 4. Se non si rifuta 𝛽𝑟−1 = 0 al passaggio 3, allora questo procedimento deve essere ripetuto finché il coefficiente della potenza massima nel nostro polinomio diventa statisticamente significativo. In questo caso bisogna utilizzare una statistica F. Logaritmi Un altro modo di specificare una funzione di regressione non lineare, è quello di usare il logaritmo naturale di Y o di X. I logaritmi convertono variazioni delle variabili in variazioni percentuali, e molte relazioni sono espresse in modo naturale in termini percentuali. La funzione esponenziale e il logaritmo naturale (sua inversa) giocano un ruolo importante nel modellare funzioni di regressioni non lineari. La funzione esponenziale di x è 𝑒 𝑥 , 𝑒 = 2,718. Il logaritmo naturale è l’inverso della funzione esponenziale. Il legame tra logaritmi e percentuali si basa sulla seguente proprietà: quando ∆𝑥 è piccolo, la differenza tra il ∆𝑥 logaritmo di 𝑥 + ∆𝑥 e il logaritmo di x è approssimativamente 𝑥 (stretta approssimazione percentuale), la variazione percentuale di x divisa per 100: ln(𝑥 + ∆𝑥) − ln(𝑥) ≅ ∆𝑥 𝑥 . I residui, gli 𝑅2 e qualsiasi indicazione che ha a che vedere con l’adattamento del modello ai dati, non sono confrontabili con quelli lineari poiché i primi spiegano una variazione percentuale, mentre i secondi spiegano una variazione lineare. ∆𝒀⁄𝒀 𝜷𝟏 = ∆𝑿/𝑿 → 𝑬𝒍𝒂𝒔𝒕𝒊𝒄𝒊𝒕à, 𝒄𝒉𝒆 𝒏𝒐𝒏 𝒓𝒊𝒔𝒆𝒏𝒕𝒆 𝒅𝒆𝒍𝒍′ 𝒐𝒓𝒅𝒊𝒏𝒆 𝒅𝒊 𝒈𝒓𝒂𝒏𝒅𝒆𝒛𝒛𝒂 𝒅𝒊 𝑿. Capitolo 12 – Regressione con variabili strumentali Ci sono tre minacce che mettono in pericolo l’ipotesi 𝐸(𝑢𝑖 |𝑋𝑖 ) = 0: omissione da variabile omessa, causalità simultanea (X causa Y e viceversa), errori in variabili distorte (X è misurata con errore). Le variabili strumentali possono eliminare questa distorsione, usando una variabile strumentale Z. Questo modello utilizza quindi un’informazione contenuta in una variabile Z esterna al modello (incorrelata con u). Esso opera, quando siamo nella situazione in cui la X è una variabile endogena esplicativa, dividendo la X in due parti: una parte correlata con l’errore e una no. Isolando la parte che non è correlata con l’errore, è possibile stimare 𝛽1 . Affinché lo strumento Z sia valido, deve soddisfare due condizioni: Rilevanza: 𝑐𝑜𝑟𝑟(𝑍𝑖 , 𝑋𝑖 ) ≠ 0 ed Esogeneità: 𝑐𝑜𝑟𝑟(𝑍𝑖 , 𝑢𝑖 ) = 0. Variabile endogena: è una variabile che è correlata con l’errore. Quindi la Y è sempre correlata con l’errore. Variabile esogena: è una variabile che è incorrelata con l’errore. Quindi la Y non può essere esogena, mentre la X si, poiché in questo caso si possono usare gli OLS. Esempio criminalità con 𝜷𝟏 > 𝟎 Nel caso in cui si avesse la spesa per la sicurezza per spiegare il tasso di criminalità, si regredisse con gli OLS e 𝛽1 venisse positivo, cosa vorrebbe dire? Questo segno positivo dipende dal fatto che in un modello in cui la spesa per la sicurezza causa la criminalità, gli errori di quel modello sono correlati con la variabile esplicativa Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 “spesa per la sicurezza”, perché non solo a maggiori spese per la sicurezza corrisponde minore criminalità, ma a meno criminalità corrisponde meno spesa per la sicurezza. Ad esempio, in alcune zone con alti tassi di criminalità si riscontra una maggiore spesa per la sicurezza, ma questo non perché la maggior spesa porta ad una maggiore criminalità, ma proprio perché si investe in quelle zone che sono più afflitte da questo problema. In sintesi, negli OLS, il parametro 𝛽1 dipende dalla 𝜎𝑥𝑦 , per questo viene positivo e non negativo nell’esempio prima. Quindi non andrebbero proprio usati gli OLS in questo caso. Minimi quadrati a due stadi (TSLS) – Stima con variabili strumentali Questa stima viene sviluppata tramite due regressioni consecutive con gli OLS. Il primo stadio consiste nell’isolamento della X che non è correlata con il termine di errore e questa scomposizione viene fatta tramite una regressione in cui la variabile dipendente è X e la variabile esplicativa è Z. Questa regressione non ha nulla a che vedere con il modello iniziale, ma ci dice semplicemente il modo in cui la variabile Z spiega la variabile X (esogena). Il modello è il seguente: 𝑋𝑖 = 𝜋0 + 𝜋1 𝑍𝑖 + 𝑣𝑖 , di cui 𝜋0 + 𝜋1 𝑍𝑖 non è correlata con 𝑢𝑖 , mentre 𝑣𝑖 e 𝑋𝑖 sono correlati con 𝑢𝑖 . Affinché la Z sia valida, non basta che sia esogena, ma deve anche essere rilevante. Quest’ultima cosa la capiamo dal fatto che la Z la usiamo come variabile esplicativa. Regressione di forma ridotta 1° stadio L’ipotesi di rilevanza di Z l’andiamo a verificare andando a studiare l’ipotesi nulla che 𝜋1 = 0. Quindi prenderemo 𝜋̂1 , lo divideremo per il suo SE e calcoleremo la t di Student. Se rifiutiamo l’ipotesi nulla, allora possiamo affermare che Z è uno strumento rilevante. La rilevanza equivale alla verifica statistica della significatività dei parametri delle variabili esogene, a partire dai risultati di stima degli OLS del modello di 1° stadio, regressione di forma ridotta, un modello in cui la variabile X, endogena ed esplicativa, viene regredita contro tutti gli strumenti che ho a disposizione. 2° stadio Al secondo stadio, stimiamo il nostro modello OLS: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋̂𝑖 + 𝑢𝑖 , dove 𝑋̂𝑖 è stata ottenuta nella regressione del 1° stadio (che sarà quindi incorrelata con l’errore). Questo modello TSLS si fonda sulla teoria dei grandi campioni. Nella regressione di 2° stadio, l’unico prodotto che può essere utilizzato con certezza e proprietà statistica sono le due stime. Modello di regressione multipla con variabili strumentali In questo modello possiamo avere k variabili esplicative endogene X ed r variabili esogene W. Quindi avremo potenzialmente k+r+1 parametri da stimare con le variabili strumentali. In generale, possiamo ipotizzare di avere m variabili strumentali Z. Identificazione In una regressione con variabili strumentali, se i coefficienti sono identificati o meno dipende dalla relazione tra il numero di strumenti (m) e il numero di regressori endogeni (k). Se il modello è non identificato (𝑘 > 𝑚), non possiamo stimare con variabili strumentali perché non abbiamo abbasta strumenti. Nel caso in cui 𝑘 = 𝑚 (esattamente identificato), abbiamo l’informazione minima per poter stimare con variabili strumentali. Se invece 𝑚 > 𝑘 (sovraidentificato), abbiamo più strumenti di quelli di cui avremo bisogno. La sovraidentificazione è interessante perché noi abbiamo a disposizione dei test che vengono detti test di esogeneità degli strumenti che possono essere effettuati solamente se siamo in presenza di modelli sovraidentificati. Se 𝑘 = 1 ed abbiamo m strumenti, nel 1° stadio, per scorporare la componente esogena della X rispetto a quella endogena, regrediamo la variabile X contro tutte le variabili esogene. Nel 2° stadio, come sempre, sostituiremo la X endogena, con quella esogena stimata. Per avere uno SE corretto su Gretl, dovremo stimare in un colpo tramite i TSLS. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Controllo della rilevanza ed esogeneità Rilevanza: almeno uno strumento deve essere utilizzato per poter fare la regressione di 1° stadio. Almeno uno strumento perché, nel caso in cui non avessimo strumenti, andremo a regredire la X contro la W (perfetta collinearità). Se noi abbiamo strumenti deboli, significa che gli strumenti non sono rilevanti. Gli strumenti deboli spiegano molto poco della variazione di X, oltre quella spiegata da W. In questo caso, possiamo fare una statistica F per verificare, sotto 𝐻0, che tutti i nostri 𝜋𝑚 siano zero. Se, nel 1° stadio, la F è minore di 10, gli strumenti saranno deboli. Se gli strumenti sono deboli, saranno distorti ed inconsistenti, quindi l’inferenza che faremo sarà sbagliata. Cosa succede se ci troviamo nel caso di strumenti deboli? Noi sappiamo che 𝛽̂1𝑇𝑆𝐿𝑆 = 𝑆𝑌𝑍 ⁄𝑆𝑋𝑍 . Nel caso di strumenti deboli, il denominatore tende a zero e dunque la sua distribuzione asintotica, e le corrispondenti t statistiche, non saranno approssimativamente Normali. Esogeneità: tutti gli strumenti devono essere incorrelati con il termine di errore. Questo perché se uno dei nostri strumenti fosse correlato con l’errore, avremo una contaminazione della X stimata. Il J-test (test di esogeneità degli strumenti, di sovraidentificazione o test di Sargan) che va a fare il confronto tra stime alternative, ci dice se i parametri sono molto simili o poco simili. Questo test prevede che, sotto 𝐻0, le restrizioni di sovraidentificazione non sono rifiutate, e quindi che gli strumenti sono esogeni. I passi da seguire per calcolare il test J sono più complessi. Innazitutto, bisogna fare la stima con i TSLS, usando tutti gli strumenti. Dopodiché, di questa stima, bisogna memorizzare i residui. Infine, bisogna regredire questi residui contro tutte le variabili esogene che compaiono nel nostro problema. La J-statistica si calcola: 𝑱 = 𝒎𝑭, dove la F è ottenuta al terzo punto, andando a verificare l’ipotesi che i coefficienti sulle Z siano tutti zero. Supponiamo un modello che ha una sola variabile esplicativa endogena e due strumenti. Quante stime consistenti posso fare usando il metodo delle variabili strumentali? La risposta è tre, di cui una sovraidentificata (quella con lo SE minore), e le altre due esattamente identificate. Se esse risultano simili, allora saranno consistenti, dunque tutti gli strumenti saranno validi. Se invece differiscono di molto, esse non saranno consistenti e gli strumenti non saranno validi (endogeni e non esogeni). Distribuzione della J-statistica Sotto l’ipotesi nulla che tutti gli strumenti siano esogeni, J si comporta come un 𝜒2 con 𝑚 − 𝑘 gradi di libertà. Se 𝑚 = 𝑘, (𝐽 = 0), allora non possiamo fare la verifica perché ci deve essere almeno un grado di libertà. Se alcuni strumenti sono esogeni ed altri endogeni, la J sarà grande e dunque noi tenderemo a rifiutare 𝐻0 che tutti gli strumenti sono esogeni. Test di Hausman – test di esogeneità debole Il test di Hausman è un test di esogeneità congiunta di tutte le variabili esplicative del modello. La procedura è la seguente: stimo il modello con varabili strumentali, dopo che ho verificato che gli strumenti che sto utilizzando sono validi. Poi lo stesso modello lo stimo con gli OLS. Quest’ultima stima sarebbe corretta e consistente, solo nel caso in cui la variabile considerata endogena sia esogena. Quindi il test di Hausman confronta la stima OLS con quella delle variabili strumentali. Più queste stime sono vicine, più significa che la variabile considerata endogena è in realtà esogena. In questo caso, si preferiscono quelle degli OLS, poiché sono BLUE. Serie storiche Nel caso delle cross-section, noi assumevamo che i dati erano i.i.d. Dirlo anche per le serie storiche non ha senso, perché i dati in quest’ultima hanno memoria e quindi necessariamente saranno collegati tra di loro. Dunque, la seconda assunzione nel caso delle serie storiche presuppone che il campione sia estratto da una popolazione stazionaria, perché se così non fosse, tutte le medie, autocovarianze e varianze si basano su parametri che nella popolazione non sono costanti. Gli indici finanziari invece sono i.i.d. ed infatti non è possibile prevedere i loro valori futuri, a differenza delle serie storiche, poiché sono delle random walks. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Perché usare le serie storiche? Svariati sono i campi di applicazione, ma principalmente per trovare degli strumenti di previsione univariata. Le serie storiche introducono un insieme di temi, ad esempio ritardi temporali, oppure quello dell’autocorrelazione (correlazione nel tempo). I modelli di previsione che verranno stimati con gli OLS saranno modelli di autoregressione (AR). La nostra variabile si chiama 𝑌𝑡 , ossia il valore di Y nel periodo t. Lags (ritardo): il primo ritardo di una serie storica 𝑌𝑡 è 𝑌𝑡−1 . First difference (differenza prima): viene identificata con ∆𝑌𝑡 ed è la variazione di Y dal periodo t-1 al periodo t, quindi ∆𝑌𝑡 = 𝑌𝑡 − 𝑌𝑡−1 . Nel caso dei logaritmi, avremo che ∆ ln(𝑌𝑡 ) = ln(𝑌𝑡 ) − ln(𝑌𝑡−1 ). Una cosa interessante è che una variazione percentuale di una serie storica ∆𝑌𝑡 sarà approssimativamente 100∆ ln(𝑌𝑡 ), dove l’approssimazione è più accurata quando la variazione percentuale è piccola. Autocorrelazione (correlazione seriale) La correlazione di una serie con il proprio valore ritardato è detta autocorrelazione. La prima autocorrelazione di 𝑌𝑡 è 𝑐𝑜𝑟𝑟(𝑌𝑡 , 𝑌𝑡−1 ). La prima autocovarianza di 𝑌𝑡 è 𝑐𝑜𝑣(𝑌𝑡 , 𝑌𝑡−1 ). 𝑐𝑜𝑣(𝑌 ,𝑌 ) 𝑡 𝑡−1 Quindi 𝑐𝑜𝑟𝑟(𝑌𝑡 , 𝑌𝑡−1 ) = √𝑣𝑎𝑟(𝑌 )∗𝑣𝑎𝑟(𝑌 𝑡 𝑡−1 ) = 𝜌1 . Non avrà senso scrivere i pedici al 𝜌, perché è un coefficiente di autocorrelazione. È importante specificare però il numero al pedice che corrisponde alla distanza temporale 𝑐𝑜𝑣 ̂ (𝑌𝑡 , 𝑌𝑡−1 ) da t a 𝑡 − 1. Quando si usano le serie storiche e si vuole stimare 𝜌, allora avremo che 𝜌̂𝑗 = 𝑣𝑎𝑟 , dove ̂ (𝑌 ) 1 𝑐𝑜𝑣 ̂ (𝑌𝑡 , 𝑌𝑡−1 ) = 𝑇 ∑(𝑌𝑡 − 𝑌̅𝑗+1,𝑇 ) (𝑌𝑡−𝑗 − 𝑌̅1,𝑇−𝑗 ), dove 𝑌̅𝑗+1,𝑇 è la semplice media di 𝑌𝑡 . 𝑡 Inoltre, ho la possibilità di mettere 𝑣𝑎𝑟 ̂ (𝑌𝑡 ) poiché la 𝑣𝑎𝑟(𝑌𝑡 ) ∗ 𝑣𝑎𝑟(𝑌𝑡−1 ) sono considerate molto simili come se la Y fosse omoschedastica (la stessa varianza, poiché il periodo temporale non è esattamente lo stesso), 2 quindi è come se fosse (𝑣𝑎𝑟(𝑌𝑡 )) che sotto radice diventa 𝑣𝑎𝑟(𝑌𝑡 ). Persistenza di una serie La memoria del processo stocastico, tende a decrescere man mano che si va a studiare il legame del presente con ritardi maggiori. Sono meglio i casi in cui la memoria è finita, perché se non fosse finita avremmo bisogno di periodi temporali molto ampi. Il termine memoria può essere sostituito da quello della persistenza. Essa può essere graficamente interpretata come la persistenza della serie sopra o sotto la sua media. Più una serie è persistente e meno la serie intersecherà il suo valore medio. Essa può essere espressa anche come la velocità con cui una serie storica converge al suo equilibrio di lungo periodo a seguito di uno shock. Il problema principale quando si hanno delle serie molto persistenti, si ha quando bisogna stimare un parametro. Più la serie è persistente e più la stima sarà non stazionaria (distorta). Un’elevata persistenza è in contrasto con l’ergodicità (stazionarietà). Una serie non ergodica ha caratteristiche di persistenza così accentuate che una sua porzione finita, per quanto lunga, non consente di predirne i futuri valori, né di determinare la distribuzione. Uno strumento grafico per la valutazione della persistenza è il correlogramma, grafico a barre nel quale ogni rettangolo riporta il valore dell’autocorrelazione 𝜌𝑗 (autocovarianza), in ascissa. In una serie storica stazionaria ed ergodica questo è tipicamente caratterizzato da barre di altezza decrescente che si abbassano rapidamente all’aumentare di j. Il white noise è un esempio di processo stocastico stazionario ed ergodico che non presenta alcuna persistenza. Maggiore persistenza suggerisce una forte memoria nel tempo. Quando la memoria tende ad essere infinita (persistenza infinita) allora l’effetto di uno shock perdura infinitamente nel tempo e il processo stocastico (popolazione) che ha generato il campione a disposizione (la serie storica) viene detto non stazionario (integrato, con radici unitarie). Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Autoregressione - AR Un modello autoregressivo è un modello in cui le variabili esplicative sono solamente dei ritardi della variabile dipendente. In una regressione di ordine p, si regredisce 𝑌𝑡 contro 𝑌𝑡−1 , 𝑌𝑡−2 , … , 𝑌𝑡−𝑝 . L’autoregressione è diversa dall’autocorrelazione (correlazione da t a t-k). Quando io scelgo un ordine p per rappresentare un correlogramma, io stimo i primi p coefficienti di autocorrelazione, in cui il periodo campionario varia a seconda del numero di ritardi per cui voglio stimare l’autocorrelazione. Ma nella scelta dell’ordine, non bisogna esagerare altrimenti si rischia di stimare i coefficienti con valori diversi. È meglio fare il modello usando, per Y, 𝒊𝒏𝒇 o ∆𝒊𝒏𝒇? È meglio ∆𝑖𝑛𝑓 perché è più stazionaria, mentre se volessi usare 𝑖𝑛𝑓 sarei poco tranquillo nell’ipotizzare la stazionarietà di quel modello. L’errore di previsione è la differenza tra il valore della nostra Y nel periodo successivo e il valore della Y stimato prima che questo valore di Y si conoscesse: 𝑌𝑇+1 − 𝑌̂𝑇+1|𝑇 . La differenza tra errore di previsione e residuo è la stessa che c’è tra previsione e stima: il residuo riguarda le osservazioni dentro al campione, mentre l’errore di previsione è fuori dal campione (il valore di 𝑌𝑇+1 non è usato nella stima). Se ipotizziamo correttamente che nella popolazione, le variazioni di inflazione siano spiegate da un processo autoregressivo del 1° ordine e se valgono le assunzioni degli OLS, noi abbiamo la possibilità di prevedere non solo le variazioni di inflazione fuori dal periodo campionario (cioè un passo avanti), ma sommando questa variazione dell’inflazione, al livello dell’inflazione che conosciamo per l’ultimo trimestre disponibile, noi ̂ 2005:𝐼 | 2004:𝐼𝑉 = otteniamo una previsione fuori dal periodo campionario del nostro tasso di inflazione: 𝑖𝑛𝑓 ̂ 2005:𝐼 | 2004:𝐼𝑉 𝑖𝑛𝑓2004:𝐼𝑉 + ∆𝑖𝑛𝑓 1° assunzione Nel caso delle serie storiche, l’assunzione #1 è 𝐸(𝑢𝑡 |𝑦𝑡−1 , 𝑦𝑡−2 , 𝑦𝑡−𝑝 ) = 0, cioè assenza di autocorrelazione di qualsiasi ordine. Nel caso in cui quest’ipotesi fosse vera, nel correlogramma dei residui avremo che gli istogrammi saranno tutti compresi all’interno dell’intervallo di confidenza intorno a zero, poiché tutti i 𝜌 che si trovano all’interno di tale intervallo, nella popolazione sono zero. Se noi andiamo a stimare un AR(1) quando in realtà il modello necessario è un AR(2), quindi il modello che andiamo a stimare omette una variabile esplicativa 𝑌𝑡−2 , sostanzialmente andremo a stimare un modello con un termine di errore che contiene sia il termine di errore ideale (𝑢𝑡 ) sia la componente che ho omesso (𝛽2 𝑦𝑡−2 ). Dunque: 𝑌𝑡 = 𝛽1 𝑦𝑡−1 + [𝛽2 𝑦𝑡−2 + 𝑢𝑡 ] dove il termine tra parentesi è 𝑢𝑡∗. Le due condizioni da variabile omessa in questo caso sono che: 1. 𝛽2 ≠ 0. 2. 𝐶𝑜𝑣(𝑌𝑡−1 , 𝑌𝑡−2 ) ≠ 0. Ma se è vero il modello AR(2) sarà anche vero che: 𝑌𝑡−1 = 𝛽1 𝑦𝑡−2 + 𝛽2 𝑦𝑡−3 + 𝑢𝑡−1. Quindi nel modello AR(2), se 𝛽1 ≠ 0 sarà sempre vero che 𝐶𝑜𝑣(𝑌𝑡−1 , 𝑌𝑡−2 ) ≠ 0. Nel modello AR, l’omissione di esplicative equivale a una scorretta specificazione della dinamica. In questo caso, il sintomo è che il modello AR di ordine “sbagliato” (troppo basso, ad esempio AR1 invece di AR2) avrà ̂ 𝒕 che sono autocorrelati. La procedura in questo caso è decidere l’ordine p del modello AR e appena residui 𝒖 stimato, verificare la presenza o meno di autocorrelazione in 𝑢̂𝑡 mediante l’ispezione del correlogramma dei residui. Se il correlogramma dei residui è vuoto, cioè se i coefficienti di autocorrelazione non sono significativamente diversi da zero, allora avrò che l’ordine p che ho scelto è quello appropriato. Invece, se i residui di regressione presentano un correlogramma con dei coefficienti di autocorrelazione significativamente diversi da zero, allora tutto questo mi contradice la scelta dell’ordine p del modello che ho fatto, cioè l’ordine che avrei dovuto utilizzare doveva essere maggiore. Perché si sottolinea l’approccio superiore rispetto a p? Perché se io ometto della dinamica da un modello AR(2), stimo un AR(1). In questo caso, i residui 𝑢𝑡∗ sono autocorrelati. Sbagliare l’ordine significa omettere dei ritardi e l’autocorrelazione è spiegabile solamente dall’aver omesso dei ritardi. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Non bisognare confondere la persistenza dall’autocorrelazione. Quando un fenomeno è persistente vuol dire che i suoi coefficienti di autocorrelazione persistono e sono elevati in t-1, t-2, t-k. ∗ ∗ Se ometto una variabile rilevante, 𝐸(𝑢𝑡∗ | 𝑢𝑡−1 ) = 𝐶𝑜𝑣(𝑢𝑡∗ , 𝑢𝑡−1 ) ed è come dire: 𝐶𝑜𝑣[(𝛽2 𝑦𝑡−2 + 𝑢𝑡 ), (𝛽2 𝑦𝑡−3 + 𝑢𝑡−1 )] ≠ 0. Modello generale AR(p) Se l’ordine p che ho scelto non omette variabili importanti, quindi la p è giusta (non è bassa), allora l’ipotesi è che gli errori saranno incorrelati a qualsiasi ritardo e quindi mediante il correlogramma dei residui di stima, io posso andare a verificare che tutti questi errori siano incorrelati con il proprio passato, quindi che i singoli coefficienti di autocorrelazione siano tutti zero e cioè che nulla del passato dell’errore possa essere usato per spiegare il presente. La seconda assunzione per un modello AR è che la 𝑌𝑡 sia stazionaria. Se il fenomeno non è stazionario, allora tutte le varianze, medie e autocovarianze sono distorte perché sono ottenute da un campione che è generato da una popolazione che cambia nel tempo. Quando si va a stimare un modello più efficiente togliendo delle stime ridondanti (con un test F), il p-value scende, perché se queste variabili irrilevanti di cui ho stimato i parametri, sono correlate con le variabili incluse (in un processo autoregressivo tutte le variabili sono collineari), lo SE di questa stima diventa minore. In sostanza, l’aver tolto dal modello delle variabili irrilevanti, mi consente di avere uno SE più basso. Previsione h passi avanti ̂∞ ̂ 1−𝛽1 + 𝛽̂1∞ 𝑌𝑇 , notando ̂∞ ̂𝑖 La previsione di lungo periodo (per ℎ → ∞) è pari a: 𝑌𝑇+∞ | 𝑇 = 𝛽̂0 ∑∞ 𝑖=0 𝛽1 + 𝛽1 𝑌𝑇 = 𝛽0 1−𝛽 ̂ che ̂𝑖 ∑ℎ−1 𝑖=0 𝛽1 = ̂ 1ℎ 1−𝛽 ̂1 , 1−𝛽 è una progressione geometrica di h termini e di ragione 𝛽̂1 . 1 ̂ 𝛽 Se −1 < 𝛽̂1 < 1, che è la condizione di stazionarietà per un AR(1), si ha che: 𝑌𝑇+∞ | 𝑇 = 1−𝛽0̂ (soluzione di stato 1 stazionario o di previsione di lungo periodo). In sostanza, man mano che si prevede avanti nel tempo, si perde l’informazione sulle condizioni iniziali della previsione, quindi il futuro non dipende più da quello che è successo fino a T (stazionarietà). Se 𝛽̂1 = 1, la Y è rappresentata da un processo autoregressivo non stazionario. Dunque, quando si arriva a verificare se il passato è utile per prevedere il futuro, e quindi il test a zero di 𝛽1 con il test t, si deve essere sicuri di utilizzare un modello stimato da una popolazione stazionaria (cioè con una distribuzione Normale). Si rifiuta l’ipotesi se il risultato della nostra t è maggiore di 1,96. Se 𝛽1 = 0, i valori passati della Y non servono per prevedere il futuro e quindi, in questo contesto, l’unica previsione possibile della Y h passi avanti sarà la costante. Ma affinché questo sia vero, è necessario che nella popolazione il 𝛽1 < 1, perché altrimenti il calcolo della previsione di lungo periodo è reso impossibile poiché il processo autoregressivo a parametro beta unitario non è stazionaria. Se si vuole verificare che 𝛽1 = 1, visto che in tale situazione non si rispetta la condizione di stazionarietà, si può calcolare la t, ma essa deve essere tabulata non come un’asintotica Normale, perché quando la variabile non è stazionaria non è più vero che la distribuzione è una Normale. Perché ha un senso, anche economico, la restrizione della costante a zero? Se il parametro è zero nelle variazioni dell’inflazione, quanto varierà nell’infinito futuro in assenza di shock l’inflazione? La risposta è zero. Se l’inflazione fosse un processo stazionario, la costante verrebbe sicuramente diversa da zero, perché se l’inflazione fosse stazionaria, nell’infinito futuro essa sarà un numero e non zero. Quindi la costante aiuta a spiegare il futuro della variabile Y a mano a mano che questo futuro è distante nel tempo. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com) lOMoARcPSD|10594476 Cosa cambia per un modello AR(p)? La condizione di stazionarietà per un AR(p) è ∑𝑝𝑗=1 𝛽𝑗 < 1. Dunque, la ̂0 𝛽 soluzione di stato stazionario di un AR(p) è: 𝑌𝑇+∞ | 𝑇 = 1−∑𝑝 ̂ 𝛽 <1 𝑗=1 𝑗 . Detto in altre parole, la condizione di stazionarietà in questo caso richiede che la somma dei parametri sia inferiore all’unità. Se il processo non è stazionario, deve essere reso tale, trasformando la variabile 𝑌𝑡 in differenze prime: ∆𝑌𝑡 = 𝑌𝑡 − 𝑌𝑡−1 . La stazionarietà prevede che la distribuzione congiunta delle variabili temporali non cambi nel corso del tempo. Essa prevede che il futuro sia come il passato, almeno in termini probabilistici. Parlare di non stazionarietà equivale a dire che il processo stocastico/popolazione/modello che ha generato i dati ha: 1. Memoria finita. 2. Persistenza infinita. 3. Parametri che dipendono dal tempo (non costanti). 4. Radici unitarie. 5. Trend stocastici. Ci sono vari problemi quando ci sono trend stocastici (non stazionarietà): 1. I coefficienti di qualsiasi modello AR possono essere distorti verso zero. Questo significa che se si stima un modello AR e si fa una previsione, si sta utilizzando dei parametri distorti. 2. Alcune t-statistiche non hanno una distribuzione Normale, anche in grandi campioni. 3. Se io voglio studiare il legame tra X e Y, e se queste due variabili non sono stazionarie, allora può sembrare che queste due variabili siano correlate quando in realtà nella popolazione questo legame non esiste, dunque trovo dei legami spuri. Esempio: se uso i dati svedesi sulla natalità e sul numero di cicogne e vado a fare una regressione, trovo che il parametro che lega le due variabili è significativamente diverso da zero. Ma questo non è vero. Come si fa a verificare che nei parametri del modello AR, il 𝜷𝟏 sia zero? La prima cosa è riparametrizzare il modello AR, cioè sottrarre sia a destra che a sinistra dell’uguale 𝑌𝑡−1 → 𝑌𝑡 − 𝑌𝑡−1 = 𝛽1 𝑌𝑡−1 − 𝑌𝑡−1 + 𝑢𝑡 , che è come dire ∆𝑦𝑡 = 𝜋𝑌𝑡−1 + 𝑢𝑡 dove 𝜋 = 𝛽1 − 1. Test radici unitarie DF Esso è necessario per verificare la presenza di un trend stocastico. 𝐻0: 𝜋 = 0, cioè 𝛽1 = 1 (non stazionarietà di 𝑌𝑡 ). 𝐻1 : 𝜋 < 0, cioè 𝛽1 < 1 (stazionarietà di 𝑌𝑡 ). Se il modello fosse di ordine 𝒑 > 𝟏, quale sarebbe la procedura? Il modello va ancora riparametrizzato e ciò prevede che la variabile dipendente sia messa in differenze, la prima variabile esplicativa in t-1 sia messa sempre in livelli e poi si devono aggiungere tante esplicative quante sono le variabili Y in differenze in t-k, se ho un modello AR di ordine p. Se così è, allora si può dimostrare che la stima del 𝜋 equivale a stimare 𝛽1 + 𝛽2 + ⋯ + 𝛽𝑝 − 1. Questa è chiamata augmentation e consiste nell’aggiungere p ritardi della variabile dipendente ∆𝑦𝑡 . La stima OLS del livello della Y in t-1, è il parametro 𝜋. Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)

Appunti Econometria: Stima, Regressione, Test di Ipotesi

Related documents

Products

Support

Appunti Econometria: Stima, Regressione, Test di Ipotesi

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib