Uploaded by Alberto Caruso

Appunti 1° parziale

advertisement
lOMoARcPSD|10594476
Appunti Econometria
Econometria applicata (Università di Bologna)
StuDocu is not sponsored or endorsed by any college or university
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Econometria – 1° parziale
L’econometria è usare i dati per misurare gli effetti. I dati possono essere cross-sectional (multiple entità
osservate in un singolo periodo) e time-series (singole entità osservate in più momenti). Esaminiamo ora un
caso concreto: che effetto ha sui punteggi dei test una riduzione delle dimensioni delle classi degli studenti?
Le nostre variabili sono: TestScore (punteggio del test) e STR (student-teacher ratio, numero degli studenti
diviso il numero dei professori). Ci sono tre step:
1. Stima: comparare i punteggi dei test con un basso STR con quelli con alto STR.
2. Ipotesi test: verifica l’ipotesi nulla che i punteggi medi del test nei due tipi di distretti siano gli stessi,
contro l’ipotesi alternativa in cui differiscono.
3. Intervalli di confidenza: stimare un intervallo nei punteggi medi del test, comparando STR alto vs STR
basso.
Momenti di una distribuzione
Univariata
1. Media: anche detto valore atteso, è il momento 1°.
2. Varianza: momento 2°.
3. Skewness
3
𝐸(π‘Œ−πœ‡π‘¦)
πœŽπ‘¦3
: misura l’asimmetria della distribuzione ed è il momento 3°. Se Sk = 0 la
distribuzione è simmetrica. Se Sk > 0 la distribuzione ha una lunga coda destra (asimmetria positiva),
mentre se Sk < 0 la distribuzione ha una lunga coda sinistra (asimmetria negativa).
4. Curtosi
𝐸(π‘Œ−πœ‡π‘¦)
πœŽπ‘¦4
4
: è una misura di quanta massa c'è nelle sue code e pertanto, è una misura di quanto
la varianza di Y derivi da valori estremi. Più è grande la curtosi, più probabili sono gli outlier. È il
momento 4°. Se la curtosi = 3, la distribuzione è Normale, mentre se Sk > 3 è detta distribuzione
leptocurtica.
Multivariate
𝟏
Covarianza πˆπ’™π’š = 𝑡 ∑ 𝒙𝒖 π’šπ’– − 𝝁𝒙 ππ’š: è la misura di associazione lineare tra X e Y, detto in altre parole è una
misura dell’intensità con la quale due v. c. si muovono insieme. Siccome la covarianza è il prodotto tra X e Y,
la sua unità di misura è espressa nell'unità di misura di X*Y. Il massimo della covarianza è la varianza e quando
è zero, X e Y sono indipendenti. È il momento 2° dell’analisi multivariata.
𝝈
Correlazione π’“π’™π’š = 𝝈 π’™π’šπˆ : detta anche coefficiente di correlazione lineare, è la misura alternativa di
𝒙 π’š
indipendenza tra X e Y, che risolve il problema dell'unità di misura. È un numero puro compreso tra -1 e 1.
Quando è zero, X e Y sono incorrelate e le rette sono perpendicolari tra loro. Quando è -1 c’è perfetta
associazione lineare negativa. Quando invece è 1 c’è perfetta associazione lineare positiva.
Stima
Uno stimatore è una funzione di un campione di dati da estrarre in modo casuale da una popolazione, mentre
una stima è un valore osservato di uno stimatore. Un parametro è una caratteristica della popolazione (come
media, varianza). Nella stima l’obiettivo è quello di poter individuare un valore (stima puntuale) o un insieme
di valori (stima intervallare), che risultino adeguati per approssimare la corrispondente quantità incognita
della popolazione. Non si dispone di strumenti che consentano di valutare l’effettiva vicinanza del valore
stimato al parametro reale, tuttavia è possibile specificare alcuni criteri di ottimalità nella scelta della
statistica campionaria da utilizzare. Lo stimatore potrà avere valori diversi al variare del campione
selezionato. Il valore realizzato sul campione osservato prende il nome di stima. Le principali caratteristiche
per un buon stimatore sono:
1. Correttezza (o non distorsione): se la media campionaria è uguale alla media della popolazione, per
n grande (legge dei grandi numeri).
2. Consistenza: è quando la probabilità che la media campionaria assuma valori in un piccolo intorno
del vero valore della media e tenda a 1 al crescere della dimensione campionaria.
3. Efficienza: quando si tende a preferire lo stimatore con varianza minore.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
P-value
Il p-value è la probabilità di commettere un errore di 1° specie (rifiuto la nulla quando questa è vera). In
pratica è l'area nelle code della distribuzione. Se la probabilità di osservare valori più estremi di quello
calcolato sulla base del campione è superiore al livello di significatività che si ha in mente, allora l’ipotesi nulla
viene accettata, se invece è minore si rifiuta 𝐻0 in favore dell’alternativa. In questo caso si mettono a
confronto aree sotto la distribuzione campionaria anziché valori assumibili dalla statistica. Se riduco l’errore
di 1° specie, incremento quello di 2° specie.
Intervalli di confidenza
Sono degli insiemi di valori che contengono la vera media della popolazione con una probabilità prefissata.
Livello di confidenza: probabilità che la media appartenga all'intervallo. Probabilità di copertura: è la
probabilità, calcolata su tutti i campioni casuali possibili, che esso contenga la vera media della popolazione.
Test di ipotesi
La verifica di ipotesi consiste nella valutazione della plausibilità di una certa assunzione, relativa alla
popolazione statistica di riferimento, sulla base dell’evidenza fornita da un campione di osservazioni. L’ipotesi
di lavoro viene denominata ipotesi nulla (H0), alla quale si è soliti contrapporre un’ipotesi alternativa (H1).
La potenza del test equivale alla probabilità di rifiutare l’ipotesi nulla quando questa è falsa e, quindi,
corrisponde ad una decisione corretta. Definiamo sinteticamente ‘test’ la regola che specifica per quali valori
campionari si debba accettare l’ipotesi nulla e per quali valori campionari la si debba rifiutare. Qualsiasi sia
la regola di decisione adottata, questa potrà portare ad una conclusione corretta, ma potrà anche indurre a
commettere degli errori, che sono classificabili in due diverse tipologie:
Vera H0
Vera H1
Accetto H0
Decisione corretta
Errore del II tipo
Accetto H1
Errore del I tipo
Decisione corretta
La strategia da utilizzare è quella di fissare il valore massimo delle probabilità dell’errore di 1° tipo che si è
disposti ad accettare, e individuare la regione critica che minimizza la probabilità dell’errore di 2° tipo. Il
valore di 𝛼 fissato a priori come massima probabilità di errore di 1° tipo prende il nome di livello di
significatività del test (probabilità massima di rifiutare l’ipotesi nulla quando è vera) e consente di individuare
il valore critico che separa la zona R da quella A.
Regressione lineare
La regressione lineare studia la dipendenza in media della variabile dipendente Y, dalla variabile esplicativa
X. È detta “semplice” perché ha una sola variabile indipendente (X) e “lineare” perché studiamo la dipendenza
in media attraverso una retta, detta retta di regressione lineare. L’obiettivo della costruzione di un modello
è quello di fornire una rappresentazione semplificata della realtà che consenta di formulare interpretazioni
e previsioni relativamente alla relazione oggetto di studio. La relazione non è di tipo deterministico, ma
contiene, oltre all’equazione della retta, un termine di errore denotato come 𝑒𝑖 . Tale componente di errore
è l’insieme delle entità di minor importanza (omesse dal nostro modello), che non sono spiegate dalla X. I
coefficienti della retta non sono ovviamente noti e devono essere stimati. L’obiettivo da perseguire è la
vicinanza della retta ai dati osservati.
Scrivendo questo modello facciamo due ipotesi fondamentali: la prima è che la variabile X sia l’unica variabile
esplicativa, e la seconda è che assumiamo che questo legame tra X e Y sia spiegato tramite una retta. 𝛽0 𝑒 𝛽1
sono due costanti e quindi se prendiamo in considerazione il valore atteso di una delle due avremo
corrispondentemente come risultato una delle due.
La π‘ŒΜ‚ è la fit, mentre 𝑒̂ è il residuo, che mi permettono, se sommati al fit, di ottenere le n osservazioni prese
in considerazione nel nostro modello, che necessariamente non saranno uguali a quelle stimate, perché noi
non andiamo ad interpolare singolarmente tutti i punti, ma ne facciamo una stima tramite la retta. Più 𝑒̂ è
ampio e più il nostro modello spiega poco e male quello che vogliamo spiegare. In soldoni, 𝑒̂ è la stima dei
punti della variabile 𝑒.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
𝛽̂1 è quindi la variazione di voto in conseguenza di una variazione unitaria della dimensione della classe
βˆ†π‘‡π‘’π‘ π‘‘ π‘ π‘π‘œπ‘Ÿπ‘’
( βˆ†π‘†π‘‡π‘… ). Essa esprime la relazione esistente in media tra Y e X. Con gli OLS, i residui a zero, sono garantiti
come risultato dall’aver stimato la costante con la stima degli OLS.
1.
2.
3.
4.
5.
𝜎π‘₯𝑦
∑(𝑋𝑖 −𝑋̅ )(π‘Œπ‘– −π‘ŒΜ… )
= 𝜎2 : se la covarianza tra X e Y è positiva, allora il nostro 𝛽̂1 sarà positivo, e viceversa.
𝛽̂1 = ∑(𝑋
−𝑋̅)2
𝑖
𝛽̂0 = π‘ŒΜ… − 𝛽̂1 𝑋̅
π‘₯
1 πΆπ‘œπ‘£[(𝑋 ,𝑒 ]
πœŽπ›½Μ‚21 = 𝑛 [π‘£π‘Žπ‘Ÿ(𝑋𝑖 )]2𝑖
𝑠̂ 2 =
1
𝑛−1
𝑖
∑(𝑋𝑖 − 𝑋̅)2
𝑆𝐸𝑅 = √
1
𝑛−2
∑ 𝑒̂𝑖2
Misure di Fit
L’π‘ΉπŸ è calcolato come una misura del rapporto della variabilità di quello che la mia retta è in grado di spiegare
rispetto alla variabilità del fenomeno. Esso è comodo perché quando non spiego niente della variabilità
campionaria, l’π‘ΉπŸ varrà zero. Al contrario, esso è 1. Inoltre, essendo un rapporto tra varianza sarà sempre
positivo e non potrà andare né sotto né sopra l’unità. Esso è la frazione della varianza campionaria di
π‘Œπ‘– spiegata dai regressori. Equivalentemente, l’𝑅2 è uguale a uno meno la frazione della varianza di π‘Œπ‘– non
spiegata dai regressori.
𝑻𝑺𝑺 (π‘‡π‘œπ‘‘π‘Žπ‘™ π‘†π‘’π‘š π‘œπ‘“ π‘†π‘žπ‘’π‘Žπ‘Ÿπ‘’π‘ ) = 𝑬𝑺𝑺 (𝐸π‘₯π‘π‘™π‘Žπ‘–π‘›π‘’π‘‘ 𝑆𝑆) + 𝑹𝑺𝑺 (π‘…π‘’π‘ π‘–π‘‘π‘’π‘Žπ‘™ 𝑆𝑆) =
2
∑ 𝑒̂𝑖2
𝐸𝑆𝑆 ∑(π‘ŒΜ‚π‘– − π‘ŒΜ…)
=
π‘œπ‘π‘π‘’π‘Ÿ
=
1
−
2
∑(π‘Œπ‘– − π‘ŒΜ…)2
𝑇𝑆𝑆 ∑(π‘Œπ‘– − π‘ŒΜ…)
π‘ΉπŸ = 𝟎 οƒ  Il coefficiente angolare della retta è zero e quindi l’unica retta possibile è parallela all’asse delle
ascisse e interseca l’asse delle ordinate in corrispondenza di πœ‡π‘¦ . Il carattere X non ha nessun ruolo nello
spiegare il comportamento della variabile dipendente, quindi il modello ha un pessimo adattamento ai dati.
π‘ΉπŸ = 𝟏 οƒ  Quando è 0 la devianza residua, ovvero quando tutti gli errori sono nulli. Tale situazione si verifica
quando tutti i punti risultano allineati sulla retta: il modello mostra un adattamento perfetto ai dati. In questo
caso tra i due caratteri X e Y quantitativi ci sarà indipendenza statistica.
𝟏
∑𝒖
Μ‚ πŸπ’Š ), è un indicatore che misura l’ordine di grandezza della variabilità degli
Il secondo indicatore è il SER (√𝒏−𝟐
errori. In altri termini, è lo stimatore della deviazione standard dell’errore di regressione π’–π’Š . Le unità di
misura di 𝑒𝑖 e π‘Œπ‘– sono identiche, così il SER è una misura della dispersione delle osservazioni intorno alla retta
di regressione, misurata nelle unità di misura della variabile dipendente. Poiché gli errori 𝑒𝑖 sono inosservati,
il SER è calcolato usando le loro controparti campionarie (𝑒̂𝑖 ). Viene diviso per n – 2 perché sono due i
parametri stimati. Il valore del SER è interpretabile nel momento in cui abbiamo un modello competitore con
il quale paragonarlo.
1
1
∑ 𝑒̂𝑖2 e √
∑(𝑒̂𝑖 − 𝑒̅̂ )2 è che io posso riscrivere le “u” tra parentesi come 𝑒
La differenza tra √𝑛−2
Μ‚ 𝑖2 perché negli
𝑛−2
OLS il valore medio dei residui è sempre zero.
La differenza tra SE e SER è che lo Standard Error è in generale la radice quadrata della varianza (deviazione
standard o scarto), lo Standar Error of Regression è una misura della varianza della regressione e quindi di
bontà della regressione
Traslazione degli assi
È una notazione particolare del modello di regressione. La variabile è misurata in scarti rispetto alla media e
i regressori vengono indicati con lettere minuscole. Ad esempio: 𝑦𝑖 = π‘Œπ‘– − π‘ŒΜ… e π‘₯𝑖 = 𝑋𝑖 − 𝑋̅.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Sostanzialmente si sposta l’origine da (𝑦 = 0, π‘₯ = 0) π‘Ž (π‘Œ = π‘ŒΜ…, 𝑋 = 𝑋̅). La retta stimata è sempre la stessa, ma
è misurata lungo gli assi traslati (𝑦𝑖 = 𝛽̂1 π‘₯𝑖 + 𝑒𝑖 ). Manca la costante perché nel nostro nuovo grafico la retta
passa per l’origine. La traslazione degli assi consiste nel tracciare una linea orizzontale e verticale in
corrispondenza rispettivamente della media della X e della Y.
Minimi quadrati ordinari
Lo stimatore OLS sceglie i coefficienti di regressione in modo che la retta di regressione stimata sia il più
possibile vicina ai dati osservati, dove la vicinanza è misurata dalla somma dei quadrati degli errori commessi
nel predire Y utilizzando l'informazione in X. Il residuo è la differenza tra Yi e il suo valore predetto (𝑒̂𝑖 = π‘Œπ‘– − π‘ŒΜ‚π‘– ).
Perché usare lo stimatore OLS? Innanzitutto, perché quello degli OLS è diventato il linguaggio comune degli
economisti e degli statisti e poi perché lo stimatore OLS è non distorto, consistente ed efficiente (solo sotto
alcune condizioni particolari).
Legge delle aspettative iterate, se si prende il valore atteso di un valore atteso condizionale, ne viene fuori
il valore non atteso del valore condizionato A: 𝐸[𝐸(𝐴|𝐡)] = 𝐸(𝐴).
Con il criterio dei minimi quadrati ordinari si procede minimizzando le differenze in verticale tra valori effettivi
di ordinata e valori sulla retta corrispondenti alle osservazioni π‘₯𝑖 . Tali differenze vengono elevate al quadrato,
eliminando in tal modo differenze di segno. Si cercano quei valori di intercetta e coefficiente angolare che
minimizzano la somma dei quadrati degli errori, definiti come differenza tra valori effettivi della variabile
dipendente e corrispondenti valori teorici sulla retta (𝑦̂𝑖 ). La retta è unica ed esiste un unico punto di minimo
della funzione. Il coefficiente, avendo al numeratore la covarianza tra i due caratteri, può essere interpretato
come segue:
Μ‚ 𝟏 > 𝟎, si ha concordanza.
1. Se 𝜷
Μ‚
2. Se 𝜷𝟏 < 𝟎, si ha discordanza.
Μ‚ 𝟏 = 𝟎, si ha una situazione di indipendenza lineare poiché la covarianza è nulla (retta parallela
3. Se 𝜷
all’asse delle ascisse).
Μ‚ 𝟏 = 𝟏, all’aumentare di un’unità di X anche Y aumenta di 1.
4. Se 𝜷
Con Gretl lasciamo sempre const (𝛽0 ) perché se io non la stimo con gli OLS allora non sto traslando gli assi,
ma stimando un modello in livelli (che non ha la costante). Quindi se io non uso la costante negli OLS, la
somma dei residui non ha più media zero.
Fondamenti teorici degli OLS
Quando n è grande, lo stimatore OLS è non distorto, consistente, ha varianza inversamente proporzionale a
n e distribuzione campionaria Normale. Inoltre, se valgono le assunzioni degli OLS e se gli errori sono
omoschedastici, allora lo stimatore OLS è BLUE. Queste assunzioni hanno un duplice ruolo. Il primo è
matematico: se valgono queste assunzioni allora, in grandi campioni, gli stimatori OLS hanno una
distribuzione campionaria Normale, che permette di sviluppare metodi per la verifica di ipotesi e la
costruzione di intervalli di confidenza. Il secondo ruolo è quello di identificare le circostanze che creano
difficoltà per la regressione OLS.
Assunzioni degli OLS
Assunzione 1: la distribuzione di π’–π’Š condizionata a π‘Ώπ’Š ha media nulla
Questa assunzione è una formalizzazione matematica riguardante il ruolo degli
“altri fattori” contenuti in 𝑒𝑖 e afferma che essi non sono legati a 𝑋𝑖 . Se una v. c. ha
media nulla condizionata ad un’altra v. c., allora esse hanno covarianza nulla e sono
perciò incorrelate. Per questo motivo, l’assunzione circa la media condizionata 𝐸(𝑒𝑖 |𝑋𝑖 ) = 0 implica che 𝑋𝑖 e
𝑒𝑖 sono incorrelate. Siccome la correlazione è una misura di associazione lineare, non vale invece il contrario.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Assunzione 2: (π‘Ώπ’Š , π’€π’Š ) sono i.i.d.
Se le osservazioni sono estratte con campionamento casuale semplice da un’unica ampia popolazione allora
(𝑋𝑖 , π‘Œπ‘– ) sono i.i.d.
Assunzione 3: gli outlier sono improbabili
Gli outlier possono rendere fuorvianti i risultati della regressione. Assumiamo che X e Y abbiano momenti
quarti finiti e non nulli. Un altro modo di esprimere questa assunzione è dire che X e Y hanno curtosi finita.
Distribuzione campionaria degli stimatori OLS
Siccome gli stimatori OLS 𝛽̂0 e 𝛽̂1 sono calcolati per un campione i.i.d., sono essi stessi v. c. con una
distribuzione di probabilità, che descrive i valori che essi possono assumere nei diversi campioni possibili. Se
il campione è sufficientemente numeroso, per il teorema del limite centrale la distribuzione campionaria di
𝛽̂0 e 𝛽̂1 è ben approssimata da una Normale bivariata. Inoltre, quando n è grande i due parametri sono vicini
ai veri coefficienti della popolazione 𝛽0 𝑒 𝛽1 . Questo accade perché le varianze πœŽπœ·Μ‚2𝟎 e πœŽπœ·Μ‚2𝟏 tendono a zero al
crescere di n.
In generale, maggiore è la varianza di 𝑋𝑖 , minore è πœŽπœ·Μ‚2𝟏 . Inoltre, maggiore è la varianza di X, più preciso risulta
𝛽̂1 . Matematicamente questo accade perché πœŽπœ·Μ‚2𝟏 è inversamente proporzionale al quadrato della varianza di
𝑋𝑖 . È vero anche che più piccola è la varianza dell’errore, più piccola è la varianza di 𝛽̂1 , perché l’errore è
presente al numeratore.
Regressione con un singolo regressore: verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi circa 𝜷𝟏
La verifica di ipotesi consiste nel porre 𝛽1 = 0 come 𝐻0, contro 𝐻1 : 𝛽1 ≠ 0. Per ottenere questa statistica basta
prendere 𝛽̂1 e dividerlo per lo 𝑆𝐸(𝛽̂1 ). Per verificare 𝐻0, seguiamo tre step. Il primo è quello di
calcolare 𝑆𝐸(𝛽̂1 ), che è uno stimatore di πœŽπ›½Μ‚1 . Il secondo passo è la statistica test. Il terzo passo è il p-value,
dove nel caso in cui fosse inferiore al 5% fornirebbe evidenza sfavorevole ad 𝐻0, nel senso che, sotto l’ipotesi
nulla, la probabilità di ottenere un valore di 𝛽̂1 lontano da 𝐻0, almeno quanto quello effettivamente
osservato, è inferiore al 5%. In questo caso, 𝐻0 è rifiutata al livello di significatività del 5%.
In alternativa, 𝐻0 può essere verificata al 5% semplicemente confrontando il valore assoluto della statistica t
con 1,96 e rifiutando 𝐻0 se |𝑑 π‘Žπ‘π‘‘ | > 1,96. Nel caso dell’alternativa unilaterale, si rifiuta 𝐻0 in favore di 𝐻1, per
valori grandi e negativi della statistica t, ma non per valori grandi e positivi.
Uso della statistica t nella regressione quando il campione è piccolo
Quando n è piccolo, la distribuzione esatta della statistica-t è complicata e dipende dalla distribuzione ignota
dei dati nella popolazione. Tuttavia, se valgono le tre assunzioni degli OLS e se gli errori di regressione sono
omoschedastici e si distribuiscono normalmente, allora lo stimatore OLS si distribuisce normalmente e la
statistica t classica ha una distribuzione t di Student. Poiché la differenza tra la distribuzione t di Student e la
normale è trascurabile per n grande, questa distinzione vale solo se n è piccolo. Queste cinque assunzioni
sono dette assunzioni della regressione normale omoschedastica.
Formule per la statistica t
1.
2.
Μ‚ 1 −𝛽1
𝛽
Μ‚1)
√𝑉𝐴𝑅(𝛽
Μ‚ 1 −𝛽1
𝛽
Μ‚1)
𝑆𝐸(𝛽
~𝑁(0,1).
~ 𝑑𝑛−2 .
Intervalli di confidenza per 𝜷𝟏
Un intervallo di confidenza di livello 95% per 𝛽1 ha due definizioni equivalenti: in base alla prima, è l’insieme
dei valori che non si possono rifiutare usando un test d’ipotesi bilaterale con il livello di significatività del 5%.
In base alla seconda, è un intervallo che ha probabilità del 95% di contenere il vero valore di 𝛽1 .
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Le due definizioni sono equivalenti perché un test con significatività del 5%, per definizione, rifiuterà il vero
valore di 𝛽1 soltanto nel 5% di tutti i possibili campioni.
Eteroschedasticità e omoschedasticità
Se, in aggiunta alla 1° assunzione degli OLS, la varianza di questa distribuzione non dipende da 𝑋𝑖 , allora, si
dice che gli errori sono omoschedastici. Altrimenti, l’errore è eteroschedastico. Le assunzioni degli OLS si
applicano sia al caso generale di etero, sia al caso speciale di omo. Dunque, gli stimatori OLS rimangono non
distorti e consistenti.
Oltre che inversamente proporzionale ad n e alla π‘£π‘Žπ‘Ÿ(𝑋𝑖 ), nel modello omoschedastico, π‘£π‘Žπ‘Ÿ(𝛽̂1 ), è
direttamente proporzionale alla π‘£π‘Žπ‘Ÿ(𝑒𝑖 ). Se gli errori sono eteroschedastici, la statistica t non ha una
distribuzione Normale neanche per grandi campioni.
1 𝑉𝐴𝑅(π‘₯𝑖 𝑒𝑖)
Errori eteroschedastici: 𝑉𝐴𝑅(𝛽̂1 ) =
ed Errori omoschedastici: 𝑉𝐴𝑅(𝛽̂1 ) =
4
𝑛
𝜎π‘₯
2𝜎2
1 πœŽπ‘’
π‘₯
𝑛 𝜎π‘₯2 𝜎π‘₯2
=
2
1 πœŽπ‘’
𝑛 𝜎π‘₯2
→ 𝑆𝐸(𝛽̂1 )
Efficienza dello stimatore OLS quando gli errori sono omoschedastici
Se valgono le assunzioni degli OLS e, in aggiunta, gli errori sono omoschedastici, allora gli stimatori OLS 𝛽̂0 e
𝛽̂1 sono BLUE (teorema di Gauss-Markov). Questo teorema ha però due limiti importanti. In primo luogo, le
sue condizioni potrebbero non valere. In questo caso potrebbe tornare utile lo stimatore dei minimi quadrati
ponderati. Il secondo limite è che, sebbene possano valere le condizioni del teorema, ci sono altri stimatori
alternativi che non sono lineari e condizionatamente non distorti. Sotto certe condizioni, questi altri stimatori
sono più efficienti degli OLS.
È più realistica l’omoschedasticità o l’eteroschedasticità?
La risposta dipende dall’applicazione. In generale l’eteroschedasticità si ritrova in molte applicazioni
econometriche. A livello generale, dunque, la teoria economia raramente offre ragioni per credere che gli
errori siano omoschedastici, a meno che non ci sia un’evidenza chiara per credere il contrario. Il maggior
problema in questo caso è rappresentato dal dubbio di usare gli errori standard classici o quelli robusti
all’eteroschedasticità. Se essi sono simili, non si perde nulla ad usare quelli robusti. Se però differiscono,
bisognerebbe usare quelli più affidabili che tengono conto dell’eteroschedasticità. La via più semplice è
appunto usare sempre gli errori standard classici.
Capitolo 6 – Regressione lineare con regressori multipli
Quando abbiamo solo un’esplicativa, allora l’interpretazione del parametro è la variazione di Y per una
variazione unitaria di X. Nel modello con più variabili esplicative, 𝛽̂1 è la variazione di Y per una variazione
unitaria di X1 a parità di X2. Quindi 𝛽̂1 isola l’effetto della classe dopo che idealmente abbiamo tenuto costante
la composizione di questa classe. Dunque, il nostro 𝛽̂1 ci fornirà un’informazione molto più concentrata
sull’effetto della X, perché ci spiega l’effetto della X in un mondo teorico dove l’effetto della classe è
mantenuto costante. Quindi se io ometto l’effetto della composizione della classe, esso finisce nel nostro
modello e dunque risulterà distorto.
Come può un metodo di stima, che conosce dati ex-post, riuscire a isolare un effetto di ceteris paribus?
Quando abbiamo solo un’esplicativa, 𝛽̂1 gioca sul rapporto tra covarianza di Y (che contiene anche l’effetto
della X2) ed X1 e la varianza di X1. Questa formula però cambia quando ho una X2, in una formula più complessa
che comprende la covarianza tra X1 e X2 (fattore cruciale perché compare sia a numeratore che a
denominatore), la covarianza tra Y e X2, e la varianza di X2. Quindi se supponiamo che X1 e X2 non covarino,
allora la formula che rimane è quella di 𝛽̂1 nel caso di una sola variabile esplicativa.
Nel caso in cui abbiamo due variabili esplicative, la somma del quadrato dei residui è minore rispetto al primo
caso in cui abbiamo una sola esplicativa. Questo perché nel primo caso abbiamo due parametri e nel secondo
ne abbiamo tre. Quanto più è importante l’avere aggiunto la variabile Z, tanto più la somma dei residui del
secondo modello sarà più bassa. Più sono le variabili esplicative e più la condizione di minimo può scendere.
Di quanto scende questa somma, dipenderà dall’importanza della X2 che ho aggiunto.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Definizione di distorsione da variabili omesse
La distorsione da variabile omessa si verifica quando valgono due condizioni: la variabile omessa è correlata
con il regressore incluso e la variabile omessa contribuisce a determinare la variabile dipendente. La
distorsione da variabile omessa è dovuta al venir meno della prima ipotesi dei minimi quadrati 𝐸 (𝑒𝑖 |𝑋𝑖 ) = 0.
In altre parole, se una variabile omessa è una determinante di π‘Œπ‘– , essa è inclusa nell’errore e, se è correlata
con 𝑋𝑖 , anche l’errore è correlato con 𝑋𝑖 . Siccome 𝑒𝑖 𝑒 𝑋𝑖 sono correlati, avremo 𝐸(𝑒𝑖 |𝑋𝑖 ) ≠ 0.
Questa correlazione perciò viola la prima ipotesi degli OLS e la conseguenza è che lo stimatore OLS è distorto
ed inconsistente (non svanisce neanche in grandi campioni).
Una formula per la distorsione da variabili omesse
Sia π‘π‘œπ‘Ÿπ‘Ÿ(𝑋𝑖 , 𝑒𝑖 ) = πœŒπ‘‹π‘’ la correlazione tra 𝑋𝑖 e 𝑒𝑖 . Si supponga che valgano la seconda e terza assunzione degli
𝜎
OLS, ma non la prima dato che πœŒπ‘‹π‘’ è non nullo. Allora, il limite dello stimatore OLS è: 𝛽̂1 → 𝛽1 + πœŒπ‘‹π‘’ πœŽπ‘’ . In
𝜎
π‘₯
altre parole, al crescere della dimensione campionaria, 𝛽̂1 è prossimo a 𝛽1 + πœŒπ‘‹π‘’ πœŽπ‘’ con probabilità sempre
π‘₯
più elevata. Maggiore è πœŒπ‘‹π‘’ e maggiore sarà la distorsione. Il segno della distorsione di 𝛽̂1 dipende dal fatto
che X e u siano positivamente o negativamente correlati.
1
Nella regressione multipla, il SER è = √𝑛−π‘˜−1 ∑ 𝑒̂𝑖2. Si divide per 𝑛 − π‘˜ − 1 perché corregge la distorsione verso il
basso introdotta dalla stima di k+1 coefficienti (correzione per i gradi di libertà).
Μ…πŸ
Indice di determinazione lineare corretto 𝑹
Nella regressione multipla, l’𝑅2 cresce ogni volta che si aggiunge un regressore, a meno che il coefficiente
del regressore aggiunto sia esattamente pari a zero. Ma un aumento dell’𝑅2 non significa che aggiungere una
variabile migliori realmente l’adattamento del modello. In questo senso, l’𝑅2 fornisce una stima in eccesso
della bontà della regressione. Un modo per correggere questo effetto è quello di utilizzare l’𝑅̅ 2 . Esso non
𝑠2
𝑆𝑆𝑅
𝑛−1
∗
= 1 − 𝑒2Μ‚ , dove il
aumenta necessariamente se si aggiunge un nuovo regressore. La sua formula: 𝑅̅2 = 1 − 𝑛−π‘˜−1
π‘ π‘Œ
𝑇𝑆𝑆
𝑛−1
tutto è moltiplicato per 𝑛−π‘˜−1
. Tre risultati utili da sapere:
𝑛−1
1. Innanzitutto, essendo 𝑛−π‘˜−1 sempre maggiore di 1, l’𝑅̅ 2 sarà sempre minore dell’𝑅2 .
2. In secondo luogo, l’aggiunta di un regressore ha due effetti opposti sull’𝑅̅2 . Da un lato, l’SSR decresce,
𝑛−1
il che fa aumentare l’𝑅̅ 2 . Dall’altro, il fattore 𝑛−π‘˜−1 aumenta. L’aumento o diminuzione dell’𝑅̅2
dipende da quale dei due effetti è il più forte.
Μ… 2 può essere negativo. Questo accade quando i regressori riducono la somma dei
3. In terzo luogo, l’𝑅
𝑛−1
.
quadrati dei residui di un ammontare così piccolo da non bilanciare il fattore 𝑛−π‘˜−1
Μ…πŸ
Interpretazione pratica dell’π‘ΉπŸ e dell’𝑹
Ci sono quattro potenziali problemi da cui guardarsi quando si usano l’𝑅2 e l’𝑅̅ 2 :
1. Un aumento dell’𝑅2 , o dell’𝑅̅2, non significa necessariamente che la variabile aggiunta sia
statisticamente significativa. L’𝑅2 cresce ogni volta che si aggiunge un regressore, indipendentemente
dalla significatività. L’𝑅̅2 non cresce in ogni occasione, ma se aumenta non vuol dire necessariamente
che il coefficiente del regressore aggiunto sia statisticamente significativo. Per accertarsi della
significatività di una variabile aggiunta, è necessario condurre un test di ipotesi usando la t.
2. Un 𝑅2 o un 𝑅̅ 2 elevato non implica che i regressori siano la vera causa della variabile dipendente.
3. Un 𝑅2 o un 𝑅̅ 2 elevato non implica che non vi sia distorsione da variabili omesse. Di contro, un
basso 𝑅2 non implica che ci sia necessariamente una distorsione da variabile omessa.
4. Un 𝑅2 o un 𝑅̅ 2 elevato non significa necessariamente che abbiamo scelto l’insieme di regressori più
appropriato, né un basso 𝑅2 o 𝑅̅ 2 implica che ne abbiamo scelto uno inappropriato.
In sintesi l’𝑅2 e l’𝑅̅ 2 non ci dicono se:
1.
2.
3.
4.
Una variabile inclusa è statisticamente significativa.
I regressori sono causa effettiva dei movimenti della variabile dipendente.
C’è distorsione da variabili omesse.
Abbiamo scelto il gruppo di regressori più appropriato.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Collinearità
Nel caso di collinearità perfetta è impossibile calcolare lo stimatore OLS. Si dice che i regressori mostrano
collinearità perfetta se uno di essi è funzione lineare esatta degli altri.
In sostanza, la quarta assunzione è che i regressori non siano perfettamente collineari. Nella regressione
multipla, il coefficiente di uno dei regressori è l’effetto di una variazione nel regressore stesso, tenendo gli
altri costanti. Diversamente, la collinearità imperfetta non impedisce la stima della regressione, né comporta
un problema logico con la scelta dei regressori. Tuttavia, essa implica che uno o più coefficienti di regressione
possono essere stimati in modo impreciso. Quanto più grande è la correlazione tra i due regressori, tanto più
questo termine è prossimo a zero e quindi tanto più grande è la varianza di 𝛽̂1 . Più in generale, quando i
regressori multipli sono imperfettamente collineari, allora i coefficienti di uno o più di questi regressori sono
stimati in modo impreciso.
Se noi abbiamo due variabili esplicative ed esse sono correlate, sappiamo che necessariamente aumenta la
varianza rispetto al caso in cui la seconda variabile non compariva. Ma ci sono alcuni casi in cui la varianza
può addirittura ridursi, perché l’effetto della correlazione fa aumentare la varianza, ma quando aggiungiamo
variabili importanti, la stima di questo cambia e il SER diventa più piccolo e allora la varianza con due
esplicative ha un effetto netto che dipende da un lato di quanto le due esplicative sono correlate (questo mi
confonde e fa aumentare la varianza), e dall’altro se l’aggiunta della seconda mi abbatte il SER, allora può
succedere che la varianza diminuisce rispetto a prima, nonostante la collinearità.
Capitolo 7 – Verifica di ipotesi e intervalli di confidenza nella regressione multipla
Verificare un 𝐻0 congiunta usando la solita statistica t non è possibile. Inoltre, se i regressori sono correlati,
la situazione è ancora più complicata. Il livello minimo della procedura “coefficiente per coefficiente” dipende
dal valore della correlazione tra i regressori. Poiché questo approccio ha un livello minimo errato, ovvero il
suo tasso di rifiuto sotto 𝐻0 non è uguale a livello di significatività desiderato, è necessario un nuovo
approccio. Un’ipotesi congiunta è un’ipotesi che impone due o più restrizioni sui coefficienti di regressione.
Se una, o più, delle uguaglianze sotto 𝐻0 è falsa, allora 𝐻0 congiunta è falsa. Perciò, 𝐻1 è che almeno una delle
uguaglianze di 𝐻0 non valga.
La statistica F
La statistica F è usata per verificare ipotesi congiunte sui coefficienti di regressione. Quando 𝐻0 contiene le
2
2 −2𝜌
̂𝑑1,𝑑2 𝑑1 𝑑2
due restrizioni 𝛽1 = 0 e 𝛽2 = 0, la statistica F combina le due statistiche t tramite la formula: 𝐹 = 12 (𝑑1 +𝑑21−𝜌
),
Μ‚2
𝑑1,𝑑2
dove πœŒΜ‚π‘‘1,𝑑2 è uno stimatore della correlazione tra le due statistiche t. Se le statistiche sono incorrelate, invece,
la formula diventa 𝐹 = 12 (𝑑12 + 𝑑22 ), che è la media dei quadrati delle statistiche t. Nel caso di π‘ž = 1, la statistica
F verifica una singola restrizione, quindi 𝐻0 congiunta si riduce all’ipotesi nulla su un singolo coefficiente di
regressione, e la statistica F è il quadrato della statistica t. La si rifiuta se è maggiore di 3, valore critico al 5%.
Una statistica F grande dovrebbe essere associata ad un sostanziale aumento dell’𝑅2 . In effetti, se il termine
di errore è omoschedastico, la statistica F può essere scritta in termini di miglioramento nell’adattamento
della regressione, misurato dalla somma dei quadrati dei residui oppure dall’𝑅2 della regressione. La statistica
F risultante è nota come statistica F classica, ed è valida solo se il termine di errore è omoschedastico. Al
contrario, la statistica F robusta all’eteroschedasticità è valida a prescindere che il termine di errore sia omo
o eteroschedastico. La statistica F classica si calcola tramite una semplice formula basata sulla somma dei
quadrati dei residui di due regressori.
Nella prima regressione, chiamata regressione vincolata, si impone 𝐻0. Nella seconda regressione, chiamata
regressione non vincolata è considerata vera 𝐻1. Se la somma dei quadrati dei residui è sufficientemente più
piccola nella regressione non vincolata, il test rifiuta 𝐻0. La statistica F classica è data dalla formula: 𝐹 =
π‘†π‘†π‘…π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘ − π‘†π‘†π‘…π‘’π‘›π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘ ⁄π‘ž
, con π‘†π‘†π‘…π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘ (somma dei quadrati dei residui della regressione vincolata),
⁄𝑛−π‘˜
𝑆𝑆𝑅
−1
π‘’π‘›π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘
π‘’π‘›π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘
(somma dei quadrati dei residui della regressione non vincolata), q (numero di restrizioni sotto
l’ipotesi nulla) e π‘˜π‘’π‘›π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘ (numero di regressori nella regressione non vincolata).
π‘†π‘†π‘…π‘’π‘›π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
2
2
⁄π‘ž
− π‘…π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘)
Una formula equivalente è basata sugli 𝑅2 delle due regressioni: 𝐹 = 1−𝑅(𝑅2π‘’π‘›π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘⁄𝑛−π‘˜
π‘’π‘›π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘
π‘’π‘›π‘Ÿπ‘’π‘ π‘‘π‘Ÿπ‘–π‘π‘‘π‘’π‘‘ −1
. Queste formule
valgono solo se gli errori sono omoschedastici. Meno accettabili sono le restrizioni di 𝐻0, più forte sarà la
caduta in termini di 𝑅2 , e quindi una F che sarà maggiore, e tanto più maggiore quanto più è la perdita di
𝑅2 a causa delle restrizioni introdotte. Maggiore è la F, più piccola sarà la coda di questa statistica.
Lo stesso discorso può essere fatto guardando non tanto al differenziale tra gli 𝑅2 , ma guardando al
differenziale tra la somma del quadrato dei residui del modello vincolato e non vincolato, perché se noi sotto
𝐻0 restringiamo a zero dei parametri che sono importanti per spiegare il modello, non solo avremo una
caduta dell’𝑅2 , ma simmetricamente avremo una somma del quadrato dei residui sempre più grande (perché
riesco a minimizzare di meno, mancando delle variabili importanti).
Tra le due formule, vincolato e non vincolato si invertono perché più tolgo delle variabili importanti sotto 𝐻0,
più il modello vincolato avrà delle performance peggiori sotto l’𝑅2 , quindi bisognerà avere il modello non
vincolato prima, così da non far risultare la differenza negativa, dato che la F è sempre positiva.
Il passaggio da un π‘ΉπŸ = 𝟎, πŸ’πŸ‘ ad un π‘ΉπŸ = 𝟎, πŸ’πŸ, è un salto poco o molto forte? Questo dipenderà dalla F
che ne verrà fuori. In questo caso la 𝐹 = 8, e quindi il valore di probabilità è sicuramente inferiore al 5%.
Dunque, va molto nelle code ed io non accetto le restrizioni che mi portano a 𝑅2 = 0,41.
Come fare a considerare congiuntamente questi movimenti di due o più parametri? Fin tanto che ci
muoviamo con due parametri, allora possiamo vedere la cosa graficamente e quindi ciò che sta a monte del
test F (intervallo di confidenza) diventa una regione di confidenza (ellisse). Ne viene fuori un’ellisse perché
avendo calcolato la regione di confidenza con la F, non si usano solo lo SE e la stima dei singoli parametri ma
si usa anche la covarianza tra X1 e X2. La parte più lunga è orientata in direzione basso-sinistra/alto-destra. La
ragione di tale orientamento è che la correzione stimata tra 𝛽̂1 𝑒 𝛽̂2 è positiva, il che deriva a sua volta dalla
correlazione negativa tra Y e X2.
Capitolo 8 – Funzioni di regressione non lineari
Se la relazione tra X e Y è non lineare allora:
1. Gli effetti su Y di un cambiamento di X dipendono dal valore di quest’ultimo, cioè che l’effetto
marginale di X (derivata prima) non è costante.
2. La regressione lineare è mal spiegata. La forma funzionale è sbagliata.
3. Gli stimatori degli effetti su Y di X sono distorti.
Un approccio generale per modellare la non linearità usando la regressione multipla
1. Identificare una possibile relazione non lineare: ci si deve chiedere se la pendenza della funzione di
regressione che mette in relazione Y e X possa dipendere dal valore di X o da un’altra variabile.
2. Specificare una funzione non lineare e stimarne i parametri con gli OLS.
3. Comprendere se il modello non lineare costituisce un miglioramento rispetto a un modello lineare.
4. Disegnare la funzione di regressione non lineare stimata.
5. Stimare l’effetto di una variazione di X su Y.
Funzione di regressione non lineare generale: π’€π’Š = 𝒇(π‘ΏπŸπ’Š , π‘ΏπŸπ’Š , π‘Ώπ’Œπ’Š ) + π’–π’Š
Polinomi
2
π‘Œπ‘– = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖
+ 𝑒𝑖 è detto modello di regressione quadratico perché la funzione di regressione della
2
popolazione 𝐸(π‘Œπ‘– |𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖
è ipotizzata quadratica nella variabile indipendente X. Poiché il
modello di regressione quadratico è una variante della regressione multipla, i suoi coefficienti ignoti possono
essere stimati e sottoposti a verifica. Il grado del polinomio dipende dalla potenza r più elevata di X inclusa
nella regressione. Se la funzione di regressione della popolazione è lineare, il termine quadratico e quello di
ordine superiore non rientrano nella funzione di regressione.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Quale grado di polinomio usare?
Di solito non si va oltre il terzo grado. L’aumento del grado R introduce maggiore flessibilità nella funzione di
regressione e permette di catturare forme più varie. Aumentare r significa però aggiungere più regressori, il
che può ridurre la precisione delle stime. Un modo pratico per determinare il grado del polinomio consiste
nel verificare se i coefficienti associati ai valori più elevati di r siano nulli. Se lo sono, questi termini possono
essere eliminati dalla regressione. Questo procedimento, chiamato verifica di ipotesi sequenziale, consiste
nei seguenti passaggi:
1. Si sceglie un valore massimo per r e si stima la regressione polinomiale per quel valore.
2. Si utilizza la statistica t per verificare l’ipotesi che il coefficiente di 𝑋 π‘Ÿ sia nullo. Se tale ipotesi viene
rifiutata, allora 𝑋 π‘Ÿ entra nella regressione e va usato un polinomio di grado r.
3. Se non si rifiuta π›½π‘Ÿ = 0 al passaggio 2, si elimina 𝑋 π‘Ÿ dalla regressione e si stima una regressione di
grado inferiore. Si verifica che il coefficiente di 𝑋 π‘Ÿ−1 sia nullo. Se tale ipotesi viene rifiutata, si usa un
polinomio di grado r-1
4. Se non si rifuta π›½π‘Ÿ−1 = 0 al passaggio 3, allora questo procedimento deve essere ripetuto finché il
coefficiente della potenza massima nel nostro polinomio diventa statisticamente significativo. In
questo caso bisogna utilizzare una statistica F.
Logaritmi
Un altro modo di specificare una funzione di regressione non lineare, è quello di usare il logaritmo naturale
di Y o di X. I logaritmi convertono variazioni delle variabili in variazioni percentuali, e molte relazioni sono
espresse in modo naturale in termini percentuali. La funzione esponenziale e il logaritmo naturale (sua
inversa) giocano un ruolo importante nel modellare funzioni di regressioni non lineari. La funzione
esponenziale di x è 𝑒 π‘₯ , 𝑒 = 2,718. Il logaritmo naturale è l’inverso della funzione esponenziale.
Il legame tra logaritmi e percentuali si basa sulla seguente proprietà: quando βˆ†π‘₯ è piccolo, la differenza tra il
βˆ†π‘₯
logaritmo di π‘₯ + βˆ†π‘₯ e il logaritmo di x è approssimativamente π‘₯ (stretta approssimazione percentuale), la
variazione percentuale di x divisa per 100: ln(π‘₯ + βˆ†π‘₯) − ln(π‘₯) ≅
βˆ†π‘₯
π‘₯
.
I residui, gli 𝑅2 e qualsiasi indicazione che ha a che vedere con l’adattamento del modello ai dati, non sono
confrontabili con quelli lineari poiché i primi spiegano una variazione percentuale, mentre i secondi spiegano
una variazione lineare.
βˆ†π’€⁄𝒀
𝜷𝟏 = βˆ†π‘Ώ/𝑿 → π‘¬π’π’‚π’”π’•π’Šπ’„π’Šπ’•à, 𝒄𝒉𝒆 𝒏𝒐𝒏 π’“π’Šπ’”π’†π’π’•π’† 𝒅𝒆𝒍𝒍′ π’π’“π’…π’Šπ’π’† π’…π’Š π’ˆπ’“π’‚π’π’…π’†π’›π’›π’‚ π’…π’Š 𝑿.
Capitolo 12 – Regressione con variabili strumentali
Ci sono tre minacce che mettono in pericolo l’ipotesi 𝐸(𝑒𝑖 |𝑋𝑖 ) = 0: omissione da variabile omessa, causalità
simultanea (X causa Y e viceversa), errori in variabili distorte (X è misurata con errore). Le variabili strumentali
possono eliminare questa distorsione, usando una variabile strumentale Z. Questo modello utilizza quindi
un’informazione contenuta in una variabile Z esterna al modello (incorrelata con u). Esso opera, quando
siamo nella situazione in cui la X è una variabile endogena esplicativa, dividendo la X in due parti: una parte
correlata con l’errore e una no. Isolando la parte che non è correlata con l’errore, è possibile stimare 𝛽1 .
Affinché lo strumento Z sia valido, deve soddisfare due condizioni: Rilevanza: π‘π‘œπ‘Ÿπ‘Ÿ(𝑍𝑖 , 𝑋𝑖 ) ≠ 0 ed Esogeneità:
π‘π‘œπ‘Ÿπ‘Ÿ(𝑍𝑖 , 𝑒𝑖 ) = 0.
Variabile endogena: è una variabile che è correlata con l’errore. Quindi la Y è sempre correlata con l’errore.
Variabile esogena: è una variabile che è incorrelata con l’errore. Quindi la Y non può essere esogena, mentre
la X si, poiché in questo caso si possono usare gli OLS.
Esempio criminalità con 𝜷𝟏 > 𝟎
Nel caso in cui si avesse la spesa per la sicurezza per spiegare il tasso di criminalità, si regredisse con gli OLS
e 𝛽1 venisse positivo, cosa vorrebbe dire? Questo segno positivo dipende dal fatto che in un modello in cui
la spesa per la sicurezza causa la criminalità, gli errori di quel modello sono correlati con la variabile esplicativa
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
“spesa per la sicurezza”, perché non solo a maggiori spese per la sicurezza corrisponde minore criminalità,
ma a meno criminalità corrisponde meno spesa per la sicurezza. Ad esempio, in alcune zone con alti tassi di
criminalità si riscontra una maggiore spesa per la sicurezza, ma questo non perché la maggior spesa porta ad
una maggiore criminalità, ma proprio perché si investe in quelle zone che sono più afflitte da questo
problema. In sintesi, negli OLS, il parametro 𝛽1 dipende dalla 𝜎π‘₯𝑦 , per questo viene positivo e non negativo
nell’esempio prima. Quindi non andrebbero proprio usati gli OLS in questo caso.
Minimi quadrati a due stadi (TSLS) – Stima con variabili strumentali
Questa stima viene sviluppata tramite due regressioni consecutive con gli OLS. Il primo stadio consiste
nell’isolamento della X che non è correlata con il termine di errore e questa scomposizione viene fatta tramite
una regressione in cui la variabile dipendente è X e la variabile esplicativa è Z. Questa regressione non ha
nulla a che vedere con il modello iniziale, ma ci dice semplicemente il modo in cui la variabile Z spiega la
variabile X (esogena). Il modello è il seguente: 𝑋𝑖 = πœ‹0 + πœ‹1 𝑍𝑖 + 𝑣𝑖 , di cui πœ‹0 + πœ‹1 𝑍𝑖 non è correlata con 𝑒𝑖 ,
mentre 𝑣𝑖 e 𝑋𝑖 sono correlati con 𝑒𝑖 . Affinché la Z sia valida, non basta che sia esogena, ma deve anche essere
rilevante. Quest’ultima cosa la capiamo dal fatto che la Z la usiamo come variabile esplicativa.
Regressione di forma ridotta
1° stadio
L’ipotesi di rilevanza di Z l’andiamo a verificare andando a studiare l’ipotesi nulla che πœ‹1 = 0. Quindi
prenderemo πœ‹Μ‚1 , lo divideremo per il suo SE e calcoleremo la t di Student. Se rifiutiamo l’ipotesi nulla, allora
possiamo affermare che Z è uno strumento rilevante. La rilevanza equivale alla verifica statistica della
significatività dei parametri delle variabili esogene, a partire dai risultati di stima degli OLS del modello di 1°
stadio, regressione di forma ridotta, un modello in cui la variabile X, endogena ed esplicativa, viene regredita
contro tutti gli strumenti che ho a disposizione.
2° stadio
Al secondo stadio, stimiamo il nostro modello OLS: π‘Œπ‘– = 𝛽0 + 𝛽1 𝑋̂𝑖 + 𝑒𝑖 , dove 𝑋̂𝑖 è stata ottenuta nella
regressione del 1° stadio (che sarà quindi incorrelata con l’errore). Questo modello TSLS si fonda sulla teoria
dei grandi campioni. Nella regressione di 2° stadio, l’unico prodotto che può essere utilizzato con certezza e
proprietà statistica sono le due stime.
Modello di regressione multipla con variabili strumentali
In questo modello possiamo avere k variabili esplicative endogene X ed r variabili esogene W. Quindi avremo
potenzialmente k+r+1 parametri da stimare con le variabili strumentali. In generale, possiamo ipotizzare di
avere m variabili strumentali Z.
Identificazione
In una regressione con variabili strumentali, se i coefficienti sono identificati o meno dipende dalla relazione
tra il numero di strumenti (m) e il numero di regressori endogeni (k). Se il modello è non identificato (π‘˜ >
π‘š), non possiamo stimare con variabili strumentali perché non abbiamo abbasta strumenti. Nel caso in cui
π‘˜ = π‘š (esattamente identificato), abbiamo l’informazione minima per poter stimare con variabili
strumentali. Se invece π‘š > π‘˜ (sovraidentificato), abbiamo più strumenti di quelli di cui avremo bisogno. La
sovraidentificazione è interessante perché noi abbiamo a disposizione dei test che vengono detti test di
esogeneità degli strumenti che possono essere effettuati solamente se siamo in presenza di modelli
sovraidentificati.
Se π‘˜ = 1 ed abbiamo m strumenti, nel 1° stadio, per scorporare la componente esogena della X rispetto a
quella endogena, regrediamo la variabile X contro tutte le variabili esogene. Nel 2° stadio, come sempre,
sostituiremo la X endogena, con quella esogena stimata. Per avere uno SE corretto su Gretl, dovremo stimare
in un colpo tramite i TSLS.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Controllo della rilevanza ed esogeneità
Rilevanza: almeno uno strumento deve essere utilizzato per poter fare la regressione di 1° stadio. Almeno
uno strumento perché, nel caso in cui non avessimo strumenti, andremo a regredire la X contro la W (perfetta
collinearità). Se noi abbiamo strumenti deboli, significa che gli strumenti non sono rilevanti. Gli strumenti
deboli spiegano molto poco della variazione di X, oltre quella spiegata da W. In questo caso, possiamo fare
una statistica F per verificare, sotto 𝐻0, che tutti i nostri πœ‹π‘š siano zero. Se, nel 1° stadio, la F è minore di 10,
gli strumenti saranno deboli. Se gli strumenti sono deboli, saranno distorti ed inconsistenti, quindi l’inferenza
che faremo sarà sbagliata.
Cosa succede se ci troviamo nel caso di strumenti deboli? Noi sappiamo che 𝛽̂1𝑇𝑆𝐿𝑆 = π‘†π‘Œπ‘ ⁄𝑆𝑋𝑍 . Nel caso di
strumenti deboli, il denominatore tende a zero e dunque la sua distribuzione asintotica, e le corrispondenti
t statistiche, non saranno approssimativamente Normali.
Esogeneità: tutti gli strumenti devono essere incorrelati con il termine di errore. Questo perché se uno dei
nostri strumenti fosse correlato con l’errore, avremo una contaminazione della X stimata.
Il J-test (test di esogeneità degli strumenti, di sovraidentificazione o test di Sargan) che va a fare il confronto
tra stime alternative, ci dice se i parametri sono molto simili o poco simili. Questo test prevede che, sotto 𝐻0,
le restrizioni di sovraidentificazione non sono rifiutate, e quindi che gli strumenti sono esogeni. I passi da
seguire per calcolare il test J sono più complessi. Innazitutto, bisogna fare la stima con i TSLS, usando tutti gli
strumenti. Dopodiché, di questa stima, bisogna memorizzare i residui. Infine, bisogna regredire questi residui
contro tutte le variabili esogene che compaiono nel nostro problema. La J-statistica si calcola: 𝑱 = π’Žπ‘­, dove
la F è ottenuta al terzo punto, andando a verificare l’ipotesi che i coefficienti sulle Z siano tutti zero.
Supponiamo un modello che ha una sola variabile esplicativa endogena e due strumenti. Quante stime
consistenti posso fare usando il metodo delle variabili strumentali? La risposta è tre, di cui una
sovraidentificata (quella con lo SE minore), e le altre due esattamente identificate. Se esse risultano simili,
allora saranno consistenti, dunque tutti gli strumenti saranno validi. Se invece differiscono di molto, esse non
saranno consistenti e gli strumenti non saranno validi (endogeni e non esogeni).
Distribuzione della J-statistica
Sotto l’ipotesi nulla che tutti gli strumenti siano esogeni, J si comporta come un πœ’2 con π‘š − π‘˜ gradi di libertà.
Se π‘š = π‘˜, (𝐽 = 0), allora non possiamo fare la verifica perché ci deve essere almeno un grado di libertà. Se
alcuni strumenti sono esogeni ed altri endogeni, la J sarà grande e dunque noi tenderemo a rifiutare 𝐻0 che
tutti gli strumenti sono esogeni.
Test di Hausman – test di esogeneità debole
Il test di Hausman è un test di esogeneità congiunta di tutte le variabili esplicative del modello. La procedura
è la seguente: stimo il modello con varabili strumentali, dopo che ho verificato che gli strumenti che sto
utilizzando sono validi. Poi lo stesso modello lo stimo con gli OLS. Quest’ultima stima sarebbe corretta e
consistente, solo nel caso in cui la variabile considerata endogena sia esogena. Quindi il test di Hausman
confronta la stima OLS con quella delle variabili strumentali. Più queste stime sono vicine, più significa che la
variabile considerata endogena è in realtà esogena. In questo caso, si preferiscono quelle degli OLS, poiché
sono BLUE.
Serie storiche
Nel caso delle cross-section, noi assumevamo che i dati erano i.i.d. Dirlo anche per le serie storiche non ha
senso, perché i dati in quest’ultima hanno memoria e quindi necessariamente saranno collegati tra di loro.
Dunque, la seconda assunzione nel caso delle serie storiche presuppone che il campione sia estratto da una
popolazione stazionaria, perché se così non fosse, tutte le medie, autocovarianze e varianze si basano su
parametri che nella popolazione non sono costanti. Gli indici finanziari invece sono i.i.d. ed infatti non è
possibile prevedere i loro valori futuri, a differenza delle serie storiche, poiché sono delle random walks.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Perché usare le serie storiche? Svariati sono i campi di applicazione, ma principalmente per trovare degli
strumenti di previsione univariata. Le serie storiche introducono un insieme di temi, ad esempio ritardi
temporali, oppure quello dell’autocorrelazione (correlazione nel tempo). I modelli di previsione che verranno
stimati con gli OLS saranno modelli di autoregressione (AR). La nostra variabile si chiama π‘Œπ‘‘ , ossia il valore di
Y nel periodo t. Lags (ritardo): il primo ritardo di una serie storica π‘Œπ‘‘ è π‘Œπ‘‘−1 .
First difference (differenza prima): viene identificata con βˆ†π‘Œπ‘‘ ed è la variazione di Y dal periodo t-1 al periodo
t, quindi βˆ†π‘Œπ‘‘ = π‘Œπ‘‘ − π‘Œπ‘‘−1 . Nel caso dei logaritmi, avremo che βˆ† ln(π‘Œπ‘‘ ) = ln(π‘Œπ‘‘ ) − ln(π‘Œπ‘‘−1 ). Una cosa interessante
è che una variazione percentuale di una serie storica βˆ†π‘Œπ‘‘ sarà approssimativamente 100βˆ† ln(π‘Œπ‘‘ ), dove
l’approssimazione è più accurata quando la variazione percentuale è piccola.
Autocorrelazione (correlazione seriale)
La correlazione di una serie con il proprio valore ritardato è detta autocorrelazione. La prima
autocorrelazione di π‘Œπ‘‘ è π‘π‘œπ‘Ÿπ‘Ÿ(π‘Œπ‘‘ , π‘Œπ‘‘−1 ). La prima autocovarianza di π‘Œπ‘‘ è π‘π‘œπ‘£(π‘Œπ‘‘ , π‘Œπ‘‘−1 ).
π‘π‘œπ‘£(π‘Œ ,π‘Œ
)
𝑑 𝑑−1
Quindi π‘π‘œπ‘Ÿπ‘Ÿ(π‘Œπ‘‘ , π‘Œπ‘‘−1 ) = √π‘£π‘Žπ‘Ÿ(π‘Œ )∗π‘£π‘Žπ‘Ÿ(π‘Œ
𝑑
𝑑−1 )
= 𝜌1 . Non avrà senso scrivere i pedici al 𝜌, perché è un coefficiente di
autocorrelazione. È importante specificare però il numero al pedice che corrisponde alla distanza temporale
π‘π‘œπ‘£
Μ‚ (π‘Œπ‘‘ , π‘Œπ‘‘−1 )
da t a 𝑑 − 1. Quando si usano le serie storiche e si vuole stimare 𝜌, allora avremo che πœŒΜ‚π‘— = π‘£π‘Žπ‘Ÿ
, dove
Μ‚ (π‘Œ )
1
π‘π‘œπ‘£
Μ‚ (π‘Œπ‘‘ , π‘Œπ‘‘−1 ) = 𝑇 ∑(π‘Œπ‘‘ − π‘ŒΜ…π‘—+1,𝑇 ) (π‘Œπ‘‘−𝑗 − π‘ŒΜ…1,𝑇−𝑗 ), dove π‘ŒΜ…π‘—+1,𝑇 è la semplice media di π‘Œπ‘‘ .
𝑑
Inoltre, ho la possibilità di mettere π‘£π‘Žπ‘Ÿ
Μ‚ (π‘Œπ‘‘ ) poiché la π‘£π‘Žπ‘Ÿ(π‘Œπ‘‘ ) ∗ π‘£π‘Žπ‘Ÿ(π‘Œπ‘‘−1 ) sono considerate molto simili come
se la Y fosse omoschedastica (la stessa varianza, poiché il periodo temporale non è esattamente lo stesso),
2
quindi è come se fosse (π‘£π‘Žπ‘Ÿ(π‘Œπ‘‘ )) che sotto radice diventa π‘£π‘Žπ‘Ÿ(π‘Œπ‘‘ ).
Persistenza di una serie
La memoria del processo stocastico, tende a decrescere man mano che si va a studiare il legame del presente
con ritardi maggiori. Sono meglio i casi in cui la memoria è finita, perché se non fosse finita avremmo bisogno
di periodi temporali molto ampi. Il termine memoria può essere sostituito da quello della persistenza. Essa
può essere graficamente interpretata come la persistenza della serie sopra o sotto la sua media. Più una serie
è persistente e meno la serie intersecherà il suo valore medio. Essa può essere espressa anche come la
velocità con cui una serie storica converge al suo equilibrio di lungo periodo a seguito di uno shock. Il
problema principale quando si hanno delle serie molto persistenti, si ha quando bisogna stimare un
parametro. Più la serie è persistente e più la stima sarà non stazionaria (distorta).
Un’elevata persistenza eΜ€ in contrasto con l’ergodicitaΜ€ (stazionarietà). Una serie non ergodica ha
caratteristiche di persistenza così accentuate che una sua porzione finita, per quanto lunga, non consente di
predirne i futuri valori, né di determinare la distribuzione.
Uno strumento grafico per la valutazione della persistenza eΜ€ il correlogramma, grafico a barre nel quale
ogni rettangolo riporta il valore dell’autocorrelazione πœŒπ‘— (autocovarianza), in ascissa. In una serie storica
stazionaria ed ergodica questo eΜ€ tipicamente caratterizzato da barre di altezza decrescente che si abbassano
rapidamente all’aumentare di j.
Il white noise eΜ€ un esempio di processo stocastico stazionario ed ergodico che non presenta alcuna
persistenza. Maggiore persistenza suggerisce una forte memoria nel tempo. Quando la memoria tende ad
essere infinita (persistenza infinita) allora l’effetto di uno shock perdura infinitamente nel tempo e il processo
stocastico (popolazione) che ha generato il campione a disposizione (la serie storica) viene detto non
stazionario (integrato, con radici unitarie).
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Autoregressione - AR
Un modello autoregressivo è un modello in cui le variabili esplicative sono solamente dei ritardi della variabile
dipendente. In una regressione di ordine p, si regredisce π‘Œπ‘‘ contro π‘Œπ‘‘−1 , π‘Œπ‘‘−2 , … , π‘Œπ‘‘−𝑝 . L’autoregressione è
diversa dall’autocorrelazione (correlazione da t a t-k). Quando io scelgo un ordine p per rappresentare un
correlogramma, io stimo i primi p coefficienti di autocorrelazione, in cui il periodo campionario varia a
seconda del numero di ritardi per cui voglio stimare l’autocorrelazione. Ma nella scelta dell’ordine, non
bisogna esagerare altrimenti si rischia di stimare i coefficienti con valori diversi.
È meglio fare il modello usando, per Y, π’Šπ’π’‡ o βˆ†π’Šπ’π’‡? È meglio βˆ†π‘–π‘›π‘“ perché è più stazionaria, mentre se volessi
usare 𝑖𝑛𝑓 sarei poco tranquillo nell’ipotizzare la stazionarietà di quel modello.
L’errore di previsione è la differenza tra il valore della nostra Y nel periodo successivo e il valore della Y
stimato prima che questo valore di Y si conoscesse: π‘Œπ‘‡+1 − π‘ŒΜ‚π‘‡+1|𝑇 . La differenza tra errore di previsione e
residuo è la stessa che c’è tra previsione e stima: il residuo riguarda le osservazioni dentro al campione,
mentre l’errore di previsione è fuori dal campione (il valore di π‘Œπ‘‡+1 non è usato nella stima).
Se ipotizziamo correttamente che nella popolazione, le variazioni di inflazione siano spiegate da un processo
autoregressivo del 1° ordine e se valgono le assunzioni degli OLS, noi abbiamo la possibilità di prevedere non
solo le variazioni di inflazione fuori dal periodo campionario (cioè un passo avanti), ma sommando questa
variazione dell’inflazione, al livello dell’inflazione che conosciamo per l’ultimo trimestre disponibile, noi
Μ‚ 2005:𝐼 | 2004:𝐼𝑉 =
otteniamo una previsione fuori dal periodo campionario del nostro tasso di inflazione: 𝑖𝑛𝑓
Μ‚ 2005:𝐼 | 2004:𝐼𝑉
𝑖𝑛𝑓2004:𝐼𝑉 + βˆ†π‘–π‘›π‘“
1° assunzione
Nel caso delle serie storiche, l’assunzione #1 è 𝐸(𝑒𝑑 |𝑦𝑑−1 , 𝑦𝑑−2 , 𝑦𝑑−𝑝 ) = 0, cioè assenza di autocorrelazione di
qualsiasi ordine. Nel caso in cui quest’ipotesi fosse vera, nel correlogramma dei residui avremo che gli
istogrammi saranno tutti compresi all’interno dell’intervallo di confidenza intorno a zero, poiché tutti i 𝜌 che
si trovano all’interno di tale intervallo, nella popolazione sono zero.
Se noi andiamo a stimare un AR(1) quando in realtà il modello necessario è un AR(2), quindi il modello che
andiamo a stimare omette una variabile esplicativa π‘Œπ‘‘−2 , sostanzialmente andremo a stimare un modello con
un termine di errore che contiene sia il termine di errore ideale (𝑒𝑑 ) sia la componente che ho omesso
(𝛽2 𝑦𝑑−2 ). Dunque: π‘Œπ‘‘ = 𝛽1 𝑦𝑑−1 + [𝛽2 𝑦𝑑−2 + 𝑒𝑑 ] dove il termine tra parentesi è 𝑒𝑑∗. Le due condizioni da variabile
omessa in questo caso sono che:
1. 𝛽2 ≠ 0.
2. πΆπ‘œπ‘£(π‘Œπ‘‘−1 , π‘Œπ‘‘−2 ) ≠ 0.
Ma se è vero il modello AR(2) sarà anche vero che: π‘Œπ‘‘−1 = 𝛽1 𝑦𝑑−2 + 𝛽2 𝑦𝑑−3 + 𝑒𝑑−1. Quindi nel modello AR(2),
se 𝛽1 ≠ 0 sarà sempre vero che πΆπ‘œπ‘£(π‘Œπ‘‘−1 , π‘Œπ‘‘−2 ) ≠ 0.
Nel modello AR, l’omissione di esplicative equivale a una scorretta specificazione della dinamica. In questo
caso, il sintomo è che il modello AR di ordine “sbagliato” (troppo basso, ad esempio AR1 invece di AR2) avrà
Μ‚ 𝒕 che sono autocorrelati. La procedura in questo caso è decidere l’ordine p del modello AR e appena
residui 𝒖
stimato, verificare la presenza o meno di autocorrelazione in 𝑒̂𝑑 mediante l’ispezione del correlogramma dei
residui. Se il correlogramma dei residui è vuoto, cioè se i coefficienti di autocorrelazione non sono
significativamente diversi da zero, allora avrò che l’ordine p che ho scelto è quello appropriato. Invece, se i
residui di regressione presentano un correlogramma con dei coefficienti di autocorrelazione
significativamente diversi da zero, allora tutto questo mi contradice la scelta dell’ordine p del modello che
ho fatto, cioè l’ordine che avrei dovuto utilizzare doveva essere maggiore.
Perché si sottolinea l’approccio superiore rispetto a p? Perché se io ometto della dinamica da un modello
AR(2), stimo un AR(1). In questo caso, i residui 𝑒𝑑∗ sono autocorrelati. Sbagliare l’ordine significa omettere
dei ritardi e l’autocorrelazione è spiegabile solamente dall’aver omesso dei ritardi.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Non bisognare confondere la persistenza dall’autocorrelazione. Quando un fenomeno è persistente vuol dire
che i suoi coefficienti di autocorrelazione persistono e sono elevati in t-1, t-2, t-k.
∗
∗
Se ometto una variabile rilevante, 𝐸(𝑒𝑑∗ | 𝑒𝑑−1
) = πΆπ‘œπ‘£(𝑒𝑑∗ , 𝑒𝑑−1
) ed è come dire: πΆπ‘œπ‘£[(𝛽2 𝑦𝑑−2 + 𝑒𝑑 ), (𝛽2 𝑦𝑑−3 + 𝑒𝑑−1 )] ≠ 0.
Modello generale AR(p)
Se l’ordine p che ho scelto non omette variabili importanti, quindi la p è giusta (non è bassa), allora l’ipotesi
è che gli errori saranno incorrelati a qualsiasi ritardo e quindi mediante il correlogramma dei residui di stima,
io posso andare a verificare che tutti questi errori siano incorrelati con il proprio passato, quindi che i singoli
coefficienti di autocorrelazione siano tutti zero e cioè che nulla del passato dell’errore possa essere usato per
spiegare il presente.
La seconda assunzione per un modello AR è che la π‘Œπ‘‘ sia stazionaria. Se il fenomeno non è stazionario, allora
tutte le varianze, medie e autocovarianze sono distorte perché sono ottenute da un campione che è generato
da una popolazione che cambia nel tempo.
Quando si va a stimare un modello più efficiente togliendo delle stime ridondanti (con un test F), il p-value
scende, perché se queste variabili irrilevanti di cui ho stimato i parametri, sono correlate con le variabili
incluse (in un processo autoregressivo tutte le variabili sono collineari), lo SE di questa stima diventa minore.
In sostanza, l’aver tolto dal modello delle variabili irrilevanti, mi consente di avere uno SE più basso.
Previsione h passi avanti
Μ‚∞
Μ‚ 1−𝛽1 + 𝛽̂1∞ π‘Œπ‘‡ , notando
Μ‚∞
̂𝑖
La previsione di lungo periodo (per β„Ž → ∞) è pari a: π‘Œπ‘‡+∞ | 𝑇 = 𝛽̂0 ∑∞
𝑖=0 𝛽1 + 𝛽1 π‘Œπ‘‡ = 𝛽0 1−𝛽
Μ‚
che
̂𝑖
∑β„Ž−1
𝑖=0 𝛽1
=
Μ‚ 1β„Ž
1−𝛽
Μ‚1 ,
1−𝛽
è una progressione geometrica di h termini e di ragione 𝛽̂1 .
1
Μ‚
𝛽
Se −1 < 𝛽̂1 < 1, che è la condizione di stazionarietà per un AR(1), si ha che: π‘Œπ‘‡+∞ | 𝑇 = 1−𝛽0Μ‚ (soluzione di stato
1
stazionario o di previsione di lungo periodo). In sostanza, man mano che si prevede avanti nel tempo, si
perde l’informazione sulle condizioni iniziali della previsione, quindi il futuro non dipende più da quello che
è successo fino a T (stazionarietà).
Se 𝛽̂1 = 1, la Y è rappresentata da un processo autoregressivo non stazionario. Dunque, quando si arriva a
verificare se il passato è utile per prevedere il futuro, e quindi il test a zero di 𝛽1 con il test t, si deve essere
sicuri di utilizzare un modello stimato da una popolazione stazionaria (cioè con una distribuzione Normale).
Si rifiuta l’ipotesi se il risultato della nostra t è maggiore di 1,96.
Se 𝛽1 = 0, i valori passati della Y non servono per prevedere il futuro e quindi, in questo contesto, l’unica
previsione possibile della Y h passi avanti sarà la costante. Ma affinché questo sia vero, è necessario che nella
popolazione il 𝛽1 < 1, perché altrimenti il calcolo della previsione di lungo periodo è reso impossibile poiché
il processo autoregressivo a parametro beta unitario non è stazionaria.
Se si vuole verificare che 𝛽1 = 1, visto che in tale situazione non si rispetta la condizione di stazionarietà, si
può calcolare la t, ma essa deve essere tabulata non come un’asintotica Normale, perché quando la variabile
non è stazionaria non è più vero che la distribuzione è una Normale.
Perché ha un senso, anche economico, la restrizione della costante a zero? Se il parametro è zero nelle
variazioni dell’inflazione, quanto varierà nell’infinito futuro in assenza di shock l’inflazione? La risposta è
zero. Se l’inflazione fosse un processo stazionario, la costante verrebbe sicuramente diversa da zero, perché
se l’inflazione fosse stazionaria, nell’infinito futuro essa sarà un numero e non zero. Quindi la costante aiuta
a spiegare il futuro della variabile Y a mano a mano che questo futuro è distante nel tempo.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
lOMoARcPSD|10594476
Cosa cambia per un modello AR(p)? La condizione di stazionarietà per un AR(p) è ∑𝑝𝑗=1 𝛽𝑗 < 1. Dunque, la
Μ‚0
𝛽
soluzione di stato stazionario di un AR(p) è: π‘Œπ‘‡+∞ | 𝑇 = 1−∑𝑝
Μ‚
𝛽 <1
𝑗=1 𝑗
. Detto in altre parole, la condizione di
stazionarietà in questo caso richiede che la somma dei parametri sia inferiore all’unità. Se il processo non è
stazionario, deve essere reso tale, trasformando la variabile π‘Œπ‘‘ in differenze prime: βˆ†π‘Œπ‘‘ = π‘Œπ‘‘ − π‘Œπ‘‘−1 .
La stazionarietà prevede che la distribuzione congiunta delle variabili temporali non cambi nel corso del
tempo. Essa prevede che il futuro sia come il passato, almeno in termini probabilistici. Parlare di non
stazionarietà equivale a dire che il processo stocastico/popolazione/modello che ha generato i dati ha:
1. Memoria finita.
2. Persistenza infinita.
3. Parametri che dipendono dal tempo (non costanti).
4. Radici unitarie.
5. Trend stocastici.
Ci sono vari problemi quando ci sono trend stocastici (non stazionarietà):
1. I coefficienti di qualsiasi modello AR possono essere distorti verso zero. Questo significa che se si
stima un modello AR e si fa una previsione, si sta utilizzando dei parametri distorti.
2. Alcune t-statistiche non hanno una distribuzione Normale, anche in grandi campioni.
3. Se io voglio studiare il legame tra X e Y, e se queste due variabili non sono stazionarie, allora può
sembrare che queste due variabili siano correlate quando in realtà nella popolazione questo legame
non esiste, dunque trovo dei legami spuri. Esempio: se uso i dati svedesi sulla natalità e sul numero
di cicogne e vado a fare una regressione, trovo che il parametro che lega le due variabili è
significativamente diverso da zero. Ma questo non è vero.
Come si fa a verificare che nei parametri del modello AR, il 𝜷𝟏 sia zero? La prima cosa è riparametrizzare il
modello AR, cioè sottrarre sia a destra che a sinistra dell’uguale π‘Œπ‘‘−1 → π‘Œπ‘‘ − π‘Œπ‘‘−1 = 𝛽1 π‘Œπ‘‘−1 − π‘Œπ‘‘−1 + 𝑒𝑑 , che è
come dire βˆ†π‘¦π‘‘ = πœ‹π‘Œπ‘‘−1 + 𝑒𝑑 dove πœ‹ = 𝛽1 − 1.
Test radici unitarie DF
Esso è necessario per verificare la presenza di un trend stocastico.
𝐻0: πœ‹ = 0, cioè 𝛽1 = 1 (non stazionarietà di π‘Œπ‘‘ ).
𝐻1 : πœ‹ < 0, cioè 𝛽1 < 1 (stazionarietà di π‘Œπ‘‘ ).
Se il modello fosse di ordine 𝒑 > 𝟏, quale sarebbe la procedura? Il modello va ancora riparametrizzato e ciò
prevede che la variabile dipendente sia messa in differenze, la prima variabile esplicativa in t-1 sia messa
sempre in livelli e poi si devono aggiungere tante esplicative quante sono le variabili Y in differenze in t-k, se
ho un modello AR di ordine p. Se così è, allora si può dimostrare che la stima del πœ‹ equivale a stimare 𝛽1 +
𝛽2 + β‹― + 𝛽𝑝 − 1. Questa è chiamata augmentation e consiste nell’aggiungere p ritardi della variabile
dipendente βˆ†π‘¦π‘‘ . La stima OLS del livello della Y in t-1, è il parametro πœ‹.
Downloaded by Alberto Caruso (albertocaruso2001@gmail.com)
Related documents
Download