Uploaded by Joshua Star

Introduzione all'Econometria - Stock Watson (PDF PRIMA EDIZIONE)

advertisement
i
i
“generale” — 2005/7/10 — 22:25 — page i — #1
i
i
Introduzione all’econometria
James H. Stock
Mark W. Watson
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page ii — #2
i
i
Copyright c 2005 Pearson Education Italia S.r.l.
Via Fara, 28 - 20124 Milano
Tel. 02/6739761 Fax 02/673976503
E-mail: hpeitalia@pearson.com
Web: http://hpe.pearsoned.it
Authorized translation from the English language edition, entitled: INTRODUCTION TO ECONOMETRICS, 1st EDITION by STOCK, JAMES H.; WATSON, MARK W., published by Pearson
Education, Inc, publishing as Addison-Wasley, Copyright c 2003
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc,
Italian language edition published by Pearson Education Italia Srl, Copyright c 2005
Le informazioni contenute in questo libro sono state verificate e documentate con la massima cura possibile. Nessuna responsabilità derivante dal loro utilizzo potrà venire imputata agli Autori, a Pearson
Education Italia o a ogni persona e società coinvolta nella creazione, produzione e distribuzione di questo libro.
I diritti di riproduzione e di memorizzazione elettronica totale e parziale con qualsiasi mezzo, compresi
i microfilm e le copie fotostatiche, sono riservati per tutti i paesi. LA FOTOCOPIATURA DEI LIBRI È UN
REATO L’editore potrà concedere a pagamento l’autorizzazione a riprodurre una porzione non superiore
a un decimo del presente volume. Le richieste di riproduzione vanno inoltrate ad AIDRO (Associazione
Italiana per i Diritti di Riproduzione delle Opere dell’Ingegno), Via delle Erbe, 2 - 20121 Milano - Tel.
e Fax 02/80.95.06.
Traduzione: Anna Conte, Christian Macaro, Franco Peracchi
Revisione scientifica: Franco Peracchi
Copy-editing: Jacopo Cristini
Composizione: Christian Macaro
Grafica di copertina: Sabrina Miraglia
Stampa: Legoprint spa
Tutti i marchi citati nel testo sono di proprietà dei loro detentori.
ISBN 88-7192-267-0
Printed in Italy
1a edizione: luglio 2005
ii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page iii — #3
i
i
Indice
Prefazione all’edizione italiana
xv
Prefazione all’edizione originale
xvii
Introduzione e richiami
1
1 Domande economiche e dati economici
1.1 Domande economiche esaminate . . . . . . . . . . . . . . . . . . . . . . . .
3
4
Domanda 1: ridurre la dimensione delle classi migliora il livello di istruzione nella scuola
. . . . . . . . . . . . . . . . . . . . . . . . . .
.
Domanda 3: di quanto riducono il fumo le imposte sulle sigarette? . . . . . . .
Domanda 4: quale sarà il tasso d’inflazione il prossimo anno? . . . . . . . . .
Domande quantitative, risposte quantitative . . . . . . . . . . . . . . . . .
Effetti causali ed esperimenti ideali . . . . . . . . . . . . . . . . .
Stima di effetti causali . . . . . . . . . . . . . . . . . . . . . . . . . .
Previsione e causalità . . . . . . . . . . . . . . . . . . . . . . . . . .
Dati: fonti e tipi . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dati sperimentali e dati non sperimentali . . . . . . . . . . . . . . . . . .
Dati sezionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Serie temporali . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dati panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
elementare?
Domanda 2: vi è discriminazione razziale nel mercato dei prestiti per abitazioni?
1.2
1.3
2 Richiami di probabilità
2.1 Variabili casuali e distribuzioni di probabilità . . . . .
Probabilità, spazio campionario e variabili casuali . . . . . . . .
Distribuzione di probabilità di una variabile casuale discreta . . . .
Distribuzione di probabilità di una variabile casuale continua . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 4
. 5
. 5
. 6
. 7
. 8
. 8
. 9
. 9
. 9
. 10
. 11
. 12
.
.
.
.
17
18
18
19
21
.
.
.
.
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page iv — #4
i
i
Indice
2.2
2.3
2.4
2.5
2.6
Valore atteso, media e varianza . . . . . . . . . . . . . . . . . . . . .
Il valore atteso di una variabile casuale . . . . . . . . . . . . . . . . . . . . .
Varianza, deviazione standard e momenti . . . . . . . . . . . . . . . . . . . .
Media e varianza di una funzione lineare di una variabile casuale . . . . . . . . . .
Variabili casuali doppie . . . . . . . . . . . . . . . . . . . . . . . . .
Distribuzioni congiunte e marginali . . . . . . . . . . . . . . . . . . . . . .
Distribuzioni condizionate . . . . . . . . . . . . . . . . . . . . . . . . . .
Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . .
Media e varianza di somme di variabili casuali . . . . . . . . . . . . . . . . . .
Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student . . . . . . .
La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le distribuzioni chi-quadrato e Fm,∞ . . . . . . . . . . . . . . . . . . . . .
La distribuzione t di Student . . . . . . . . . . . . . . . . . . . . . . . . .
Campionamento casuale e distribuzione della media campionaria . . .
Campionamento casuale . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribuzione campionaria della media campionaria . . . . . . . . . . . . . . .
Approssimazione alla distribuzione campionaria per grandi campioni .
Legge dei grandi numeri e consistenza . . . . . . . . . . . . . . . . . . . . .
Il teorema limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . .
APPENDICE 2.1: derivazione dei risultati contenuti nel concetto chiave 2.3 . . . . .
3 Richiami di statistica
3.1 Stima della media di una popolazione . . . . . . .
Stimatori e loro proprietà . . . . . . . . . . . . . . . . .
Proprietà di Ȳ . . . . . . . . . . . . . . . . . . . . .
Importanza del campionamento casuale . . . . . . . . . . .
3.2 Verifica di ipotesi circa la media della popolazione
Ipotesi nulla e ipotesi alternativa . . . . . . . . . . . . . .
Valore-p dei test . . . . . . . . . . . . . . . . . . . .
Calcolo del valore p con σY nota . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Varianza campionaria, deviazione standard campionaria ed errore standard
. . . . . . . . . . . . . .
Statistica t . . . . . . . . . . . . . . . . . . . . . . . . .
Verifica di ipotesi con livello di significatività prefissato . . . . . .
Alternative unilaterali . . . . . . . . . . . . . . . . . . . .
Intervalli di confidenza per la media della popolazione
Confronto tra medie di popolazioni diverse . . . . . .
Test d’ipotesi per la differenza tra due medie . . . . . . . . . .
Calcolo del valore-p con σY ignota
3.3
3.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
24
25
26
26
28
31
31
32
33
33
37
39
39
39
41
43
44
45
54
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
58
58
60
62
63
63
64
65
65
67
67
69
70
71
73
73
iv
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page v — #5
i
i
Indice
. . . . . .
Redditi di laureati e laureate negli Stati Uniti . . . . . . . . . . . .
Diagrammi a nuvola di punti, covarianza e correlazione campionaria
Diagrammi a nuvola di punti . . . . . . . . . . . . . . . . . . . . . . . .
Covarianza e correlazione campionaria . . . . . . . . . . . . . . . . . . . .
APPENDICE 3.1: lo U.S. Current Population Survey . . . . . . . . . . . . . .
APPENDICE 3.2: due prove che Ȳ è lo stimatore dei minimi quadrati di µY . . . .
APPENDICE 3.3: una prova della consistenza della varianza campionaria . . . . .
Intervalli di confidenza per la differenza tra le medie di due popolazioni
3.5
3.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Elementi fondamentali dell’analisi di regressione
89
4 Regressione lineare con un singolo regressore
4.1 Il modello di regressione lineare . . . . . . . . . . . . . . . . . .
4.2 Stima dei coefficienti del modello di regressione lineare . . . . . .
Lo stimatore dei minimi quadrati ordinari . . . . . . . . . . . . . . . . . .
Stime OLS della relazione tra punteggi del test e rapporto studenti-insegnanti . .
Perché usare lo stimatore OLS? . . . . . . . . . . . . . . . . . . . . . .
4.3 Le assunzioni dei minimi quadrati . . . . . . . . . . . . . . . . .
Assunzione 1: la distribuzione condizionata di ui data Xi ha media nulla . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Assunzione 2: (Xi , Yi ), i = 1, . . . , n sono indipendentemente e identicamente distribuite
. . . . . . . . . . .
L’uso delle assunzioni dei minimi quadrati . . . . . . . . . . . . .
Distribuzione campionaria degli stimatori OLS . . . . . .
La distribuzione campionaria degli stimatori degli OLS . . . . . . . .
Verifica di ipotesi su un singolo coefficiente di regressione
Ipotesi bilaterali su β1 . . . . . . . . . . . . . . . . . . . . . .
Ipotesi unilaterali riguardanti β1 . . . . . . . . . . . . . . . . . .
Verifica di ipotesi riguardanti l’intercetta . . . . . . . . . . . . . .
Intervalli di confidenza per un coefficiente di regressione .
La regressione quando X è una variabile binaria . . . . . .
Interpretazione dei coefficienti di regressione . . . . . . . . . . . .
R2 ed errore standard della regressione . . . . . . . . . . .
L’R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L’errore standard della regressione . . . . . . . . . . . . . . . . .
Eteroschedasticità e omoschedasticità . . . . . . . . . . .
Cosa sono l’eteroschedasticità e l’omoschedastcità? . . . . . . . . .
Implicazioni matematiche dell’omoschedasticità . . . . . . . . . . .
Cosa significa questo in pratica? . . . . . . . . . . . . . . . . . .
Assunzione 3: Xi e ui hanno quattro momenti
4.4
4.5
4.6
4.7
4.8
4.9
75
76
77
77
78
86
87
88
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
92
97
98
99
103
103
104
105
106
107
108
108
110
111
114
116
117
119
119
121
121
123
123
124
126
127
v
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page vi — #6
i
i
Indice
4.10 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . .
APPENDICE 4.1: la banca dati sui punteggi dei test della California .
APPENDICE 4.2: derivazione degli stimatori degli OLS . . . . . .
APPENDICE 4.3: distribuzione campionaria dello stimatore OLS . .
APPENDICE 4.4: le formule per gli errori standard degli OLS . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
128
133
134
135
138
5 Regressione lineare con regressori multipli
5.1 La distorsione da variabile omessa . . . . . . . . . . . . . .
Definizione di distorsione da variabile omessa . . . . . . . . . . . . .
Una formula per la distorsione da variabile omessa . . . . . . . . . . .
Affrontare la distorsione da variabile omessa dividendo i dati in gruppi . .
5.2 Il modello di regressione multipla . . . . . . . . . . . . . .
La retta di regressione della popolazione . . . . . . . . . . . . . . .
Il modello di regressione multipla della popolazione . . . . . . . . . .
5.3 Lo stimatore OLS della regressione multipla . . . . . . . . .
Lo stimatore OLS . . . . . . . . . . . . . . . . . . . . . . . . .
Applicazione ai punteggi del test e al rapporto studenti-insegnanti . . . .
5.4 Le assunzioni dei minimi quadrati . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
141
142
143
144
145
149
149
150
152
152
153
155
155
155
156
156
158
159
160
160
161
162
164
164
166
167
168
169
171
171
171
172
173
Assunzione 1: la distribuzione condizionata di ui date X1i , X2i , . . . , Xki ha media nulla
. . . . . . .
. . . . . . . . . .
Assunzione 4: collinearità non perfetta . . . . . . . . . . . . . . . . . . . . .
5.5 La distribuzione degli stimatori OLS nella regressione multipla . . . .
Gli errori standard degli stimatori OLS . . . . . . . . . . . . . . . . . . . . .
5.6 Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente
La verifica di ipotesi su un singolo coefficiente . . . . . . . . . . . . . . . . .
Gli intervalli di confidenza per un singolo coefficiente . . . . . . . . . . . . . .
Applicazione ai punteggi del test e al rapporto studenti-insegnanti . . . . . . . . .
5.7 Verifica di ipotesi congiunte . . . . . . . . . . . . . . . . . . . . . .
Verifica di ipotesi su due o più coefficienti . . . . . . . . . . . . . . . . . . .
La statistica F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Applicazione ai punteggi del test e al rapporto studenti-insegnanti . . . . . . . . .
5.8 Verifica di restrizioni singole che coinvolgono coefficienti multipli . .
5.9 Regioni di confidenza per coefficienti multipli . . . . . . . . . . . . .
5.10 Altre statistiche di regressione . . . . . . . . . . . . . . . . . . . . .
L’errore standard della regressione (SER) . . . . . . . . . . . . . . . . . . .
L’R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L’R2 “corretto” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpretazione pratica dell’R2 e dell’R2 corretto . . . . . . . . . . . . . . . .
Assunzione 2: (X1i , X2i , . . . , Xki , Yi ), con i = 1, . . . , n, sono i.i.d.
Assunzione 3: X1i , X2i , . . . , Xki e ui hanno quattro momenti
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
vi
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page vii — #7
i
i
Indice
5.11 Distorsione da variabile omessa e regressione multipla
Specificazione del modello in teoria e in pratica . . . . . . . . .
5.12 Analisi dei dati sui punteggi del test . . . . . . . . . .
5.13 Conclusioni . . . . . . . . . . . . . . . . . . . . . . .
APPENDICE 5.1: derivazione della formula (5.1) . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
174
175
176
180
186
APPENDICE 5.2: distribuzione degli stimatori OLS quando ci sono due regressori ed errori
omoschedastici
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
. . . . . . . . . . . . . . 187
APPENDICE 5.3: due altri modi di verificare ipotesi congiunte
6 Funzioni di regressione non lineari
6.1 Una strategia generale per modellare funzioni di regressione non lineari
Punteggi del test e reddito del distretto . . . . . . . . . . . . . . . . . . . . . .
L’effetto su Y di una variazione in X nelle specificazioni non lineari . . . . . . . . .
Un approccio generale per modellare non linearità usando la regressione multipla . . . .
6.2 Funzioni non lineari di una singola variabile indipendente . . . . . . . .
Polinomi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Logaritmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modelli polinomiali e logaritmici del rapporto tra punteggi del test e reddito del distretto .
6.3 Interazioni tra variabili indipendenti . . . . . . . . . . . . . . . . . . .
Interazioni tra due variabili binarie . . . . . . . . . . . . . . . . . . . . . . . .
Interazioni tra una variabile continua e una binaria . . . . . . . . . . . . . . . . .
Interazioni tra due variabili continue . . . . . . . . . . . . . . . . . . . . . . .
6.4 Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test .
Discussione dei risultati della regressione . . . . . . . . . . . . . . . . . . . . .
Sintesi dei risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Valutazione di studi basati sulla regressione multipla
7.1 Validità interna ed esterna . . . . . . . . . . . . . . . . . . . . .
Minacce alla validità interna . . . . . . . . . . . . . . . . . . . . . .
Minacce alla validità esterna . . . . . . . . . . . . . . . . . . . . . .
7.2 Minacce alla validità interna dell’analisi di regressione multipla
La distorsione da variabile omessa . . . . . . . . . . . . . . . . . . . .
Incorretta specificazione della forma funzionale della funzione di regressione . .
Errori nelle variabili . . . . . . . . . . . . . . . . . . . . . . . . . .
Selezione campionaria . . . . . . . . . . . . . . . . . . . . . . . . .
Causalità simultanea . . . . . . . . . . . . . . . . . . . . . . . . . .
Fonti di inconsistenza degli errori standard degli OLS . . . . . . . . . . . .
7.3 Esempio: i punteggi del test e la dimensione delle classi . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
193
195
195
198
202
203
203
205
213
214
215
218
222
227
228
231
233
.
.
.
.
.
.
.
.
.
.
.
239
240
240
241
243
243
246
246
248
249
251
252
vii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page viii — #8
i
i
Indice
. . . . . . .
Validità interna . . . . . . .
Discussione e implicazioni . .
Conclusioni . . . . . . .
Validità esterna
7.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
APPENDICE 7.1: i dati sui test effettuati nelle scuole elementari del Massachusetts
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
252
258
261
262
265
Ulteriori sviluppi dell’analisi di regressione
267
8 Regressione con dati panel
8.1 I dati panel . . . . . . . . . . . . . . . . . . . . . . . . . .
Esempio: mortalità sulle strade e imposte sugli alcolici . . . . . . . . .
8.2 Dati panel con 2 periodi: confronti “prima e dopo” . . . . .
8.3 La regressione con effetti fissi . . . . . . . . . . . . . . . .
Il modello di regressione con effetti fissi . . . . . . . . . . . . . . .
Stima e inferenza . . . . . . . . . . . . . . . . . . . . . . . . .
Applicazione alla mortalità sulle strade . . . . . . . . . . . . . . . .
8.4 La regressione con effetti temporali . . . . . . . . . . . . .
Solo effetti temporali . . . . . . . . . . . . . . . . . . . . . . .
Effetti temporali ed effetti fissi . . . . . . . . . . . . . . . . . . .
8.5 Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade
8.6 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . .
APPENDICE 8.1: lo State Traffic Fatality Data Set . . . . . . . . . . .
APPENDICE 8.2: le ipotesi della regressione con effetti fissi . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
269
270
270
273
276
276
278
279
280
280
281
282
286
289
290
.
.
.
.
.
.
.
.
.
.
.
.
.
293
294
295
296
299
299
304
304
306
306
307
309
309
316
9 Regressione con variabile dipendente binaria
9.1 Variabili dipendenti binarie e modello lineare di probabilità
Variabili dipendenti binarie . . . . . . . . . . . . . . . . . . . .
Modello lineare di probabilità . . . . . . . . . . . . . . . . . . .
9.2 Regressioni probit e logit . . . . . . . . . . . . . . . . . .
La regressione probit . . . . . . . . . . . . . . . . . . . . . .
Regressione logit . . . . . . . . . . . . . . . . . . . . . . . .
Confronto tra i modelli lineare di probabilità, probit e logit . . . . . .
9.3 Stima e inferenza nei modelli logit e probit . . . . . . . . .
Stima dei minimi quadrati non lineari . . . . . . . . . . . . . . .
Stima di massima verosimiglianza . . . . . . . . . . . . . . . . .
Misure di bontà dell’adattamento . . . . . . . . . . . . . . . . .
9.4 Applicazione ai dati del Boston HMDA . . . . . . . . . . .
9.5 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
viii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page ix — #9
i
i
Indice
. . . . . . . . . . . . . . . . . . . . . . . 320
APPENDICE 9.2: stima di massima verosimiglianza . . . . . . . . . . . . . . . . . . . 321
APPENDICE 9.3: altri modelli con variabili dipendenti limitate . . . . . . . . . . . . . . 324
APPENDICE 9.1: i dati del Boston HMDA
10 Regressione con variabili strumentali
10.1 Lo stimatore IV con un singolo regressore e un singolo strumento
Il modello IV e le sue ipotesi . . . . . . . . . . . . . . . . . . . . . . .
Lo stimatore dei minimi quadrati a due stadi . . . . . . . . . . . . . . . . .
Perché funziona la regressione IV? . . . . . . . . . . . . . . . . . . . . .
La distribuzione campionaria dello stimatore TSLS . . . . . . . . . . . . . .
Applicazione alla domanda di sigarette . . . . . . . . . . . . . . . . . . .
10.2 Il modello generale di regressione IV . . . . . . . . . . . . . . . .
TSLS nel modello generale di regressione IV . . . . . . . . . . . . . . . .
Rilevanza dello strumento ed esogeneità nel modello generale IV . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Le assunzioni della regressione IV e la distribuzione campionaria dello stimatore TSLS
. . . . .
. . . .
Verifica della validità degli strumenti .
Assunzione 1: rilevanza dello strumento . . .
Assunzione 2: esogeneità dello strumento . . .
Applicazione alla domanda di sigarette
Dove trovare strumenti validi? . . . .
Tre esempi . . . . . . . . . . . . . . . .
Conclusioni . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
Appendice 10.1: i dati panel sul consumo di sigarette
.
Appendice 10.2: derivazione della formula (10.4) per lo stimatore TSLS .
Inferenza tramite lo stimatore TSLS
Applicazione alla domanda di sigarette
10.3
10.4
10.5
10.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Appendice 10.3: distribuzione dello stimatore TSLS per grandi campioni
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
327
328
328
329
330
333
335
337
338
339
340
341
342
343
343
347
350
355
355
360
363
364
364
Appendice 10.4: distribuzione per grandi campioni dello stimatore TSLS quando lo strumento
non è valido
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
11 Esperimenti e quasi esperimenti
11.1 Esperimenti ideali ed effetti causali . . . . . . . . .
Esperimenti controllati casualizzati ideali . . . . . . . . . .
Lo stimatore delle differenze . . . . . . . . . . . . . . .
11.2 Problemi potenziali con gli esperimenti reali . . . .
Minacce alla validità interna . . . . . . . . . . . . . . .
Minacce alla validità esterna . . . . . . . . . . . . . . .
11.3 Stimatori di effetti causali tramite dati sperimentali
Lo stimatore delle differenze con regressori addizionali . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
369
370
371
372
372
373
375
378
378
ix
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page x — #10
i
i
Indice
Lo stimatore delle differenze nelle differenze
. . . . . . . . . . . . . . . . . . . . . . 381
La stima degli effetti causali per gruppi diversi
. . . . . . . . . . . . . . . . . . . . . . 384
. . . . . . . . . . . . . . . . . . . . . . . . . . 384
Stima quando c’è adesione parziale
Verifica della casualizzazione
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
11.4 Stime sperimentali dell’effetto della riduzione nella dimensione delle classi . 386
Il disegno sperimentale
Analisi dei dati STAR
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
Confronto tra stime sperimentali e non sperimentali dell’effetto della dimensione delle classi
. . 393
11.5 Quasi esperimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
Esempi
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
Metodi econometrici per analizzare i quasi esperimenti
. . . . . . . . . . . . . . . . . . 398
11.6 Problemi potenziali con i quasi esperimenti . . . . . . . . . . . . . . . . . . 401
Minacce alla validità interna
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
Minacce alla validità esterna
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
11.7 Stime sperimentali e quasi sperimentali con popolazioni eterogenee . . . . . 403
L’eterogeneità della popolazione: effetto causale per chi?
OLS con effetti causali eterogenei
. . . . . . . . . . . . . . . . . 403
. . . . . . . . . . . . . . . . . . . . . . . . . . . 404
Regressione IV con effetti causali eterogenei
. . . . . . . . . . . . . . . . . . . . . . 405
11.8 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
APPENDICE 11.1: i dati del Project STAR
. . . . . . . . . . . . . . . . . . . . . . . 413
APPENDICE 11.2: estensione dello stimatore delle differenze nelle differenze al caso multiperiodale
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
. . . . . . . . . . . . . . . . . 415
APPENDICE 11.3: indipendenza in media condizionata
APPENDICE 11.4: la stima IV quando l’effetto causale varia tra gli individui
Regressioni per serie temporali di tipo economico
12 Introduzione a regressioni temporali e previsioni
. . . . . . . . 417
419
421
12.1 L’uso dei modelli di regressione per la previsione . . . . . . . . . . . . . . . 422
12.2 Introduzione alle serie temporali e alla correlazione seriale . . . . . . . . . . 424
I tassi d’inflazione e di disoccupazione negli Stati Uniti
Ritardi, differenze prime, logaritmi e tassi di crescita
Autocorrelazione
. . . . . . . . . . . . . . . . . . 424
. . . . . . . . . . . . . . . . . . . 426
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
Altri esempi di serie temporali di tipo economico
. . . . . . . . . . . . . . . . . . . . 429
12.3 Autoregressioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
Il modello autoregressivo del primo ordine
Il modello autoregressivo di ordine p
. . . . . . . . . . . . . . . . . . . . . . . 432
. . . . . . . . . . . . . . . . . . . . . . . . . . 434
x
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xi — #11
i
i
Indice
12.4 Regressioni temporali con predittori addizionali e il modello autoregressivo
misto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
Previsione delle variazioni del tasso d’inflazione utilizzando i valori passati del tasso di disoccu-
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Regressioni temporali con predittori multipli . . . . . . . . . . . . . . . . .
Incertezza di previsione e intervalli di previsione . . . . . . . . . . . . . . . .
Scelta della lunghezza dei ritardi utilizzando i criteri d’informazione
Determinazione dell’ordine di un’autoregressione . . . . . . . . . . . . . . .
Scelta della lunghezza dei ritardi nelle regressioni temporali con predittori multipli .
Non stazionarietà I: i trend . . . . . . . . . . . . . . . . . . . . . .
Cos’è un trend? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Problemi causati dai trend stocastici . . . . . . . . . . . . . . . . . . . . .
Individuare i trend stocastici: verifica della presenza di una radice unitaria . . . . .
Come evitare i problemi causati dai trend stocastici . . . . . . . . . . . . . . .
Non stazionarietà II: le rotture strutturali . . . . . . . . . . . . . . .
Cos’è una rottura strutturale? . . . . . . . . . . . . . . . . . . . . . . . .
Sottoporre a verifica le rotture strutturali . . . . . . . . . . . . . . . . . . .
Pseudo previsioni fuori campione . . . . . . . . . . . . . . . . . . . . . .
Evitare il problema causato dalle rotture strutturali . . . . . . . . . . . . . . .
Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
APPENDICE 12.1: le serie temporali utilizzate nel capitolo 12 . . . . . . . . . .
APPENDICE 12.2: stazionarietà nel modello AR(1) . . . . . . . . . . . . . .
APPENDICE 12.3: notazione dell’operatore ritardo . . . . . . . . . . . . . .
APPENDICE 12.4: i modelli ARMA . . . . . . . . . . . . . . . . . . . . .
pazione
Stazionarietà
12.5
12.6
12.7
12.8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
APPENDICE 12.5: la consistenza dello stimatore della lunghezza dei ritardi con il BIC
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
436
439
439
443
444
446
449
450
450
453
455
459
459
460
461
465
469
470
476
476
477
478
479
13 Stima degli effetti causali dinamici
481
13.1 Un primo assaggio dei dati sul succo di arancia . . . . . . . . . . . . . . . . 482
13.2 Effetti causali dinamici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
Effetti causali e dati temporali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
Due tipi di esogeneità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
13.3 Stima degli effetti causali dinamici con regressori esogeni . . . . . . . . . . . 489
Le assunzioni del modello a ritardi distribuiti . . . . . . . . . . . . . . . . . . . . . . 490
Errori autocorrelati, errori standard e inferenza . . . . . . . . . . . . . . . . . . . . . 491
Moltiplicatori dinamici e moltiplicatori dinamici cumulati . . . . . . . . . . . . . . . . . 492
13.4 Errori standard consistenti in presenza di autocorrelazione ed eteroschedasticità493
Distribuzione dello stimatore OLS con errori autocorrelati . . . . . . . . . . . . . . . . . 494
Gli errori standard HAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
xi
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xii — #12
i
i
Indice
13.5 Stima degli effetti causali dinamici con regressori strettamente esogeni
Il modello a ritardi distribuiti con errori AR(1) . . . . . . . . . . . . . . . . . .
Stima OLS del modello ADL . . . . . . . . . . . . . . . . . . . . . . . . .
La stima GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Il modello a ritardi distribuiti con ritardi addizionali ed errori AR(p) . . . . . . . .
13.6 Prezzi del succo di arancia e clima freddo . . . . . . . . . . . . . . .
13.7 L’esogeneità è plausibile? Alcuni esempi . . . . . . . . . . . . . . .
Reddito degli USA ed esportazioni australiane . . . . . . . . . . . . . . . . . .
Prezzo del petrolio e inflazione . . . . . . . . . . . . . . . . . . . . . . . .
Politica monetaria e inflazione . . . . . . . . . . . . . . . . . . . . . . . .
La curva di Phillips . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.8 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
APPENDICE 13.1: i dati sul succo di arancia . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
498
499
501
502
504
507
514
514
515
515
516
516
520
APPENDICE 13.2: il modello ADL e i GLS nella notazione
dell’operatore ritardo
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
14 Ulteriori sviluppi nelle regressioni temporali
14.1 Autoregressioni vettoriali . . . . . . . . . . . . . . . .
Il modello VAR . . . . . . . . . . . . . . . . . . . . . . .
Un modello VAR per i tassi di inflazione e di disoccupazione . . .
14.2 Previsioni multiperiodali . . . . . . . . . . . . . . . .
Previsioni multiperiodali : autoregressioni univariate . . . . . . .
Previsioni multiperiodali : autoregressioni multivariate . . . . . .
Quale metodo utilizzare? . . . . . . . . . . . . . . . . . . .
14.3 Ordini di integrazione e un altro test per radici unitarie
Altri modelli per i trend e ordini di integrazione . . . . . . . . .
Il test DF-GLS per le radici unitarie . . . . . . . . . . . . . .
Perché i test per le radici unitarie hanno distribuzioni non normali? .
14.4 Cointegrazione . . . . . . . . . . . . . . . . . . . . .
Cointegrazione e correzione d’errore . . . . . . . . . . . . . .
Come si può capire se due variabili sono cointegrate? . . . . . . .
Stima dei coefficienti di cointegrazione . . . . . . . . . . . . .
Estensione al caso di variabili cointegrate multiple . . . . . . . .
Un’applicazione ai tassi di interesse . . . . . . . . . . . . . .
14.5 Eteroschedasticità condizionata . . . . . . . . . . . . .
Raggruppamento di volatilità . . . . . . . . . . . . . . . . .
Eteroschedasticità condizionata autoregressiva . . . . . . . . . .
Applicazione alle previsioni dell’inflazione . . . . . . . . . . .
14.6 Conclusioni . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
523
524
524
527
528
528
532
535
535
535
537
540
542
542
544
546
547
548
550
550
552
554
555
xii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xiii — #13
i
i
Indice
APPENDICE 14.1: dati finanziari degli USA usati nel capitolo 14
. . . . . . . . . . . . . 557
La teoria econometrica dell’analisi di regressione
559
15 La teoria del modello di regressione lineare con un singolo regressore
561
15.1 Le assunzioni generalizzate dei minimi quadrati e lo stimatore OLS . . . . . 563
Le assunzioni generalizzate dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . 563
Lo stimatore OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564
15.2 Elementi fondamentali della teoria asintotica delle distribuzioni . . . . . . . . 564
Convergenza in probabilità e legge dei grandi numeri . . . . . . . . . . . . . . . . . . . 565
Il teorema limite centrale e la convergenza in distribuzione . . . . . . . . . . . . . . . . 567
Il teorema di Slutsky e il teorema della funzione continua . . . . . . . . . . . . . . . . . 569
Applicazione alla statistica t basata sulla media campionaria . . . . . . . . . . . . . . . . 569
15.3 Distribuzione asintotica dello stimatore OLS e della statistica t . . . . . . . . 570
Consistenza e normalità asintotica degli stimatori OLS . . . . . . . . . . . . . . . . . . 570
Consistenza degli errori standard robusti all’eteroschedasticità . . . . . . . . . . . . . . . 570
Normalità asintotica della statistica t robusta all’eteroschedasticità . . . . . . . . . . . . . 572
15.4 Distribuzioni campionarie esatte quando gli errori sono normalmente distribuiti572
Distribuzione di β̂1 con errori normali . . . . . . . . . . . . . . . . . . . . . . . . . 572
La distribuzione della statistica t classica . . . . . . . . . . . . . . . . . . . . . . . . 574
15.5 Efficienza dello stimatore OLS con errori omoschedastici . . . . . . . . . . . 575
Le condizioni di Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575
Stimatori lineari condizionatamente non distorti (corretti) . . . . . . . . . . . . . . . . . 576
Il teorema di Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577
15.6 Minimi quadrati ponderati . . . . . . . . . . . . . . . . . . . . . . . . . . . 578
WLS con eteroschedasticità nota . . . . . . . . . . . . . . . . . . . . . . . . . . . 578
WLS con eteroschedasticità di forma nota . . . . . . . . . . . . . . . . . . . . . . . . 579
Errori standard robusti all’eteroschedasticità oppure WLS? . . . . . . . . . . . . . . . . 582
APPENDICE 15.1: la normale, le distribuzioni collegate e i momenti delle variabili casuali continue 586
APPENDICE 15.2: due disuguaglianze . . . . . . . . . . . . . . . . . . . . . . . . . 589
APPENDICE 15.3: dimostrazione del teorema di Gauss-Markov . . . . . . . . . . . . . . 590
16 La teoria della regressione multipla
593
16.1 Il modello di regressione lineare multipla e lo stimatore OLS in forma matriciale594
Il modello di regressione multipla in notazione matriciale . . . . . . . . . . . . . . . . . 594
Le assunzioni generalizzate dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . 595
Lo stimatore OLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597
16.2 Distribuzione asintotica dello stimatore OLS e la statistica t . . . . . . . . . . 598
xiii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xiv — #14
i
i
Indice
. . . . . . . . . . . . . . . . .
Normalità asintotica di β̂ . . . . . . . . . . . . . . . . . . . . . . .
Errori standard robusti all’eteroschedasticità . . . . . . . . . . . . . . .
Intervalli di confidenza per gli effetti predetti . . . . . . . . . . . . . .
Distribuzione asintotica della statistica t . . . . . . . . . . . . . . . .
Test di ipotesi congiunte . . . . . . . . . . . . . . . . . . . .
Le ipotesi congiunte nella notazione matriciale . . . . . . . . . . . . .
Distribuzione asintotica della statistica F . . . . . . . . . . . . . . . .
Regioni di confidenza per coefficienti multipli . . . . . . . . . . . . . .
Distribuzione delle statistiche di regressione con errori normali
Rappresentazione matriciale delle statistiche di regressione basate sugli OLS .
Distribuzione di β̂ con errori normali . . . . . . . . . . . . . . . . . .
2 . . . . . . . . . . . . . . . . . . . . . . . . .
Distribuzione di sû
Gli errori standard classici . . . . . . . . . . . . . . . . . . . . . .
Distribuzione della statistica t . . . . . . . . . . . . . . . . . . . . .
Distribuzione della statistica F . . . . . . . . . . . . . . . . . . . .
Efficienza dello stimatore OLS con errori omoschedastici . . .
Le condizioni di Gauss-Markov per la regressione multipla . . . . . . . .
Stimatori lineari condizionatamente non distorti . . . . . . . . . . . . .
Il teorema di Gauss-Markov per la regressione multipla . . . . . . . . . .
Minimi quadrati generalizzati . . . . . . . . . . . . . . . . . .
Le assunzioni dei GLS . . . . . . . . . . . . . . . . . . . . . . . .
I GLS con Ω noto . . . . . . . . . . . . . . . . . . . . . . . . . .
GLS quando Ω contiene parametri ignoti . . . . . . . . . . . . . . . .
L’assunzione della media condizionata nulla e i GLS . . . . . . . . . . .
APPENDICE 16.1: compendio di algebra matriciale . . . . . . . . . . .
APPENDICE 16.2: distribuzioni multivariate . . . . . . . . . . . . . .
APPENDICE 16.3: derivazione della distribuzione asintotica di β̂ . . . . .
Il teorema limite centrale multivariato
16.3
16.4
16.5
16.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
598
599
600
601
601
601
602
602
602
603
604
605
605
605
606
606
607
607
607
608
609
610
612
613
613
619
622
624
APPENDICE 16.4: derivazione della distribuzione esatta delle statistiche test degli OLS con
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625
APPENDICE 16.5: dimostrazione del teorema di Gauss-Markov per la regressione multipla . . 626
errori normali
Appendice
629
Bibliografia
639
Risposte alle domande di “verifica dei concetti”
647
Indice analitico
663
xiv
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xv — #15
i
i
Prefazione all’edizione italiana
Il testo di Stock e Watson si differenzia in maniera sostanziale da altre opere dedicate all’argomento per l’approccio adottato dai due eminenti studiosi. Innanzi tutto, si è scelto di
integrare la trattazione teorica con casi tratti dalla realtà e con i risultati provenienti dall’analisi empirica. La scelta degli argomenti, inoltre, riflette gli orientamenti contemporanei,
sia per quanto riguarda gli aspetti teorici sia per quanto concerne le applicazioni econometriche. Da una parte, infatti, si ricorre largamente all’approccio per grandi campioni, all’ipotesi
di campionamento casuale e alla considerazione dell’eteroschedasticità come caso normale,
dall’altra viene data particolare enfasi ad argomenti di grande rilevanza pratica quali la regressione con dati panel, quella con variabili dipendenti binarie e quella con variabili strumentali,
la valutazione di programmi, la previsione e i metodi di regressione per serie temporali. Un
terzo aspetto che gli autori hanno curato con particolare attenzione è la corrispondenza tra le
ipotesi teoriche e le applicazioni pratiche.
L’organizzazione del testo permette un utilizzo differenziato a seconda delle caratteristiche specifiche e delle finalità dei corsi in cui il libro può essere impiegato, consentendone
l’adozione sia nel triennio di base, sia nel biennio specialistico. Numerosi esercizi per la
verifica dell’apprendimento corredano il testo.
L’edizione italiana è stata curata da Franco Peracchi, Professore di Econometria presso
l’Università di Roma Tor Vergata e coordinatore del Dottorato di Ricerca in Econometria ed
Economia Empirica presso quella Università. All’edizione italiana hanno collaborato Anna
Conte e Christian Macaro. Oltre a garantire la massima fedeltà al testo originario, la traduzione italiana ha cercato anche di riprodurre lo stile piano, la scorrevolezza e la facilità di
lettura dell’edizione in lingua inglese.
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xvi — #16
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xvii — #17
i
i
Prefazione all’edizione originale
Un corso di econometria può essere divertente sia per il docente sia per lo studente. Il mondo reale dell’economia, degli affari e dell’amministrazione pubblica è un luogo complicato
e disordinato, pieno di idee contrastanti e di domande che chiedono risposte. È più efficace
contrastare la guida in stato d’ebbrezza tramite leggi severe o aumentando le imposte sugli alcolici? Possiamo guadagnare nel mercato azionario acquistando quando i prezzi sono
storicamente bassi, relativamente ai rendimenti, o dovremmo invece essere pazienti e aspettare come suggerito dalla teoria della passeggiata aleatoria dei prezzi dei titoli? Possiamo
migliorare l’istruzione elementare riducendo la dimensione delle classi oppure dovremmo
semplicemente lasciare che i nostri figli ascoltino Mozart per dieci minuti al giorno? L’econometria ci aiuta a distinguere le idee buone da quelle folli e a trovare risposte quantitative a
importanti domande quantitative. L’econometria apre una finestra sul nostro mondo complicato che ci consente di vedere le relazioni sulle quali le persone, gli affari e i governi basano
le proprie decisioni.
Questo manuale è disegnato per un corso di base universitario di econometria. Sulla base
della nostra esperienza, per rendere l’econometria interessante in un corso introduttivo, applicazioni interessanti debbono motivare la teoria e la teoria deve andare di pari passo con
le applicazioni. Questo semplice principio rappresenta un allontanamento significativo dalla vecchia generazione di manuali econometrici, in cui i modelli teorici e le assunzioni non
vanno di pari passo con le applicazioni. Non è una sorpresa che alcuni studenti mettano in
discussione la rilevanza dell’econometria dopo aver speso la maggior parte del loro tempo
imparando assunzioni per poi scoprire successivamente che sono irrealistiche, in modo che
essi debbono apprendere “soluzioni” a “problemi” che nascono quando le applicazioni non rispecchiano le assunzioni. Crediamo sia molto meglio motivare la necessità di certi strumenti
con un’applicazione concreta e poi fornire poche semplici assunzioni che rispecchino l’applicazione. Siccome la teoria è immediatamente collegabile alle applicazioni, questo approccio
può far sı̀ che l’econometria diventi vitale.
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xviii — #18
i
i
Prefazione all’edizione originale
Caratteristiche del libro
Questo libro differisce dagli altri in tre modi fondamentali. In primo luogo, integriamo le
domande circa il mondo reale e i dati nello sviluppo della teoria e consideriamo seriamente
i risultati sostanziali dell’analisi empirica. In secondo luogo, la nostra scelta degli argomenti
riflette la teoria e la pratica moderne. In terzo luogo, forniamo teoria e assunzioni che riflettono le applicazioni. Il nostro obiettivo è insegnare agli studenti a diventare sofisticati
utilizzatori dell’econometria e di far ciò al livello matematicamente appropriato per un corso
introduttivo.
Domande sul mondo reale e dati
Organizziamo ogni argomento metodologico attorno a un’importante domanda circa il mondo reale, che a sua volta richiede una specifica risposta quantitativa. Ad esempio, insegnamo
la regressione con una singola variabile, la regressione multipla e l’analisi della forma funzionale nell’ambito della stima degli effetti dell’istruzione sull’apprendimento (dimensioni
di classe piccole determinano un aumento nel punteggio dei test scolastici?). Insegnamo le
metodologie per i dati panel nel contesto dell’analisi degli effetti delle leggi sulla guida in
stato d’ebbrezza sulla mortalità sulle strade. Utilizziamo la possibilità di discriminazioni razziali nel mercato dei mutui per l’acquisto di case come applicazione empirica per insegnare
la regressione con variabili dipendenti binarie (logit e probit). Insegnamo la stima con variabili strumentali nel contesto della stima dell’elasticità della domanda di sigarette. Sebbene
questi esempi implichino un ragionamento economico, essi possono essere compresi con un
singolo corso introduttivo di economia e molti di essi possono essere compresi senza alcun
precedente corso di economia. Perciò, il docente può concentrare l’attenzione sullo studio
dell’econometria e non della microeconomia o della macroeconomia.
Trattiamo tutte le nostre applicazioni empiriche seriamente e in un modo da mostrare agli
studenti come si può apprendere dai dati ma, allo stesso tempo, essere autocritici e coscienti
delle limitazioni dell’analisi empirica. Per ciascuna applicazione insegniamo agli studenti
come esplorare specificazioni alternative e perciò come stabilire se i risultati sostanziali ottenuti sono robusti. Le domande poste nelle applicazioni empiriche sono importanti e perciò
forniamo risposte serie e a nostro giudizio credibili. Tuttavia, incoraggiamo studenti e docenti a confrontarsi e li invitiamo a rianalizzare i dati che sono forniti sul sito web del manuale
(www.aw.com/stock watson).
Attualità degli argomenti
L’econometria ha fatto molta strada negli ultimi due decenni. Gli argomenti che trattiamo
riflettono il meglio dell’attuale econometria applicata. Solo un numero limitato di argomenti
xviii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xix — #19
i
i
Prefazione all’edizione originale
può essere trattato in un corso introduttivo, e quindi ci concentriamo sulle procedure e sui test
che sono normalmente utilizzati in pratica. Ad esempio:
• regressione con variabili strumentali. Introduciamo la regressione con variabili strumentali come metodo generale per trattare la correlazione tra errore e regressore, la
quale può nascere per diverse ragioni, inclusa la causalità simultanea. Le due assunzioni per la validità di uno strumento (esogeneità e rilevanza) ricevono lo stesso peso.Questa presentazione è seguita da un’ampia discussione circa l’origine degli
strumenti e dalla presentazione di test per restrizioni di sovraidentificazione e diagnostiche per strumenti deboli (e spieghiamo come procedere se queste diagnostiche
suggeriscono la presenza di problemi).
• Valutazione di programmi. Un crescente numero di studi econometrici analizza gli
esperimenti controllati casualizzati oppure i quasi esperimenti, anche noti come esperimenti naturali. Introduciamo questi argomenti, ai quali ci si riferisce spesso come
valutazione di programmi, nel capitolo 11. Rappresentiamo questa strategia di ricerca
come un approccio alternativo ai problemi creati da variabili omesse, causalità simultanea e selezione, evidenziando sia i punti di forza sia quelli di debolezza degli studi
che utilizzano dati sperimentali o quasi sperimentali.
• Previsioni. Il capitolo sulle previsioni (capitolo 12) considera previsioni univariate
(autoregressive) e multivariate tramite regressioni temporali, non attraverso complessi
modelli strutturali a equazioni simultanee. Ci concentriamo su strumenti semplici e affidabili come l’autoregressione e i criteri d’informazione per la scelta del modello, che
funzionano bene in pratica. Questo capitolo presenta anche una discussione, orientata
alle applicazioni, di trend stocastici (radici unitarie), test per radici unitarie, test per
rotture strutturali (a date note e ignote nel tempo) e pseudo previsioni fuori campione,
il tutto nel contesto dello sviluppo di modelli di previsione stabili e affidabili per serie
temporali.
• Regressione temporale. Distinguiamo chiaramente tra due diverse applicazioni delle
regressioni temporali: la previsione e la stima di effetti causali dinamici. Il capitolo sull’inferenza causale tramite serie temporali (capitolo 13) dedica particolare attenzione ai casi in cui metodi di stima diversi, minimi quadrati generalizzati inclusi,
portano o meno a valide inferenze causali e ai casi in cui è auspicabile stimare regressioni dinamiche tramite gli OLS con errori standard consistenti all’eteroschedasticità e
all’autocorrelazione.
xix
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xx — #20
i
i
Prefazione all’edizione originale
Una teoria che riflette le applicazioni
Sebbene gli strumenti econometrici siano meglio giustificati dalle applicazioni empiriche,
gli studenti hanno bisogno di apprendere abbastanza teoria econometrica da comprendere i
punti di forza e di debolezza di questi strumenti. In questo manuale forniamo una trattazione
moderna, dove la teoria è il più vicino possibile alle applicazioni, mantenendo però gli aspetti
matematici a un livello che richiede solo l’algebra.
Le moderne applicazioni empiriche hanno alcune caratteristiche comuni: i dati sono tipicamente numerosi (centinaia di osservazioni, o anche più); i regressori non sono fissi in
campioni ripetuti ma sono invece raccolti tramite campionamento casuale (o qualche altro
meccanismo che li renda casuali); i dati non sono distribuiti normalmente; e non c’è alcuna ragioni a priori di pensare che gli errori siano omoschedastici (sebbene spesso ci siano
ragioni che lasciano pensare che essi siano eteroschedastici).
Queste osservazioni portano a differenze notevoli tra lo sviluppo teorico in questo libro e
altri libri.
• Approccio per grandi campioni. Poiché i dati sono numerosi, useremo fin dall’inizio
le approssimazioni normali per grandi campioni per la verifica di ipotesi e la costruzione di intervalli di confidenza. La nostra esperienza ci indica che è necessario meno
tempo a insegnare i rudimenti delle approssimazioni per grandi campioni che non insegnare agli studenti le distribuzioni t e F esatte, le correzioni per i gradi di libertà e
cosı̀ via. Questo approccio per grandi campioni risparmia anche agli studenti la frustrazione di scoprire che, a causa della non normalità degli errori, la teoria esatta delle
distribuzioni che hanno appena appreso è irrilevante. Una volta insegnato nel contesto della media campionaria, l’approccio per grandi campioni alla verifica di ipotesi e
agli intervalli di confidenza si estende direttamente all’analisi di regressione multipla,
a logit e probit, alla stima con variabili strumentali e ai metodi per serie temporali.
• Campionamento casuale. Poiché i regressori sono raramente fissi nelle applicazioni
econometriche, fin dall’inizio tratteremo i dati su tutte le variabili (dipendenti e indipendenti) come il risultato di campionamento casuale. Quest’assunzione rispecchia le
nostre applicazioni iniziali ai dati sezionali; si estende facilmente ai panel e alle serie
temporali; e, grazie al nostro approccio per grandi campioni, non pone alcuna ulteriore
difficoltà concettuale o matematica.
• Eteroschedasticità. Gli econometrici applicati utilizzano abitualmente errori standard
robusti all’eteroschedasticità in modo da evitare di preoccuparsi se l’eteroschedasticità
sia presente o meno. In questo libro andiamo oltre l’eteroschedasticità come eccezione
o “problema da affrontare”; permettiamo, invece, la presenza di eteroschedasticità fin
dall’inizio e semplicemente utilizziamo gli errori robusti all’eteroschedasticità. Presenxx
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxi — #21
i
i
Prefazione all’edizione originale
tiamo l’omoschedasticità come un caso speciale che fornisce una motivazione teorica
per gli OLS.
Produttori abili, consumatori sofisticati
Speriamo che gli studenti che utilizzano questo libro diventino consumatori sofisticati di analisi empirica. Per far ciò, essi devono apprendere non solo come utilizzare gli strumenti
dell’analisi di regressione, ma anche come valutare la validità delle analisi empiriche che
vengono loro presentate.
Il nostro approccio per insegnare come valutare uno studio empirico si basa su tre punti.
In primo luogo, subito dopo aver introdotto gli strumenti principali dell’analisi di regressione,
dedichiamo il capitolo 7 alle minacce alla validità interna ed esterna di uno studio empirico.
Questo capitolo discute i problemi connessi ai dati e alla generalizzazione dei risultati ad
altri contesti. Esso esamina anche le principali minacce all’analisi di regressione, incluse le
variabili omesse, l’incorretta specificazione della forma funzionale, gli errori nelle variabili,
la selezione e la simultaneità (e modi per individuare tali minacce in pratica).
In secondo luogo, applichiamo questi metodi per valutare gli studi empirici all’analisi
empirica di esempi che si ripropongono nel corso del libro. Facciamo ciò considerando specificazioni alternative ed affrontando in modo sistematico le varie minacce alla validità delle
analisi presentate in questo libro.
In terzo luogo, per diventare consumatori sofisticati, gli studenti hanno bisogno di esperienza diretta come produttori. L’apprendimento attivo vince sull’apprendimento passivo, e
l’econometria è un corso ideale per apprendere in modo attivo. Per questa ragione, il sito
web del testo contiene dati, software e suggerimenti per esercizi empirici con una varietà di
obiettivi.
Approccio alla matematica e livello di rigore
Il nostro obiettivo è che gli studenti sviluppino una comprensione sofisticata degli strumenti della moderna analisi di regressione, indipendentemente dal livello matematico (“alto” o
“basso”) a cui il corso viene insegnato. Le parti I–IV del testo (che coprono il materiale di
base) sono accessibili a studenti che hanno una conoscenza di base del calcolo matematico.
Le parti I–IV hanno poche equazioni, e più applicazioni, di molti testi econometrici introduttivi e di gran lunga meno equazioni dei libri destinati a corsi universitari di matematica.
Tuttavia, più equazioni non implicano un trattamento più sofisticato. Nella nostra esperienza,
un trattamento più matematico non porta a una conoscenza più profonda per la maggior parte
degli studenti.
Ciò detto, studenti diversi imparano in modo diverso e, per gli studenti meglio preparati
da un punto di vista matematico, l’apprendimento può essere migliorato da una trattazione più
xxi
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxii — #22
i
i
Prefazione all’edizione originale
specificatamente matematica. La parte V contiene perciò un’introduzione alla teoria econometrica che è appropriata per studenti con una migliore preparazione matematica. Crediamo
che, quando i capitoli matematici della parte V sono utilizzati congiuntamente al materiale
nelle parti I–IV, questo libro è adatto per corsi di econometria a livello universitario avanzato
o di master.
Contenuti e organizzazione
Ci sono cinque parti nel libro. Si assume che gli studenti abbiano seguito un corso di probabilità e statistica, sebbene quel materiale venga richiamato nella parte I. Il materiale principale
dell’analisi di regressione è sviluppato nella parte II. Le parti III, IV e V presentano una serie
di sviluppi che si fondano sulla trattazione di base della parte II.
Parte I
Il capitolo 1 introduce l’econometria ed evidenzia l’importanza di fornire risposte quantitative a domande quantitative. Discute il concetto di causalità negli studi statistici e passa
in rassegna i diversi tipi di dati che si incontrano in econometria. Materiale riguardante la
probabilità e la statistica è richiamato nei capitoli 2 e 3 rispettivamente; se questi capitoli
sono insegnati in un dato corso o semplicemente rappresentano un riferimento dipende dalla
formazione degli studenti.
Parte II
Il capitolo 4 introduce la regressione con un singolo regressore e i minimi quadrati ordinari (OLS). Nel capitolo 5 gli studenti apprendono come affrontare la distorsione da variabile
omessa utilizzando la regressione multipla, stimando quindi l’effetto di una variabile indipendente tenendo costanti altre variabili indipendenti. Nel capitolo 6, i metodi di regressione
multipla sono generalizzati ai modelli con funzioni di regressione non lineari che sono però
lineari nei parametri (possono quindi essere stimati tramite gli OLS). Nel capitolo 7, gli studenti fanno un passo indietro e imparano a identificare i punti di forza e di debolezza degli
studi di regressione, e osservano al tempo stesso come applicare i concetti di validità interna
ed esterna.
Parte III
La parte III presenta varie generalizzazioni dei metodi di regressione. Nel capitolo 8, gli
studenti apprendono come utilizzare dati panel in modo da controllare per le variabili inosservabili che sono costanti nel tempo. Il capitolo 9 riguarda la regressione con variabile
xxii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxiii — #23
i
i
Prefazione all’edizione originale
dipendente binaria. Il capitolo 10 mostra come la regressione con variabili strumentali possa
essere utilizzata per affrontare una serie di problemi che determinano correlazione tra l’errore
e il regressore e esaminano come trovare e valutare strumenti validi. Il capitolo 11 introduce
gli studenti all’analisi dei dati derivanti da esperimenti e quasi esperimenti, o esperimenti
naturali, un tema spesso indicato come “valutazione di programmi”.
Parte IV
La parte IV affronta le regressioni con serie temporali. Il capitolo 12 si concentra sulle
previsioni e introduce vari strumenti moderni per analizzare le regressioni con serie temporali,
quali i test per radici unitarie e i test per la stabilità. Il capitolo 13 discute l’utilizzo delle serie
temporali per stimare relazioni causali. Il capitolo 14 presenta alcuni strumenti avanzati per
l’analisi delle serie temporali, inclusi i modelli per l’eteroschedasticità condizionata.
Parte V
La parte V è un’introduzione alla teoria econometrica. Questa parte rappresenta più di un’appendice che fornisce dettagli matematici omessi nel resto del testo. Piuttosto, essa è una
trattazione autocontenuta della teoria econometrica per la stima e l’inferenza nel modello di
regressione lineare. Il capitolo 15 sviluppa la teoria dell’analisi di regressione per un singolo
regressore; l’esposizione non utilizza algebra matriciale, sebbene richieda un livello più elevato di sofisticazione matematica che non il resto del libro. Il capitolo 16 presenta e studia il
modello di regressione multipla in forma matriciale.
Prerequisiti
Poiché docenti diversi preferiscono enfatizzare aspetti diversi, abbiamo scritto questo libro
con in mente diverse preferenze d’insegnamento. Nella misura possibile, i capitoli nella
parte III, IV e V sono autocontenuti, nel senso che non richiedono l’insegnamento di tutti
i capitoli precedenti. I prerequisiti specifici per ogni capitolo sono descritti nella tabella
1. Sebbene abbiamo riscontrato che la sequenza degli argomenti adottata nel libro funzioni
bene per i nostri corsi, i capitoli sono scritti in modo da permettere al docente di presentare
gli argomenti in un ordine differente se lo desiderano.
Esempi di corsi
Differenti tipi di corso possono essere insegnati utilizzando questo libro.
xxiii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxiv — #24
i
i
Prefazione all’edizione originale
Tabella 1: guida ai requisiti per i capitoli sugli argomenti speciali delle parti III–V
Capitolo
8
9
10.1,10.2
10.3-10.6
11
12
13
14
15
16
Parte I
•
•
•
•
•
•
•
•
•
•
Parte II
•
•
•
•
•
•
•
•
•
•
Requisiti o capitoli
8.1, 8.2
10.1, 10.2
•
•
12.1-12.4
12.5-12.8
13
•
•
•
•
15
•
•
•
Questa tabella mostra i requisiti minimi necessari per comprendere il materiale del corrispondente capitolo. Ad
esempio, la stima degli effetti causali dinamici (capitolo 13) prima richiede la parte I (dipende ovviamente dalla
preparazione dello studente), la parte II e le sezioni 12.1–12.4.
Econometria introduttiva standard
Questo corso introduce l’econometria (capitolo 1) e passa in rassegna i necessari elementi
di probabilità e statistica. Si sposta, quindi, sulla regressione con un singolo regressore, la
regressione multipla, i fondamenti dell’analisi della forma funzionale e la valutazione degli
studi di regressione (tutta la parte II). Il corso procede trattando la regressione con dati panel
(capitolo 8), la regressione con variabile dipendente limitata (capitolo 9) e/o la regressione
con variabili strumentali (capitolo 10), se il tempo lo permette. Il corso si conclude con
esperimenti e quasi esperimenti nel capitolo 11, argomenti che forniscono un’opportunità
di tornare ai problema della stima degli effetti causali sollevati all’inizio del semestre e di
ricapitolare i metodi principali di regressione. Prerequisiti: algebra e statistica introduttive.
Econometria introduttiva con e applicazioni alle serie temporali e alle
previsioni
Come il corso standard introduttivo, questo corso copre tutta la parte I (a seconda delle necessità) e tutta la parte seconda. Opzionalmente, il corso fornisce inoltre una breve introduzione
ai dati panel (sezione 8.1 e 8.2) e affronta la regressione con variabili strumentali (capitolo 10, o solo le sezioni 10.1 e 10.2). Il corso procede quindi con la parte IV, trattando le
previsioni (capitolo 12) e la stima di effetti causali dinamici (capitolo 13). Se il tempo lo
permette, il corso può includere alcuni argomenti avanzati dell’analisi delle serie temporali, come l’eteroschedasticità condizionata (sezione 14.5). Prerequisiti: algebra e statistica
introduttiva.
xxiv
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxv — #25
i
i
Prefazione all’edizione originale
Analisi applicata delle serie temporali e previsione
Questo libro può anche essere utilizzato per un breve corso sull’analisi applicata delle serie
temporali e sulle previsioni, per il quale un corso sull’analisi di regressione rappresenta un
prerequisito. Parte del tempo è speso richiamando gli strumenti dell’analisi di regressione
di base nella parte II, a seconda della preparazione dello studente. Il corso muove quindi
direttamente alla parte IV e affronta le previsioni (capitolo 12), la stima degli effetti causali
dinamici (capitolo 13) e argomenti avanzati nell’analisi delle serie temporali (capitolo 14),
incluse le autoregressioni vettoriali e l’eteroschedasticità condizionata. Una componente importante di questo corso dovrebbe essere la trattazione pratica di alcuni esercizi di previsione,
a disposizione del docente sul sito web. Prerequisiti: algebra ed econometria introduttiva di
base o equivalente.
Introduzione alla teoria econometrica
Questo libro è anche utilizzabile per un corso universitario avanzato in cui gli studenti abbiano una forte preparazione matematica o per un corso di econometria a livello di master. Il
corso richiama brevemente la teoria della statistica e della probabilità per quanto necessario
(parte I). Il corso introduce poi l’analisi di regressione tramite l’approccio non matematico
e basato sulle applicazioni della parte II. Questa introduzione è seguita dallo sviluppo terico
dei capitoli 15 e 16. Il corso affronta poi la regressione con una variabile dipendente binaria (capitolo 9) e la stima di massima verosimiglianza (appendice 9.2). Successivamente, il
corso ritorna opzionalmente alla regressione con variabili strumentali (capitolo 10), i metodi
per le serie temporali(capitolo 12) e/o la stima di effetti causali tramite serie temporali e minimi quadrati generalizzati (capitolo 13 e sezione 16.6). Prerequisiti: calcolo matematico e
fondamenti di statistica. Il capitolo 16 presuppone la conoscenza dell’algebra delle matrici.
Caratteristiche pedagogiche
Il manuale presenta una varietà di caratteristiche pedagogiche che mirano ad aiutare gli studenti a comprendere, ricordare e applicare le idee essenziali. Le introduzioni ai capitoli
forniscono un fondamento e una motivazione nel mondo reale, cosı̀ come un breve stradario che illumina la sequenza della discussione. I termini chiave sono riportati in grassetto e
definiti nel contenuto nel corso di ciascun capito e i riquadri dei concetti chiave riassumono
ad intervalli regolari le idee centrali. I riquadri di interesse generale forniscono interessanti
deviazioni in argomenti collegati e evidenziano studi empirici che fanno uso dei metodi o dei
concetti che sono discussi nel testo. Un sommario numerato a conclusione di ogni capitolo
funge da utile cornice per la revisione dei punti salienti. Le domande nella sezione verifica
dei concetti verificano la comprensione da parte degli studenti del contenuto principale e gli
xxv
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxvi — #26
i
i
Prefazione all’edizione originale
esercizi danno la possibilità di ottenere una pratica maggiore lavorando con i concetti e le
tecniche introdotte nel capitolo. Alla fine del libro, la sezione bibliografia elenca le fonti
per letture ulteriori, l’appendice finale contiene le tavole statistiche e il glossario definisce in
modo conveniente tutti i termini chiave nel testo.
Supplementi al manuale
Un elenco di risorse supplementari per i docenti e gli studenti è disponibile per chi voglia
adottare Introduzione all’econometria. Il Manuale delle soluzioni di Jiangfeng Zhang della
University of California, Berkeley, fornisce soluzioni ragionate agli esercizi alla fine di ogni
capitolo. Per i docenti, una Test Bank di Manfred W. Keil del Claremont McKenna College
costituisce una ricca fonte di problemi e domande di vario tipo. Un Instructor’s Resource CD
contiene lucidi in PowerPoint delle figure, tabelle e dei concetti chiave nel testo; il manuale
con le soluzioni complete; e la Test Bank nei formati Word e TestGen-EQ.
In aggiunta, il sito web del libro, che si trova all’indirizzo www.aw.com/stock watson,
fornisce una vasta gamma di risorse addizionali per studenti e docenti. Queste includono i
dati relativi a tutti gli esempi nel testo, suggerimenti per esercizi empirici, idee per progetti da
proporre agli studenti, un campione di soluzioni agli esercizi alla fine di ogni capitolo, quiz
pratici per gli studenti, lucidi in PowerPoint, guide per EViews e STATA e un supplemento a
Excel per regressioni OLS. Per i docenti interessati alla gestione dei corsi, offriamo CourseCompass, un ambiente di apprendimento interattivo in rete fornito da Blackboard. Si contatti
il rappresentante Addison-Wesley per dettagli.
Ringraziamenti
Molte persone hanno contribuito a questo progetto. Il maggior debito di gratitudine lo abbiamo verso i nostri colleghi di Harvard e Princeton che hanno utilizzato le prime bozze di
questo libro per le proprie lezioni. Alla Harvard’s Kennedy School of Government, Suzanne
Cooper ci ha fornito suggerimenti inestimabili e commenti dettagliati su tutte le bozze. Come
codocente di uno degli autori (Stock), ci ha anche aiutato a revisionare accuratamente gran
parte del materiale di questo libro mentre ne stavamo preparando una versione preliminare
destinata agli studenti di un master organizzato dalla Kennedy School. Siamo anche in debito
nei confronti di due nostri colleghi della Kennedy School, Alberto Abadie e Sue Dynarski,
per le loro pazienti spiegazioni circa i quasi esperimenti e la valutazione di programmi e per
i loro commenti dettagliati sulle prime bozze del testo. A Princeton, Eli Tamer ha tratto le
proprie lezioni da una bozza preliminare e ci ha anche fornito utili commenti sulla penultima
bozza.
Siamo anche in debito nei confronti dei molti amici e colleghi econometrici che hanno
xxvi
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxvii — #27
i
i
Prefazione all’edizione originale
dedicato del tempo discutendo con noi circa la sostanza di questo libro e quanti ci hanno reso
collettivamente i propri utili commenti. Bruce Hansen (University of Wisconsin, Madison)
e Bo Honore (Princeton) ci hanno fornito utili valutazioni sui primi abbozzi e sulle prime
versioni premiliminari del materiale principale della parte II. Joshua Angrist (MIT) e Guido
Imbens (University of California, Berkeley) ci hanno dato suggerimenti sul modo in cui trattare il materiale circa la valutazione di programmi. La nostra presentazione del materiale sulle
serie temporali ha tratto beneficio dalle discussioni intercorse con Yacine Ait-Sahalia (Princeton), Graham Elliott (University of California, San Diego), Andrew Harvey (Cambridge
University) e Christopher Sims (Princeton). Infine, molte persone ci hanno fornito utili suggerimenti sulle parti del manoscritto riguardanti l’area di propria competenza: Don Andrews
(Yale), John Bound (University of Michigan), Gregory Chow (Princeton), Thomas Downes
(Tufts), David Druckker (Stata, Inc.), Jean Baldwin Grossman (Princeton), Eric Hanushek
(the Hoover Institution), James Heckman (University of Chicago), Han Hong (Princeton),
Caroline Hoxby (Harvard), Alan Krueger (Princeton), Steven Levitt (University of Chicago),
Richard Light (Harvard), David Neumark (Michigan State University), Joseph Newhouse
(Harvard), Pierre Perron (Boston University), Kenneth Warner (University of Michigan) e
Richard Zeckhauser (Harvard).
Molte persone sono state molto generose nel fornirci i dati. I dati sui punteggi dei test
per la California sono stati costruiti con l’assistenza di Les Axelrod della Standards and Assessments Division, California Department of Education. Siamo grati a DePascale, Student
Assessment Services, Massachusetts Department of Education, per il suo aiuto su certi aspetti dei dati sui punteggi dei test del Massachusetts. Christopher Ruhm (University of North
Carolina, Greensboro) ci ha gentilmente fornito i dati sulle leggi contro la guida in stato di
ebbrezza e la mortalità sulle strade. Il dipartimento della ricerca della Federal Reserve Bank
of Boston merita i nostri ringraziamenti per aver messo insieme i dati sulla discriminazione
razziale nelle concessione di mutui; siamo particolarmente grati a Geoffrey Tootell per averci
fornito a versione aggirnata dei dati utilizzati nel capitolo 9 e Lynn Browne per la spiegazione
dei suggerimenti di politica pubblica che se ne possono trarre. Ringraziamo Jonathan Gruber
(MIT) per aver condiviso con noi i suoi dati sulla vendita di sigarette , che analizzeremo nel
capitolo 10, e Alan Krueger (Princeton) per il suo aiuto con i dati STAR del Tennessee STAR
che analizzeremo nel capitolo 11.
Siamo anche grati per le molte critiche costruttive, dettagliate e meditate ricevute dai tanti
che hanno revisionato le varie bozze per la Addison-Wesley:
Michael Abbott, Queen’s University, Canada
Richard J. Agnello, University of Delaware
Clopper Almon, University of Maryland
Joshua Angrist, Massachusetts Institute of
Technology
Swarnjit S. Arora, University of Wisconsin,
Milwaukee
Christopher F. Baum, Boston College McKinley L. Blackburn, University of South
Carolina
xxvii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxviii — #28
i
i
Prefazione all’edizione originale
Alok Bohara, University of New Mexico
Chi-Young Choi, University of New Hampshire
Dennis Coates, University of Maryland, Baltimore County
Tim Conley, Graduate School of Business,
University of Chicago
Douglas Dalenberg, University of Montana
Antony Davies, Duquesne University
Joanne M. Doyle, James Madison University
David Eaton, Murray State University
Adrian R. Fleissig, California State University, Fullerton
Rae Jean B. Goodman, United States Naval
Academy
Bruce E. Hansen, University of Wisconsin,
Madison
Peter Reinhard Hansen, Brown University
Ian T. Henry, University of Melbourne, Australia
Marc Henry, Columbia University William
Horrace, University of Arizona
Òscar Jordà, University of California, Davis
Frederick L. Joutz, The George Washington
University
Elia Kacapyr, Ithaca College
Manfred W. Keil, Claremont McKenna College
Eugene Kroch, Villanova University
Gary Krueger, Macalester College
Kajal Lahiri, State University of New York,
Albany
Daniel Lee, Shippensburg University
Tung Liu, Ball State University
Ken Matwiczak, LBJ School of Public
Affairs, University of Texas, Austin
KimMarie McGoldrick, University of Rich-
mond
Robert McNown, University of Colorado,
Boulder
H. Naci Mocan, University of Colorado,
Denver
Mototsugu Shintani, Vanderbilt University
Mico Mrkaic, Duke University
Serena Ng, Johns Hopkins University
Jan Ondrich, Syracuse University
Pierre Perron, Boston University
Robert Phillips, The George Washington
University
Simran Sahi, University of Minnesota
Sunil Sapra, California State University, Los
Angeles
Frank Schorfheide, University of Pennsylvania
Leslie S. Stratton, Virginia Commonwealth
University
Jane Sung, Truman State University
Christopher Taber, Northwestern University
Petra Todd, University of Pennsylvania
John Veitch, University of San Francisco
Edward J. Vytlacil, Stanford University
M. Daniel Westbrook, Georgetown University
Tiemen Woutersen, University of Western
Ontario
Phanindra V. Wunnava, Middlebury College
Zhenhui Xu, Georgia College and State University
Yong Yin, State University of New York,
Buffalo
Jiangfeng Zhang, University of California,
Berkeley
John Xu Zheng, University of Texas, Austin
Ringraziamo i numerosi correttori di bozze. Kerry Griffin e Yair Listokin che hanno
xxviii
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxix — #29
i
i
Prefazione all’edizione originale
letto l’intero manoscritto, e inoltre Andrew Fraker, Ori Heffretz, Amber Henry, Hong Li,
Alessandro Tarozzi e Matt Watson che hanno lavorato alla redazione di tutte le varie versioni.
Abbiamo beneficiato della collaborazione di un eccezionale development editor, Jane
Tufts, la cui creatività, dedizione e cura per i dettagli ha migliorato il libro in molti modi,
grandi e piccoli. Addison-Wesley ci ha fornito un aiuto di prima qualità, per cominciare
dal nostro eccellente editore, Sylvia Mallory, per comprendere l’intero gruppo editoriale.
Jane e Sylvia ci hanno pazientemente insegnato tanto circa il modo di scrivere, l’organizzazione e la presentazione, e i loro sforzi trapelano in ogni pagina del libro. Estendiamo i
nostri ringraziamenti anche al resto del gruppo Addison-Wesley, che ci ha coadiuvato ad ogni
passo dell’intricato processo di pubblicazione di questo libro: Adrienne D’Ambrosio (marketing manager), Melissa Honig (senior media producer), Regina Kolenda (senior designer),
Katherine Watson (production supervisor) e specialmente Denise Clinton (editor-in-chief).
Soprattutto, ringraziamo le nostre famiglie per la pazienza che hanno avuto nel corso di
questo progetto. La redazione di questo libro ha richiesto molto tempo –che a loro deve essere
sembrato infinito. Esse più di qualsiasi altro hanno sopportato il peso di tale impegno, e per
il loro aiuto e sostegno siamo loro profondamente grati.
xxix
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page xxx — #30
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 1 — #31
i
i
Parte I
Introduzione e richiami
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 2 — #32
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 3 — #33
i
i
Capitolo 1
Domande economiche e dati
economici
Se si domandasse a una mezza dozzina di econometrici cosa sia l’econometria, si otterrebbe una mezza dozzina di risposte diverse. Uno potrebbe affermare che l’econometria è la
scienza che sottopone a verifica le teorie economiche. Un secondo potrebbe rispondere che
l’econometria è l’insieme degli strumenti usati per prevedere i valori futuri delle variabili
economiche, come le vendite di un’impresa, la crescita globale dell’economia o i prezzi dei
titoli. Un altro potrebbe dire che l’econometria è il processo con cui si adattano modelli economici matematici ai dati del mondo reale. Un quarto potrebbe sostenere che è l’arte e la
scienza di usare dati storici per fare raccomandazioni di “policy” numeriche, o quatitative,
per il governo e gli affari.
In realtà, tutte queste risposte sono corrette. In senso lato, l’econometria è la scienza e
l’arte di usare la teoria economica e le tecniche statistiche per analizzare i dati economici. I
metodi econometrici sono utilizzati in molti campi dell’economia, quali la finanza, l’economia del lavoro, la macroeconomia, la microeconomia, il marketing e la politica economica.
Le tecniche econometriche sono anche comunemente utilizzate in altre scienze sociali, come
le scienze politiche e la sociologia.
Questo libro è un’introduzione all’insieme fondamentale di metodi utilizzati dagli econometrici. Utilizzeremo tali metodi per rispondere a una varietà di domande quantitative
particolari tratte dal mondo degli affari e dalla politica economica. Questo capitolo pone
quattro di queste domande e discute, in termini generali, l’approccio econometrico per ottenere una risposta. Il capitolo si conclude con una rassegna dei principali tipi di dati che
gli econometrici utilizzano per rispondere a queste e ad altre domande quantitative di tipo
economico.
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 4 — #34
i
i
1.1. Domande economiche esaminate
1.1 Domande economiche esaminate
Molte decisioni economiche, di affari e di governo dipendono dalla comprensione delle relazioni che sussistono tra le variabili del mondo che ci circonda. Tali decisioni richiedono
risposte di tipo quantitativo a domande di tipo quantitativo.
Questo libro esamina varie domande quantitative tratte da problemi economici attuali. Quattro di queste domande riguardano le politiche per l’istruzione, la discriminazione
razziale nella concessione di mutui, il consumo di sigarette e le previsioni macroeconomiche.
Domanda 1: ridurre la dimensione delle classi migliora il livello di istruzione nella scuola elementare?
Le proposte di riforma del sistema dell’istruzione pubblica USA generano accesi dibattiti.
Molte delle proposte riguardano gli studenti più giovani, quelli che frequentano la scuola elementare. L’istruzione elementare ha vari obiettivi, come lo sviluppo della capacità di socializzare, ma per molti genitori e insegnanti il fine principale è l’assimilazione delle conoscenze
accademiche basilari: lettura, scrittura e principi di matematica. Una proposta importante per
migliorare l’apprendimento di base è quella di ridurre la dimensione delle classi nelle scuole
elementari. Con un minor numero di studenti nelle classi, si afferma, ogni studente riceve
una maggiore attenzione dall’insegnante, ci sono meno distrazioni, l’apprendimento migliora
e anche i voti.
Qual è però, con precisione, l’effetto sull’istruzione scolastica elementare di una riduzione della dimensione delle classi? Tale riduzione è costosa: richiede l’assunzione di nuovi
insegnanti e, se la scuola è già piena, la costruzione di nuove classi. Chi deve decidere se
assumere nuovi insegnanti deve soppesarne costi e benefici. Per valutare costi e benefici, tuttavia, occorre avere un preciso quadro quantitativo dei benefici possibili. L’effetto benefico di
classi meno numerose sull’apprendimento di base è grande o piccolo? È possibile che avere
classi di dimensioni minori non produca alcun effetto reale sull’apprendimento di base?
Sebbene il senso comune e l’esperienza quotidiana possano suggerire che si apprende
meglio quando ci sono meno studenti, il senso comune non riesce a quantificare l’effetto
sull’apprendimento di base della riduzione della dimensione delle classi. Per ottenere una risposta è necessario esaminare l’evidenza empirica (cioè, l’evidenza basata sui dati) che mette
in relazione la dimensione delle classi all’apprendimento di base nelle scuole elementari.
In questo libro, esaminiamo la relazione tra dimensione delle classi e apprendimento
di base tramite i dati raccolti in 420 distretti scolastici della California nel 1998. Nei dati
della California, gli studenti in distretti con dimensioni di classe ridotte tendono a ottenere
risultati migliori nei test standardizzati degli studenti in distretti con classi più numerose.
Mentre questo fatto è coerente con l’idea che classi meno numerose producano punteggi nei
test migliori, esso potrebbe semplicemente riflettere l’effetto dei molti altri vantaggi che gli
4
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 5 — #35
i
i
1.1. Domande economiche esaminate
studenti nei distretti con classi più piccole hanno nei confronti dei loro coetanei in distretti
con classi più numerose. Ad esempio, i distretti con classi più piccole tendono ad avere
residenti più ricchi rispetto ai distretti con classi più numerose, cosı̀ gli studenti nei distretti
con classi piccole hanno maggiori opportunità di apprendimento extrascolastico. Potrebbero
essere queste opportunità di apprendimento extrascolastico a determinare punteggi più alti nei
test, e non classi meno numerose. Nella parte II, utilizziamo l’analisi di regressione multipla
per isolare l’effetto di variazioni nella dimensione delle classi da variazioni in altri fattori,
come la condizione economica degli studenti.
Domanda 2: vi è discriminazione razziale nel mercato dei prestiti per
abitazioni?
La maggior parte delle persone acquista la propria casa con l’aiuto di un mutuo, un prestito
elevato garantito dal valore della casa. Per legge, gli istituti di credito negli USA non possono
tener conto della razza quando decidono la concessione o il rifiuto di un mutuo: richiedenti
identici in tutto, eccetto la razza, dovrebbero avere la stessa probabilità di vedere approvata
la propria richiesta. In teoria, allora, non ci dovrebbe essere discriminazione razziale nella
concessione dei mutui.
Contrariamente a questa conclusione teorica, i ricercatori della Federal Reserve Bank di
Boston hanno riscontrato (usando dati dei primi anni Novanta) che al 28% dei richiedenti neri
veniva rifiutato il mutuo, cosa che accadeva solo al 9% dei richiedenti bianchi. Questi dati
indicano allora che, in pratica, c’è una distorsione razziale nella concessione dei mutui? Se
cosı̀, di quale entità?
Il fatto che vengano rifiutate più richieste di neri che di bianchi nei dati della Boston
Fed non costituisce in sé per sé evidenza di discriminazione da parte di chi offre mutui,
perché i richiedenti neri e bianchi differiscono in altre dimensioni oltre alla razza. Prima di
concludere che vi è distorsione nel mercato dei prestiti, tali dati debbono essere esaminati
più attentamente per vedere se vi è una differenza nella probabilità di ottenere un rifiuto per
richiedenti altrimenti identici e, se cosı̀, se questa differenza è grande o piccola. A tal fine,
nel capitolo 9 introduciamo i metodi econometrici che rendono possibile quantificare l’effetto
della razza sulla possibilità di ottenere un mutuo, tenendo constanti le altre caratteristiche del
richiedente, in primo luogo la sua capacità di restituire il prestito.
Domanda 3: di quanto riducono il fumo le imposte sulle sigarette?
Il fumo di sigaretta è una delle più importanti questioni di salute pubblica a livello mondiale.
La maggior parte dei costi del fumo, come le spese mediche per le cure destinate a chi si è
ammalato per il fumo e i costi meno facilmente quantificabili per i non fumatori che preferiscono non respirare il fumo passivo, sono sostenuti da altri membri della società. Siccome
5
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 6 — #36
i
i
1.1. Domande economiche esaminate
tali costi sono a carico di altre persone oltre al fumatore, c’è spazio per l’intervento pubblico al fine di ridurre il consumo di sigarette. Uno degli strumenti più flessibili per ridurre il
consumo è un aumento delle imposte sulle sigarette.
La teoria economica afferma che, se il prezzo delle sigarette aumenta, il consumo diminuisce. Di quanto? Se il prezzo di vendita cresce dell’1%, di quale percentuale diminuirà
la quantità di sigarette vendute? La variazione percentuale nella quantità domandata conseguente all’aumento dell’1% del prezzo è detto elasticità della domanda al prezzo. Se si vuole
ridurre il fumo di un certo ammontare, diciamo del 20%, aumentando le imposte, allora dobbiamo conoscere l’elasticità al prezzo della domanda di sigarette per calcolare l’aumento di
prezzo necessario ad ottenere tale riduzione nel consumo. Qual è però questa elasticità?
Sebbene la teoria economica ci fornisca i concetti per poter rispondere a questa domanda,
non ci dice il valore numerico dell’elasticità della domanda al prezzo. Per conoscere tale
elasticità dobbiamo esaminare l’evidenza empirica circa il comportamento dei fumatori e dei
potenziali fumatori; in altre parole, è necessario analizzare i dati su consumo di sigarette e
prezzi.
I dati che esamineremo sono le vendite di sigarette, i prezzi, le imposte e il reddito personale nei vari stati degli USA negli anni Ottanta e Novanta. In questi dati, gli stati con imposte
basse, e perciò prezzi delle sigarette bassi, hanno alte percentuali di fumatori e gli stati con
prezzi alti hanno basse percentuali di fumatori. Tuttavia, l’analisi di questi dati è complicata
perché la casualità corre in entrambe le direzioni: imposte basse inducono una domanda alta,
ma se ci sono molti fumatori nello stato, allora i politici locali potrebbero cercare di tenere
bassi i prezzi delle sigarette per soddisfare i propri elettori fumatori. Nel capitolo 10 studiamo i metodi per affrontare questa “casualità simultanea” e usiamo questi metodi per stimare
l’elasticità della domanda di sigarette al prezzo.
Domanda 4: quale sarà il tasso d’inflazione il prossimo anno?
Sembra che le persone vogliano sempre un’anteprima del futuro. Quanto venderà un’impresa
nel prossimo anno investendo in nuove attrezzature? Il mercato dei titoli salirà il prossimo
mese e, se cosı̀, di quanto? Le tasse comunali riusciranno a coprire le spese per i servizi
ai cittadini del prossimo anno? L’esame di microeconomia della prossima settimana verterà
sulle esternalità o sul monopolio? Sabato sarà una giornata adatta per andare al mare?
Un aspetto del futuro al quale i macroeconomisti e gli economisti finanziari sono particolarmente interessati è il tasso di crescita dell’indice generale dei prezzi durante il prossimo
anno. Un promotore finanziario dovrebbe consigliare a un cliente se dare a prestito o prendere a prestito a un dato tasso di interesse, in funzione della sua migliore previsione del tasso
d’inflazione nell’anno seguente. Gli economisti delle banche centrali come la Federal Reserve Board di Washington, D.C., e la Banca Centrale Europea di Francoforte, Germania, hanno
la responsabilità di tenere il tasso d’inflazione sotto controllo, cosı̀ le loro decisioni su come
6
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 7 — #37
i
i
1.1. Domande economiche esaminate
fissare i tassi di interesse si basano sulla visione che hanno dell’inflazione durante il prossimo anno. Se pensano che il tasso d’inflazione aumenterà di un punto percentuale, potrebbero
allora aumentare i tassi d’interesse in misura maggiore per rallentare un’economia che, dal
loro punto di vista, rischia di surriscaldarsi. Se la loro congettura è errata, corrono il rischio
di causare una recessione inutile oppure un’impennata indesiderata del tasso d’inflazione.
Gli economisti di professione che si basano su previsioni numeriche precise utilizzano a
tal fine modelli econometrici. Il lavoro di chi effettua previsioni è quello di predire il futuro
tramite il passato, e gli econometrici fanno questo utilizzando teoria economica e tecniche
statistiche per quantificare relazioni nei dati storicamente osservati.
I dati che utilizziamo per prevedere l’inflazione sono i tassi di inflazione e di disoccupazione negli Stati Uniti. Un’importante relazione empirica tra dati macroeconomici è la “curva
di Phillips”, secondo la quale un valore basso del tasso di disoccupazione oggi è associato
a una crescita del tasso d’inflazione nel prossimo anno. Una delle previsioni dell’inflazione
che svilupperemo e valuteremo nel capitolo 12 si basa sulla curva di Phillips.
Domande quantitative, risposte quantitative
Ognuna di queste quattro domande richiede una risposta numerica. La teoria economica fornisce indicazioni utili (il consumo di sigarette dovrebbe diminuire quando il prezzo aumenta)
ma il valore numerico vero può essere appreso solo empiricamente, ovvero analizzando i dati. Poiché utilizziamo dati per rispondere a domande di tipo quantitativo, le nostre risposte
contengono sempre un po’ di incertezza: dati diversi produrrebbero una risposta numerica
diversa. Perciò, lo schema concettuale di analisi deve fornire sia una risposta numerica alla
domanda sia una misura della precisione di tale risposta.
Lo schema concettuale utilizzato in questo libro è il modello di regressione multipla, la
pietra miliare dell’econometria. Tale modello, introdotto nella parte II, fornisce un modo
matematico per quantificare come la variazione in una variabile influenzi un’altra variabile,
lasciando immutato tutto il resto. Ad esempio, che effetto ha una variazione nella dimensione
delle classi sui punteggi del test, tenendo costanti le caratteristiche di uno studente (come il
reddito familiare) che il provveditore di un distretto scolastico non può controllare? Quale effetto ha la razza sulla possibilità di vedere approvata una richiesta di mutuo, tenendo costanti
altri fattori come la capacità di rimborsare il prestito? Che effetto ha sul consumo di sigarette un aumento dell’1% del prezzo, tenendo costante il reddito dei fumatori e dei potenziali
fumatori? Il modello di regressione multipla e le sue estensioni forniscono uno schema per
rispondere a tali domande tramite i dati e per quantificare l’incertezza associata a tali risposte.
7
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 8 — #38
i
i
1.2. Effetti causali ed esperimenti ideali
1.2 Effetti causali ed esperimenti ideali
Come molte delle domande che si incontrano in econometria, le prime tre domande della
sezione 1.1 riguardano relazioni causali tra variabili. Nell’accezione comune, si dice che
un’azione causa un risultato se quest’ultimo è il risultato diretto, o la conseguenza, di tale
azione. Toccare un fornello caldo provoca un’ustione; bere l’acqua toglie la sete; immettere
aria negli pneumatici li fa gonfiare; fertilizzare piante di pomodoro fa sı̀ che queste producano più pomodori. Causalità significa che un’azione specifica (applicare il fertilizzante)
determina una specifica, misurabile conseguenza (più pomodori).
Stima di effetti causali
Qual è il miglior modo per misurare l’effetto causale sulla produzione di pomodori (misurata
in chilogrammi) dell’applicazione di una certa quantità di fertilizzante, diciamo 100 grammi
di fertilizzante per metro quadrato?
Un modo per misurare questo effetto causale è quello di condurre un esperimento. In tale
esperimento, un ricercatore in orticultura pianta pomodori in molti appezzamenti di terreno.
Ogni appezzamento di terreno è curato in modo identico, con una sola eccezione: alcuni
appezzamenti ricevono 100 grammi di fertilizzante per metro quadro, mentre gli altri non ricevono nulla. Inoltre, il fatto che un terreno sia fertilizzato o meno è determinato casualmente
da un computer, il che assicura che qualsiasi altra differenza tra gli appezzamenti non è legata
al fatto che tale terreno riceva il fertilizzante. Alla fine della stagione di crescita, l’orticultore
pesa il raccolto ottenuto in ciascun appezzamento. La differenza tra la produzione media per
metro quadro degli appezzamenti trattati e di quelli non trattati è l’effetto sulla produzione di
pomodoro del trattamento con fertilizzante.
Questo è un esempio di esperimento controllato casualizzato. È controllato nel senso
che ci sono sia un gruppo di controllo che non riceve alcun trattamento (niente fertilizzante)
sia un gruppo di trattamento che riceve il trattamento (100 g/m2 di fertilizzante). È casualizzato nel senso che il trattamento è assegnato casualmente. Questa assegnazione casuale
elimina la possibilità di una relazione sistematica tra, ad esempio, quanto soleggiato sia l’appezzamento e il fatto che esso riceva il fertilizzante, cosicché la sola differenza sistematica
tra il gruppo di trattamento e il gruppo di controllo è il trattamento. Se questo esperimento è condotto in maniera adeguata su scala sufficientemente ampia, esso produrrà una stima dell’effetto causale sul risultato d’interesse (la produzione di pomodori) del trattamento
(l’applicazione di 100 g/m2 di fertilizzante).
In questo libro, l’effetto causale è definito come l’effetto su un risultato di una data
azione o trattamento, cosı̀ come misurato in un esperimento controllato casualizzato. In un
esperimento del genere, la sola ragione sistematica per le differenze nei risultati tra il gruppo
di trattamento e quello di controllo è il trattamento stesso.
8
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 9 — #39
i
i
1.3. Dati: fonti e tipi
È possibile immaginare un esperimento controllato casualizzato ideale per rispondere
alle prime tre domande nella sezione 1.1. Ad esempio, per studiare la dimensione delle classi
si può immaginare di assegnare casualmente i “trattamenti”, ovvero dimensioni di classe
diverse, a gruppi diversi di studenti. Se l’esperimento è disegnato e condotto in modo che la
sola differenza sistematica tra i gruppi di studenti siano le dimensioni delle rispettive classi,
allora in teoria questo esperimento stimerebbe l’effetto sui punteggi del test di una riduzione
della dimensione delle classi, tenendo costante tutto il resto.
Il concetto di esperimento controllato casualizzato è utile perché fornisce una definizione
di effetto causale. In pratica, tuttavia, non è possibile effettuare esperimenti ideali. In realtà,
gli esperimenti sono rari in econometria perché sono spesso contrari all’etica, impossibili da
praticare in modo soddisfacente o proibitivamente costosi. Il concetto di esperimento controllato casualizzato ideale fornisce, tuttavia, un riferimento teorico per un’analisi econometrica
degli effetti causali tramite dati reali.
Previsione e causalità
Sebbene le prime tre domande nella sezione 1.1 riguardino effetti causali, non è cosı̀ per la
quarta, prevedere l’inflazione. Non è necessario conoscere una relazione causale per effettuare una buona previsione. Un buon modo per “prevedere” se sta piovendo è osservare se i
pedoni stanno utilizzando ombrelli, ma il fatto di usare un ombrello non causa la pioggia.
Sebbene la previsione non coinvolga necessariamente relazioni causali, la teoria macroeconomica suggerisce schemi e relazioni che potrebbero essere utili nel prevedere l’inflazione.
Come osservato nel capitolo 12, l’analisi della regressione multipla permette di quantificare
le relazioni storiche suggerite dalla teoria economica, verificare se tali relazioni sono rimaste
stabili nel tempo, effettuare previsioni quantitative circa il futuro e stabilire l’accuratezza di
tali previsioni.
1.3 Dati: fonti e tipi
In econometria, i dati provengono da una di due possibili fonti: esperimenti oppure osservazioni non sperimentali e non sperimentali del mondo. Questo libro esamina sia i dati
sperimentali sia quelli non sperimentali.
Dati sperimentali e dati non sperimentali
I dati sperimentali provengono da esperimenti disegnati per valutare un trattamento o un’azione di politica economica oppure per valutare un effetto causale. Ad esempio, lo stato del
Tennessee ha finanziato un esperimento controllato casualizzato su ampia scala che esamina la dimensione delle classi negli anni Ottanta. In quell’esperimento, che esamineremo nel
9
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 10 — #40
i
i
1.3. Dati: fonti e tipi
capitolo 11, migliaia di studenti sono stati assegnati casualmente per molti anni a classi di
dimensioni diverse e sono stati sottoposti a test standardizzati annuali.
L’esperimento sulla dimensione delle classi del Tennessee è costato milioni di dollari e
ha richiesto la cooperazione continua di molti amministratori, genitori e insegnanti per molti
anni. Poiché gli esperimenti nel mondo reale con soggetti umani sono difficili da gestire
e controllare, essi presentano vari problemi rispetto agli esperimenti controllati casualizzati
ideali. Inoltre, in alcune circostanze gli esperimenti non sono solo costosi e difficili da gestire
ma anche contrari all’etica (sarebbe etico offrire ad adolescenti scelti casualmente sigarette
poco costose per vedere quante ne acquisteranno?). A causa di questi problemi finanziari,
pratici ed etici, gli esperimenti sono rari in economia. Invece, molti dati economici sono
ottenuti osservando il comportamento nel mondo reale.
I dati ottenuti osservando il comportamento reale al di fuori di un contesto sperimentale sono detti dati non sperimentali. I dati non sperimentali sono raccolti tramite indagini
campionarie, come un’indagine telefonica sui consumatori e registri amministrativi, come un
registo storico sulla richiesta di mutui compilato dagli istituti di credito.
I dati non sperimentali pongono sfide importanti ai tentativi econometrici di stimare gli
effetti causali e gli strumenti dell’econometria cercano di affrontare queste sfide. Nel mondo
reale, i livelli di “trattamento” (l’ammontare di fertilizzante nell’esempio del pomodoro, il
rapporto studenti-insegnanti nell’esempio della dimensione delle classi) non sono assegnati
casualmente, perciò è difficile scindere l’effetto del “trattamento” da altri fattori rilevanti. La
maggior parte dell’econometria, e la maggior parte di questo libro, è dedicata a metodi per
rispondere alle sfide che si incontrano quando i dati del mondo reale vengono utilizzati per
stimare effetti causali.
Sia i dati sperimentali sia quelli non sperimentali si possono dividere in tre tipi principali:
dati sezionali, serie temporali di dati e dati panel. In questo libro si incontreranno tutti e tre i
tipi.
Dati sezionali
I dati su entità diverse (lavoratori, consumatori, imprese, unità governative e cosı̀ via) osservati per un solo periodo sono detti dati sezionali. Ad esempio, i dati sui punteggi del test nei
distretti scolastici della California sono dati sezionali. Tali dati riguardano 420 entità (distretti scolastici) per un solo periodo (1998). In generale, il numero di entità sulle quali si hanno
osservazioni si indica con n, cosicché per esempio n = 420 per i dati della California.
I dati sul punteggio del test della California contengono le misure di molte variabili diverse per ciascun distretto. Alcuni di questi dati sono tabulati nella tabella 1.1. Ogni riga elenca
i dati per un distretto diverso. Ad esempio, il punteggio medio dei test per il primo distretto
(“distretto 1”) è 690, 8; questo è la media dei punteggi del test in matematica e scienze per
tutti gli studenti del quinto livello di istruzione in quel distretto nel 1998 ottenuti in un test
10
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 11 — #41
i
i
1.3. Dati: fonti e tipi
Tabella 1.1: dati sui risultati degli esami e altre variabili per i distretti scolastici della
California nel 1998
Numero di
osservazioni
(distretto)
Media dei punteggi
del test nel distretto
(quinto livello)
Rapporto
studenti-insegnanti
Spesa
per studente ($)
% di studenti
non di madrelingua
690,8
661,2
643,6
647,7
640,8
...
645,0
672,2
655,8
17,89
21,52
18,70
17,36
18,67
...
21,89
20,2
19,04
$6.385
5.099
5.502
7.102
5.236
...
4.403
4.776
5.993
0,0%
4,6
30,0
0,0
13,9
...
24,3
3,0
5,0
1
2
3
4
5
...
418
419
420
Nota: i dati sui punteggi dei test in California sono descritti nell’appendice 4.1.
standardizzato (lo Stanford Achievement Test). Il rapporto medio studenti-insegnanti in quel
distretto è 17, 89, cioè il numero di studenti nel distretto 1, diviso per il numero di insegnanti
nel distretto 1, è 17, 89. La spesa media per studente nel distretto 1 è 6.385$. La percentuale di studenti in quel distretto non di madrelingua inglese (ovvero la percentuale di studenti
per i quali l’inglese è una seconda lingua e che non hanno ancora una buona conoscenza
dell’inglese) è 0%.
Le righe rimanenti presentano i dati per altri distretti. L’ordine delle righe è arbitrario e il
numero attribuito al distretto, che è detto numero dell’osservazione, è un numero assegnato
arbitrariamente al fine di organizzare i dati. Come si può vedere nella tabella, tutte le variabili
elencate variano considerevolmente.
Tramite i dati sezionali, possiamo apprendere circa le relazioni tra le variabili studiando
le differenze tra le persone, le imprese e altre entità economiche durante un singolo periodo
temporali.
Serie temporali
Le serie temporali sono dati per una singola entità (persona, impresa, paese) raccolti in
momenti diversi. I nostri dati sui tassi d’inflazione e di disoccupazione negli USA sono un
esempio di serie temporali. I dati contengono osservazioni su due variabili (i tassi d’inflazione
e di disoccupazione) per una singola entità (gli Stati Uniti) in 167 periodi. Ciascun periodo
considerato è un trimestre (il primo trimestre è composto da gennaio, febbraio e marzo; il
11
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 12 — #42
i
i
1.3. Dati: fonti e tipi
Tabella 1.2: dati sui tassi d’inflazione, come misurato dall’indice dei prezzi al consumo
(CPI), e di disoccupazione negli Stati Uniti: dati trimestrali, 1959-2000.
Numero di
osservazioni
Data
(anno:trimestre)
1
2
3
4
5
...
165
166
167
1959:II
1959:III
1959:IV
1960:I
1960:II
...
2000:II
2000:III
2000:IV
Tasso d’inflazione CPI
(% annuale)
0,70%
2,1
2,4
0,4
2,4
...
3
3,5
2,8
Tasso di
disoccupazione
5,10%
5,3
5,6
5,1
5,2
...
4
4
4
Nota: i dati sull’inflazione e sulla disoccupazione negli U.S.A. sono descritti nell’appendice 12.1.
secondo da aprile, maggio e giugno; e cosı̀ via). Le osservazioni cominciano nel secondo
trimestre del 1959, che è indicato con 1959:II, e finiscono nel quarto trimestre del 2000
(2000:IV). Il numero di osservazioni (cioè di periodi considerati) in una serie temporale è
indicato con T . Poiché ci sono 167 trimestri dal 1959:II al 2000:IV, tali dati consistono di
T = 167 osservazioni.
Alcune osservazioni sono elencate nella tabella 1.2. I dati di ciascuna riga corrispondono
a periodi diversi (anni o timestri). Nel secondo trimestre del 1959, ad esempio, il tasso d’inflazione dei prezzi è stato dello 0, 7% annuo. In altre parole, se i prezzi avessero continuato
ad aumentare per un anno intero al tasso del secondo trimestre del 1959, il livello generale dei
prezzi (cosı̀ come misurato dall’indice dei prezzi al consumo o CPI) sarebbe aumentato dello
0, 7%. Nel secondo trimestre del 1959, il tasso di disoccupazione è stato del 5, 1%, cioè il
5, 1% della forza lavoro ha riportato di non aver trovato un lavoro pur avendolo cercato. Nel
terzo trimestre del 1959, il tasso d’inflazione è stato del 2, 1% e il tasso di disoccupazione del
5, 3%.
Seguendo una singola entità nel tempo, i dati temporali possono essere usati per studiare
l’evoluzione di variabili nel tempo e per predire i valori futuri di tali variabili.
Dati panel
I dati panel, detti anche dati longitudinali, sono dati che riguardano più entità ognuna delle
quali è osservata in due o più periodi. I nostri dati su consumo di sigarette e prezzi sono un
esempio di dati panel (alcune variabili e osservazioni relative sono riportate nella tabella 1.3).
12
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 13 — #43
i
i
Sommario
Concetto chiave 1.1: dati sezionali, serie temporali e dati panel
• I dati sezionali consistono di più entità osservate in un solo periodo.
• Le serie temporali consistono di una singola entità osservata in più periodi.
• I dati panel (noti anche come dati longitudinali) consistono di più entità ciascuna
delle quali è osservata in due o più periodi.
Il numero di entità nel panel è indicato con n e il numero di periodi con T . Nei dati sulle
sigarette, abbiamo osservazioni su n = 48 stati continentali USA (entità) per T = 11 anni
(periodi) dal 1985 al 1995. Si ha quindi un totale di n × T = 48 × 11 = 528 osservazioni.
Alcune osservazioni tratte dai dati sul consumo di sigarette sono elencati nella tabella 1.3.
Il primo blocco di 48 osservazioni elenca i dati per ogni stato nel 1985, organizzati alfabeticamente dall’Alabama al Wyoming. Il blocco successivo di 48 osservazioni elenca i dati dal
1986 e cosı̀ via, fino al 1995. Ad esempio, nel 1985, la vendita di sigarette in Arkansas è stata
di 128, 5 pacchetti pro capite (il numero totale di pacchetti di sigarette venduti in Arkansas
nel 1985 diviso per la popolazione totale in Arkansas è uguale a 128, 5). Il prezzo medio di
un pacchetto di sigarette in Arkansas nel 1985, al lordo delle imposte, è stato 1, 015$, dei
quali 37 centesimi sono stati destinati a imposte federali, statali e locali.
I dati panel possono essere utilizzati per studiare relazioni economiche sfruttando la diversa esperienza delle molte entità diverse presenti nei dati e la diversa evoluzione nel tempo
delle variabili per ogni entità.
Le definizioni di dati sezionali, serie temporali e dati panel sono riassunte nel concetto
chiave 1.1.
Sommario
1. Molte decisioni d’affari ed economiche richiedono stime quantitative di come la variazione di una variabile influenzi un’altra variabile.
2. Concettualmente, un modo per stimare un effetto causale è in un esperimento controllato casualizzato, ma effettuare esperimenti del genere nelle applicazioni economiche
è generalmente contrario all’etica, impraticabile o troppo costoso.
3. L’econometria fornisce strumenti per stimare effetti causali utilizzando dati non sperimentali, ovvero dati derivati dal mondo reale, come esperimenti imperfetti.
13
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 14 — #44
i
i
Sommario
Tabella 1.3: dati su vendita di sigarette, prezzi e imposte in alcuni stati degli USA, 19851995
Numero di
osservazioni
Stato
Anno
Vendita di sigarette
(pacchetti pro capite)
Prezzo medio
per pacchetto
Imposte totali
(imposte sulle sigarette)
1
2
3
...
47
48
49
...
96
97
...
528
Alabama
Arkansas
Arizona
...
West Virginia
Wyoming
Alabama
...
Wyoming
Alabama
...
Wyoming
1985
1985
1985
...
1985
1985
1986
...
1986
1987
...
1995
116,5
128,5
104,5
...
112,8
129,4
117,2
...
127,8
115,8
...
112,2
$1,022
1,015
1,086
...
1,089
0,935
1,08
...
1,007
1,135
...
1,585
$0,333
0,37
0,362
...
0,382
0,24
0,334
...
0,24
0,335
...
0,36
Nota: i dati sul consumo di sigarette sono descritti nell’appendice 10.1.
4. I dati sezionali sono raccolti osservando più entità in un singolo momento; le serie
temporali osservando una singola entità molte volte; i dati panel osservando più entità,
ognuna delle quali è osservata molte volte.
Termini chiave
esperimento controllato casualizzato (8)
gruppo di controllo (8)
gruppo di trattamento (8)
effetto causale (8)
dati sperimentali (9)
dati non sperimentali (10)
dati sezionali (10)
numero dell’osservazione (11)
serie temporale (11)
dati panel (12)
dati longitudinali (12)
Verifica dei concetti
1.1 Si disegni un ipotetico esperimento controllato casualizzato ideale per studiare l’effetto delle ore trascorse studiando sulle prestazioni negli esami di microeconomia. Si
suggeriscano impedimenti alla implementazione dell’esperimento nella pratica.
1.2 Si disegni un ipotetico esperimento controllato casualizzato ideale per studiare l’ef14
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 15 — #45
i
i
Sommario
fetto dell’uso di cinture si sicurezza sui morti causati da incidenti stradali mortali. Si
suggeriscano impedimenti alla implementazione dell’esperimento nella pratica.
1.3 Si immagini di dover studiare la relazione tra ore dedicate alla formazione professionale (misurate in ore per lavoratore alla settimana) in un’impresa manifatturiera e la
produttività dei suoi lavoratori (prodotto orario per lavoratore). Si descriva:
a. un esperimento controllato casualizzato ideale che misuri questo effetto causale;
b. un insieme di dati sezionali non sperimentali tramite i quali studiare questo effetto;
c. una serie temporale di dati non sperimentali tramite la quale studiare questo
effetto;
c. un insieme di dati panel tramite i quali studiare questo effetto.
15
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 16 — #46
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 17 — #47
i
i
Capitolo 2
Richiami di probabilità
Questo capitolo passa in rassegna le idee centrali della teoria della probabilità necessarie per
comprendere l’analisi di regressione e l’econometria. Si ipotizza che il lettore abbia già affrontato un corso introduttivo di probabilità e statistica. Se la sua conoscenza di probabilità è
datata, può rinfrescarla leggendo questo capitolo. Se, invece, possiede una discreta confidenza con l’argomento, gli è consigliata una rapida lettura del capitolo, dei termini e dei concetti
riportati alla fine per sincerarsi dell’effettiva familiarità con le idee e con la notazione.
La maggior parte degli aspetti del mondo che ci circonda possiede un elemento di casualità. La teoria della probabilità fornisce gli strumenti matematici per quantificare e descrivere
questa casualità. La sezione 2.1 riesamina le distribuzioni di probabilità di una singola variabile casuale e la sezione 2.2 l’aspettativa matematica, la media e la varianza di una singola
variabile casuale. La maggior parte dei problemi di rilievo in economia coinvolgono più di
una variabile e la sezione 3.3 introduce gli elementi di base della teoria della probabilità per
due variabili casuali. La sezione 2.4 discute tre speciali distribuzioni di probabilità, che giocano un ruolo cruciale nella statistica e nell’econometria: le distribuzioni normale, chi-quadrato
e Fm,∞ .
Le due sezioni conclusive di questo capitolo si concentrano su una fonte speciale di casualità che ha una rilevanza centrale in econometria: la casualità derivante dall’estrarre in
maniera casuale un campione di dati da una popolazione più ampia. Ad esempio, supponiamo di intervistare dieci neolaureati selezionati a caso, di registrare (o “osservare”) le loro
retribuzioni e di calcolare la retribuzione media utilizzando questi dieci dati (o “osservazioni”). Poiché il campione è stato scelto a caso, si sarebbero potuti scegliere dieci laureati
diversi soltanto per effetto del caso. Se cosı̀, si sarebbero osservati dieci valori diversi per
le retribuzioni e si sarebbe ottenuto un valore diverso per la media campionaria. Siccome le
retribuzioni medie variano da un campione scelto casualmente a un altro, la media campionaria è essa stessa una variabile casuale. Perciò, la media campionaria ha una distribuzione
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 18 — #48
i
i
2.1. Variabili casuali e distribuzioni di probabilità
di probabilità, detta distribuzione campionaria, poiché descrive i diversi valori che la media
campionaria avrebbe potuto assumere se fosse stato estratto un altro campione.
La sezione 2.5 discute il campionamento casuale e la distribuzione campionaria della
media campionaria. Questa distribuzione campionaria è, in genere, complessa. Quando però
la dimensione del campione è sufficientemente elevata la distribuzione campionaria della
media campionaria è approssimativamente normale. Questo risultato, noto come teorema
limite centrale, è discusso nella sezione 2.6.
2.1 Variabili casuali e distribuzioni di probabilità
Probabilità, spazio campionario e variabili casuali
Probabilità e risultati. Il genere della prima persona che si incontrerà, il voto in un esame
e il numero di volte che il computer si bloccherà mentre si scrive una tesina hanno tutti una
componente di aleatorietà o casualità. In ognuno di questi esempi, c’è qualcosa che ancora
non è noto e che sarà più chiaro avanti nel libro.
Gli esiti potenziali, mutualmente esclusivi, di un processo casuale sono chiamati risultati. Ad esempio, il computer potrebbe non bloccarsi mai, potrebbe bloccarsi una sola volta, potrebbe bloccarsi due volte e cosı̀ via. Soltanto uno di questi risultati si verificherà
(i risultati sono mutualmente esclusivi) e tali risultati non debbono necessariamente essere
equiprobabili.
La probabilità di un risultato è la proporzione di volte in cui quel risultato si verifica nel
lungo periodo. Se la probabilità che il computer non si blocchi mentre si scrive una tesina è
80%, ciò significa che, scrivendo molti articoli, l’80% di questi verrà completato senza alcuna
interruzione.
Spazio campionario ed eventi. L’insieme di tutti i risultati possibili è detto spazio campionario. Un evento è un sottoinsieme dello spazio campionario, perciò, un evento è un insieme
di uno o più risultati. L’evento “il computer non si bloccherà più di una volta” è l’insieme
composto da due risultati: “nessun blocco” e “un solo blocco”.
Variabili casuali. Una variabile casuale è un indicatore numerico sintetico di un risultato
casuale. Il numero di volte in cui un computer si blocca mentre si sta scrivendo una tesina è
casuale e assume un valore numerico; è, perciò, una variabile casuale.
Alcune variabili casuali sono discrete e altre sono continue. Come suggerito dal nome,
una variabile casuale discreta assume solo un insieme discreto di valori, come 0, 1, 2, . . .,
mentre una variabile casuale continua può assumere un numero infinito di valori.
18
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 19 — #49
i
i
2.1. Variabili casuali e distribuzioni di probabilità
Tabella 2.1: probabilità che il computer si blocchi M volte
Distribuzione di probabilità
Distribuzione di probabilità cumulata
0
1
0,8
0,8
0,1
0,9
Risultato (numero di blocchi)
2
3
0,06
0,96
0,03
0,99
4
0,01
1
Distribuzione di probabilità di una variabile casuale discreta
Distribuzione di probabilità. La distribuzione di probabilità di una variabile casuale discreta è l’elenco di tutti i possibili valori della variabile e delle probabilità con cui ciascuno
di essi si verifica. Queste probabilità sommano a uno.
Per esempio, sia M il numero di volte che il computer si blocca mentre si sta scrivendo
una tesina. La distribuzione di probabilità della variabile casuale M è l’elenco delle probabilità di ogni risultato possibile: la probabilità che M = 0, indicata con Pr(M = 0), è la
probabilità che il computer non si blocchi mai; Pr(M = 1) è la probabilità di un singolo
blocco; e cosı̀ via. Un esempio di distribuzione di probabilità per M è dato dalla seconda
riga della tabella 2.1; si assume qui che, se il computer si bloccasse quattro volte, verrebbe
messo via e la tesina sarebbe scritta a mano. Secondo questa distribuzione, la probabilità di
non avere alcun blocco è 80%; la probabilità di un solo blocco è 10%; la probabilità di due,
tre o quattro blocchi è, rispettivamente, 6%, 3% e 1%. La somma di tali probabilità è 100%.
Questa distribuzione di probabilità è rappresentata nella figura 2.1.
Probabilità di eventi. La probabilità di un evento può essere calcolata dalla distribuzione
di probabilità. Per esempio, la probabilità dell’evento che si abbiano uno o due blocchi è la
somma delle probabilità dei risultati che compongono tale evento. In altri termini, Pr(M =
1 o M = 2) = Pr(M = 1) + Pr(M = 2) = 0, 10 + 0, 06 = 0, 16, ovvero 16%.
Funzione di ripartizione. La distribuzione di probabilità cumulata è la probabilità che
una variabile casuale sia minore o uguale a un particolare valore. L’ultima riga della tabella
2.1 riporta la funzione di ripartizione della variabile casuale M . Ad esempio, la probabilità
che ci sia al massimo un blocco, Pr(M ≤ 1), è pari al 90%, ed è la somma della probabilità
di nessun blocco (80%) e di un solo blocco (10%).
La distribuzione di probabilità cumulata di una variabile casuale discreta è indicata anche come funzione di ripartizione o c.d.f. (acronimo dall’inglese cumulative distribution
function).
19
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 20 — #50
i
i
2.1. Variabili casuali e distribuzioni di probabilità
Figura 2.1: distribuzione di probabilità del numero di rotture del computer
Probabilità
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0
1
2
3
4
Numero di rotture
L’altezza di ciascuna barra è la probabilità che il computer si rompa il numero di volte indicato. L’altezza della
prima barra è 0, 80, perciò la probabilità di 0 rotture del computer è 80%. L’altezza della seconda barra è 0, 1,
perciò la probabilità di 1 rottura è 10% e cosı̀ via per le altre barre.
Distribuzione di Bernoulli. Un caso particolare importante di variabile casuale discreta
è quando la variabile casuale è binaria, cioè quando i risultati possibili sono 0 o 1. Una
variabile casuale binaria è detta variabile casuale di Bernoulli (in onore del matematico e
scienziato svizzero seicentesco Jacob Bernoulli) e la sua distribuzione di probabilità è detta
distribuzione di Bernoulli.
Per esempio, sia G il genere della prima persona che si incontra, dove G = 0 indica che
la persona è un maschio e G = 1 indica che è una femmina. I risultati possibili per G e le
loro probabilità sono
(
1 con probabilità p
(2.1)
G=
0 con probabilità 1 − p,
dove p è la probabilità che la prima persona che si incontra sia una donna. La distribuzione
di probabilità (2.1) è una distribuzione di Bernoulli.
20
i
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0001
Fig. 02.01
1st Proof
i
2nd Proof
3rd Proof
i
Final
i
i
i
“generale” — 2005/7/10 — 22:25 — page 21 — #51
i
i
2.2. Valore atteso, media e varianza
Distribuzione di probabilità di una variabile casuale continua
Funzione di ripartizione. La funzione di ripartizione di una variabile casuale continua è definita esattamente come nel caso di una variabile casuale discreta. La funzione di ripartizione
di una variabile casuale continua è, perciò, la probabilità che la variabile casuale sia minore
o uguale a un certo valore.
Per esempio, si consideri uno studente che guida da casa a scuola. Il tempo impiegato
dallo studente può assumere un numero infinito di valori e, poiché dipende da fattori casuali
come le condizioni meteorologiche e il traffico, è naturale trattarlo come una variabile casuale continua. La figura 2.2a descrive una funzione di ripartizione ipotetica del tempo di
percorrenza. Ad esempio, la probabilità che il viaggio duri meno di 15 minuti è 20% e la
probabilità che duri meno di 20 minuti è 78%.
Funzione di densità di probabilità. Poiché una variabile casuale continua può assumere
un numero infinito di valori, la distribuzione di probabilità usata per le variabili discrete, che
elenca la probabilità di ogni valore che la variabile casuale può assumere, non è adatta per le
variabili continue. In questo caso, la probabilità è invece rappresentata tramite la funzione
di densità di probabilità. L’area sottostante la funzione di densità di probabilità tra due
punti qualsiasi rappresenta la probabilità che la variabile casuale cada tra quei due punti. Una
funzione di densità di probabilità è anche chiamata funzione di densit à o p.d.f. (acronimo
dall’inglese probability density function) o semplicemente densità.
La figura 2.2b mostra la funzione di densità di probabilità del tempo di percorrenza corrispondente alla funzione di ripartizione della figura 2.2a. La probabilità che il tempo di
percorrenza sia compreso tra 15 e 20 minuti è data dall’area sottostante la p.d.f. tra 15 e 20
minuti, che è pari a 0, 58, ovvero a 58%. Equivalentemente, questa probabilità corrisponde,
sulla funzione di ripartizione della figura 2.2a, alla differenza tra la probabilità che il tempo
impiegato sia minore di 20 minuti (78%) e la probabilità che sia minore di 15 minuti (20%).
In altri termini, la funzione di densità di probabilità e la funzione di ripartizione contengono
le stesse informazioni in formato diverso.
2.2 Valore atteso, media e varianza
Il valore atteso di una variabile casuale
Valore atteso. Il valore atteso di una variabile casuale Y , indicato con E(Y ), è il valore
medio della variabile casuale calcolato sulla base di un numero elevato di prove ripetute.
Il valore atteso di una variabile casuale discreta è calcolato come una media ponderata dei
possibili risultati di quella variabile casuale, con pesi pari alle probabilità di tali risultati. Il
valore atteso di Y è anche detto aspettativa o media di Y ed è indicato con µ Y .
21
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 22 — #52
i
i
2.2. Valore atteso, media e varianza
Figura 2.2: funzione di ripartizione e funzione di densità di probabilità del tempo di
pendolarismo
Probabilità
Pr (tempo di pendolarismo ≤ 20) = 0,78
1,0
0,8
0,6
Pr (tempo di pendolarismo ≤ 15) = 0,20
0,4
0,2
0,0
10
20
25
30
35
40
Tempo di pendolarismo (in minuti)
(a) Funzione di ripartizione del tempo di pendolarismo
15
Densità di probabilità
0,15
Pr (tempo di pendolarismo ≤15) = 0,20
0,12
Pr (15 < tempo di pendolarismo ≤ 20) = 0,58
0,09
0,06
Pr (tempo di pendolarismo >20) = 0,22
0,03
0,58
0,20
0,00
10
15
0,22
20
25
30
35
40
Tempo di pendolarismo (in minuti)
(b) Funzione di densità di probabilità del tempo di pendolarismo
La figura 2.2a mostra la funzione di ripartizione del tempo di pendolarismo. La probabilità che il tempo di
pendolarismo sia minore di 15 minuti è 0, 20 (o 20%) e la probabilità che sia minore di 20 minuti è 0, 78
(78%). La figura 2.2b mostra la funzione di densità di probabilità del tempo di pendolarismo. Le probabilità
sono indicate dalle aree sotto la funzione di densità. La probabilità che il tempo di pendolarismo sia tra 15 e 20
minuti è 0, 58 (58%) ed è dato dall’area sottostante la curva tra 15 e 20 minuti.
22
i
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0002
Fig. 02.02
1st Proof
i
2nd Proof
i
3rd Proof
Final
i
i
i
“generale” — 2005/7/10 — 22:25 — page 23 — #53
i
i
2.2. Valore atteso, media e varianza
Ad esempio, supponiamo di prestare a un amico 100$ a un tasso d’interesse del 10%. Se
il prestito venisse restituito, otterremmo 110$ (il capitale di 100$ più l’interesse di 10$), ma
c’è un rischio dell’1% che l’amico sia insolvente e non ci renda nulla. Cosı̀, l’ammontare
rimborsato è una variabile casuale che è uguale a 110$ con probabilità 0, 99 e a 0$ con
probabilità 0, 01. Considerando molti prestiti dello stesso tipo, il 99% delle volte otterremo
110$, ma l’1% delle volte non ci verrà restituito nulla e quindi in media avremo 110% ×
0, 99 + 0$ × 0, 01 = 108, 90$. Cosı̀, il valore atteso del rimborso (o “rimborso medio”) è
108, 90$.
Come secondo esempio, si consideri il numero di volte in cui il computer si blocca, M e
la sua distribuzione di probabilità mostrata nella tavola 2.1. Il valore atteso di M è il numero
medio di blocchi calcolato sulla base di molte tesine, ponderato con la frequenza con la quale
avviene un blocco di una data entità. Di conseguenza,
E(M ) = 0 × 0, 80 + 1 × 0, 10 + 2 × 0, 06 + 3 × 0, 03 + 4 × 0, 01 = 0, 35.
(2.2)
Ciò significa che il numero atteso di volte in cui il computer si blocca durante la compilazione
di una tesina è 0, 35. Naturalmente, il numero effettivo di blocchi è sempre un numero intero;
non ha senso affermare che il computer si è bloccato 0, 35 volte scrivendo una particolare
tesina! Piuttosto, il calcolo nella (2.2) indica che il numero medio di blocchi nel caso di
molte tesine del genere è 0, 35.
Il concetto chiave 2.1 presenta la formula per calcolare il valore atteso di una variabile
casuale discreta Y che può assumere k valori distinti.
Valore atteso di una variabile casuale di Bernoulli. Un caso particolare della formula
generale presentata nel concetto chiave 2.1 è la media di una variabile casuale di Bernoulli.
Sia G una variabile casuale di Bernoulli con la distribuzione di probabilità riportata nella
(2.1). Il valore atteso di G è allora
E(G) = 1 × p + 0 × (1 − p) = p.
(2.3)
Il valore atteso di una variabile casuale di Bernoulli è perciò p, la probabilità che questa
assuma il valore “1”.
Valore atteso di una variabile casuale continua. Il valore atteso di una variabile casuale
continua è anch’esso la media dei valori che una variabile casuale può assumere, ponderati
con le rispettive probabilità. Siccome una variabile casuale continua può assumere un numero infinito di valori, la formalizzazione matematica della sua aspettativa richiede l’uso del
calcolo integrale e la sua definizione precisa è rimandata all’appendice 15.1.
23
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 24 — #54
i
i
2.2. Valore atteso, media e varianza
Concetto chiave 2.1: valore atteso e media
Supponiamo che la variabile casuale Y possa assumere k valori, y 1 , . . . , yk , dove y1 indica
il primo valore, y2 indica il secondo valore ecc., e che la probabilità che Y assuma il valore
y1 sia p1 , la probabilità che Y assuma il valore y2 sia p2 e cosı̀ via. Il valore atteso di Y ,
indicato con E(Y ), è
E(Y ) = y1 p1 + y2 p2 + · · · + yk pk =
k
X
(2.4)
yi pi ,
i=1
Pk
dove la notazione “ i=1 yi pi ” indica “la somma di yi pi per i che va da 1 a k”. Il valore
atteso di Y è anche detto media di Y o aspettativa di Y ed è indicato con µ Y .
Varianza, deviazione standard e momenti
La varianza e la deviazione standard misurano la dispersione di una distribuzione di probabilità. La varianza di una variabile casuale Y , indicata con var(Y ), è il valore atteso del
quadrato della deviazione di Y dalla sua media, cioè var(Y ) = E[(Y − µ Y )2 ].
Siccome la varianza richiede il quadrato di Y , l’unità di misura della varianza è l’unità
di misura del quadrato di Y , il che rende la varianza difficile da interpretare. È perciò uso
comune misurare la dispersione con la deviazione standard, che è la radice quadrata della
varianza ed è indicata da σY . La deviazione standard ha la stessa unità di misura di Y . Queste
definizioni sono riassunte nel concetto chiave 2.2.
Ad esempio, la varianza del numero M di blocchi del computer è la media, ponderata con
le probabilità, del quadrato della differenza tra M e la sua media, 0, 35:
var(M ) = (0 − 0, 35)2 × 0, 80 + (1 − 0, 35)2 × 0, 10 + (2 − 0, 35)2 × 0, 06
+(3 − 0, 35)2 × 0, 03 + (4 − 0, 35)2 × 0, 01 = 0, 6475.
La deviazione standard di M è la radice quadrata della varianza e quindi
√
(2.5)
0, 6475 ∼
= 0, 80.
Varianza di una variabile casuale di Bernoulli. La media della variabile casuale di Bernoulli G avente la distribuzione di probabilità (2.1) è µG = p (formula (2.3)) e quindi la sua
varianza è
24
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 25 — #55
i
i
2.2. Valore atteso, media e varianza
Concetto chiave 2.2: varianza e deviazione standard
La varianza della variabile casuale discreta Y , indicata da σY2 , è
σY2 = var(Y ) = E[(Y − µY )2 ] =
k
X
i=1
(yi − µY )2 pi .
(2.6)
La deviazione standard di Y è σY , la radice quadrata della varianza. La deviazione
standard ha la stessa unità di misura di Y .
2
var(G) = σG
= (0 − p)2 × (1 − p) + (1 − p)2 × p = p(1 − p).
Ne segue che la deviazione standard di una variabile casuale di Bernoulli è σ G =
(2.7)
p
p(1 − p).
Momenti. La media di Y , E(Y ), è anche detta momento primo di Y e il valore atteso del
quadrato di Y , E(Y )2 , è anche detto momento secondo di Y . In generale, il valore atteso
di Y r è detto momento r-esimo della variabile casuale Y , il momento r-esimo di Y è cioè
E(Y )r .
Proprio come la media è una misura del centro di una distribuzione e la deviazione standard una misura della sua dispersione, i momenti con r > 2 misurano altri aspetti della forma
di una distribuzione. In questo testo, i momenti di ordine superiore delle distribuzioni (momenti con r > 2) sono usati principalmente nelle ipotesi matematiche e nelle derivazioni
sottostanti le procedure statistiche ed econometriche.
Media e varianza di una funzione lineare di una variabile casuale
Questa sezione discute il caso di variabili casuali (diciamo Y e X) legate da una relazione
lineare. Per esempio, si consideri uno schema di imposizione fiscale sui redditi in base al
quale un lavoratore è prima tassato in misura pari al 20% del proprio reddito e poi gli viene
assegnato un trasferimento (esentasse) di 2.000$. In base a questo schema di prelievo fiscale,
il reddito netto Y è legato al reddito lordo X attrarverso l’equazione
Y = 2.000 + 0, 8X.
(2.8)
Per meglio dire, il reddito netto Y è l’80% del reddito lordo X, più 2.000$.
Supponiamo che il reddito lordo di un individuo nel prossimo anno sia una variabile
2
. Poiché il reddito lordo è aleatorio, lo è anche quello
casuale con media µX e varianza σX
netto. Quali sono la media e la deviazione standard del reddito netto, dato questo schema
25
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 26 — #56
i
i
2.3. Variabili casuali doppie
di prelievo? Dopo le imposte, il reddito è l’80% di quello precedente più 2.000$. Perciò, il
valore atteso del reddito netto è
E(Y ) = µY = 2.000 + 0, 8µX .
(2.9)
La varianza del reddito netto è il valore atteso di (Y − µY )2 . Poiché Y = 2.000 + 0, 8X,
Y − µY = 2.000 + 0, 8X − (2.000 + 0, 8µX ) = 0, 8(X − µX ). Perciò, E[(Y − µY )2 ] =
E [0, 8(X − µX )]2 = 0, 64E[(X − µX )2 ]. Ne segue che var(Y ) = 0, 64 var(X) e la
deviazione standard di Y , cioè la radice quadrata della sua varianza, è
σY = 0, 8σX .
(2.10)
Perciò, la deviazione standard della distribuzione del reddito netto è l’80% della deviazione
standard della distribuzione del reddito lordo.
Questa analisi può essere generalizzata al caso in cui Y dipende da X, con un’intercetta
a (invece di 2.000$) e una pendenza b (invece di 0, 8), cosicché
Y = a + bX.
(2.11)
La media e la varianza di Y diventano allora
µY = a + bµX e
(2.12)
2
σY2 = b2 σX
,
(2.13)
e la deviazione standard di Y è σY = bσX . Le espressioni (2.9) e (2.10) sono applicazioni
delle formule più generali (2.12) e (2.13), con a = 2.000 e b = 0, 8.
2.3 Variabili casuali doppie
Gran parte delle domande interessanti in economia coinvolge due o più variabili. I laureati
hanno un lavoro con probabilità maggiore dei non laureati? Come si differenzia la distribuzione dei redditi delle donne rispetto a quella degli uomini? Tali domande riguardano la
distribuzione di due variabili causali, considerate congiuntamente (educazione e occupazione
nel primo esempio, reddito e genere nel secondo). Per rispondere a tali domande, è necessario
comprendere i concetti di distribuzione di probabilità congiunta, marginale e condizionata.
Distribuzioni congiunte e marginali
Distribuzione congiunta. La distribuzione di probabilità congiunta di due variabili casuali discrete, diciamo X e Y , fornisce la probabilità che tali variabili assumano simultaneamente certi valori, diciamo x e y. La somma delle probabilità di tutte le possibili combinazioni (x, y) è pari a uno. La distribuzione di probabilità congiunta può essere espressa dalla
funzione Pr(X = x, Y = y).
26
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 27 — #57
i
i
2.3. Variabili casuali doppie
Tabella 2.2: distribuzione congiunta di condizioni meteorologiche e tempo di percorrenza
Percorrenza lunga (Y=0)
Percorrenza breve (Y=1)
Totale
Con pioggia (X=0)
Senza pioggia (X=1)
Totale
0,15
0,15
0,30
0,07
0,63
0,70
0,22
0,78
1,00
Ad esempio, le condizioni meteorologiche –il fatto che stia o meno piovendo– influenzano il tempo di percorrenza dello studente pendolare della sezione 2.1. Sia Y una variabile
casuale binaria che è uguale a uno se il tempo di percorrenza è breve (meno di 20 minuti) e a
zero altrimenti, e sia X un’altra variabile casuale binaria che è uguale a zero se piove e a uno
altrimenti. Considerando insieme queste due variabili casuali binarie, si ottengono quattro
possibili risultati: piove e il tempo di percorrenza è lungo (X = 0, Y = 0); piove e il
tempo di percorrenza è breve (X = 0, Y = 1); non piove e il tempo di percorrenza è lungo
(X = 1, Y = 0); infine, non piove e il tempo di percorrenza è breve (X = 1, Y = 1). La
distribuzione di probabilità congiunta è la frequenza con la quale ciascuno di questi quattro
risultati si verifica considerando molti tragitti ripetuti.
Un esempio di distribuzione congiunta di queste due variabili è riportato nella tabella
2.2. Secondo questa, su molti tragitti, il 15% dei giorni è piovuto e il tempo di percorrenza
è stato lungo (X = 0, Y = 0), perciò la probabilità di un tragitto lungo e piovoso è 15%,
Pr(X = 0, Y = 0) = 0, 15. Inoltre, Pr(X = 0, Y = 1) = 0, 15, Pr(X = 1, Y = 0) = 0, 07
e Pr(X = 1, Y = 1) = 0, 63. Questi quattro risultati possibili sono mutualmente esclusivi e
costituiscono lo spazio campionario in cui la somma delle quattro probabilità è pari a uno.
Distribuzione di probabilità marginale. La distribuzione di probabilità marginale di una
variabile casuale Y è soltanto un altro nome per indicare la sua distribuzione di probabilità.
Questo termine è utilizzato per distinguere la distribuzione della sola Y (la distribuzione
marginale) dalla distribuzione congiunta di Y e un’altra variabile casuale.
La distribuzione marginale di Y può essere calcolata dalla distribuzione congiunta di
X e Y sommando le probabilità di tutti i possibili risultati per i quali Y assume un valore
specifico. Se X può assumere l valori diversi, x1 , . . . , xl , allora la probabilità marginale che
Y assuma il valore y è
Pr(Y = y) =
l
X
Pr(X = xi , Y = y).
(2.14)
i=1
Ad esempio, nella tabella 2.2, la probabilità di un tragitto lungo e con pioggia è 15%, la
27
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 28 — #58
i
i
2.3. Variabili casuali doppie
probabilità di un tragitto lungo e senza pioggia è 7%, quindi la probabilità di un tragitto lungo
(con pioggia o senza) è 22%. La distribuzione marginale del tempo di percorrenza è riportata
nella colonna finale della tabella 2.2. Similmente, la probabilità marginale che piova è 30%,
come indicato nell’ultima riga della tabella 2.2.
Distribuzioni condizionate
Distribuzione condizionata. La distribuzione di una variabile casuale Y condizionatamente
al fatto che un’altra variabile casuale X assuma uno specifico valore è detta distribuzione
condizionata di Y data X. La probabilità condizionata che Y assuma il valore y quando X
è uguale a x si indica con Pr(Y = y X = x).
Ad esempio, qual è la probabilità di un tempo di percorrenza lungo (Y = 0) se si sa che
sta piovendo (X = 0)? Dalla tabella 2.2, la probabilità congiunta di un tragitto breve e con
pioggia è 15% e la probabilità congiunta di un tragitto corto con pioggia è 15%; cosı̀, se sta
piovendo, un tragitto breve e uno lungo sono equiprobabili. Di conseguenza, la probabilità
di un tragitto lungo (Y = 0), condizionatamente al fatto che piova (X = 0), è 50%, ovvero
Pr(Y = 0 X = 0) = 0, 50. Allo stesso modo, la probabilità marginale che piova è 30%, che
equivale a dire che, se si ripete più volte il tragitto, piove il 30% delle volte. In questo 30%
dei tragitti, il 50% delle volte il viaggio è lungo (0, 15/0, 30).
In generale, la distribuzione condizionata di Y data X = x è
Pr(Y = y X = x) =
Pr(X = x, Y = y)
.
Pr(X = x)
(2.15)
Ad esempio, la probabilità condizionata di un tempo di percorrenza lungo, dato che piove, è
Pr(Y = 0 X = 0) = Pr(X = 0, Y = 0)/ Pr(X = 0) = 0, 15/0, 30 = 0, 50.
Come secondo esempio, consideriamo una variante di quello sul computer che si blocca. Supponiamo di utilizzare un computer della biblioteca per scrivere la tesina e che la
biblioteca ci assegni casualmente un computer tra quelli disponibili, metà dei quali sono
nuovi e metà vecchi. Siccome il computer viene assegnato casualmente, l’età del computer utilizzato, A(= 1 se il computer è nuovo , = 0 se è vecchio), è una variabile casuale.
Supponiamo che la distribuzione congiunta delle variabili casuali M e A sia quella nella parte A della tabella 2.3. La distribuzione condizionata dei blocchi del computer, data la sua età, è mostrata nella parte B della tabella. Ad esempio, la probabilità congiunta di M = 0 e A = 0 è 0, 35; siccome la metà dei computer è vecchia, la probabilità
condizionata che non ci siano blocchi, dato che si sta utilizzando un computer vecchio, è
Pr(M = 0 A = 0) = Pr(M = 0, A = 0)/ Pr(A = 0) = 0, 35/0, 50 = 0, 70, ovvero
70%. Di contro, la probabilità condizionata che non ci siano blocchi, data l’assegnazione di
un computer nuovo, è 90%. Secondo la distribuzione condizionata nella parte B della tabella
2.3, i computer più nuovi hanno una minore probabilità di bloccarsi rispetto a quelli vecchi;
ad esempio, la probabilità di tre blocchi è 5% con i vecchi computer, ma 1% con i nuovi.
28
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 29 — #59
i
i
2.3. Variabili casuali doppie
Tabella 2.3: distribuzioni congiunte e condizionate di blocchi del computer (M ) ed età
del computer (A)
A. Distribuzione congiunta
Computer vecchio
Computer nuovo
Totale
M=0
M=1
M=2
M=3
M=4
Totale
0,35
0,45
0,80
0,065
0,035
0,10
0,05
0,01
0,06
0,025
0,005
0,03
0,01
0,00
0,01
0,50
0,50
1,00
B. Distribuzione condizionata di M data A
Pr(M |A = 0)
Pr(M |A = 1)
M=0
M=1
M=2
M=3
M=4
Totale
0,70
0,90
0,13
0,07
0,10
0,02
0,05
0,01
0,02
0,00
1,00
1,00
Aspettativa condizionata. L’aspettativa condizionata di Y data X, detta anche media
condizionata di Y data X, è la media della distribuzione condizionata di Y data X. Cioè,
l’aspettativa condizionata è il valore atteso di Y , calcolato utilizzando la distribuzione condizionata di Y data X. Se Y assume i k valori y1 , . . . , yk , allora la media condizionata di Y
data X = x è
k
X
(2.16)
E(Y X = x) =
yi Pr(Y = yi X = x).
i=1
Per esempio, sulla base delle distribuzioni condizionate della tabella 2.3, il numero atteso
di blocchi del computer, dato che il computer è vecchio, è E(M A = 0) = 0 × 0, 70 + 1 ×
0, 13 + 2 × 0, 10 + 3 × 0, 05 + 4 × 0, 02 = 0, 56. Il numero atteso di blocchi del computer,
dato che il computer è nuovo, è E(M A = 1) = 0, 14, meno che per i computer vecchi.
L’aspettativa condizionata di Y dato che X = x è semplicemente il valore medio di Y
quando X = x. Nell’esempio della tabella 2.3, il numero medio di blocchi è 0, 56 per i
computer vecchi, e quindi l’aspettativa condizionata di Y dato che il computer è vecchio è
di 0, 56 blocchi. Similmente, tra i nuovi computer, il numero medio di blocchi è 0, 14, cioè
l’aspettativa condizionata di Y dato che il computer è nuovo è 0, 14.
29
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 30 — #60
i
i
2.3. Variabili casuali doppie
La legge delle aspettative iterate. La media di Y è la media ponderata delle aspettattive
condizionate di Y data X, con pesi dati dalla distribuzione di probabilità di X. Per esempio,
l’altezza media degli adulti è la media ponderata dell’altezza media degli uomini e dell’altezza media delle donne, con pesi dati dalla proporzione di uomini e donne. Matematicamente,
se X assume l valori, x1 , . . . , xl , allora
E(Y ) =
l
X
E(Y X = xi ) Pr(X = xi ).
(2.17)
i=1
La (2.17) si ricava dalle (2.16) e (2.15) (si veda l’esercizio 2.9).
Detto differentemente, l’aspettativa di Y è l’aspettativa dell’aspettativa condizionata di Y
data X, cioè,
E(Y ) = E[E(Y X)],
(2.18)
dove l’aspettativa in parentesi quadra sul lato destro si calcola utilizzando la distribuzione
condizionata di Y data X e l’aspettativa fuori parentesi si calcola utilizzando la distribuzione
marginale di X. L’espressione (2.18) è nota come legge delle aspettative iterate.
Per esempio, il numero medio di blocchi M è la media ponderata dell’aspettativa condizionata di M dato che il computer è vecchio e l’aspettativa condizionata di M dato che
è nuovo, quindi E(M ) = E(M A = 0) × Pr(A = 0) + E(M A = 1) × Pr(A = 1) =
0, 56 × 0, 50 + 0, 14 × 0, 50 = 0, 35. Questa è la media della distribuzione marginale di M ,
come calcolato nella (2.2).
La legge delle aspettative iterate implica che, se la media condizionata di Y data X è zero,
allora la media di Y è zero. Questa è una conseguenza diretta della (2.18): se E(Y X) = 0,
allora E(Y ) = E[E(Y X)] = E[0] = 0. In altre parole, se la media di Y data X è zero,
allora deve essere vero che è nulla la media di queste medie condizionate, ponderata con le
rispettive probabilità, ovvero che la media di Y è pari a zero.
Varianza condizionata. La varianza di Y condizionata a X è la varianza della distribuzione condizionata di Y data X. Matematicamente, la varianza condizionata di Y data X
è
k
X
var(Y X = x) =
[yi − E(Y X = x)]2 Pr(Y = yi X = x).
(2.19)
i=1
Per esempio, la varianza condizionata del numero di blocchi dato che il computer è
vecchio è var(M A = 0) = (0 − 0, 56)2 ×0, 70 + (1 − 0, 56)2 ×0, 13 + (2 − 0, 56)2
×0, 10 + (3 − 0, 56)2 ×0, 05 + (4 − 0, 56)2 ×0, 02 ∼
= 0, 99. La deviazione standard della
√
distribuzione condizionata di M dato che A = 0 è perciò 0, 99 = 0, 99. La varianza condizionata di M dato che A = 1 è la varianza della distribuzione nella seconda riga della tabella
√
2.3, che è 0, 22; perciò, la deviazione standard di M per i computer nuovi è 0, 22 = 0, 47.
Per le distribuzioni condizionate nella tabella 2.3, il numero atteso di blocchi per i computer
30
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 31 — #61
i
i
2.3. Variabili casuali doppie
nuovi (0, 14) è inferiore a quello per i computer vecchi (0, 56) e la dispersione della distribuzione del numero dei blocchi, misurata dalla deviazione standard condizionata, è più piccola
per i computer nuovi (0, 47) che per quelli vecchi (0, 99).
Indipendenza
Due variabili casuali X e Y sono indipendentemente distribuite, o indipendenti, se conoscere il valore di una di esse non fornisce alcuna informazione circa l’altra. Nello specifico,
X e Y sono indipendenti se la distribuzione condizionata di Y data X è uguale alla distribuzione marginale di Y . In altri termini, X e Y sono indipendentemente distribuite se, per tutti
i valori di x e y,
Pr(Y = y X = x) = Pr(Y = y)
(indipendenza di X e Y ).
(2.20)
Sostituendo la (2.20) nella (2.15) si ottiene un’espressione alternativa per l’indipendenza di due variabili casuali in termini della loro distribuzione congiunta. Se X e Y sono
indipendenti, allora
Pr(X = x, Y = y) = Pr(X = x) Pr(Y = y).
(2.21)
La distribuzione congiunta di due variabili casuali indipendenti è perciò il prodotto delle loro
distribuzioni marginali.
Covarianza e correlazione
Covarianza. Una misura dell’intensità con la quale due variabili casuali si muovono insieme
è la loro covarianza. La covarianza tra X e Y è il valore atteso E[(X − µX )(Y − µY )], dove
µX è la media di X e µY è la media di Y . La covarianza è indicata con cov(X, Y ) o con
σXY . Se X può assumere l valori e Y può assumere k valori, allora la covarianza è data dalla
formula
cov(X, Y ) = σXY = E[(X − µX )(Y − µY )] =
Pk Pl
j=1 (xj − µX )(yi − µY ) Pr(X = xj , Y = yi ).
i=1
(2.22)
Per interpretare questa formula, supponiamo che quando X è maggiore della propria
media (e quindi X − µX è positiva), Y tenda a essere maggiore della propria media (e quindi
Y − µY è positiva) e che, quando X è minore della propria media (e quindi X − µ X < 0),
Y tende a essere minore della propria media (e quindi Y − µY < 0). In entrambi i casi, il
prodotto (X − µX )(Y − µY ) tende a essere positivo e quindi la covarianza è positiva. Al
contrario, se X e Y tendono a muoversi in direzioni opposte (e quindi X è grande quando Y
è piccola e viceversa), allora la covarianza è negativa. Infine, se X e Y sono indipendenti,
allora la loro covarianza è zero (si veda l’esercizio 2.9).
31
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 32 — #62
i
i
2.3. Variabili casuali doppie
Correlazione. Siccome la covarianza è il prodotto di X e Y , espresse in deviazioni dalle
proprie medie, la sua unità di misura è purtroppo espressa nell’unità di misura di X moltiplicata per l’unità di misura di Y . Questo problema di unità di misura può rendere difficile
interpretare i valori numerici della covarianza.
La correlazione è una misura alternativa di dipendenza tra X e Y che risolve il problema dell’unità di misura della covarianza. Nello specifico, la correlazione tra X e Y è la
covarianza tra X e Y , divisa per il prodotto delle loro deviazioni standard:
corr(X, Y ) = p
cov(X, Y )
var(X)var(Y )
=
σXY
.
σX σY
(2.23)
Poiché l’unità di misura del numeratore è la stessa del denominatore, le unità di misura si
semplificano e la correlazione è un numero puro. Le variabili casuali X e Y sono incorrelate
se corr(X, Y ) = 0.
La correlazione è sempre compresa tra −1 e 1; cioè, come mostrato nell’appendice 2.1,
−1 ≤ corr(X, Y ) ≤ 1 (disuguaglianza della correlazione).
(2.24)
Correlazione e media condizionata. Se la media condizionata di Y non dipende da X,
allora Y e X sono incorrelate. Cioè,
se E(Y X) = µY , allora cov(Y, X) = 0 e corr(Y, X) = 0.
(2.25)
Dimostriamo questo risultato. Si supponga anzitutto che Y e X abbiano media nulla, cosicché cov(Y, X) = E[(Y − µY )(X − µX )] = E(XY ). Per la legge delle aspettative
iterate (equazione (2.18)), E(Y X) = E[E(Y X)X] = 0 poiché E(Y X) = 0 e quindi
cov(Y, X) = 0. La (2.25) segue sostituendo cov(Y, X) = 0 nella definizione di correlazione
data nella (2.23). Se Y e X non hanno media nulla, si sottraggono prima le medie e poi si
applica la dimostrazione precedente.
Non è necessariamente vero, però, che se X e Y sono incorrelate, allora la media condizionata di Y data X non dipende da X. Detto diversamente, è possibile che la media
condizionata di Y sia una funzione di X ma che Y e X siano nonostante ciò incorrelate. Un
esempio è mostrato nell’esercizio 2.10.
Media e varianza di somme di variabili casuali
La media della somma di due variabili casuali X e Y è la somma delle loro medie:
E(X + Y ) = E(X) + E(Y ) = µX + µY .
(2.26)
32
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 33 — #63
i
i
2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student
La varianza della somma di X e Y è la somma delle loro varianze, più due volte la loro
covarianza:
2
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ) = σX
+ σY2 + 2σXY .
(2.27)
Se X e Y sono indipendenti, la loro covarianza è zero e la varianza della loro somma è la
somma delle loro varianze:
2
var(X + Y ) = var(X) + var(Y ) = σX
+ σY2 (se X e Y sono indipendenti).
(2.28)
Utili espressioni per medie, varianze e covarianze riguardanti somme ponderate di variabili casuali sono raccolte nel concetto chiave 2.3. I risultati nel concetto chiave 2.3 sono
derivati nell’appendice 2.1.
2.4 Distribuzioni normale, chi-quadrato, Fm,∞ e
t di Student
Le distribuzioni di probabilità che si incontrano più frequentemente in econometria sono le
distribuzioni normale, chi-quadrato, Fm,∞ e t di Student.
La distribuzione normale
Una variabile casuale continua con una distribuzione normale ha una densità di probabilità
con la familiare forma campanulare mostrata nella figura 2.3. La funzione specifica che
definisce la densità di probabilità normale è riportata nell’appendice 15.1. Come mostra la
figura 2.3, la densità normale con media µ e varianza σ 2 è simmetrica attorno alla sua media
e concentra il 95% della sua probabilità tra µ − 1, 96σ e µ + 1, 96σ.
Una notazione e una terminologia speciali sono state sviluppate per la distribuzione normale. La distribuzione normale con media µ e varianza σ è indicata concisamente da
“N (µ, σ 2 )”. La distribuzione normale standard è la distribuzione normale con media
µ = 0 e varianza σ 2 = 1 ed è indicata da N (0, 1). Variabili casuali normali aventi distribuzione N (0, 1) sono spesso indicate da Z e la funzione di ripartizione normale standard
è rappresentata dalla lettera greca Φ; perciò, Pr(Z ≤ c) = Φ(c), dove c è una costante. I valori della funzione di ripartizione normale standard sono tabulati nella tavola 1 dell’appendice
finale.
Per calcolare le probabilità nel caso di una variabile normale con media e varianza generiche, è necessario standardizzarla sottraendo prima la media e dividendo poi il risultato per
la deviazione standard. Ad esempio, supponiamo che Y si distribuisca secondo una N (1, 4),
ovvero che Y si distribuisca normalmente con media 1 e varianza 4. Qual è la probabilità
33
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 34 — #64
i
i
2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student
Concetto chiave 2.3: medie, varianze e covarianze di somme di variabili casuali
2
Siano X, Y e V variabili casuali, siano µX e σX
la media e la varianza di X, sia σXY
la covarianza tra X e Y (e cosı̀ via per le altre variabili) e a, b e c costanti arbitrarie. Le
proprietà seguenti seguono dalla definizione di media, varianza e covarianza:
E(a + bX + cY ) = a + bµX + cµY ,
(2.29)
var(a + bY ) = b2 σY2 ,
(2.30)
2
var(aX + bY ) = a2 σX
+ 2abσXY + b2 σY2 ,
(2.31)
E(Y 2 ) = σY2 + µ2Y ,
(2.32)
cov(a + bX + cV, Y ) = bσXY + cσV Y e
(2.33)
E(XY ) = σXY + µX µY .
q
2 σ 2 (disuguaglianza della correlazione) .
|corr(X, Y )| ≤ 1 e |σXY | ≤ σX
Y
(2.34)
(2.35)
che Y ≤ 2, ovvero a cosa è uguale l’area ombreggiata della figura 2.4a? La versione standardizzata di Y è pari a Y meno la sua media, tutto diviso per la deviazione standard, cioè
√
a (Y − 1)/ 4 = 21 (Y − 1). Di conseguenza, la variabile casuale 21 (Y − 1) si distribuisce
normalmente con media zero e varianza uno (vedi esercizio 2.4); essa ha la distribuzione normale standard mostrata nella figura 2.4b. Ora Y ≤ 2 è equivalente a 12 (Y − 1) ≤ 21 (2 − 1),
ovvero 21 (Y − 1) ≤ 12 . Perciò,
1
1
1
Pr(Y ≤ 2) = Pr[ (Y − 1) ≤ ] = Pr(Z ≤ ) = Φ(0, 5) = 0, 691,
2
2
2
(2.36)
dove il valore 0, 691 è tratto dalla tavola 1 dell’appendice finale.
Lo stesso approccio può essere utilizzato per calcolare la probabilità che una variabile
casuale distribuita normalmente ecceda un valore dato oppure che cada in un certo intervallo. Questi passaggi sono descritti in sintesi nel concetto chiave 2.4. Il riquadro “Una
brutta giornata a Wall Street” presenta un’applicazione insolita della funzione di ripartizione
normale.
La distribuzione normale multivariata. La distribuzione normale può essere generalizzata
per descrivere la distribuzione congiunta di un gruppo di variabili casuali. In questo caso, la
distribuzione è detta distribuzione normale multivariata o, se si considerano soltanto due
variabili, distribuzione normale bivariata. La formula relativa alla p.d.f. della normale bi34
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 35 — #65
i
i
2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student
Figura 2.3: la densità di probabilità normale
95%
µ – 1,96σ
µ
µ + 1,96σ
y
La funzione di densità di probabilità normale con media µ e varianza σ 2 è una curva di forma campanulare,
centrata in µ. L’area sotto la funzione di densità normale compresa tra µ − 1, 96 σ e µ + 1, 96 σ è 0, 95. La
distribuzione normale è indicata con N (µ, σ 2 ).
variata è riportata nell’appendice 15.1 e la formula della generica p.d.f. normale multivariata
è riportata nell’appendice 16.1.
La distribuzione normale multivariata ha tre importanti proprietà. Se X e Y hanno una
distribuzione normale bivariata con covarianza σXY e se a e b sono due costanti, allora aX +
bY ha una distribuzione normale,
2
aX + bY si distribuisce secondo una N (aµX + bµY , a2 σX
+ b2 σY2 + 2abσXY )
con (X, Y ) normali bivariate.
(2.37)
Più in generale, se n variabili casuali hanno una distribuzione normale multivariata, allora
ogni combinazione lineare di queste variabili (per esempio, la loro somma) si distribuisce
normalmente.
In secondo luogo, se un gruppo di variabili ha una distribuzione normale multivariata,
la distribuzione marginale di ciascuna delle variabili è normale (questo segue dalla (2.37)
ponendo a = 1 e b = 0).
In terzo luogo, se variabili casuali con distribuzione normale multivariata hanno covaElectronic
Services
Inc.se X e Y hanno distribuzione normale
rianza nulla, tali
variabili Publishing
sono indipendenti.
Cosı̀,
1e
bivariata e σXYStock/Watson,
= 0, allora X Econometrics
e Y sono indipendenti.
Nella sezione 2.3 si è detto che, se
STOC.ITEM.0003
X e Y sono indipendenti,
allora, qualunque sia la loro distribuzione congiunta, σ XY = 0.
Fig.
02.03
Se X e Y hanno distribuzione congiunta normale, allora è vero anche il contrario. Questo
risultato –per cui la covarianza
l’indipendenza–
una proprietàFinal
speciale della
1st Proof nulla implica
2nd Proof
3rd èProof
35
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 36 — #66
i
i
2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student
Figura 2.4: calcolo della probabilità che Y ≤ 2 quando Y si distribuisce come una
N (1, 4)
Pr(Y < 2)
N(1, 4) distribuzione
y
1,0 2,0
(a) N(1, 4)
Pr(Z < 0,5)
0,691
N(0, 1) distribuzione
z
0,0 0,5
(b) N(0, 1)
Per calcolare Pr(Y ≤ 2), si standardizzi Y e si utilizzi la tavola per la distribuzione normale standard. Y si
standardizza sottraendole la sua media (µ = 1) e dividendo per la sua deviazione standard (σ Y = 2). La
probabilità che Y ≤ 2 è mostrata nella figura 2.4a e la probabilità corrispondente dopo avere standardizzato
Y è mostrata nella figura 2.4b. Poiché la variabile casuale standardizzata Y −1
è una variabile casuale normale
2
standard (Z), Pr(Y ≤ 2) = Pr( Y 2−1 ≤ 2−1
)
=
Pr(Z
≤
0,
5)
.
Dalla
tavola 1 dell’appedince finale,
2
Pr(Z ≤ 0, 5) = 0, 691.
distribuzione normale multivariata e non è vera in generale.
36
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0004
Fig. 02.04
1st Proof
i
i
2nd Proof
3rd Proof
Final
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 37 — #67
i
i
2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student
Concetto chiave 2.4: calcolo delle probabilità con variabili casuali normali
Supponiamo che Y si distribuisca normalmente con media µ e varianza σ 2 ovvero che Y
abbia distribuzione N (µ, σ 2 ). Y si standardizza sottraendo la media e dividendo per la
sua deviazione standard, cioè calcolando Z = (Y − µ)/σ.
Siano c1 e c2 due numeri tali che c1 < c2 e sia d1 = (c1 − µ)/σ e d2 = (c2 − µ)/σ.
Allora,
Pr(Y ≤ c2 ) = Pr(Z ≤ d2 ) = Φ(d2 ),
(2.38)
Pr(Y ≥ c1 ) = Pr(Z ≥ d1 ) = 1 − Φ(d1 ) e
(2.39)
Pr(c1 ≤ Y ≤ c2 ) = Pr(d1 ≤ Z ≤ d2 ) = φ(d2 ) − Φ(d1 ).
(2.40)
La funzione di ripartizione normale Φ è tabulata nella tavola 1 dell’appendice finale.
Le distribuzioni chi-quadrato e Fm,∞
Le distribuzioni chi-quadrato e Fm,∞ sono usate per verificare alcuni tipi di ipotesi in statistica e in econometria.
La distribuzione chi-quadrato è la distribuzione della somma dei quadrati di m variabili
casuali indipendenti, ognuna con una distribuzione normale standard. Questa distribuzione
dipende da m, che è chiamato numero di gradi di libertà della distribuzione chi-quadrato. Ad
esempio, siano Z1 , Z2 e Z3 variabili casuali normali standard indipendenti. Allora Z12 +Z22 +
Z32 ha una distribuzione chi-quadrato con 3 gradi di libertà. Il nome di questa distribuzione
deriva dalla lettera dell’alfabeto greco usata per contrassegnarla: la distribuzione chi-quadrato
con m gradi di libertà è rappresentata da χ2m .
Percentili scelti della distribuzione χ2m sono riportati nella tavola 3 dell’appendice finale. Ad esempio, la tavola 3 dell’appendice finale mostra che il 95-esimo percentile della
distribuzione χ23 è 7, 81, e quindi Pr(Z12 + Z22 + Z32 ≤ 7, 81) = 0, 95.
Una distribuzione strettamente legata alla precedente è la distribuzione F m,∞ . La distribuzione Fm,∞ è la distribuzione di una variabile casuale chi-quadrato con m gradi di libertà,
divisa per m. Equivalentemente, la distribuzione Fm,∞ è la distribuzione della media di m
variabili casuali normali standard al quadrato. Ad esempio, se Z 1 , Z2 e Z3 sono variabili
casuali normali standard indipendenti, allora (Z12 + Z22 + Z32 )/3 ha distribuzione F3,∞ .
Percentili scelti della distribuzione Fm,∞ sono riportati nella tavola 4 dell’appendice finale. Ad esempio, il 95-esimo percentile della distribuzione F3,∞ è 2, 60 e quindi
Pr[(Z12 + Z22 + Z32 )/3 ≤ 2, 60] = 0, 95. Il 95-esimo percentile della distribuzione F3,∞ è il
95-esimo percentile della distribuzione χ23 , diviso per tre (7, 81/3 = 2, 60).
37
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 38 — #68
i
i
2.4. Distribuzioni normale, chi-quadrato, Fm,∞ e t di Student
Una brutta giornata a Wall Street
In un giorno tipico, il valore totale dei titoli scambiati nel mercato azionario USA può
salire o scendere dell’1% o anche più. È molto –ma niente in confronto a quanto accadde
lunedı̀ 19 ottobre 1987. In quel “lunedı̀ nero”, il Dow Jones Industrial Average (una media dei maggiori 30 titoli industriali) scese del 25, 6%! Dall’1 gennaio 1980 al 16 ottobre
1987, la deviazione standard dei rendimenti giornalieri (ovvero la variazione percentuale
giornaliera del prezzo) sul Dow era stata dell’1, 16%, perciò la diminuzione del 25, 6% generò un rendimento negativo di 22 (= 25, 6/1, 16) deviazioni standard. L’enormità di tale
diminuzione può essere osservata nella figura 2.5, un grafico del rendimento giornaliero
del Dow durante gli anni ’80.
Se i rendimenti dei titoli fossero distribuiti normalmente, la probabilità di una diminuzione di almeno 22 deviazioni standard sarebbe Pr(Z ≤ −22) = Φ(−22). Questo valore
non è presente nella tavola 1 dell’appendice finale, ma è possibile calcolarlo usando un
computer (si provi a farlo!). Questa probabilità è 1, 4 × 10−107 ovvero 0, 000 . . . 00014,
con un totale di 106 zeri! Quanto piccolo è 1, 4 × 10−107 ? Si consideri quanto segue:
• la popolazione mondiale è di circa 6 miliardi, perciò la probabilità di vincere una
lotteria tra tutte le persone viventi è di circa 1 su 6 miliardi, ovvero 2 × 10 −10 ;
• si crede che l’universo esista da circa 15 miliardi di anni, che sono composti da circa
5 × 1017 secondi; perciò, la probabilità di scegliere a caso un particolare secondo
tra tutti i secondi che sono passati dalla notte dei tempi è 2 × 10−18 ;
• ci sono approssimativamente 1043 molecole di gas nel primo chilometro al di sopra
della superficie terrestre. La probabilità di sceglierne una a caso è di 10 −43 .
Sebbene sia stata una brutta giornata per Wall Street, il fatto che essa sia realmente
avvenuta suggerisce che la sua probabilità fosse maggiore di 1, 4 × 10 −107 . In effetti, i
rendimenti dei titoli hanno una distribuzione con code più pesanti rispetto a una distribuzione normale; in altre parole, ci sono più giorni con rendimenti grandi e positivi o
grandi e negativi di quanto suggerito dalla distribuzione normale. Il capitolo 14 presenta
un modello econometrico per i rendimenti dei titoli usato dai professionisti finanziari, che
sembra più coerente con la frequenza di brutte giornate –e di belle giornate– che si ha
effettivamente a Wall Street.
38
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 39 — #69
i
i
2.5. Campionamento casuale e distribuzione della media campionaria
La distribuzione t di Student
La distribuzione t di Student con m gradi di libertà è la distribuzione del rapporto di due
variabili casuali indipendenti, la prima delle quali è normale standard e l’altra è la radice
quadrata di una variabile casuale chi-quadrato con m gradi di libertà divisa per m. In altre
parole, sia Z una variabile casuale normale standard, sia W una variabile casuale con distribuzione chi-quadrato con m gradi di libertà e siano Z e W indipendentemente distribuite.
p
Allora, la variabile casuale Z/ W/m ha una distribuzione t di Student (anche detta distribuzione t) con m gradi di libertà. Questa distribuzione si indica con tm . Alcuni percentili
della distribuzione t di Student sono riportati nella tavola 2 dell’appendice finale.
La distribuzione t di Student dipende dai gradi di libertà m. Per questo motivo, anche il
95-esimo percentile della distribuzione tm dipende dai gradi di libertà m. La distribuzione t
di Student ha una forma campanulare simile a quella della distribuzione normale, ma, quando
m è piccolo (20 o meno), ha più massa nelle code, ovvero ha code “più pesanti” rispetto alla
normale. Quando m è pari a 30 o più, la distribuzione t di Student è ben approssimata dalla distribuzione normale standard e la distribuzione t∞ è uguale alla distribuzione normale
standard.
2.5 Campionamento casuale e distribuzione della
media campionaria
Quasi tutte le procedure statistiche ed econometriche usate in questo libro coinvolgono medie
o medie ponderate calcolate per un campione di dati. Caratterizzare le distribuzioni delle medie campionarie, perciò, è un passo essenziale per comprendere le prestazioni delle procedure
econometriche.
Questa sezione introduce alcuni concetti di base riguardanti il campionamento casuale e
le distribuzioni delle medie che saranno usate nel resto del libro. Cominciamo discutendo il
campionamento casuale. L’atto di campionare casualmente, ovvero di selezionare in modo
casuale un campione da una popolazione più ampia, ha l’effetto di rendere la media campionaria stessa una variabile casuale. Siccome la media campionaria è una variabile casuale, ha
una distribuzione di probabilità, indicata come la sua distribuzione campionaria. Questa sezione si conclude evidenziando alcune proprietà della distribuzione campionaria della media
campionaria.
Campionamento casuale
Campionamento casuale semplice. Supponiamo che il nostro studente pendolare della sezione 2.1 aspiri a diventare uno statistico e decida di prendere nota del suo tempo di per39
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 40 — #70
i
i
2.5. Campionamento casuale e distribuzione della media campionaria
Figura 2.5: variazioni percentuali giornaliere nell’indice Dow Jones Industrial Average
negli anni ’80
Variazione percentuale
10
5
0
-5
-10
-15
-20
19 ottobre 1987
-25
-30
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
Anno
Durante gli anni ’80, la variazione percentuale media giornaliera dell’indice Dow-Jones è stata di 0, 05% e la
sua deviazione standard di 1, 16%. Il 19 ottobre 1987–il “lunedı̀ nero”–l’indice è sceso del 25, 6%, ovvero più
di 22 deviazioni standard.
correnza in vari giorni, scelti a caso durante l’anno scolastico. Il suo tempo di percorrenza
giornaliero ha la funzione di ripartizione mostrata nella figura 2.2a. Siccome tali giorni sono
stati scelti a caso, conoscere il valore del tempo di percorrenza in uno di questi giorni scelti a
Publishing
caso non fornisce alcunaElectronic
informazione
sulServices
tempoInc.
di percorrenza in un altro giorno; cioè, sicStock/Watson, Econometrics 1e
come i giorni sono stati scelti
a caso, i valori del tempo di percorrenza in ognuno dei diversi
STOC.ITEM.0005
Fig. 02.05
giorni sono variabili casuali
distribuite indipendentemente.
1st Proof
2nd Proof
3rd Proof
Final
La situazione descritta nel paragrafo precedente è un esempio dello schema di campionamento più semplice usato in statistica, detto campionamento casuale semplice, nel quale
n oggetti sono scelti a caso da una popolazione (la popolazione dei giorni di pendolarismo)
e ogni membro della popolazione (ogni giorno) ha la stessa probabilità di essere incluso nel
campione.
Le n osservazioni nel campione sono indicate con Y1 , . . . , Yn , dove Y1 è la prima osservazione, Y2 è la seconda osservazione e cosı̀ via. Nell’esempio del pendolare, Y 1 è il tempo
40
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 41 — #71
i
i
2.5. Campionamento casuale e distribuzione della media campionaria
di percorrenza nel primo degli n giorni selezionati a caso e Yi è quello nell’i-esimo giorno
selezionato a caso.
Siccome i membri della popolazione inclusi nel campione sono selezionati casualmente,
i valori delle osservazioni Y1 , . . . , Yn sono essi stessi casuali. Se sono scelti membri diversi
della popolazione, il loro valore osservato di Y differisce. Per questo motivo, l’atto di campionare casualmente implica che Y1 , . . . , Yn possono essere trattate come variabili casuali.
Prima di essere campionate, Y1 , . . . , Yn possono assumere molti valori; dopo essere state
campionate, si registra un valore specifico per ciascuna osservazione.
Estratti i.i.d. Poiché Y1 , . . . , Yn sono estratti casualmente dalla stessa popolazione, la distribuzione marginale di Yi è la stessa per ogni i = 1, . . . , n; tale distribuzione marginale
è la distribuzione di Y nella popolazione che si sta campionando. Quando Y i ha la stessa distribuzione marginale per i = 1, . . . , n, si dice che Y1 , . . . , Yn sono identicamente
distribuite.
Dato un campionamento casuale semplice, conoscere il valore di Y 1 non fornisce alcuna
informazione su Y2 , e quindi la distribuzione condizionata di Y2 data Y1 coincide con la
distribuzione marginale di Y2 . In altre parole, dato un campionamento casuale semplice, Y 1
è distribuita indipendentemente da Y2 , . . . , Yn .
Quando Y1 , . . . , Yn sono estratte dalla stessa distribuzione e sono indipendentemente
distribuite, si dice che sono indipendentemente e identicamente distribuite o i.i.d.
Il campionamento casuale semplice e gli estratti i.i.d. sono riassunti nel concetto chiave
2.5.
Distribuzione campionaria della media campionaria
La media campionaria delle n osservazioni Y1 , . . . , Yn è
n
Ȳ =
1X
1
Yi .
(Y1 + Y2 + . . . + Yn ) =
n
n i=1
(2.41)
Un concetto essenziale è che l’estrazione di un campione casuale ha l’effetto di rendere
la media campionaria Ȳ una variabile casuale. Siccome il campione è stato estratto a caso,
il valore assunto da ogni Yi è casuale. Siccome Y1 , . . . , Yn sono casuali, la loro media è
casuale. Se si fosse estratto un campione diverso, allora le osserazioni e la media campionaria
sarebbero state diverse: il valore di Ȳ differisce da un campione estratto casualmente a un
altro.
Per esempio, supponiamo che il nostro studente pendolare abbia scelto casualmente cinque giorni per i quali registrare il tempo di percorrenza, e poi abbia calcolato la media di
questi cinque valori. Se avesse scelto cinque giorni diversi, avrebbe registrato cinque diversi
tempi di percorrenza –e avrebbe perciò calcolato un valore diverso della media campionaria.
41
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 42 — #72
i
i
2.5. Campionamento casuale e distribuzione della media campionaria
Concetto chiave 2.5: campionamento casuale semplice e variabili casuali i.i.d.
Nel campionamento casuale semplice, n oggetti sono estratti casualmente da una popolazione e ogni oggetto ha la stessa probabilità di essere estratto. Il valore della variabile
casuale Y per l’i-esimo oggetto estratto a caso è indicata con Yi . Siccome ciascun oggetto
ha la stessa probabilità degli altri di essere estratto e la distribuzione di Y i è la stessa per
ogni i, le variabili casuali Y1 , . . . , Yn sono indipendentemente e identicamente distribuiti (i.i.d.); in altre parole, la distribuzione di Yi è la stessa per ogni i = 1, . . . , n e Y1 è
distribuito indipendentemente da Y2 , . . . , Yn e cosı̀ via.
Poiché Ȳ è casuale, ha una distribuzione di probabilità. La distribuzione di Ȳ è detta
distribuzione campionaria di Ȳ , perché è la distribuzione di probabilità associata ai possibili
valori di Ȳ che possono essere calcolati per diversi campioni possibili Y1 , . . . , Yn .
La distribuzione campionaria di medie e medie ponderate gioca un ruolo centrale in statistica ed econometria. Cominciamo la nostra discussione della distribuzione campionaria di
Ȳ calcolando la sua media e varianza sotto condizioni generali circa la distribuzione di Y
nella popolazione.
Media e varianza di Ȳ . Supponiamo che le osservazioni Y1 , . . . , Yn siano i.i.d. e siano µY
e σY2 la media e la varianza di Yi (poiché le osservazioni sono i.i.d., la media e la varianza
sono le stesse per ogni i = 1, . . . , n). Quando n = 2, la media della somma Y 1 +Y2 si ottiene
tramite la (2.26), cioè E(Y1 + Y2 ) = µY + µY = 2µY . Perciò, il valore medio della media
campionaria è E[ 21 (Y1 + Y2 )] = 12 × 2µY = µY . In generale,
n
E(Ȳ ) =
1X
E(Yi ) = µY .
n i=1
(2.42)
La varianza di Ȳ si ottiene applicando la (2.28). Ad esempio, per n = 2, var(Y 1 + Y2 ) =
2σY2 , e quindi (applicando la (2.31) con a = b = 12 e cov(Y1 , Y2 ) = 0) var(Ȳ ) = 21 σY2 . Per
n generico, siccome le Y1 , . . . , Yn sono i.i.d., Yi e Yj sono indipendentemente distribuite per
i 6= j e quindi cov(Yi , Yj ) = 0. Perciò,
n
var(Ȳ )
= var(
=
1X
Yi )
n i=1
n
n
n
1 X
1 X X
var(Y
)
+
cov(Yi , Yj )
i
n2 i=1
n2 i=1
j=1,j6=i
=
σY2
n
.
(2.43)
42
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 43 — #73
i
i
2.6. Approssimazione alla distribuzione campionaria per grandi campioni
√
La deviazione standard di Ȳ è la radice quadrata della varianza, σY / n.
In sintesi, la media, la varianza e la deviazione standard di Ȳ sono
E(Ȳ ) = µY ,
var(Ȳ ) = σȲ2 =
(2.44)
σY2
n
e
(2.45)
σY
std.dev(Ȳ ) = σȲ = √ .
(2.46)
n
Questi risultati valgono qualunque sia la distribuzione di Yi ; cioè, non è necessario che la
distribuzione di Yi non deve necessariamente assumere una forma specifica, come la normale,
perché valgano le (2.44), (2.45) e (2.46).
La notazione σȲ2 indica la varianza della distribuzione campionaria della media campionaria Ȳ . Di contro, σY2 è la varianza di ogni singola Yi , ovvero la varianza della distribuzione per la popolazione dalla quale è estratta l’osservazione. Similmente, σ Ȳ rappresenta la
deviazione standard della distribuzione campionaria di Ȳ .
La distribuzione campionaria di Ȳ quando Y si distribuisce normalmente. Si supponga che Y1 , . . . , Yn siano estratti i.i.d. dalla distribuzione N (µY , σY2 ). Come stabilito dalla
(2.37), la somma di n variabili casuali normalmente distribuite è essa stessa normalmente
distribuita. Siccome la media di Ȳ è µY e la varianza di Ȳ è σY2 /n, questo implica che, se
Y1 , . . . , Yn sono estratti i.i.d. dalla N (µY , σY2 ), allora Ȳ si distribuisce come N (µY , σY2 /n).
2.6 Approssimazione alla distribuzione campionaria
per grandi campioni
Le distribuzioni campionarie giocano un ruolo centrale nello sviluppo di procedure statistiche
ed econometriche, perciò è importante conoscere, in senso matematico, quale sia la distribuzione campionaria di Ȳ . Per caratterizzare le distribuzioni campionarie si possono seguire
due approcci: un approccio “esatto” e un approccio “approssimato”.
L’approccio “esatto” richiede di derivare una formula per la distribuzione campionaria
che valga esattamente per qualunque valore di n. La distribuzione campionaria che descrive
esattamente la distribuzione di Ȳ per ogni n è detta distribuzione esatta o distribuzione in
campioni finiti di Ȳ . Ad esempio, se Y si distribuisce normalmente e Y1 , . . . , Yn sono i.i.d.,
allora (come discusso nella sezione 2.5) la distribuzione esatta di Ȳ è normale con media µY
e varianza σY2 /n. Sfortunatamente, se la distribuzione di Y non è normale, in generale la
distribuzione esatta di Ȳ è molto complessa e dipende dalla distribuzione di Y .
L’approccio “approssimato” usa approssimazioni alla distribuzione campionaria che si
basano su una numerosità campionaria elevata. L’approssimazione per grandi campioni alla distribuzione campionaria è spesso detta distribuzione asintotica –“asintotica” perché le
43
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 44 — #74
i
i
2.6. Approssimazione alla distribuzione campionaria per grandi campioni
Concetto chiave 2.6: la convergenza in probabilità, la consistenza
e la legge dei grandi numeri
La media campionaria Ȳ converge in probabilità a µY (o, equivalentemente, Ȳ è consistente per µY ), se, per qualunque costante c > 0, la probabilità che Ȳ si trovi tra µY − c e
p
µY +c diventa arbitrariamente prossima a uno al crescere di n. Ciò si indica con Ȳ → µY .
La legge dei grandi numeri afferma che se le Yi , per i = 1, . . . , n, sono indipendentemente
p
e identicamente distribuite con E(Yi ) = µY e var(Yi ) = σY2 < ∞, allora Ȳ → µY .
approssimazioni diventano esatte al limite, per n −→ ∞. Come abbiamo visto in questa
sezione, queste approssimazioni possono essere molto accurate anche se la dimensione campionaria è di sole n = 30 osservazioni. Poiché i campioni usati nella pratica econometrica
tipicamente contengono centinaia o migliaia di osservazioni, queste distribuzioni asintotiche
possono essere ottime approssimazioni dell’esatta distribuzione campionaria.
Questa sezione presenta i due strumenti chiave per l’approssimazione delle distribuzioni
campionarie quando la dimensione campionaria è grande, la legge dei grandi numeri e il
teorema limite centrale. La legge dei grandi numeri afferma che, per grandi campioni, Ȳ è
prossimo a µY con probabilità molto alta. Il teorema limite centrale afferma che, per grandi
campioni, la distribuzione campionaria della media campionaria standardizzata ( Ȳ −µY )/σȲ
è approssimativamente normale.
Sebbene le distribuzioni campionarie esatte siano complesse e dipendano dalla distribuzione di Y , le distribuzioni asintotiche sono semplici. Per di più, sorprendentemente, la distribuzione asintotica normale di (Ȳ − µY )/σȲ non dipende dalla distribuzione di Y . L’approssimazione tramite la distribuzione normale fornisce un’enorme semplificazione e rappresenta
la base della teoria della regressione usata in tutto questo libro.
Legge dei grandi numeri e consistenza
La legge dei grandi numeri stabilisce che, sotto condizioni generali, Ȳ è prossima a µY con
probabilità molto alta quando n è grande. Essa è talvolta detta “legge delle medie”. Quando
si prende la media di un gran numero di variabili casuali aventi la stessa media, i valori grandi
bilanciano quelli piccoli e la loro media campionaria si avvicina alla loro media comune.
Ad esempio, consideriamo una versione semplificata dell’esperimento condotto dal nostro studente pendolare, nel quale semplicemente si riporta se il tempo di percorrenza è stato
breve (meno di 20 minuti) o lungo. Si ponga Yi uguale a uno se il viaggio è stato breve
nell’i-esimo giorno selezionato casualmente e uguale a zero se è stato lungo. Siccome lo
studente ha usato un campionamento casuale semplice, Y1 , . . . , Yn sono i.i.d. Cosı̀, le Yi , con
44
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 45 — #75
i
i
2.6. Approssimazione alla distribuzione campionaria per grandi campioni
i = 1, . . . , n, sono estratti i.i.d. da una variabile casuale di Bernoulli, dove (dalla tabella 2.2)
la probabilità che Yi = 1 è 0, 78. Siccome l’aspettativa di una variabile casuale di Bernoulli
è la sua probabilità di successo, E(Yi ) = µY = 0, 78. La media campionaria Ȳ è la frazione
di giorni nel campione nei quali il viaggio è stato breve.
La figura 2.6 mostra la distribuzione campionaria di Ȳ per varie dimensioni del campione
n. Quando n = 2 (figura 2.6a), Ȳ può assumere solo i tre valori 0, 12 e 1 (rispettivamente
nessun viaggio è stato breve, uno è stato breve ed entrambi sono stati brevi), nessuno dei
quali è particolarmente vicino alla vera proporzione nella popolazione, 0, 78. Al crescere
di n, comunque (figure 2.6b-d), Ȳ assume più valori e la distribuzione campionaria diventa
fortemente concenrata intorno a µY .
La proprietà per cui Ȳ è prossima a µY con probabilità crescente al crescere di n è detta
convergenza in probabilità o, più concisamente, consistenza (vedi il concetto chiave 2.6).
La legge dei grandi numeri afferma che, sotto certe condizioni, Ȳ converge in probabilità a
µY o, equivalentemente, che Ȳ è consistente per µY .
Le condizioni perché valga la legge dei grandi numeri che useremo in questo libro richiedono che le Yi , con i = 1, . . . , n, siano i.i.d. e che la varianza di Yi , σY2 , sia finita. Il
ruolo matematico di queste condizioni è chiarito nella sezione 15.2, dove si dà una prova
della legge dei grandi numeri. Se i dati fossero raccolti mediante campionamento casuale
semplice, varrebbe l’ipotesi di i.i.d. L’ipotesi che la varianza sia finita dice che valori estremi
di Yi sono osservati infrequentemente; altrimenti la media campionaria sarebbe inaffidabile.
Questa ipotesi è plausibile per le applicazioni in questo libro; ad esempio, poiché c’è un limite superiore al tempo di percorrenza che lo studente può impiegare (potrebbe parcheggiare
e andare a piedi se il traffico fosse spaventoso), la varianza della distribuzione dei tempi di
pendolarismo è finita.
Il teorema limite centrale
Il teorema limite centrale afferma che, sotto condizioni generali, la distribuzione di Ȳ è ben
approssimata da una distribuzione normale quando n è grande. Si ricordi che la media di Ȳ
è µȲ e la sua varianza è σȲ2 = σY2 /n. Secondo il teorema limite centrale, per n grande la
distribuzione di Ȳ è approssimativamente N (µY , σȲ2 ). Come discusso alla fine della sezione
2.5, la distribuzione di Ȳ è esattamente N (µY , σȲ2 ) quando il campione è estratto da una
popolazione con distribuzione normale N (µY , σY2 ). Il teorema limite centrale afferma che
questo stesso risultato è approssimativamente vero quando n è grande anche se Y 1 , . . . , Yn
non si distribuiscono normalmente.
La convergenza della distribuzione di Ȳ alla sua approssimazione normale può essere
(parzialmente) osservata nella figura 2.6. Tuttavia, siccome la distribuzione diventa abbastanza concentrata per n grande, ciò richiede qualche sforzo visivo. Sarebbe più facile osservare la forma della distribuzione di Ȳ , se si usasse una lente d’ingrandimento o si possedes45
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 46 — #76
i
i
2.6. Approssimazione alla distribuzione campionaria per grandi campioni
Figura 2.6: distribuzione campionaria della media campionaria di n variabili casuali di
Bernoulli
Probabilità
Probabilità
0,7
0,5
0,6
0,4
µ
0,5
µ
= 0,78
= 0,78
0,3
0,4
0,3
0,2
0,2
0,1
0,1
0,0
0,0
0,25
0,50
0,75
0,0
0,0
1,00
Valore della media campionaria
0,25
0,50
0,75
1,00
Valore della media campionaria
(b) n = 5
(a) n = 2
Probabilità
Probabilità
0,25
0,125
0,20
µ
µ
0,100
= 0,78
0,15
= 0,78
0,075
0,10
0,050
0,05
0,025
0,00
0,0
0,25
0,50
0,75
1,00
Valore della media campionaria
(c) n = 25
0,00
0,0
0,25
0,50
0,75
1,00
Valore della media campionaria
(d) n = 100
Le figure mostrano le distribuzioni campionarie di Ȳ , la media campionaria di n variabili casuali Bernoulliane
indipendenti con p = Pr(Yi = 1) = 0, 78 (la probabilità di un tempo di percorrenza veloce è 78%). La
varianza della distribuzione campionaria di Ȳ diminuisce al crescere di n, per cui la distribuzione campionaria
si concentra sempre più attorno alla sua media µ = 0, 78 al crescere della dimensione campionaria n.
46
i
i
i
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0006
Fig. 02.06
i
i
i
“generale” — 2005/7/10 — 22:25 — page 47 — #77
i
i
2.6. Approssimazione alla distribuzione campionaria per grandi campioni
Figura 2.7: distribuzione della media campionaria di n variabili casuali di Bernoulli con
p = 0, 78
Probabilità
Probabilità
0,7
0,5
0,6
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0,0
–3,0 –2,0 –1,0
0,0
1,0
2,0
0,0
–3,0 –2,0 –1,0
3,0
Valore standardizzato
della media campionaria
(a) n = 2
0,0
1,0
2,0
3,0
Valore standardizzato
della media campionaria
(b) n = 5
Probabilità
Probabilità
0,25
0,12
0,20
0,09
0,15
0,06
0,10
0,03
0,05
0,00
–3,0 –2,0 –1,0
(c) n = 25
0,0
1,0
2,0
3,0
0,00
–3,0 –2,0 –1,0
Valore standardizzato
della media campionaria
(d) n = 100
0,0
1,0
2,0
3,0
Valore standardizzato
della media campionaria
Le figure mostrano la distribuzione campionaria di Ȳ nella figura 2.6, dopo aver standardizzato Ȳ . In questo
modo, le distribuzioni della figura 2.6 vengono centrate e si ingrandisce la scala dell’asse orizzontale per un
√
fattore pari a n. Quando la media campionaria è grande, le distribuzioni campionarie sono approssimate
sempre meglio dalla distribuzione normale (linea continua), cosı̀ come predetto dal teorema limite centrale.
47
i
i
i
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0007
Fig. 02.07
1st Proof
2nd Proof
i
3rd Proof
Final
i
i
“generale” — 2005/7/10 — 22:25 — page 48 — #78
i
i
2.6. Approssimazione alla distribuzione campionaria per grandi campioni
Figura 2.8: distribuzione della media campionaria standardizzata di n estratti da una
distribuzione asimmetrica
Probabilità
Probabilità
0,50
0,12
0,40
0,09
0,30
0,06
0,20
0,03
0,10
0,00
–3,0 –2,0 –1,0
0,0
1,0
2,0
0,00
–3,0 –2,0 –1,0
3,0
(a) n = 1
1,0
2,0
3,0
(b) n = 5
Probabilità
Probabilità
0,12
0,12
0,09
0,09
0,06
0,06
0,03
0,03
0,00
–3,0 –2,0 –1,0
(c) n = 25
0,0
Valore standardizzato
della media campionaria
Valore standardizzato
della media campionaria
0,0
1,0
2,0
3,0
0,00
–3,0 –2,0 –1,0
Valore standardizzato
della media campionaria
(d) n = 100
0,0
1,0
2,0
3,0
Valore standardizzato
della media campionaria
La figura mostra la distribuzione campionaria della media campionaria standardizzata di n estratti dalla popolazione asimmetrica mostrata nella figura 2.8a. Quando n è piccolo (n = 5), la distribuzione campionaria, cosı̀
come la popolazione, è asimmetrica. Quando n è grande (n = 100), però, la distribuzione campionaria è ben
approssimata da una distribuzione normale standard (linea continua), come predetto dal teorema limite centrale.
48
i
i
i
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0008
Fig. 02.08
1st Proof
2nd Proof
i
3rd Proof
Final
i
i
“generale” — 2005/7/10 — 22:25 — page 49 — #79
i
i
2.6. Approssimazione alla distribuzione campionaria per grandi campioni
se qualche altro mezzo per mettere a fuoco meglio o per espandere l’asse orizzontale della
figura.
Un modo per farlo è quello di standardizzare Ȳ , ovvero di sottrarre la sua media e dividere
poi per la sua deviazione standard, cosı̀ da avere media nulla e varianza unitaria. Questa
trasformazione porta a esaminare la distribuzione della versione standardizzata di Ȳ , (Ȳ −
µY )/σȲ . Secondo il teorema limite centrale, questa distribuzione è ben approssimata da una
distribuzione N (0, 1) quando n è grande.
La distribuzione della media standardizzata (Ȳ − µY )/σȲ è presentata nella figura 2.7,
con riferimento alle distribuzioni nella figura 2.6; le distribuzioni della figura 2.7 sono esattamente le stesse della figura 2.6, eccetto che la scala dell’asse orizzontale è cambiata in modo
che la variabile standardizzata abbia media nulla e varianza unitaria. Dopo questo cambiamento di scala, è facile osservare che, se n è sufficientemente grande, la distribuzione di Ȳ è
ben approssimata da una distribuzione normale.
Ci si potrebbe chiedere cosa si intenda per “sufficientemente grande”. In altre parole,
quanto grande deve essere n perché la distribuzione di Ȳ sia approssimativamente normale?
La risposta è “dipende”. La qualità dell’approssimazione normale dipende dalla distribuzione
sottostante le Yi che compongono la media. A un estremo, se le Yi sono distribuite normalmente, Ȳ si distribuisce esattamente secondo una normale per ogni n. Al contrario, quando
le Yi sottostanti hanno una distribuzione che è lontana dalla normale, questa approssimazione
può richiedere n = 30 o anche valori maggiori.
Questo punto è illustrato nella figura 2.8 per la distribuzione di una popolazione, quella nella figura 2.8a, che si differenzia abbastanza da una distribuzione di Bernoulli. Tale
distribuzione ha una coda destra lunga (è “asimmetrica” verso destra). La distribuzione campionaria di Ȳ , dopo essere stata centrata e riscalata, è mostrata nella figura 2.8b, c e d per
n = 5, 25 e 100. Sebbene la distribuzione campionaria si avvicini alla forma campanulare per
n = 25, l’approssimazione normale ha ancora notevoli imperfezioni. Per n = 100, però, l’approssimazione è abbastanza buona. In effetti, per n ≥ 100 l’approssimazione normale della
distribuzione di Ȳ è molto buona per un’ampia gamma di distribuzioni della popolazione.
Il teorema limite centrale è un risultato notevole. Mentre le distribuzioni di Ȳ per “n
piccolo” nelle parti b e c delle figure 2.7 e 2.8 sono complesse e abbastanza diverse tra loro,
le distribuzioni per “n grande” nelle figure 2.7d e 2.8d sono semplici e, sorprendentemente,
hanno forma simile. Siccome la distribuzione di Ȳ si avvicina a una normale al crescere di
n, si dice che Ȳ si distribuisce asintoticamente secondo una normale.
La convenienza dell’approssimazione normale, combinata con la sua ampia applicabilità dovuta al teorema limite centrale, la rende uno dei fondamenti della moderna statistica
applicata. Il teorema limite centrale è riassunto nel concetto chiave 2.7.
49
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 50 — #80
i
i
Sommario
Concetto chiave 2.7: teorema limite centrale
Si supponga che Y1 , . . . , Yn siano i.i.d., con E(Yi ) = µY e var(Yi ) = σY2 , dove 0 <
σY2 < ∞. Per n −→ ∞, la distribuzione di (Ȳ − µY )/σȲ (dove σȲ2 = σY2 /n) viene
approssimata arbitrariamente bene dalla distribuzione normale standard.
Sommario
1. Le probabilità con le quali una variabile casuale assume valori diversi sono sintetizzate dalla sua funzione di ripartizione, la funzione di distribuzione di probabilità (per
variabili casuali discrete) e la funzione di densità di probabilità (per variabili casuali
continue).
2. Il valore atteso di una variabile casuale Y (detto anche media e indicato con µ Y o
E(Y )) è il suo valore medio ponderato con le probabilità. La varianza di Y è σ Y2 =
E[(Y − µY )2 ] e la deviazione standard di Y è la radice quadrata della sua varianza.
3. La distribuzione congiunta di due variabili casuali X e Y è sintetizzata dalla loro distribuzione di probabilità congiunta. La distribuzione di probabilità condizionata di Y
data X = x è la distribuzione di probabilità di Y , condizionata al fatto che X assuma
il valore x.
4. Una variabile casuale distribuita normalmente ha la densità di probabilità di forma
campanulare mostrata nella figura 2.3. Per calcolare una probabilità associata con una
variabile casuale normale, si standardizza prima la variabile, poi si usa la funzione di
ripartizione normale standard tabulata nella tavola 1 dell’appendice finale.
5. Il campionamento casuale semplice produce n osservazioni casuali Y 1 , . . . , Yn , che
sono indipendentemente e identicamente distribuite (i.i.d.).
6. La media campionaria Ȳ varia da un campione scelto casualmente a un altro, ed è
quindi una variabile casuale con una certa distribuzione campionaria. Se Y 1 , . . . , Yn
sono i.i.d., allora:
a. la distribuzione campionaria di Ȳ ha media µY e varianza σȲ2 = σY2 /n;
b. la legge dei grandi numeri afferma che Ȳ converge in probabilità a µY ;
c. il teorema limite centrale afferma che la versione standardizzata di Ȳ , (Ȳ −
µY )/σȲ , ha una distribuzione normale standard (la distribuzione N (0, 1)), quando n è grande.
50
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 51 — #81
i
i
Sommario
Termini chiave
risultati (18)
probabilità (18)
spazio campionario (18)
evento (18)
variabile casuale discreta (18)
variabile casuale continua (18)
distribuzione di probabilità (19)
distribuzione di probabilità cumulata (19)
funzione di ripartizione (c.d.f.) (21)
variabile casuale di Bernoulli (20)
distribuzione di Bernoulli (20)
funzione di densità di probabilità (21)
funzione di densità (21)
densità (21)
valore atteso (21)
media (21)
varianza (24)
deviazione standard (24)
momenti di una distribuzione (25)
distribuzione di probabilità congiunta (26)
distribuzione di probabilità marginale (27)
distribuzione condizionata (28)
aspettativa condizionata (29)
media condizionata (29)
legge delle aspettative iterate (30)
varianza condizionata (30)
indipendenza (31)
covarianza (31)
correlazione (32)
incorrelati (32)
distribuzione normale (33)
distribuzione normale standard (33)
standardizzare una variabile casuale (33)
distribuzione normale multivariata (34)
distribuzione normale bivariata (34)
distribuzione chi-quadrato (37)
distribuzione Fm,∞ (37)
distribuzione t di Student (39)
campionamento casuale semplice (40)
popolazione (40)
identicamente distribuiti (41)
distribuiti indipendentemente
e identicamente (i.i.d.) (41)
distribuzione campionaria (42)
distribuzione esatta (43)
distribuzione asintotica (43)
legge dei grandi numeri (44)
convergenza in probabilità (45)
consistenza (45)
teorema limite centrale (45)
distribuzione normale asintotica (49)
Verifica dei concetti
2.1 Gli esempi di variabili casuali usate in questo capitolo comprendono: (a) il genere della
prossima persona che si incontrerà; (b) il numero di volte in cui un computer si blocca,
(c) il tempo che si impiega per andare a scuola; (d) il fatto che il computer assegnato in
biblioteca sia nuovo o vecchio; (e) il fatto che stia piovendo o meno. Spiegare perché
ognuno di essi può essere considerato casuale.
2.2 Si supponga che le variabili casuali X e Y siano indipendenti e che se ne conosca la
51
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 52 — #82
i
i
Sommario
distribuzione. Spiegare perché la conoscenza del valore di X non rivela niente riguardo
al valore di Y .
2.3 Supponiamo che X denoti l’ammontare di pioggia nel nostro paese durante un dato
mese e che Y indichi il numero di bambini nati a Los Angeles durante lo stesso mese.
X e Y sono indipendenti? Argomentare la risposta.
2.4 Un corso di econometria è seguito da 80 studenti e il peso medio degli studenti è di 65
kg. Nella classe viene selezionato un campione casuale di 4 studenti e se ne calcola
il peso medio. Il peso medio degli studenti inclusi nel campione sarà pari a 65 kg.?
Perché o perché no? Si usi questo esempio per spiegare perché la media campionaria,
Ȳ , è una variabile casuale.
2.5 Si supponga che Y1 , . . . , Yn siano variabili casuali i.i.d. con distribuzione N (1, 4). Si
disegni la densità di probabilità di Ȳ , quando n = 2. Si ripeta lo stesso per n = 10
e n = 100. Si descriva in che modo le densità differiscono. Qual è la relazione tra la
vostra risposta e la legge dei grandi numeri?
2.6 Si supponga che Y1 , . . . , Yn siano variabili casuali con la distribuzione di probabilità
della figura 2.8a. L’obiettivo è quello di calcolare Pr(Ȳ ≤ 0, 1). Sarebbe ragionevole
usare l’approssimazione normale se n = 5? E se n = 25 oppure n = 100? Si
argomentino le risposte.
Esercizi
2.1 Si usi la distribuzione di probabilità fornita nella tabella 2.2 per calcolare: (a) E(Y ) ed
2
e σY2 ; e (c) σXY e corr(X, Y ).
E(X); (b) σX
2.2 Usando le variabili casuali X e Y della tabella 2.2, si considerino due nuove variabili
2
e σV2 ;
causali W = 3 + 6X e V = 20 − 7Y . Si calcolino: (a) E(W ) e E(V ); (b) σW
(c) σW V e corr(W, V ).
2.3 La seguente tabella fornisce la distribuzione di probabilità congiunta tra stato occupazionale e livello scolare per individui impiegati oppure in cerca di occupazione (disoccupati) appartenenti alla popolazione statunitense in età lavorativa, sulla base del
Censimento USA del 1990.
Non-laureato
Laureato
Totale
Disoccupato (Y=0)
Occupato (Y=1)
Totale
0,045
0,005
0,05
0,709
0,241
0,95
0,754
0,246
1
52
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 53 — #83
i
i
Sommario
a. Si calcoli E(Y ).
b. Il tasso di disoccupazione è la frazione della forza lavoro che è disoccupata. Si
mostri che il tasso di disoccupazione è dato da 1 − E(Y ).
c. Si calcoli E(Y X = 1) e E(Y X = 0).
d. Si calcoli il tasso di disoccupazione per (i) laureati e (ii) non laureati.
e. Un membro di questa popolazione selezionato a caso dichiara di essere disoccupato. Qual è la probabilità che tale lavoratore sia laureato? Che sia non
laureato?
f. Livello d’istruzione e stato occupazionale sono indipendenti? Si argomenti la
risposta.
2.4 La variabile casuale Y ha media 1 e varianza 4. Sia Z =
2
µZ = 0 e che σZ
= 1.
1
2 (Y
− 1). Si mostri che
2.5 Si calcolino le seguenti probabilità:
a. Pr(Y ≤ 3), con Y distribuito secondo una N (1, 4);
b. Pr(Y > 0), con Y distribuito secondo una N (3, 9);
c. Pr(40 ≤ Y ≤ 52), con Y distribuito secondo una N (50, 25);
d. Pr(6 ≤ Y ≤ 8), con Y distribuito secondo una N (5, 2).
2.6 Si calcolino le seguenti probabilità:
a. Pr(Y ≤ 6, 63), con Y distribuito secondo una X12 ;
b. Pr(Y ≤ 7, 78), con Y distribuito secondo una X42 ;
c. Pr(Y > 2, 32), con Y distribuito secondo una F10,∞ .
2.7 In una popolazione µY = 100 e σY2 = 43. Si usi il teorema limite centrale per calcolare
le seguenti probabilità:
a. Pr(Ȳ ≤ 101) in un campione casuale di dimensione n = 100;
b. Pr(Ȳ > 98) in un campione casuale di dimensione n = 165;
c. Pr(101 ≤ Ȳ ≤ 103) in un campione casuale di dimensione n = 64.
2.8 Ogni anno, i temporali possono causare danni alle case. Da un anno all’altro, il danno
è casuale. Si indichi con Y il valore in dollari del danno subito in ogni dato anno. Si
supponga che nel 95% degli anni Y = 0, ma nel 5% degli anni Y = 20.000$.
a. Qual è la media e la deviazione standard del danno per ciascun anno?
53
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 54 — #84
i
i
Appendice
b. Si consideri una “assicurazione congiunta” per 100 persone le cui case siano sufficientemente disperse, cosicché, in ogni anno, i danni a case diverse possano
essere visti come variabili casuali indipendentemente distribuite. Si indichi con
Ȳ il danno medio subito da queste 100 case in un anno. (i) Qual è il valore atteso
del danno medio Ȳ ? (ii) Qual è la probabilità che Ȳ ecceda 2.000$?
2.9 Si considerino due variabili casuali X e Y . Si supponga che Y possa assumere k valori,
y1 , . . . , yk , e che X possa assumere l valori, x1 , . . . , xl .
Pl
a. Si mostri che Pr(Y = yj ) = i=1 Pr(Y = yj X = xi ) Pr(X = xi ) (suggerimento: si usi la definizione di Pr(Y = yj X = xi )).
b. Si usi la risposta della (a) per verificare l’equazione (2.17).
c. Si supponga che X e Y siano indipendenti. Si mostri che σXY = 0 e corr(X, Y ) =
0.
2.10 Questo esercizio fornisce un esempio di una coppia di variabili casuali X e Y per le
quali la media condizionata di Y data X dipende da X ma corr(X, Y ) = 0. Siano
X e Y due variabili casuali normali standard indipendentemente distribuite e sia Y =
X 2 + Z.
a. Si mostri che E(Y X) = X 2 .
b. Si mostri che µY = 1.
c. Si mostri che E(XY ) = 0 (suggerimento: si usi la proprietà della variabile
casuale normale standard di avere momenti di ordine dispari tutti nulli).
d. Si mostri che cov(X, Y ) = 0 e perciò che corr(X, Y ) = 0.
Appendice 2.1: derivazione dei risultati contenuti
nel concetto chiave 2.3
Questa appendice deriva le equazioni contenute nel concetto chiave 2.3.
L’equazione (2.29) deriva dalla definizione di aspettativa.
Per derivare la (2.30), si utilizzi la definizione di varianza per ottenere var(a + bY ) =
E [a + bY − E(a + bY )]2 = E [b(Y − µY )]2 = b2 E [(Y − µY )]2 = b2 σY2 .
54
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 55 — #85
i
i
Appendice
Per derivare l’equazione (2.31), si usi la definizione di varianza per ottenere
var(aX + bY ) = E [(aX + bY ) − (aµX + bµY )]2
= E [a(X − µX ) + b(Y − µY )]2
= E[a2 (X − µX )2 ] + 2E[ab(X − µX )(Y − µY )]
+E[b2 (Y − µY )]2 ]
= a2 var(X) + 2abcov(X, Y ) + b2 var(Y )
2
= a 2 σX
+ 2abσXY + b2 σY2 ,
(2.47)
dove la seconda uguaglianza si ottiene raggruppando i termini, la terza uguaglianza deriva
dallo svolgimento del quadrato e la quarta uguaglianza segue dalla definizione di varianza e
covarianza.
Per derivare la (2.32), si scriva E(Y 2 ) = E [(Y − µY ) + µY ]2 = E[(Y − µY )2 ] +
2µY E(Y − µY ) + µ2Y = σY2 + µ2Y , poiché E(Y − µY ) = 0.
Per derivare la (2.33), si usi la definizione della covarianza per ottenere
cov(a + bY + cV, Y ) = E {[a + bY + cV − E(a + bX + cV )][Y − µY ]}
= E {[b(X − µX ) + c(V − µV )][Y − µY ]}
= E {[b(X − µX )][Y − µY ]} + E {[c(V − µV )][Y − µY ]}
= bσXY + cσV Y ,
(2.48)
che è l’equazione (2.33).
Per derivare la (2.34), si scriva E(XY ) = E {[(X − µX ) + µX ][(Y − µY ) + µY ]} =
E[(X − µX )(Y − µY )] + µX E(Y − µY ) + µY E(X − µX ) + µX µY = σXY + µX µY .
Dimostriamo ora la disuguaglianza della correlazione (2.35), ovvero che |corr(X, Y )| ≤
2
e b = 1. Applicando la (2.31), si ha che
1. Sia a = −σXY /σX
2
var(aX + Y ) = a2 σX
+ σY2 + 2aσXY
2 2 2
2
= (−σXY /σX
) σX + σY2 + 2(−σXY /σX
)σXY
2
2
= σY2 − σXY
/σX
.
(2.49)
Siccome var(aX + Y ) è una varianza, non può essere negativa, cosı̀ dal membro finale della
2
2
≥ 0. Riarrangiando quest’ultima disuguaglianza,
/σX
(2.49) deve essere vero che σY2 − σXY
si ottiene
2
2 2
σXY
≤ σX
σY (disuguaglianza della covarianza).
(2.50)
2
2 2
La disuguaglianza della covarianza implica che σXY
/(σX
σY ) ≤ 1 o, equivalentemente,
|σXY /(σX σY )| ≤ 1, che (tramite la definizione di correlazione) conclude la dimostrazione
della disuguaglianza della correlazione, |corr(X, Y )| ≤ 1.
55
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 56 — #86
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 57 — #87
i
i
Capitolo 3
Richiami di statistica
La statistica è la scienza che ci permette di conoscere il mondo intorno a noi attraverso i dati.
Gli strumenti statistici aiutano a rispondere a domande riguardanti caratteristiche ignote della
distribuzione di popolazioni sulle quali si incentra il nostro interesse. Ad esempio, qual è la
media della distribuzione del reddito degli studenti neolaureati? Tale reddito medio differisce
tra uomini e donne e, se cosı̀, di quanto?
Queste domande riguardano la distribuzione dei redditi nella popolazione dei lavoratori.
Un modo di rispondere a tali domande potrebbe essere quello di condurre un’indagine approfondita sulla popolazione dei lavoratori che misuri il reddito di ciascun lavoratore e quindi
la distribuzione dei redditi nella popolazione. In pratica, però, una simile indagine omnicomprensiva risulterebbe estremamente costosa. L’unica indagine di questo tipo riguardante
l’intera popolazione statunitense è il censimento decennale. Il censimento effettuato negli
Stati Uniti nel 2000 è costato 10 miliardi di dollari, e per il processo di formulazione del
questionario, di gestione e conduzione delle indagini campionarie e, infine, organizzazione e
analisi dei dati richiede dieci anni. Nonostante questo straordinario impegno, molti membri
della popolazione sfuggono alla rilevazione e non sono intervistati. Un approccio diverso,
più pratico, è perciò necessario.
L’idea fondamentale della statistica è che si possono dedurre informazioni sulla distribuzione di una popolazione scegliendo un campione casuale da tale popolazione. Invece di
sottoporre a indagine l’intera popolazione statunitense, possiamo limitarci a, diciamo, 1.000
membri scelti a caso attraverso un campionamento casuale semplice. Con metodi statistici è possibile usare questo campione per ottenere conclusioni provvisorie (trarre inferenza
statistica) circa le caratteristiche dell’intera popolazione.
L’econometria fa pieno uso di tre tipologie di metodi statistici: la stima, la verifica di
ipotesi e gli intervalli di confidenza. La stima implica il calcolo di un valore numerico che
sia la “migliore congettura” ricavabile dai dati campionari circa una caratteristica ignota della
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 58 — #88
i
i
3.1. Stima della media di una popolazione
distribuzione di una popolazione, come la sua media. La verifica di ipotesi richiede la formulazione di un’ipotesi sulla popolazione e usa poi l’evidenza campionaria per decidere se
questa ipotesi sia vera. Gli intervalli di confidenza fanno uso di un insieme di dati per stimare
un intervallo o un insieme plausibile di valori per una caratteristica ignota della popolazione.
Le sezioni 3.1, 3.2 e 3.3 passano in rassegna la stima, la verifica di ipotesi e gli intervalli di
confidenza nel contesto dell’inferenza statistica circa la media ignota di una popolazione.
Gran parte delle domande interessanti in economia riguarda relazioni tra due o più variabili o il confronto tra popolazioni diverse. Per esempio, c’è differenza tra la retribuzione
media dei neolaureati e quella delle neolaureate? Nella sezione 3.4, i metodi sviluppati nelle
sezioni 3.1-3.3 per fare inferenza circa la media di una singola popolazione sono estesi per
effettuare confronti tra le medie di due popolazioni diverse. Tali metodi sono applicati nella
sezione 3.5, dove si studia l’evidenza circa i “differenziali di genere” nelle retribuzioni dei
laureati maschi e femmine. Il capitolo si conclude con una discussione, nella sezione 3.6,
della correlazione campionaria e dei diagrammi a nuvola di punti.
3.1 Stima della media di una popolazione
Supponiamo di voler conoscere il valore medio di Y (µY ) in una popolazione, ad esempio,
il reddito medio delle donne neolaureate. Un modo naturale di stimare questo valore consiste nel calcolare la media campionaria Ȳ per un campione di n osservazioni indipendenti e
identicamente distribuite (i.i.d.), Y1 , . . . , Yn (si ricordi che Y1 , . . . , Yn sono i.i.d., se ottenute
tramite un campionamento casuale semplice). In questa sessione discutiamo la stima di µ Y e
le proprietà di Ȳ quale stimatore di µY .
Stimatori e loro proprietà
Stimatori. La media campionaria è uno stimatore naturale di µY , ma non è l’unico. Ad
esempio, un modo di stimare µY consiste nell’usare la prima osservazione, Y1 . Sia Ȳ sia
Y1 sono funzioni dei dati utilizzabili per stimare µY ; per usare la terminologia del concetto
chiave 3.1, sono entrambi stimatori di µY . Valutati in campioni ripetuti, Ȳ e Y1 assumono
valori diversi (producono stime differenti) da un campione a un altro. Perciò, gli stimatori Ȳ
e Y1 possiedono entrambi una distribuzione campionaria. Ci sono, in realtà, molti stimatori
di µY , dei quali Ȳ e Y1 sono solo due esempi.
Gli stimatori che si possono utilizzare sono molti, ma cosa rende uno stimatore “migliore” di un altro? Essendo gli stimatori variabili casuali, la questione può essere riformulata
più precisamente come segue: quali caratteristiche sarebbero auspicabili per la distribuzione
campionaria di uno stimatore? In generale, vorremmo che uno stimatore si avvicinasse il
più possibile al vero valore ignoto di µY , almeno in termini medi; in altre parole, sarebbe
auspicabile che la distribuzione campionaria di uno stimatore fosse fortemente concentrata
58
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 59 — #89
i
i
3.1. Stima della media di una popolazione
Concetto chiave 3.1: stimatori e stime
Uno stimatore è una funzione di un campione di dati estratti casualmente da una popolazione. La stima è il valore numerico dello stimatore, quando questo viene calcolato
usando i dati di uno specifico campione. Uno stimatore è una variabile casuale per effetto
della casualità dovuta alla selezione del campione, mentre la stima è un numero.
attorno a tale valore ignoto. Questa osservazione suggerisce tre caratteristiche desiderabili
per uno stimatore: la non distorsione o correttezza (l’assenza di distorsione), la consistenza e
l’efficienza.
Non distorsione (correttezza). Supponiamo di calcolare uno stimatore molte volte per campioni ripetuti, estratti casualmente. È ragionevole chiedere di poter ottenere, in media, la
risposta giusta. Perciò, una caratteristica desiderabile di uno stimatore è che la media della
sua distribuzione campionaria sia uguale a µY ; quando ciò avviene, lo stimatore si dice non
distorto o corretto.
Matematicamente, sia µ̂Y uno stimatore di µY , come per esempio Ȳ o Y1 . Tale stimatore è non distorto (corretto), se E(µ̂Y ) = µY , dove E(µ̂Y ) è la media della distribuzione
campionaria di µ̂Y ; altrimenti, µ̂Y è distorto.
Consistenza. Un’altra proprietà desiderabile di uno stimatore µ̂Y è che, quando il campione
è grande, l’incertezza circa il valore di µY che deriva da deviazioni casuali sia molto piccola.
Più precisamente, una proprietà desiderabile di µ̂Y è che la probabilità che esso si trovi in un
intorno piccolo del vero valore di µY tenda a 1 al crescere della dimensione campionaria; in
questo caso, si dice che µ̂Y è uno stimatore consistente di µY (si veda il concetto chiave 2.6).
Varianza ed efficienza. Supponiamo di avere due stimatori di µY , µ̂Y e µ̃Y , entrambi non
distorti. Come scegliere tra i due? Un modo sarebbe quello di scegliere lo stimatore con
distribuzione campionaria più concentrata. Questo porta a preferire tra gli stimatori µ̂ Y e µ̃Y
quello con varianza minore. Se µ̂Y ha varianza minore di µ̃Y , allora µ̂Y è più efficiente di
µ̃Y . Il termine “efficienza” deriva dall’idea che, se µ̂Y ha varianza minore di µ̃Y , allora esso
usa l’informazione contenuta nei dati in maniera più efficiente di quanto faccia µ̃ Y .
La distorsione, la consistenza e l’efficienza sono riassunte nel concetto chiave 3.2.
59
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 60 — #90
i
i
3.1. Stima della media di una popolazione
Concetto chiave 3.2: distorsione, consistenza ed efficienza
Sia µ̂Y uno stimatore di µY . Allora:
• E(µ̂Y ) − µY misura la distorsione di µ̂Y ;
• µ̂Y è uno stimatore non distorto o corretto di µY , se E(µ̂Y ) = µY ;
p
• µ̂Y è uno stimatore consistente di µY , se µ̂Y → µY ;
• sia µ̃Y un altro stimatore di µY , anch’esso non distorto. Allora, µ̂Y è più efficiente
di µ̃Y , se var(µ̂Y ) < var(µ̃Y ).
Proprietà di Ȳ
Come si comporta Ȳ come stimatore di µY alla luce dei tre criteri della distorsione, della
consistenza e dell’efficienza?
Distorsione e consistenza. La distribuzione campionaria di Ȳ è stata già esaminata nelle
sezioni 2.5 e 2.6. Come mostrato nella sezione 2.5, E(Ȳ ) = µY . In modo simile, la legge
p
dei grandi numeri (vedi il concetto chiave 2.6) stabilisce che Ȳ → µY , ovvero che Ȳ è
consistente.
Efficienza. Cosa possiamo dire circa l’efficienza di Ȳ ? Siccome tale concetto richiede un
confronto tra stimatori, è necessario trovare uno o più stimatori con i quali confrontare Ȳ .
Cominciamo dimostrando l’efficienza di Ȳ rispetto allo stimatore Y1 . Poiché Y1 , . . . , Yn
sono i.i.d., la media della distribuzione campionaria di Y1 è E(Y1 ) = µY , e quindi Y1 è uno
stimatore non distorto di µY . La sua varianza è var(Y1 ) = σY2 . Sappiamo dalla sezione 2.5
che la varianza di Ȳ è σY2 /n. Cosı̀, per n ≥ 2, la varianza di Ȳ è minore di quella di Y1 ;
cioè, Ȳ è uno stimatore più efficiente di Y1 , e quindi, secondo il criterio dell’efficienza, Ȳ
dovrebbe essere preferito a Y1 . Non dovrebbe sorprendere che Y1 sia un cattivo stimatore
(perché dovremmo impegnarci tanto nel mettere insieme un campione di n osservazioni per
poi buttarle tutte via, fatta eccezione per la prima?) e il concetto di efficienza fornisce un
criterio formale per stabilire se Ȳ sia uno stimatore preferibile a Y1 .
Cosa si può invece dire circa uno stimatore non cosı̀ ovviamente cattivo? Si consideri la
media ponderata con pesi alternativamente pari a 12 e 32 :
Ỹ =
3
1
3
1
3
1 1
( Y1 + Y2 + Y3 + Y4 + · · · + Yn−1 + Yn ),
n 2
2
2
2
2
2
(3.1)
dove, per convenienza, si assume che il numero delle osservazioni n sia pari. La media di Ỹ
60
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 61 — #91
i
i
3.1. Stima della media di una popolazione
Concetto chiave 3.3: efficienza di Ȳ
Sia µ̂Y uno stimatore di µY ottenuto come media ponderata di Y1 , . . . , Yn , ovvero µ̂Y =
Pn
1
i=1 ai Yi , dove a1 , . . . , an sono costanti deterministiche. Se µ̂Y è non distorto, allora
n
var(Ȳ ) < var(Ŷ ), a meno che µ̂Y = Ȳ . Cioè, Ȳ è lo stimatore più efficiente di µY tra
tutti gli stimatori non distorti ottenuti come medie ponderate di Y1 , . . . , Yn .
è µY e la sua varianza è var(Ỹ ) = 1.25σY2 /n (esercizio 3.7). Ebbene, Ỹ è non distorto e,
poiché var(Ỹ ) → 0 per n → ∞, è anche consistente. Tuttavia, Ỹ ha varianza maggiore di
Ȳ . Perciò, Ȳ è più efficiente di Ỹ .
Gli stimatori Ȳ , Y1 e Ỹ hanno una struttura matematica comune: sono medie ponderate
di Y1 , . . . , Yn . I confronti effettuati nei due capoversi precedenti mostrano che le medie
ponderate Y1 e Ỹ hanno varianza maggiore di Ȳ . Infatti, queste conclusioni riflettono un
risultato più generale: Ȳ è lo stimatore più efficiente tra tutti gli stimatori non distorti che
siano ottenuti come medie ponderate di Y1 , . . . , Yn . Questo risultato è riassunto nel concetto
chiave 3.3 e provato nel capitolo 15.
Ȳ è lo stimatore dei minimi quadrati di µY . La media campionaria Ȳ fornisce il migliore
adattamento ai dati, nel senso che la differenza quadratica media tra le osservazioni e Ȳ è la
più piccola tra tutti gli stimatori possibili.
Si consideri il problema di trovare lo stimatore che minimizzi
n
X
i=1
2
(Yi − m) ,
(3.2)
che è una misura dello scarto o distanza totale al quadrato tra lo stimatore m e le osservazioni
campionarie. Poiché m è uno stimatore di E (Y ), possiamo pensarlo come una previsione del
valore di Yi , cosicché la differenza Yi − m è interpretabile come un errore di previsione. La
somma dei quadrati degli scarti nella (3.2) è interpretabile come la somma dei quadrati degli
errori di previsione.
Lo stimatore m che minimizza la somma dei quadrati degli scarti Yi − m nella (3.2) è
detto stimatore dei minimi quadrati. Si può pensare di risolvere il problema dei minimi
quadrati attraverso tentativi successivi: si possono cioè provare molti valori di m, finché non
si ritiene di essere arrivati al valore che minimizza la (3.2). In alternativa, come mostrato
nell’appendice 3.2, si può usare l’algebra o il calcolo differenziale per mostrare che m = Ȳ
minimizza la somma degli scarti quadratici (3.2), ovvero che Ȳ è lo stimatore dei minimi
quadrati di µY .
61
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 62 — #92
i
i
3.1. Stima della media di una popolazione
Vince Landon!
Poco prima delle elezioni presidenziali
del 1936, il Literary Gazette pubblicò un
sondaggio secondo il quale Alf M. Landon avrebbe sconfitto il candidato uscente,
Franklin D. Roosevelt, travolgendolo 57% a
43%. Il Gazette aveva ragione nell’affermare che l’elezione avrebbe travolto il candidato perdente, ma torto sul suo nome: Roosevelt vinse con il 59% dei voti favorevoli
contro il 41% dell’avversario.
Come poteva il Gazette aver commesso un simile errore? Il campione utilizzato dal Gazette era stato selezionato tra gli
abbonati telefonici e gli iscritti nei registri
automobilistici. Nel 1936, però, molte famiglie non possedevano un’automobile o un
telefono; chi li aveva, tendeva ad essere più
ricco–e con maggiore probabilità repubblicano. Siccome l’indagine telefonica non selezionò gli intervistati casualmente dall’intera popolazione ma sottocampionò invece
i democratici, la stima risultò distorta e il
Gazette commise un errore imbarazzante.
Pensate che indagini campionarie condotte su Internet potrebbero mostrare simili
problemi di distorsione?
Importanza del campionamento casuale
Abbiamo assunto che Y1 , . . . , Yn siano i.i.d., come quando i dati sono ottenuti tramite un
campionamento casuale semplice. Questa ipotesi è importante, dal momento che un campionamento non casuale potrebbe rendere Ȳ distorto. Supponiamo che, per stimare il tasso
di disoccupazione nazionale mensile, un istituto statistico adotti un piano di campionamento in base al quale gli intervistatori campionano gli adulti in età da lavoro seduti nei parchi
cittadini alle ore 10 del mattino del secondo mercoledı̀ del mese. Siccome la maggior parte
delle persone che hanno un impiego si trovano al lavoro a quell’ora (e non sedute nel parco!),
i disoccupati sono sovrarappresentati tra le persone che siedono nel parco e una stima del
tasso di disoccupazione basata su questo piano di campionamento risulterebbe distorta. La
distorsione è generata dalla presenza eccessiva, o dal sovracampionamento, di membri disoccupati della popolazione. Questo esempio è artificioso, ma l’aneddoto “Vince Landon!” nel
riquadro descrive un episodio realmente accaduto, in cui la distorsione è stata introdotta da
un piano di campionamento non del tutto casuale.
È importante disegnare schemi di selezione campionaria in modo tale da minimizzare
tale distorsione. L’appendice 3.1 include una discussione di che cosa viene in realtà fatto
dal Bureau of Labour Statistics quando svolge lo U.S. Current Population Survey (CPS),
l’indagine che esso usa per stimare la disoccupazione mensile negli USA.
62
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 63 — #93
i
i
3.2. Verifica di ipotesi circa la media della popolazione
3.2 Verifica di ipotesi circa la media della popolazione
Molte ipotesi sul mondo intorno a noi possono essere formulate in modo da avere come
risposta un semplice sı̀ o no. La retribuzione oraria media dei neolaureati statunitensi è uguale
a 20$ all’ora? La retribuzione media dei neolaureati è la stessa per maschi e femmine?
Entrambe queste domande incorporano ipotesi specifiche sulla distribuzione dei redditi nella
popolazione. La statistica ha l’arduo compito di rispondere a domande di questo genere,
basandosi sull’evidenza campionaria. Questa sezione descrive la verifica di ipotesi circa la
media della popolazione (la media della retribuzione oraria nella popolazione è 20$?). I test di
ipotesi riguardanti due popolazioni (la retribuzione media è la stessa per maschi e femmine?)
sono discussi nella sezione 3.4.
Ipotesi nulla e ipotesi alternativa
Il punto di partenza della verifica di ipotesi statistiche è la specificazione dell’ipotesi da testare, detta ipotesi nulla. La verifica di ipotesi richiede l’uso dei dati al fine di confrontare
l’ipotesi nulla con una seconda ipotesi, detta ipotesi alternativa, che è valida se la nulla non
lo è.
L’ipotesi nulla prevede che la media di Y nella popolazione, E(Y ), assuma un valore
specifico, indicato con µY,0 . Se indichiamo con H0 l’ipotesi nulla, allora
H0 : E(Y ) = µY,0 .
(3.3)
Per esempio, supporre che, in media nella popolazione, i laureati guadagnino 20$ all’ora
costituisce un’ipotesi nulla circa la distribuzione delle retribuzioni orarie nella popolazione.
In termini matematici, se Y rappresenta la retribuzione oraria di un neolaureato selezionato
casualmente, allora l’ipotesi nulla è che E(Y ) = 20, ovvero che µ Y,0 = 20 nella (3.3).
L’ipotesi alternativa specifica cosa è vero se l’ipotesi nulla non lo è. L’ipotesi alternativa
più generale è che E(Y ) 6= µY,0 ; è detta ipotesi alternativa bilaterale perché prevede che
E(Y ) possa essere sia minore sia maggiore di µY,0 . L’ipotesi alternativa può essere espressa
nel modo seguente:
H1 : E(Y ) 6= µY,0 (alternativa bilaterale).
(3.4)
Ipotesi alternative unilaterali sono anche possibili, e saranno discusse più avanti in questa
sezione.
Il problema che gli statistici affrontano è quello di utilizzare l’evidenza empirica fornita da un campione selezionato casualmente al fine di stabilire se accettare l’ipotesi nulla
H0 oppure rifiutarla in favore dell’ipotesi alternativa H1 . Quando si “accetta” l’ipotesi nulla, questo non vuol dire che essa sia vera; piuttosto, essa è provvisoriamente accettata con
l’intesa che potrebbe essere rifiutata successivamente alla luce di evidenza addizionale. Per
63
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 64 — #94
i
i
3.2. Verifica di ipotesi circa la media della popolazione
questa ragione, la prova di ipotesi statistiche può dar luogo sia al rifiuto dell’ipotesi nulla sia
all’impossibilità di rifiutarla.
Valore-p dei test
Dato un campione, la media campionaria Ȳ raramente risulterà esattamente pari al valore
ipotizzato µY,0 . Le differenze tra Ȳ e µY,0 possono derivare sia dalla possibilità che la vera
media non sia in realtà uguale a µY,0 (l’ipotesi nulla è falsa), sia dalla possibilità che la media
sia effettivamente uguale a µY,0 (l’ipotesi nulla è vera), ma che Ȳ differisca comunque da
µY,0 a causa del campionamento casuale. È impossibile distinguere con certezza tra queste
due possibilità. Sebbene un campione di dati non possa fornire evidenza conclusiva a favore
dell’ipotesi nulla, è possibile operare un calcolo probabilistico che permetta di sottoporre a
verifica l’ipotesi nulla in modo da tenere conto dell’incertezza derivante dal campionamento.
Questo calcolo prevede l’uso dei dati per ottenere il valore-p dell’ipotesi nulla.
Il valore-p, detto anche livello di significatività osservato, è la probabilità di ottenere
una statistica che sia tanto sfavorevole all’ipotesi nulla almeno quanto quella calcolata per
mezzo del campione, assumendo che l’ipotesi nulla sia corretta. Nel caso in questione, il
valore-p è la probabilità di ottenere un valore di Ȳ che, sotto l’ipotesi nulla, sia lontano nelle
code della distribuzione almeno quanto la media campionaria effettivamente calcolata.
Ad esempio, supponiamo che nel campione di studenti neolaureati la retribuzione media
sia di 22, 24$. Il valore-p è la probabilità di osservare un valore di Ȳ che, per il semplice
effetto della variabilità indotta dal campionamento casuale, sia diverso da 20$ (la media della
popolazione sotto l’ipotesi nulla) almeno quanto il valore osservato di 22, 24$, sempre assumendo che sia vera l’ipotesi nulla. Se questo valore-p fosse piccolo, diciamo pari a 0, 5%,
sarebbe allora alquanto inverosimile estrarre proprio questo campione, qualora fosse vera l’ipotesi nulla; è quindi ragionevole concludere che l’ipotesi nulla è falsa. Al contrario, con un
valore-p grande, diciamo 40%, è abbastanza verosimile che la media campionaria osservata
di 22, 24$ possa derivare proprio da una variazione dovuta al campionamento casuale, essendo vera l’ipotesi nulla; seguendo questo ragionamento, l’evidenza a sfavore dell’ipotesi nulla
è debole in termini probabilistici, ed è quindi ragionevole non rifiutarla.
Per formulare matematicamente la definizione di valore-p, si chiami Ȳ act il valore che
assume la media campionaria calcolata sui dati disponibili e sia PrH0 la probabilità calcolata
sotto l’ipotesi nulla (ovvero assumendo che E(Y1 ) = µY,0 ). Il valore-p è
valore-p = PrH0 [ Ȳ − µY,0 > Ȳ act − µY,0 ].
(3.5)
Cioè il valore-p è l’area nelle code della distribuzione di Ȳ , sotto l’ipotesi nulla, corrispondente ai valori esterni all’intervallo Ȳ act − µY,0 . Se il valore-p è elevato, allora il valore
osservato Ȳ act è coerente con l’ipotesi nulla, non lo è invece se il valore-p è piccolo.
64
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 65 — #95
i
i
3.2. Verifica di ipotesi circa la media della popolazione
Per calcolare il valore-p è necessario conoscere la distribuzione campionaria di Ȳ sotto
l’ipotesi nulla. Come discusso nella sezione 2.6, tale distribuzione è complicata in piccoli
campioni. Tuttavia, in base al teorema limite centrale, in grandi campioni la distribuzione
campionaria di Ȳ è ben approssimata da una distribuzione normale. Sotto l’ipotesi nulla, la
media di questa distribuzione è µY,0 , e quindi Ȳ si distribuisce come una N (µY,0 , σȲ2 ), con
σȲ2 = σY2 /n. L’approssimazione normale, valida per grandi campioni, permette di calcolare
il valore-p del test, senza che sia necessario conoscere la distribuzione di Y nella popolazione, sempreché la numerosità campionaria sia elevata. I dettagli del calcolo, comunque,
dipendono dal fatto che σY2 sia o meno nota.
Calcolo del valore p con σY nota
Il calcolo del valore-p con σY nota è riassunto nella figura 3.1. Se la numerosità campionaria
è elevata, sotto l’ipotesi nulla, la distribuzione campionaria di Ȳ è N (µY,0 , σȲ2 ), con σȲ2 =
σY2 /n. Perciò, sotto l’ipotesi nulla, (Ȳ − µY,0 )/σȲ (che è la versione standard di Ȳ ) si
distribuisce secondo una normale standard. Il valore-p è la probabilità, sotto l’ipotesi nulla,
di ottenere un valore di Ȳ distante da µY,0 almeno quanto Ȳ act o, equivalentemente, è la
probabilità di ottenere un valore (Ȳ − µY,0 )/σȲ maggiore di (Ȳ act − µY,0 )/σȲ in valore
assoluto. Questa probabilità è misurata dall’area ombreggiata nella figura 3.1.
Ȳ act − µY,0
Ȳ act − µY,0
Ȳ − µY,0
>
= 2Φ −
,
(3.6)
valore-p = Pr
H0
σȲ
σȲ
σȲ
dove Φ è la funzione di ripartizione di una distribuzione normale standard. Cioè, il valore-p
è l’area nelle code di una distribuzione normale standard al di fuori dell’intervallo ±( Ȳ act −
µY,0 )/σȲ .
La formula (3.6) per il valore-p dipende dalla varianza della distribuzione della popolazione, σY2 . In pratica, questa varianza è tipicamente ignota (un’eccezione è costituita dal
caso in cui Yi è dicotomica, e quindi ha una distribuzione di Bernoulli, nel qual caso la sua
varianza è determinata dall’ipotesi nulla; vedi la (2.7)). Poiché, in generale, σ Y2 deve essere
stimata prima che si possa calcolare il valore-p, ritorniamo allora al problema della stima di
σY2 .
Varianza campionaria, deviazione standard campionaria ed
errore standard
La varianza campionaria s2Y è uno stimatore della varianza della popolazione σY2 ; la deviazione standard campionaria sY è uno stimatore della deviazione standard della popolazione
σY ; e l’errore standard della media campionaria Ȳ è uno stimatore della deviazione standard
della distribuzione campionaria di Ȳ .
65
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 66 — #96
i
i
3.2. Verifica di ipotesi circa la media della popolazione
Figura 3.1: calcolo del valore-p
Il valore p… è
l'area ombreggiata
nel grafico
€
–
N(0, 1)
–
Y act–µ Y,0
σ Y–
0
–
Y act–µ Y,0
σ Y–
z
Il valore-p è la probabilità di estrarre un valore di Ȳ che differisca da µY,0 almeno tanto quanto Ȳ act . In
2 ) sotto l’ipotesi nulla, cosicché (Ȳ − µ
grandi campioni, Ȳ si distribuisce come una N (µY,0 , σȲ
Y,0 )/σȲ si
distribuisce come una N (0, 1) . Perciò il valore-p è la probabilità ombreggiata sulle code della distribuzione
˛
˛
normale standard al di fuori di ± ˛(Ȳ − µY,0 )/σȲ ˛ .
La varianza campionaria e la deviazione standard. La varianza campionaria s 2Y è
n
s2Y =
2
1 X
Yi − Ȳ .
n − 1 i=1
(3.7)
La deviazione standard campionaria sY è la radice quadrata della varianza campionaria.
La formula della varianza campionaria somiglia molto a quella della varianza della po2
2
polazione. La varianza della popolazione, E (Y − µY ) , è il valore medio di (Y − µY )
nella popolazione. Allo stesso modo, la varianza campionaria è la media campionaria di
(Yi − µY )2 , i = 1, . . . , n, con due modifiche: in primo luogo, µY è sostituita da Ȳ ; in
secondo luogo, la media usa come divisore n − 1 invece di n.
La ragione della prima modifica (la sostituzione di µY con Ȳ ) è che µY è ignota e deve
perciò essere stimata; lo stimatore naturale di µY è Ȳ . La ragione della seconda modifica
(divisore pari a Electronic
n − 1 invece
che a n) Services
è che, stimando
Publishing
Inc. µY attraverso Ȳ , si introduce una
2
leggera hdistorsione
verso il basso in
Yi − Ȳ . Nello
Stock/Watson,
Econometrics
1e specifico, come mostrato
h nell’esercizio
2 i
2 i
2
Pn
2
=
3.11, E Yi − ȲSTOC.ITEM.0009
= [(n − 1) /n] σY . Quindi, E i=1 Yi − Ȳ = nE Yi − Ȳ
2
Fig.
03.01
(n − 1) σY . Dividere per n−1 nella (3.7) invece che per n corregge questa piccola distorsione
verso il basso, e quindi1st
s2Y Proof
è non distorto.2nd Proof
3rd Proof
Final
66
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 67 — #97
i
i
3.2. Verifica di ipotesi circa la media della popolazione
La divisione per n−1 nella (3.7) invece che per n è detta correzione per i gradi di libert à:
stimare la media consuma una parte dell’informazione contenuta nei dati–consuma cioè un
“grado di libertà”–lasciando solo n − 1 gradi di libertà.
Consistenza della varianza campionaria. La varianza campionaria è uno stimatore consistente della varianza della popolazione, cioè
p
s2Y → σY2 .
(3.8)
In altre parole, la varianza campionaria è prossima alla varianza della popolazione con alta
probabilità quando n è grande.
Il risultato (3.8) è dimostrato nell’appendice 3.3 sotto l’ipotesi che Y 1 , . . . , Yn siano i.i.d.
e che Yi abbia momento quarto finito, ovvero E Yi4 < ∞. Intuitivamente, la ragione per cui
s2Y è consistente sta nel fatto che essa è una media campionaria e quindi obbedisce alla legge
dei grandi numeri. Comunque, perché s2Y obbedisca alla legge dei grandi numeri, presentata
2
nel concetto chiave 2.6, (Y − µY ) deve avere varianza finita, il che implica, a sua volta, che
E Yi4 sia finito, cioè che Yi abbia momento quarto finito.
Errore standard di Ȳ . Poiché la deviazione standard della distribuzione campionaria di Ȳ
√
√
è σȲ = σY / n, la (3.8) giustifica l’uso di sY / n come stimatore di σȲ . Questo stimatore
√
di σȲ , sY / n, è detto errore standard di Ȳ ed è indicato con SE Ȳ o con σ̂Ȳ (“ ˆ ” sul
simbolo indica che si tratta di uno stimatore di σȲ ). L’errore standard di Ȳ è riassunto nel
concetto chiave 3.4.
Calcolo del valore-p con σY ignota
Poiché s2Y è uno stimatore consistente di σY2 , il valore-p può essere calcolato sostituendo σȲ
nella (3.6) con l’errore standard SE Ȳ = σ̂Ȳ . Perciò, con σY ignota e Y1 , . . . , Yn i.i.d., il
valore-p si calcola applicando la seguente formula
!
Ȳ act − µY,0
.
(3.9)
valore-p = 2Φ −
SE Ȳ
Statistica t
La media campionaria standardizzata Ȳ − µY,0 /SE Ȳ gioca un ruolo cruciale nella verifica di ipotesi statistiche e ha un nome speciale, statistica t o rapporto t:
t=
Ȳ − µY,0
.
SE Ȳ
(3.10)
In generale, una statistica test è una statistica usata per la verifica di ipotesi. La statistica
t è un esempio importante di statistica test.
67
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 68 — #98
i
i
3.2. Verifica di ipotesi circa la media della popolazione
La distribuzione della statistica t in grandi campioni. Quando n è grande, s2Y è prossimo a
σY2 con alta probabilità. Perciò, la statistica t ha approssimativamente la stessa distribuzione
di Ȳ − µY,0 /σȲ2 , che, per il teorema limite centrale, è a sua volta ben approssimata da una
distribuzione normale standard quando n è grande (concetto chiave 2.7). Di conseguenza,
sotto l’ipotesi nulla,
t si distribuisce approssimativamente secondo una N (0, 1) per n grande.
t
act
(3.11)
La formula (3.9) del valore-p può essere riscritta in termini della statistica t. Chiamiamo
il valore della statistica t effettivamente calcolato, cioè
tact =
Ȳ act − µY,0
.
SE Ȳ
Di conseguenza, per n grande, il valore-p può essere calcolato usando la formula
valore-p = 2Φ − tact .
(3.12)
(3.13)
Come esempio ipotetico, supponiamo di usare un campione di n = 200 neolaureati
per verificare l’ipotesi nulla che la retribuzione media, E(Y ), sia pari a 20$ per ora. La
retribuzione media campionaria sia Ȳ act = 22, 64$ e la deviazione standard campionaria
√
√
sY = 18, 14$. Allora, l’errore standard di Ȳ è sY / n = 18, 14/ 200 = 1, 28 e il valore
della statistica t è tact = (22, 64 − 20) /1, 28 = 2, 06. Dalla tavola 1 dell’appendice finale, il
valore-p è 2Φ (−2, 06) = 0, 039, ovvero pari a 3, 9%. Ciò significa che, supponendo che sia
vera l’ipotesi nulla, la probabilità di ottenere una media campionaria distante da zero almeno
quanto quella calcolata sui dati è 3, 9%.
Distribuzione della statistica t quando Y si distribuisce normalmente. Quando la popolazione si distribuisce normalmente, la statistica t si distribuisce secondo una t di Student con
n − 1 gradi di libertà (sezione 2.4); in questo caso particolare, il valore-p può essere calcolato
esattamente, qualunque sia la dimensione n del campione, senza dover far ricorso al teorema
limite centrale. Siccome la distribuzione t di Student ha code più pesanti della distribuzione normale, i valori-p calcolati tramite la distribuzione t di Student sono maggiori di quelli
calcolati tramite la distribuzione normale.
Sebbene alcuni pacchetti statistici calcolino i valori-p utilizzando la distribuzione t di Student, questa distribuzione non verrà usata in questo libro per due ragioni. La prima ragione è
che la statistica t ha una distribuzione t di Student solo se la popolazione si distribuisce secondo una normale, distribuzione che molto spesso fornisce una cattiva approssimazione della
vera distribuzione dei dati economici. Perciò, al vantaggio di poter usare questa distribuzione
quando Y è distribuita normalmente si contrappone lo svantaggio di essere raramente applicabile. La seconda ragione è che le differenze tra la distribuzione t di Student e la normale
68
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 69 — #99
i
i
3.2. Verifica di ipotesi circa la media della popolazione
Concetto chiave 3.4: errore standard di Ȳ
L’errore standard di Ȳ è uno stimatore della deviazione standard di Ȳ . L’errore standard
di Ȳ viene indicato con SE(Ȳ ) o con σ̂Y . Quando Y1 , . . . , Yn sono i.i.d.,
√
SE(Ȳ ) = σ̂Ȳ = sY / n.
(3.14)
standard sono ridotte, se la numerosità campionaria non è troppo piccola, e trascurabili, se
essa è elevata. Per n > 15, la differenza tra i valori-p calcolati utilizzando le due distribuzioni
non supera mai 0, 01 e, per n > 80, non supera mai 0, 002. Nelle applicazioni moderne, e
in tutte quelle contenute in questo testo, la dimensione del campione raggiunge le centinaia o
le migliaia di unità; è, quindi, grande abbastanza perché la differenza tra la distribuzione t di
Student e la distribuzione normale standard sia trascurabile.
Verifica di ipotesi con livello di significatività prefissato
Supponiamo di aver deciso che l’ipotesi nulla venga rifiutata se il valore-p è inferiore a 5%.
Siccome l’area nelle code della distribuzione normale al di fuori dell’intervallo ±1, 96 è 5%,
si ottiene una semplice regola:
rifiutare H0 se tact > 1, 96,
(3.15)
cioè, si rifiuta l’ipotesi nulla se il valore della statistica t calcolata sul campione è maggiore
di 1, 96 in valore assoluto. Se n è sufficientemente grande allora, sotto l’ipotesi nulla, la
statistica t si distribuisce secondo una N (0, 1). Perciò, la probabilità di rifiutare erroneamente
l’ipotesi nulla (rifiutare quando in realtà essa è vera) è 5%.
Per la verifica delle ipotesi statistiche esiste una specifica terminologia riassunta nel concetto chiave 3.5. Il livello di significatività del test descritto nella (3.15) è 5%, il valore critico
di questo test bilaterale è 1, 96 e la regione di rifiuto comprende tutti i valori assunti dalla
statistica t che siano al di fuori dell’intervallo ±1, 96. Se il test rifiuta con un livello di significatività del 5%, si dice che la media della popolazione µY è statisticamente diversa da µY,0
al livello di significatività 5%.
Quando la verifica di ipotesi utilizza un livello di significatività prefissato, non serve
calcolare il valore-p. Nell’esempio precedente, in cui si verificava l’ipotesi che la retribuzione
media dei neolaureati fosse di 20$, la statistica t era 2, 06. Questo valore è maggiore di 1, 96,
e quindi l’ipotesi è rifiutata al livello 5%. Sebbene la verifica di ipotesi con un livello di
significatività del 5% sia semplice, sapere solo se l’ipotesi nulla è rifiutata o meno a un livello
di significatività prefissato dà meno informazioni rispetto a quando si conosce il valore-p.
69
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 70 — #100
i
i
3.2. Verifica di ipotesi circa la media della popolazione
Quale livello di significatività utilizzare in pratica? In molti casi, statistici ed econometrici
usano un livello di significatività del 5%. Se dovessimo sottoporre a verifica parecchie ipotesi
statistiche al 5%, in media rifiuteremmo la nulla erroneamente una volta su venti. Talvolta,
un livello di significatività più conservatore potrebbe essere più adeguato. Per esempio, i casi
legali richiedono talvolta il conforto dell’evidenza statistica, e l’ipotesi nulla potrebbe essere
quella che l’imputato sia non colpevole; in questi casi, si potrebbe voler essere abbastanza
sicuri che un rifiuto della nulla (sentenza di colpevolezza) non sia soltanto il risultato della
variabilità campionaria. In alcuni contesti giuridici, il livello di significatività utilizzato è 1%
o anche 0, 1%, al fine di evitare simili errori. Allo stesso modo, se un’agenzia governativa sta
prendendo in considerazione la legalizzazione della vendita di nuovi farmaci, uno standard
molto conservatore potrebbe essere necessario per rassicurare il consumatore circa l’efficacia
dei farmaci in commercio.
Essere conservatori, nel senso di usare un livello di significatività molto basso, ha un
costo: minore è il livello di significatività, più grande è il valore critico e più difficile diventa rifiutare la nulla quando è falsa. In effetti, l’atteggiamento più conservatore possibile
è quello di non rifiutare mai la nulla, ma, se fosse davvero questa l’intenzione, non sarebbe
allora necessario guardare ad alcuna evidenza statistica, dal momento che non si è disposti a
cambiare idea! Più basso è il livello di significatività, più bassa la potenza del test. Molte applicazioni economiche e di politica economica possono richiedere un minor conservatorismo
rispetto a un caso legale, e quindi un livello di significatività del 5% appare, in molti casi, un
compromesso ragionevole.
Il concetto chiave 3.6 riassume la verifica di ipotesi riguardanti la media della popolazione
contro ipotesi alternative bilaterali.
Alternative unilaterali
In alcune situazioni, l’ipotesi alternativa potrebbe essere che la media è maggiore di µ Y,0 .
Ad esempio, ci si augura che l’istruzione aiuti nel mercato del lavoro, e quindi l’alternativa
rilevante, data un’ipotesi nulla che prevede che le retribuzioni siano le stesse per i laureati e
i non laureati, potrebbe non essere semplicemente che le retribuzioni semplicemente differiscono, ma piuttosto che i laureati gaudagnano più dei non laureati. Questa è detta ipotesi
alternativa unilaterale e può essere scritta come segue:
H1 : E (Y ) > µY,0 (alternativa unilaterale).
(3.16)
L’approccio generale al calcolo del valore-p e alla verifica di ipotesi è lo stesso tanto nel
caso di alternative unilaterali quanto nel caso di alternative bilaterali, con la differenza che
il test rifiuta solo quando il valore della statistica t è grande e positivo, invece che grande in
valore assoluto. Nello specifico, per verificare l’ipotesi unilaterale (3.16) bisogna costruire la
70
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 71 — #101
i
i
3.3. Intervalli di confidenza per la media della popolazione
Concetto chiave 3.5: la terminologia della verifica di ipotesi
La probabilità prefissata di rifiutare l’ipotesi nulla quando questa è vera costituisce il livello
di significatività del test. Il valore critico della statistica test è il valore per il quale
il test passa dal non rifiuto al rifiuto dato un certo livello di significatività. L’insieme
dei valori della statistica test per i quali il test rifiuta l’ipotesi nulla è detto regione di
rifiuto e l’insieme dei valori per i quali il test non rifiuta l’ipotesi nulla è detto regione di
accettazione. La probabilità che il test porti al rifiuto dell’ipotesi nulla quando questa è
vera è detta livello minimo del test, e la probabilità che il test rifiuti correttamente l’ipotesi
nulla quando è vera l’alternativa è detta potenza del test.
Il valore-p è la probabilità, nel caso di campionamento ripetuto, di ottenere una statistica test sfavorevole all’ipotesi nulla almeno quanto la statistica effettivamente osservata,
assumendo che valga l’ipotesi nulla. Equivalentemente, il valore-p è il livello di significatività più basso per il quale si può rifiutare l’ipotesi nulla dato il valore osservato della
statistica test.
statistica t riportata nella (3.10). Il valore-p è l’area sottostante la densità normale standard
alla destra del valore osservato della statistica t. Cioè, il valore-p, basato sull’approssimazione
N (0, 1) alla distribuzione della statistica t, è
valore-p = Pr Z > tact = 1 − Φ tact .
H0
(3.17)
Il valore critico di una N (0, 1) per un test unilaterale con livello di significatività 5% è 1, 645.
La regione di rifiuto per questo test comprende tutti i valori della statistica t che sono maggiori
di 1, 645.
L’alternativa unilaterale (3.16) consiste dei valori di µY che sono maggiori di µY,0 . Se
invece l’ipotesi alternativa fosse E (Y ) < µY,0 , allora varrebbe ancora la discussione del
capoverso precedente, ma con i segni cambiati; ad esempio, la regione di rifiuto al 5%
comprenderebbe i valori della statistica t minori di −1, 645.
3.3 Intervalli di confidenza per la media della popolazione
A causa degli errori campionari, è impossibile inferire l’esatto valore medio di Y nella popolazione usando solo l’informazione contenuta nel campione. Tuttavia, è possibile utilizzare
i dati relativi a un campione casuale per costruire un insieme di valori che contiene la vera
media della popolazione con una certa probabilità prefissata. Tale insieme è detto regione
di confidenza e la probabilità prefissata che µY appartenga a questo insieme è detta livello
di confidenza. La regione di confidenza per µY risulta essere costituita da tutti i valori della
71
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 72 — #102
i
i
3.3. Intervalli di confidenza per la media della popolazione
Concetto chiave 3.6: verifica dell’ipotesi E(Y ) = µY,0 contro
l’alternativa E(Y ) 6= µY,0
1. Si calcola l’errore standard di Ȳ , SE(Ȳ ) (formula (3.14)).
2. Si calcola la statistica t (formula (3.10)).
3. Si calcola il valore-p (formula (3.13). Si rifiuta l’ipotesi al livello di significatività
del 5%, se il valore-p è minore di 0, 05 (o, equivalentemente, se |t act | > 1, 96).
media compresi tra un limite inferiore e un limite superiore, e quindi la regione di confidenza
è un intervallo, detto intervallo di confidenza.
Vediamo ora un modo per costruire un intervallo di confidenza di livello 95% per la media
della popolazione. Cominciamo scegliendo alcuni valori arbitrari per la media; chiamiamoli
µY,0 . Verifichiamo l’ipotesi nulla µY = µY,0 contro l’alternativa µY 6= µY,0 calcolando la
statistica t; se questa è minore di 1, 96, il valore ipotizzato µY,0 non può essere rifiutato al livello 5% e viene annotato. Scegliamo ora un altro valore arbitrario per µ Y,0 e sottoponiamolo
a verifica; se non possiamo rifiutarlo, lo aggiungiamo all’elenco. Andiamo avanti seguendo
lo stesso procedimento per molte altre volte, anzi, per tutti i valori possibili della media della
popolazione. Continuando questo processo si ottiene l’insieme di tutti i valori della media
della popolazione che non possono essere rifiutati al 5% da un test d’ipotesi bilaterale.
Questo elenco è utile perché riassume l’insieme delle ipotesi che possiamo o non possiamo rifiutare (al livello 5%) basandoci sui nostri dati: se qualcuno venisse da noi con un
numero specifico in mente, potremmo dirgli se la sua ipotesi può essere rifiutata o meno
semplicemente scorrendo i numeri che compaiono nel nostro elenco. Un ragionamento attento mostra che questo insieme di valori ha una proprietà notevole: la probabilità che esso
contenga il valore vero della media della popolazione è pari a 95%.
Il ragionamento è il seguente. Supponiamo che il valore vero di µ Y sia 21, 5 (anche se
noi, in realtà, non lo sappiamo). Allora Ȳ ha una distribuzione normale centrata attorno a
21, 5 e la statistica t per verificare l’ipotesi nulla µY = 2, 15 ha una distribuzione N (0, 1).
Perciò, per n grande, la probabilità di rifiutare l’ipotesi nulla µY = 2, 15 al livello 5% è
5%. Siccome, però, abbiamo sottoposto a verifica tutti i possibili valori della media della
popolazione per costruire il nostro insieme, di fatto abbiamo sottoposto a verifica il vero
valore µY = 2, 15. Nel 95% di tutti i campioni accetteremo correttamente il valore 21, 5;
questo significa che nel 95% di tutti i campioni, il nostro elenco conterrà il valore vero di µ Y .
Quindi, i valori dell’elenco costituiscono una regione di confidenza di livello 95% per µ Y .
Questo metodo per costruire regioni di confidenza è improponibile, perché richiede che si
72
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 73 — #103
i
i
3.4. Confronto tra medie di popolazioni diverse
testino come ipotesi nulla tutti i possibili valori di µY . Fortunatamente, c’è un metodo molto
più semplice. Secondo la formula (3.10) per la statistica t, un valore di prova pari a µ Y,0 è
rifiutato al 5% se è lontano più di 1, 96 errori standard da Ȳ . Perciò, l’insieme dei valori di
µY che non sono rifiutati al livello 5% è composto da quei valori compresi tra ±1, 96 SE Ȳ
da Ȳ . Quindi, un intervallo di confidenza di livello 95% per µY è Ȳ − 1, 96 SE Ȳ ≤ µY ≤
Ȳ + 1, 96SE Ȳ . Il concetto chiave 3.7 riassume questo approccio.
Come esempio, consideriamo il problema della costruzione di un intervallo di confidenza
al 95% per la retribuzione media oraria dei neolaureati, usando un campione casuale ipotetico
di 200 neolaureati in cui Ȳ = 22, 64$ e SE Ȳ = 1, 28. L’intervallo di confidenza al 95%
per la retribuzione media oraria è 22, 64±1, 96×1, 28 = 22, 64±2, 51 = (20, 13$, 25, 15$).
La discussione condotta finora si è focalizzata sugli intervalli di confidenza bilaterali. Si
potrebbe invece costruire un intervallo di confidenza unilaterale con valori di µ Y che non
possono essere rifiutati da un test d’ipotesi unilaterale. Sebbene gli intervalli di confidenza unilaterali trovino applicazione in alcuni rami della statistica, sono poco frequenti nelle
applicazioni econometriche.
Probabilità di copertura. La probabilità di copertura di un intervallo di confidenza per la
media della popolazione è la probabilità, calcolata su campioni ripetuti, che esso contenga la
vera media della popolazione.
3.4 Confronto tra medie di popolazioni diverse
I neolaureati e le neolaureate guadagnano mediamente lo stesso ammontare? Questa domanda richiede di confrontare le medie delle distribuzioni di due diverse popolazioni. In questa
sezione si esamina come verificare ipotesi e come costruire intervalli di confidenza per la
differenza tra le medie di due popolazioni diverse.
Test d’ipotesi per la differenza tra due medie
Sia µw la retribuzione oraria media per la popolazione delle donne neolaureate e sia µ m la
retribuzione oraria media per la popolazione degli uomini neolaureati. Consideriamo l’ipotesi nulla che le retribuzioni di queste due popolazioni differiscano mediamente di un certo
ammontare, diciamo d0 . Allora l’ipotesi nulla e l’ipotesi alternativa bilaterale sono
H0 : µm − µw = d0 contro H1 : µm − µw 6= d0 .
(3.18)
L’ipotesi nulla che gli uomini e le donne appartenenti a queste popolazioni abbiano la stessa
retribuzione corrisponde alla H0 nella (3.18) con d0 = 0.
Poiché le medie di queste popolazioni sono ignote, debbono essere stimate su campioni
di donne e uomini. Supponiamo di avere due campioni di n m uomini e nw donne estratti
73
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 74 — #104
i
i
3.4. Confronto tra medie di popolazioni diverse
Concetto chiave 3.7: intervalli di confidenza per la media della popolazione
Un intervallo di confidenza di livello 95% per µY è costruito in modo da contenere il valore
vero di µY nel 95% delle sue applicazioni. Quando la dimensione campionaria n è elevata,
gli intervalli di confidenza di livello 95%, 90% e 99% per µY sono, rispettivamente:
intervallo di confidenza di livello 95% per µY = Ȳ ± 1, 96 SE(Ȳ ) ;
intervallo di confidenza di livello 90% per µY = Ȳ ± 1, 64 SE(Ȳ ) ;
intervallo di confidenza di livello 99% per µY = Ȳ ± 2, 58 SE(Ȳ ) .
casualmente dalle rispettive popolazioni. Sia Ȳm la media campionaria della retribuzione
annuale per gli uonimi e sia Ȳw quella per le donne. Allora Ȳm − Ȳw è uno stimatore di
µm − µ w .
Per verificare l’ipotesi nulla che µm − µw = d0 tramite Ȳm − Ȳw , dobbiamo conoscere
la distribuzione di Ȳm − Ȳw . Si ricordi che, per il teorema limite centrale, Ȳm si distribuisce
2
2
approssimativamente secondo una N µm , σm
/nm , dove σm
è la varianza delle retribuzioni
nella popolazione degli uomini. Similmente, Ȳw si distribuisce approssimativamente secondo
2
2
è la varianza delle retribuzioni nella popolazione delle donne.
una N µw , σw
/nw , dove σw
Si ricordi, inoltre, dalla sezione 2.4 che una media ponderata di due variabili casuali normali
si distribuisce anch’essa secondo una normale. Poiché Ȳm e Ȳw sono costruiti sulla base
di due diversi campioni casuali, sono variabili casuali indipendenti. Perciò, Ȳm − Ȳw si
2
2
distribuisce secondo una N µm − µw , σm
/nm + σw
/nw .
2
2
Se σm
e σw
fossero note, allora si potrebbe usare l’approssimazione rappresentata dalla
distribuzione normale per calcolare il valore-p per l’ipotesi nulla che µ m − µw = d0 . In
pratica, comunque, le varianze delle popolazioni sono tipicamente ignote e debbono essere
stimate. Come prima, esse possono essere stimate usando le varianze campionarie, s 2m e s2w ,
dove s2m è definita come nella (3.7), tranne che la statistica è calcolata soltanto per gli uomini
presenti nel campione, e s2w è definita per le donne allo stesso modo. Quindi, l’errore standard
di Ȳm − Ȳw è
s
s2
s2m
SE Ȳm − Ȳw =
+ w.
(3.19)
nm
nw
La statistica t per l’ipotesi nulla è costruita analogamente alla statistica t per un’ipotesi
riguardante la media di una singola popolazione, cioè sottraendo il valore ipotizzato µ m − µw
dallo stimatore Ȳm − Ȳw e dividendo il risultato per l’errore standard di Ȳm − Ȳw :
Ȳm − Ȳw − d0
(statistica t per il confronto tra due medie).
t=
(3.20)
SE Ȳm − Ȳw
74
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 75 — #105
i
i
3.4. Confronto tra medie di popolazioni diverse
Se nm e nw sono entrambi grandi, allora la statistica t ha una distribuzione normale standard. 1
Poiché la statistica t nella (3.20) ha una distribuzione normale standard sotto l’ipotesi
nulla quando nm e nw sono elevate, il valore-p del test bilaterale è calcolato come nel caso
relativo a una singola popolazione; cioè, il valore-p è calcolato usando la (3.13).
Per condurre un test con un livello di significatività prefissato, si calcola semplicemente la
statistica t definita nella (3.20) e la si confronta con il valore critico appropriato. Ad esempio,
si rifiuta l’ipotesi nulla al livello di significatività 5%, se il valore assoluto della statistica t è
maggiore di 1, 96.
Se l’alternativa è unilaterale invece che bilaterale, cioè se l’alternativa prevede che µ m −
µw > d0 , allora il test va modificato come mostrato nella sezione 3.2. Il valore-p si calcola
applicando la (3.17) e il test rifiuta l’ipotesi nulla con un livello di significatività del 5%
quando t > 1, 65.
Intervalli di confidenza per la differenza tra le medie di due popolazioni
Il metodo per costruire intervalli di confidenza riassunto nella sezione 3.3 si estende alla
costruzione di intervalli di confidenza per la differenza tra medie d = µ m − µw . Poiché il
valore ipotizzato d0 si rifiuta al livello 5% se |t| > 1, 96, d0 si situa nella regione di confidenza
se |t| ≤ 1, 96. Tuttavia, |t| ≤ 1, 96 implica che la differenza stimata Ȳm − Ȳw si discosta da
d0 meno di 1, 96 errori standard. Perciò, l’intervallo di confidenza bilaterale per d di livello
95% include tutti i valori di d che differiscono da Ȳm − Ȳw meno di ±1, 96 errori standard.
L’intervallo di confidenza al 95% per d = µm − µw è
Ȳm − Ȳw ± 1, 96 SE Ȳm − Ȳw .
(3.21)
Con queste formule alla mano, esaminiamo uno studio empirico sulla differenza di genere
delle retribuzioni dei neolaureati statunitensi.
1 Se le varianze delle due popolazioni sono uguali (i.e., σ 2 = σ 2 = σ 2 ), allora Ȳ
m − Ȳw si distribuisce
m
w
`
´
secondo una N µm − µw , [(1/nm ) + (1/nw )] σ 2 . In questo caso particolare, è possibile usare il cosiddetto
stimatore della varianza aggregata di σ 2
3
2
nm
nw
X
X
`
´
`
´
1
2
2
4
Yi − Ȳm +
Yj − Ȳw 5 ,
s2pooled =
nm + nw − 2 i=1
j=1
dove la prima sommatoria riguarda le osservazioni relative agli uomini e la seconda quelle relative alle donne. Se
le varianze delle due popolazioni differissero, lo stimatore della varianza aggregata sarebbe distorto e inconsistente.
Per questo motivo, tale stimatore non dovrebbe essere utilizzato nelle applicazioni, a meno che non sussistano valide
ragioni per credere che le varianze delle due popolazioni siano uguali.
75
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 76 — #106
i
i
3.5. Redditi di laureati e laureate negli Stati Uniti
3.5 Redditi di laureati e laureate negli Stati Uniti
Storicamente, gli uomini hanno avuto più facilmente accesso a lavori ben pagati rispetto alle
donne. Tuttavia, i cambiamenti nelle norme sociali e la legislazione contro la discriminazione
sessuale hanno portato uomini e donne a svolgere un ruolo uguale nell’attuale mondo del
lavoro–almeno in teoria. Quali sono di fatto le differenze, se ne esistono, nelle retribuzioni di
uomini e donne giovani e ben istruiti?
La tabella 3.1 mostra stime delle retribuzioni orarie negli USA di lavoratori a tempo
pieno di 25 − 34 anni che hanno completato l’università. Le statistiche della tabella 3.1 sono
state calcolate sulla base dei dati raccolti nel Current Population Survey (CPS), descritto
nell’appendice 3.1. Tutte le retribuzioni sono state corrette per l’inflazione convertendole in
dollari 1998 sulla base dell’indice dei prezzi al consumo.2
Le prime tre colonne della tabella presentano le informazioni per gli uomini; le tre successive quelle per le donne; le tre finali, quelle per la differenza tra uomini e donne. Per esempio,
il CPS effettuato nel marzo 1999 ha riguardato un campione di 64.000 famiglie che comprendevano 1.393 uomini laureati impiegati a tempo pieno e di età compresa tra i 25 e 34 anni. La
retribuzione media oraria di questi 1.393 uomini è 17, 94$, con una deviazione standard pari a
7, 86$. La retribuzione media oraria nel 1998 per le 1.210 donne comprese in quell’indagine è
15, 49$, con una deviazione standard di 6, 80$. Il differenziale salariale è 17, 94$−15, 49$ =
p
2, 45$ all’ora. L’errore standard è (7, 86$2/1393) + (6, 80$2 /1210) = 0, 29$ e la statistica t per l’ipotesi che il differenziale salariale sia nullo è (2, 45$ − 0/0, 29$) = 8, 45. Questa
è superiore al valore critico pari a 2, 58 di un test bilaterale di livello 1%, e quindi è significativa al livello 1% (in effetti, è significativa al livello 0, 01%). L’intervallo di confidenza al
95% per questo differenziale è 2, 45 ± 1, 96 × 0, 29 = (1, 89$, 3, 02$). Quindi, con un livello
di confidenza del 95%, si stima che il differenziale salariale tra le due popolazioni abbia un
valore compreso tra 1, 89$ e 3, 02$.
Il differenziale salariale uomo-donna è elevato: secondo le stime nella tabella 3.1, nel
1998 le donne guadagnavano il 14% all’ora in meno rispetto agli uomini (2, 45$/17, 94$).
Inoltre, il differenziale non è variato molto durante gli anni ’90. È alquanto inverosimile che
questo differenziale stimato sia semplicemente dovuto a errori di campionamento: il valore
2 A causa dell’inflazione, un dollaro nel 1992 valeva più di quanto un dollaro valesse nel 1998, nel senso che
un dollaro nel 1992 permetteva di acquistare più beni e servizi rispetto a un dollaro nel 1998. Per questo motivo,
senza correggere per l’inflazione, le retribuzioni nel 1992 non sono direttamente confrontabili con le retribuzioni nel
1998. Un modo per operare questa correzione è utilizzare l’indice dei prezzi al consumo (CPI, acronimo dall’inglese
Consumer Price Index), una misura del prezzo del “paniere di mercato” composto da beni e servizi di consumo,
costruito dal Bureau of Labour Statistics. Nei sei anni dal 1992 al 1998, il prezzo del paniere usato dal CPI è
cresciuto del 16, 2%; cioè, il paniere CPI di beni e servizi avente un prezzo di 100$ nel 1992 costava 116, 20$ nel
1998. Nella tabella 3.1, per rendere confrontabili le retribuzioni del 1992 e del 1998, quelle del 1992 sono state
aggiustate per l’inflazione misurata dal CPI ovvero moltiplicate per 1, 162, al fine di convertirle in “dollari 1998”.
76
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 77 — #107
i
i
3.6. Diagrammi a nuvola di punti, covarianza e correlazione campionaria
Tabella 3.1: retribuzione oraria di lavoratori laureati di età 25-34 negli Stati Uniti: selezione di statistiche descrittive dal “Current Population Survey”, in dollari
1998
Uomini
Donne
Differenza, uomini v/s donne
Anno
Ȳm
sm
nm
Ȳw
sw
nw
Ȳm − Ȳw
SE(Ȳm − Ȳw )
1992
1994
1996
1998
17,57
16,93
16,88
17,94
7,5
7,39
7,29
7,86
1591
1598
1374
1393
15,22
15,01
14,42
15,49
5,97
6,41
6,07
6,80
1371
1358
1235
1210
2, 35∗∗
1, 92∗∗
2, 46∗∗
2, 45∗∗
0,25
0,25
0,26
0,29
Intervallo di
confidenza
per d al 95%
1,87-2,84
1,42-2,42
1,94-2,97
1,89-3,02
Queste stime sono calcolate utilizzando i dati del CPS sui lavoratori a tempo pieno di età 25-34 negli
anni indicati. La differenza è significativamente diversa da zero al livello ∗ 5% o ∗∗ 10%.
più basso del differenziale contenuto nell’intervallo di confidenza di livello 95% per il 1998
è pari a 1, 98$.
Quest’analisi statistica documenta l’esistenza di un “differenziale di genere” nelle retribuzioni orarie, ma non dice niente riguardo alla sua fonte o causa. Il differenziale è dovuto alla
discriminazione dei sessi nel mercato del lavoro o evidenzia differenze di abilità e di esperienza tra uomini e donne, che si riflettono in un divario retributivo? Per affrontare queste
questioni abbiamo bisogno degli strumenti della regressione multipla, che sono l’argomento
della parte II. Per prima cosa, tuttavia, dobbiamo introdurre i diagrammi a nuvola di punti, la
covarianza campionaria e il coefficiente di correlazione campionario.
3.6 Diagrammi a nuvola di punti, covarianza e correlazione
campionaria
Qual è la relazione tra età e retribuzione? Questa domanda, come molte altre, mette in relazione una variabile, X (età), con un’altra, Y (retribuzione). Questa sezione passa in rassegna
tre metodi per riassumere il legame esistente tra due variabili: il diagramma a nuvola di punti,
la covarianza campionaria e il coefficiente di correlazione campionario.
Diagrammi a nuvola di punti
Un diagramma a nuvola di punti o, più semplicemente diagramma a nuvola, è un grafico
delle n osservazioni su Xi e Yi , nel quale ciascuna osservazione è rappresentata dal punto
(Xi , Yi ). Ad esempio, la figura 3.2 presenta il diagramma a nuvola di punti di età (X) e
77
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 78 — #108
i
i
3.6. Diagrammi a nuvola di punti, covarianza e correlazione campionaria
retribuzione oraria (Y ) per un campione di 184 tecnici non laureati, impiegati nell’industria
delle comunicazioni, tratto dal CPI del marzo 1999. Ogni punto della figura 3.2 corrisponde
alla coppia (X, Y ) rilevata per una delle osservazioni. Ad esempio, uno dei lavoratori nel
campione ha 35 anni e guadagna 19, 61$ all’ora; l’età e la retribuzione di questo particolare lavoratore sono rappresentati dal punto in evidenza nella figura 3.2. Il grafico a nuvola
mostra una relazione positiva tra età e retribuzione per questo campione: i tecnici delle comunicazioni più anziani tendono a guadagnare più di quelli giovani. Questa non è, tuttavia,
una relazione esatta e non è possibile prevedere perfettamente la retribuzione di un individuo
basandosi esclusivamente sulla sua età.
Covarianza e correlazione campionaria
La covarianza e la correlazione sono state introdotte nella sezione 2.3 come due proprietà
della distribuzione di probabilità congiunta delle variabili casuali X e Y . Siccome la distribuzione della popolazione è ignota, in pratica non se ne conoscono la covarianza e la correlazione. Queste possono tuttavia essere stimate estraendo dalla popolazione un campione
casuale di n unità e rilevando i dati (Xi , Yi ), i = 1, . . . , n.
La covarianza e la correlazione campionarie sono stimatori della covarianza e della correlazione nella popolazione. Come per gli stimatori già presentati in questo capitolo, esse sono
calcolate sostituendo la media della popolazione (l’aspettativa) con la media campionaria. La
covarianza campionaria, indicata con sXY , è
n
sXY =
1 X
Xi − X̄ Yi − Ȳ .
n − 1 i=1
(3.22)
Come per la varianza campionaria, la media nella (3.22) è divisa per n − 1 invece che per
n; anche qui, la differenza è dovuta all’uso di X̄ e Ȳ per stimare le rispettive medie nella
popolazione. Quando n è grande, dividere per n o per n − 1 fa poca differenza.
Il coefficiente di correlazione campionario, o correlazione campionaria, si indica con
rXY ed è il rapporto tra la covarianza campionaria e le deviazioni standard campionarie:
rXY =
sXY
.
sX sY
(3.23)
La correlazione campionaria misura la forza dell’associazione lineare esistente tra X e Y in
un campione di n osservazioni. Come per la correlazione nella popolazione, la correlazione
campionaria varia tra −1 e 1, ovvero |rXY | ≤ 1.
La correlazione campionaria è uguale a 1 se Xi = Yi per ogni i ed è uguale a −1 se
Xi = −Yi per ogni i. Più in generale, la correlazione è pari a ±1, se il diagramma a nuvola di
punti è una linea retta. Se tale retta ha un’inclinazione positiva, allora la relazione è positiva
e la correlazione è pari a 1. Se la retta ha un’inclinazione negativa, allora la relazione è
negativa e la correlazione è pari a −1. Più la nuvola di punti si dispone secondo una linea
78
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 79 — #109
i
i
3.6. Diagrammi a nuvola di punti, covarianza e correlazione campionaria
Figura 3.2: grafico a nuvola della retribuzione oraria media sull’età
Retribuzione oraria media
40
35
30
25
20
15
10
5
0
20
25
30
35
40
45
50
55
60
65
Età
Ogni punto nel grafico rappresenta l’età e la retribuzione media di uno dei 184 lavoratori nel campione. Il
punto colorato corrisponde a un lavoratore di 35 anni che guadagna 19, 61$ a ora. I dati sono relativi ai tecnici
nell’industria delle comunicazioni senza laurea e sono tratti dal CPS del marzo 1999.
retta, più la correlazione tende a ±1. Un coefficiente di correlazione elevato non implica
necessariamente che la retta sia molto inclinata; significa, invece, che i punti del diagramma
a nuvola si dispongono quasi su una retta.
Consistenza della covarianza e della correlazione campionaria. Come la varianza campionaria, anche la covarianza campionaria è consistente, ovvero
p
(3.24)
sXY → σXY .
In altre parole, in grandi campioni, la covarianza campionaria è con alta probabilità vicina
alla covarianza nella popolazione.
La dimostrazione delElectronic
risultato (3.24)
sottoServices
l’ipotesiInc.
che le (Xi , Yi ) siano i.i.d. e che
Publishing
Xi e Yi abbiano momento
quarto finito Econometrics
è simile alla dimostrazione
della consistenza della
Stock/Watson,
1e
STOC.ITEM.0010
Fig. 03.02
1st Proof
79
2nd Proof
3rd Proof
Final
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 80 — #110
i
i
3.6. Diagrammi a nuvola di punti, covarianza e correlazione campionaria
Figura 3.3: grafico a nuvola per quattro insiemi di dati ipotetici
y
70
y
70
60
60
50
50
40
40
30
30
20
20
10
10
0
70
80
90
0
70
100 110 120 130
x
80
90
100 110 120 130
x
(a) Correlazione = +0,9
(b) Correlazione = –0,8
y
70
y
70
60
60
50
50
40
40
30
30
20
20
10
10
0
70
80
90
100 110 120 130
x
(c) Correlazione = 0,0
0
70
80
90
100 110 120 130
x
(d) Correlazione = 0,0 (quadratica)
I grafici a nuvola delle figure 3.3a e 3.3b mostrano relazioni lineari forti tra X e Y . Nella figura 3.3c, X è
indipendente da Y e le due variabili sono incorrelate. Anche le due variabili nella figura 3.3d sono incorrelate,
benché siano legate non linearmente.
covarianza campionaria che daremo nell’appendice 3.3, ed è lasciata al lettore come esercizio
(esercizio 15.2).
80
i
i
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0011
Fig. 03.03
1st Proof
2nd Proof
i
i
3rd Proof
Final
i
i
“generale” — 2005/7/10 — 22:25 — page 81 — #111
i
i
Sommario
Poiché la varianza campionaria e la covarianza campionaria sono consistenti, anche il
p
coefficiente di correlazione è consistente, cioè rXY → corr (Xi , Yi ).
Esempio. Come esempio, consideriamo i dati sull’età e la retribuzione mostrati nella figura
3.2. Per questi 184 lavoratori, la deviazione standard campionaria dell’età è s A = 10, 49 anni
e la deviazione standard campionaria della retribuzione è sE = 6, 44$/ora. La covarianza
tra età e retribuzione è sAE = 24, 29 (l’unità di misura è anni×dollari all’ora, che non è di
facile interpretazione) e il coefficiente di correlazione è rAE = 24, 29/ (10, 49 × 6, 44) =
0, 36, ovvero 36%. La correlazione pari a 0, 36 indica che c’è una relazione positiva tra età
e retribuzione, ma, come evidenziato dal diagramma a nuvola di punti, questa relazione è
tutt’altro che perfetta.
Per verificare che la correlazione non dipende dall’unità di misura, supponiamo di esprimere la retribuzione in centesimi. In questo caso, la deviazione standard campionaria è 644
centesimi/ora e la covarianza tra età e retribuzione è 2.429 (l’unità di misura è
anni×centesimi/ora); perciò la correlazione è 2.429/(10, 49 × 644) = 0, 36, ovvero 36%.
La figura 3.3 fornisce altri esempi di diagramma a nuvola di punti e correlazione. La figura 3.3a mostra una forte relazione lineare positiva tra queste variabili, con una correlazione
campionaria di 0, 9. La figura 3.3b mostra una forte relazione negativa, con una correlazione campionaria di −0, 8. La figura 3.3c mostra un diagramma a nuvola senza una relazione
evidente, con una correlazione campionaria nulla. La figura 3.3d mostra una relazione ben
definita: al crescere di X, Y inizialmente cresce per poi decrescere. Nonostante la chiara relazione tra X e Y relazione, la correlazione campionaria è nulla; la ragione è che, per questi
dati, valori piccoli di Y sono associati a valori di X sia grandi sia piccoli.
Questo esempio finale mette in evidenza un punto importante: il coefficiente di correlazione è una misura di associazione lineare. Nella figura 3.3d una relazione esiste, ma non è
lineare.
Sommario
1. La media campionaria Ȳ è uno stimatore della media della popolazione µY . Quando
Y1 , . . . , Yn sono i.i.d.:
a. la distribuzione campionaria di Ȳ ha media µY e varianza σȲ2 = σY2 /n;
b. Ȳ è non distorto;
c. per la legge dei grandi numeri, Ȳ è consistente;
d. per il teorema limite centrale, Ȳ ha una distribuzione campionaria approssimativamente normale quando il campione è numeroso.
81
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 82 — #112
i
i
Sommario
2. La statistica t è utilizzata per verificare l’ipotesi nulla che la media della popolazione assuma un determinato valore. Se n è elevato, la statistica t ha una distribuzione
campionaria normale standard, quando l’ipotesi nulla è vera.
3. La statistica t può essere utilizzata per calcolare il valore-p associato all’ipotesi nulla.
Un valore-p piccolo costituisce evidenza contro l’ipotesi nulla.
4. Un intervallo di confidenza di livello 95% per µY è un intervallo costruito in modo tale
da contenere il vero valore di µY nel 95% dei casi in campioni ripetuti.
5. I test d’ipotesi e gli intervalli di confidenza per la differenza tra le medie di due popolazioni sono concettualmente simili ai test e agli intervalli per la media di una singola
popolazione.
6. Il coefficiente di correlazione campionario è uno stimatore della correlazione nella
popolazione e misura la relazione lineare tra due variabili, ovvero la bontà di una
approssimazione lineare del loro diagramma a nuvola di punti.
Termini chiave
stimatore (59)
stima (59)
distorsione, consistenza ed efficienza (60)
stimatore dei minimi quadrati (61)
verifica d’ipotesi (63)
ipotesi nulla e alternativa (63)
ipotesi alternativa bilaterale (63)
valore-p (64)
varianza campionaria (66)
gradi di libertà (67)
statistica t (67)
errore standard di uno stimatore (69)
statistica test (67)
livello di significatività (71)
valore critico (71)
regione di rifiuto (71)
regione di accettazione (71)
livello minimo di un test (71)
potenza (71)
ipotesi alternativa unilaterale (70)
regione di confidenza (71)
livello di confidenza (71)
intervallo di confidenza (72)
probabilità di copertura (73)
test per la differenza tra due medie (73)
diagramma a nuvola di punti (77)
covarianza campionaria (78)
correlazione campionaria (78)
Verifica dei concetti
3.1 Si spieghi la differenza tra la media campionaria Ȳ e la media della popolazione.
3.2 Si spieghi la differenza tra uno stimatore e una stima. Si riporti un esempio di entrambi.
82
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 83 — #113
i
i
Sommario
3.3 Una certa distribuzione ha media 10 e varianza 16 nella popolazione. Si determini la
media e la varianza di Ȳ da un campione i.i.d. estratto da questa popolazione per: (a)
n = 10; (b) n = 100; (c) n = 1.000. Si metta in relazione la propria risposta con la
legge dei grandi numeri.
3.4 Quale ruolo gioca il teorema limite centrale nella verifica delle ipotesi statistiche? E
nella costruzione degli intervalli di confidenza?
3.5 Qual è la differenza tra ipotesi nulla e ipotesi alternativa? Tra livello minimo, livello di
significatività e potenza? Tra ipotesi alternativa unilaterale e bilaterale?
3.6 Perché un intervallo di confidenza contiene più informazioni rispetto al risultato di un
semplice test d’ipotesi?
3.7 Si disegni un ipotetico diagramma a nuvola di punti di numerosità 10 per due variabili
casuali con correlazione nella popolazione pari a: (a) 1, 0; (b) −1, 0; (c) 0, 9; (d) −0, 5;
(e) 0, 0.
Esercizi
3.1 In una popolazione µY = 100 e σY2 = 43. Si usi il teorema limite centrale per trovare:
a. P r Ȳ < 101 , in un campione casuale di numerosità n = 100;
b. P r 101 < Ȳ < 103 , in un campione casuale di numerosità n = 64;
c. P r Ȳ > 98 , in un campione casuale di numerosità n = 165.
3.2 Sia Y una variabile casuale di Bernoulli con probabilità di successo Pr(Y = 1) = p e
siano Y1 , . . . , Yn i.i.d. estratti da questa distribuzione. Sia p̂ la frazione di successi (di
1) in questo campione.
a. Si mostri che p̂ = Ȳ .
b. Si mostri che p̂ è uno stimatore non distorto di p.
c. Si mostri che var (p̂) = p (1 − p) /n.
3.3 In un’indagine campionaria su 400 potenziali votanti, 215 hanno risposto di aver intenzione di votare per il candidato uscente e 185 per il suo sfidante. La p denoti la frazione
di tutti i votanti potenziali che preferiscono il candidato uscente al tempo dell’indagine
e la p̂ quella degli intervistati che preferiscono lo sfidante.
a. Si usino i risultati dell’indagine per stimare p.
b. Si usi lo stimatore della varianza di p̂, p̂ (1 − p̂) /n, per calcolare l’errore standard
del tuo stimatore.
83
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 84 — #114
i
i
Sommario
∗
c. Qual è il valore-p per H0 : p = 0, 5 contro H1 : p 6= 0, 5?
d. Qual è il valore-p per H0 : p = 0, 5 contro H1 : p > 0, 5?
e. Perché i risultati della (c) e della (d) differiscono?
f. L’indagine mostra un’evidenza statisticamente rilevante del fatto che il candidato
uscente è in testa al tempo dell’indagine? Se ne dia una spiegazione.
3.4 Utilizzando i dati dell’esercizio 3.3:
a. si costruisca un intervallo di confidenza di livello 95% per p;
b. si costruisca un intervallo di confidenza di livello 99% per p;
c. perché l’intervallo nella (b) è più ampio di quello nella (a)?
d. senza calcoli addizionali, si verifichi l’ipotesi H0 : p = 0, 50 contro H1 : p 6= 0, 5
con un livello di significatività del 5%.
3.5 Si supponga che un’impresa specializzata nella produzione di lampadine produca lampadine con una vita media di 2.000 ore e una deviazione standard di 200 ore. Un inventore dichiara di aver ideato un processo innovativo che permette di produrre lampadine
con una vita media più lunga e la stessa deviazione standard. Il manager dell’impresa
seleziona a caso 100 prodotti attarverso questa tecnica ed afferma che crederà alle affermazioni dell’inventore, se la vita media campionaria supererà le 2.100 ore, altrimenti
giungerà alla conclusione che questo nuovo processo non è migliore di quello vecchio. Sia µ la media del nuovo processo. Si considerino le ipotesi nulla ed alternativa
H0 : µ = 2.000 contro H1 : µ > 2.000.
a. Qual è il livello minimo della procedura di verifica di ipotesi del manager dell’impresa?
b. Si supponga che il nuovo processo sia effettivamente migliore e che produca lampadine con una vita media di 2.150 ore. Qual è la potenza della procedura di
verifica di ipotesi del manager?
c. Quale procedura di verifica di ipotesi dovrebbe usare il manager se volesse che il
livello minimo del suo test fosse 5%?
3.6 Si supponga che un nuovo test sia sottoposto a 100 studenti selezionati casualmente
tra gli studenti del terzo grado d’istruzione nel New Jersey. La media campionaria del
punteggio finale del test Ȳ è 58 punti e la deviazione standard del campione, sY , è 8
punti:
a. gli autori prevedono di sottoporre il test a tutti gli studenti di terzo livello nel New
Jersey. Costruisci un intervallo di confidenza al 95% per il punteggio medio di
tutti gli studenti del terzo grado d’istruzione del New Jersey;
84
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 85 — #115
i
i
Sommario
b. si supponga che lo stesso test sia sottoposto a 200 studenti del terzo grado d’istruzione dell’Iowa selezionati casualmente e che ne risulti una media campionaria di
62 punti e una deviazione standard campionaria di 11 punti. Si costruisca un intervallo di confidenza di livello 90% per la differenza dei punteggi medi tra Iowa
e New Jersey;
c. si può concludere con un alto grado di confidenza che le medie della popolazione
per l’Iowa e per il New Jersey sono diverse? (Qual è l’errore standard della differenza tra le due medie? Qual è il valore-p del test sull’uguaglianza tra le due
medie contro una qualche differenza tra di loro?)
3.7 Si consideri lo stimatore Ỹ , definito nella (3.1). Si mostri che (a) E(Ỹ ) = µY e (b)
var(Ỹ ) = 1, 25σY2 /n.
3.8 Per investigare su una possibile discriminazione tra i sessi in un’impresa, sia selezionato casualmente un campione di 100 uomini e 64 donne svolgenti un lavoro con una
simile descrizione. I risultati riguardanti i salari mensili sono riportati nella seguente
tabella:
Uomini
Donne
Salario medio (Ȳ )
Deviazione standard (sY )
n
3100$
2900$
200$
320$
100
64
a. Cosa suggeriscono questi dati per quanto riguarda la differenza salariale nell’impresa? Forniscono evidenza statistica della differenza tra i salari di uomini e
donne (prima di rispondere a questa domanda, si formulino le ipotesi nulla e alternativa; in secondo luogo, si calcoli la statistica t corrispondente; poi, si calcoli
il valore-p associato alla statistica t; e, infine, si usi il valore-p per rispondere alla
domanda)?
b. Questi dati suggeriscono che l’impresa è colpevole di discriminazione uomodonna nelle sue politiche salariali? Se ne dia una spiegazione.
3.9 I dati per un livello d’istruzione di quinto grado (lettura e matematica) relativi a 420 distretti scolastici in California hanno prodotto un Ȳ = 654, 2 e una deviazione standard
pari a sY = 19, 5.
a. Si costruisca un intervallo di confidenza al 95% per la media dei risultati del test
nella popolazione.
85
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 86 — #116
i
i
Appendice
Dimensione classe
Media punteggi (Ȳ )
Deviazione standard (sY )
n
Piccola
Grande
657,4
650,0
19,4
17,9
238
182
b. Suddividendo i distretti in distretti con classi piccole (< 20 studenti per insegnante) e distretti con classi grandi (≥ 20 studenti per insegnante), si rilevano i
risultati riportati nella tabella precedente.
Esiste un’evidenza statistica che i distretti con classi più piccole abbiano riportato
risultati medi del test più alti? Se ne dia una spiegazione.
3.10 Su un campione di 300 studenti universitari sono rilevati l’altezza espressa in pollici (X) e il peso in libbre (Y ). Le risultanti statistiche descrittive sono: X̄ = 70, 5
pollici; Ȳ = 158 libbre; sX = 1, 8 pollici; sY = 14, 2 libbre; sXY = 21, 73
pollici×libbra e rXY = 0, 85. Si convertano queste statistiche nel sistema metrico
(metri e chilogrammi).
3.11 Questo esercizio mostra che la varianza campionaria è uno stimatore non distorto della
varianza della popolazione quando Y1 , . . . , Yn sono i.i.d. con media µY e varianza σY2 .
h
2 i
a. Si usi la (2.27) per dimostrare che E Yi − Ȳ
= var (Yi ) − 2cov Yi , Ȳ +
var Ȳ .
b. Si usi la (2.33) per mostrare che la cov Ȳ , Yi = σY2 /n.
c. Si usino i risultati della parte (a) e (b) per mostrare che E s2Y = σY2 .
Appendice 3.1: lo U.S. Current Population Survey
Ogni mese il Bureau of Labour Statistics dello U.S. Department of Labour conduce un’indagine chiamata “Current Population Survey” (CPS), che fornisce i dati sulle caratteristiche
della popolazione lavorativa, inclusi il livello dell’occupazione, della disoccupazione e delle
retribuzioni. Circa 65.000 famiglie sono intervistate ogni mese. Il campione viene scelto
selezionando casualmente gli indirizzi contenuti in una banca dati in cui sono registrati gli
indirizzi derivanti dal censimento decennale più recente, e a cui vengono aggiunte le informazioni sulle nuove unità abitative costruite successivamente. L’esatto piano di campionamento
è piuttosto complicato (prima vengono selezionate casualmente le aree geografiche, all’interno delle quali, sempre casualmente, vengono poi estratte le unità abitative); i dettagli si
trovano nell’Handbook of Labour Statistics e nel sito web del Bureau of Labour Statistics
(www.bls.gov).
86
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 87 — #117
i
i
Appendice
L’indagine condotta in marzo è più dettagliata che negli altri mesi e contiene domande
sulle retribuzioni nell’anno precedente. Le statistiche contenute nella tabella 3.1 sono state
calcolate utilizzando le indagini di marzo. I dati sulle retribuzioni si riferiscono ai lavoratori
a tempo pieno, definiti come coloro che hanno lavorato durante l’anno precedente per più di
35 ore alla settimana per almeno 48 settimane.
Appendice 3.2: due prove che Ȳ è lo stimatore
dei minimi quadrati di µY
Questa appendice fornisce due prove, una delle quali fa uso del calcolo differenziale e l’altra
no, del fatto che Ȳ minimizza la somma dei quadrati degli errori di previsione (3.2) e quindi
è lo stimatore dei minimi quadrati di E(Y ).
Prova attraverso il calcolo differenziale. Per minimizzare la somma dei quadrati degli
errori di previsione, si prenda la derivata prima e la si ponga uguale a zero:
n
n
n
X
X
d X
Yi + 2nm = 0.
(Yi − m) = −2
(Yi − m)2 = −2
dm i=1
i=1
i=1
Risolvendo l’equazione finale per m, si vede che
Ȳ .
Pn
i=1
(3.25)
(Yi − m)2 è minima quando m =
Prova senza calcolo differenziale. La strategia è quella di mostrare che la differenza tra lo
stimatore dei minimi quadrati e Ȳ deve essere nulla, da cui segue che Ȳ è lo stimatore dei mi
2
2
nimi quadrati. Sia d = Ȳ −m, cosicché m = Ȳ −d. Allora (Yi − m) = Yi − Ȳ − d
=
2
2
2
Yi − Ȳ + d = Yi − Ȳ + 2d Yi − Ȳ + d . Cosı̀, la somma dei quadrati degli errori
di previsione (3.2) è,
n
X
i=1
(Yi − m)
2
=
n
X
i=1
=
n
X
i=1
Yi − Ȳ
Yi − Ȳ
2
2
+ 2d
n
X
i=1
+ nd2 ,
Yi − Ȳ + nd2
(3.26)
P
dove la seconda uguaglianza usa il fatto che ni=1 Yi − Ȳ = 0. Siccome entrambi i termini
dell’ultima riga della (3.26) sono non negativi e poiché il primo termine non dipende da d,
Pn
2
i=1 (Yi − m) è minimizzato scegliendo d in modo tale da rendere il secondo termine,
nd2 , il più possibile piccolo. Questo avviene ponendo d = 0 ovvero m = Ȳ , cosı̀ Ȳ risulta
essere lo stimatore dei minimi quadrati di E(Y ).
87
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 88 — #118
i
i
Appendice
Appendice 3.3: una prova della consistenza
della varianza campionaria
Questa appendice usa la legge dei grandi numeri per provare che la varianza campionaria s 2Y
è uno stimatore consistente della varianza della popolazione σ Y2 , come affermato dalla (3.8),
quando Y1 , . . . , Yn sono i.i.d. e E(Yi4 ) < ∞.
2
Per prima cosa, aggiungiamo e sottraiamo µY , cosicché Yi − Ȳ
= [(Yi − µY ) −
2
2
2
Ȳ − µY
= (Yi − µY ) − 2 (Yi − µY ) Ȳ − µY + Ȳ − µY . Sostituendo questa
2
espressione per Yi − Ȳ nella definizione (3.7) di s2Y , si ottiene che
n
s2Y
=
2
1 X
Yi − Ȳ
n − 1 i=1
n
=
=
n
2 X
1 X
(Yi − µY )2 −
(Yi − µY ) Ȳ − µY
n − 1 i=1
n − 1 i=1
n
2
1 X
+
Ȳ − µY
n − 1 i=1
# " X
n
2
n
n
1
2
Ȳ − µY ,
(Yi − µY ) −
n−1
n i=1
n−1
(3.27)
P
dove l’uguaglianza finale segue dalla definizione di Ȳ (che implica che ni=1 (Yi − µY ) =
n Ȳ − µY ) e dall’aggregazione dei termini.
La legge dei grandi numeri può essere ora applicata ai due termini nella parte fina2
le della (3.27). Definiamo Wi = (Yi − µY ) . Allora E(Wi ) = σY2 (per la definizione
di varianza). Siccome le variabili casuali Y1 , . . . ,hYn sono i.i.d.,
i anche le variabili casua4
2
li W1 , . . . , Wn sono i.i.d. Inoltre, E(Wi ) = E (Yi − µY ) < ∞, perché per ipotesi
E(Yi4 ) < ∞. Perciò, W1 , . . . , Wn sono i.i.d. e var(Wi ) < ∞, e quindi W̄ soddisfa le
p
condizioni richieste dalla legge dei grandi numeri nel concetto chiave 2.6 e W̄ → E(Wi ).
P
P
n
n
2
2 p
Tuttavia, W̄ = n1 i=1 (Yi − µY ) e E(Wi ) = σY2 , cosı̀ n1 i=1 (Yi − µY ) → σY2 . Inoltre, n/(n − 1) → 1, cosı̀ il primo termine della (3.27) converge in probabilità a σ Y2 . Poiché
p
p
Ȳ → µY , (Ȳ − µY )2 → 0 e quindi il secondo termine converge a zero in probabilità.
p
Combinando questi due risultati, si ottiene s2Y → σY2 .
88
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 89 — #119
i
i
Parte II
Elementi fondamentali dell’analisi
di regressione
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 90 — #120
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 91 — #121
i
i
Capitolo 4
Regressione lineare con un singolo
regressore
Uno stato stabilisce nuove pene severe per i guidatori ubriachi; qual è l’effetto sulle vittime
della strada? Un distretto scolastico riduce la dimensione delle classi delle scuole elementari;
qual è l’effetto sui punteggi dei suoi studenti in un test standardizzato? Se si è completato
con successo un ulteriore anno di università, qual è l’effetto sulle retribuzioni future?
Queste tre domande riguardano tutte l’effetto ignoto della variazione in una variabile X
(che può rappresentare la guida in stato d’ubriachezza, la dimensione delle classi o gli anni
di istruzione) su un’altra variabile Y (che può rappresentare le vittime della strada, i risultati
di un test scolastico o le retribuzioni).
Questo capitolo introduce il modello di regressione lineare che mette in relazione una
variabile, X, con un’altra variabile, Y . Tale modello postula una relazione lineare tra X e Y ;
la pendenza della retta che mette in relazione X e Y è l’effetto di una variazione unitaria di
X su Y . Cosı̀ come la media di Y è una caratteristica ignota della distribuzione di Y nella
popolazione, la pendenza della retta che mette in relazione X e Y è una caratteristica incognita della distribuzione congiunta di X e Y nella popolazione. Il compito dell’econometria
è quello di stimare questa pendenza –cioè, di valutare l’effetto su Y di una variazione unitaria
di X– utilizzando un campione di dati su queste due variabili.
Questo capitolo descrive i metodi per fare inferenza statistica su questo modello di regressione usando un campione casuale di dati su X e Y . Ad esempio, con i dati sulla dimensione
delle classi e i punteggi del test in diversi distretti scolastici, mostriamo come stimare l’effetto atteso sui punteggi del test di una riduzione nella dimensione delle classi: diciamo, di
uno studente per classe. La pendenza e l’intercetta della retta che mettono in relazione X e
Y possono essere stimate attraverso un metodo chiamato Minimi Quadrati Ordinari (OLS,
acronimo dall’inglese Ordinary Least Squares). Inoltre, lo stimatore OLS può essere usato
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 92 — #122
i
i
4.1. Il modello di regressione lineare
per sottoporre a verifica ipotesi circa il valore della pendenza nella popolazione –per esempio,
l’ipotesi che una riduzione nella dimensione delle classi non abbia alcun effetto sui risultati
del test– e per creare intervalli di confidenza per tale pendenza.
4.1 Il modello di regressione lineare
Il provveditore di un distretto scolastico deve decidere se assumere altri insegnanti e chiede
la vostra opinione. Se assumesse gli insegnanti, potrebbe ridurre di due unità il numero di
studenti per insegnante (il rapporto studenti-insegnanti). Ha di fronte la seguente scelta. I
genitori vogliono classi più piccole in modo che i propri figli possano ricevere una maggiore
attenzione personale. Assumere nuovi insegnanti, però, significa sopportare una spesa maggiore, cosa poco gradita a chi ne paga il conto! Cosı̀ vi domanda: se si taglia la dimensione
delle classi, quale sarà l’effetto sul rendimento degli studenti?
In molti distretti scolastici, il rendimento scolastico è misurato con test standardizzati e lo
stato occupazionale o la retribuzione di alcuni amministratori possono dipendere in parte dal
successo degli studenti nel test. Specifichiamo quindi meglio la domanda del provveditore:
se riduciamo di due studenti la dimensione media delle classi, quale sarà l’effetto sui punteggi
del test nel suo distretto?
Una risposta precisa a questa domanda richiede di quantificare le variazioni. Se il provveditore modificasse la dimensione delle classi di un certo ammontare, che variazioni dovrebbe
attendersi nei punteggi del test? Possiamo rappresentare il problema in termini matematici,
utilizzando la lettera greca beta, βClassSize , dove il pedice “ClassSize” distingue l’effetto di
variare la dimensione delle classi dagli altri effetti. In pratica,
βClassSize =
variazione in T estScore
∆T estScore
=
,
variazione in ClassSize
∆ClassSize
(4.1)
dove la lettera greca ∆ (delta) sta per “variazione in”. Cioè, βClassSize è la variazione nel
punteggio del test che deriva dal variare la dimensione delle classi, divisa per la variazione
nella dimensione delle classi.
Se foste tanto fortunati da conoscere βClassSize , potreste dire al provveditore che una riduzione di uno studente nella dimensione delle classi modificherebbe di β ClassSize i punteggi
del test a livello di distretto. Potreste anche rispondere alla domanda effettivamente posta dal
provveditore, che riguardava la variazione nella dimensione delle classi di due studenti per
classe. Per fare questo, si reimposti la (4.1) in modo che
∆T estScore = βClassSize × ∆ClassSize.
(4.2)
Si supponga che βClassSize = −0, 6. Allora una riduzione nella dimensione delle classi di
due studenti per classe produrrebbe una variazione attesa nei punteggi del test di (−0, 6) ×
92
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 93 — #123
i
i
4.1. Il modello di regressione lineare
(−2) = 1, 2; potreste cioè predire che i punteggi del test crescerebbero di 1, 2 punti grazie
alla riduzione nella dimensione delle classi di due studenti per classe.
La (4.1) è la definizione della pendenza di una retta che mette in relazione i risultati del
test e la dimensione delle classi. Questa retta può essere scritta
T estScore = β0 + βClassSize × ClassSize,
(4.3)
dove β0 è l’intercetta e, come prima, βClassSize è la pendenza della retta. In base alla (4.3),
se conosceste β0 e βClassSize , non solo potreste determinare la variazione nel risultato del
test in un distretto associata a una variazione nella dimensione delle classi, ma potreste anche
predire il risultato medio del test stesso per una data dimensione delle classi.
Quando presentate la (4.3) al provveditore, però, questi risponde che c’è qualcosa di
sbagliato con questa formulazione. Puntualizza che la dimensione delle classi è solo uno
dei molteplici aspetti dell’istruzione elementare e che due distretti con classi della stessa dimensione possono ottenere punteggi diversi nei test per una varietà di ragioni. Un distretto
potrebbe, infatti, avere insegnanti più capaci o utilizzare libri di testo migliori. Due distretti
con dimensioni delle classi, insegnanti e libri di testo simili, potrebbero avere popolazioni
differenti di studenti; un distretto potrebbe avere più immigrati (e quindi meno studenti di
madrelingua inglese) o famiglie più ricche. Infine, fa presente che, se anche due distretti
avessero in comune tutte queste caratteristiche, potrebbero comunque ottenere punteggi diversi nel test per ragioni essenzialmente casuali che nulla hanno a che fare con la prestazione
degli studenti nel giorno del test. Il provveditore ha ragione, naturalmente; per tutti questi
motivi, la (4.3) non può valere esattamente per tutti i distretti. Essa dovrebbe, invece, essere
vista come una relazione valida in media nella popolazione dei distretti.
Una versione di questa relazione lineare che valga per ciascun distretto deve incorporare
gli altri fattori che influenzano i punteggi del test, incluse le caratteristiche peculiari di ciascun distretto (qualità dei suoi insegnanti, condizione economica dei suoi studenti, quanto
fortunati sono stati gli studenti il giorno del test, ecc.). Un approccio potrebbe essere quello di elencare i fattori più importanti e di introdurli esplicitamente nella (4.3) (un’idea sulla
quale ritorneremo nel capitolo 5). Per il momento, però, limitiamoci a raggruppare insieme
tutti questi “altri fattori” e scriviamo la relazione per un dato distretto come
T estScore = βClassSize × ∆ClassSize + altri fattori.
(4.4)
In questo modo, i punteggi del test per quel distretto sono espressi in termini di una componente, β0 + βClassSize × ClassSize, che rappresenta l’effetto medio della dimensione delle
classi sui punteggi dei distretti scolastici e una seconda componente che rappresenta tutti gli
altri fattori.
Sebbene la discussione si sia incentrata sui punteggi dei test e sulla dimensione delle
classi, l’idea espressa nell’equazione (4.4) è molto più generale; e quindi è utile introdurre una
93
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 94 — #124
i
i
4.1. Il modello di regressione lineare
Figura 4.1: grafico a nuvola del punteggio del test sul rapporto studenti-insegnanti (dati
ipotetici)
Punteggio test (Y)
700
(X1,Y1)
680
u1
660
u2
640
( X2,Y2)
B 0 + B 1X
620
600
10
15
20
25
30
Rapporto studenti-insegnanti (X)
Il grafico a nuvola mostra osservazioni ipotetiche per sette distretti scolastici. La retta di regressione è β 0 +β1 X .
La distanza verticale dell’i-esimo punto dalla retta di regressione è Yi − (β0 + β1 Xi ), che rappresenta l’errore
ui per l’i-esima osservazione.
notazione più generale. Si supponga di avere un campione di n distretti. Sia Y i il punteggio
medio del test nell’i-esimo distretto, sia Xi la dimensione media delle classi nell’i-esimo
distretto e si indichi con ui gli altri fattori che influenzano i punteggi del test nell’i-esimo
distretto. Allora, la (4.4) può essere scritta in maniera più generale come
(4.5)
Y i = β 0 + β 1 Xi + u i ,
per ogni distretto, ovvero per i = 1, . . . , n, dove β0 è l’intercetta della retta e β1 è la pendenza
(la notazione generale “β1 ” è usata nella (4.5) per la pendenza al posto di “βClassSize ”, perché
questa equazione è scritta nei termini di una variabile generica Xi ).
La (4.5) è il modello di regressione lineare con un singolo regressore, in cui Y è la
variabile dipendente e X è la variabile indipendente o regressore.
La prima parte della (4.5), β0 + β1 Xi , è la retta di regressione della popolazione o
Electronic Publishing Services Inc.
funzione di regressione della popolazione. Essa esprime la relazione esistente in media tra
Stock/Watson, Econometrics 1e
Y e X nella popolazione. Cosı̀, se conosceste il valore di X, con questa retta di regressione,
STOC.ITEM.0012
potreste predire un valore pari a β0 + β1 Xi per la variabile dipendente Y .
Fig. 04.01
94
1st Proof
2nd Proof
3rd Proof
Final
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 95 — #125
i
i
4.1. Il modello di regressione lineare
Concetto chiave 4.1: terminologia per il modello di regressione lineare
con un singolo regressore
Il modello di regressione lineare è:
Y i = β 0 + β 1 Xi + u i ,
dove:
il pedice i varia tra le osservazioni, i = 1, . . . , n;
Yi è la variabile dipendente o semplicemente la variabile di sinistra;
Xi è la variabile indipendente, il regressore o semplicemente la variabile di destra;
β0 + β1 X è la retta di regressione della popolazione o funzione di regressione della
popolazione;
β0 è l’intercetta della retta di regressione della popolazione;
β1 è la pendenza della retta di regressione della popolazione; e
ui è l’errore.
L’intercetta β0 e la pendenza β1 sono i coefficienti della retta di regressione della popolazione, noti anche come parametri della retta di regressione della popolazione. La pendenza
β1 è la variazione di Y associata a una variazione unitaria di X. L’intercetta è il valore della
retta di regressione quando X = 0; è il punto in cui la retta di regressione interseca l’asse
delle Y . In alcune applicazioni econometriche, come quella nella sezione 4.7, l’intercetta ha
un’importante interpretazione economica. In altre applicazioni, tuttavia, l’intercetta non ha
un significato concreto; ad esempio, quando X è la dimensione delle classi, a rigore l’intercetta sarebbe il punteggio predetto quando una classe non ha studenti! Quando l’intercetta è
priva di significato concreto è meglio interpretarla matematicamente come il coefficiente che
determina il livello della retta di regressione.
Il termine ui nella (4.5) è l’errore o disturbo. Esso incorpora tutti i fattori responsabili della differenza tra il punteggio medio del test nell’i-esimo distretto e il valore predetto dalla retta di regressione. Questo errore contiene tutti gli altri fattori diversi da X
che determinano il valore della variabile dipendente Y per una specifica osservazione i.
Nell’esempio della dimensione delle classi, questi altri fattori includono tutte le caratteristiche peculiari dell’i-esimo distretto che influenzano la prestazione dei suoi studenti nel test,
95
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 96 — #126
i
i
4.1. Il modello di regressione lineare
Tabella 4.1: sintesi della distribuzione del rapporto studenti-insegnanti e del punteggio del
test relativa al quinto d’istruzione per 420 distretti K-8 in California nel 1998
Percentile
Rapporto
studentiinsegnanti
Punteggio test
Media Deviazione
Standard
10%
25%
40%
50%
(mediana)
60%
75%
90%
19,6
1,9
17,3
18,6
19,3
19,7
20,1
20,9
21,9
654,2
19,1
630,4
640,0
649,1
654,5
659,4
666,7
679,1
inclusi la qualità degli insegnanti, la condizione economica degli studenti, la fortuna e finanche gli errori di valutazione del test.
Il modello di regressione lineare e la sua terminologia sono riassunti nel concetto chiave
4.1.
La figura (4.1) mostra il modello di regressione lineare con un singolo regressore per sette
osservazioni ipotetiche sul punteggio del test (Y ) e la dimensione delle classi (X). La retta di
regressione della popolazione è la retta β0 +β1 X. Tale retta di regressione ha pendenza negativa, ovvero β1 < 0, indicando cosı̀ che i distretti con un rapporto studenti-insegnanti minore
(classi più piccole) tendono ad avere punteggi maggiori nel test. L’intercetta β 0 si interpreta
matematicamente come il valore dove l’asse Y viene intersecato dalla retta di regressione,
ma, come detto prima, non ha un significato concreto in questo esempio.
A causa degli altri fattori che determinano la prestazione nel test, le osservazioni ipotetiche della figura 4.1 non cadono esattamente sulla retta di regressione della popolazione.
Ad esempio, il valore di Y relativo al primo distretto, Y1 , giace al di sopra della retta di regressione della popolazione. Questo significa che i punteggi del test nel primo distretto sono
stati migliori rispetto a quanto predetto dalla retta di regressione, e quindi l’errore per quel
distretto, u1 , è positivo. Al contrario, Y2 sta al di sotto della retta di regressione, ad indicare
che i risultati del test per quel distretto sono stati peggiori di quanto predetto e u 2 < 0.
Ritornate ora al vostro compito di consulenti del provveditore: qual è l’effetto atteso sui
punteggi del test di una riduzione di due unità nel numero di studenti per insegnante? La
risposta è immediata: la variazione attesa è (−2) × βClassSize . Qual è però il valore di
βClassSize ?
96
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 97 — #127
i
i
4.2. Stima dei coefficienti del modello di regressione lineare
4.2 Stima dei coefficienti del modello di regressione lineare
In una situazione pratica, come l’applicazione riguardante la dimensione delle classi e i punteggi del test, l’intercetta β0 e la pendenza β1 della retta di regressione della popolazione
sono ignote. Dobbiamo perciò usare i dati per stimare l’intercetta e la pendenza ignote della
retta di regressione.
Questo problema di stima è simile ad altri che già avete affrontato in statistica. Ad esempio, supponete di voler confrontare le retribuzioni medie di uomini e donne neolaureati. Sebbene siano ignote le retribuzioni medie relative alla popolazione, potete stimarle usando un
campione casuale di uomini e donne neolaureati. Lo stimatore naturale dell’ignota retribuzione media delle donne nella popolazione, per esempio, è la retribuzione media delle donne
laureate nel campione.
La stessa idea si estende al modello di regressione lineare. Noi non conosciamo il valore
di βClassSize , la pendenza ignota della retta di regressione che mette in relazione X (dimensione delle classi) e Y (punteggi ottenuti nel test). Tuttavia, cosı̀ come è stato possibile
apprendere qualcosa circa la media della popolazione usando un campione di dati estratti da
questa, è possibile apprendere qualcosa circa la pendenza β ClassSize usando un campione di
dati.
I dati che analizziamo qui riguardano i punteggi del test e la dimensione delle classi nel
1998 in 420 distretti scolastici della California che forniscono servizi scolastici che vanno
dalla scuola materna all’ottavo grado d’istruzione (la nostra terza media). Il punteggio del test
è la media relativa al distretto dei punteggi ottenuti dagli studenti del quinto grado d’istruzione
nelle prove di lettura e di matematica. La dimensione delle classi può essere misurata in vari
modi. La misura utilizzata qui è una delle più generali, cioè il numero di studenti del distretto
diviso per il numero di insegnanti, ovvero il rapporto studenti-insegnanti relativo all’intero
distretto. Questi dati sono descritti in maggior dettaglio nell’appendice 4.1.
La tabella 4.1 riassume le distribuzioni dei punteggi del test e della dimensione delle
classi per questo campione. Il rapporto medio studenti-insegnanti è di 19, 6 studenti per
insegnante e la deviazione standard è di 1, 9 studenti per insegnante. Il decimo percentile
della distribuzione del rapporto studenti-insegnanti è 17, 3 (ovvero solo il 10% dei distretti ha
un rapport studenti-insegnanti inferiore a 17, 3), mentre il distretto al 90-simo percentile ha
un rapporto studenti-insegnanti di 21, 9.
Un grafico a nuvola di queste 420 osservazioni sui punteggi del test e sul rapporto studentiinsegnanti è mostrato nella figura 4.2. La correlazione campionaria è pari a −0, 23 e indica
una debole relazione negativa tra le due variabili. Sebbene classi più numerose, in questo
campione, tendano ad avere punteggi inferiori nel test, ci sono altre determinanti dei punteggi
che impediscono alle osservazioni di disporsi perfettamente lungo una linea retta.
Nonostante questa bassa correlazione, se si potesse in qualche modo tracciare una retta
tra questi punti, la sua pendenza sarebbe una stima di βClassSize basata su questi dati. Un
97
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 98 — #128
i
i
4.2. Stima dei coefficienti del modello di regressione lineare
Figura 4.2: grafico a nuvola del punteggio del test sul rapporto studenti-insegnanti (dati
relativi ai distretti scolastici della California)
Punteggio test
720
700
680
660
640
620
600
10
15
20
25
30
Rapporto studenti-insegnanti
Dati per i 420 distretti scolastici della California. C’è una debole relazione negativa tra il rapporto studentiinsegnanti e i punteggi del test: la correlazione campionaria è pari a −0, 23.
modo per tracciare una retta potrebbe essere quello di prendere una matita e un righello e di
cercare di disegnare a occhio la migliore retta possibile. Sebbene questo metodo sia semplice,
è scarsamente scientifico e persone diverse stimerebbero rette diverse.
Come fare, allora, a scegliere tra le molte rette possibili? Il metodo di gran lunga più
usato è quello di scegliere la retta che corrisponde alla stima dei “minimi quadrati” per questi
dati, ovvero di usare lo stimatore dei minimi quadrati ordinari (OLS).
Lo stimatore dei minimi quadrati ordinari
Lo stimatore OLS sceglie i coefficienti di regressione in modo che la retta di regressione
stimata sia il più possibile vicina ai dati osservati, dove la vicinanza è misurata dalla somma
dei quadrati degli errori che si commettono nel predire Y data X.
Publishing
Inc.
Come discussoElectronic
nella sezione
3.1, la Services
media campionaria,
Ȳ , è lo stimatore dei minimi
Stock/Watson, Econometrics 1e
quadrati della media della popolazione, E(Y ); in altre parole, Ȳ minimizza la somma totale
P
STOC.ITEM.0013
degli errori al quadrato ni=1 (yi − m)2 tra tutti i possibili stimatori m (si veda la (3.2)).
Fig. 04.02
Lo stimatore OLS estende questa idea al modello di regressione lineare. Siano b 0 e b1
Proof
2ndbasata
Proofsu questi3rd
Proof è b0 + bFinal
stimatori di β0 e β1 . La1st
retta
di regressione
stimatori
1 X, e quindi
98
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 99 — #129
i
i
4.2. Stima dei coefficienti del modello di regressione lineare
il valore di Yi predetto usando questa retta è b0 + b1 Xi . Perciò, l’errore che si commette nel
predire la i-esima osservazione è Yi − (b0 + b1 Xi ) = Yi − b0 − b1 Xi . La somma dei quadrati
degli errori di predizione per tutte le n osservazioni è
n
X
i=1
(Yi − b0 − b1 Xi )2 .
(4.6)
La somma degli errori quadratici (4.6) per il modello di regressione lineare è la generalizzazione della somma degli errori quadratici (3.2) per il problema della stima della media.
Infatti, se non c’è alcun regressore, b1 non compare nella (4.6) e i due problemi sono identici
eccetto per la differente notazione (m nella (3.2), b0 nella (4.6)). Cosı̀ come c’è un unico stimatore, Ȳ , che minimizza la (3.2), c’è un’unica coppia di stimatori di β0 e β1 che minimizza
la (4.6).
Gli stimatori dell’intercetta e della pendenza che minimizzano la somma dei quadrati
degli errori nella (4.6) sono detti stimatori dei minimi quadrati ordinari (OLS) di β0 e β1 .
Gli OLS hanno una notazione e una terminologia propria. Lo stimatore OLS di β 0 è
indicato con β̂0 e quello di β1 con β̂1 . La retta di regressione degli OLS è la linea retta
costruita usando gli stimatori degli OLS ovvero β̂0 + β̂1 X. Il valore predetto di Yi data Xi ,
basato sulla retta di regressione degli OLS, è Ŷi = β̂0 + β̂1 Xi . Il residuo relativo alla i-esima
osservazione è la differenza tra Yi e il suo valore predetto, cioè il residuo è ûi = Yi − Ŷi .
Si potrebbero calcolare gli stimatori OLS di β̂0 e β̂1 provando diversi valori di b0 e b1 ,
finché non si trovano quelli che minimizzano la somma degli errori quadratici (4.6); queste
sono le stime dei minimi quadrati. Questa procedura potrebbe però risultare alquanto tediosa. Fortunatamente, ci sono formule derivate dalla minimizzazione della (4.6) attraverso il
calcolo differenziale che semplificano il calcolo degli stimatori degli OLS.
Le formule e la terminologia relativa agli OLS sono riassunti nel concetto chiave 4.2. Tali
formule sono implementate in quasi tutti i pacchetti statistici e i fogli elettronici. Esse sono
derivate formalmente nell’appendice 4.2.
Stime OLS della relazione tra punteggi del test e rapporto
studenti-insegnanti
Utilizziamo gli OLS per stimare la retta che mette in relazione il rapporto studenti-insegnanti
con i punteggi del test usando le 420 osservazioni riportate nella figura 4.2: la pendenza
stimata è −2, 28 e l’intercetta stimata è 698, 9. La retta di regressione OLS per queste 420
osservazioni è
d
T estScore
= 698, 9 − 2, 28 × ST R,
(4.7)
dove T estScore è il punteggio medio del test ottenuto nel distretto e ST R (acronimo dall’inglese Student-Teacher Ratio) è il rapporto studenti-insegnanti. Il simbolo “ ˆ ” su T estScore
99
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 100 — #130
i
i
4.2. Stima dei coefficienti del modello di regressione lineare
Concetto chiave 4.2: stimatore OLS, valori predetti e residui
Gli stimatori OLS della pendenza β1 e dell’intercetta β0 sono:
β̂1 =
n
P
i=1
(Xi − X̄)(Yi − Ȳ )
n
P
i=1
(Xi − X̄)2
=
sXY
s2X
β̂0 = Ȳ − β̂1 X.
(4.8)
(4.9)
I valori predetti Ŷi e i residui ûi sono:
Ŷi = β̂0 + β̂1 Xi , i = 1, . . . , n
(4.10)
ûi = Yi − Ŷi , i = 1, . . . , n.
(4.11)
L’intercetta stimata (β̂0 ), la pendenza (β̂1 ) e il residuo (û1 ) sono calcolati su un campione
di n osservazioni di Xi e Yi , con i = 1, . . . , n. Queste sono stime dell’intercetta (β0 ),
della pendenza (β1 ) e dell’errore (ui ) nella popolazione.
nell’equazione (4.7) indica che questo è il valore predetto in base alla retta di regressione degli OLS. La figura 4.3 riporta la retta di regressione sovrapposta al grafico a nuvola mostrato
in precedenza nella figura 4.2.
La pendenza pari a −2, 28 indica che un incremento nel rapporto studenti-insegnanti
di uno studente per classe è, mediamente, associato a una riduzione nei punteggi del test
a livello di distretto di 2, 28 punti. Una riduzione di due studenti per classe del rapporto
studenti-insegnanti è mediamente associata a un incremento nei punteggi del test di 4, 56
punti (= −2 × (−2.28)). La pendenza negativa indica che a un maggior numero di studenti
per insegnante (classi più grandi) si associa una peggiore prestazione nel test.
È ora possibile predire il risultato del test per l’intero distretto dato un certo valore del
rapporto studenti-insegnanti. Ad esempio, per un distretto con 20 studenti per insegnante il
punteggio predetto è 698, 9 − 2, 28 × 20 = 653, 3. Naturalmente, questa predizione non sarà
perfetta a causa degli altri fattori che determinano la prestazione di un distretto. Tuttavia,
la retta di regressione fornisce una predizione (la predizione degli OLS) di quale sarebbe il
risultato del test in quel distretto, basandosi sul solo rapporto studenti-insegnanti e ignorando
tutti gli altri fattori.
Questa stima della pendenza è grande o piccola? Per poter rispondere, ritorniamo al
problema del provveditore. Si ricordi che sta vagliando l’opportunità di assumere abbastanza
insegnanti da ridurre di due unità il numero di studenti per insegnante. Supponiamo che il
100
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 101 — #131
i
i
4.2. Stima dei coefficienti del modello di regressione lineare
Figura 4.3: retta di regressione stimata per i dati della California
Punteggio test
720
700
ˆ
Punteggio test = 698,9 – 2,28 X STR
680
660
640
620
600
10
15
20
25
30
Rapporto studenti-insegnanti
La retta di regressione stimata mostra una relazione negativa tra i punteggi del test e il rapporto studentiinsegnanti. Se le classi fossero ridotte di 1 studente, la previsione è che i punteggi del test crescerebbero di
2, 28 punti.
distretto del provveditore sia quello mediano della California. Dalla tabella 4.1, il rapporto
mediano studenti-insegnanti è 19, 7 e il punteggio mediano è 654, 5. Una riduzione di due
studenti per classe, da 19, 7 a 17, 7, sposterebbe il rapporto studenti-insegnanti dal 50-esimo
al 10-mo percentile. Si tratta di un grande cambiamento che richiede l’assunzione di molti
nuovi insegnanti. In che modo potrebbe influenzare i punteggi del test?
In base alla (4.7), tagliando il numero di studenti per insegnante di due unità, si predice un miglioramento del punteggio del test di 4, 6 punti. Se il punteggio del distretto fosse
pari alla mediana, 654, 5, si predice che esso crescerebbe fino a 659, 1. È un miglioramento
grande o piccolo? Secondo la tabella 4.1, questo miglioramento sposta il distretto dalla mediana ad appena sotto il 60-esimo percentile. Perciò, una riduzione nella dimensione delle
classi che collocasse il distretto vicino al 10% delle classi con dimensioni minori, sposterebbe i punteggi del test dal 50-esimo al 60-esimo percentile. Secondo queste stime, tagliare
Electronic Publishing Services Inc.
il rapporto studenti-insegnanti in maniera rilevante (2 studenti per insegnante) aiuterebbe, e
Stock/Watson, Econometrics 1e
potrebbe essere una buona idea se la situazione di bilancio lo permettesse, ma non sarebbe
STOC.ITEM.0014
una panacea. Fig. 04.03
Cosa succede se il provveditore considera un cambiamento ancora più radicale, come una
1st Proof
2nd Proof
3rd Proof
Final
riduzione nel numero di studenti per insegnante da 20 a 5? Sfortunatamente, le stime della
101
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 102 — #132
i
i
4.2. Stima dei coefficienti del modello di regressione lineare
Il “beta” di un titolo
Un’idea fondamentale della finanza moderna è che un investitore ha bisogno di un incentivo finanziario per assumere un rischio.
Detto diversamente, il rendimento attesoa di
un investimento rischioso R deve essere superiore al rendimento di un investimento sicuro e senza rischio Rf . Perciò, l’eccesso di
rendimento atteso R − Rf di un investimento rischioso, quale il possesso di titoli di una
società, dovrebbe essere positivo.
Potrebbe sembrare a prima vista che il rischio di un titolo debba essere misurato dalla sua varianza. Gran parte di tale rischio
può però essere ridotto aggiungendo altri titoli al “portafoglio”, cioè diversificando gli
investimenti finanziari. Questo significa che
il modo corretto per misurare il rischio di un
titolo non è attraverso la sua varianza, ma
piuttosto attraverso la sua covarianza con il
mercato.
Il capital assets pricing model (CAPM)
formalizza questa idea. Secondo il CAPM,
l’eccesso di rendimento atteso su un’attività
è proporzionale all’eccesso di rendimento
atteso su un portafoglio composto da tutte
le attività finanziarie disponibili (il “portafoglio di mercato”). In altri termini, il CAPM
afferma che
R − Rf = β(Rm − Rf ),
(4.12)
dove Rm è il rendimento atteso sul portafoglio di mercato e β è il coefficiente della regressione di R−Rf su Rm −Rf . In pratica,
il rendimento privo di rischio è spesso rappresentato dal tasso d’interesse a breve sul
debito pubblico USA. Secondo il CAPM, un
titolo con β < 1 è meno rischioso rispetto
al portafoglio di mercato e perciò ha un eccesso di rendimento atteso minore rispetto
al portafoglio di mercato. Al contrario, un
titolo con β > 1 è più rischioso rispetto al
portafoglio di mercato e perciò richiede un
maggiore eccesso di rendimento atteso.
Il “beta” di un titolo è diventato un cavallo di battaglia dell’industria dell’investimento, e si possono ottenere stime dei β relativi a centinaia di titoli nelle pagine web
delle società d’investimento. Tali β sono tipicamente stimati tramite regressioni OLS
dell’effettivo eccesso di rendimento del titolo sull’effettivo eccesso di rendimento di
un ampio indice di mercato.
La tabella sottostante fornisce stime di
β per sei titoli USA. Imprese a basso rischio di prodotti per il consumatore, come
la Kellogg, hanno titoli con bassi β; imprese
rischiose ad alta tecnologia, come la Microsoft, hanno β grandi.
Impresa
Kellogg (cereali)
Waste Management (rifiuti)
Sprint (interurbane)
Walmart (discount)
Barnes and Noble (dettagliante)
Best Buy (rivenditore)
Microsoft (software)
Fonte: Yahoo.com
β stimato
0,24
0,38
0,59
0,89
1,03
1,80
1,83
a
Il rendimento di un investimento è la variazione nel suo prezzo, più qualunque pagamento (dividendo) derivante dall’investimento, come percentuale del suo prezzo iniziale. Per esempio, un titolo acquistato l’1 gennaio
per 100$, che paga un dividendo di 2, 50$ durante l’anno e che è venduto il 31 dicembre per 105$, avrebbe un
rendimento pari a R = [(105$ − 100$) + 2, 50$]/100$ = 7, 5%.
102
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 103 — #133
i
i
4.3. Le assunzioni dei minimi quadrati
(4.7) non sarebbero molto utili. Tale regressione è stata stimata utilizzando i dati della figura
4.2 e, come la figura mostra, il numero minimo di studenti per insegnante è 14. Questi dati
non contengono informazioni riguardanti le prestazioni in distretti con classi molto piccole; essi non costituiscono, quindi, una base solida per predire l’effetto di uno spostamento
radicale verso un rapporto studenti-insegnanti cosı̀ basso.
Perché usare lo stimatore OLS?
Ci sono ragioni sia pratiche sia teoriche per l’uso degli stimatori OLS β̂0 e β̂1 . Poiché quello
degli OLS è il metodo dominante in pratica, è diventato il linguaggio comune dell’analisi di
regressione in economia, finanza (si guardi il riquadro “Il “beta” di un titolo”) e nelle scienze
sociali più in generale. Presentare risultati ottenuti con gli OLS (o le varianti che verranno
discusse nel prosieguo del libro) significa “parlare la stessa lingua” degli altri economisti e
statistici. Le formule degli OLS sono contenute in praticamente tutti i fogli elettronici e i
pacchetti statistici, rendendo cosı̀ gli OLS facili da usare.
Gli stimatori degli OLS hanno anche proprietà teoriche desiderabili. Ad esempio, la media campionaria Ȳ è uno stimatore non distorto della media E(Y ), cioè E(Ȳ ) = µY ; Ȳ è
uno stimatore consistente di µY ; e, in grandi campioni la distribuzione di Ȳ è approssimativamente normale (sezione 3.1). Gli stimatori OLS β̂0 e β̂1 hanno anch’essi queste proprietà.
Dato un insieme generale di ipotesi (riportate nella sezione 4.3), β̂0 e β̂1 sono stimatori non
distorti e consistenti di β0 e β1 e la loro distribuzione campionaria è approssimativamente
normale. Questi risultati sono discussi nella sezione 4.4.
Un’ulteriore proprietà desiderabile di Ȳ è quella di essere efficiente tra gli stimatori che
sono funzioni lineari di Y1 , . . . , Yn : ha cioè varianza minore tra tutti gli stimatori costruiti
come medie ponderate di Y1 , . . . , Yn (sezione 3.1). Un risultato simile vale anche per lo stimatore OLS, ma questo risultato richiede un’ulteriore assunzione rispetto a quelle contenute
nella sezione 4.3 e quindi ne rimandiamo la discussione alla sezione 4.9.
4.3 Le assunzioni dei minimi quadrati
Questa sezione presenta un insieme di tre assunzioni sul modello di regressione lineare e sullo schema di campionamento sotto le quali gli OLS costituiscono uno stimatore appropriato
dei coefficienti di regressione ignoti β0 e β1 . Queste ipotesi potrebbero apparire inizialmente
astratte. Esse hanno tuttavia un’interpretazione intuitiva e la loro comprensione è essenziale per capire quando gli OLS forniscono –o non forniscono– stime utili dei coefficienti di
regressione.
103
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 104 — #134
i
i
4.3. Le assunzioni dei minimi quadrati
Figura 4.4: distribuzioni di probabilità condizionate e retta di regressione della
popolazione
Punteggio test
720
700
680
Distribuzione di Y quando X = 15
Distribuzione di Y quando X = 20
Distribuzione di Y quando X = 25
660
E(YX = 15)
640
E(YX = 20)
E(YX = 25)
620
600
10
15
20
β 0 +β 1 X
25
30
Rapporto studenti-insegnanti
La figura mostra la probabilità condizionata dei punteggi del test per distretti con classi di 15, 20 e 25 studenti.
˛
La media della distribuzione condizionata dei punteggi del test, dato il rapporto studenti-insegnanti, E(Y ˛X), è
la retta di regressione β0 + β1 X . Per un dato valore di X , Y si distribuisce attorno alla retta di regressione e
l’errore u = Y − (β0 + β1 X) ha media condizionata nulla per ogni valore di X .
Assunzione 1: la distribuzione condizionata di ui data Xi ha media nulla
La prima assunzione dei minimi quadrati è che la distribuzione condizionata di u i data Xi
abbia media nulla. Questa assunzione è una formalizzazione matematica riguardante gli “altri
fattori” contenuti in ui e afferma che questi altri fattori non sono legati a Xi nel senso che,
dato un valore di Xi , la media della distribuzione di questi altri fattori è pari a zero.
Tutto questo è illustrato nella figura 4.4. La regressione relativa alla popolazione è la
relazione che mediamente si ha, nella popolazione, tra la dimensione delle classi e i punteggi
Electronic
Publishing
Services
del test, e l’errore
ui rappresenta
gli altri
fattori Inc.
che rendono i punteggi del test in un distretto
Stock/Watson,
Econometrics
1e
diversi dalla predizione basata sulla retta di regressione relativa alla popolazione. Come
STOC.ITEM.0015
mostrato dalla figura
4.4, per una data dimensione delle classi, diciamo 20 studenti per classe,
Fig. 04.04
talvolta questi altri fattori danno luogo a prestazioni migliori rispetto a quelle predette (u i >
1st Proof
Proof
0) e talvolta a prestazioni
peggiori (u2nd
0), sebbene3rd
la predizione
in Final
media sia corretta.
i <Proof
In altre parole, data Xi = 20, la media della distribuzione di ui è pari a zero. Nella figura
4.4, questo è mostrato dal fatto che la distribuzione di ui si concentra attorno alla retta di
regressione in corrispondenza di Xi = 20 e, più in generale, degli altri valori x assunti da
Xi . In altre parole, la distribuzione di ui , condizionatamente a Xi = x, ha media nulla
104
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 105 — #135
i
i
4.3. Le assunzioni dei minimi quadrati
per ogni x; in termini matematici, E(ui Xi = x) = 0 per ogni x o, con una notazione più
semplice, E(ui Xi ) = 0.
Come mostrato nella figura 4.4, l’ipotesi E(ui Xi ) = 0 corrisponde all’ipotesi che la
retta di regressione relativa alla popolazione sia la media condizionata di Y i data Xi (la
dimostrazione matematica è lasciata come esercizio 4.3).
Correlazione e media condizionata. Si ricordi dalla sezione 2.3 che, se una variabile casuale ha media condizionata nulla data un’altra variabile cauale, allora le due variabili casuali
hanno covarianza nulla e sono perciò incorrelate (si veda la (2.25)). Per questo motivo, l’assunzione circa la media condizionata E(ui Xi ) = 0 implica che Xi e ui siano incorrelati,
ovvero corr(Xi , ui ) = 0. Siccome la correlazione è una misura di associazione lineare, non
vale invece il contrario; se anche Xi e ui fossero incorrelati, la media condizionata di ui
data Xi potrebbe essere non nulla. Se però Xi e ui sono correlati, allora necessariamente
E(ui Xi ) è non nulla. Perciò conviene spesso discutere l’assunzione circa la media condizionata nei termini di una possibile correlazione tra Xi e ui . Se Xi e ui sono correlati, allora
l’assunzione circa la media condizionata è violata.
Assunzione 2: (Xi , Yi ), i = 1, . . . , n sono indipendentemente e identicamente distribuite
La seconda assunzione dei minimi quadrati è che (Xi , Yi ), i = 1, . . . , n, sono indipendentemente e identicamente distribuite (i.i.d.). Come discusso nella sezione 2.5 (concetto chiave
2.5), questa è una formalizzazione matematica del modo in cui viene estratto il campione. Se
le osservazioni sono estratte con campionamento casuale semplice da un’unica ampia popolazione, allora (Xi , Yi ), i = 1, . . . , n, sono i.i.d. Ad esempio, sia X l’età di un lavoratore
e Y la sua retribuzione, e si immagini di estrarre in maniera casuale una persona dalla popolazione dei lavoratori. Tale persona selezionata casualmente avrebbe una certa età e una
certa retribuzione (ovvero X e Y assumerebbero certi valori). Se un campione di n lavoratori
fosse estratto da questa popolazione, allora (Xi , Yi ), i = 1, . . . , n, avrebbero necessariamente la stessa distribuzione e, se fossero estratti in modo casuale, sarebbero anche distribuiti
indipendentemente tra loro, ovvero sarebbero i.i.d.
L’assunzione di i.i.d. è ragionevole per molti schemi di campionamento. Ad esempio,
le indagini riguardanti un sottoinsieme casualmente selezionato della popolazione possono
tipicamente essere trattate come i.i.d.
Non tutti gli schemi di campionamento producono però osservazioni i.i.d. su (X i , Yi ).
Un esempio è quando il valore di X non è rilevato attraverso un campione casuale della popolazione, ma viene invece fissato dal ricercatore come parte di un esperimento. Ad esempio,
supponiamo che un orticultore voglia studiare gli effetti di vari metodi di diserbaggio organico (X) sulla produzione di pomodori (Y ) e quindi metta a coltura i pomodori in campi diversi
105
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 106 — #136
i
i
4.3. Le assunzioni dei minimi quadrati
utilizzando tecniche diverse di diserbaggio organico. Se l’orticultore sceglie le tecniche (il
livello di X) da utilizzare nel campo i-esimo e applica al campo i-esimo la stessa tecnica in
tutte le ripetizioni dell’esperimento, allora il valore di Xi non cambia da un campione a un
altro. Perciò, Xi non è casuale (sebbene il risultato Yi lo sia) e il tipo di campionamento
non è i.i.d. I risultati presentati in questo capitolo, sviluppati per regressori i.i.d., sono veri
anche se i regressori non sono casuali (questo punto sarà discusso nel capitolo 15). Il caso
dei regressori non casuali, comunque, è piuttosto peculiare. Ad esempio, i moderni protocolli sperimentali richiedono che l’orticultore assegni il livello di X ai diversi campi usando
un generatore di numeri casuali computerizzato, prevenendo cosı̀ ogni possibile distorsione
dovuta all’orticultore stesso (che potrebbe usare per i pomodori il suo metodo di diserbaggio organico preferito nel campo più soleggiato). Quando si usa questo moderno protocollo
sperimentale, il livello di X è casuale e (Xi , Yi ) sono i.i.d.
Un altro esempio di campionamento non-i.i.d. è quando le osservazioni si riferiscono alla
stessa unità osservata ripetutamente nel tempo. Ad esempio, potremmo avere dati sul livello
delle scorte di un’impresa (Y ) e sul tasso d’interesse al quale l’impresa ottiene credito (X),
registrati quattro volte all’anno (trimestralmente) per trent’anni. Questo è un esempio di serie
temporale, e una peculiarità delle serie temporali è che le osservazioni vicine nel tempo non
sono indipendenti, ma tendono a essere correlate tra di loro; se i tassi d’interesse sono bassi
ora, lo saranno verosimilmente anche nel prossimo trimestre. Questa forma di correlazione
viola la parte riguardante l’“indipendenza” dell’assunzione di dati i.i.d. Le serie temporali
portano con sé un insieme di complicazioni che è meglio trattare dopo aver descritto gli
strumenti basilari dell’analisi di regressione; rimandiamo, perciò, la discussione dell’analisi
delle serie temporali alla parte IV.
Assunzione 3: Xi e ui hanno quattro momenti
La terza assunzione degli OLS è che i momenti quarti di Xi e ui siano non nulli e finiti
(0 < E(Xi4 ) < ∞ e 0 < E(u4i ) < ∞) o, equivalentemente, che i momenti quarti di Xi e Yi
siano non nulli e finiti. Questa assunzione limita la probabilità di selezionare un’osservazione
con valori estremamente elevati di Xi e ui . Se dovessimo estrarre un’osservazione con Xi
o Yi estremamente elevati –ovvero con Xi o Yi molto lontani dalla regione in cui si trova il
grosso dei dati– quella osservazione riceverebbe grande rilevanza in una regressione OLS e
questo renderebbe fuorvianti i risultati della regressione.
L’assunzione di momenti quarti finiti è usata nei calcoli matematici che giustificano le
approssimazioni per grandi campioni alle distribuzioni delle statistiche test basate sugli OLS.
Abbiamo già incontrato tale assunzione nel capitolo 3, discutendo la consistenza della varianza campionaria. Nello specifico, la (3.8) afferma che la varianza campionaria s 2Y è uno stimap
tore consistente della varianza della popolazione σY2 (ovvero che s2Y → σY2 ). Se Y1 , . . . , Yn
P
sono i.i.d. e il momento quarto di Yi è finito, allora per la media n1 ni=1 (Yi − µY )2 vale la
106
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 107 — #137
i
i
4.3. Le assunzioni dei minimi quadrati
Concetto chiave 4.3: le assunzioni dei minimi quadrati
Yi = β0 + β1 Xi + ui , con i = 1, . . . , n, dove:
1. l’errore ui ha media condizionata nulla data Xi , ovvero E(ui Xi ) = 0;
2. (Xi , Yi ), i = 1, . . . , n, sono estratti indipendentemente e identicamente distribuiti
(i.i.d.) dalla loro distribuzione congiunta;
3. (Xi , ui ) hanno momenti quarti finiti non nulli.
legge dei grandi numeri (concetto chiave 2.6); è questo un passo cruciale della prova della
consistenza di s2Y nell’appendice 3.3. Il ruolo dell’ipotesi sui momenti quarti nella teoria
matematica della regressione OLS è discusso ulteriormente nella sezione 15.3.
Si potrebbe sostenere che questa assunzione è un dettaglio tecnico che vale regolarmente
in pratica. La dimensione di una classe è limitata dalla capacità fisica della classe; la cosa migliore che si possa fare in un test standardizzato è rispondere correttamente a tutte le
domande, la peggiore è dare tutte risposte sbagliate. Poiché la dimensione delle classi e i
punteggi del test hanno dominio finito, essi hanno necessariamente momenti quarti finiti. Più
in generale, le distribuzioni comunemente utilizzate come la normale hanno quattro momenti. Però, come questione puramente matematica, alcune distribuzioni non hanno momenti
quarti finiti e questa assunzione le esclude. Se vale questa assunzione, è improbabile che le
inferenze statistiche che usano gli OLS siano dominate da poche osservazioni.
L’uso delle assunzioni dei minimi quadrati
Le tre assunzioni dei minimi quadrati per il modello di regressione lineare sono riportate nel concetto chiave 4.3. Le assunzioni dei minimi quadrati giocano un duplice ruolo e
ritorneremo ripetutamente su di esse nel prosieguo del testo.
Il primo ruolo è matematico: se valgono queste assunzioni, allora, come mostrato nella prossima sezione, in grandi campioni gli stimatori OLS hanno distribuzioni campionarie
normali. A sua volta, questa distribuzione normale in grandi campioni permette di sviluppare
metodi per la verifica di ipotesi e la costruzione di intervalli di confidenza usando gli stimatori
OLS.
Il loro secondo ruolo è quello di identificare le circostanze che creano difficoltà per la
regressione OLS. Come vedremo, la prima assunzione dei minimi quadrati è la più importante da considerare nelle applicazioni pratiche. Una ragione per cui la prima assunzione dei
107
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 108 — #138
i
i
4.4. Distribuzione campionaria degli stimatori OLS
minimi quadrati potrebbe non valere in pratica è discussa nella sezione 4.10 e nel capitolo 5,
e ragioni ulteriori sono discusse nella sezione 7.2.
È anche importante verificare se, per una data applicazione, valga la seconda assunzione.
Benché sia plausibile per molti dati sezionali, essa è inappropriata per le serie temporali. Per
questo motivo, l’assunzione di dati i.i.d. sarà rimpiazzata nella parte IV, quando discuteremo
la regressione con serie temporali, da un’assunzione più adatta.
Tratteremo la terza ipotesi come condizione tecnica che vale comunemente in pratica e
quindi non ci dilungheremo oltre su di essa.
4.4 Distribuzione campionaria degli stimatori OLS
Siccome gli stimatori OLS β̂0 e β̂1 sono calcolati per un campione estratto casualmente, sono
essi stessi variabili casuali con una distribuzione di probabilità –la distribuzione campionaria–
che descrive i valori che essi possono assumere nei diversi campioni possibili. Questa sezione
presenta tali distribuzioni campionarie. In piccoli campioni, queste distribuzioni sono complicate, ma, in grandi campioni, esse sono approssimativamente normali grazie al teorema
limite centrale.
La distribuzione campionaria degli stimatori degli OLS
Richiami sulla distribuzione campionaria di Ȳ . Si ricordi la discussione delle sezioni 2.5
e 2.6 sulla distribuzione campionaria della media campionaria, Ȳ , uno stimatore della media
ignota di Y nella popolazione, µY . Poiché Ȳ è calcolata utilizzando un campione estratto casualmente, Ȳ è una variabile casuale che assume valori diversi da un campione a un
altro; la probabilità di questi diversi valori è riassunta nella sua distribuzione campionaria.
Sebbene la distribuzione campionaria di Ȳ possa essere complicata quando la numerosità
campionaria è piccola, si può dire al suo proposito qualcosa che vale per ogni n. In particolare, la media della distribuzione campionaria è µY ovvero E(Ȳ ) = µY , e quindi Ȳ è uno
stimatore non distorto di µY . Se n è grande, si può dire di più circa la distribuzione campionaria. In particolare, il teorema limite centrale (sezione 2.6) afferma che questa distribuzione
è approssimativamente normale.
La distribuzione campionaria di β̂0 e β̂1 . Queste idee si estendono agli stimatori OLS β̂0 e
β̂1 dell’intercetta ignota β0 e della pendenza β1 della retta di regressione della popolazione.
Poiché gli stimatori OLS sono calcolati usando un campione casuale, β̂0 e β̂1 sono variabili
casuali che assumono valori diversi da un campione all’altro; la probabilità di questi diversi
valori è riassunta nella loro distribuzione campionaria.
Sebbene le distribuzioni campionarie di β̂0 e β̂1 possano essere complesse quando la
numerosità campionaria è piccola, si può comunque dire al suo proposito qualcosa che vale
108
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 109 — #139
i
i
4.4. Distribuzione campionaria degli stimatori OLS
per ogni n. In particolare, le distribuzioni campionarie di β̂0 e β̂1 hanno medie pari a β0 e β1 .
In altre parole, sotto le assunzioni dei minimi quadrati nel concetto chiave 4.3,
E(β̂0 ) = β0
e
E(β̂1 ) = β1 ,
(4.13)
cioè, β̂0 e β̂1 sono stimatori non distorti di β0 e β1 . La prova della non distrorsione di β̂1 è
fornita nell’appendice 4.3 e la prova della non distorsione di β̂0 è lasciata come esercizio 4.4.
Se il campione è sufficientemente numeroso, per il teorema limite centrale la distribuzione campionaria di β̂0 e β̂1 è bene approssimata dalla distribuzione normale bivariata (sezione 2.4). Questo implica che le distribuzioni marginali di β̂0 e β̂1 siano normali in grandi
campioni.
Questo ragionamento richiede il teorema limite centrale. Tecnicamente, il teorema limite
centrale riguarda la distribuzione delle medie (come Ȳ ). Esaminando il numeratore dell’equazione (4.8), si vede che anche β̂1 è una sorta di media –non una media semplice– come Ȳ ,
ma una media di prodotti, (Yi − Ȳ )(Xi − X̄). Come discusso ulteriormente nell’appendice
4.3, il teorema limite centrale si applica a questa media, che quindi, come la media semplice
Ȳ , si distribuisce normalmente in grandi campioni.
L’approssimazione normale alla distribuzione degli stimatori OLS in grandi campioni è
riassunta nel concetto chiave 4.4 (l’appendice 4.3 riassume la derivazione di queste formule).
Una questione rilevante in pratica è quanto grande debba essere n perché queste approssimazioni siano affidabili. Nella sezione 2.6 abbiamo suggerito che n = 100 è sufficientemente
grande perché la distribuzione campionaria di Ȳ sia ben approssimata da una distribuzione
normale, e che talvolta è sufficiente un n più piccolo. Questo criterio si estende alle medie
più complicate che compaiono nell’analisi di regressione. Virtualmente in tutte le moderne
applicazioni econometriche n > 100, e quindi considereremo affidabile l’approssimazione
normale alle distribuzioni degli stimatori OLS, a meno che non sussistano valide ragioni per
pensare diversamente.
I risultati nel concetto chiave 4.4 implicano che gli stimatori OLS siano consistenti, cioè
quando la dimensione campionaria è grande, β̂0 e β̂1 sono vicini, con alta probabilità, ai veri
coefficienti della popolazione β0 e β1 . Questo accade perché le varianze σβ̂2 e σβ̂2 degli
0
1
stimatori tendono a zero al crescere di n (infatti, n appare al denominatore delle formule
per le varianze), e quindi le distribuzioni degli stimatori OLS saranno fortemente concentrate
attorno alle loro medie, β0 e β1 , quando n è grande.
Un’altra implicazione delle distribuzioni nel concetto chiave 4.4 è che, in generale, maggiore è la variabilità di Xi , minore è la varianza σβ̂2 di β̂1 . Matematicamente, questo accade
1
perché la varianza di β̂1 nella (4.14) è inversamente proporzionale al quadrato della varianza
di Xi : maggiore è var(Xi ), maggiore è il denominatore della 4.14, e quindi minore è σ β̂2 . Per
1
comprendere meglio perché ciò accada, si guardi la figura 4.5 che presenta un grafico a nuvola di 150 dati su X e Y generati artificialmente. I dati indicati con punti grigi rappresentano
109
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 110 — #140
i
i
4.5. Verifica di ipotesi su un singolo coefficiente di regressione
Concetto chiave 4.4: le distribuzioni di β̂0 e β̂1 in grandi campioni
Se valgono le ipotesi dei minimi quadrati nel concetto chiave 4.3, β̂0 e β̂1 hanno congiuntamente distribuzione campionaria normale. La distribuzione normale in grandi campioni
di β̂1 è N (β1 , σβ̂2 ), dove la varianza di questa distribuzione, σβ̂2 , è
1
1
σβ̂2 =
1
1 var[(Xi − µX )ui ]
.
n
[var(Xi )]2
(4.14)
La distribuzione normale in grandi campioni di β̂0 è N (β0 , σβ̂2 ), dove
0
σβ̂2
0
1 var(Hi ui )
=
, dove Hi = 1 −
n [E(Hi2 )]2
µX
E(Xi2 )
Xi .
(4.15)
le 75 osservazioni più vicine a X̄. Supponete che vi venga chiesto di disegnare una retta che
passi il più accuratamente possibile attraverso i punti grigi oppure, a vostra scelta, attraverso
quelli neri: quale scegliereste di disegnare? Sarebbe più facile disegnare con precisione una
linea attraverso i punti neri, che hanno varianza maggiore rispetto ai punti grigi. In modo
simile, maggiore è la varianza di X, più preciso risulta β̂1 .
L’approssimazione normale alla distribuzione campionaria di β̂0 e β̂1 è uno strumento
potente. Con questa approssimazione a disposizione, possiamo sviluppare metodi per fare inferenza sui veri valori dei coefficienti di regressione nella popolazione, usando solo un
campione di dati.
4.5 Verifica di ipotesi su un singolo coefficiente
di regressione
Il vostro cliente, il provveditore, vi chiama per un problema. Ha un contribuente arrabbiato
nel suo ufficio il quale sostiene che il ridimensionamento delle classi non incrementerà i
punteggi dei test, risolvendosi quindi in un mero sperpero di denaro. La dimensione delle
classi, sostiene il contribuente, non ha alcun effetto sui punteggi dei test.
La lamentela del contribuente può essere riformulata nei termini dell’analisi di regressione. Poiché l’effetto sui punteggi del test di una variazione unitaria nella dimensione delle
classi è βClassSize , il contribuente sta affermando che la retta di regressione relativa alla popolazione è orizzontale, ovvero che la pendenza βClassSize della retta di regressione della
popolazione è pari a zero. C’è qualche evidenza nel vostro campione di 420 osservazioni sui
distretti scolastici californiani, chiede il provveditore, che questa pendenza sia nulla? Si può
110
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 111 — #141
i
i
4.5. Verifica di ipotesi su un singolo coefficiente di regressione
Figura 4.5: distribuzioni di probabilità condizionate e retta di regressione della
popolazione
Y
206
204
202
200
198
196
194
97
98
99
100
101
102
103
X
I punti grigi rappresentano un sottoinsieme delle Xi con varianza piccola. I punti neri rappresentano un sottoinsieme di Xi con varianza elevata. La retta di regressione può essere stimata più accuratamente con i punti neri
che con i punti grigi.
rifiutare l’ipotesi del contribuente secondo cui βClassSize = 0 o si deve accettarla, almeno
provvisoriamente, in attesa di ulteriore nuova evidenza?
Questa sezione discute la verifica di ipotesi riguardanti la pendenza β 1 o l’intercetta β0
della retta di regressione della popolazione. Inizieremo discutendo in dettaglio i test bilaterali
per la pendenza β1 , per poi passare ai test unilaterali e ai test di ipotesi riguardanti l’intercetta
β0 .
Ipotesi bilaterali su β1
Electronic Publishing Services Inc.
Stock/Watson,
Econometrics
1ei coefficienti di regressione è lo stesso delL’approccio generale
alla verifica
di ipotesi circa
STOC.ITEM.0016
la verifica di ipotesi circa la media della popolazione. Cominciamo, perciò, con un breve
Fig. 04.05
richiamo.
1st Proof
2nd Proof
3rd Proof
Final
Verifica di ipotesi circa la media della popolazione. Si ricordi dalla sezione 3.2 che l’ipo111
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 112 — #142
i
i
4.5. Verifica di ipotesi su un singolo coefficiente di regressione
tesi nulla che la media di Y assuma un valore specifico µY,0 può essere espressa come H0 :
E(Y ) = µY,0 e l’alternativa bilaterale come H1 : E(Y ) 6= µY,0 .
La verifica dell’ipotesi nulla H0 contro l’alternativa bilaterale segue i tre passi indicati nel
concetto chiave 3.6. Il primo richiede di calcolare l’errore standard di Ȳ , SE(Ȳ ), che è uno
stimatore della deviazione standard della distribuzione campionaria di Ȳ . Il secondo passo
richiede di calcolare la statistica t, che ha la forma generale riportata nel concetto chiave 4.5;
applicata qui, la statistica t è t = (Ȳ − µY,0 )/SE(Ȳ ).
Il terzo passo è quello di calcolare il valore-p, che è il più basso livello di significatività al quale l’ipotesi nulla può essere rifiutata, basandosi sulla statistica test effettivamente
osservata; equivalentemente, il valore-p è la probabilità di ottenere, per effetto delle variazioni dovute al campionamento casuale, una statistica che è diversa dall’ipotesi nulla almeno
quanto la statistica realmente osservata, assumendo che l’ipotesi nulla sia corretta (concetto
chiave 3.5). Siccome sotto l’ipotesi nulla la statistica t ha una distribuzione normale standardizzata in grandi campioni, il valore-p di un test d’ipotesi bilaterale è 2Φ(− |t act |), dove
tact è il valore della statistica t effettivamente osservato e Φ è la funzione di ripartizione normale standardizzata tabulata nella tavola 1 dell’appendice finale. Alternativamente, il terzo
passo può essere sostituito da un semplice confronto tra la statistica t e il valore critico del
test con il livello di significatività desiderato; ad esempio, un test bilaterale con un livello di
significatività del 5% rifiuta l’ipotesi nulla se |tact | > 1, 96. In questo caso, la media della
popolazione è detta essere significativamente diversa dal valore ipotizzato al livello 5%.
Verifica di ipotesi circa la pendenza β1 . A livello teorico, l’elemento critico che giustifica
la precedente procedura per la verifica di ipotesi relative alla media della popolazione è il fatto
che, in grandi campioni, la distribuzione campionaria di Ȳ è approssimativamente normale.
Poiché anche β̂1 ha una distribuzione campionaria normale in grandi campioni, ipotesi circa il
valore vero della pendenza β1 possono essere sottoposte a verifica usando lo stesso approccio
generale.
L’ipotesi nulla e quella alternativa debbono essere formulate con precisione prima di essere sottoposte a verifica. L’ipotesi del contribuente arrabbiato è che β ClassSize = 0. Più in
generale, sotto l’ipotesi nulla la pendenza della popolazione β 1 assume un valore specifico,
β1,0 . Sotto l’alternativa bilaterale, β1 è diverso da β1,0 . Allora, l’ipotesi nulla e l’ipotesi
alternativa bilaterale sono
H0 : β1 = β1,0 contro H1 : β1 6= β1,0 (alternativa bilaterale).
(4.16)
Per verificare l’ipotesi nulla H0 , seguiamo gli stessi tre passi seguiti per la media della
popolazione.
Il primo passo consiste nel calcolare l’errore standard di β̂1 , SE(β̂1 ). L’errore standard
di β̂1 è uno stimatore di σβ̂1 , la deviazione standard della distribuzione campionaria di β̂1 .
112
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 113 — #143
i
i
4.5. Verifica di ipotesi su un singolo coefficiente di regressione
Concetto chiave 4.5: forma generale della statistica t
In generale, la statistica t ha la forma
t=
stimatore − valore ipotizzato
.
errore standard dello stimatore
Nello specifico,
SE(β̂1 ) =
dove
σ̂β̂2
1
1
= ×
n
1
n−2
[ n1
q
σ̂β̂2 ,
i=1
n
P
i=1
(4.17)
1
n
P
(Xi − X̄)2 û2i
(4.18)
.
(4.19)
(Xi − X̄)2 ]2
Lo stimatore della varianza (4.19) è discusso nell’appendice 4.4. Sebbene la formula di σ̂ β̂2
1
sia complessa, nelle applicazioni l’errore standard è calcolato dai software di regressione e
quindi è facile da usare in pratica.
Il secondo passo consiste nel calcolare la statistica t,
t=
β̂1 − β1,0
SE(β̂1 )
.
(4.20)
Il terzo passo consiste nel calcolare il valore-p, ovvero la probabilità di osservare un
valore di β̂1 diverso da β1,0 almeno quanto la stima realmente ottenuta (β̂1act ), assumendo
che l’ipotesi nulla sia corretta. In termini matematici,
i
h
valore-p = PrH0 β̂1 − β1,0 > β̂1act − β1,0
i
h
β̂1act −β1,0
β̂1 −β1,0
>
(4.21)
= PrH0 (|t| > |tact |) ,
= PrH0 SE(
β̂ )
SE(β̂ )
1
1
dove PrH0 indica la probabilità calcolata sotto l’ipotesi nulla, la seconda uguaglianza si ottiene dividendo per SE(β1 ) e tact è il valore della statistica t effettivamente calcolata. Poiché
β̂1 , in grandi campioni, si distribuisce approssimativamente secondo una normale, sotto l’ipotesi nulla la statistica t è approssimativamente distribuita come una variabile casuale normale
standardizzata; per queste ragioni, in grandi campioni,
valore-p = Pr |Z| > tact = 2Φ − tact .
(4.22)
Un valore-p basso, diciamo inferiore a 5%, fornisce evidenza a sfavore dell’ipotesi nulla,
nel senso che la probabilità di ottenere il valore osservato di β̂1 come risultato della pura variabilità campionaria è inferiore al 5%, se effettivamente vale l’ipotesi nulla. Se cosı̀, l’ipotesi
nulla è rifiutata al livello di significatività del 5%.
113
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 114 — #144
i
i
4.5. Verifica di ipotesi su un singolo coefficiente di regressione
Alternativamente, l’ipotesi nulla può essere verificata al livello di significatività del 5%
semplicemente confrontando il valore assoluto della statistica t con ±1, 96, il valore critico
di un test bilaterale, e rifiutando l’ipotesi nulla se |tact | > 1, 96.
Questi tre passi sono riassunti nel concetto chiave 4.6.
Applicazione ai punteggi del test. La pendenza stimata tramite gli OLS, utilizzando le 420
osservazioni della figura 4.2, è −2, 28, come riportato nella (4.7). Il suo errore standard è
0, 52, cioè, SE(β̂1 ) = 0, 52. Cosı̀, per sottoporre a verifica l’ipotesi nulla che βClassSize = 0,
costruiamo la statistica t usando l’equazione (4.20); di conseguenza, t act =
(−2, 28 − 0) /0, 52 = −4, 38.
La statistica è maggiore di 2, 58, il valore critico bilaterale all’1%, e quindi si rifiuta l’ipotesi nulla in favore dell’alternativa bilaterale al livello di significatività dell’1%. In alternativa,
possiamo calcolare il valore-p associato a t = −4, 38. Questa probabilità è l’area nelle code
della densità normale standardizzata, come mostrato nella figura 4.6. Questa probabilità è
estremamente piccola, approssimativamente 0, 0001, ovvero 0, 001%. Questo significa che,
se l’ipotesi nulla βClassSize = 0 fosse vera, la probabilità di ottenere un valore di β̂1 lontano
dall’ipotesi nulla almeno quanto il valore effettivamente ottenuto è estremamente piccola, inferiore allo 0, 001%. Poiché questo evento è cosı̀ improbabile, è ragionevole concludere che
l’ipotesi nulla sia falsa.
Ipotesi unilaterali riguardanti β1
La discussione si è finora incentrata sulla verifica dell’ipotesi che β1 = β1,0 contro l’ipotesi
che β1 6= β1,0 . Questo è un test d’ipotesi bilaterale perché, sotto l’alternativa, β 1 potrebbe
essere sia più grande sia più piccolo di β1,0 . Talvolta, è tuttavia appropriato usare un test
unilaterale. Ad esempio, nel problema relativo al rapporto studenti-insegnanti/punteggio del
test, molte persone pensano che classi più piccole costituiscano un ambiente più favorevole
all’apprendimento. Sotto tale ipotesi, β1 è negativo: classi più piccole portano a punteggi
più alti. Potrebbe avere senso, per questo motivo, verificare l’ipotesi nulla β 1 = 0 (nessun
effetto) contro l’alternativa unilaterale β1 < 0.
Per un test unilaterale, l’ipotesi nulla e l’ipotesi alternativa unilaterale sono
H0 : β1 = β1,0 contro H1 : β1 < β1,0
(alternativa unilaterale),
(4.23)
dove β1,0 è il valore di β1 sotto l’ipotesi nulla (0 nell’esempio del rapporto studenti-insegnanti)
e l’alternativa è che β1 sia inferiore a β1,0 . Se l’alterativa fosse che β1 è più grande di β1,0 ,
la disuguaglianza nella (4.23) cambierebbe verso.
Poiché l’ipotesi nulla è la stessa sia per un test di ipotesi unilaterale sia per un test bilaterale, la statistica t si costruisce allo stesso modo. La sola differenza tra i due test riguarda
114
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 115 — #145
i
i
4.5. Verifica di ipotesi su un singolo coefficiente di regressione
Concetto chiave 4.6: verifica dell’ipotesi β1 = β1,0 contro l’alternativa β1 6= β1,0
1. Si calcoli l’errore standard di β̂1 , SE(β̂1 ) (formula (4.17)).
2. Si calcoli la statistica t (formula (4.20)).
3. Si calcoli il valore-p (formula (4.22)). Si rifiuti l’ipotesi al livello di significatività
del 5% se il valore-p è inferiore a 0, 05 o, equivalentemente, se |t act | > 1, 96.
L’errore standard e (tipicamente) la statistica t e il valore-p per verificare l’ipotesi β 1 = 0
sono calcolati automaticamente dai pacchetti statistici.
l’interpretazione della statistica t. Per l’alternativa unilaterale nella (4.23), si rifiuta l’ipotesi
nulla in favore dell’alternativa per valori grandi e negativi della statistica t, ma non per quelli
grandi e positivi: invece di rifiutarla se |tact | > 1, 96, si rifiuta l’ipotesi con un livello di
significatività del 5% se tact < −1, 645.
Il valore-p di un test unilaterale è ottenuto dalla funzione di ripartizione della normale
standardizzata come
valore-p = Pr(Z < tact ) = Φ(tact ) (valore-p, test unilaterale per la coda sinistra). (4.24)
Se l’ipotesi alternativa è che β1 sia maggiore di β1,0 , la disuguaglianza nella (4.23) e nella
(4.24) cambiano verso, e quindi il valore-p è la probabilità nella coda destra, Pr(Z > t act ).
Quando usare un test unilaterale? In pratica, le alternative unilaterali dovrebbero essere
usate quando c’è una ragione chiara per cui, sotto l’alternativa, β 1 debba trovarsi da un certo
lato del valore β1,0 . Questa ragione potrebbe venire dalla teoria economica, da un’evidenza empirica preliminare o da entrambe. Tuttavia, sebbene possa inizialmente sembrare che
l’alternativa rilevante sia unilaterale, dopo averci riflettuto, potrebbe non essere necessariamente cosı̀. Un nuovo farmaco sottoposto a controlli clinici potrebbe risultare nocivo a causa
di effetti collaterali prima sconosciuti. Nell’esempio della dimensione delle classi bisogna
ricordare che il segreto del successo di un’università è quello di ammettere studenti dotati e
poi fare in modo che i docenti facciano il minor danno possibile. In pratica, tale ambiguità
induce spesso gli econometrici a usare test bilaterali.
Un’applicazione ai punteggi del test. La statistica t per verificare l’inefficacia della diminuzione della dimensione delle classi (β1,0 = 0 nella (4.23)) è tact = −4, 38. Questo
valore è inferiore a −2, 33 (il valore critico di un test unilaterale con livello di significatività
dell’1%), e quindi si rifiuta l’ipotesi nulla a favore dell’alternativa al livello dell’1%. In effet115
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 116 — #146
i
i
4.5. Verifica di ipotesi su un singolo coefficiente di regressione
Figura 4.6: calcolo del valore-p di un test bilaterale quando tact = −4, 38
N(0, 1)
–4,38
0
4,38
z
Il valore-p
è l'area alla sinistra
di –4,38
+
l'area alla destra
di +4,38
˛
˛
Il valore-p di un test bilaterale è la probabilità che |Z| ≥ ˛tact ˛, dove Z è una variabile casuale normale
standard e tact è il valore della statistica t calcolata dal campione. Quando tact = −4, 38, il valore-p è pari solo
a 0, 00001.
ti, il valore-p è inferiore a 0, 0006%. Basandosi su questi dati, si può rifiutare all’1% l’ipotesi
del contribuente arrabbiato secondo cui la stima negativa della pendenza era puramente il
risultato della variabilità campionaria.
Verifica di ipotesi riguardanti l’intercetta β0
La discussione
ha riguardato
finora laServices
verifica diInc.
ipotesi relative alla pendenza, β 1 . OccasioElectronic
Publishing
nalmente, tuttavia,
l’ipotesi
riguarda
l’intercetta,
β
Stock/Watson, Econometrics 1e 0 . In generale, un’ipotesi nulla riguardante
la sua intercetta
e l’alternativa bilaterale hanno la seguente forma
STOC.ITEM.0017
Fig.: 04.06
H
(alternativa bilaterale).
(4.25)
0 β0 = β0,0 contro H1 : β0 6= β0,0
1st Proof
2nd Proof
3rd Proof
Final
L’approccio generale utilizzato per verificare questo tipo di ipotesi nulla consiste dei tre
passi del concetto chiave 4.6 applicati a β0 (la formula dell’errore standard di β̂0 è fornita
nell’appendice 4.4). Se l’alternativa è unilaterale, questo approccio si modifica nel modo
discusso nel paragrafo precedente con riferimento a ipotesi riguardanti la pendenza.
116
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 117 — #147
i
i
4.6. Intervalli di confidenza per un coefficiente di regressione
I test d’ipotesi sono utili se si ha in mente una specifica ipotesi nulla (come nel caso del
nostro contribuente arrabbiato). Essere in grado di accettare o rifiutare questa ipotesi nulla
basandosi sull’evidenza statistica dà uno strumento forte per affrontare l’incertezza connessa
all’uso di un campione per inferire qualcosa circa la popolazione. Eppure, in molti casi
nessuna delle ipotesi riguardanti un coefficiente di regressione è dominante e si vuole invece
conoscere una gamma di valori del coefficiente che sia coerente con i dati osservati. Questo
richiede la costruzione di intervalli di confidenza.
4.6 Intervalli di confidenza per un coefficiente
di regressione
Poiché ogni stima statistica della pendenza β1 è necessariamente soggetta a incertezza dovuta
al campionamento, non possiamo determinare esattamente quale sia il vero valore di β 1 da
un campione di dati. Si può, tuttavia, usare lo stimatore OLS e il suo errore standard per
costruire intervalli di confidenza per la pendenza β1 o l’intercetta β0 .
Intervalli di confidenza per β1 . Si ricordi che un intervallo di confidenza di livello 95%
per β1 ha due definizioni equivalenti. In base alla prima, esso è l’insieme dei valori che non
si possono rifiutare usando un test d’ipotesi bilaterale con livello di significatività del 5%. In
base alla seconda, è un intervallo che ha probabilità 95% di contenere il vero valore di β 1 ;
cioè, nel 95% dei campioni che si possono estrarre, l’intervallo di confidenza contiene il vero
valore di β1 . Poiché questo intervallo contiene il vero valore nel 95% di tutti i campioni, si
dice che ha un livello di confidenza del 95%.
La ragione per cui queste due definizioni sono equivalenti è la seguente. Un test con un
livello di significatività del 5%, per definizione, rifiuterà il vero valore di β 1 soltanto nel 5%
di tutti i possibili campioni, cioè, nel 95% di tutti i possibili campioni il vero valore di β 1
non sarà rifiutato. Siccome l’intervallo di confidenza al 95% (secondo la prima definizione) è
l’insieme di tutti i valori di β1 che non si possono rifiutare con livello di significatività del 5%,
ne segue che il vero valore di β1 sarà contenuto in tale intervallo nel 95% di tutti i possibili
campioni.
Come nel caso di un intervallo di confidenza per la media della popolazione (sezione
3.3), in linea di principio un intervallo di confidenza di livello 95% può essere calcolato
verificando tutti i possibili valori di β1 (ovvero verificando l’ipotesi nulla β1 = β1,0 per
tutti i valori di β1,0 ) al livello di significatività 5% attraverso la statistica t. L’intervallo di
confidenza di livello 95% è allora la collezione di tutti i valori di β1 che non sono rifiutati.
Tuttavia, costruire la statistica t per tutti i valori di β1 richiederebbe un tempo infinito.
Un modo più semplice per costruire l’intervallo di confidenza è notare che la statistica
t rifiuta il valore ipotizzato β1,0 quando β1,0 è al di fuori dell’intervallo β̂1 ± 1, 96 SE(β̂1 ).
117
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 118 — #148
i
i
4.6. Intervalli di confidenza per un coefficiente di regressione
Per questa ragione, l’intervallo di confidenza al 95% per β1 è (β̂1 − 1, 96 SE(β̂1 ), β̂1 +
1, 96 SE(β̂1 )). Questo ragionamento ricalca quello usato per sviluppare un intervallo di
confidenza per la media della popolazione.
La costruzione di un intervallo di confidenza per β1 è riassunta nel concetto chiave 4.7.
Intervalli di confidenza per β0 . Un intervallo di confidenza di livello 95% per β0 si
costruisce come indicato nel concetto chiave 4.7, sostituendo β̂1 e SE(β̂1 ) con β̂0 e SE(β̂0 ).
Un’applicazione ai punteggi dei test. La regressione OLS dei punteggi del test sul rapporto
studenti-insegnanti, riportata nella (4.7), ha prodotto β̂0 = 698, 7 e β̂1 = −2, 28). Gli errori
standard di queste stime sono SE(β̂0 ) = 10, 4 e SE(β̂1 ) = 0, 52.
Data l’importanza degli errori standard, li includeremo nelle regressioni OLS tra parentesi
al di sotto dei coefficienti stimati:
d
T estScore
= 698, 9 − 2, 28 × ST R.
(10, 4) (0, 52)
(4.26)
L’intervallo di confidenza bilaterale di livello 95% per β1 è {−2, 28 ± 1, 96 × 0, 52}, ovvero
−3, 30 ≤ β1 ≤ 1, 26. Il valore β1 = 0 non è contenuto in questo intervallo di confidenza, e
quindi (come già sappiamo dalla sezione 4.5) l’ipotesi β1 = 0 può essere rifiutata al livello
di significatività 5%.
Intervalli di confidenza per gli effetti predetti di una variazione di X. L’intervallo di
confidenza al 95% per β1 può essere usato per costruire un intervallo di confidenza al 95%
per l’effetto predetto di una generica variazione di X.
Immaginiamo di far variare X di un dato ammontare ∆x. La variazione predetta in Y ,
associata a tale variazione in X, è β1 ∆x. La pendenza β1 della retta di regressione è ignota,
ma, essendo in grado di costruire un intervallo di confidenza per β 1 , possiamo costruirne uno
anche per l’effetto predetto β1 ∆x. Poiché un estremo dell’intervallo di confidenza al 95%
per β1 è β̂1 − 1, 96 SE(β̂1 ), l’effetto predetto della variazione ∆x usando questa stima di β1 è
(β̂1 − 1, 96 SE(β̂1 )) × ∆x. L’altro estremo dell’intervallo di confidenza è β̂1 + 1, 96 SE(β̂1 )
e l’effetto predetto della variazione ∆x usando questa stima è (β̂1 + 1, 96 SE(β̂1 )) × ∆x.
Perciò, l’intervallo di confidenza al 95% per l’effetto di una variazione pari a ∆x può essere
espresso come
intervallo di confidenza di livello 95% per β1 ∆x =
(β̂1 ∆x − 1, 96 SE(β̂1 ) × ∆x, β̂1 ∆x + 1, 96 SE(β̂1 ) × ∆x).
(4.27)
Per esempio, si supponga che il nostro ipotetico provveditore stia vagliando l’opportunità
di ridurre di 2 unità il rapporto studenti-insegnanti. Poiché l’intervallo di confidenza al 95%
118
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 119 — #149
i
i
4.7. La regressione quando X è una variabile binaria
Concetto chiave 4.7: intervalli di confidenza per β1
Un intervallo di confidenza bilaterale del 95% per β1 è un intervallo che contiene il vero
valore di β1 con probabilità 95%, ovvero contiene il vero valore di β1 nel 95% di tutti
i possibili campioni estratti casualmente. Equivalentemente, esso è anche l’insieme dei
valori di β1 che non possono essere rifiutati al 5% da un test d’ipotesi bilaterale. Quando
la dimensione campionaria è elevata, l’intervallo di confidenza di livello 95% per β 1 si
costruisce come segue
(β̂1 − 1, 96 SE(β̂1 ), β̂1 + 1, 96 SE(β̂1 )).
(4.28)
per β1 è (−3, 30, −1, 26), l’effetto della riduzione nel rapporto studenti-insegnanti di 2 unità
potrebbe variare tra un massimo di −3, 30 × (−2) = 6, 60 e un minimo di −1, 26 × (−2) =
2, 52. Perciò, riducendo di 2 unità il numero di studenti per insegnante, si può predire un
incremento nel punteggio del test tra 2, 52 e 6, 60 punti con livello di confidenza 95%.
4.7 La regressione quando X è una variabile binaria
Ci si è finora concentrati sul caso in cui il regressore è una variabile continua. L’analisi di
regressione può però anche essere usata quando il regressore è binario, ovvero quando assume
soltanto due valori, 0 e 1. Ad esempio, X potrebbe essere il genere di un lavoratore (= 1
se femmina, = 0 se maschio), oppure potrebbe indicare se un distretto scolastico è urbano
o rurale (= 1 se urbano, = 0 se rurale), oppure se la dimensione delle classi in un distretto
è piccola o grande (= 1 se piccola, = 0 se grande). Una variabile binaria è anche detta
variabile indicatrice o, talvolta, variabile dummy.
Interpretazione dei coefficienti di regressione
Il meccanismo della regressione con un regressore binario è lo stesso del caso in cui questo
è continuo. L’interpretazione di β1 è però diversa e si dimostra che la regressione con una
variabile binaria corrisponde all’analisi della differenza tra medie, descritta nella sezione 3.4.
A tal proposito, si immagini di avere una variabile Di che è uguale a 0 oppure a 1 a
seconda che il rapporto studenti-insegnanti sia maggiore o minore di 20:
Di =
(
1
0
se il rapporto studenti-insegnanti nell’i-esimo distretto è < 20
.
se il rapporto studenti-insegnanti nell’i-esimo distretto è ≥ 20
(4.29)
119
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 120 — #150
i
i
4.7. La regressione quando X è una variabile binaria
Il modello di regressione nella popolazione con Di quale regressore è
Y i = β 0 + β 1 Di + u i ,
i = 1, . . . , n.
(4.30)
Questo modello di regressione è uguale a quello con un regressore continuo X i , eccetto che
ora il regressore è una variabile binaria Di . Poiché Di non è continuo, non è utile pensare a β1
come una pendenza; infatti, poiché Di può assumere solo due valori, non c’è alcuna “retta” e
non ha alcun senso parlare di pendenza. Per questo motivo, non ci riferiremo a β 1 come alla
pendenza della retta di regressione (4.30); invece, indicheremo β 1 semplicemente come il
coefficiente che moltiplica Di in tale regressione o, più sinteticamente, come il coefficiente
di Di .
Se β1 non è la pendenza della (4.30), che cos’è? Il modo migliore per interpretare β 0
e β1 è considerare uno alla volta i due casi possibili, Di = 0 e Di = 1. Se il rapporto
studenti-insegnanti è alto, allora Di = 0 e la (4.30) diventa
Yi = β 0 + u i ,
(Di = 0).
(4.31)
Poiché E(ui Di ) = 0, la media condizionata di Yi quando Di = 0 è E(Yi Di = 0) = β0 ,
cioè β0 è il punteggio medio del test nella popolazione quando il rapporto studenti-insegnanti
è alto. Similmente, quando Di = 1
Yi = β 0 + β 1 + u i ,
(Di = 1).
(4.32)
Cosı̀, quando Di = 1, E(Yi Di = 1) = β0 + β1 ; cioè, β0 + β1 è il punteggio medio del test
nella popolazione quando il rapporto studenti-insegnati è basso.
Siccome β0 + β1 è la media di Yi nella popolazione quando Di = 1 e β0 è la media di
Yi nella popolazione quando Di = 0, la differenza (β0 + β1 ) − β0 = β1 è la differenza tra
queste due medie. In altre parole, β1 è la differenza tra la media condizionata di Yi quando
Di = 1 e quando Di = 0, ovvero β1 = E(Yi Di = 1) − E(Yi Di = 0). Nell’esempio dei
punteggi del test, β1 è la differenza tra il risultato medio del test nei distretti con un basso
rapporto studenti-insegnanti e il punteggio medio del test nei distretti con un alto rapporto
studenti-insegnanti.
Poiché β1 è la differenza tra le medie nella popolazione, è ragionevole affermare che
lo stimatore OLS sia la differenza tra la media campionaria di Yi nei due gruppi, che è
effettivamente quanto accade.
Verifica delle ipotesi e intervalli di confidenza. Se le due medie della popolazione fossero
uguali, β1 nella (4.30) sarebbe nullo. Si può, perciò, verificare l’ipotesi nulla che le due medie
della popolazione siano uguali, contro l’ipotesi alternativa che esse differiscano, sottoponendo a verifica l’ipotesi β1 = 0 contro l’alternativa β1 6= 0. Tale verifica utilizza la procedura
descritta nella sezione 4.5. Nello specifico, si può rifiutare l’ipotesi nulla al livello 5% contro
120
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 121 — #151
i
i
4.8. R2 ed errore standard della regressione
l’alternativa bilaterale quando la statistica t degli OLS, t = β̂1 / SE(β̂1 ), è maggiore di 1, 96
in valore assoluto. Similmente, un intervallo di confidenza al 95% per β 1 , β̂1 ± 1, 96SE(β̂1 ),
costruito come descritto nella sezione 4.6, fornisce un intervallo di confidenza al 95% per la
differenza tra le medie.
Applicazione ai punteggi del test. Per esempio, una regressione dei punteggi del test sulla
variabile binaria D definita dalla (4.29), stimata con gli OLS usando le 420 osservazioni della
figura 4.2, dà
d
T estScore
= 650, 0 + 7, 4 D,
(1, 3) (1, 8)
(4.33)
dove gli errori standard delle stime OLS dei coefficienti β0 e β1 sono indicati in parentesi
al di sotto delle stime OLS. Cosı̀, il punteggio medio ottenuto nel test per il sottocampione
con rapporti studenti-insegnanti maggiori o uguali a 20 (cioè, per i quali D = 0) è 650, 0 e
il punteggio medio del test per il sottocampine con un rapporto studenti-insegnanti inferiore
a 20 (ovvero D = 1) è 650, 0 + 7, 4 = 657, 4. Perciò, la differenza tra i punteggi medi del
test per i due gruppi è 7, 4. Questa è la stima OLS di β1 , il coefficiente relativo alla variabile
binaria rapporto studenti-insegnanti D.
È la differenza tra i punteggi medi dei test nei due gruppi statisticamente diversa da zero
al livello di significatività 5%? Per scoprirlo, costruiamo la statistica t relativa a β 1 : t =
7, 4/1, 8 = 4, 04. Poiché questa è maggiore di 1, 96 in valore assoluto, l’ipotesi che i punteggi
medi del test nei distretti con rapporto studenti-insegnanti alto e basso siano gli stessi può
essere rifiutata al livello 5%.
Lo stimatore OLS e il suo errore standard possono essere usati per costruire un intervallo
di confidenza di livello 95% per la vera differenza tra le medie. Questo intervallo è 7, 4 ±
1, 96 × 1, 8 = (3, 9, 10, 9). Poiché esso esclude β1 = 0, l’ipotesi β1 = 0 può essere rifiutata
al livello 5% (come già sappiamo dal paragrafo precedente).
4.8 R2 ed errore standard della regressione
L’R2 e l’errore standard della regressione sono due misure della bontà con cui la retta di
regressione degli OLS interpola i dati. L’R 2 varia tra zero e uno, e misura la frazione della
varianza di Yi che è spiegata dalla variazione di Xi . L’errore standard della regressione
misura quanto lontano di solito è Yi dal suo valore predetto.
L’R2
L’R2 di regressione è la frazione della varianza campionaria di Yi spiegata (o predetta) da
Xi . Le definizioni di valore predetto e di residuo (vedi concetto chiave 4.2) ci consentono di
121
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 122 — #152
i
i
4.8. R2 ed errore standard della regressione
scrivere la variabile dipendente Yi come la somma del valore predetto Ŷi e del residuo ûi :
(4.34)
Yi = Ŷi + ûi .
In questa notazione, l’R2 è il rapporto tra la varianza campionaria di Ŷi e la varianza campionaria di Yi .
Matematicamente, l’R2 può essere scritto come il rapporto tra la somma dei quadrati
spiegata e la somma dei quadrati totale. La somma dei quadrati spiegata, o ESS (acronimo
dall’inglese Explained Sum of Squares), è la somma dei quadrati degli scarti dei valori predetti
di Yi , Ŷi , dalla loro media e la somma dei quadrati totale, o T SS (acronimo dall’inglese
Total Sum of Squares), è la somma dei quadrati degli scarti di Yi dalla propria media:
ESS =
n
X
i=1
T SS =
(Ŷi − Ȳ )2
n
X
i=1
(Yi − Ȳ )2 ,
e
(4.35)
(4.36)
dove la (4.35) sfrutta il fatto che Ȳ è uguale alla media dei valori predetti di Yi (per la prova
di questo risultato si veda l’appendice 4.3).
L’R2 è il rapporto tra la somma dei quadrati spiegata e la somma dei quadrati totale:
R2 =
ESS
T SS
(4.37)
Alternativamente, l’R2 può essere scritto in termini della frazione della varianza di Yi
non spiegata da Xi . La somma dei quadrati dei residui, o SSR (acronimo dall’inglese
Sum of Squared Residuals), è la somma dei quadrati dei residui degli OLS:
SSR =
n
X
û2i .
(4.38)
i=1
Nell’appendice si mostra che T SS = ESS + SSR. Per questa ragione, l’R 2 può anche
essere scritto come uno meno il rapporto tra la somma dei quadrati dei residui e la somma dei
quadrati totale:
SSR
R2 = 1 −
.
(4.39)
T SS
Infine, l’R2 della regressione di Y sul singolo regressore X è il quadrato del coefficiente di
correlazione tra Y e X.
L’R2 varia tra 0 e 1. Se β̂1 = 0, allora Xi non spiega nulla della variazione di Yi e il
valore predetto di Yi basato sulla regressione è semplicemente la media campionaria di Y i .
In questo caso, la somma dei quadrati spiegata è zero e la somma dei quadrati dei residui è
uguale alla somma dei quadrati totale; perciò l’R 2 è pari a zero. Nel caso opposto, se Xi
122
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 123 — #153
i
i
4.9. Eteroschedasticità e omoschedasticità
spiega tutta la variazione di Yi , allora Yi = Ŷi per ogni i e tutti i residui sono nulli (cioè,
ûi = 0), cosicché ESS = T SS e R2 = 1. In generale, l’R2 non assume i valori estremi
zero e uno, ma un qualche valore intermedio. Un R 2 prossimo a uno indica che il regressore
è in grado di predire bene Yi , mentre un R2 prossimo a zero indica che il regressore non è in
grado di predire bene Yi .
L’errore standard della regressione
L’errore standard della regressione, o SER (acronimo dall’inglese Standard Error of Regression), è uno stimatore della deviazione standard dell’errore di regressione u i . Poiché
gli errori di regressione u1 , . . . , un non sono osservati, il SER è calcolato tramite i loro
corrispondenti campionari, i residui degli OLS û1 , . . . , ûn . La formula del SER è
n
SER = sû ,
dove sû2 =
1 X 2
SSR
û =
n − 2 i=1 i
n−2
(4.40)
e dove la formula utilizzata per sû2 usa il fatto (dimostrato nell’appendice 4.3) che i residui
degli OLS hanno media nulla.
La formula per il SER (4.40) è la stessa formula mostrata nella (3.7) della sezione 3.2
per la deviazione standard campionaria di Y , eccetto che Yi − Ȳ nella (3.7) è sostituito da
ûi e nella (3.7) vi è n − 1 al denominatore, mentre qui vi è n − 2. La ragione per usare
n − 2 come divisore (invece di n) è la stessa che giustifica l’utilizzo di n − 1 nella (3.7):
corregge una leggera distorsione verso il basso introdotta dall’aver stimato due coefficienti di
regressione. Questa è chiamata correzione per i “gradi di libertà”; poiché sono stati stimati
due coefficienti (β0 e β1 ), sono stati persi due “gradi di libertà” dei dati, e quindi il divisore
è n − 2 (la matematica sottostante è discussa nella sezione 15.4). Quando n è grande, la
differenza tra dividere per n, per n − 1 o per n − 2 è trascurabile.
4.9 Eteroschedasticità e omoschedasticità
La nostra sola assunzione circa la distribuzione condizionata di u i data Xi è che essa abbia
media nulla (la prima assunzione dei minimi quadrati). Se, in aggiunta, la varianza di questa
distribuzione condizionata non dipende da Xi , allora si dice che gli errori sono omoschedastici. Questa sezione discute l’omoschedasticità, le sue implicazioni teoriche, le formule
semplificate degli errori standard degli stimatori OLS che si ottengono se gli errori sono
omoschedastici, e i rischi che si corrono se si utilizzano queste formule semplificate.
123
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 124 — #154
i
i
4.9. Eteroschedasticità e omoschedasticità
Figura 4.7: un esempio di eteroschedasticità
Punteggio test
720
700
680
Distribuzione di Y quando X = 15
Distribuzione di Y quando X = 20
Distribuzione di Y quando X = 25
660
640
b 0 +b 1 X
620
600
10
15
20
25
30
Rapporto studenti-insegnanti
Come la figura 4.4, questa figura mostra la distribuzione condizionata dei punteggi del test per tre classi di
diversa dimensione. Diversamente dalla figura 4.4, queste distribuzioni diventano più disperse (hanno varianza
˛
maggiore) per classi di dimensioni maggiori. Siccome la varianza della distribuzione di u data X , var(u ˛X),
dipende da X , u è eteroschedastico
Cosa sono l’eteroschedasticità e l’omoschedastcità?
Definizioni di eteroschedasticità e omoschedasticità. L’errore di regressione ui è omoschedastico se la varianza della distribuzione condizionata di ui data Xi è costante per
i = 1, . . . , n e, in particolare, non dipende da Xi . Altrimenti, l’errore è eteroschedastico.
Come illustrazione, si ritorni alla figura 4.4. La distribuzione degli errori u i è mostrata
per vari valori di x. Poiché ciascuna distribuzione vale per il valore di x indicato, questa è la
distribuzione condizionata di ui dato che Xi = x. Nella figura, tutte queste distribuzioni condizionate hanno la stessa dispersione; più precisamente, la varianza di queste distribuzioni è
la stessa per i diversi valori di x. Cioè, nella figura 4.4, la varianza condizionata di u i dato che
Xi = x non dipende
da x,Publishing
e quindi gli
errori illustrati
nella figura 4.4 sono omoschedastici.
Electronic
Services
Inc.
Stock/Watson,
Econometrics
Di contro, la
figura 4.7 illustra
un caso in 1e
cui la distribuzione condizionata di u i diventa
STOC.ITEM.0018
più dispersa al crescere di x. Per valori piccoli di x, questa distribuzione è concentrata, ma
Fig. 04.07
per valori più elevati
di x, ha una maggiore dispersione. Perciò, nella figura 4.7 la varianza
di ui dato che Xi =1st
x cresce
quindi
gli errori nella
figura 4.7 sono
eteroschedastici.
Proof con x, e2nd
Proof
3rd Proof
Final
Le definizioni di eteroschedasticità e omoschedasticità sono riportate nel concetto chiave
4.8.
124
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 125 — #155
i
i
4.9. Eteroschedasticità e omoschedasticità
Concetto chiave 4.8: eteroschedasticità e omoschedasticità
L’errore di regressione ui è omoschedastico se la varianza della distribuzione condizionata
di ui data Xi , var(ui Xi = x), è costante per i = 1, . . . , n e in particolare non dipende da
x; altrimenti, l’errore è eteroschedastico.
Esempio. I termini usati sono quasi impronunciabili e le loro definizioni potrebbero sembrare astratte. Per aiutare a chiarirli con un esempio, lasciamo momentaneamente da parte il
problema della relazione tra il rapporto studenti-insegnanti e i punteggi del test e torniamo
invece all’esempio della differenza tra le retribuzioni dei laureati maschi e femmine considerato nella sezione 3.5. Sia M ALEi una variabile binaria che è uguale a 1 per laureati
maschi e a 0 per laureati femmine. Il modello di regressione che mette in relazione i redditi
individuali (Earnings) con il genere di una persona è
(4.41)
Earningsi = β0 + β1 M ALEi + ui
per i = 1, . . . , n. Poiché il regressore M ALE è binario, β1 è la differenza tra le medie dei
due gruppi, nel caso specifico, è la differenza tra le retribuzioni medie di laureati maschi e
femmine.
La definizione di omoschedasticità dice che la varianza di ui non dipende dal regressore.
Qui il regressore è M ALEi , e quindi il problema è se la varianza dipende da M ALEi . In
altre parole, la varianza dell’errore è la stessa per maschi e femmine? Se cosı̀ fosse, l’errore
sarebbe omoschedastico; altrimenti, eteroschedastico.
Decidere se la varianza di ui dipenda da M ALEi richiede di pensare con attenzione a
cosa sia effettivamente l’errore di regressione. A questo riguardo, è utile scomporre la (4.41)
in due equazioni separate, una per i maschi e una per le femmine:
Earningsi = β0 + ui
(femmine)
Earningsi = β0 + β1 + ui
e
(maschi).
(4.42)
(4.43)
Per le donne, ui è la deviazione della retribuzione della i-esima donna dalla media delle
retribuzioni della popolazione femminile (β0 ) e, per gli uomini, ui è la deviazione della retribuzione dell’i-esimo uomo dalla media della popolazione maschile (β 0 + β1 ). Dire che “la
varianza di ui non dipende da M ALE” equivale allora ad affermare che “la varianza delle
retribuzioni è la stessa per gli uomini e per le donne”. In altre parole, in questo esempio, l’errore è omoschedastico se la varianza della distribuzione delle retribuzioni nella popolazione
è la stessa per uomini e donne; se queste varianze differiscono, l’errore è eteroschedastico.
125
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 126 — #156
i
i
4.9. Eteroschedasticità e omoschedasticità
Implicazioni matematiche dell’omoschedasticità
Gli stimatori OLS rimangono non distorti e asintoticamente normali. Poiché le assunzioni dei minimi quadrati riportate nel concetto chiave 4.3 non pongono alcuna restrizione sulla
varianza condizionata, esse si applicano sia al caso generale di eteroschedasticità sia al caso
speciale di omoschedasticità. Perciò, gli stimatori OLS rimangono non distorti e consistenti
anche se gli errori sono omoschedastici. Inoltre, gli stimatori OLS hanno distribuzioni campionarie che sono normali in grandi campioni anche se gli errori sono omoschedastici. Siano
gli errori di regressione eteroschedastici o omoschedastici, lo stimatore OLS è non distorto,
consistente e asintoticamente normale.
Efficienza dello stimatore OLS. Se valgono le assunzioni dei minimi quadrati nel concetto
chiave 4.3 e, in aggiunta, gli errori sono omoschedastici, allora gli stimatori OLS β̂0 e β̂1
sono efficienti tra tutti gli stimatori che sono lineari in Y1 , . . . , Yn e sono non distorti, condizionatamente a X1 , . . . , Xn . Perciò, gli stimatori OLS hanno varianza minore tra tutti gli
stimatori non distorti che sono medie ponderate di Y1 , . . . , Yn . In altre parole, se, in aggiunta
alle assunzioni dei minimi quadrati, gli errori sono omoschedastici, allora gli stimatori OLS
β̂0 e β̂1 sono i migliori stimatori lineari non distorti, o BLUE (acronimo dall’inglese Best
Linear Unbiased Estimators). Questo risultato è stato presentato per la media campionaria
Ȳ nel concetto chiave 3.3 e si estende agli OLS sotto l’ipotesi di omoschedasticità. Questo
risultato, noto come teorema di Gauss-Markov, è dimostrato nel capitolo 15.
Se gli errori sono eteroschedastici, allora gli OLS non sono più BLUE. In teoria, se gli
errori sono eteroschedastici, è possibile costruire uno stimatore con varianza inferiore rispetto
allo stimatore OLS. Questo metodo, detto dei minimi quadrati ponderati, pondera le osservazioni con l’inverso della radice quadrata della varianza condizionata di u i data Xi . Grazie
a questa ponderazione, gli errori della regressione con i dati ponderati sono omoschedastici
e cosı̀ gli OLS, applicati ai dati ponderati, sono BLUE. Sebbene teoricamente elegante, il
problema dei minimi quadrati ponderati è che occorre conoscere il modo in cui la varianza
condizionata di ui dipende da Xi , cosa raramente nota nelle applicazioni. Poiché i minimi
quadrati ponderati sono di interesse prevalentemente teorico, ne rimandiamo la discussione
al capitolo 15.
La formula della varianza nel caso di omoschedasticità. Se l’errore è omoschedastico,
allora le formule per le varianze di β̂0 e β̂1 riportate nel concetto chiave 4.4 si semplificano.
Di conseguenza, se gli errori sono omoschedastici, c’è una formula specifica da usare per gli
errori standard di β̂0 e β̂1 . Tali formule sono fornite nell’appendice 4.4. Nel caso speciale
in cui X sia una variabile binaria, lo stimatore della varianza di β̂1 nel caso di omoschedasticità (ovvero il quadrato dell’errore standardizzato di β̂1 nel caso di omoschedasticità) è la
cosiddetta formula della varianza aggregata per la differenza tra le medie, discussa nella nota
126
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 127 — #157
i
i
4.9. Eteroschedasticità e omoschedasticità
1 della sezione 3.4.
Poiché queste formule alternative sono derivate per il caso speciale in cui gli errori sono
omoschedastici e non si applicano quando gli errori sono eteroschedastici, saranno dette formule per l’“omoschedasticità pura” o più semplicemente formule “classiche”. Quindi, se gli
errori sono eteroschedastici, allora gli errori standard per l’omoschedasticit à pura o errori standard classici sono inappropriati. Nello specifico, se gli errori sono eteroschedastici, la
statistica t classica, cioè la statistica t calcolata usando l’errore standard per l’omoschedasticità pura non ha una distribuzione normale standard, neanche in grandi campioni. In effetti, i
corretti valori critici per la statistica t classica dipendono dalla natura precipua dell’eteroschedasticità, quindi i corrispondenti valori critici non possono essere tabulati. In modo simile, se
gli errori sono eteroschedastici ma un intervallo di confidenza è costruito come ±1, 96 volte
l’errore standard classico, in generale la probabilità che questo intervallo contenga il valore
vero del coefficiente non è il 95%, neanche in grandi campioni.
Al contrario, poiché l’omoschedasticità è un caso speciale di eteroschedasticità, gli stimatori σ̂β2ˆ e σ̂β2ˆ delle varianze di β̂1 e β̂0 nella (4.19) e nella (4.59) producono inferenze
1
0
statistiche valide sia che gli errori siano eteroschedastici sia che non lo siano. Quindi, i test di
ipotesi e gli intervalli di confidenza basati su tali errori standard sono validi sia che gli errori
siano eteroschedastici o meno. Poiché gli errori standard che abbiamo utilizzato finora (cioè
quelli basati sulla (4.19) e sulla (4.59)) permettono inferenza statistica valida in presenza, o
meno, di eteroschedasticità, sono chiamati errori standard robusti all’eteroschedasticit à.
Siccome tali formule sono state proposte da Eicker (1967), Huber (1967) e White (1980), essi
sono anche presentati come errori standard di Eicker-Huber-White.
Cosa significa questo in pratica?
Qual è più realistica, l’eteroschedasticità o l’omoschedasticità? La risposta a questa domanda dipende dall’applicazione. Tuttavia, le questioni possono essere chiarite tornando
all’esempio della differenza di genere tra le retribuzioni. La familiarità con il modo in cui gli
individui vengono retribuiti nel mondo reale ci dà alcuni suggerimenti su quale sia l’ipotesi
più ragionevole. Per molti anni –e, in minor misura, oggi– le donne non comparivano in
testa alla graduatoria dei lavori meglio retribuiti: ci sono sempre stati uomini mal pagati, ma
raramente donne strapagate. Questo suggerisce che la distribuzione delle retribuzioni tra le
donne sia più concentrata rispetto a quella degli uomini. In altre parole, la varianza dell’errore della (4.42) per le donne è plausibilmente inferiore alla varianza dell’errore della (4.43)
per gli uomini. Per questo motivo, la presenza di un “soffitto di vetro” per i lavori e le retribuzioni riservate alle donne suggerisce che il termine d’errore del modello di regressione con
variabile binaria (4.41) sia eteroschedastico. A meno che non vi siano ragioni convincenti per
sostenere il contrario –e non possiamo immaginarne alcuna– è ragionevole trattare l’errore di
questo esempio come eteroschedastico.
127
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 128 — #158
i
i
4.10. Conclusioni
Come illustrato da questo esempio, l’eteroschedasticità si ritrova in molte applicazioni
econometriche. A livello generale, la teoria economica raramente offre ragioni per credere
che gli errori siano omoschedastici. È quindi prudente assumere che essi possano essere
eteroschedastici, a meno che non ci siano motivi convincenti per credere altrimenti.
Implicazioni pratiche. Il problema pratico maggiore in questa discussione è se si debbano
utilizzare gli errori standard classici o quelli robusti all’eteroschedasticità. A questo proposito, è utile immaginare di calcolare entrambi e poi di operare una scelta tra questi. Se gli errori
standard classici e quelli robusti all’eteroschedasticità sono simili, non si perde nulla usando quelli robusti; se però differiscono bisognerebbe usare quelli più affidabili che tengono
conto dell’eteroschedasticità. La cosa più semplice, allora, è usare sempre gli errori standard
robusti.
Per ragioni storiche, molti pacchetti statistici usano gli errori standard classici come procedura normale e lasciano che sia l’utente a specificare l’opzione di errori standard robusti
all’eteroschedasticità. I dettagli dell’implementazione degli errori standard robusti all’eteroschedasticità dipendono dal pacchetto utilizzato.
Tutti gli esempi empirici riportati in questo libro impiegano errori standardizzati robusti
all’eteroschedasticità, a meno che non sia diversamente specificato. 1
4.10 Conclusioni
Ritorniamo per un momento al problema che ha introdotto questo capitolo, quello di un
provveditore che sta considerando se assumere insegnanti addizionali per ridurre il rapporto
studenti-insegnanti. Cosa abbiamo appreso che potrebbe essergli utile?
La nostra analisi di regressione, basata su 420 osservazioni relative ai punteggi dei test
in California nel 1998, ha mostrato che c’è una relazione negativa tra il rapporto studentiinsegnanti e i punteggi del test: i distretti con classi più piccole hanno punteggi più alti nei
test. Il coefficiente è moderatamente grande, in termini pratici: distretti con due studenti in
meno per ogni insegnante ottengono, in media, 4, 6 punti in più nel test. Questo corrisponde a
uno spostamento di un distretto dal cinquantesimo percentile della distribuzione dei punteggi
del test al sessantesimo percentile circa.
Il coefficiente del rapporto studenti-insegnanti è statisticamente diverso da zero al livello
di significatività 5%. Il coefficiente della popolazione potrebbe essere nullo e noi potremmo
aver semplicemente stimato un coefficiente negativo per effetto della validità campionaria.
Tuttavia, la probabilità che ciò accada (e la probabilità di ottenere una statistica t per β 1 di
1 Nel caso che questo testo sia usato insieme ad altri, è utile notare che alcuni testi aggiungono l’omoschedasticità
all’elenco delle ipotesi dei minimi quadrati. Come già discusso, però, questa ipotesi addizionale non è necessaria
perché l’analisi di regressione degli OLS sia valida, a patto che si usino errori standard robusti all’eteroschedasticità.
128
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 129 — #159
i
i
Sommario
tale entità) puramente a causa di deviazioni casuali tra potenziali campioni è troppo piccola, approssimativamente lo 0, 001%. Un intervallo di confidenza di livello 95% per β 1 è
−3, 30 ≤ β1 ≤ −1, 26.
Abbiamo compiuto progressi notevoli nella direzione di rispondere alla domanda del
provveditore. Rimane ancora una questione insidiosa. Abbiamo stimato una relazione negativa tra il rapporto studenti-insegnanti e i punteggi del test, ma si tratta proprio della relazione causale di cui il provveditore ha bisogno per effettuare la sua scelta? Abbiamo trovato
che i distretti con rapporti studenti-insegnanti inferiori ottengono, in media, punteggi maggiori nei test. Questo significa davvero che riducendo il numero di studenti per insegnante
miglioreranno i risultati?
C’è, in effetti, una ragione per temere che non sia cosı̀. Assumere più insegnanti, dopotutto, è costoso; perciò, sono i distretti scolastici più ricchi che possono sopportare l’onere
di classi più piccole. Gli studenti dei distretti più ricchi hanno però altri vantaggi rispetto ai
loro vicini più poveri, come servizi migliori, libri più aggiornati e insegnanti meglio pagati.
Inoltre, gli studenti delle scuole più ricche tendono a provenire da famiglie più abbienti e ad
avere cosı̀ vantaggi non direttamente associati con la loro scuola. Ad esempio, la California
ha una numerosa comunità di immigrati; questi immigrati sono tendenzialmente più poveri
rispetto alla popolazione nel suo complessso e in molti casi i loro bambini non sono di madrelingua inglese. Potrebbe allora essere che la relazione negativa stimata tra punteggi dei test e
rapporto studenti-insegnanti sia una conseguenza del fatto che classi piccole sono associate a
molti altri fattori che costituiscono, in realtà, la causa vera dei punteggi più alti ottenuti nei
test.
Questi altri fattori, o “variabili omesse”, potrebbero implicare che l’analisi condotta finora abbia in realtà poco valore per il provveditore. Essa potrebbe addirittura essere fuorviante,
perché cambiare soltanto il rapporto studenti-insegnanti non cambierebbe gli altri fattori che
determinano la prestazione scolastica di uno studente. Per trattare questo problema, abbiamo
bisogno di un metodo che ci permetta di isolare l’effetto sui punteggi del test della variazione nel rapporto studenti-insegnanti, tenendo costanti questi altri fattori. Questo metodo è
l’analisi di regressione multipla, argomento del capitolo 5.
Sommario
1. La retta di regressione della popolazione, β0 + β1 X, è la media di Y in funzione del
valore di X. La pendenza, β1 , è la variazione attesa di Y associata a una variazione
unitaria di X. L’intercetta, β0 , determina il livello (o altezza) della retta di regressione.
Il concetto chiave 4.1 riporta in sintesi la terminologia relativa al modello di regressione
lineare della popolazione.
2. La retta di regressione della popolazione può essere stimata usando le osservazioni
129
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 130 — #160
i
i
Sommario
campionarie (Xi , Yi ), con i = 1, . . . , n, attraverso i minimi quadrati ordinari (OLS).
Gli stimatori OLS dell’intercetta e della pendenza della regressione sono indicati con
β̂0 e β̂1 .
3. Ci sono tre ipotesi chiave per il modello di regressione lineare: (1) gli errori di regressione, ui , ha una media nulla condizionatamente ai regressori Xi ; (2) le osservazioni
campionarie sono estratti casuali i.i.d. dalla popolazione; (3) le variabili casuali hanno
quattro momenti. Se valgono queste ipotesi, gli stimatori OLS di β̂0 e β̂1 sono: (1) non
distorti; (2) consistenti; (3) normalmente distribuiti, quando il campione è grande.
4. Il test d’ipotesi sui coefficienti di regressione è analogo al test d’ipotesi per la media
della popolazione: si usa la statistica t per calcolare i valori-p e o si accetta o si rifiuta
l’ipotesi nulla. Proprio come un intervallo di confidenza per la media della popolazione, un intervallo di confidenza di livello 95% per un coefficiente di regressione è
calcolato come lo stimatore ±1, 96 errori standardizzati.
5. Quando X è binaria, il modello di regressione può essere usato per stimare e verificare
le ipotesi sulla differnza tra la media della popolazione del gruppo “X = 0” e la media
della popolazione del gruppo “X = 1”.
6. L’R2 e l’errore standarizzato della regressione (SER) sono misure di quanto vicino
sia il valore di Yi alla retta di regressione stimata. L’R2 è tra zero e uno, con un valore
più grande indicante che le Yi sono più vicine alla retta. L’errore standardizzato della
regressione è uno stimatore della deviazione standardizzata dell’errore di regressione.
7. In generale, l’errore ui è eteroschedastico, cioè, la varianza di ui per una certo valore di Xi , var(ui Xi = x) dipende da x. Un caso particolare è quando l’errore è omoschedastico, ovvero, var(ui Xi = x) è costante. Gli errori di regressione
per la sola omoschedasticità non producono inferenze statistiche valide quando gli
errori sono eteroschedastici, funzione ottemperata dagli errori standardizzati robusti
all’eteroschedasticità.
Termini chiave
modello di regressione lineare
con un singolo regressore (94)
variabile dipendente (94)
variabile indipendente (94)
regressore (94)
retta di regressione della popolazione (94)
funzione di regressione
della popolazione (94)
intercetta e pendenza della popolazione (95)
coefficienti della popolazione (95)
parametri (95)
errore (95)
stimatore dei minimi quadrati
ordinari (OLS) (99)
130
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 131 — #161
i
i
Sommario
retta di regressione degli OLS (99)
valore predetto (99)
residuo (99)
assunzioni dei minimi quadrati (104)
errore standard di β̂1 (112)
statistica t (113)
valore-p (113)
intervallo di confidenza di β1 (117)
livello di confidenza (117)
variabile indicatrice (119)
variabile dummy (119)
coefficiente che moltiplica D1 (120)
coefficiente di D1 (120)
R2 di regressione (121)
somma dei quadrati spiegata (ESS) (122)
somma dei quadrati totale (T SS) (122)
somma dei quadrati dei residui (SSR) (122)
errore standard della regressione (SER)
(123)
omoschedasticità ed eteroschedasticità (124)
migliore stimatore lineare
non distorto (BLUE) (126)
minimi quadrati ponderati (126)
errori standard
per l’omoschedasticità pura (127)
errori standard robusti
all’eteroschedasticità (127)
Verifica dei concetti
4.1 Si spieghi la differenza tra β̂1 e β1 ; tra il residuo ûi e l’errore di regressione ui ; tra il
valore predetto OLS Ŷi e E(Yi Xi ).
4.2 Si descriva la procedura per calcolare il valore-p di un test bilaterale in cui H 0 : µY = 0
usando un insieme di osservazioni i.i.d. Yi , con i = 1, . . . , n.
4.3 Si spieghi come un modello di regressione potrebbe essere usato per stimare la differenza tra i salari dovuta al genere usando i dati della sezione 3.5. Quali sarebbero le
variabili dipendenti e indipendenti?
4.4 Si disegni un grafico a nuvola ipotetico dei dati di una regressione stimata che abbia
R2 = 0, 9. Si disegni un ipotetico grafico a nuvola dei dati di una regressione stimata
che abbia R2 = 0, 5.
Esercizi
4.1 Si supponga che un ricercatore, utilizzando i dati sulla dimensione delle classi (DS) e
i punteggi medi dei test di 100 classi relative a un terzo livello d’istruzione, stimi la
regressione degli OLS,
d
T estScore
= 520, 4 − 5, 82 × CS, R2 = 0, 08, SER = 11, 5.
(20, 4) (2, 21)
a. Una classe è composta da 22 studenti. Qual è la predizione della regressione
relativa al punteggio medio del test per tale classe?
131
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 132 — #162
i
i
Sommario
b. L’anno scorso una certa classe era composta da 19 studenti e quest’anno da 23.
Qual è la predizione della regressione relativa a una variazione nel punteggio
medio del test nella classe?
c. Si costruisca un intervallo di confidenza di livello 95% per β1 , il coefficiente
angolare della regressione.
d. Si calcoli il valore-p di un test bilaterale per l’ipotesi nulla H0 : β1 = 0. Si rigetta
l’ipotesi nulla al livello di significatività 5%? all’1%?
e. La media campionaria della dimensione delle classi relativa alle 100 classi è 21, 4.
qual è la media campionaria dei punteggi del test nelle 100 classi? (Suggerimento:
si faccia riferimento alle formule degli stimatori degli OLS.)
f. Qual è la deviazione standardizzata campionaria dei punteggi del test tra le 100
classi? (Suggerimento: si faccia riferimento alle formule dell’R 2 e del SER.)
4.2 Si supponga che un ricercatore, utilizzando i dati su 250 maschi lavoratori selezionati
casualmente e 280 femmine lavoratrici, stimi la regressione degli OLS
Wd
age = 12, 68 + 2, 79 M ale, R2 = 0, 06, SER = 3, 10,
(0, 18) (0, 84)
dove W age è misurato in $/ora e M ale è una variabile binaria che è uguale a uno se
la persona è di genere maschile e 0 se di genere femminile. Si definisca la differenza
tra i salari dovuta al genere come la differenza tra il salario medio tra uomini e donne.
a. Qual è la differenza stimata dovuta al genere?
b. La differenza dovuta al genere è significativamente diversa da zero? (Si calcoli
il valore-p per verificare l’ipotesi nulla che non ci sia alcuna differenza dovuta al
genere).
c. Si costruisca un intervallo di confidenza di livello 95% per al differenza dovuta la
genere.
d. Nel campione, qual è il salario medio della donne? Degli uomini?
e. Un altro ricercatore usa gli stessi dati, ma effettua una regressione di W age su
F emale, una variabile che è uguale a uno se la persona è di genere femminile
e zero se la persona è di genere maschile. Quali sono le stime di regressione
calcolate da tale regressione?
Wd
age =
+
F emale, R2 =
, SER =
.
4.3 Si mostri che la prima ipotesi dei minimi quadrati, E(ui Xi ) = 0, implica che E(Yi Xi ) =
β0 + β 1 Xi .
132
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 133 — #163
i
i
Appendice
4.4 Si mostri che β̂0 è uno stimatore non distorto di β0 . (Suggerimento: si sfrutti il fatto
che β̂1 è non distorto, che è mostrato nell’appendice 4.3).
4.5 Si supponga che un campione casuale di 200 uomini ventenni sia selezionato da una
popolazione e che se ne registri l’altezza e il peso. Una regressione di peso su altezza
fornisce:
Wd
eight = − 99, 41 + 3, 94 Height, R2 = 0, 81, SER = 10, 2,
(2, 15) (0, 31)
dove W eight è misurato in libbre e Height in pollici.
a. Qual è il peso predetto per qualcuno che sia alto 70 pollici? Alto 74 pollici?
b. Un individuo ha uno sviluppo tardivo e cresce 1, 5 pollici nel corso di un anno.
Qual è la predizione della regressione per un aumento del peso di una persona?
c. Si costruisca un intervallo di confidenza di livello 99% per l’aumento di peso
considerato al punto (b).
d. Si supponga che, invece di misurare peso e altezza in libbre e pollici, si misurino
in chilogrammi e centimetri. Quali sono le stime di regressione per questa nuova
regressione chilogrammi-centimetri? (Si calcolino tutti i risultati, i coefficienti
stimati, gli errori standardizzati, l’R2 e lo SER).
4.6 Partendo dall’equazione (4.15), si derivi la varianza di β̂0 sotto omoschedasticità fornita dall’equazione (4.61) nell’appendice 4.4.
Appendice 4.1: la banca dati sui punteggi dei test
della California
Il California Standardized Testing and Reporting contiene dati sulle prestazioni nei test, le
caratteristiche scolastiche e le condizioni demografiche degli studenti. I dati qui utilizzati
derivano da tutti i 420 distretti scolastici elementari (K-6 e K-8) della California con dati
disponibili per il 1998 e 1999. I punteggi del test sono una media dei punteggi in lettura e
in matematica ottenuti nello Stanford 9 Achievement Test, un test standardizzato sottoposto a
studenti del quinto grado d’istruzione (quinta elementare). Le caratteristiche scolastiche (per
le quali si considera la media del distretto) includono le iscrizioni, il numero di insegnanti
(misurati come “equivalenti a tempo pieno”), il numero di computer per classe e le spese
per studente. Il rapporto studenti-insegnanti utilizzato corrisponde al numero di insegnanti
equivalenti a tempo pieno operanti nel distretto diviso per il numero di studenti. Anche per
133
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 134 — #164
i
i
Appendice
le variabili demografiche relative agli studenti si considera la media del distretto. Le variabili
demografiche includono la percentuale di studenti presenti nel programma di pubblica assistenza CalWork (in precedenza AFDC), la percentuale di studenti che hanno diritto al sussidio
mensa e la percentuale di studenti non di madrelingua inglese (cioè, studenti per i quali l’inglese è una seconda lingua). Tutti questi dati sono stati forniti dal California Department of
Education (www.cde.ca.gov).
Appendice 4.2: derivazione degli stimatori degli OLS
Questa appendice usa il calcolo differenziale per derivare le formule degli stimatori OLS
presentate nel concetto chiave 4.2. Per minimizzare la somma dei quadrati degli errori di
Pn
predizione i=1 (Yi −b0 −b1 Xi )2 (equazione (4.6)), si calcolino anzitutto le derivate parziali
rispetto a b0 e b1 :
n
n
X
∂ X
2
(Yi − b0 − b1 Xi ) e
(Yi − b0 − b1 Xi ) = −2
∂b0 i=1
i=1
n
n
X
∂ X
(Yi − b0 − b1 Xi )2 = −2
(Yi − b0 − b1 Xi )Xi .
∂b1 i=1
i=1
(4.44)
(4.45)
P
Gli stimatori OLS, β̂0 e β̂1 sono i valori di b0 e b1 che minimizzano ni=1 (Yi − b0 − b1 Xi )2
o, equivalentemente, i valori di b0 e b1 per i quali le derivate (4.44) e (4.45) sono uguali a
zero. Di conseguenza, ponendo tali derivate uguali a zero, raccogliendo i termini e dividendo
per n si mostra che gli stimatori OLS, β̂0 e β̂1 , devono soddisfare le due equazioni
Ȳ − β̂0 − β̂1 X̄ = 0 e
n
(4.46)
n
1X 2
1X
Xi Yi − β̂0 X̄ − β̂1
X = 0.
n i=1
n i=1 i
(4.47)
Risolvendo questa coppia di equazioni per β̂0 e β̂1 si ottiene
1
n
β̂1 =
1
n
n
P
i=1
n
P
i=1
Xi Yi − X̄ Ȳ
Xi2
−
(X̄)2
=
n
P
i=1
(Xi − X̄)(Yi − Ȳ )
n
P
i=1
β̂0 = Ȳ − β̂1 X̄.
(Xi −
(4.48)
X̄)2
(4.49)
Le equazioni (4.48) e (4.49) sono le formule di β̂0 e β̂1 presentate nel concetto chiave 4.2; la
formula β̂1 = sXY /s2X si ottiene dividendo il numeratore e il denominatore dell’equazione
(4.48) per n − 1.
134
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 135 — #165
i
i
Appendice
Appendice 4.3: distribuzione campionaria
dello stimatore OLS
In questa appendice, mostriamo che lo stimatore β̂1 degli OLS è non distorto e, in grandi
campioni, ha la distribuzione campionaria normale mostrata nel concetto chiave 4.4.
Rappresentazione di β̂1 come funzione dei regressori e degli errori. Cominciamo proponendo un’espressione per β̂1 come funzione dei regressori e degli errori. Siccome Yi =
β0 + β1 Xi + ui , Yi − Ȳ = β1 (Xi − X̄) + (ui − ū) e quindi il numeratore della (4.48) diventa
n
X
i=1
(Xi − X̄)(Yi − Ȳ ) =
= β1
n
X
i=1
n
X
i=1
(Xi − X̄)[β1 (Xi − X̄) + (ui − ū)]
(Xi − X̄)2 +
n
X
i=1
(Xi − X̄)(ui − ū).
(4.50)
Pn
Pn
Pn
Pn
Ora i=1 (Xi − X̄)(ui − ū) =
(Xi −
i=1 (Xi − X̄)ui −
i=1 (Xi − X̄)ū =
Pi=1
n
X̄)ui , dove l’uguaglianza finale deriva dalla definizione di X̄, che implica che i=1 (Xi −
P
P
P
X̄)ū = [ ni=1 Xi − nX̄]ū = 0. Sostituendo ni=1 (Xi − X̄)(ui − ū) = ni=1 (Xi − X̄)ui
Pn
Pn
nell’espressione finale della (4.50) produce i=1 (Xi − X̄)(Yi − Ȳ ) = β1 i=1 (Xi − X̄)2 +
Pn
i=1 (Xi − X̄)ui . Sostituendo questa espressione nella formula di β̂1 nella (4.48) si ottiene
1
n
β̂1 = β1 +
1
n
n
P
(Xi − X̄)ui
i=1
n
P
i=1
.
(4.51)
(Xi − X̄)2
Prova della non distorsione di β̂1 . L’aspettativa di β̂1 si ottiene prendendo l’aspettativa di
entrambi i lati della (4.51). Cosı̀,
 P

n
1
(X
−
X̄)u
i
 n i=1 i


E(β̂1 ) = β1 + E 
n
 1 P

2
(Xi − X̄)
n
i=1
 P

n
1
(X − X̄)E(ui X1 , . . . , Xn )
 n i=1 i

 = β1 ,
= β1 + E 
(4.52)
n


P
1
2
(X
−
X̄)
i
n
i=1
dove la seconda uguaglianza nella (4.52) segue dall’applicazione della legge delle aspettative
iterate (sezione 2.3). Per la seconda ipotesi dei minimi quadrati, u i si distribuisce indipendentemente da X per tutte le osservazioni diverse da i, perciò E(ui X1 , . . . , Xn ) = E(ui Xi ).
135
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 136 — #166
i
i
Appendice
Per la prima ipotesi dei minimi quadrati, però, E(ui Xi ) = 0. Pertanto, il numeratore nel
termine finale della (4.52) è pari a zero, cioè lo stimatore OLS è non distorto.
La distribuzione normale dello stimatore OLS in grandi campioni. L’approssimazione
normale per grandi campioni alla distribuzione campionaria di β̂1 (concetto chiave 4.4) si
ottiene considerando l’andamento del termine finale dell’equazione (4.51)
Si consideri inizialmente il numeratore di tale termine. Poiché X̄ è consistente, se la
dimensione campionaria è ampia, X̄ è circa uguale a µX . Cosı̀, il termine al numeratore
dell’equazione (4.51) è la media campionaria v̄, dove v i = (Xi − µX )ui . Per la prima ipotesi
dei minimi quadrati, vi ha media nulla. Per la seconda ipotesi, vi è i.i.d. La varianza di vi è
σv2 = var[(Xi − µX )ui ], che, per la terza ipotesi dei minimi quadrati, è non nulla e finita.
Per questi motivi, v̄ soddisfa tutte le proprietà richieste per l’applicazione del teorema limite
centrale (concetto chiave 2.7). Perciò, v̄/σv̄ si distribuisce, in grandi campioni, secondo una
N (0, 1), dove σv̄2 = σv2 /n. Per questo motivo la distribuzione di v̄ è ben approssimata da una
distribuzione N (0, σv2 /n).
Si consideri ora l’espressione al denominatore della (4.51); questa è la varianza campionaria di X (eccetto la divisione per n invece che per n − 1, che è innocua se n è grande).
Come discusso nella sezione 3.2 (equazione (3.8)), la varianza campionaria è uno stimatore consistente della varianza della popolazione, perciò in grandi campioni è arbitrariamente
vicina alla varianza di X a livello di popolazione.
Combinando questi due risultati, si ottiene che, in grandi campioni, β̂1 −β1 ∼
= v̄/var(Xi ),
2
e quindi la distribuzione campionaria di β̂1 è, in grandi campioni, N (β1 , σβ̂ ), dove σβ̂2 =
1
1
var(v̄)/[var(Xi )]2 = [var(Xi − µX )ui ]/n[var(Xi )]2 , che è l’espressione dell’equazione
(4.14).
Qualche altra proprietà algebrica degli OLS. I residui degli OLS e i valori predetti soddisfano:
n
1X
ûi = 0,
(4.53)
n i=1
n
n
X
1X
Ŷi = Ȳ ,
n i=1
ûi Xi = 0
e
sûX = 0
(4.54)
e
(4.55)
i=1
T SS = SSR + ESS.
(4.56)
I risultati dalla (4.53) alla (4.56) dicono che i residui degli OLS hanno media campionaria
nulla; la media campionaria dei valori predetti degli OLS è ȳ; la covarianza campionaria s ûX
tra i residui OLS e i regressori è nulla; e la somma dei quadrati totale è uguale alla somma
136
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 137 — #167
i
i
Appendice
dei quadrati dei residui più la somma dei quadrati spiegata (ESS, T SS e SSR sono definiti
rispettivamente nella (4.35), nella (4.36) e nella (4.38)).
Per verificare la (4.53), si noti che la definizione di β̂0 permette di scrivere i residui OLS
come ûi = Yi − β̂0 − β̂1 X1 = (Yi − Ȳ ) − β1 (Xi − X̄); perciò,
n
X
ûi =
i=1
n
X
i=1
(Yi − Ȳ ) − β̂1
n
X
i=1
(Xi − X̄).
Pn
Pn
La definizione di Ȳ e X̄ implica però che i=1 (Yi − Ȳ ) = 0 e i=1 (Xi − X̄) = 0 e quindi
Pn
i=1 ûi = 0.
Pn
Pn
Per verificare la (4.54), si noti che Yi = Ŷi + ûi , cosicché i=1 Yi =
i=1 Ŷi +
Pn
Pn
i=1 ûi =
i=1 Ŷi , dove la seconda uguaglianza è una conseguenza dell’equazione (4.53).
Pn
Pn
Per verificare l’equazione (4.55), si noti che
i=1 ûi = 0 implica
i=1 ûi Xi =
Pn
û
(X
−
X̄),
e
quindi
i
i=1 i
n
X
ûi Xi =
i=1
=
n
X
i=1
n
X
i=1
[(Yi − Ȳ ) − β̂1 (Xi − X̄)](Xi − X̄)
(Yi − Ȳ )(Xi − X̄) − β̂1
n
X
i=1
(Xi − X̄)2 = 0,
(4.57)
dove l’uguaglianza finale nella (4.57) è ottenuta utilizzando la formula (4.48) per β̂1 . Questo
risultato, combinato con i risultati precedenti e un po’ di algebra, implica che s ûX = 0.
La (4.56) segue dai risultati precedenti e un po’ di algebra:
T SS
=
n
X
i=1
=
n
X
i=1
(Yi − Ȳ )2 =
(Yi − Ŷi )2 +
n
X
i=1
n
X
(Yi − Ŷi + Ŷi − Ȳ )2
(Ŷi − Ȳ )2 + 2
i=1
n
X
= SSR + ESS + 2
n
X
i=1
(Yi − Ŷi )(Ŷi − Ȳ )
ûi Ŷi = SSR + ESS,
(4.58)
i=1
Pn
Pn
dove l’uguaglianza finale segue dal fatto che
i=1 ûi Ŷi =
i=1 ûi (β̂0 + β̂1 Xi ) =
Pn
Pn
β̂0 i=1 ûi + β̂1 i=1 ûi Xi = 0 per i risultati precedenti.
137
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 138 — #168
i
i
Appendice
Appendice 4.4: le formule per gli errori standard
degli OLS
Questa appendice discute le formule degli errori standard degli OLS. Questi sono stati già
presentati sotto le assunzioni dei minimi quadrati nel concetto chiave 4.3 e tengono conto
dell’eteroschedasticità; essi sono gli errori standardizzati “robusti all’eteroschedasticità”. Le
formule della varianza degli stimatori OLS e gli errori standard associati sono poi forniti per
il caso speciale di omoschedasticità.
Gli errori standard robusti all’eteroschedasticità. Lo stimatore σ̂β̂2 definito nella (4.19)
1
si ottiene sostituendo le varianze della popolazione nella (4.14) con le corrispondenti varianze campionarie, con una modifica. La varianza al numeratore della (4.14) è stimata da
1 Pn
2 2
i=1 (Xi − X̄) ûi , dove il divisore n − 2 (invece di n) incorpora un aggiustamento
n−2
per i gradi di libertà allo scopo di correggere la distorsione verso il basso, analogamente all’aggiustamento per i gradi di libertà usato nella definizione del SER nella sezione 4.8. La
Pn
varianza al denominatore è stimata da n1 i=1 (Xi − X̄)2 . Sostituendo var[(Xi − µX )ui ] e
var(Xi ) nella (4.14) con questi due stimatori si ottiene σ̂β̂2 nella (4.19). La consistenza degli
1
errori standard robusti all’eteroschedasticità sarà discussa nella sezione 15.3.
Lo stimatore della varianza di β̂0 è
σ̂β̂2
0
1
n−2
n
P
Ĥi2 û2i
1
i=1
= ×
2 ,
n
n
1 P
2
Ĥi
n
(4.59)
i=1
dove Ĥi = 1 − [X̄/ n1
Pn
2
i=1 Xi ]Xi . L’errore standard di β̂0 è
stimatore σ̂β̂2 è lo stesso di σ̂β̂2 e segue dalla
0
1
mento dietro lo
con le medie campionarie.
SE(β̂0 ) =
q
σ̂β̂2 . Il ragiona0
sostituzione delle aspettative
Le varianza per il caso di omoschedasticità pura. Sotto l’assunzione di omoschedasticità,
la varianza condizionata di ui data Xi è una costante, ovvero, var(ui Xi ) = σu2 . Se gli errori
sono omoschedastici, le formule del concetto chiave 4.4 si semplificano come
σ̂β̂2 =
σu2
2
nσX
e
(4.60)
σ̂β̂2 =
E(Xi2 ) 2
2 σu .
nσX
(4.61)
0
1
138
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 139 — #169
i
i
Appendice
Per derivare la (4.60), si scriva il numeratore della (4.14) come var[(X i − µX )ui ] =
2
E({(Xi − µX )ui − E[(Xi − µX )ui ]} ) = E [(Xi − µX )ui ]2 = E[(Xi − µX )2 u2i ] =
E[(Xi −µX )2 var(ui Xi )], dove la seconda uguaglianza deriva dal fatto che E[(Xi −µX )ui ] =
0 (per la prima ipotesi dei minimi quadrati) e dove l’uguaglianza finale deriva dalla legge delle aspettative iterate (sezione 2.3). Se ui è omoschedastico, allora var(ui Xi ) = σu2 e quindi
2
E[(Xi − µX )2 var(ui Xi )] = σu2 E[(Xi − µX )2 ] = σu2 σX
. Il risultato nella (4.60) deriva
sostituendo tale espressione nel numeratore della (4.14) e semplificando. Un simile calcolo
fornisce la (4.61).
Gli errori standard per il caso di omoschedasticità pura. Gli errori standard per il caso di
omoschedasticità pura si ottengono sostituendo le medie e le varianze della popolazione nella
(4.60) e nella (4.61) con le medie e le varianze campionarie e stimando la varianza di u i con
il quadrato del SER. Gli stimatori di tali varianze per il caso di omoschedasticità pura sono
σ̃β̂2 = P
n
1
i=1
σ̃β̂2
0
sû2
(per il caso di omoschedasticità pura)
e
(4.62)
(Xi − X̄)2
1
n
= P
n
i=1
n
P
i=1
Xi2
sû2
(per il caso di omoschedasticità pura),
(4.63)
(Xi − X̄)2
dove
è dato dalla (4.40). Gli errori standard per il caso di omoschedasticità pura sono le
radici quadrate di σ̃β̂2 e σ̃β̂2 .
sû2
0
1
139
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 140 — #170
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 141 — #171
i
i
Capitolo 5
Regressione lineare
con regressori multipli
Il capitolo 4 si è concluso con una nota di monito. Nell’indagine relativa alla California,
sebbene i distretti scolastici con rapporto studenti-insegnanti più piccolo tendano ad avere
punteggi del test più alti, è plausibile ipotizzare che gli studenti provenienti da distretti con
classi piccole abbiano altre caratteristiche che li aiutino ad avere risultati migliori nei test
standardizzati. Ciò potrebbe aver prodotto risultati fuorvianti. Se fosse cosı̀, cosa si potrebbe
fare?
I fattori omessi, come le caratteristiche degli studenti, possono rendere fuorviante, o più
precisamente distorto, lo stimatore dei minimi quadrati ordinari (OLS) dell’effetto della dimensione delle classi sui punteggi del test. Questo capitolo spiega questa “distorsione da
variabile omessa” e introduce la regressione multipla, un metodo che può eliminare la distorsione da variabile omessa. L’idea chiave della regressione multipla è che, se sono disponibili i
dati sulle variabili omesse, possiamo aggiungerle come regressori addizionali e perciò stimare l’effetto di un regressore (il rapporto studenti-insegnanti), tenendo costanti le altre variabili
(come le caratteristiche degli studenti).
Questo capitolo spiega come stimare i coefficienti di un modello di regressione lineare
multivariata. Esamina come effettuare inferenza statistica, ovvero come verificare le ipotesi riguardanti più coefficienti di regressione e come costruire gli intervalli di confidenza per
tali coefficienti. Molti aspetti della regressione multipla ricalcano quelli della regressione
con un singolo coefficiente studiati nel capitolo 4. I coefficienti del modello di regressione
multipla possono essere stimati dai dati tramite gli OLS; gli stimatori OLS nelle regressioni multivariate sono variabili casuali perché dipendono da un campione casuale di dati; per
grandi campioni, le distribuzioni campionarie degli stimatori OLS sono approssimativamente
normali; inoltre, gli stimatori OLS possono essere usati per verificare ipotesi e costruire inter-
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 142 — #172
i
i
5.1. La distorsione da variabile omessa
valli di confidenza circa i coefficienti di regressione nella popolazione. Una delle ipotesi che
possono essere sottoposte a verifica è che la riduzione nel rapporto studenti-insegnanti non
abbia effetti sui punteggi del test, tenendo costanti le caratteristiche misurabili degli studenti
appartenenti al distretto.
5.1 La distorsione da variabile omessa
Focalizzando l’attenzione soltanto sul rapporto studenti-insegnanti, l’analisi empirica del capitolo 4 ha ignorato alcune determinanti potenzialmente rilevanti dei punteggi del test e concentrato tutta la loro influenza nell’errore della regressione. Questi fattori omessi includono
caratteristiche della scuola, come la qualità degli insegnanti e l’uso del computer, e peculiarità degli studenti, come la condizione economica familiare. Cominciamo con il considerare
una caratteristica omessa relativa agli studenti che è particolarmente rilevante in California
a causa della sua ampia popolazione di immigrati: la prevalenza nel distretto scolastico di
studenti non di madrelingua inglese.
Ignorando la percentuale di studenti non di madrelingua nel distretto, lo stimatore OLS
della pendenza della retta di regressione dei punteggi sul rapporto studenti-insegnanti potrebbe essere distorto; in altre parole, la media della distribuzione campionaria dello stimatore
OLS potrebbe non essere uguale all’effetto vero sui punteggi del test di una variazione unitaria nel rapporto studenti-insegnanti. Il ragionamento è il seguente. Gli studenti non di madrelingua potrebbero avere prestazioni peggiori nei test standardizzati rispetto agli studenti di
madrelingua inglese. Se i distretti con classi grandi avessero molti studenti non di madrelingua, allora la regressione OLS dei punteggi del test sul rapporto studenti-insegnanti potrebbe
erroneamente trovare una correlazione e produrre un coefficiente stimato elevato, quando,
in realtà, il vero effetto causale della riduzione nella dimensione delle classi sui punteggi
del test è irrisorio o addirittura nullo. Di conseguenza, basandosi sull’analisi del capitolo 4, il
provveditore potrebbe assumere nuovi insegnanti in numero sufficiente per ridurre il rapporto
studenti-insegnanti di due unità, ma la sua speranza di migliorare i punteggi del test potrebbe
non concretizzarsi, se il vero coefficiente fosse piccolo o nullo.
Uno sguardo ai dati della California dà adito a questa preoccupazione. La correlazione tra il rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua inglese
(studenti non nativi americani e che non hanno ancora assimilato la lingua inglese completamente) nel distretto è pari a 0, 19. Questa piccola ma positiva correlazione suggerisce
che i distretti con un numero maggiore di studenti non di madrelingua mostrano la tendenza a un più alto rapporto studenti-insegnanti (classi di maggiori dimensioni). Se il rapporto
studenti-insegnanti non dipendesse dalla percentuale di non di madrelingua, sarebbe allora
legittimo ignorare la conoscenza dell’inglese nella regressione dei punteggi del test sul rapporto studenti-insegnanti. Tuttavia, poiché il rapporto studenti-insegnanti e la percentuale di
142
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 143 — #173
i
i
5.1. La distorsione da variabile omessa
non di madrelingua sono correlati, è possibile che il coefficiente OLS nella regressione dei
punteggi del test sul rapporto studenti-insegnanti rifletta tale influenza.
Definizione di distorsione da variabile omessa
Se il regressore (il rapporto studenti-insegnanti) è correlato con una variabile omessa dall’analisi (la percentuale di studenti non di madrelingua inglese) ma che determina, in parte, la
variabile dipendente (i punteggi ottenuti nel test), lo stimatore OLS subirà una distorsione
da variabile omessa.
La distorsione da variabile omessa si verifica quando valgono due condizioni: la variabile
omessa è correlata con il regressore incluso; la variabile omessa contribuisce a determinare
la variabile dipendente. Per illustrare queste condizioni, consideriamo tre esempi di variabili
che sono omesse dalla regressione dei punteggi del test sul rapporto studenti-insegnanti.
Esempio 1: percentuale di studenti non di madrelingua inglese. Poiché la percentuale di
studenti non di madrelingua inglese è correlata con il rapporto studenti-insegnanti, sussiste
la prima condizione per la distorsione da variabile omessa. È plausibile che gli studenti
non di madrelingua inglese abbiano prestazioni peggiori nei test standardizzati rispetto agli
studenti di madrelingua inglese, nel qual caso la percentuale di studenti non di madrelingua
è una determinante dei punteggi del test ed è cosı̀ verificata la seconda condizione per la
distorsione da variabile omessa. Per queste ragioni, lo stimatore OLS nella regressione dei
punteggi del test sul rapporto studenti-insegnanti potrebbe erroneamente riflettere l’influenza
della variabile omessa, la percentuale di studenti non di madrelingua. In altre parole, omettere
la percentuale di studenti non di madrelingua potrebbe introdurre una distorsione da variabile
omessa.
Esempio 2: ora del test. Un’altra variabile omessa dall’analisi è l’ora in cui viene svolto il
test. Per questa variabile omessa, è plausibile che non valga la prima condizione per la distorsione da variabile omessa, ma che valga la seconda. Ad esempio, se l’ora in cui si effettua il
test varia da un distretto a un altro in modi che non dipendono dalla dimensione delle classi,
allora l’ora e la dimensione delle classi dovrebbero essere incorrelate, e quindi non dovrebbe
valere la prima condizione. D’altro canto, l’ora in cui si svolge il test potrebbe influenzare i
risultati (l’attenzione varia durante le ore di lezione), facendo valere la seconda condizione.
Tuttavia, siccome in questo esempio l’ora in cui viene svolto il test è incorrelata con il rapporto studenti-insegnanti, quest’ultimo non dovrebbe incorrettamente catturare l’effetto “ora
del giorno”. Perciò, omettere l’ora in cui si svolge il test non si dovrebbe risolvere in una
distorsione da variabile omessa.
Esempio 3: l’area di parcheggio per studente. Un’altra variabile omessa è l’area di par143
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 144 — #174
i
i
5.1. La distorsione da variabile omessa
cheggio per studente (l’area del parcheggio degli insegnanti divisa per il numero degli studenti). Questa variabile soddisfa la prima, ma non la seconda condizione per la distorsione
da variabile omessa. Nello specifico, le scuole con più insegnanti per studente probabilmente
hanno aree di parcheggio più grandi, soddisfacendo cosı̀ la prima condizione. Tuttavia, data
l’ipotesi che l’apprendimento avvenga nelle classi, e non nel parcheggio, la dimensione di
questo non ha un effetto diretto sull’apprendimento, e quindi non è soddisfatta la seconda
condizione. Siccome lo spazio per parcheggiare non è una determinante dei punteggi del test,
ometterla dall’analisi non induce distorsione da variabile omessa.
La distorsione da variabile omessa è riassunta nel concetto chiave 5.1.
La distorsione da variabile omessa e la prima ipotesi dei minimi quadrati. La distorsione da variabile omessa è dovuta all’erroneità della prima ipotesi dei minimi quadrati –
E(ui Xi ) = 0, come dall’elenco riportato nel concetto chiave 4.3. Per comprenderne il motivo, si ricordi che l’errore ui del modello di regressione con un singolo regressore rappresenta
tutti gli altri fattori, oltre a Xi , che contribuiscono a determinare Yi . Se uno di questi altri
fattori è correlato con Xi , anche l’errore (che contiene questo fattore) è correlato con Xi . In
altre parole, se una variabile omessa è una determinante di Yi , essa è inclusa nell’errore e, se
correlata con Xi , anche l’errore è correlato con Xi . Siccome ui e Xi sono correlati, la media
condizionata di ui data Xi è non nulla. Questa correlazione viola, perciò, la prima ipotesi dei
minimi quadrati e la conseguenza è rilevante: lo stimatore OLS è distorto. Questa distorsione
non svanisce neanche in grandi campioni, e quindi lo stimatore OLS è inconsistente.
Una formula per la distorsione da variabile omessa
La discussione della sezione precedente riguardante la distorsione da variabile omessa può
essere sintetizzata matematicamente da una formula. Sia corr(Xi , ui ) = ρXu la correlazione
tra Xi e ui . Supponiamo che valgano la seconda e la terza assunzione dei minimi quadrati, ma non la prima perché ρXu è non nullo. Allora, lo stimatore OLS ha limite (derivato
nell’appendice 5.1)
σu
p
β̂1 → β1 + ρXu
.
(5.1)
σX
In altre parole, al crescere della dimensione campionaria, β̂1 è prossimo a β1 + ρXu (σu /σX )
con probabilità alta e crescente.
La formula contenuta nella (5.1) riassume molte delle idee discusse in precedenza circa
la distorsione da variabile omessa.
1. La distorsione da variabile omessa è un problema sia per grandi sia per piccoli campioni. Quando β̂1 non converge in probabilità al vero valore β1 , β̂1 è inconsistente; cioè,
β̂1 non è uno stimatore consistente di β1 , quando c’è distorsione dovuta all’omissione
144
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 145 — #175
i
i
5.1. La distorsione da variabile omessa
Concetto chiave 5.1: la distorsione da variabile omessa nella regressione
con un singolo regressore
La distorsione da variabile omessa è la distorsione dello stimatore OLS che si ha quando
il regressore X è correlato con una variabile omessa. Perché vi sia distorsione da variabile
omessa devono verificarsi due condizioni:
1. X è correlato con la variabile omessa;
2. la variabile omessa concorre nel determinare la variabile dipendente, Y .
di una variabile. Il termine ρXu (σu /σX ) nella (5.1) rappresenta la distorsione di β̂1
che persiste anche in grandi campioni.
2. Quanto è grande questa distorsione dipende, in pratica, dalla correlazione ρ Xu tra il
regressore e l’errore. Maggiore è |ρXu |, maggiore è la distorsione.
3. La direzione della distorsione di β̂1 dipende dal fatto che X e u siano positivamente o
negativamente correlati. Ad esempio, abbiamo avanzato l’ipotesi che la percentuale di
studenti non di madrelingua abbia un effetto negativo sui punteggi del test in un distretto (gli studenti non di madrelingua hanno punteggi inferiori), cosicché la percentuale di
questi studenti entra nell’errore con segno negativo. Nei nostri dati, la frazione di studenti non di madrelingua è positivamente correlata con il rapporto studenti-insegnanti
(i distretti con un maggior numero di studenti non di madrelingua inglese hanno classi
più grandi). Il rapporto studenti-insegnanti (X) sarebbe perciò negativamente correlato con l’errore (u), quindi ρXu < 0 e il coefficiente del rapporto studenti-insegnanti
β̂1 sarebbe distorto verso un numero negativo. In altre parole, una percentuale minore
di studenti non di madrelingua è associata sia con punteggi del test migliori sia con un
minor rapporto studenti-insegnanti; per tali motivi, una ragione per cui gli OLS suggeriscono che classi piccole contribuiscono ad aumentare i punteggi potrebbe essere che i
distretti con classi piccole contengono un minor numero di studenti non di madrelingua
inglese.
Affrontare la distorsione da variabile omessa
dividendo i dati in gruppi
Cosa si può fare per la distorsione da variabile omessa? Il nostro provveditore sta considerando l’opportunità di aumentare il numero di insegnanti nel suo distretto, ma non ha alcun
controllo sulla frazione di immigranti nella sua comunità. Di conseguenza, è interessato
145
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 146 — #176
i
i
5.1. La distorsione da variabile omessa
all’effetto del rapporto studenti-insegnanti sui punteggi del test, tenendo costanti gli altri fattori, inclusa la percentuale di studenti non di madrelingua inglese. Questo nuovo modo di
porre la questione suggerisce che, invece di utilizzare dati per tutti i distretti, dovremmo forse
concentrarci sui distretti con una percentuale di studenti non di madrelingua simile a quella
del distretto del provveditore. In questo sottogruppo di distretti, quelli con classi più piccole
ottengono punteggi migliori nei test?
La tabella 5.1 riporta l’evidenza empirica circa la relazione tra dimensione delle classi e
punteggi del test all’interno dei distretti con percentuali simili di studenti non di madrelingua. I distretti sono divisi in otto gruppi. In primo luogo, i distretti sono ripartiti in quattro categorie che corrispondono ai quartili della distribuzione della percentuale di studenti
non di madrelingua nei distretti. In secondo luogo, all’interno di ciascuna di queste quattro
categorie, i distretti sono ulteriormente suddivisi in due gruppi, a seconda che il rapporto
studenti-insegnanti sia piccolo (ST R < 20) o grande (ST R ≥ 20).
La prima riga della tabella 5.1 riporta la differenza totale nei punteggi medi tra i distretti
con basso e alto rapporto studenti-insegnanti, ovvero la differenza nei punteggi del test tra
questi due gruppi senza suddividerli ulteriormente secondo i quartili di studenti non di madrelingua inglese (si ricordi che questa stessa differenza è stata precedentemente riportata
nella regressione (4.33). Come il coefficiente di Di nella regressione OLS di T estScore su
Di , dove Di era un regressore binario, uguale a uno se ST Ri < 20 e uguale a 0 altrimenti).
Per l’intero campione di 420 distretti, il punteggio medio del test è di 7, 4 punti più alto in
quei distretti che hanno un rapporto studenti-insegnanti minore rispetto a quelli con uno più
alto; la statistica t è pari a 4, 04, cosı̀ l’ipotesi nulla che il punteggio medio del test sia lo
stesso nei due gruppi è rifiutato al livello 1%.
Le quattro righe finali della tabella 5.1 riportano la differenza nei punteggi del test tra
distretti con rapporti studenti-insegnanti alti e bassi, suddivisi per quartile della percentuale di
studenti non di madrelingua inglese. Questa evidenza empirica mostra un quadro diverso. Tra
i distretti con il numero minore di studenti non di madrelingua (< 2, 2%), il punteggio medio
per i 78 distretti con il rapporto studenti-insegnanti più basso è 664, 1 e la media relativa ai 27
distretti con il rapporto studenti-insegnanti più alto è 665, 4. Perciò, nei distretti con il numero
minore di studenti non di madrelingua, i punteggi del test sono in media 1, 3 punti inferiori
rispetto ai distretti con rapporti studenti-insegnanti bassi! Nel secondo quartile, i distretti con
rapporti studenti-insegnanti bassi hanno ottenuto in media punteggi di 4, 3 punti più alti di
quelli con rapporti maggiori; questa differenza era di 4, 9 punti per il terzo quartile e di soli
1, 9 punti per il quartile di distretti con il maggior numero di studenti non di madrelingua
inglese. Se si tiene costante la percentuale di studenti non di madrelingua, la differenza di
prestazioni tra distretti con alti e bassi rapporti studenti-insegnanti è di circa la metà (o meno)
del totale stimato, che è pari a 7, 4 punti.
146
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 147 — #177
i
i
5.1. La distorsione da variabile omessa
L’effetto Mozart: distorsione da variabile omessa?
Uno studio pubblicato su Nature nel 1993
(Rauscher, Shaw and Ky, 1993) suggeriva che ascoltare Mozart per 10-15 minuti
potrebbe incrementare temporaneamente il
quoziente d’intelligenza di 8 o 9 punti. Lo
studio fece scalpore –e politici e genitori intravidero un modo facile per rendere più intelligenti i propri figli. Per un certo periodo, lo stato della Georgia addirittura distribuı̀ CD di musica classica a tutti i bambini
dello stato.
Qual è l’evidenza per l’“effetto Mozart”?
Una rassegna di dozzine di articoli ha mostrato che gli studenti che frequentano corsi
di musica o arte alla scuola superiore ottengono punteggi nei test di lingua inglese e
matematica più elevati rispetto a quelli che
non lo fanno.a Un’occhiata più attenta a
questi studi, tuttavia, suggerisce che la vera
ragione per la migliore prestazione nei test
ha poco a che vedere con tali corsi. Invece, gli autori della rassegna hanno suggerito che la correlazione tra buona prestazione
nel test e frequentazione di corsi di musica
o arte deriva da parecchie cose. Ad esempio, gli studenti accademicamente migliori
potrebbero avere più tempo per frequentare corsi opzionali di musica o maggior interesse nel farlo, oppure le scuole con formazione musicale più approfondita potrebbero
essere scuole migliori in tutti i sensi.
Nella terminologia della regressione, la relazione stimata tra i punteggi del test e la
frequenza di corsi opzionali di musica sembra essere soggetta a distorsione da variabile omessa. Omettendo fattori come l’abilità
innata degli studenti o la qualità complessiva della scuola, lo studio della musica sembra avere un effetto sui punteggi, quando in
realtà non ne ha alcuno.
Perciò, esiste un “effetto Mozart”? Un modo per scoprirlo è condurre un esperimento
controllato casualizzato (come sarà discusso più avanti, nel capitolo 11, gli esperimenti controllati casualizzati eliminano la
distorsione da variabile omessa assegnando a caso i partecipanti al “gruppo di trattamento” e al “gruppo di controllo”). Nel
complesso, i molti esperimenti controllati
sull’effetto Mozart non riescono a mostrare
che ascoltare Mozart aumenti l’IQ o la prestazione generale nei test. Per ragioni non
del tutto chiare, tuttavia, sembra che ascoltare la musica classica sia temporaneamente d’aiuto in un campo ristretto: nel piegare
fogli e visualizzare forme. Perciò, la prossima volta che ci prepariamo duramente per
un esame di origami, cerchiamo di ascoltare
anche un po’ di Mozart.
a
Vedi Journal of Aesthetic Education 34: 3-4 (Fall/Winter 2000), in particolare l’articolo di Ellen Winner e
Monica Cooper, (pp. 11-76) e quello di Lois Hetland (pp. 105-148).
147
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 148 — #178
i
i
5.1. La distorsione da variabile omessa
Tabella 5.1: differenza tra punteggi del test nei distretti scolastici della California con
bassi e alti rapporti studenti-insegnanti (ST R), per percentuali diverse di
studenti che stanno ancora apprendendo l’inglese nel distretto
Rapporto studentiinsegnanti < 20%
Tutti i distretti
Percentuale di studenti
che studiano inglese
< 2, 2%
2,2-8,8%
8,8-23,0%
> 23, 0%
Rapporto studentiinsegnanti ≥ 20%
Differenza tra punteggi,
basso v/s alto STR
Media
punteggi
n
Media
punteggi
n
Differenza
Statistica t
657,4
238
650
182
7,4
4,04
664,1
666,1
654,6
636,7
78
61
55
44
665,4
661,8
649,7
634,8
27
44
50
61
-1,3
4,3
4,9
1,9
-0,44
1,44
1,64
0,68
All’inizio questo risultato può apparire complicato. Come può l’effetto totale dei punteggi
essere il doppio dell’effetto dei punteggi all’interno di ciascun quartile? La risposta è che i
distretti con il numero maggiore di studenti non di madrelingua inglese tendono ad avere sia
il più alto rapporto studenti-insegnanti sia i più bassi punteggi. La differenza nel punteggio
medio tra i distretti appartenenti al quartile più basso della percentuale di studenti non di
madrelingua e a quello più alto è elevata, approssimativamente di 30 punti. I distretti con un
minor numero di studenti non di madrelingua inglese sono caratterizzati da rapporti studentiinsegnanti più bassi: il 74% (78 su 105) dei distretti nel primo quartile hanno classi piccole
(ST R < 20), mentre solo il 42% (44 su 105) dei distretti nel quartile con il maggior numero
di studenti non di madrelingua ha classi piccole. Perciò, i distretti con più studenti non
di madrelingua hanno punteggi inferiori nel test e hanno anche un numero di studenti per
insegnante maggiore rispetto agli altri distretti.
Questa analisi rafforza il timore del provveditore che vi sia distorsione da variabile omessa nella regressione dei punteggi del test sul rapporto studenti-insegnanti. Distinguendo tra
i quartili della percentuale di studenti non di madrelingua e differenze dei punteggi nella seconda parte della tabella 5.1 migliorano l’analisi rispetto alla semplice differenza tra le medie
della prima riga della tabella 5.1. Però, questa analisi non fornisce ancora al provveditore una
stima utile dell’effetto sui punteggi della variazione nella grandezza delle classi, tenendo costante la frazione di studenti non di madrelingua. Tale stima può essere ottenuta utilizzando
il metodo della regressione multipla.
148
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 149 — #179
i
i
5.2. Il modello di regressione multipla
5.2 Il modello di regressione multipla
Il modello di regressione multipla estende il modello di regressione con una singola variabile del capitolo 4, includendo variabili addizionali come regressori. Questo modello permette
di stimare l’effetto su Yi della variazione in una variabile (X1i ), tenendo costanti gli altri
regressori (X2i , X3i e cosı̀ via). Nel problema della dimensione delle classi, il modello di
regressione multipla fornisce un modo per isolare l’effetto sui punteggi del test (Y i ) della
variazione nel rapporto studenti-insegnanti (X1i ), tenendo costante la percentuale di studenti
non di madrelingua inglese nel distretto (X2i ).
La retta di regressione della popolazione
Supponiamo per il momento che ci siano soltanto due variabili indipendenti, X 1i e X2i . Nel
modello di regressione lineare multipla, la relazione media tra queste due variabili indipendenti e la variabile dipendente Y è data dalla funzione lineare
E(Yi X1i = x1 , X2i = x2 ) = β0 + β1 x1 + β2 x2 ,
(5.2)
dove E(Yi X1i = x1 , X2i = x2 ) è l’aspettativa condizionata di Yi date X1i = x1 e X2i =
x2 . In altre parole, se il rapporto studenti-insegnanti nell’i-esimo distretto (X 1i ) è uguale a
un certo valore x1 e la percentuale di studenti non di madrelingua nell’i-esimo distretto (X 2i )
è uguale a x2 , allora il valore atteso di Yi dato il rapporto studenti-insegnanti e la percentuale
di studenti non di madrelingua inglese è fornito dalla (5.2).
La (5.2) è la retta di regressione della popolazione o funzione di regressione della
popolazione nel modello di regressione multipla. Il coefficiente β0 è l’intercetta, il coefficiente β1 è il coefficiente di X1i e il coefficiente di β2 è il coefficiente di X2i . Le variabili
dipendenti nel modello di regressione multipla sono talvolta dette variabili di controllo.
L’interpretazione del coefficiente β1 nella (5.2) è diversa rispetto al caso in cui X1i è il
solo regressore: nella (5.2), β1 è l’effetto su Y di una variazione unitaria in X1i , tenendo
costante X2 o controllando per X2 .
Tale interpretazione di β1 segue dalla definizione per cui l’effetto atteso su Y di una variazione ∆X1 in X1 , lasciando X2 costante, è la differenza tra il valore atteso di Y , quando le
variabili indipendenti sono uguali a X1 +∆X1 e X2 , e il valore atteso di Y, quando le variabili indipendenti sono uguali a X1 e X2 . Di conseguenza, scriviamo la funzione di regressione
(5.2) come Y = β0 + β1 X1 + β2 X2 e immaginiamo di far variare X1 dell’ammontare ∆X1 ,
senza variare X2 , ovvero lasciandola costante. Poiché X1 è cambiata, Y cambia di un certo
ammontare, diciamo ∆Y . Dopo questa variazione, il nuovo valore di Y è
Y + ∆Y = β0 + β1 (X1 + ∆X1 ) + β2 X2 .
(5.3)
149
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 150 — #180
i
i
5.2. Il modello di regressione multipla
Si può esprimere ∆Y in termini di ∆X1 sottraendo Y = β0 + β1 X1 + β2 X2 dalla (5.3), in
modo tale da ottenere ∆Y = β1 ∆X1 . Perciò,
β1 =
∆Y
,
∆X1
tenendo X2 costante.
(5.4)
Il coefficiente β1 è l’effetto su Y (la variazione attesa di Y ) di una variazione unitaria in X1 ,
lasciando fisso X2 . Un’altra espressione usata per indicare β1 è effetto parziale di X1 su Y ,
tenendo X2 fisso.
L’interpretazione dell’intercetta β0 nel modello di regressione multipla è simile all’interpretazione dell’intercetta nel modello con un singolo regressore: il valore atteso di Y i
quando X1i e X2i sono nulli. Semplicemente, l’intercetta β0 determina il punto dell’asse
delle ordinate per cui passa la retta di regressione della popolazione.
Il modello di regressione multipla della popolazione
La retta di regressione della popolazione (5.2) è la relazione tra Y e X 1 e X2 che vale in media
nella popolazione. Proprio come nel caso della regressione con un singolo regressore, tuttavia, questa relazione non vale con esattezza perché molti altri fattori influenzano la variabile
dipendente: oltre al rapporto studenti-insegnanti e alla frazione di studenti non di madrelingua inglese, ad esempio, i punteggi del test sono influenzati anche dalle caratteristiche della
scuola, dalle altre caratteristiche dello studente e dal caso. La funzione di regressione della
popolazione (5.2) deve perciò essere modificata per incorporare questi fattori addizionali.
Proprio come nel caso della regressione con un singolo regressore, i fattori che determinano Y oltre a X1i e X2i sono incorporati nell’“errore” ui della (5.2). Questo errore è
la deviazione di una particolare osservazione (nel nostro esempio, i punteggi dell’i-esimo
distretto) dalla relazione che esprime la media della popolazione. Di conseguenza, otteniamo
Yi = β0 + β1 X1i + β2 X2i + ui ,
i = 1, . . . , n,
(5.5)
dove il pedice indica l’i-esima delle n osservazioni (distretti) nel campione.
La (5.5) è il modello di regressione multipla della popolazione quando ci sono due
regressori, X1i e X2i .
Nei modelli con regressori binari, può essere utile trattare β0 come il coefficiente di un
regressore che è sempre uguale a uno; si pensi a β0 come al coefficiente di X0i , dove X0i = 1
per i = 1, . . . , n. Di conseguenza, il modello di regressione multipla della popolazione (5.5)
può essere scritto alternativamente come
Yi = β0 X0i + β1 X1i + β2 X2i + ui , dove X0i = 1, i = 1, . . . , n.
(5.6)
I due modi di scrivere il modello di regressione della popolazione, la (5.5) e la (5.6), sono
equivalenti.
150
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 151 — #181
i
i
5.2. Il modello di regressione multipla
Concetto chiave 5.2: il modello di regressione multipla
Il modello di regressione multipla è
Yi = β0 + β1 X1i + β2 X2i + . . . + βk Xki + ui , i = 1, . . . , n,
(5.7)
dove:
• Yi è la i-esima osservazione della variabile dipendente, X1i , X2i , . . . , Xki sono le
i-esime osservazioni di ciascuno dei k regressori e ui è l’errore;
• la retta di regressione della popolazione è la relazione tra la Y e le X che vale in
media nella popolazione:
E(Y X1i = x1 , X2i = x2 , . . . , Xki = xk )
= β0 + β1 x1i + β2 x2i + . . . + βk xki ;
• β1 è il coefficiente angolare di X1 , β2 è il coefficiente angolare di X2 ecc. Il coefficiente β1 rappresenta la variazione attesa di Yi che deriva da una variazione unitaria
in X1i , tenendo costanti X2i , . . . , Xki . I coefficienti delle altre X si interpretano in
maniera simile;
• l’intercetta β0 è il valore atteso di Y , quando tutte le X sono pari a zero. L’intercetta
può essere pensata come il coefficiente di un regressore, X0i , che è uguale a uno per
ogni i.
La discussione si è concentrata finora sul caso di una singola variabile addizionale, X 2 .
In pratica, tuttavia, potrebbero essere stati omessi più fattori dal modello con un singolo regressore. Per esempio, ignorare la condizione economica degli studenti potrebbe causare
distorsione da variabile omessa, proprio come è accaduto ignorando la frazione di studenti
non di madrelingua. Questo ragionamento ci induce a considerare un modello con tre regressori o, più in generale, un modello che include k regressori. Il modello di regressione
multipla con k regressori, X1i , X2i , . . . , Xki , è riassunto nel concetto chiave 5.2.
Le definizioni di omoschedasticità e eteroschedasticità nel modello di regressione multipla sono simili alle definizioni date per il modello con un singolo regressore. L’errore
ui nel modello di regressione multipla è omoschedastico, se la varianza della distribuzione di ui condizionatamente a X1i , X2i , . . . , Xki , var(ui X1i , . . . , Xki ), è costante per
i = 1, . . . , n, e perciò non dipende dai valori di X1i , X2i , . . . , Xki . Altrimenti, l’errore
è eteroschedastico.
151
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 152 — #182
i
i
5.3. Lo stimatore OLS della regressione multipla
Il modello di regressione multipla soddisfa la promessa di svelare proprio ciò che il provveditore vuole sapere: l’effetto della variazione del rapporto studenti-insegnanti, tenendo
costanti altri fattori che sfuggono al suo controllo. Questi fattori includono non soltanto
la percentuale di studenti non di madrelingua, ma altri fattori misurabili che potrebbero influenzare la prestazione nel test, incluse le condizioni economiche degli studenti. Per dare
al provveditore un aiuto pratico, tuttavia, dobbiamo fornirgli le stime dei coefficienti ignoti β0 , . . . , βk del modello di regressione della popolazione utilizzando un campione di dati.
Fortunatamente, questi coefficienti possono essere stimati tramite i minimi quadrati ordinari.
5.3 Lo stimatore OLS della regressione multipla
Questa sezione descrive come i coefficienti del modello di regressione multipla possano
essere stimati tramite gli OLS.
Lo stimatore OLS
La sezione 4.2 mostra come stimare l’intercetta e la pendenza del modello con un singolo
regressore, applicando gli OLS a un campione di osservazioni su Y e X. L’idea chiave è che
questi coefficienti possano essere stimati minimizzando la somma dei quadrati degli errori
Pn
di predizione, ovvero scegliendo gli stimatori b0 e b1 cosı̀ da minimizzare i=1 (Yi − b0 −
b1 Xi )2 ; gli stimatori risultanti sono gli OLS, β̂0 e β̂1 .
Il metodo degli OLS può anche essere usato per stimare i coefficienti β 0 , β1 , . . . , βk nel
modello di regressione multipla. Siano b0 , b1 , . . . , bk stimatori di β0 , β1 , . . . , βk . Il valore
predetto di Yi , calcolato usando tali stimatori, è b0 +b1 X1i +. . .+bk Xki e l’errore commesso
nel predire Yi è Yi − (b0 + b1 X1i + . . . + bk Xki ) = Yi − b0 − b1 X1i − . . . − bk Xki . La
somma dei quadrati di questi errori di previsione al quadrato per n osservazioni è perciò
n
X
i=1
(Yi − b0 − b1 X1i − . . . − bk Xki )2 .
(5.8)
La somma dei quadrati degli errori nel modello di regressione lineare (5.8) è l’estensione
della somma dei quadrati degli errori (4.6) nel modello di regressione lineare con un singolo
regressore.
Gli stimatori dei coefficienti β0 , β1 , . . . , βk che minimizzano la somma dei quadrati degli
errori (5.8) sono detti stimatori dei minimi quadrati ordinari (OLS) di β0 , β1 , . . . , βk . Gli
stimatori OLS sono indicati con β̂0 , β̂1 , . . . , β̂k .
La terminologia degli OLS nel modello di regressione multipla è la stessa usata per il
modello di regressione lineare con un singolo regressore. La retta di regressione OLS si
costruisce utilizzando gli stimatori OLS, β̂0 + β̂1 X1 + . . . + β̂k Xk . Il valore predetto di Yi
date X1i , . . . , Xki , basato sulla retta di regressione OLS, è Ŷi = β̂0 + β̂1 X1i + . . . + β̂k Xki .
152
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 153 — #183
i
i
5.3. Lo stimatore OLS della regressione multipla
Il residuo OLS per l’i-esima osservazione è la differenza tra Yi e il suo predittore OLS, cioè
ûi = Yi − Ŷi .
Gli stimatori OLS potrebbero essere calcolati attraverso un processo di prova ed errori,
provando cioè ripetutamente valori diversi di b0 , . . . , bk finchè siamo convinti di aver minimizzato la somma totale dei quadrati (5.8). È molto più semplice, però, usare le formule per
gli stimatori OLS derivate utilizzando il calcolo infinitesimale. Le formule per gli stimatori
OLS nel modello di regressione multipla sono simili a quelle nel concetto chiave 4.2 per il
modello con un singolo regressore. Queste formule sono incorporate nei moderni pacchetti statistici ed econometrici. Nel modello di regressione multipla, le formule sono meglio
espresse e discusse usando la notazione matriciale, perciò se ne rinvia la presentazione alla
sezione 16.1.
Le definizioni e la terminologia relativa agli OLS per la regressione multipla sono riassunte nel concetto chiave 5.3.
Applicazione ai punteggi del test e al rapporto
studenti-insegnanti
Nella sezione 4.2, abbiamo usato gli OLS per stimare l’intercetta e la pendenza della regressione che mette in relazione il punteggio del test (T estScore) con il rapporto studentiinsegnanti (STR), usando le nostre 420 osservazioni relative ai distretti scolastici della California; la stima OLS della retta di regressione (4.7) è
d
T estScore
= 698, 9 − 2, 28 × ST R.
(5.9)
d
T estScore
= 686, 0 − 1, 10 × ST R − 0, 65 × P ctEL,
(5.10)
La nostra preoccupazione era che questa relazione fosse fuorviante per il fatto che il
rapporto studenti-insegnanti potrebbe catturare l’effetto della presenza, nei distretti con classi
grandi, di molti studenti non di madrelingua. Per questo motivo, è possibile che lo stimatore
OLS sia soggetto a distorsione da variabile omessa.
Siamo ora in grado di affrontare questo problema usando gli OLS per stimare una regressione multipla in cui la variabile dipendente è il punteggio del test (Y i ) e ci sono due
regressori: il rapporto studenti-insegnanti (X1i ) e la percentuale di studenti non di madrelingua (X2i ) per i nostri 420 distretti scolastici (i = 1, . . . , 420). La stima OLS di questa
regressione multipla è
dove P ctEL è la percentuale di studenti non di madrelingua inglese nel distretto. La stima OLS dell’intercetta (β̂0 ) è 686, 0, la stima OLS del coefficiente del rapporto studentiinsegnanti (β̂1 ) è −1, 10 e quella del coefficiente della percentuale di studenti non di madrelingua inglese (β̂2 ) è −0, 65.
153
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 154 — #184
i
i
5.3. Lo stimatore OLS della regressione multipla
Concetto chiave 5.3: gli stimatori OLS, i valori previsti e i residui
del modello di regressione multipla
Gli stimatori OLS β̂0 , β̂1 , . . . , β̂k sono quei valori di b0 , b1 , . . . , bk che minimizzano la
Pn
somma dei quadrati degli errori di previsione i=1 (Yi − b0 − b1 X1i − · · · − bk Xki )2 . I
valori predetti Ŷi e i residui ûi degli OLS sono:
Ŷi = β̂0 + β̂1 X1i + . . . + β̂k Xki , con i = 1, . . . , n, e
ûi = Yi − Ŷi ,
con i = 1, . . . , n.
(5.11)
(5.12)
Gli stimatori OLS β̂0 , β̂1 , . . . , β̂k e il residuo ûi sono calcolati per un campione di n osservazioni (X1i , . . . , Xki , Yi ), con i = 1, . . . , n. Essi sono stimatori dei veri coefficienti
ignoti della popolazione β0 , β1 , . . . , βk e dell’errore ui .
Nella regressione multipla, l’effetto stimato sui punteggi di una variazione nel rapporto
studenti-insegnanti è circa la metà rispetto a quando il numero di studenti per insegnante era
l’unico regressore: con un singolo regressore (equazione (5.9)) un decremento unitario di
ST R si stima aumenti i punteggi di 2, 28 punti, mentre, con regressori multipli (equazione
(5.10)), si stima che i punteggi del test aumentino di soli 1, 10 punti. Questa differenza
sorge perché il coefficiente di ST R nella regressione multipla è l’effetto di una variazione di
ST R, tenendo costante (o controllando per) P ctEL, mentre nella regressione con un singolo
regressore, P ctEL non è tenuto costante.
Queste due stime si possono conciliare riconoscendo che c’è distorsione da variabile
omessa nella stima del modello con un singolo regressore (5.9). Nella sezione 5.1, abbiamo
visto che distretti con un’alta percentuale di studenti non di madrelingua tendono ad avere
non solo bassi punteggi nei test, ma anche un alto rapporto studenti-insegnanti. Se la frazione
di studenti non di madrelingua è omessa dalla regressione, si stima che una riduzione nel
rapporto studenti-insegnanti abbia un effetto maggiore sui punteggi del test, ma questa stima
riflette sia l’effetto di una variazione nel rapporto studenti-insegnanti sia l’effetto omesso di
avere nel distretto un minor numero di studenti non di madrelingua.
Abbiamo raggiunto la stessa conclusione cioè che esiste distorsione da variabile omessa
nella relazione tra punteggi nei test e rapporto studenti-insegnanti seguendo due strade diverse: l’approccio tabulare del dividere i dati in due gruppi (sezione 5.1) e l’approccio della
regressione multipla (equazione (5.10)). Tra i due metodi, la regressione multipla ha due
importanti vantaggi. In primo luogo, essa fornisce una stima quantitativa dell’effetto di un
decremento unitario nel rapporto studenti-insegnanti, che è quello di cui ha bisogno il provveditore per prendere la sua decisione. In secondo luogo, essa si adatta facilmente al caso di
154
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 155 — #185
i
i
5.4. Le assunzioni dei minimi quadrati
più di due regressori, e quindi può essere usata per tener conto di altri fattori misurabili, in
aggiunta alla percentuale di studenti non di madrelingua inglese.
Il resto di questo capitolo è dedicato alla comprensione e all’uso degli OLS nel modello
di regressione multipla. La maggior parte di quanto appreso circa lo stimatore OLS con un
singolo regressore si estende alla regressione multipla con poche o senza alcuna modifica,
e quindi ci concentreremo sulle novità presentate dalla regressione multipla. Cominciamo
estendendo le assunzioni dei minimi quadrati al modello di regressione multipla.
5.4 Le assunzioni dei minimi quadrati
per la regressione multipla
Ci sono quattro assunzioni degli OLS per il modello di regressione multipla. Le prime
tre sono quelle della sezione 4.3 per il modello di regressione univariata (concetto chiave
4.3), adattate al fine di consentire una molteplicità dei regressori e che saranno discusse solo
brevemente. La quarta assunzione è nuova e sarà discussa in maggiore dettaglio.
Assunzione 1: la distribuzione condizionata di ui
date X1i , X2i , . . . , Xki ha media nulla
La prima assunzione è che la distribuzione condizionata di ui date X1i , X2i , . . . , Xki abbia
media nulla. Questa assunzione estende al caso di più regressori la prima assunzione dei
minimi quadrati con un singolo regressore. Questa assunzione implica che Y i talvolta è al di
sopra della retta di regressione della popolazione e talvolta al di sotto, ma che in media giace
su tale retta. Quindi, per ogni valore dei regressori, il valore atteso di u i è pari a zero. Come
nel caso della regressione con un singolo regressore, questa è l’assunzione chiave che rende
non distorto lo stimatore OLS. Ritorneremo alla distorsione da variabile omessa nella sezione
5.11.
Assunzione 2: (X1i , X2i , . . . , Xki , Yi ), con i = 1, . . . , n, sono i.i.d.
La seconda assunzione è che (X1i , X2i , . . . , Xki , Yi ), con i = 1, . . . , n, siano variabili
casuali indipendentemente e identicamente distribuite (i.i.d.). Essa vale automaticamente se
i dati sono raccolti attraverso un campionamento casuale semplice. I commenti su questa
assunzione che appaiono nella sezione 4.3 relativamente a un singolo regressore valgono
anche nel caso di più regressori.
155
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 156 — #186
i
i
5.4. Le assunzioni dei minimi quadrati
Assunzione 3: X1i , X2i , . . . , Xki e ui hanno quattro momenti
La terza assunzione è che X1i , X2i , . . . , Xki e ui abbiano quattro momenti. Come la terza assunzione del modello con un singolo regressore, essa serve a limitare la possibilità di osservare valori estremamente elevati di X1i , X2i , . . . , Xki o ui . Questa assunzione è una condizione
tecnica usata nelle prove delle proprietà delle statistiche degli OLS in grandi campioni.
Assunzione 4: collinearità non perfetta
La quarta assunzione è la novità del modello di regressione multipla. Essa elimina una situazione poco gradevole, chiamata collinearità perfetta, nella quale è impossibile calcolare
lo stimatore OLS. Si dice che i regressori sono perfettamente collineari (o che mostrano
collinearità perfetta) se uno dei regressori è una funzione lineare esatta degli altri. La quarta
assunzione dei minimi quadrati è che i regressori non siano perfettamente collineari.
Per illustrare cosa sia la collinearità perfetta e mostrare perché costituisca un problema,
consideriamo tre esempi di regressioni in cui un terzo regressore è aggiunto alla regressione
dei punteggi sul rapporto studenti-insegnanti e la percentuale di studenti non di madrelingua
(5.10).
Esempio 1: frazione di studenti non di madrelingua inglese. Sia F racELi la frazione di
studenti non di madrelingua nel distretto i-esimo, che varia tra zero e uno. Se la variabile
F racELi fosse aggiunta come terzo regressore a ST Ri e P ctELi , i regressori sarebbero
perfettamente collineari. La ragione è che P ctEL è la percentuale di studenti non di madrelingua, cosicché P ctELi = 100 × F racELi per ciascun distretto. Uno dei regressori
(P ctELi ) può essere allora scritto come una funzione lineare esatta di un altro regressore
(F racELi ).
A causa di questa perfetta collinearità, è impossibile calcolare le stime degli OLS della
regressione di T estScorei su ST Ri , P ctELi e F racELi . A seconda di come il pacchetto
informatico usato tratta la multicollinearità, quando si cerca di stimare questa regressione,
il pacchetto informatico farà una di queste tre cose: eliminerà una delle variabili (operando
la scelta di quale cancellare in maniera arbitraria); si rifiuterà di calcolare le stime OLS,
mostrando un messaggio di errore; oppure si bloccherà. La ragione matematica è che la
collinearità perfetta fa sı̀ che le formule degli OLS abbiano divisori nulli.
A livello intuitivo, la ragione matematica per cui la collinearità perfetta è un problema è
che si sta chiedendo alla regressione di rispondere a una domanda illogica. Si ricordi che il
coefficiente di P ctELi è l’effetto sui punteggi del test di una variazione unitaria di P ctEL,
lasciando costanti le altre variabili. Se una delle altre variabili è F racEL, ci si chiede: qual è
l’effetto di una variazione unitaria nella percentuale di studenti non di madrelingua, tenendo
costante la frazione di studenti non di madrelingua? Poiché la percentuale di studenti non
156
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 157 — #187
i
i
5.4. Le assunzioni dei minimi quadrati
di madrelingua e la frazione di studenti non di madrelingua variano insieme in una relazione
lineare perfetta, questa domanda non ha senso e gli OLS non possono darvi alcuna risposta.
Esempio 2: classi “non troppo piccole”. Sia N V Si una variabile binaria che è uguale a uno
se il rapporto studenti-insegnanti nell’i-esimo distretto è “non troppo piccolo”; nello specifico, N V Si è uguale a uno se ST Ri ≥ 12 e zero altrimenti. Anche questa regressione mostra
collinearità perfetta, ma per una ragione più sottile rispetto alla regressione nell’esempio precedente. Non ci sono, infatti, distretti nei nostri dati con ST Ri < 12; come si può vedere
nel grafico a nuvola della figura 4.2, il valore più piccolo di ST R è 14. Allora, N V S i = 1
per tutte le osservazioni. Ora si ricordi che un modello di regressione lineare con intercetta
può equivalentemente essere pensato come se si includesse un regressore, X 0i , che è uguale
a uno per tutte le i, come mostrato nella (5.6). Cosı̀, possiamo scrivere N V S i = 1 × X0i
per tutte le osservazioni del nostro insieme di dati; perciò, N V Si può essere scritto come una
combinazione lineare perfetta dei regressori; nello specifico, è uguale a X 0i .
Questo illustra due concetti importanti relativi alla perfetta collinearità. In primo luogo,
quando la regressione include un’intercetta, uno dei regressori che può essere implicato nella
collinearità perfetta è il regressore “costante” X0i . In secondo luogo, la collinearità perfetta è
una caratteristica dell’insieme di dati che si ha a disposizione. Mentre è possibile immaginare
un distretto scolastico con meno di 12 studenti per insegnante, non sono presenti distretti
simili nei dati disponibili, e quindi non possiamo analizzarli nella nostra regressione.
Esempio 3: percentuale di studenti di madrelingua inglese. Sia P ctESi la percentuale
di “madrelingua inglesi” nell’i-esimo distretto definita come la percentuale di studenti che
sono di madrelingua inglese. Nuovamente, i regressori saranno perfettamente multicollineari. Come nell’esempio precedente, la relazione lineare perfetta tra i regressori coinvolge il
regressore “costante” X0i : per tutti i distretti, P ctESi = 100 × X0i − P ctELi .
Questo esempio illustra un altro punto: la collinearità perfetta è una caratteristica dell’intero insieme dei regressori. Se l’intercetta (i.e., il regressore X0i ) o P ctESi fossero esclusi
dalla regressione, i regressori non sarebbero perfettamente multicollineari.
Soluzioni alla collinearità perfetta. La collinearità perfetta si verifica tipicamente quando è
stato commesso un errore nella specificazione della regressione. Talvolta l’errore è facile da
individuare (come nel primo esempio), ma talvolta non lo è (come nel secondo esempio). In
un modo o nell’altro il pacchetto statistico indicherà se si sta commettendo tale errore, perché
non è in grado di calcolare lo stimatore OLS.
Quando il pacchetto statistico individua la collinearità perfetta, per eliminarla è importante modificare la regressione. Alcuni pacchetti sono inaffidabili nel caso di collinearità
perfetta e, come minimo, sarete costretti a cedere il controllo della scelta dei regressori al
157
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 158 — #188
i
i
5.5. La distribuzione degli stimatori OLS nella regressione multipla
Concetto chiave 5.4: le assunzioni dei minimi quadrati relative al modello
di regressione multipla
Yi = β0 + β1 X1i + β2 X2i + . . . + βk Xki + ui , con i = 1, . . . , n, dove:
1. ui ha media condizionata
E(ui X1i , X2i , . . . , Xki ) = 0;
nulla,
date
X1i , X2i , . . . , Xki ,
ovvero
2. (X1i , . . . , Xki , Yi ), con i = 1, . . . , n, sono estratti indipendentemente e
indenticamente distribuiti (i.i.d.) dalla propria distribuzione congiunta;
3. (X1i , . . . , Xki , ui ) hanno momenti quarti finiti e non nulli;
4. non vi è collinearità perfetta.
vostro computer.
Collinearità imperfetta. A dispetto del nome simile, la collinearità imperfetta è concettualmente molto diversa rispetto alla collinearità perfetta. Collinearità imperfetta significa che
due o più regressori sono altamente correlati, nel senso che esiste una funzione lineare dei
regressori che è altamente correlata con un altro regressore. La collinearità imperfetta non
pone alcun problema per la teoria degli stimatori degli OLS; infatti, uno degli scopi degli
OLS è quello di separare le influenze indipendenti dei vari regressori quando questi sono
potenzialmente correlati.
Le assunzioni dei minimi quadrati per il modello di regressione multipla sono riassunte
nel concetto chiave 5.4.
5.5 La distribuzione degli stimatori OLS
nella regressione multipla
Poiché i dati differiscono da un campione a un altro, campioni differenti producono valori
diversi degli stimatori OLS. Questa variazione tra i possibili campioni genera l’incertezza associata con gli stimatori OLS dei coefficienti di regressione della popolazione β 0 , β1 , . . . , βk .
Come nel caso della regressione con un singolo regressore, questa variazione è sintetizzata
nella distribuzione campionaria degli stimatori OLS.
Ricordiamo dalla sezione 4.4 che, sotto le assunzioni dei minimi quadrati, gli stimatori
OLS (β̂0 e β̂1 ) sono stimatori non distorti e consistenti dei coefficienti ignoti (β0 e β1 ) del
modello di regressione lineare con un singolo coefficiente. In aggiunta, per grandi campioni,
158
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 159 — #189
i
i
5.5. La distribuzione degli stimatori OLS nella regressione multipla
la distribuzione campionaria di β̂0 e β̂1 è ben approssimata da una distribuzione normale
bivariata.
Questi risultati si estendono al caso della regressione multipla. In altre parole, sotto le assunzioni dei minimi quadrati riportate nel concetto chiave 5.4, gli stimatori OLS
β̂0 , β̂1 , . . . , β̂k sono stimatori non distorti e consistenti di β0 , β1 , . . . , βk nel modello di regressione lineare multipla. Per grandi campioni, la distribuzione campionaria congiunta di
β̂0 , β̂1 , . . . , β̂k è ben approssimata da una distribuzione normale multivariata, che è l’estensione della distribuzione normale bivariata al caso generale di due o più variabili congiuntamente
normali (sezione 2.4).
Sebbene in presenza di regressori multipli l’algebra sia più complicata, il teorema limite
centrale si applica agli stimatori OLS nel modello di regressione multipla per la stessa ragione per cui si applica alla media campionaria Ȳ e agli stimatori OLS quando c’è un singolo
regressore: gli stimatori OLS β̂0 , β̂1 , . . . , β̂k sono medie di dati campionati casualmente e, se
la dimensione campionaria è sufficientemente grande, la distribuzione campionaria di quelle medie diviene normale. Poiché la distribuzione normale multivariata può essere trattata
più agevolmente con l’algebra matriciale, le espressioni per la distribuzione congiunta degli
stimatori OLS sono rinviate al capitolo 16.
Il concetto chiave 5.5 riassume il risultato che, per grandi campioni, la distribuzione degli
stimatori OLS nella regressione multipla è approssimativamente normale multivariata. In generale, gli stimatori OLS sono correlati; questa correlazione deriva dalla correlazione tra i regressori. La distribuzione campionaria congiunta degli stimatori OLS è discussa in maggiore
dettaglio nell’appendice 5.2 per il caso in cui ci siano due regressori ed errori omoschedastici,
il caso generale è discusso invece nella sezione 16.2.
Gli errori standard degli stimatori OLS
Si ricordi che, nel caso di un singolo regressore, è stato possibile stimare la varianza degli
stimatori OLS sostituendo le medie campionarie alle aspettative, il che ha portato allo stimatore σ̂β̂2 nella (4.19). Sotto le assunzioni dei minimi quadrati, la legge dei grandi numeri
1
implica che queste medie campionarie convergano alle corrispondenti medie della popolaziop
ne, e quindi per esempio σ̂β̂2 /σβ̂2 → 1. La radice quadrata di σ̂β̂2 è l’errore standard di β̂1 ,
1
1
1
SE(β̂1 ), uno stimatore della deviazione standard della distribuzione campionaria di β̂1 .
Tutto ciò si estende direttamente alla regressione multipla. Lo stimatore OLS del j-esimo
coefficiente di regressione β̂j ha una deviazione standard, che è stimata tramite il suo errore
standard, SE(β̂j ). La formula dell’errore standard è espressa più facilmente in termini matriciali, per questo motivo è riportata nella sezione 16.2. Il punto importante è che, per quanto
riguarda gli errori standard, non c’è niente di concettualmente diverso tra il caso di un singolo
regressore e quello di regressori multipli. Le idee chiave –la normalità in grandi campioni
159
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 160 — #190
i
i
5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente
Concetto chiave 5.5: la distribuzione di β̂0 , β̂1 , . . . , β̂k in grandi campioni
Se valgono le assunzioni dei minimi quadrati (concetto chiave 5.4), gli stimatori OLS
β̂0 , β̂1 , . . . , β̂k sono, in grandi campioni, congiuntamente distribuiti secondo una normale
e ogni β̂j si distribuisce secondo una N (βj , σβ̂2 ), con j = 0, . . . , k.
j
degli stimatori e la capacità di stimare consistentemente la deviazione standard della loro
distribuzione campionaria– sono le stesse sia che si abbiano uno, due o 12 regressori.
5.6 Verifica di ipotesi e intervalli di confidenza
per un singolo coefficiente
Questa sezione descrive come verificare le ipotesi e costruire intervalli di confidenza per un
singolo coefficiente in una regressione multipla.
La verifica di ipotesi su un singolo coefficiente
Supponiamo di voler verificare l’ipotesi che una variazione nel rapporto studenti-insegnanti
non abbia alcun effetto sui punteggi del test, tenendo costante la percentuale di studenti non di
madrelingua nel distretto. Questo corrisponde all’ipotesi che il vero coefficiente β 1 relativo
al rapporto studenti-insegnanti sia nullo nella regressione dei punteggi del test su ST R e
P ctEL. Più in generale, potremmo voler verificare l’ipotesi che il vero coefficiente β j del
j-esimo regressore assuma un qualche valore specifico βj,0 . Il valore dell’ipotesi nulla βj,0
deriva dalla teoria economica oppure, come nell’esempio del rapporto studenti-insegnanti,
dal contesto decisionale a cui si riferisce l’applicazione. Se l’ipotesi alternativa è bilaterale,
allora le due ipotesi possono essere espresse matematicamente come
H0 : βj = βj,0 contro H1 : βj 6= βj,0
(alternativa bilaterale).
(5.13)
Ad esempio, se il primo regressore è ST R, allora l’ipotesi nulla che una variazione nel rapporto studenti-insegnati non abbia alcun effetto sulla dimensione delle classi corrisponde
all’ipotesi nulla che β1 = 0 (perciò β1,0 = 0). Il nostro compito è verificare l’ipotesi nulla
H0 contro l’alternativa H1 utilizzando un campione di dati.
Il concetto chiave 4.6 offre una procedura per verificare questa ipotesi nulla quando c’è
un singolo regressore. Il primo passo di questa procedura è quello di calcolare l’errore standard del coefficiente. Il secondo passo è quello di calcolare la statistica t usando la formula
generale del concetto chiave 4.5. Il terzo passo è quello di calcolare il valore-p del test usando
160
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 161 — #191
i
i
5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente
Concetto chiave 5.6: la verifica dell’ipotesi βj = βj,0 contro l’alternativa βj 6= βj,0
1. Si calcoli l’errore standardizzato di β̂j , SE(β̂j ).
2. Si calcoli la statistica t,
t=
β̂j − βj,0
SE(β̂j )
.
(5.14)
3. Si calcoli il valore-p,
valore-p = 2Φ(− tact ),
(5.15)
dove tact è il valore effettivamente calcolato della statistica t. Si rifiuti l’ipotesi al livello di significatività 5%, se il valore-p è minore di 0, 05 oppure, equivalentemente,
se |tact | > 1, 96.
L’errore standard e (tipicamente) la statistica t e il valore-p per l’ipotesi nulla che
βj = 0 sono calcolati automaticaticamente dai software di regressione.
la funzione di ripartizione normale nella tavola 1 dell’appendice finale o, alternativamente,
confrontare la statistica t con il valore critico corrispondente al livello di significatività desiderato del test. Il fondamento teorico di questa procedura è il fatto che, in grandi campioni,
lo stimatore OLS ha una distribuzione normale la cui media, sotto l’ipotesi nulla, è pari al
valore ipotizzato e la cui variazione può essere stimata consistentemente.
Questo fondamento teorico è presente anche nel caso della regressione multipla. Come
affermato nel concetto chiave 5.5, la distribuzione campionaria di β̂j è approssimativamente
normale. Sotto l’ipotesi nulla, la media di questa distribuzione è β j,0 . La varianza di questa
distribuzione può essere stimata in modo consistente. Perciò, per verificare l’ipotesi nulla
(5.13), possiamo semplicemente seguire la stessa procedura del caso di un singolo regressore.
La procedura per verificare un’ipotesi su un singolo coefficiente nella regressione multipla
è riassunta nel concetto chiave 5.6. La statistica t effettivamente calcolata è indicata nel
concetto chiave con tact . Tuttavia, è uso comune indicarla semplicemente con t e adotteremo
questa notazione più snella nel resto della trattazione.
Gli intervalli di confidenza per un singolo coefficiente
Il metodo per costruire un intervallo di confidenza per il modello di regressione multipla è
anch’esso quello per il modello con un singolo regressore. Questo metodo è riassunto nel
concetto chiave 5.7.
Il metodo per condurre un test d’ipotesi nel concetto chiave 5.6 e quello per costruire
161
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 162 — #192
i
i
5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente
un intervallo di confidenza nel concetto chiave 5.7 si fondano sull’approssimazione normale
della distribuzione dello stimatore OLS β̂j valida per grandi campioni. Di conseguenza,
occorre sempre ricordare che questi metodi per quantificare l’incertezza campionaria danno
garanzia di funzionamento solo in grandi campioni.
Applicazione ai punteggi del test e al rapporto
studenti-insegnanti
Possiamo rifiutare l’ipotesi nulla che una variazione nel numero di studenti per insegnante
non abbia alcun effetto sui punteggi del test, dopo aver controllato la percentuale di studenti
non di madrelingua inglese nel distretto? Qual è l’intervallo di confidenza di livello 95% per
l’effetto sui punteggi del test di una variazione nel rapporto studenti-insegnanti, controllando
per la percentuale di studenti non di madrelingua inglese? Siamo ora in grado di scoprirlo. La
regressione dei punteggi su ST R e P ctEL, stimata tramite gli OLS e riportata nella (5.10),
è riproposta qui con gli errori standard in parentesi sotto i coefficienti:
d
T estScore
= 686, 0 − 1, 10 × ST R − 0, 650 × P ctEL.
(8, 7) (0, 43)
(0, 031)
(5.16)
Per verificare l’ipotesi nulla che il vero coefficiente di ST R sia uguale a 0, dobbiamo
prima calcolare la statistica t secondo la (5.14). Poiché l’ipotesi nulla dice che il vero valore
di questo coefficiente è zero, la statistica t è t = (−1, 10 − 0)/0, 43 = −2, 54. Il valorep relativo è 2Φ(−2, 54) = 1, 1%; cioè, il minor livello di significatività al quale possiamo
rifiutare l’ipotesi nulla è 1, 1%. Siccome il valore-p è minore di 5%, l’ipotesi nulla può essere
rifiutata al livello di significatività 5% (ma non al livello di significatività 1%).
Un intervallo di confidenza di livello 95% per il coefficiente di ST R relativo alla popolazione è −1, 10 ± 1, 96 × 0, 43 = (−1, 95, −0, 26); cioè, possiamo essere confidenti al 95%
che il vero valore del coefficiente si situa tra −1, 95 e −0, 26. Interpretato tenendo conto
dell’interesse del provveditore a diminuire di 2 unità il numero di studenti per insegnante,
l’intervallo di confidenza di livello 95% per l’effetto sul punteggio del test di tale riduzione è
(−1, 95 × 2, −0, 26 × 2) = (−3, 90, −0, 52).
Aggiunta delle spese per studente all’equazione. La nostra analisi della regressione multipla (5.16) ha persuaso il provveditore che, in base all’evidenza disponibile, la riduzione nella
dimensione delle classi aiuterà i punteggi del suo distretto. Ora, tuttavia, questi pone una
domanda più articolata. Se deve assumere più insegnanti, può pagarli attraverso tagli nel bilancio (nessun computer nuovo, manutenzione ridotta ecc.) o è necessario un aumento dello
stanziamento di bilancio, cosa che i contribuenti non gradiscono? Qual è, domanda, l’effetto
sui punteggi di una riduzione del rapporto studenti-insegnanti, tenendo costanti le spese per
studente (e la percentuale di studenti non di madrelingua inglese)?
162
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 163 — #193
i
i
5.6. Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente
Concetto chiave 5.7: gli intervalli di confidenza per un singolo regressore
nel modello di regressione multipla
Un intervallo di confidenza bilaterale di livello 95% per il coefficiente β j è un intervallo
che contiene il valore vero di βj con probabilità 95%; in altre parole, esso contiene il vero
valore di βj nel 95% di tutti i campioni che è possibile estrarre. Equivalentemente, è anche
l’insieme di valori di βj che non possono essere rifiutati da un test d’ipotesi bilaterale al
5%. Quando il campione è grande, l’intervallo di confidenza di livello 95% è:
βj = β̂j − 1, 96 SE(β̂j ), β̂j + 1, 96 SE(β̂j ) .
(5.17)
Un intervallo di confidenza di livello 90% si ottiene sostituendo 1, 96 con 1, 645 nella 5.17.
Questa domanda può trovare riposta tramite una regressione dei punteggi del test sul
rapporto studenti-insegnanti, la spesa totale per studente e la percentuale di studenti non di
madrelingua. La retta di regressione degli OLS è
d
T estScore
= 649, 6 − 0, 29 × ST R + 3, 87 × Expn − 0, 656 × P ctEL, (5.18)
(15, 5) (0, 48)
(1, 59)
(0, 032)
dove Expn è la spesa annua totale per studente nel distretto in migliaia di dollari.
Il risultato è sorprendente. Tenendo costante la spesa per studente e la percentuale di
studenti non di madrelingua, la variazione nel rapporto studenti-insegnanti ha un effetto ridottissimo sui punteggi: il coefficiente stimato di ST R è −1, 10 nella (5.16), ma, dopo aver
raggiunto Expn come regressore nella (5.18), è solo −0, 29. Inoltre, la statistica t per la significatività del coefficiente è ora t = (−0, 29 − 0)/0, 48 = −0, 60, cosı̀ l’ipotesi che questo
coefficiente sia, invece, pari a zero non può essere rifiutata neanche al livello di significatività 10% (|−0, 60| < 1, 645). La (5.18) non fornisce quindi alcuna evidenza del fatto che
assumere più insegnanti faccia aumentare i punteggi del test, se la spesa totale per studente è
tenuta costante.
Si noti che l’errore standard di ST R è cresciuto dopo aver aggiunto Expn da 0, 43 nella
(5.16) a 0, 48 nella (5.18). Ciò illustra il risultato generale per cui la correlazione tra i regressori (la correlazione tra ST R e Expn è −0, 62) può rendere meno precisi gli stimatori OLS
(vedi l’appendice 5.2 per ulteriori discussioni).
E il nostro contribuente alterato? Egli sostiene che sia il coefficiente del rapporto studentiinsegnanti (β1 ) sia quello delle spese per gli studenti (β2 ) sono nulli, egli ipotizza cioè che
β1 = 0 e β2 = 0. Sebbene possa sembrare possibile rifiutare tale ipotesi, perché la statistica
t per la verifica di β2 = 0 nella (5.18) è t = 3, 87/1, 59 = 2, 43, questo ragionamento è
163
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 164 — #194
i
i
5.7. Verifica di ipotesi congiunte
viziato. L’ipotesi del contribuente è un’ipotesi congiunta e per verificarla occorre un nuovo
strumento, la statistica F.
5.7 Verifica di ipotesi congiunte
Questa sezione descrive come formulare ipotesi congiunte circa i coefficienti di una regressione multipla e come verificarle tramite una statistica F.
Verifica di ipotesi su due o più coefficienti
Ipotesi nulle congiunte. Si consideri la regressione (5.18) dei punteggi sul rapporto studentiinsegnanti, la spesa per studente e la percentuale di studenti non di madrelingua inglese. Il
nostro contribuente alterato ipotizza che né il rapporto studenti-insegnanti né la spesa per
studente abbiano alcun effetto sui punteggi, dopo aver controllato per la percentuale di studenti non di madrelingua inglese. Poiché ST R è il primo regressore della (5.18) e Expn è il
secondo, possiamo esprimere queste ipotesi in termini matematici come
H0 : β1 = 0 e β2 = 0 contro H1 : β1 6= 0 e/o β2 6= 0.
(5.19)
L’ipotesi che sia il coefficiente del rapporto studenti-insegnanti (β1 ) sia il coefficiente
relativo alla spesa per studente (β2 ) siano nulli è un esempio di ipotesi congiunta circa i coefficienti del modello di regressione multipla. In questo caso, l’ipotesi nulla pone restrizioni
sul valore di due coefficienti, e quindi possiamo dire che l’ipotesi nulla (5.19) impone due
restrizioni al modello di regressione multipla: β1 = 0 e β2 = 0.
In generale, un’ipotesi congiunta è un’ipotesi che impone due o più restrizioni sui coefficienti di regressione. Noi considereremo ipotesi congiunte nulla e alternativa del tipo
H0 : βj = βj,0 , βm = βm,0 ecc., per un totale di q restrizioni, contro
H1 : una o più delle q restrizioni in H0 non vale,
(5.20)
dove βj , βm ecc. si riferiscono a coefficienti di regressione diversi e βj,0 , βm,0 ecc. si
riferiscono ai valori di questi coefficienti sotto l’ipotesi nulla. L’ipotesi nulla (5.19) è un caso
particolare della (5.20). Un altro esempio di ipotesi nulla, in una regressione con k = 6
regressori, è che i coefficienti del secondo, quarto e quinto regressore siano pari a zero; cioè
β2 = 0, β4 = 0 e β5 = 0, cosicché le restrizioni siano q = 3. In generale, sotto l’ipotesi
nulla H0 , ci sono q restrizioni di questo tipo.
Se una (o più di una) delle uguaglianze sotto l’ipotesi nulla H0 nella (5.20) è falsa, allora
l’ipotesi nulla congiunta è falsa. Perciò, l’ipotesi alternativa è che non vale almeno una delle
uguaglianze dell’ipotesi nulla H0 .
164
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 165 — #195
i
i
5.7. Verifica di ipotesi congiunte
Perché non sottoporre a verifica i coefficienti singolarmente? Sebbene sembri possibile
verificare un’ipotesi congiunta usando la solita statistica t per i singoli coefficienti, il calcolo
seguente mostra che questo approccio è inaffidabile. Nello specifico, supponiamo di voler
verificare l’ipotesi nulla congiunta che β1 = 0 e β2 = 0 nella (5.18). Sia t1 la statistica t per
l’ipotesi nulla che β1 = 0 e sia t2 la statistica t per l’ipotesi nulla che β2 = 0. Cosa accade
quando si usa la procedura di verifica “coefficiente per coefficiente”, si rifiuta cioè l’ipotesi
nulla congiunta se t1 oppure t2 è maggiore di 1, 96 in valore assoluto?
Siccome questa domanda riguarda le due variabili casuali t1 e t2 , rispondervi richiede
di caratterizzare la distribuzione campionaria congiunta di t1 e t2 . Come menzionato nella
sezione 5.5, in grandi campioni β̂1 e β̂2 hanno una distribuzione congiunta normale, e quindi,
sotto l’ipotesi nulla congiunta, le statistiche t1 e t2 hanno una distribuzione normale bivariata,
dove ogni statistica t ha media 0 e varianza unitaria.
Per prima cosa, consideriamo il caso speciale in cui le statistiche t sono incorrelate e
quindi indipendenti. Qual è il livello minimo della procedura di verifica “coefficiente per
coefficiente”, ovvero qual è la probabilità di rifiutare l’ipotesi nulla quando questa è vera? Più
del 5%! In questo caso speciale, possiamo calcolare con esattezza la probabilità di rifiuto di
questo metodo. La nulla non è rifiutata solo se |t1 | ≤ 1, 96 e |t2 | ≤ 1, 96. Poiché le statistiche
t sono indipendenti, Pr(|t1 | ≤ 1, 96 e |t2 | ≤ 1, 96) = Pr(|t1 | ≤ 1, 96) × Pr(|t2 | ≤ 1, 96) =
0, 952 = 0, 9025 = 90, 25%. Perciò, la probabilità di rifiutare l’ipotesi nulla quando essa è
vera è 1 − 0, 952 = 9, 75%. Il metodo “coefficiente per coefficiente” rifiuta la nulla troppo
spesso perché offre troppe possibilità per farlo: se non si rifiuta usando la prima statistica t,
potete provare ancora usando la seconda.
Se i regressori sono correlati, la situazione è ancora più complicata. Il livello minimo della
procedura “coefficiente per coefficiente” dipende dal valore della correlazione tra i regressori.
Poiché l’approccio alla verifica “coefficiente per coefficiente” ha il livello minimo errato –
ovvero il suo tasso di rifiuto sotto l’ipotesi nulla non è uguale al livello di significatività
desiderato– è necessario un nuovo approccio.
Un approccio possibile è quello di modificare il metodo “coefficiente per coefficiente”
usando valori critici che assicurino uguaglianza tra il livello minimo del test e il livello di
significatività desiderato. Questo metodo, detto metodo di Bonferroni, è descritto nell’appendice 5.3. Il vantaggio del metodo di Bonferroni è che ha una vasta applicabilità. Il suo
svantaggio è che può avere scarsa potenza: frequentemente non riesce a rifiutare l’ipotesi
nulla, quando in realtà, è vera l’alternativa.
Fortunatamente, c’è un altro approccio per verificare le ipotesi congiunte che ha potenza
maggiore, specialmente quando i regressori sono altamente correlati. Tale approccio è basato
sulla statistica F.
165
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 166 — #196
i
i
5.7. Verifica di ipotesi congiunte
La statistica F
La statistica F è usata per verificare ipotesi congiunte sui coefficienti di regressione. Le
formule per la statistica F sono integrate nei moderni pacchetti di regressione. Cominciamo
col discutere il caso di due restrizioni, per poi passare al caso generale di q restrizioni.
La statistica F con q = 2 restrizioni. Quando l’ipotesi nulla contiene le due restrizioni
β1 = 0 e β2 = 0, la statistica F combina le due statistiche t, cioè t1 e t2 , tramite la formula
1 t21 + t22 − 2ρ̂t1 ,t2 t1 t2
,
(5.21)
F =
2
1 − ρ̂2t1 ,t2
dove ρ̂2t1 ,t2 è uno stimatore della correlazione tra le due statistiche t.
Per comprendere la statistica (5.21), cominciamo supponendo che le statistiche t siano
incorrelate, eliminando cosı̀ i termini che coinvolgono ρ̂2t1 ,t2 . In questo caso, la (5.21) si
semplifica in F = 12 (t21 +t22 ), e quindi la statistica F è la media dei quadrati delle statistiche t.
Sotto l’ipotesi nulla, t1 e t2 sono variabili casuali normali standardizzate indipendenti (perché
le statistiche t sono assunte incorrelate), e quindi sotto l’ipotesi nulla la F si distribuisce
secondo una F2,∞ (sezione 2.4). Sotto l’ipotesi alternativa che β1 o β2 (o entrambi) siano
non nulli, t21 o t22 (o entrambe) sarebbero elevate, portando il test a rifiutare l’ipotesi nulla.
In generale, le statistiche t sono correlate e la formula per la statistica F (5.21) tiene conto
di tale correlazione. L’aggiustamento è tale che, sotto l’ipotesi nulla, la statistica F abbia
distribuzione F2,∞ in grandi campioni, sia che le statistiche t siano correlate o meno.
La statistica F con q restrizioni. La formula della statistica F per verificare le q restrizioni
dell’ipotesi nulla congiunta (5.20) è riportata nella sezione 16.3. Tale formula è incorporata
nei pacchetti di regressione, il che rende la statistica F facile da calcolare nelle applicazioni
pratiche.
Sotto l’ipotesi nulla, la statistica F ha una distribuzione campionaria che, per grandi
campioni, è ben approssimata dalla Fq,∞ . In grandi campioni, cioè, sotto l’ipotesi nulla
la statistica F si distribuisce secondo una Fq,∞ .
(5.22)
Perciò, i valori critici per la statistica F possono essere ottenuti dalla distribuzione F q,∞
della tavola 4 dell’appendice finale, dato il valore di q appropriato e il livello di significatività
desiderato.
Calcolo del valore-p usando la statistica F. Il valore-p della statistica F può essere calcolato usando l’approssimazione per grandi campioni fornita dalla distribuzione chi-quadrato.
Sia F act il valore effettivamente calcolato della statistica F. Poiché la statistica F ha una
distribuzione Fq,∞ , in grandi campioni, sotto l’ipotesi nulla il valore-p è
valore-p = Pr[Fq,∞ > F act ].
(5.23)
166
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 167 — #197
i
i
5.7. Verifica di ipotesi congiunte
Il valore-p nella (5.23) può essere calcolato usando una tavola della distribuzione F q,∞ (o,
alternativamente, una tavola della distribuzione χ2q , perché una variabile casuale distribuita
secondo una χ2q è pari a q volte una variabile casuale distribuita secondo una Fq,∞ ). In
alternativa, il valore-p può essere valutato usando un computer, perché le formule per le
funzioni di ripartizione chi-quadrato e F sono state incluse nei più moderni pacchetti statistici.
La statistica F per l’“intera” regressione. La statistica F per l’“intera” regressione verifica
l’ipotesi congiunta che tutti i coefficienti tranne l’intercetta siano nulli. Per questo motivo, le
ipotesi nulla e alternativa sono
H0 : β1 = 0, β2 = 0, . . . , βk = 0 contro
H1 : βj 6= 0, per almeno un j, con j = 1, . . . , k.
(5.24)
Sotto questa ipotesi nulla, nessuno dei regressori spiega alcunché della variazione in Y i , sebbene l’intercetta (che sotto l’ipotesi nulla è la media di Yi ) possa essere non nulla. L’ipotesi
nulla nella (5.24) è un caso particolare dell’ipotesi nulla generale nella (5.20) e la statistica
F per l’intera regressione è la statistica F calcolata per l’ipotesi nulla nella (5.24). In grandi
campioni, la statistica F dell’intera regressione ha distribuzione Fk,∞ .
La statistica F quando q = 1. Quando q = 1, la statistica F verifica una singola restrizione. L’ipotesi nulla congiunta si riduce allora all’ipotesi nulla su un singolo coefficiente di
regressione e la statistica F è il quadrato della statistica t.
Di nuovo sull’eteroschedasticità e l’omoschedasticità. Si ricordi dalla sezione 4.9 che,
per ragioni storiche, i pacchetti statistici calcolano, talvolta automaticamente, errori standard
classici ed è quindi necessario specificare che si vogliono invece errori standard robusti all’eteroschedasticità. Un problema simile vale anche per la statistica F: per essere sicuri di
utilizzare errori standard robusti all’eteroschedasticità, in alcuni pacchetti di regressione bisogna selezionare l’opzione “robustezza”, in modo che le stime della “matrice di covarianze”
siano robuste. Se si usa la versione classica della statistica F (discussa nell’appendice 5.3) ma
gli errori sono eteroschedastici, la statistica F non avrà sotto l’ipotesi nulla la distribuzione
Fq,∞ , producendo quindi inferenza statistica fuorviante.
Applicazione ai punteggi del test e al rapporto studenti-insegnanti
Siamo ora in grado di verificare l’ipotesi nulla che i coefficienti del rapporto studenti-insegnanti
e della spesa per studente siano entrambi nulli, contro l’alternativa che almeno uno dei coefficienti sia non nullo, controllando al tempo stesso per la percentuale di studenti non di
madrelingua inglese nel distretto.
167
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 168 — #198
i
i
5.8. Verifica di restrizioni singole che coinvolgono coefficienti multipli
Per verificare questa ipotesi, è necessario calcolare la statistica F del test per l’ipotesi che
β1 = 0 e β2 = 0 nella regressione di T estScore su ST R, Expn e P ctEL (5.18). Questa
statistica F è pari a 5, 43. Sotto l’ipotesi nulla, in grandi campioni tale statistica ha distribuzione F2,∞ in grandi campioni. Il valore critico al 5% della distribuzione F2,∞ è 3, 00
(tavola 4 dell’appendice finale) e il valore critico all’1% è 4, 61. Il valore della statistica F
calcolata sui dati, pari a 5, 43, è maggiore di 4, 61, e quindi l’ipotesi può essere rifiutata al
livello 1%. Sarebbe estremamente inverosimile aver estratto il campione che ha prodotto un
valore della statistica F pari a 5, 43, se l’ipotesi nulla fosse effettivamente vera (il valore-p
è 0, 005). Basandoci su questa evidenza, nella (5.18) possiamo rifiutare l’ipotesi del contribuente secondo cui né il rapporto studenti-insegnanti né la spesa per studente hanno effetto
sui punteggi (tenendo costante la percentuale di studenti non di madrelingua inglese).
5.8 Verifica di restrizioni singole che coinvolgono
coefficienti multipli
Talvolta la teoria economica suggerisce una singola restrizione che coinvolge due o più coefficienti di regressione. Per esempio, la teoria potrebbe suggerire un’ipotesi nulla del tipo
β1 = β2 , ovvero che il primo e il secondo regressore hanno lo stesso effetto. In questo caso,
occorre verificare questa ipotesi nulla contro l’alternativa che i due coefficienti differiscano,
ovvero
H0 : β1 = β2 contro H1 : β1 6= β2 .
(5.25)
Questa ipotesi nulla ha una singola restrizione, ovvero q = 1, ma questa restrizione
coinvolge più coefficienti (β1 e β2 ). È necessario modificare il metodo presentato finora
per verificare questa ipotesi. Ci sono due approcci, e quale sia il più semplice dipende dal
pacchetto statistico utilizzato.
Approccio 1: verificare direttamente la restrizione. Alcuni pacchetti statistici hanno un
comando specificamente concepito per verificare restrizioni come quella nella (5.25) e il risultato è una statistica F che, poiché q = 1, ha una distribuzione F 1,∞ sotto l’ipotesi nulla (si
ricordi dalla sezione 2.4 che il quadrato di una variabile casuale normale standardizzata ha
distribuzione F1,∞ e che il 95% percentile della distribuzione F1,∞ è 1, 962 = 3, 84).
Approccio 2: trasformare la regressione. Se il nostro pacchetto statistico non può verificare
la restrizione direttamente, l’ipotesi (5.25) può essere verificata riscrivendo l’equazione di
regressione originale al fine di trasformare la restrizione nella (5.25) in una restrizione su un
singolo coefficiente. Concretamente, supponiamo che ci siano solo due regressori, X 1i e X2i ,
168
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 169 — #199
i
i
5.9. Regioni di confidenza per coefficienti multipli
e che la regressione nella popolazione sia
Yi = β0 + β1 X1i + β2 X2i + ui .
(5.26)
Il trucco è questo: sottraendo e aggiungendo β2 X1i , si ottiene β1 X1i +β2 X2i = β1 X1i −
β2 X1i +β2 X1i +β2 X2i = (β1 −β2 )X1i +β2 (X1i +X2i ) = γ1 X1i +β2 Wi , dove γ1 = β1 −β2
e Wi = X1i + X2i . Cosı̀, la regressione (5.26) può essere riscritta come
Yi = β0 + γ1 X1i + β2 Wi + ui .
(5.27)
Poiché il coefficiente γ1 è pari a γ1 = β1 −β2 , sotto l’ipotesi nulla nella (5.25) γ1 = 0, mentre
sotto l’alternativa γ1 6= 0. Quindi, trasformando la (5.26) nella (5.27), abbiamo trasformato
una restrizione su due coefficienti di regressione in una restrizione su un singolo coefficiente
di regressione.
Poiché la restrizione coinvolge ora il solo coefficiente γ1 , l’ipotesi nulla nella (5.25) può
essere verificata usando il metodo della statistica t descritto nella sezione 5.6. In pratica, si
costruisce prima il nuovo regressore Wi come somma dei due regressori originari e poi si
stima la regressione di Yi su X1i e Wi . Un intervallo di confidenza di livello 95% per la
differenza tra i coefficienti β1 − β2 può essere calcolato come γ̂1 ± 1, 96 SE(γ̂1 ).
Questo metodo può essere esteso ad altre restrizioni sulle equazioni di regressione, usando
lo stesso trucco (si veda l’esercizio 5.8).
I due metodi (gli approcci 1 e 2) sono equivalenti, nel senso che la statistica F del primo
metodo è uguale alla statistica t del secondo.
Estensione al caso di q > 1. In generale, è possibile avere q restrizioni sotto l’ipotesi nulla,
di cui tutte o solo alcune coinvolgono più coefficienti. La statistica F della sezione 5.7 si
estende a questo tipo di ipotesi congiunta. La statistica F può essere calcolata con ciascuno
dei due approcci appena discussi per il caso q = 1. In pratica, l’approccio migliore dipende
dal pacchetto di regressione che si usa.
5.9 Regioni di confidenza per coefficienti multipli
Questa sezione spiega come costruire una regione di confidenza per due o più coefficienti
di una regressione multipla. Il metodo è concettualmente simile al metodo esposto nella
sezione 5.6 per la costruzione di intervalli di confidenza per un singolo coefficiente usando la
statistica t, eccetto che la regione di confidenza per più coefficienti è basata sulla statistica F.
Una regione di confidenza di livello 95% per due o più coefficienti è una regione che
contiene i veri valori di questi coefficienti nel 95% dei campioni estratti casualmente dalla
popolazione. Perciò, una regione di confidenza è la generalizzazione al caso di due o più
coefficienti di un intervallo di confidenza per un singolo coefficiente.
169
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 170 — #200
i
i
5.9. Regioni di confidenza per coefficienti multipli
Figura 5.1: regione di confidenza al 95% per β1 e β2
β2
9
8
7
6
5
4
3
Regione di confidenza al 95%
2
1
0
-1
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
β1
La regione di confidenza al 95% per β1 e β2 è un’ellisse. L’ellisse contiene le coppie di valori di β1 e β2 che
non possono essere rifiutate usando la statistica F al livello di significatività 5%.
Si ricordi che un intervallo di confidenza al 95% si calcola trovando l’insieme dei valori
dei coefficienti che non sono rifiutati da un test t al livello di significatività 5%. Questo
approccio può essere esteso al caso di coefficienti multipli. In concreto, supponiamo di essere
interessati alla costruzione di una regione di confidenza per i due coefficienti, β 1 e β2 . La
sezione 5.7 ha mostrato come usare la statistica F per verificare l’ipotesi nulla congiunta
che β1 = β1,0 e β2 = β2,0 . Supponiamo di dover verificare ogni possibile valore di β1,0
e β2,0 al livello 5%. Per ogni coppia di valori di prova (β1,0 , β2,0 ), costruiamo la statistica
F e rifiutiamo se è maggiore di 3, 00, il valore critico al 5%. Poiché il test ha livello di
significatività 5%, i veri valori di β1 e β2 nella popolazione non saranno rifiutati nel 95% di
tutti i campioni. Perciò, l’insieme dei valori non rifiutati al livello 5% tramite questa statistica
F costituisce una regione di confidenza di livello 95% per β1 e β2 .
Sebbene il metodo di provare tutti i valori possibili di β1,0 e β2,0 funzioni in teoria, in
pratica è molto più semplice usare una formula esplicita per la regione di confidenza. La
Electronic
Publishing
Servicesè basata
Inc. sulla statistica F della sezione 16.3.
formula per un numero
arbitrario
di coefficienti
Econometrics
1e
Quando ci sonoStock/Watson,
due coefficienti, le
regioni di confidenza
sono ellittiche.
STOC.ITEM.0019
Come illustrazione, la figura 5.1 mostra una regione di confidenza al 95% (ellisse di conFig. 05.01
fidenza) per i coefficienti
del rapporto studenti-insegnanti e della spesa per studente, tenendo
costante la percentuale
studenti non di
madrelingua
inglese,
basata sulla regressione
sti1stdiProof
2nd
Proof
3rd Proof
Final
170
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 171 — #201
i
i
5.10. Altre statistiche di regressione
mata (5.18). Questa ellisse non include il punto (0, 0). Ciò significa che l’ipotesi nulla che
questi due coefficienti siano entrambi nulli è rifiutata tramite la statistica F al livello di significatività 5%, cosa che già conosciamo dalla sezione 5.7. L’ellisse di confidenza somiglia a
un salsicciotto rigonfio con la parte lunga orientata in direzione basso-sinistra/alto-destra. La
ragione di tale orientamento è che la correlazione stimata tra β̂1 e β̂2 è positiva, il che deriva
a sua volta dalla correlazione negativa tra ST R e Expn (le scuole che spendono di più per
gli studenti tendono ad avere meno studenti per insegnante).
5.10 Altre statistiche di regressione
Tre statistiche descrittive comunemente usate nella regressione multipla sono l’errore standard di regressione, l’R2 di regressione e l’R2 corretto (anche noto come R̄2 ). Tutte e tre le
statistiche misurano la bontà con cui la stima OLS della retta di regressione multipla descrive,
o “si adatta a”, i dati.
L’errore standard della regressione (SER)
L’errore standard della regressione stima la deviazione standard dell’errore u i . L’SER è
una misura della dispersione della distribuzione di Y attorno alla retta di regressione. Nella
regressione multipla, l’SER è
n
SER = sû , dove
sû2
X
1
SSR
,
=
ûi =
n − k − 1 i=1 2 n − k − 1
(5.28)
P
dove SSR è la somma dei quadrati dei residui, cioè SSR = ni=1 û2i . La sola differenza tra
la definizione (5.28) e la definizione dell’SER nella sezione 4.8 per il modello con un solo
regressore è che qui il divisore è n − k − 1, invece di n − 2. Nella sezione 4.8, il divisore
n − 2 (invece di n) corregge la distorsione verso il basso dovuta alla stima di due coefficienti
(la pendenza e l’intercetta della retta di regressione). Qui, il divisore n − k − 1 corregge
la distorsione verso il basso introdotta dalla stima di k + 1 coefficienti (i k coefficienti più
l’intercetta). Come nella sezione 4.8, l’uso di n − k − 1 invece di n è detta correzione per
i gradi di libertà. Se ci fosse un singolo regressore, allora k = 1 e la formula nella sezione
4.8 coinciderebbe con la (5.28). Quando n è grande, l’effetto della correzione per i gradi di
libertà è trascurabile.
L’R2
L’R2 di regressione è la frazione della varianza campionaria di Yi spiegata (o prevista) dai
regressori. Equivalentemente, l’R2 è pari a uno meno la frazione della varianza di Yi non
spiegata dai regressori.
171
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 172 — #202
i
i
5.10. Altre statistiche di regressione
La definizione matematica dell’R2 è la stessa che per la regressione con un singolo
regressore:
ESS
SSR
R2 =
=1−
,
(5.29)
T SS
T SS
Pn
dove la somma dei quadrati spiegata è ESS = i=1 (Ŷi − Ȳ )2 e la somma totale dei quadrati
Pn
totale è T SS = i=1 (Yi − Ȳ )2 .
Nella regressione multipla, l’R2 cresce ogni volta che viene aggiunto un regressore, a
meno che il nuovo regressore non sia perfettamente collineare con i regressori originari. Immaginiamo di iniziare con un regressore e poi di aggiungerne un secondo. Quando si usano
gli OLS per stimare il modello con entrambi i regressori, si individuano i valori dei coefficienti che minimizzano la somma dei quadrati dei residui. Se il coefficiente stimato del nuovo
regressore fosse esattamente pari a zero, l’SSR non cambierebbe rispetto al caso in cui tale
regressore non fosse incluso nella regressione. Se però il coefficiente stimato fosse diverso da
zero, allora l’SSR diminuirebbe rispetto alla regressione che esclude tale regressore. In pratica, è estremamente infrequente che un coefficiente stimato sia esattamente pari a zero, perciò
in generale l’SSR diminuisce quando si aggiunge un nuovo regressore. Questo significa che,
in generale, l’R2 cresce (e mai decresce), quando si aggiunge un nuovo regressore.
L’R2 “corretto”
Poiché l’R2 cresce ogni volta che si aggiunge una nuova variabile alla regressione, un aumento dell’R2 non significa che aggiungere tale variabile migliora effettivamente l’adattamento
del modello. In questo senso, l’R2 fornisce una stima in eccesso della bontà della regressione. Un modo per correggere questo effetto è deflazionare o ridurre l’R 2 , e questo è proprio
quello che fa l’R2 corretto o R̄2 .
L’R2 corretto, o R̄2 , è una versione modificata dell’R2 che non cresce necessariamente
quando si aggiunge un nuovo regressore. La sua formula è
R̄2 = 1 −
s2
n − 1 SSR
= 1 − 2û .
n − k − 1 T SS
sY
(5.30)
La differenza tra questa formula e la (5.29) è che il rapporto tra la somma dei quadrati dei
residui e la somma dei quadrati totale é moltiplicato per il fattore (n − 1)/(n − k − 1). Come
mostra la seconda uguaglianza nella (5.30), questo rende l’R 2 corretto pari a uno meno il
rapporto tra la varianza campionaria dei residui OLS (con la correzione per i gradi di libertà
della (5.28)) e la varianza campionaria di Y .
Ci sono tre concetti utili che riguardano l’R̄2 . In primo luogo, (n − 1)/(n − k − 1) è
sempre maggiore di uno, perciò R̄2 è sempre minore di R2 .
In secondo luogo, l’aggiunta di un regressore ha due effetti opposti sull’ R̄2 . Da un lato,
l’SSR decresce, il che incrementa l’R̄2 . Dall’altro, il fattore (n − 1)/(n − k − 1) aumenta.
Se l’R̄2 cresce o decresce dipende da quale dei due effetti è più forte.
172
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 173 — #203
i
i
5.10. Altre statistiche di regressione
In terzo luogo, l’R̄2 può essere negativo. Questo accade quando i regressori, presi nel
complesso, riducono la somma dei quadrati dei residui di un ammontare cosı̀ piccolo da non
bilanciare il fattore (n − 1)/(n − k − 1).
Interpretazione pratica dell’R2 e dell’R2 corretto
Se l’R2 o l’R̄2 sono prossimi a uno, ciò significa che i regressori predicono bene il valore
della variabile dipendente nel campione, mentre, se l’R 2 o l’R̄2 tendono a zero, ciò significa
che non lo fanno. Questo rende le due statistiche utili indici dell’abilità predittiva della regressione. Tuttavia, è facile leggere in queste due statistiche più di quanto esse effettivamente
comunichino.
Ci sono quattro potenziali problemi da cui guardarsi quando si usa l’R 2 o l’R̄2 .
1. Un aumento dell’R2 , o dell’R̄2 , non significa necessariamente che la variabile
aggiunta sia statisticamente significativa. L’R 2 cresce ogni volta che si aggiunge
un regressore, sia esso statisticamente significativo o meno. L’R̄2 non cresce in ogni
occasione, ma se aumenta non vuol dire necessariamente che il coefficiente del regressore aggiunto sia statisticamente significativo. Per accertarsi della significatività di una
variabile aggiunta, è necessario condurre un test d’ipotesi usando la statistica t.
2. Un R2 , o un R̄2 , elevato non implica che i regressori siano la vera causa della
variabile dipendente. Si immagini di effettuare una regressione dei punteggi del test
sull’area di parcheggio per studente. L’area riservata al parcheggio è correlata con
il rapporto studenti-insegnanti, con il fatto che la scuola sia in periferia o in città e
probabilmente con il reddito del distretto –tutte cose correlate con i punteggi. Perciò,
la regressione dei punteggi del test sull’area di parcheggio per studente, potrebbe avere
R2 o R̄2 elevati, ma la relazione non è causale (provate a dire al provveditore che per
migliorare i punteggi bisogna ingrandire i parcheggi!).
3. Un R2 , o un R̄2 , elevato non implica che non vi sia distorsione da variabile omessa. Si ricordi la discussione della sezione 5.1 riguardante la distorsione da variabile
omessa nella regressione dei punteggi del test sul rapporto studenti-insegnanti. L’R 2
di regressione non è stato mai menzionato perché non giocava alcun ruolo logico nella
discussione. La distorsione da variabile omessa può essere presente in regressioni con
un basso R2 , un moderato R2 o un alto R2 . Di contro, un basso R2 non implica che ci
sia necessariamente una distorsione da variabile omessa.
4. Un R2 , o un R̄2 , elevato non significa necessariamente che abbiamo scelto l’insieme di regressori più appropriato, né un basso R2 , o R̄2 , implica che ne abbiamo
scelto uno inappropriato. La discussione di quale sia l’insieme di regressori appropriato in una regressione multipla è complessa e vi ritorneremo nel corso del libro. Le
173
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 174 — #204
i
i
5.11. Distorsione da variabile omessa e regressione multipla
Concetto chiave 5.8: l’R2 e l’R̄2 : cosa ci dicono e cosa non ci dicono
L’R2 e l’R̄2 ci dicono se i regressori sono idonei a prevedere, o a “spiegare” i valori della
variabile dipendente nel campione di dati a disposizione. Se l’R 2 (o l’R̄2 ) tende a uno, i
regressori producono delle buone previsioni della variabile dipendente in quel campione,
nel senso che la varianza dei residui OLS è piccola rispetto alla varianza della variabile
dipendente. Se l’R2 (o l’R̄2 ) tende a zero, è vero il contrario.
L’R2 e l’R̄2 NON ci dicono se:
1. una variabile inclusa è statisticamente significativa;
2. i regressori sono causa effettiva dei movimenti della variabile dipendente;
3. c’è una distorsione da variabile omessa;
4. abbiamo scelto il gruppo di regressori più appropriato.
decisioni riguardanti i regressori debbono tenere conto di questioni di distorsione da
variabile omessa, disponibilità dei dati, qualità dei dati e, cosa più importante, della
teoria economica e della natura delle domande alle quali si vuole dare risposta. A nessuna di queste questioni si può rispondere semplicemente presentando un R 2 , o un R̄2 ,
di regressione alto o basso.
Questi punti sono riassunti nel concetto chiave 5.8.
5.11 Distorsione da variabile omessa
e regressione multipla
Gli stimatori OLS dei coefficienti di una regressione multipla soffriranno di distorsione da
variabile omessa se una determinante omessa di Yi è correlata con almeno uno dei regressori.
Ad esempio, studenti provenienti da famiglie più ricche hanno spesso maggiori opportunità
di apprendimento extrascolastico di studenti provenienti da famiglie meno agiate, questo può
far sı̀ che essi ottengano punteggi più alti nei test. Inoltre, se il distretto è ricco, le scuole tenderanno ad avere risorse maggiori e rapporti studenti-insegnanti inferiori. Se cosı̀, la
ricchezza degli studenti e il rapporto studenti-insegnanti sarebbero negativamente correlati e la stima OLS del coefficiente del rapporto studenti-insegnanti catturerebbe l’effetto del
reddito medio del distretto, anche dopo aver controllato per la percentuale di studenti non
di madrelingua inglese. In breve, omettere la condizione economica degli studenti potrebbe
174
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 175 — #205
i
i
5.11. Distorsione da variabile omessa e regressione multipla
Concetto chiave 5.9: la distorsione da variabile omessa nella regressione multipla
La distorsione da variabile omessa è la distorsione dello stimatore OLS che nasce quando
uno o più tra i regressori inclusi sono correlati con una variabile omessa. Perché si abbia
distorsione da variabile omessa, debbono valere due condizioni:
1. almeno uno dei regressori inclusi deve essere correlato con la variabile omessa;
2. la variabile omessa deve essere una determinante della variabile dipendente Y .
determinare una distorsione da variabile omessa nella regressione dei punteggi sul rapporto
studenti-insegnanti e la percentuale di studenti non di madrelingua inglese.
Le condizioni generali perché vi sia distorsione da variabile omessa in una regressione
multipla sono simili a quelle che valgono per il caso di un solo regressore: se una variabile
omessa è una determinante di Yi e se è correlata con almeno uno dei regressori, allora gli
stimatori OLS soffrono di distorsione da variabile omessa. Come discusso nella sezione 5.6,
gli stimatori OLS sono correlati, e quindi, in generale, gli stimatori OLS di tutti i coefficienti
saranno distorti. Le due condizioni per la distorsione da variabile omessa nella regressione
multipla sono riassunte nel concetto chiave 5.9.
A livello matematico, se le due condizioni per la distorsione da variabile omessa sono
soddisfatte, allora almeno uno dei regressori è correlato con l’errore. Questo significa che
l’aspettativa condizionata di ui date X1i , . . . , Xki non è nulla, e quindi la prima assunzione
dei minimi quadrati è violata. Di conseguenza, la distorsione da variabile omessa persiste
anche se la dimensione campionaria è elevata; la distorsione da variabile omessa determina
cioè l’inconsistenza degli stimatori OLS.
Specificazione del modello in teoria e in pratica
In teoria, quando sono disponibili dati sulla variabile omessa, la soluzione al problema della
distorsione è quella di includere la variabile omessa nella regressione. In pratica, tuttavia,
decidere se includere una particolare variabile può essere difficile e richiede giudizio.
Il nostro approccio alla sfida rappresentata dalla potenziale omissione di variabili è duplice. In primo luogo, si dovrebbe scegliere un nucleo o insieme di base di regressori, usando
una combinazione di esperienza, teoria economica e conoscenza di come i dati sono stati
raccolti; la regressione che utilizza questo insieme essenziale di regressori è talvolta detta
specificazione di base. Tale specificazione dovrebbe contenere le variabili di interesse primario e le variabili di controllo suggerite dall’esperienza e dalla teoria economica. Questi
due fattori, tuttavia, raramente sono decisivi e spesso le variabili suggerite dalla teoria econo175
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 176 — #206
i
i
5.12. Analisi dei dati sui punteggi del test
mica non sono quelle per le quali sono disponibili i dati. Perciò, il passo successivo è quello
di sviluppare un elenco di possibili specificazioni alternative, ovvero un insieme alternativo di regressori. Se le stime dei coefficienti di interesse sono numericamente simili nelle
diverse specificazioni alternative, questo costituisce evidenza del fatto che le stime derivanti
dalla specificazione di base sono affidabili. Se, d’altro canto, le stime dei coefficienti d’interesse cambiano sostanzialmente tra le varie specificazioni, ciò è spesso sintomo del fatto
che la specificazione originale soffre di distorsione da variabile omessa. Utilizzeremo questo approccio nella specificazione del modello della sezione 7.2, dopo aver studiato alcuni
strumenti importanti per la specificazione di un modello di regressione.
5.12 Analisi dei dati sui punteggi del test
Questa sezione presenta un’analisi dell’effetto sui punteggi del test del rapporto studentiinsegnanti usando i dati della California. Il nostro principale proposito è quello di fornire
un esempio in cui l’analisi di regressione multipla è utilizzata per mitigare la distorsione da
variabile omessa. Il nostro obiettivo secondario è quello di mostrare come utilizzare una
tabella per riassumere i risultati delle regressioni.
La nostra analisi si concentra sulla stima dell’effetto sui punteggi del test della variazione
nel rapporto studenti-insegnanti, tenendo costanti le caratteristiche degli studenti che il provveditore non è in grado di controllare. In precedenza, in questo capitolo, abbiamo stimato
regressioni che includevano sia il rapporto studenti-insegnanti sia la spesa per studente. Il
coefficiente del rapporto studenti-insegnanti in tali regressioni era l’effetto di una variazione
di questo rapporto tenendo costante la spesa per studente e le nostre stime suggerivano che
questo effetto è piccolo e non significativamente diverso da zero. Le regressioni qui riportate
non includono la spesa per studente, cosı̀ l’effetto stimato del rapporto studenti per insegnanti
non tiene costante la spesa per studente.
Molti fattori possono potenzialmente influenzare il punteggio medio del test in un distretto. Alcuni di questi fattori sono correlati con il rapporto studenti-insegnanti, e quindi
ometterli dalla regressione determinerà distorsione da variabile omessa. Se sono disponibili dati su queste variabili omesse, la soluzione al problema è quella di includerli come
regressori aggiuntivi nella regressione multipla. Se si fa questo, il coefficiente del rapporto
studenti-insegnanti misura l’effetto di una variazione di tale rapporto tenendo costanti questi
altri fattori.
Consideriamo ora tre variabili che catturano le caratteristiche degli studenti che potrebbero influenzare i punteggi. Una di queste variabili di controllo, già usata in precedenza, è la
frazione di studenti non di madrelingua inglese. Le altre due variabili sono nuove e controllano per le condizioni economiche degli studenti. I dati non contengono una misura precisa
delle condizioni economiche, e quindi usiamo due indicatori imperfetti di reddito basso nel
176
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 177 — #207
i
i
5.12. Analisi dei dati sui punteggi del test
Figura 5.2: grafici a nuvola dei punteggi del test su tre caratteristiche dello studente
Punteggio test
Punteggio test
720
720
700
700
680
680
660
660
640
640
620
620
600
0
25
50
75
100
600
0
25
Percentuale
(a) Percentuale di studenti
che stanno apprendendo l’inglese
50
75
100
Percentuale
(b) Percentuale di aventi diritto
al sussidio mensa
Punteggio test
720
700
680
660
640
620
600
0
(c)
25
50
75
100
Percentuale
Percentuale di aventi diritto a un sostegno del reddito
I grafici a nuvola mostrano una relazione negativa tra punteggi del test e (a) percentuale di studenti che apprendono l’inglese (correlazione = −0, 64), (b) percentuale di studenti aventi diritto al sussidio mensa (correlazione
= −0, 87) e (c) percentuale di aventi diritto a un sostegno del reddito (correlazione = −0, 63).
distretto. Il primo indicatore è la percentuale di studenti che hanno diritto al sussidio mensa
totale o parziale. Gli studenti risultano idonei per tale programma di diritto, se il loro reddito
familiare è inferiore a una certa soglia (approssimativamente pari al 150% della linea di povertà). Il secondo indicatore è la percentuale di studenti nel distretto la cui famiglia è idonea
per il programma di pubblica assistenza sul reddito dello stato della California. Se una famiglia sia idonea per questo tipo di sussidi sul reddito dipende in parte dal reddito familiare, ma
la soglia è inferiore rispetto a quella per il sussidio mensa. Questi due indicatori misurano,
perciò, la frazione
di bambini
economicamente
del distretto; anche se essi sono
Electronic
Publishing
Servicessvantaggiati
Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0020
Fig. 05.02
1st Proof
i
i
2nd Proof
177
3rd Proof
Final
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 178 — #208
i
i
5.12. Analisi dei dati sui punteggi del test
legati, non sono perfettamente correlati (il loro coefficiente di correlazione è 0, 74). Sebbene
la teoria suggerisca che la condizione economica possa essere un fattore omesso importante,
la teoria e l’esperienza non ci aiutano a scegliere quale tra queste due variabili (la percentuale
che ha diritto al sussidio mensa o la percentuale che ha diritto al sussidio sul reddito) sia la
miglior misura della condizione economica. Per la nostra specificazione di base, scegliamo la
percentuale di aventi diritto al pranzo gratuito come indicatore della condizione economica,
ma considereremo anche una specificazione alternativa che include entrambi gli stimatori.
I grafici a nuvola dei punteggi del test e di queste variabili sono presentati nella figura 5.2.
Ciascuna di queste variabili mostra una correlazione negativa con il punteggio del test: la correlazione tra punteggi e percentuale di studenti non di madrelingua inglese è −0, 46; tra punteggi e percentuale di aventi diritto al pranzo gratuito è −0, 87; e tra punteggi e percentuale
di idonei al sussidio sul reddito è −0, 63.
Abbiamo ora un problema di presentazione. Qual è il modo migliore per mostrare i
risultati di molte regressioni multivariate che contengono sottoinsiemi diversi dei possibili
regressori? Finora abbiamo presentato i risultati delle regressioni riportando le equazioni di
regressione stimate, come nel caso della (5.18). Questo approccio è fattibile quando ci sono
solo pochi regressori e poche equazioni, ma con un numero di regressori ed equazioni questo
metodo di presentazione può portare a confusione. Un modo migliore di presentare i risultati
delle regressioni è quello di tabularli.
La tabella 5.2 riassume i risultati delle regressioni dei punteggi del test sui vari insiemi di
regressori. Ogni colonna rappresenta una regressione separata. Tutte le regressioni hanno la
stessa variabile dipendente, il punteggio del test. Le voci delle prime 5 righe sono i coefficienti di regressione stimati, con i rispettivi errori standard riportati in parentesi. Gli asterischi
indicano se la statistica t, verificando l’ipotesi che il coefficiente rilevante sia nullo, è significativa al livello 5% (1 asterisco) o 1% (2 asterischi). Le tre righe finali contengono statistiche
sintetiche della regressione (l’errore standard della regressione o SER, e l‘R 2 corretto o R̄2 )
e la dimensione campionaria (che è la stessa per tutte le regressioni, 420 osservazioni).
Tutte le informazioni che abbiamo presentato finora in forma di equazione appaiono in
una delle colonne di questa tabella. Ad esempio, consideriamo la regressione del punteggio
del test sul rapporto studenti-insegnanti, senza variabili di controllo. In forma di equazione,
tale regressione appare come
d
T estScore
= 698, 9 − 2, 28 × ST R, R̄2 = 0, 049, SER = 19, 26, n = 420.
(10, 4) (0, 52)
(5.31)
Tutte queste informazioni compaiono nella colonna (1) della tabella 5.2. Il coefficiente stimato del rapporto studenti-insegnanti (−2, 28) compare nella prima riga di numeri e l’errore
standard corrispondente (0, 52) è riportato appena sotto il coefficiente stimato. L’intercetta
(698, 9) e il suo errore standard (10, 4) sono riportati nella riga indicata come “intercetta”
(talvolta si può trovare tale riga indicata come “costante”, perché, come discusso nella sezio178
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 179 — #209
i
i
5.12. Analisi dei dati sui punteggi del test
ne 5.2, l’intercetta può essere considerata come il coefficiente di un regressore che è sempre
pari a uno). Similmente, l’R̄2 (0,049), l’SER (18,58) e la dimensione campionaria n (420)
appaiono nella riga finale. Le posizioni vuote della tabella indicano che i corrispondenti
regressori non sono inclusi in questa regressione.
Sebbene la tabella non riporti le statistiche t, queste possono essere calcolate grazie all’informazione fornita; ad esempio, la statistica t per verificare l’ipotesi che il coefficiente
del rapporto studenti-insegnanti della colonna (1) sia nullo è pari a −2, 28/0, 52 = −4, 38.
Questa ipotesi è rifiutata al livello 1%, il che è indicato dal doppio asterisco posto accanto al
coefficiente stimato nella tavola.
Le regressioni che includono le variabili di controllo che misurano le caratteristiche degli studenti sono riportate nelle colonne (2)–(5). La colonna (2), che riporta la regressione
dei punteggi del test sul rapporto studenti-insegnanti e sulla percentuale di studenti non di
madrelingua, corrisponde alla (5.16).
La colonna (3) presenta la specificazione di base, in cui i regressori sono il rapporto
studenti-insegnanti e due variabili di controllo, la percentuale di studenti non di madrelingua
inglese e la percentuale di studenti aventi diritto al sussidio mensa.
Le colonne (4) e (5) presentano specificazioni alternative che esaminano l’effetto di variazioni nel modo in cui viene misurata la condizione economica degli studenti. Nella colonna
(4), si include come regressore la percentuale di studenti la cui famiglia rientra nel programma di assistenza pubblica, mentre nella colonna (5) sono incluse entrambe le variabili relative
alla condizione economica.
Tali risultati suggeriscono tre conclusioni.
1. Controllare per queste caratteristiche degli studenti riduce l’effetto del rapporto studentiinsegnanti sui punteggi di circa la metà. L’effetto stimato non è molto sensibile alle
variabili di controllo specifiche incluse nella regressione. In tutti i casi, il coefficiente del rapporto studenti-insegnanti rimane statisticamente significativo al livello 5%.
Nelle quattro specificazioni con variabili di controllo, le regressioni (2)–(5), ridurre il
rapporto studenti-insegnanti di uno studente per insegnante si stima aumenti il punteggio medio del test di approssimativamente un punto, tenendo costanti le caratteristiche
dello studente.
2. Le variabili che rappresentano le caratteristiche dello studente sono predittori molto
utili dei punteggi. Il rapporto studenti-insegnanti da solo spiega una frazione piccola
della variazione nei punteggi del test: l’R̄2 nella colonna (1) è 0, 049. L’R̄2 aumenta,
tuttavia, in modo sostanziale, quando vengono aggiunte le caratteristiche dello studente. Ad esempio, l’R̄2 della specificazione di base, regressione (3), è 0, 773. Il segno
dei coefficienti delle variabili demografiche degli studenti è coerente con l’andamento
osservato nella figura 5.2: i distretti con molti studenti non di madrelingua e i distretti
con molti bambini poveri ottengono punteggi più bassi nel test.
179
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 180 — #210
i
i
5.13. Conclusioni
Tabella 5.2: risultati delle regressioni dei punteggi del test sul rapporto studenti-insegnanti
e su altre variabili che controllano per le caratteristiche degli studenti usando
i dati relativi ai distretti scolasti elementari della California
Variabile dipendente: media dei punteggi del test nel distretto.
Regressore
Rapporto studenti-insegnanti
(X1 )
% studenti
non di madrelingua (X2 )
% aventi diritto
al sussidio mensa (X3 )
% studenti nel programma
di assistenza pubblica (X4 )
Intercetta
(1)
(2)
(3)
(4)
(5)
−2, 28∗∗
(-0,52)
−1, 10∗
(0,43)
−0, 650∗∗
(0,031)
−1, 00∗∗
(0,27)
−0, 122∗∗
(0,033)
−0, 547∗∗
(0,024)
−1, 31∗∗
(0,34)
−0, 488∗∗
(0,030)
−1, 01∗∗
(0,27)
−0, 130∗∗
(0,036)
−0, 529∗∗
(0,038)
0.048
(0,059)
700, 4∗∗
(5,5)
9,08
0,773
420,0
698, 9∗∗
(10,4)
686, 0∗∗
(8,7)
700, 2∗∗
(5,6)
−0.790∗∗
(0,068)
698, 0∗∗
(6,9)
18,58
0,049
420,0
14,46
0,424
420,0
9,08
0,773
420,0
11,65
0,626
420,0
Statistiche descrittive
SER
R̄2
n
Queste regressioni sono state stimate utilizzando i dati relativi ai distretti scolastici K-8, descritti nell’appendice 4.1, della California. Gli errori standard sono mostrati in parentesi sotto i coefficienti. Il coefficiente
è significativo al livello ∗ 5% o ∗∗ 1% utilizzando un test bilaterale.
3. Le variabili di controllo non sono sempre statisticamente significative: nella specificazione (5), l’ipotesi che il coefficiente della percentuale degli aventi diritto al sussidio
sul reddito sia nulla non è rifiutata al livello 5% (la statistica t è −0, 82). Poiché aggiungere tale variabile di controllo alla specificazione di base (3) ha un effetto trascurabile
sul coefficiente stimato e il suo errore standard e poiché il coefficiente di questa variabile di controllo non è significativo nella specificazione (5), tale variabile di controllo
addizionale è ridondante, almeno ai fini di quest’analisi.
5.13 Conclusioni
Questo capitolo era cominciato con una nota di monito: nella regressione dei punteggi del
test sul rapporto studenti-insegnanti, caratteristiche omesse degli studenti che influenzano i
punteggi del test potrebbero essere correlate con il rapporto studenti-insegnanti nel distretto
180
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 181 — #211
i
i
Sommario
e, se cosı̀, il rapporto studenti-insegnanti nel distretto catturerebbe l’effetto sui punteggi di tali
caratteristiche omesse. Perciò, lo stimatore OLS potrebbe soffrire di distorsione da variabile
omessa. Per mitigare questa potenziale distorsione, abbiamo incluso nella regressione una
serie di variabili al fine di controllare per varie caratteristiche degli studenti (la percentuale di
studenti non di madrelingua inglese e due misure della condizione economica degli studenti).
In questo modo, l’effetto stimato di una variazione unitaria del rapporto studenti-insegnanti si
riduce della metà, sebbene rimanga possibile rifiutare al 5% l’ipotesi che l’effetto sui punteggi
del test, tenendo costanti queste altre variabili di controllo, sia nullo. Poiché queste variabili
di controllo eliminano la distorsione da variabile omessa che deriva dall’ignorare le caratteristiche degli studenti, queste stime basate sulla regressione multipla (e i relativi intervalli di
confidenza), sono molto più utili per il provveditore delle stime con un solo coefficiente del
capitolo 4.
L’analisi di questo capitolo partiva dal presupposto che la funzione di regressione della
popolazione fosse lineare nei regressori, ovvero che l’aspettativa di Y i dati i regressori fosse
una linea retta. Non c’è, tuttavia, alcuna ragione particolare per pensare che sia cosı̀. In realtà,
l’effetto di ridurre il rapporto studenti-insegnanti potrebbe essere molto diverso tra i distretti
con classi numerose e quelli che hanno già classi piccole. Se cosı̀, la retta di regressione
della popolazione è non lineare nelle X, ma è invece una funzione non lineare delle X. Per
estendere la nostra analisi alle funzioni di regressione che sono non lineari nelle X, tuttavia,
abbiamo bisogno degli strumenti che saranno sviluppati nel prossimo capitolo.
Sommario
1. La distorsione da variabile omessa si verifica quando una variabile omessa (1) è correlata con un regressore incluso e (2) è una determinante di Y .
2. Il modello di regressione multipla è un modello di regressione lineare che include più
regressori, X1 , X2 , . . . , Xk . A ciascun regressore è associato un coefficiente di regressione, β1 , β2 , . . . , βk . Il coefficiente β1 rappresenta la variazione attesa di Y associata a
una variazione unitaria di X1 , tenendo costanti gli altri regressori. Gli altri coefficienti
di regressione hanno un’analoga interpretazione.
3. I coefficienti del modello di regressione multipla possono essere stimati tramite gli
OLS. Quando valgono le quattro assunzioni dei minimi quadrati contenute nel concetto
chiave 5.4, gli stimatori OLS sono non distorti, consistenti e normalmente distribuiti in
grandi campioni.
4. Le verifiche di ipotesi e la costruzione di intervalli di confidenza per un singolo coefficiente di regressione sono ottenute usando essenzialmente le stesse procedure usate nel
modello di regressione lineare a una variabile del capitolo 4. Ad esempio, un intervallo
di confidenza di livello 95% per β1 è dato da β̂1 ± 1, 96 SE(β̂1 ).
181
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 182 — #212
i
i
Sommario
5. Ipotesi che coinvolgono più di una restrizione sui coefficienti sono note come ipotesi
congiunte. Le ipotesi congiunte possono essere verificate usando una statistica F .
6. L’errore standard della regressione, l’R 2 e l’R̄2 sono statistiche descrittive per il modello di regressione multipla.
Termini chiave
distorsione da variabile omessa (143)
modello di regressione multipla (149)
retta di regressione della popolazione (149)
funzione di regressione
della popolazione (149)
intercetta (149)
coefficiente di X1i (149)
variabile di controllo (149)
effetto parziale (150)
modello di regressione multipla
della popolazione (150)
omoschedasticità (151)
eteroschedasticità (151)
stimatori OLS di β0 , β1 , . . . , βk (152)
retta di regressione OLS (152)
valore predetto (152)
residui OLS (153)
collinearità perfetta (156)
collinearità imperfetta (158)
restrizioni (164)
ipotesi congiunte (164)
statistica F (166)
regione di confidenza di livello 95% (169)
R2 e R2 corretto (R̄2 ) (171, 172)
specificazione di base (175)
specificazioni alternative (176)
statistica F classica (190)
Verifica dei concetti
5.1 Una ricercatrice è interessata all’effetto dell’uso del computer sui punteggi del test. Per
mezzo dei dati relativi ai distretti scolastici usati in questo capitolo, effettua una regressione del punteggio medio del test per distretto sul numero di computer per studente.
Sarà β̂1 uno stimatore non distorto dell’effetto sui punteggi dei test di un incremento
del numero di computer per studente? Perché o perché no? Se riteniamo che β̂1 sia
distorto, lo è verso il basso o verso l’alto? Perché?
5.2 Una regressione multipla include due regressori: Yi = β0 + β1 X1i + β2 X2i + ui .
Quale sarebbe la variazione attesa di Y , se X1 aumentasse di 3 unità e X2 fosse lasciato
invariato? Quale sarebbe la variazione attesa di Y , se X2 diminuisse di 5 unità e X1
fosse lasciato invariato? Quale sarebbe la variazione attesa di Y , se X 1 aumentasse di
3 unità e X2 diminuisse di 5 unità?
5.3 Si speghi perché due regressori perfettamente collineari non possono essere inclusi
in un modello di regressione lineare multipla. Si forniscano due esempi di coppie di
regressori perfettamente multicollineari.
182
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 183 — #213
i
i
Sommario
5.4 Si spieghi come si testerebbe l’ipotesi nulla che β1 = 0 nel modello di regressione
multipla, Yi = β0 + β1 X1i + β2 X2i + ui . Si spieghi come si testerebbe l’ipotesi nulla
che β2 = 0. Si spieghi come si verificherebbe l’ipotesi congiunta che β 1 = 0 e β2 = 0.
Perché il risultato dell’ipotesi congiunta non è implicato dai risultati dei primi due test?
5.5 Si fornisca un esempio di regressione che a ragione avrebbe un valore alto di R 2 ,
ma produrrebbe stimatori distorti e inconsistenti del coefficiente (o dei coefficienti) di
regressione. Si spieghi il motivo per cui l’R 2 è verosimilmente alto. Si spieghi perché
gli stimatori OLS sarebbero distorti e inconsistenti.
Esercizi
I primi sei esercizi si riferiscono alla seguente tavola di regressioni stimate, calcolata usando
dati dal CPS relativi al 1998. Il dataset contiene informazioni su 4.000 individui che hanno
lavorato a tempo pieno per l’intero anno. Il livello d’istruzione più alto raggiunto da ciascun
lavoratore è o il diploma di scuola secondaria o una laurea. L’età dei lavoratori varia tra 25-34
anni. I dati contengono anche informazioni sulla regione del paese dove questi sono vissuti,
lo stato civile e il numero di figli. Per i propositi di questo esercizio siano
AHE = retribuione oraria media (in dollari 1998)
college = variabile binaria (1 se università, 0 se scuola superiore)
f emale = variabile binaria (1 se femmina, 0 se maschio)
age = (in anni)
N theast = variabile binaria (1 se regione = nord-est, 0 altrimenti)
M idwest = variabile binaria (1 se regione = sud-ovest, 0 altrimenti)
South = variabile binaria (1 se regione = sud, 0 altrimenti)
W est = variabile binaria (1 se regione = ovest, 0 altrimenti)
5.1 Si Aggiungano “ * ” (5%) e “ ** ” (1%) alla tavola per indicare la significatività
statistica dei coefficienti.
5.2 Si calcoli l’R2 per ogni regressione.
183
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 184 — #214
i
i
Sommario
Risultati delle regressioni del salario orario medio sulle variabili binarie sesso, istruzione e altre caratteristiche
per i dati tratti dal Current Population Survey del 1998
Variabile dipendente: Average Hourly Earnings (AHE)
Regressore
College (X1 )
Female (X2 )
(1)
(2)
(3)
5,46
(0,21)
-2,64
(0,20)
5,48
(0,21)
-2,62
(0,20)
0,29
(0,04)
12,69
(0,14)
4,40
(1,05)
5,44
(0,21)
-2,62
(0,20)
0,29
(0,04)
0,69
(0,30)
0,60
(0,28)
-0,27
(0,26)
3,75
(1,06)
6,27
0,176
4000,0
6,22
0,190
4000,0
6,10
6,21
0,194
4000,0
Age (X3 )
Northeast (X4 )
Midwest (X5 )
South (X6 )
Intercetta
Statistiche descrittive e test di ipotesi congiunte
Statistica F per gli effetti di zona = 0
SER
R2
n
5.3 Si utilizzino i risultati della regressione nella colonna (1).
a. I lavoratori con laurea guadagnano di più, in media, rispetto ai lavoratori con
un diploma di scuola superiore? Quanto di più? È la differenza stimata tra le
retribuzioni da questa regressione statisticamente significativa al livello 5%?
b. Gli uomini guadagano più delle donne in media? Quanto di più? È la differenza tra le retribuzioni stimate sulla base di questa regressione statisticamente
significativa al livello 5%?
5.4 Si utilizzino i risultati della regressione nella colonna (2).
a. L’età è un’importante determinante del reddito? Si argomenti la risposta;
b. Sally è una laureata di 29 anni. Betsy è una laureata di 34 anni. Si prevedano le
retribuzioni di Sally e di Betsy e si costruisca un intervallo di confidenza di livello
95% per la differenza tra i loro salari attesi.
184
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 185 — #215
i
i
Sommario
5.5 Si utilizzino i risultati della regressione nella colonna (3).
a. C’è qualche evidenza di differenze regionali rilevanti?
b. Perché il regressore W est viene omesso dalla regressione? Cosa accadrebbe se
lo si includesse?
c. Sia Juanita una laureata di 28 anni proveniente dal sud. Sia Molly una laureata di
28 anni proveniente dall’ovest. Sia Jennifer una laureata di 28 anni proveniente
dal centro-ovest.
ci. Si costruisca un intervallo di confidenza di livello 95% per la differenza tra
le retribuzioni attese tra Juanita e Molly.
cii. Si calcoli la differenza tra le retribuzioni attese tra Juanita e Jennifer.
ciii. Si spieghi come si potrebbe costruire un intervallo di confidenza per la differenza tra le retribuzioni attese tra Juanita e Jennifer (suggerimento: cosa
accadrebbe se si includesse West e escludesse Midwest dalla regressione?).
5.6 La regressione mostrata nella colonna (2) è stata stimata ancora una volta, usando i dati
relativi al 1992. (4.000 osservazioni selezionate casualmente dal CPS del marzo 1993,
convertite in dollari 1998 usando l’indice dei prezzi al consumo). I risultati sono
d = 0, 77 + 5, 29 College − 2, 59 F emale + 0, 40 Age,
AHE
(0, 98) (0, 20)
(0, 18)
(0, 03)
SER = 5, 85, R̄2 = 0, 21.
Paragonando questa regressione a quella per il 1998 mostrata nella colonna (2), si
evidenzia una variazione statisticamente significativa del coefficiente di College?
5.7 Si valuti la seguente affermazione: “in tutte le regressioni, il coefficiente di F emmina
è negativo, elevato e statisticamente significativo. Ciò supporta una forte evidenza
statistica di discriminazione dovuta al genere nel mercato del lavoro degli USA”
5.8 Si consideri il modello di regressione Yi = β0 +β1 X1i +β2 X2i +ui . Si usi l’“approccio
2” dalla sezione 5.8 per trasformare la regressione in modo che si possa usare una
statistica t per verificare:
a. β1 = β2
b. β1 + aβ2 = 0, dove a è una costante;
c. β1 + β2 = 1 (suggerimento: bisogna ridefinire la variabile dipendente della
regressione).
5.9 L’appendice 5.3 mostra le due formule per la statistica F classica (5.38) e (5.39). Si
mostri che esse sono equivalenti.
185
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 186 — #216
i
i
Appendice
Appendice 5.1: derivazione della formula (5.1)
Quest’appendice presenta una derivazione della formula (5.1) per la distorsione da variabile
omessa. L’equazione (4.51) dell’appendice 4.3 mostra che
1
n
β̂1 = β1 +
1
n
n
P
(Xi − X̄)ui
i=1
n
P
i=1
.
(5.32)
(Xi − X̄)2
Pn
p
2
Sotto le assunzioni dei minimi quadrati nel concetto chiave 5.4, 1/n i=1 (Xi − X̄)2 → σX
Pn
p
e 1/n i=1 (Xi − X̄)ui → cov(ui , Xi ) = ρXu σu σX . Sostituendo tali limiti nella (5.32) si
ottiene la (5.1).
Appendice 5.2: distribuzione degli stimatori OLS
quando ci sono due regressori
ed errori omoschedastici
Sebbene la formula generale per la varianza degli stimatori OLS nella regressione multipla sia
complessa, se ci sono due regressori (k = 2) e gli errori sono omoschedastici, la formula si
semplifica abbastanza da fornire alcune intuizioni circa la distribuzione degli stimatori OLS.
Poiché gli errori sono omoschedastici, la varianza condizionata di u i può essere scritta
come var(ui X1i , X2i ) = σu2 . Quando ci sono due regressori X1i e X2i e l’errore è omoschedastico, in grandi campioni la distribuzione campionaria di β̂1 è N (β1 , σβ̂2 ) e la varianza
1
di tale distribuzione, σβ̂2 , è
1
σβ̂2
1
"
#
1
σu2
1
=
2
2 ,
n 1 − ρX1 ,X2 σX
1
(5.33)
2
è la
dove ρX1 ,X2 è la correlazione nella popolazione tra i due regressori X1 e X2 e σX
1
varianza di X1 nella popolazione.
La varianza σβ̂2 della distribuzione campionaria di β̂1 dipende dal quadrato del coeffi1
ciente di correlazione tra i regressori. Se X1 e X2 sono fortemente correlate, positivamente o
negativamente, allora ρ2X1 ,X2 è prossimo a uno e quindi il termine 1 − ρ2X1 ,X2 al denominatore della (5.33) è piccolo e le varianze di β̂1 e β̂2 sarebbero più elevate di quanto sarebbero
se ρX1 ,X2 fosse prossimo a zero. Questo risultato ha un’interpretazione intuitiva. Si ricordi
che il coefficiente di X1 è l’effetto di una variazione unitaria del primo regressore, tenendo
costante il secondo. Se i due regressori sono altamente correlati, è difficile stimare l’effetto
186
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 187 — #217
i
i
Appendice
parziale del primo regressore, tenendo costante il secondo, perché i due regressori si muovono
insieme nella popolazione.
Ad esempio, supponiamo di voler stimare gli effetti separati sui punteggi del test dell’avere più insegnanti (un più basso ST R) tenendo costante la spesa per studente, e dell’avere
più studenti tenendo costante ST R. Poiché i salari degli insegnanti rappresentano una quota
molto grande del bilancio di una scuola elementare, ST R e spese per studente hanno una
forte correlazione negativa (un numero maggiore di insegnanti implica un ST R inferiore e
una maggiore spesa per studente). Siccome queste due variabili hanno una forte correlazione
negativa, potrebbe essere difficile stimare con precisione i loro effetti separati usando dati
campionari. Ciò fa sı̀, in termini matematici, che β̂1 abbia una grande varianza.
Un’altra caratteristica della distribuzione congiunta normale degli stimatori OLS in grandi
campioni è che β̂1 e β̂2 sono in genere correlati. Quando gli errori sono omoschedastici, la
correlazione tra gli stimatori OLS β̂1 e β̂2 è pari all’opposto della correlazione tra i due
regressori,
corr(β̂1 , β̂2 ) = −ρX1 ,X2 .
(5.34)
Appendice 5.3: due altri modi di verificare
ipotesi congiunte
Il metodo della sezione 5.7 è quello preferito per verificare ipotesi congiunte in una regressione multipla. Tuttavia, se l’autore di uno studio presenta i risultati di una regressione ma
non verifica una restrizione congiunta e non si hanno a disposizione i dati originali, non si
sarà in grado di calcolare la statistica F della sezione 5.7.
Quest’appendice descrive due altri modi per verificare ipotesi congiunte che possono essere usati quando si dispone solo di una tabella con i risultati di regressione. Il primo di questi
modi, il test di Bonferroni, è un’applicazione di un approccio molto generale alla verifica di
ipotesi basato sulla disuguaglianza di Bonferroni. Il secondo, la statistica F classica, è un
approccio specifico alla regressione multipla, giustificato da un punto di vista teorico solo se
gli errori sono omoschedastici; la statistica F classica è il corrispondente per la statistica F
della statistica t calcolata usando gli errori standard classici.
Il test di Bonferroni
Il test di Bonferroni consente di verificare ipotesi partendo dalle statistiche t relative a ipotesi
individuali; in altre parole, il test di Bonferroni corrisponde alla procedura di verifica “coefficiente per coefficiente”, ma con un livello di significatività corretto. Il test di Bonferroni
187
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 188 — #218
i
i
Appendice
per le ipotesi nulle congiunte β1 = β1,0 e β2 = β2,0 basato sul valore critico c > 0 segue la
regola:
accetta l’ipotesi nulla se |t1 | ≤ c e se |t2 | ≤ c; altrimenti, rifiuta
(test di Bonferroni “coefficiente per coefficiente”),
(5.35)
dove t1 e t2 sono le statistiche t per verificare rispettivamente le restrizioni su β1 e β2 .
Il trucco sta nello scegliere il valore critico c in modo tale che la probabilità che il test
rifiuti l’ipotesi nulla quando questa è vera non superi il livello di significatività desiderato,
diciamo 5%. Questo si ottiene usando la disuguaglianza di Bonferroni al fine di scegliere il
valore critico c in modo da tener conto sia del fatto che si verifichino entrambe le restrizioni
sia della possibile correlazione tra t1 e t2 .
Disuguaglianza di Bonferroni
La disuguaglianza di Bonferroni è un risultato basilare della teoria della probabilità. Siano
A e B due eventi. Sia A ∩ B l’evento “sia A sia B” (l’intersezione di A e B) e sia A ∪ B
l’evento “A o B oppure entrambi” (l’unione di A e B). Allora, Pr(A ∪ B) = Pr(A) +
Pr(B) − Pr(A ∩ B). Poiché Pr(A ∩ B) ≥ 0, ne segue che Pr(A ∪ B) ≤ Pr(A) + Pr(B).
Questa disuguaglianza a sua volta implica che 1 − Pr(A ∪ B) ≥ 1 − [Pr(A) + Pr(B)].
Siano Ac e B c i complementi di A e B, ovvero, gli eventi “non A” e “non B”. Siccome il
complemento di A ∪ B è Ac ∩ B c , allora 1 − Pr(A ∪ B) = Pr(Ac ∩ B c ), il che porta alla
disuguaglianza di Bonferroni, Pr(Ac ∩ B c ) ≥ 1 − [Pr(A) + Pr(B)].
Ora, sia A l’evento |t1 | > c e B l’evento |t2 | > c. Allora, la disuguaglianza Pr(A ∪ B) ≤
Pr(A) + Pr(B) produce
Pr(|t1 | > c o |t2 | > c o entrambi) ≤ Pr(|t1 | > c) + Pr(|t2 | > c).
(5.36)
Test di Bonferroni
Poiché l’evento “|t1 | > c o |t2 | > c o entrambi” corrisponde alla regione di rifiuto del test
“coefficiente per coefficiente”, la (5.36) fornisce un modo per scegliere il valore critico c in
modo tale che il test abbia il livello di significatività desiderato in grandi campioni. Sotto
l’ipotesi nulla, in grandi campioni, Pr(|t1 | > c) = Pr(|t2 | > c) = Pr(|Z| > c). Perciò, la
(5.36) implica che, in grandi campioni, la probabilità che il test “coefficiente per coefficiente”
rifiuti sotto la nulla è
PrH0 (il test “coefficiente per coefficiente” rifiuti) ≤ 2 Pr(|Z| > c).
(5.37)
La disuguaglianza (5.37) suggerisce di scegliere il valore critico c, in modo tale che la probabilità di rifiuto sotto l’ipotesi nulla sia uguale al livello di significatività desiderato. L’approccio di Bonferroni può essere esteso a più di due coefficienti; se ci fossero q restrizioni sotto
la nulla, il numero 2 sul lato destro della (5.37) sarebbe rimpiazzato da q.
188
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 189 — #219
i
i
Appendice
Tabella 5.3: valori critici c delle singole statistiche t in un test di Bonferroni di ipotesi
congiunte
Numero di restrizioni (q)
10%
2
3
4
1,960
2,128
2,241
Livello di significatività
5%
2,241
2,394
2,498
1%
2,807
2,935
3,023
La tabella 5.3 presenta i valori critici c per test di Bonferroni corrispondenti a vari livelli
di significatività e per q = 2, 3 e 4. Ad esempio, supponiamo che il livello di significatività
desiderato sia 5% e q = 2. Secondo la tabella 5.3, il valore critico c è 2, 241. Tale valore
critico è il percentile all’1, 25% della distribuzione normale standardizzata, e quindi Pr(|Z| >
2, 241) = 2, 5%. Perciò, la (5.37) ci dice che, in grandi campioni, il test di Bonferroni (5.35)
rifiuterà sotto l’ipotesi nulla al massimo il 5% delle volte.
I valori critici della tabella 5.3 sono più elevati dei valori critici per la verifica di una
singola restrizione. Ad esempio, con q = 2, il test di Bonferroni rifiuta se almeno una
statistica t è maggiore di 2, 241 in valore assoluto. Questo valore critico è più grande di 1, 96
perché corregge per il fatto che, avendo due statistiche t, si ottiene una seconda occasione per
rifiutare l’ipotesi nulla congiunta, come discusso nella sezione 5.7.
Se le statistiche t individuali si basano su errori standard robusti all’eteroschedasticità, il
test di Bonferroni è valido in presenza o meno di eteroschedasticità, ma se le statistiche t si
basano su errori standard classici, il test di Bonferroni è valido solo sotto omoschedasticità.
Applicazione ai punteggi del test
Le statistiche t relative ai coefficienti dei punteggi del test e delle spese per studente nella
(5.18) sono, rispettivamente, t1 = −0, 60 e t2 = 2, 43 nell’equazione (5.18). Sebbene
|t1 | < 2, 241, dal momento che |t2 | > 2, 241, possiamo rifiutare l’ipotesi nulla congiunta al
livello di significatività 5% usando il test di Bonferroni. Ad ogni modo, sia t 1 sia t2 sono
minori di 2, 807 in valore assoluto, perciò non possiamo rifiutare l’ipotesi nulla congiunta al
livello di significatività 1% usando il test di Bonferroni. Di contro, usando la statistica F della
sezione 5.7, siamo in grado di rifiutare tale ipotesi al livello di significatività 1%.
La statistica F classica
La statistica F classica si calcola tramite una semplice formula basata sulla somma dei quadrati dei residui di due regressioni. Nella prima regressione, chiamata la regressione vin189
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 190 — #220
i
i
Appendice
colata, si impone l’ipotesi nulla. Quando l’ipotesi nulla è del tipo (5.20), dove tutti i valori
ipotizzati sono uguali a zero, la regressione vincolata è la regressione in cui tali coefficienti
sono posti uguali a zero, ovvero in cui i regressori rilevanti sono esclusi dalla regressione.
Nella seconda regressione, chiamata regressione non vincolata, è considerata vera l’ipotesi alternativa. Se la somma dei quadrati dei residui è sufficientemente più piccola nella
regressione non vincolata rispetto alla vincolata, il test rifiuta l’ipotesi nulla.
La statistica F classica è data dalla formula
(SSRrest − SSRunrest )/q
,
(5.38)
F =
SSRunrest /(n − kunrest − 1)
dove SSRrest è la somma dei quadrati dei residui della regressione vincolata, SSR unrest
è la somma dei quadrati dei residui della regressione non vincolata, q è il numero di restrizioni sotto l’ipotesi nulla e kunrest è il numero di regressori nella regressione non vincolata.
Una formula alternativa equivalente per la statistica F classica è basata sugli R 2 delle due
regressioni:
2
2
(Rrest
− Runrest
)/q
F =
.
(5.39)
2
1 − Runrest /(n − kunrest − 1)
Se gli errori fossero omoschedastici, la differenza tra la statistica F classica, calcolata
tramite la (5.38), e la statistica F usata nella sezione 5.7 svanirebbero al crescere della dimensione campionaria. Perciò, se gli errori fossero omoschedastici, la distribuzione campionaria
della statistica F classica sotto l’ipotesi nulla sarebbe Fq,∞ , in grandi campioni.
Le formule per la statistica F classica sono semplici da calcolare e hanno un’interpretazione intuitiva in termini di quanto bene le regressioni non vincolate e vincolate approssimano i
dati. Sfortunatamente, esse sono valide solo se gli errori sono omoschedastici. Poiché l’omoschedasticità è un caso particolare sul quale non si può contare nelle applicazioni a dati economici o, più in generale, con i dati che tipicamente si hanno nelle scienze sociali, la statistica
F classica non è un sostituto soddisfacente per la statistica F robusta all’eteroschedasticità
della sezione 5.7.
Un’applicazione ai punteggi del test e al rapporto studenti-insegnanti
Per verificare l’ipotesi nulla che i coefficienti di ST R ed Expn siano pari a zero, controllando
per P ctEL, è necessario calcolare l’SSR (o l’R 2 ) per la regressione vincolata e di quella
non vincolata. La regressione non vincolata ha come regressori ST R, Expn e P ctEL ed è
2
riportato nella (5.18); il suo R2 è 0, 4366; cioè, Runrest
= 0, 4366. La regressione vincolata
impone l’ipotesi nulla congiunta che i veri coefficienti di ST R ed Expn siano pari a zero,
cioè che ST R ed Expn non siano inclusi nella regressione, sebbene P ctEL lo sia (l’ipotesi
nulla non vincola il coefficiente di P ctEL). La regressione vincolata, stimata tramite gli
OLS, è
d
T estScore
= 664, 7 − 0, 671 × P ctEL,
R2 = 0, 4149,
(5.40)
(1, 0) (0, 032)
190
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 191 — #221
i
i
Appendice
2
e quindi Runrest
= 0, 4149. Il numero di restrizioni è q = 2, il numero di osservazioni è
n = 420 e il numero di regressori nella regressione non vincolata è k = 3. La statistica F
classica, calcolata usando l’equazione (5.39), è
F = [(0, 4366 − 0, 4149) /2] / [(1 − 0, 4366) / (420 − 3 − 1)] = 8, 01.
Poiché 8, 01 è maggiore di 4, 61, il valore critico all’1%, l’ipotesi è rifiutata al livello 1%
usando questo approccio.
Questo esempio illustra i vantaggi e gli svantaggi della statistica F classica. Il suo vantaggio è che può essere calcolata usando una semplice calcolatrice. Il suo svantaggio è che il
suo valore può essere molto diverso da quello della statistica F robusta all’eteroschedasticità
usata nella sezione 5.7: nel nostro caso, la statistica F robusta all’eteroschedasticità è pari a
5, 43, un valore abbastanza diverso da quello della meno affidabile statistica F classica, che è
pari a 8, 01.
191
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 192 — #222
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 193 — #223
i
i
Capitolo 6
Funzioni di regressione non lineari
Nei capitoli 4 e 5, abbiamo assunto che le funzioni di regressione della popolazione siano
lineari, ovvero che la pendenza della funzione di regressione della popolazione sia costante e
che l’effetto su Y di una variazione unitaria in X non dipenda dal valore di X. Cosa succede
se l’effetto su Y di una variazione in X dipende dal valore di una o più variabili indipendenti?
In tal caso, la funzione di regressione della popolazione è non lineare.
Questo capitolo considera due gruppi di metodi per individuare e modellare funzioni di
regressione non lineari. I metodi del primo gruppo sono utilizzabili quando l’effetto su Y
della variazione in una variabile indipendente, X1 , dipende dal valore di X1 . Ad esempio,
ridurre la dimensione delle classi di uno studente per insegnante potrebbe avere un effetto
maggiore, se le classi sono già piccole abbastanza da essere facilmente gestibili che nel caso
in cui queste siano talmente grandi che l’insegnante non può fare molto altro se non tenere
la classe sotto controllo. Se cosı̀, il punteggio nel test (Y ) è una funzione non lineare del
rapporto studenti-insegnanti (X1 ) e la funzione è più inclinata quando X1 è piccola. Un
esempio di funzione di regressione non lineare con questo andamento è mostrato nella figura
6.1. Mentre la funzione di regressione lineare (figura 6.1a) ha un’inclinazione costante, la
funzione di regressione non lineare (figura 6.1b) ha un’inclinazione maggiore quando X 1
è piccolo rispetto a quando è grande. I metodi appartenenti a questo primo gruppo sono
descritti nella sezione 6.2.
I metodi del secondo gruppo sono utilizzabili quando l’effetto su Y di una variazione in
X1 dipende dal valore di un’altra variabile indipendente, diciamo X 2 . Ad esempio, potrebbero essere soprattutto gli studenti che ancora apprendono l’inglese a trarre beneficio da una
maggiore attenzione personale; se cosı̀, l’effetto sui punteggi del test di una riduzione del
rapporto studenti-insegnanti sarà maggiore nei distretti con molti studenti che ancora apprendono l’inglese rispetto ai distretti con un minor numero di questi studenti. In questo esempio,
l’effetto sui punteggi del test (Y ) di una riduzione nel rapporto studenti-insegnanti (X 1 ) di-
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 194 — #224
i
i
Figura 6.1: funzioni di regressione con pendenze diverse
Y
Y
Rise
Rise
Run
Run
Rise
Run
X1
(a)
Pendenza costante
(b)
X1
Pendenza funzione del valore di X1
Y
Rise
Run
Funzione di regressione
quando X2 = 0
Rise
Run
Funzione di regressione quando X2 = 1
(c)
X1
Pendenza dipende dal valore di X2
Nella figura 6.1a, la funzione di regressione ha pendenza costante. Nella figura 6.1b, la pendenza della funzione
di regressione dipende dal valore di X1 . Nella figura 6.1c, la pendenza della funzione di regressione dipende dal
valore di X2 .
pende dalla percentuale di coloro che imparano l’inglese nel distretto (X 2 ). Come mostrato
nella figura 6.1c, l’inclinazione di questo tipo di funzione di regressione della popolazione
dipende dal valore di X2 . I metodi appartenenti a questo secondo gruppo sono presentati
nella sezione 6.3.
Nei modelli di questo capitolo, la funzione di regressione della popolazione è funzione
non lineare delle variabili indipendenti, ovvero l’aspettativa condizionata E(Y i X1i , . . . , Xki )
è funzione non lineare di una o più delle variabili in X. Sebbene siano non lineari nelle X,
questi modelli sono funzioni lineari dei coefficienti ignoti (o parametri) del modello di regressione e sono perciò varianti del modello di regressione multipla del capitolo 5. I coefficienti
ignoti di queste funzioni non lineari possono quindi essere stimati e sottoposti a verifica
usando gli OLS e i metodi descritti nel capitolo 5.
Le sezioni 6.1 e 6.2 introducono le funzioni di regressione non lineari nel caso di una
194
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0021
Fig. 06.01
i
i
1st Proof
2nd Proof
i
3rd Proof
Final
i
i
i
“generale” — 2005/7/10 — 22:25 — page 195 — #225
i
i
6.1. Una strategia generale per modellare funzioni di regressione non lineari
regressione con una singola variabile indipendente e la sezione 6.3 estende quest’analisi al
caso di due variabili indipendenti. Per semplicità, negli esempi empirici delle sezioni 6.1-6.3
saranno omesse variabili di controllo addizionali. In pratica, tuttavia, è importante analizzare
funzioni di regressione non lineari nel caso di modelli che controllano per la distorsione
da variabile omessa includendo anche variabili di controllo. Nella sezione 6.4, combineremo
funzioni di regressione non lineari e variabili di controllo addizionali allo scopo di individuare
possibili non linearità nella relazione tra punteggi del test e rapporto studenti-insegnanti,
tenendo costanti le caratteristiche degli studenti.
6.1 Una strategia generale per modellare funzioni
di regressione non lineari
Questa sezione presenta una strategia generale per modellare funzioni di regressione non
lineari. In questa strategia, i modelli non lineari sono estensioni del modello di regressione
multipla e possono perciò essere stimati e sottoposti a verifica utilizzando gli strumenti del
capitolo 5. Prima, però, ritorniamo ai dati della California sui punteggi del test e consideriamo
la relazione tra questi e il reddito del distretto.
Punteggi del test e reddito del distretto
Nel capitolo 5 abbiamo trovato che la condizione economica degli studenti è un fattore rilevante per spiegare la prestazione nei test standardizzati. L’analisi faceva uso di due variabili
(la percentuale di studenti che usufruiscono di buoni pasto e la percentuale di famiglie nel
distretto che percepiscono assegni familiari) per misurare la frazione di studenti nel distretto
che provengono da famiglie povere. Una diversa e più ampia misura della condizione economica è il reddito medio annuo pro capite nel distretto (“reddito del distretto”). I dati della
California includono il reddito medio del distretto misurato in migliaia di dollari del 1998. Il
campione presenta un’alta variabilità nei livelli di reddito: tra i 420 distretti nel nostro campione, il reddito mediano è 13, 7 (cioè 13.700$ pro capite) e varia da 5, 3 (5.300$ pro capite)
a 55, 3 (55.300$ pro capite).
La figura 6.2 mostra un grafico a nuvola dei punteggi del test per il quinto grado d’istruzione e del reddito del distretto basato sui dati della California, insieme alla retta di regressione degli OLS che mette in relazione queste due variabili. Il punteggio del test e il reddito
medio hanno una forte correlazione positiva, con un coefficiente di correlazione pari a 0, 71;
gli studenti dei distretti più ricchi ottenengono risultati migliori nei test rispetto agli studenti
dei distretti più poveri. Questo grafico ha una peculiarità: la maggior parte dei punti giace
al di sotto della retta degli OLS quando il reddito è molto basso (sotto i 10.000$) o molto
alto (sopra i 40.000$), ma si trova al di sopra della retta quando il reddito è tra 15.000$ e
195
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 196 — #226
i
i
6.1. Una strategia generale per modellare funzioni di regressione non lineari
30.000$. Sembra esserci una curvatura nella relazione tra punteggi del test e reddito che non
viene catturata dalla relazione lineare.
In breve, sembra che la relazione tra reddito del distretto e punteggio del test non sia una
linea retta, ma sia non lineare. Una funzione non lineare è una funzione con pendenza non
costante: la funzione f (X) è lineare se la sua pendenza è la stessa qualunque sia il valore di
X; se la pendenza dipende dal valore di X, allora f (X) è non lineare.
Se una funzione lineare non descrive adeguatamente la relazione tra reddito del distretto
e punteggio del test, quale funzione può farlo? Si immagini di disegnare una curva che si
adatti ai punti della figura 6.2. Questa curva dovrebbe essere ripida per bassi livelli di reddito
e dovrebbe poi appiattirsi all’aumentare del reddito del distretto. Un modo per approssimare matematicamente tale curva è modellare questa relazione come una funzione quadratica.
Potremmo cioè modellare il punteggio del test come funzione del reddito e del quadrato del
reddito.
Un modello di regressione quadratico che mette in relazione i punteggi del test e il reddito
è espresso in termini matematici come
T estScorei = β0 + β1 Incomei + β2 Income2i + ui ,
(6.1)
dove β0 , β1 e β2 sono coefficienti, Incomei è il reddito dell’i-esimo distretto, Income2i è il
quadrato del reddito nell’i-esimo distretto e ui è l’errore di regressione che, come al solito,
rappresenta tutti gli altri fattori che determinano il punteggio nel test. Il modello (6.1) è
detto modello di regressione quadratico perché la funzione di regressione della popolazione
E(T estScorei Incomei ) = β0 + β1 Incomei + β2 Income2i è ipotizzata essere quadratica
nella variabile indipendente Income.
Se conoscessimo i coefficienti della popolazione β0 , β1 e β2 , potremmo predire il punteggio del test di un distretto basandoci sul suo reddito medio. Questi coefficienti sono, però,
ignoti e debbono perciò essere stimati usando un campione di dati.
All’inizio, potrebbe sembrare difficile trovare i coefficienti della funzione quadratica che
meglio si adatta ai dati nella figura 6.2. Se però si confronta la (6.1) con il modello di regressione multipla del concetto chiave 5.2, si osserva che questa è una variante del modello
di regressione multipla con due regressori: il primo regressore è Income e il secondo è
Income2 . Cosı̀, dopo aver definito i regressori come Income e Income2 , il modello non
lineare (6.1) è semplicemente un modello di regressione multipla con due regressori!
Siccome il modello quadratico di regressione è una variante della regressione multipla, i
suoi coefficienti ignoti possono essere stimati e sottoposti a verifica usando i metodi descritti
nel capitolo 5. Stimando tramite gli OLS i coefficienti della regressione (6.1) con le 420
osservazioni della figura 6.2, si ottiene
196
d
T estScore
= 607, 3 + 3, 85 Income − 0, 0423 Income2 , R̄2 = 0, 554,
(2, 9) (0, 27)
(0, 0048)
(6.2)
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 197 — #227
i
i
6.1. Una strategia generale per modellare funzioni di regressione non lineari
Figura 6.2: grafico a nuvola del punteggio del test sul reddito del distretto e funzione di
regressione OLS lineare
Punteggio test
740
720
700
680
660
640
620
600
0
10
20
30
40
50
60
Reddito distretto
(migliaia di dollari)
Esiste una correlazione positiva tra i punteggi del test e il reddito del distretto (correlazione = 0, 71), ma la
funzione di regressione OLS lineare non descrive adeguatamente la relazione esistente tra queste variabili.
dove (come al solito) gli errori standard dei coefficienti stimati sono riportati in parentesi.
La funzione di regressione stimata (6.2) è mostrata nella figura 6.3, sovrapposta al grafico a
nuvola dei dati. La funzione quadratica coglie la curvatura evidenziata dal grafico a nuvola: è
ripida per bassi valori del reddito del distretto, ma si appiattisce quando il reddito del distretto
è alto. In breve, la funzione di regressione quadratica sembra adattarsi meglio ai dati di quella
lineare.
Possiamo andare oltre questo confronto visivo e verificare formalmente l’ipotesi che la
relazione tra reddito e punteggio del test sia lineare contro l’alternativa che sia non lineare. Se
la relazione è lineare, allora la funzione di regressione è correttamente specificata dalla (6.1),
eccetto per l’assenza del regressore Income2 ; cioè, se la relazione è lineare, allora, vale la
Electronic Publishing Services Inc.
(6.1) con βStock/Watson,
quindi, verificare
2 = 0. Possiamo,Econometrics
1el’ipotesi nulla che β2 = 0 contro l’alternativa
che β2 6= 0.STOC.ITEM.0022
Siccome
la (6.1)
Fig.
06.02è una variante del modello di regressione multipla, l’ipotesi nulla che
β2 = 0 può essere verificata costruendo la statistica t per questa ipotesi. Essa è t = ( β̂2 −
1st Proof
2nd Proof
3rd Proof
Final
0)/SE(β̂2 ) e cioè pari a t = −0, 0423/0, 0048 = −8, 81 in base alla regressione stimata
(6.2). In valore assoluto, la statistica è maggiore del valore critico del test al 5% (che è 1, 96).
Infatti, il valore-p della statistica t è minore di 0, 01%, e quindi possiamo rifiutare l’ipotesi che
197
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 198 — #228
i
i
6.1. Una strategia generale per modellare funzioni di regressione non lineari
Figura 6.3: grafico a nuvola del punteggio del test sul reddito del distretto con funzioni
lineari e quadratiche
Punteggio test
740
Regressione lineare
720
700
680
Regressione quadratica
660
640
620
600
0
10
20
30
40
50
60
Reddito distretto
(migliaia di dollari)
La funzione di regressione quadratica interpola i dati meglio della funzione di regressione lineare.
β2 = 0 a tutti i livelli di significatività convenzionali. La verifica formale di ipotesi supporta
perciò il nostro esame informale delle figure 6.2 e 6.3: il modello quadratico si adatta ai dati
meglio del modello lineare.
L’effetto su Y di una variazione in X nelle specificazioni non lineari
Lasciamo da parte per un momento l’esempio del punteggio dei test e consideriamo un problema generale. Vogliamo sapere qual è la variazione attesa nella variabile dipendente Y ,
quando la variabile indipendente X1 varia dell’ammontare ∆X1 , tenendo costanti le altre
variabili indipendenti X2 , . . . , Xk . Quando la funzione di regressione della popolazione è
lineare, questo effetto si calcola facilmente: come mostrato nella formula (5.4), la variazione
Inc.
attesa in Y Electronic
è ∆Y = β1 Publishing
∆X1 , dove βServices
1 è il coefficiente di X1 nella regressione nella popolazioEconometrics
ne. QuandoStock/Watson,
la funzione di regressione
è non 1e
lineare, invece, il calcolo della variazione attesa
STOC.ITEM.0023
in Y è più complesso, perché essa può dipendere dal valore della variabile indipendente.
Fig. 06.03
1st Proof
2nd Proof
3rd Proof
Final
198
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 199 — #229
i
i
6.1. Una strategia generale per modellare funzioni di regressione non lineari
Una formula generale per una funzione di regressione non lineare.1 I modelli di regressione non lineare considerati in questo capitolo sono del tipo
Yi = f (X1i , X2i , . . . , Xki ) + ui ,
i = 1, . . . , n,
(6.3)
dove f (X1i , X2i , . . . , Xki ) è la funzione di regressione non lineare della popolazione,
cioè una generica funzione delle variabili indipendenti X1i , X2i , . . . , Xki e ui è l’errore. Ad
esempio, nel modello di regressione quadratico (6.1) c’è una sola variabile indipendente,
cosicché X1 è Income e la funzione di regressione della popolazione è f (Income i ) =
β0 + β1 Incomei + β2 Income2i .
Poiché la funzione di regressione della popolazione è l’aspettativa condizionata di Y i
date X1i , X2i , . . . , Xki , nella (6.3) ammettiamo la possibilità che tale aspettativa condizionata sia una funzione non lineare di X1i , X2i , . . . , Xki , ovvero E(Yi X1i , X2i , . . . , Xki ) =
f (X1i , X2i , . . . , Xki ), dove f può essere una funzione non lineare. Se la funzione di regressione è lineare, allora f (X1i , X2i , . . . , Xki ) = β0 + β1 X1i + β2 X2i + . . . + βk Xki e la (6.3)
coincide con il modello di regressione lineare del concetto chiave (6.3). Ad ogni modo, il
modello (6.3) comprende anche il caso di funzioni di regressione non lineari.
L’effetto su Y di una variazione in X. Come discusso nella sezione 5.2, l’effetto atteso su Y di una variazione ∆X1 in X1 , tenendo costanti X2 , . . . , Xk , è la differenza nel
valore atteso di Y quando la variabile indipendente è uguale a X 1 + ∆X1 , X2 , . . . , Xk e
il valore atteso di Y quando le variabili indipendenti sono uguali a X 1 , X2 , . . . , Xk . La
differenza tra questi due valori attesi, diciamo ∆Y , è ciò che accade a Y , in media nella popolazione, quando X1 varia di un ammontare ∆X1 , tenendo costanti le altre variabili
X2 , . . . , Xk . Nel modello di regressione non lineare (formula (6.3)), tale effetto su Y è
∆Y = f (X1 + ∆X1 , X2 , . . . , Xk ) − f (X1 , X2 , . . . , Xk ).
Poiché la funzione di regressione f è ignota, anche l’effetto su Y di una variazione in
X1 è ignoto. Per valutare tale effetto, occorre prima stimare la funzione di regressione della
popolazione. In generale, si indichi con fˆ la stima di questa funzione; un esempio è la stima
della regressione quadratica riportata nella (6.2). L’effetto stimato su Y (indicato con ∆ Ŷ ) di
una variazione in X1 è la differenza tra il valore predetto di Y quando le variabili indipendenti
sono uguali a X1 + ∆X1 , X2 , . . . , Xk e il valore predetto di Y quando esse sono uguali a
X1 , X 2 , . . . , X k .
1
Il termine “regressione non lineare” si applica a due famiglie concettualmente distinte di modelli. Nella prima
famiglia, la funzione di regressione della popolazione è una funzione non lineare delle X, ma lineare nei parametri
incogniti (i coefficienti β). Nella seconda famiglia, la funzione di regressione della popolazione è una funzione non
lineare dei parametri incogniti e potrebbe essere una funzione lineare o non lineare delle X. I modelli di questo
capitolo appartengono tutti alla prima famiglia. Incontreremo, invece, i modelli della seconda famiglia, quando
studieremo la regressione con una variabile dipendente binaria nel capitolo 9.
199
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 200 — #230
i
i
6.1. Una strategia generale per modellare funzioni di regressione non lineari
La procedura di calcolo dell’effetto atteso su Y di una variazione in X 1 è schematizzata
nel concetto chiave 6.1.
Applicazione ai punteggi del test e al reddito. Qual è la variazione prevista nei punteggi del
test associata a una variazione nel reddito del distretto di 1.000$, basandosi sulla stima della
funzione di regressione quadratica (6.2)? Poiché la funzione di regressione è quadratica, tale
effetto dipende dal reddito iniziale del distretto. Consideriamo perciò due casi: un incremento
del reddto nel distretto da 10 ad 11 (cioè, da 10.000$ a 11.000$ pro capite) e un incremento
del reddito del distretto da 40 a 41.
Per calcolare ∆Ŷ associato alla variazione nel reddito da 10 a 11, possiamo applicare la
formula generale (6.6) al modello di regressione quadratico. Cosı̀ facendo, si ottiene
∆Ŷ = (β̂0 + β̂1 × 11 + β̂2 × 112 ) − (β̂0 + β̂1 × 10 + β̂2 × 102 ),
(6.4)
dove β̂0 , β̂1 e β̂2 sono gli stimatori OLS.
Il termine nel primo insieme di parentesi della (6.4) è il valore predetto di Y per Income =
11 e il termine nelle seconde parentesi è il valore predetto di Y per Income = 10. Questi
valori predetti sono calcolati usando le stime OLS dei coefficienti riportate nella (6.2). Di
conseguenza, quando Income = 10, il valore predetto del punteggio del test è 607, 3 +
3, 85 × 10 − 0, 0423 × 102 = 641, 57. Quando Income = 11, il valore predetto è 607, 3 +
3, 85 × 11 − 0, 0423 × 112 = 644, 53. La differenza tra questi due valori predetti è ∆Ŷ =
644, 53 − 641, 57 = 2, 96 punti, ovvero, la differenza predetta tra i punteggi del test di un
distretto con reddito medio di 11.000$ e uno con un reddito medio di 10.000$ è di 2, 96 punti.
Nel secondo caso, quando il reddito varia da 40.000$ a 41.000$, la differenza tra i valori
predetti (espressione (6.4)) è ∆Ŷ = (607, 3 + 3, 85 × 41 − 0, 0423 × 412) − (607, 3 + 3, 85 ×
40 − 0, 0423 × 402 ) = 694, 04 − 693, 62 = 0, 42 punti; cioè una variazione nel reddito
di 1.000$ è associata a una variazione predetta più ampia nei punteggi, quando il reddito
iniziale è 10.000$ rispetto a quando è 40.000$ (rispettivamente 2, 96 e 0, 42 punti). Detto
diversamente, la pendenza della funzione di regressione quadratica stimata nella figura 6.3 è
maggiore per bassi livelli di reddito (come 10.000$) che per livelli di reddito più alti (come
40.000$).
Gli errori standard degli effetti stimati. La stima dell’effetto su Y di una variazione in
ˆ che varia da
X1 dipende dallo stimatore della funzione di regressione della popolazione f,
un campione a un altro. Per questo motivo, l’effetto stimato contiene errori campionari. Un
modo per quantificare l’incertezza circa l’effetto stimato dovuta al campionamento è quello
di calcolare un intervallo di confidenza per l’effetto vero. Per far ciò, è necessario calcolare
l’errore standard di ∆Ŷ .
È semplice calcolare l’errore standard di ∆Ŷ quando la funzione di regressione è lineare.
200
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 201 — #231
i
i
6.1. Una strategia generale per modellare funzioni di regressione non lineari
Concetto chiave 6.1: l’effetto atteso su Y di una variazione in X1
nel modello di regressione non lineare (6.3)
La variazione attesa in Y , ∆Y , associata alla variazione ∆X1 in X1 , tenendo costanti
X2 , . . . , Xk , è la differenza tra il valore della funzione di regressione della popolazione prima e dopo la variazione di X1 , tenendo costanti X2 , . . . , Xk . In altri termini, la
variazione attesa di Y è la differenza:
∆Y = f (X1 + ∆X1 , X2 , . . . , Xk ) − f (X1 , X2 , . . . , Xk ) .
(6.5)
Lo stimatore di tale differenza ignota è la differenza tra i valori predetti in questi due casi. Sia fˆ (X1 , X2 , . . . , Xk ) il valore predetto di Y basato sullo stimatore fˆ della funzione
di regressione della popolazione. Allora, la variazione predetta di Y è
∆Ŷ = fˆ (X1 + ∆X1 , X2 , . . . , Xk ) − fˆ (X1 , X2 , . . . , Xk ) .
(6.6)
L’effetto stimato di una variazione in X1 è β̂1 ∆X1 , perciò l’intervallo di confidenza al 95%
per la variazione stimata è β̂1 ∆X1 ± 1, 96 SE(β̂1 )∆X1 .
Nei modelli di regressione non lineari di questo capitolo, l’errore standard di ∆ Ŷ può
essere calcolato usando gli strumenti introdotti nella sezione 5.8 per la verifica di una singola
restrizione riguardante più coefficienti. Per illustrare tale metodo, si consideri la variazione
stimata nei punteggi del test associata a una variazione nel reddito da 10 ad 11 (formula
(6.4)), che è ∆Ŷ = β̂1 × (11 − 10) + β̂2 × (112 − 102) = β̂1 + 21β̂2 . L’errore standard della
variazione predetta è perciò
SE(∆Ŷ ) = SE(β̂1 + 21β̂2 ).
(6.7)
Perciò, se si calcola l’errore standard di β̂1 + 21β̂2 , si è allora calcolato l’errore standard
di ∆Ŷ . Ci sono due metodi per far ciò usando i comuni pacchetti statistici. Questi corrispondono ai due approcci della sezione 5.8 per la verifica di una singola restrizione su più
coefficienti.2
Il primo metodo segue l’“approccio 1” della sezione 5.8, ovvero calcola la statistica F per
l’ipotesi che β1 + 21β2 = 0. L’errore standard di ∆Ŷ è allora dato da3
∆Ŷ
SE(∆Ŷ ) = √ .
F
(6.8)
2
Questi due approcci sono modi diversi di usare i pacchetti di regressione al fine di implementare le formule
generali degli errori standard degli effetti predetti presentati nella sezione 16.2.
3 La (6.8) si deriva osservando che la statistica F è il quadrato della statistica t che verifica tale ipotesi, ovvero
F = t2 = [(β̂1 + 21β̂2 )/SE(β̂1 + 21β̂2 )]2 = [∆Ŷ /SE(∆Ŷ )]2 , e risolvendo rispetto a SE(∆Ŷ ).
201
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 202 — #232
i
i
6.1. Una strategia generale per modellare funzioni di regressione non lineari
Applicata alla regressione quadratica (6.2), la statistica F per l’ipotesi che β 1 + 21β2 = 0
è F = 299, 94. Siccome ∆Ŷ = 2, 96, applicando la formula (6.8) si ottiene SE(∆Ŷ ) =
√
2, 96/ 299, 94 = 0, 17. Cosı̀, l’intervallo di confidenza al 95% per la variazione nel valore
atteso di Y è 2, 96 ± 1, 96 × 0, 17 o (2, 63, 3, 29).
Il secondo metodo segue l’“approccio 2” della sezione 5.8, che richiede di trasformare i
regressori in modo che, nella regressione trasformata, uno dei coefficienti sia β 1 + 21β2 . Tale
trasformazione è lasciata al lettore come esercizio (esercizio 6.4).
Una nota sull’interpretazione dei coefficienti nelle specificazioni non lineari. Nel modello
di regressione multipla del capitolo 5, i coefficienti di regressione hanno un’interpretazione
naturale. Ad esempio, β1 è la variazione attesa di Y associata a una variazione unitaria di
X1 , tenendo costanti gli altri regressori. Come abbiamo visto, però, questo non è in generale
il caso nei modelli non lineari. Infatti, non è molto utile pensare a β 1 nella (6.1) come
all’effetto di una variazione nel reddito del distretto, tenendo costante il quadrato del reddito
del distretto. Questo significa che, nei modelli non lineari, la funzione di regressione si
interpreta meglio disegnandola e calcolando l’effetto su Y di variazioni in una o più variabili
indipendenti.
Un approccio generale per modellare non linearità usando
la regressione multipla
L’approccio generale per modellare funzioni di regressione non lineari seguito in questo
capitolo può essere schematizzato in cinque passaggi.
1. Identificare una possibile relazione non lineare. La cosa migliore da fare è usare
la teoria economica e la conoscenza specifica dell’applicazione in modo da suggerire
una possibile relazione non lineare. Ancor prima di osservare i dati, ci si deve chiedere
se la pendenza della funzione di regressione che mette in relazione Y e X può ragionevolmente dipendere dal valore di X o da un’altra variabile indipendente. Per quale
motivo si ha una dipendenza non lineare? Quali forme non lineari si suggeriscono? Ad
esempio, pensare alla relazione in classi tra studenti di 11 anni suggerisce che ridurre
la dimensione delle classi da 18 a 17 studenti potrebbe avere un effetto maggiore che
ridurle da 30 a 29.
2. Specificare una funzione non lineare e stimarne i parametri con gli OLS. Le sezioni 6.2 e 6.3 contengono varie funzioni di regressione non lineari che possono essere
stimate con gli OLS. Dopo aver studiato queste sezioni, si capiranno le caratteristiche
di ciascuna di queste funzioni.
3. Comprendere se il modello non lineare costituisce un miglioramento rispetto a un
modello lineare. Solo perché si pensa che una funzione di regressione possa essere
202
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 203 — #233
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
non lineare non significa che lo sia effettivamente! Bisogna determinare empiricamente se un modello non lineare sia appropriato. Molto spesso si possono usare la
statistica t e la statistica F per verificare l’ipotesi nulla che la funzione di regressione
della popolazione sia lineare contro l’alternativa che sia non lineare.
4. Disegnare la funzione di regressione non lineare stimata. La funzione di regressione
stimata descrive bene i dati? Basta uno sguardo alle figure 6.2 e 6.3 per suggerire che
il modello quadratico si adatta ai dati meglio del modello lineare;
5. Stimare l’effetto di una variazione di X su Y . Il passaggio finale è usare la regressione stimata per calcolare l’effetto su Y di una variazione in uno o più regressori X,
seguendo il metodo descritto nel concetto chiave 6.1.
6.2 Funzioni non lineari di una singola
variabile indipendente
Questa sezione fornisce due metodi per modellare una funzione di regressione non lineare.
Per semplicità, svilupperemo questi metodi per una funzione di regressione non lineare che
contiene una sola variabile indipendente X. Come visto nella sezione 6.4 però, questi modelli
possono essere modificati al fine di includere più variabili indipendenti.
Il primo metodo discusso in questa sezione è la regressione polinomiale, un’estensione
della regressione quadratica usata nell’ultima sezione per modellare la relazione tra punteggio
del test e reddito. Il secondo metodo usa i logaritmi di X e/o di Y . Sebbene siano presentati
separatamente, questi metodi possono essere usati in combinazione.
Polinomi
Un modo per specificare una funzione di regressione non lineare è quello di usare un polinomio in X. In generale, sia r la potenza più elevata di X inclusa nella regressione. Il modello
di regressione polinomiale di grado r è
Yi = β0 + β1 Xi + β2 Xi2 + . . . + βr Xir + ui .
(6.9)
Quando r = 2, l’equazione (6.9) è il modello di regressione quadratica discusso nella sezione
6.1. Quando r = 3, e quindi X 3 è la più elevata potenza di X inclusa, la (6.9) è detta modello
di regressione cubica.
Il modello di regressione polinomiale è simile al modello di regressione multipla del
capitolo 5, eccetto per il fatto che nel capitolo 5 i regressori erano variabili indipendenti
distinte, mentre qui i regressori sono potenze della stessa variabile dipendente X, ovvero i
regressori sono X, X 2 , X 3 ecc. Quindi, le tecniche per la stima e l’inferenza sviluppate
203
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 204 — #234
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
per la regressione multipla possono essere applicate anche qui. In particolare, i coefficienti
ignoti β0 , β1 , . . . , βr della (6.9) possono essere stimati con una regressione OLS di Yi su
Xi , Xi2 , . . . , Xir .
Verifica dell’ipotesi nulla che la funzione di regressione della popolazione sia lineare. Se
la funzione di regressione della popolazione è lineare, il termine quadratico e quelli di ordine
superiore non entrano nella funzione di regressione. Di conseguenza, l’ipotesi nulla (H 0 ) che
la regressione sia lineare e l’alternativa (H1 ) che sia un polinomio di grado r corrispondono
a
H0 : β2 = 0, β3 = 0, . . . , βr = 0 contro H1 : almeno un βj 6= 0, j = 2, . . . , r. (6.10)
L’ipotesi nulla che la funzione di regressione della popolazione sia lineare può essere verificata contro l’alternativa che sia un polinomio di grado r, tramite un test di H 0 contro H1
nella (6.10). Siccome H0 è un’ipotesi nulla congiunta con q = r − 1 restrizioni sui coefficienti del modello di regressione polinomiale, essa può essere sottoposta a verifica usando la
statistica F, come descritto nella sezione 5.7.
Quale grado di polinomio usare? Quante potenze di X dovrebbero essere incluse in una
regressione polinomiale? La risposta richiede di bilanciare flessibilità e precisione statistica.
Aumentare il grado r introduce maggiore flessibilità nella funzione di regressione e permette
di catturare forme più varie; un polinomio di grado r può avere r − 1 punti di svolta nel suo
grafico. Aumentare r significa però aggiungere più regressori, il che può ridurre la precisione
delle stime.
Perciò, la risposta alla domanda riguardante il numero di termini da includere è che bisognerebbe aggiungerne quanti bastano per modellare adeguatamente la funzione di regressione, ma non di più. Sfortunatamente, questa risposta non è di grande aiuto pratico!
Un modo pratico per determinare il grado del polinomio è verificare se i coefficienti
della (6.9) associati ai valori più elevati di r siano nulli. Se cosı̀, questi termini possono
essere eliminati dalla regressione. Questo procedimento, che è chiamato verifica d’ipotesi
sequenziale, perché le singole ipotesi sono sottoposte a verifica sequenzialmente, consiste
dei seguenti passaggi
1. Si scelga un valore massimo per r e si stimi la regressione polinomiale per quel valore
di r.
2. Si utilizzi la statistica t per verificare l’ipotesi che il coefficiente di X r (βr nella (6.9))
sia nullo. Se tale ipotesi viene rifiutata, allora X r entra nella regressione e va usato un
polinomio di grado r.
3. Se non si rifiuta βr = 0 nel passaggio 2, si elimini X r dalla regressione e si stimi
204
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 205 — #235
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
una regressione polinomiale di grado r − 1. Si verifichi che il coefficiente di X r−1 sia
nullo. Se tale ipotesi viene rifiutata, si usi un polinomio di grado r − 1.
4. Se non si rifiuta βr−1 = 0 nel passaggio 3, allora questo procedimento deve essere ripetuto finché il coefficiente della potenza massima nel nostro polinomio diventa
statisticamente significativo.
A questa ricetta manca un ingrediente: il grado iniziale r del polinomio. In molte applicazioni con dati economici, le funzioni non lineari sono “lisce”, cioè non mostrano salti repentini o “picchi”. Se cosı̀, è appropriato scegliere un polinomio con ordine massimo piccolo,
come 2, 3 o 4, ovvero cominciare dal passaggio 1 con r = 2, 3 o 4 4 .
Applicazione alla relazione tra reddito del distretto e punteggi del test. La stima della
funzione di regressione cubica che mette in relazione il reddito del distretto ai punteggi del
test è
d
T estScore
= 600, 1 + 5, 02 Income − 0, 096 Income2 + 0, 00069 Income3 , (6.11)
(5, 1) (0, 71)
(0, 029)
(0, 00035)
R̄2 = 0, 555.
La statistica t relativa a Income3 è 1, 97, quindi l’ipotesi nulla che la funzione di regressione
sia quadratica è respinta al livello 5% contro l’alternativa che sia cubica. Inoltre, la statistica
F per l’ipotesi nulla che i coefficienti di Income2 e Income3 siano entrambi nulli è 37, 7,
con un valore-p minore dello 0, 01%; quindi, l’ipotesi nulla che la funzione di regressione sia
lineare è respinta contro l’alternativa che sia cubica.
Interpretazione dei coefficienti nei modelli polinomiali di regressione. I coefficienti delle
regressioni polinomiali non hanno un’interpretazione semplice. Il miglior modo per interpretare le regressioni polinomiali è quello di disegnare la funzione di regressione stimata e di
calcolare l’effetto di Y associato a una variazione in X per uno o più valori di X.
Logaritmi
Un altro modo di specificare una funzione di regressione non lineare è usare il logaritmo
naturale di Y e/o di X. I logaritmi convertono variazioni nelle variabili in variazioni percentuali, e molte relazioni sono espresse in modo naturale in termini percentuali. Vediamo alcuni
esempi.
4 Un modo diverso di scegliere r è basato su qualche “criterio d’informazione”, come descritto nel capitolo 12
nell’ambito dell’analisi delle serie temporali. In pratica, l’approccio basato su un criterio d’informazione e quello
della verifica di ipotesi sequenziale qui descritto conducono spesso a risultati simili.
205
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 206 — #236
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
• La sezione 3.5 ha esaminato il differenziale salariale tra laureati e laureate. In tale
discussione, il differenziale salariale è stato misurato in dollari. Tuttavia, è più facile confrontare i differenziali salariali tra professioni e nel tempo quando questi sono
espressi in termini percentuali.
• Nella sezione 6.1, si è visto che il reddito di un distretto e il punteggio del test sono
legati in modo non lineare. Potrebbe tale relazione essere lineare se si usassero variazioni percentuali? In altre parole, è possibile che una variazione nel reddito del distretto
dell’1% –piuttosto che di 1.000$– sia associata a una variazione nei punteggi del test
che è approssimativamente costante per i diversi livelli di reddito?
• Nell’analisi economica della domanda del consumatore, si assume spesso che un incremento dei prezzi dell’1% porti a un decremento percentuale nella quantità domandata. La variazione percentuale nella domanda derivante da una variazione nel prezzo
dell’1% è detta elasticità rispetto al prezzo.
Le specificazioni che utilizzano i logaritmi permettono di stimare relazioni percentuali
come queste. Prima di introdurre tali specificazioni, richiamiamo brevemente le funzioni
esponenziale e logaritmo naturale.
La funzione esponenziale e il logaritmo naturale. La funzione esponenziale e la sua inversa, il logaritmo naturale, giocano un ruolo importante nel modellare funzioni di regressione
non lineari. La funzione esponenziale di x è ex , ovvero e elevato alla potenza x, dove e è
la costante 2.71828 . . .; la funzione esponenziale si indica anche con exp(x). Il logaritmo
naturale è l’inverso della funzione esponenziale, cioè, il logaritmo naturale è la funzione tale
che x = ln(ex ) o, equivalentemente, x = ln[exp(x)]. La base del logaritmo naturale è e.
Sebbene ci siano logaritmi in altre basi, per esempio in base 10, in questo testo considereremo
solo logaritmi in base e o naturali; per questo motivo, quando useremo il termine “logaritmo”
intenderemo sempre “logaritmo naturale”.
La funzione logaritmica, y = ln(x), è rappresentata nella figura 6.4. Si noti che la
funzione logaritmica è definita soltanto per valori positivi di x e ha una pendenza che è
inizialmente più ripida e poi si appiattisce (sebbene la funzione sia sempre crescente). La
pendenza della funzione logaritmica ln(x) è 1/x.
La funzione logaritmo ha le seguenti proprietà:
ln(1/x) = − ln(x);
(6.12)
ln(ax) = ln(a) + ln(x);
(6.13)
ln(x/a) = ln(x) − ln(a);
(6.14)
ln(xa ) = a ln(x).
(6.15)
206
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 207 — #237
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
Figura 6.4: la funzione logaritmica Y = ln(X)
Y
5
4
Y = ln(X)
3
2
1
0
0
20
40
60
80
100
120
X
La funzione logaritmica Y = ln(X) è più inclinata per valori piccoli che per valori grandi di X , è definita solo
per X > 0 e ha pendenza 1/X .
Logaritmi e percentuali. Il legame tra logaritmi e percentuali si basa sulla seguente proprietà: quando ∆x è piccolo, la differenza tra il logaritmo di x + ∆x e il logaritmo di x è
approssimativamente ∆x/x, la variazione percentuale di x divisa per 100:
∆x
ln(x + ∆x) − ln(x) ∼
=
x
(quando
∆x
è piccolo),
x
(6.16)
dove “∼
=” significa “approssimativamente uguale a”. Questo risultato richiede una derivazione matematica, ma si dimostra prontamente facendo la prova con alcuni valori di x e ∆x.
Ad esempio, quando x = 100 e ∆x = 1, allora ∆x/x = 1/100 = 0, 01 (o 1%), mentre
Electronic Publishing Services Inc.
ln(x + ∆x) − ln(x) = ln(101) − ln(100) = 0, 00995 (o 0, 995%). Cosı̀ ∆x/x (0, 01) è
Stock/Watson, Econometrics 1e
prossimo a ln(x + ∆x) − ln(x) (0, 00995). Quando ∆x = 5, ∆x/x = 5/100 = 0, 05,
STOC.ITEM.0024
mentre ln(x + ∆x) − ln(x) = ln(105) − ln(100) = 0, 04879.
Fig. 06.04
1st Proof
2nd Proof
3rd Proof
Final utilizzare
I tre modelli di regressione logaritmica. Ci sono tre casi diversi in cui si possono
i logaritmi: quando X è logaritmica ma Y non lo è; quando Y è logaritmica ma X non lo è;
quando Y e X sono entrambe logaritmiche. L’interpretazione dei coefficienti di regressione
è diversa in ciascuno dei tre casi. Discutiamoli uno alla volta.
207
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 208 — #238
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
Caso I: X è logaritmica, ma non Y . In questo caso, il modello di regressione è
Yi = β0 + β1 ln(Xi ) + ui ,
i = 1, . . . , n.
(6.17)
Siccome la Y non è espressa in logaritmi ma lo è X, questo è talvolta detto modello linearelogaritmico.
Nel modello lineare-logaritmico, a una variazione di X dell’1% è associata una variazione
di Y pari a 0, 01β1 . Consideriamo, a tal proposito, la differenza tra la funzione di regressione
per valori di X che differiscono di ∆X, ovvero [β0 + β1 ln(X + ∆X)] − [β0 + β1 ln(X)] =
β1 [ln(X + ∆X) − ln(X)] ∼
= β1 (∆X/X), dove il passaggio finale sfrutta l’approssimazione (6.16). Se X variasse dell’1%, allora ∆X/X = 0, 01; perciò, in questo modello, una
variazione in X dell’1% è associata una variazione in Y di 0, 01β1.
La sola differenza tra il modello di regressione (6.17) e il modello di regressione con un
singolo regressore del capitolo 4 è che la variabile di destra è ora il logaritmo di X invece che
X. Per stimare i coefficienti β0 e β1 della funzione (6.17) bisogna prima calcolare la nuova
variabile ln(X); operazione semplice, se si usa un foglio elettronico o un pacchetto statistico.
Si possono poi stimare β0 e β1 attraverso una regressione OLS di Yi su ln(Xi ). Le ipotesi su
β1 possono essere verificate usando la statistica t e gli intervalli di confidenza per β 1 possono
essere costruiti come β̂1 ± 1, 96 SE(β̂1 ).
Come esempio, ritorniamo alla relazione tra reddito del distretto e punteggi del test. Invece della specificazione quadratica, potremmo usare la specificazione lineare-logaritmica della
funzione (6.17). Stimando tale regressione attraverso gli OLS si ottiene
d
T estScore
= 557, 8 + 36, 42 ln(Income),
(3, 8) (1, 40)
R̄2 = 0, 561.
(6.18)
In base alla (6.18), un incremento del reddito dell’1% è associato a un incremento medio
del punteggio del test di 0, 01 × 36, 42 = 0, 36 punti.
Per stimare l’effetto atteso su Y di una variazione in X espressa in migliaia di dollari,
la sua unità di misura originaria (non in logaritmi), possiamo usare il metodo esposto nel
concetto chiave 6.1. Ad esempio, qual è la differenza tra il punteggio del test di due distretti,
uno con reddito medio di 10.000$ e l’altro di 11.000$? Il valore stimato di ∆Y è la differenza
tra i valori predetti: ∆Ŷ = [557, 8 + 36, 42 ln(11)] − [557, 8 + 36, 42 ln(10)] = 36, 42 ×
[ln(11) − ln(10)] = 3, 47. In modo simile, la differenza tra un distretto con un reddito medio
di 40.000$ e un distretto con un reddito medio di 41.000$ è 36, 42×[ln(41)−ln(40)] = 0, 90.
Cosı̀, come per la specificazione quadratica, questa regressione prevede che un incremento
di reddito di 1.000$ abbia un effetto maggiore sui punteggi del test nei distretti poveri che in
quelli benestanti.
La funzione di regressione lineare-logaritmica stimata è rappresentata nella figura 6.5.
Siccome il regressore della funzione (6.18) è il logaritmo naturale del reddito, invece che il
208
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 209 — #239
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
livello del reddito, la funzione di regressione stimata non è una linea retta. Come la funzione
di regressione quadratica della figura 6.3, essa è inizialmente ripida ma poi si appiattisce per
livelli di reddito più alti.
Caso II: Y è logaritmica, ma non X. In questo caso, il modello di regressione è
(6.19)
ln(Yi ) = β0 + β1 Xi + ui .
Poiché Y è espressa in logaritmi ma X non lo è, questo è detto modello log-lineare.
Nel modello log-lineare, una variazione unitaria di X (∆X = 1) è associata a una variazione nel 100×β1% di Y . A tal proposito, confrontiamo i valori attesi di ln(Y ) per valori di X
che differiscono di ∆X. Il valore atteso di ln(Y ) data X è ln(Y ) = β0 +β1 X. Dato X +∆X,
il valore atteso è dato da ln(Y + ∆Y ) = β0 + β1 (X + ∆X). Cosı̀, la differenza tra questi
valori attesi è ln(Y + ∆Y ) − ln(Y ) = [β0 + β1 (X + ∆X)] − [β0 + β1 X] = β1 ∆X. Dall’approssimazione (6.16), tuttavia, se β1 ∆X è piccolo, si ottiene ln(Y +∆Y )−ln(Y ) ∼
= ∆Y /Y .
∼
Perciò, ∆Y /Y = β1 ∆X. Se ∆X = 1, cosicché X varia di un’unità, ∆Y /Y varia di β1 .
In termini percentuali, una variazione unitaria di X è associata a una variazione di Y del
100 × β1 %.
Come illustrazione, ritorniamo all’esempio empirico della sezione 3.6, cioè la relazione
tra età e retribuzione dei laureati. Molti contratti d’impiego specificano che, per ogni anno
di servizio aggiuntivo, un lavoratore ha diritto a un certo incremento percentuale del proprio
salario. Questa relazione percentuale suggerisce di utilizzare la specificazione log-lineare
(6.19), cosicché a ogni anno d’età in più (X) sono associate, in media nella popolazione,
variazioni percentuali costanti delle retribuzioni (Y ). Calcolando prima la nuova variabile
dipendente, ln(Earningsi ), i coefficienti incogniti β0 e β1 possono essere stimati attraverso
regressioni OLS di ln(Earningsi ) su Agei . Stimata usando le 12.077 osservazioni sui laureati della Current Population Survey del 1999 (i dati sono descritti nell’appendice 3.1), tale
relazione è
d
ln(Earnings)
= 2, 453 + 0, 0128 Age,
(0, 024) (0, 0006)
R̄2 = 0, 0387.
(6.20)
Secondo questa regressione, ci si attende che le retribuzioni crescano dell’1, 28% ((100 ×
0, 0128)%) per ogni anno d’età in più.
Caso III: X e Y sono entrambe logaritmiche. In questo caso, il modello di regressione è
ln(Yi ) = β0 + β1 ln(Xi ) + ui .
(6.21)
Siccome Y ed X sono entrambe logaritmiche, questo modello è noto come modello log-log.
Nel modello log-log, a una variazione di X dell’1% è associata una variazione di Y di
β1 %. Perciò, in questa specificazione β1 è l’elasticità di Y rispetto a X. A tal proposito,
209
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 210 — #240
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
Figura 6.5: la funzione di regressione lineare-logaritmica
Punteggio test
740
Regressione lineare-logaritmica
720
700
680
660
640
620
600
0
10
20
30
40
50
60
Reddito distretto
(migliaia di dollari)
La funzione di regressione lineare-logaritmica stimata Ŷ = β̂0 + β̂1 ln(X) cattura gran parte della relazione
nonlineare tra punteggi del test e reddito del distretto.
utilizziamo ancora una volta il concetto chiave 6.1, cosicché ln(Y + ∆Y ) − ln(Y ) = [β 0 +
β1 ln(X + ∆X)] − [β0 + β1 ln(X)] = β1 [ln(X + ∆X) − ln(X)]. Approssimando entrambi
i membri di quest’equazione secondo la (6.16), si ottiene
∆Y ∼ ∆X
o
= β1
Y
X
∆Y /Y
100 × (∆Y /Y )
variazione percentuale in Y
β1 =
=
=
.
(6.22)
∆X/X
100 × (∆X/X)
variazione percentuale in X
Perciò, nella specificazione log-log, β1 è il rapporto tra la variazione percentuale di Y e
l’associata variazione percentuale di X. Se la variazione percentuale di X è dell’1% (ovvero,
se ∆X = 0, 01X), allora β1 è la variazione percentuale di Y associata a una variazione di X
Publishing
Services
dell’1%. Electronic
In altre parole,
β1 è l’elasticità
di YInc.
rispetto a X.
Stock/Watson,
Econometrics
1e
Come illustrazione, ritorniamo alla relazione tra reddito e punteggi del test. Quando tale
relazioneSTOC.ITEM.0025
è specificata in questa forma, i coefficienti incogniti sono stimati da una regressione
Fig. dei
06.05
del logaritmo
punteggi del test sul logaritmo del reddito. La risultante funzione stimata è
1st Proof
Proof
3rd Proof R̄2 = Final
d
ln(T estScore)
= 6, 336 2nd
+ 0,
0554 ln(Income),
0, 557.
(0, 006) (0, 0021)
(6.23)
Secondo questa regressione, un incremento del reddito dell’1% corrisponde a un incremento
medio dello 0, 0554% nei punteggi del test.
210
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 211 — #241
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
La stima della funzione di regressione log-log (6.23) è mostrata nella figura 6.6. Siccome
Y è in logaritmi, l’asse verticale della figura 6.6 misura il logaritmo del punteggio del test e il
grafico a nuvola rappresenta il logaritmo dei punteggi del test contro il reddito di un distretto.
A fini di confronto, la figura 6.6 mostra anche la stima della funzione di regressione per la
specificazione log-lineare, che è
d
ln(T estScore)
= 6, 439 + 0, 00284 ln(Income),
(0, 003) (0, 00018)
R̄2 = 0, 497.
(6.24)
Poiché l’asse verticale è in logaritmi, la funzione di regressione stimata (6.24) è la linea retta
della figura 6.6.
Come è possibile vedere nella figura 6.6, la specificazione log-log approssima i dati leggermente meglio della specificazione log-lineare. Ciò è coerente con l’ R̄2 più elevato della
regressione log-log (0, 557) rispetto alla regressione log-lineare (0, 497). Anche cosı̀, la specificazione log-log non si adatta ai dati particolarmente bene: per i redditi più bassi, la maggior parte delle osservazioni giace al di sotto della curva log-log, mentre per i redditi medi la
maggior parte delle osservazioni giace al di sopra della funzione di regressione stimata.
I tre modelli di regressione logaritmica sono riassunti nel concetto chiave 6.2.
Una difficoltà nel confrontare le specificazioni logaritmiche. Tra i modelli di regressione
logaritmica quale si adatta meglio ai dati? Come abbiamo visto nella discussione delle funzioni stimate (6.23) e (6.24), l’R̄2 può essere usato per confrontare i modelli log-lineare e
log-log; quest’ultimo ha un R̄2 più elevato. Similmente, l’R̄2 può essere usato per confrontare la regressione lineare-logaritmica (6.18) e la regressione lineare di Y su X. Nell’esempio
dei punteggi del test e del reddito, la regressione lineare-logaritmica ha un R̄2 di 0, 561, mentre la regressione lineare ha un R̄2 di 0, 508, per cui il modello lineare-logaritmico si adatta
meglio ai dati.
Come possiamo confrontare il modello lineare-logaritmico e il modello log-log? Sfortunatamente, l’R̄2 non può essere usato per confrontare queste due regressioni perché esse
hanno variabili dipendenti diverse (una è Yi , l’altra è ln(Yi )). Si ricordi che l’R̄2 misura la
frazione della varianza della variabile dipendente spiegata dai regressori. Poiché le variabili
dipendenti dei modelli log-log e lineare-logaritmico sono diverse, non ha senso paragonare i
loro R̄2 .
A causa di questo ostacolo, la cosa migliore da fare in una particolare applicazione è decidere, usando la teoria economica e l’esperienza vostra o di altri esperti circa il problema in
questione, se abbia senso specificare Y in logaritmi. Ad esempio, gli economisti del lavoro
modellano in genere le retribuzioni usando i logaritmi perché il confronto dei salari, l’incremento dei salari contrattuali e cosı̀ via sono discussi più facilmente in termini percentuali.
Nel modellare i punteggi del test, sembra naturale (a noi, almeno) discutere i risultati del test
211
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 212 — #242
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
Figura 6.6: funzioni di regressione log-lineare e log-log
ln(punteggio test)
6,60
Regressione log-lineare
6.55
Regressione log-log
6,50
6,45
6,40
0
10
20
30
40
50
60
Reddito distretto
(migliaia di dollari)
Nella funzione di regressione log-lineare, ln(Y ) è una funzione lineare di X . Nella funzione di regressione
log-log, ln(Y ) è una funzione lineare di ln(X)
in termini di punti piuttosto che di incrementi percentuali, per questo motivo usiamo modelli
in cui la variabile dipendente è il punteggio nel test piuttosto che il suo logaritmo.
Calcolo delle previsioni di Y , quando Y è logaritmico.5 Se la variabile dipendente Y
deve essere trasformata in logaritmi, la stima della regressione può essere usata per calcolare
direttamente il valore predetto di ln(Y ). Tuttavia, risulta un po’ più complicato calcolare il
valore predetto di Y .
Consideriamo, infatti, il modello di regressione log-lineare (6.19) e riscriviamolo in modo
da specificarlo in termini di Y invece che di ln(Y ). Pertanto, si prenda l’esponenziale di
Publishing
Services
Inc.
entrambi iElectronic
lati della (6.19);
il risultato
è
Stock/Watson, Econometrics 1e
STOC.ITEM.0026
Yi = exp(β0 + β1 Xi + ui ) = eβ0 +β1 Xi eui .
(6.25)
Fig. 06.06
Se ui è distribuito
indipendentemente
daProof
Xi , allora il valore
atteso di Yi data
Xi è E(Yi Xi ) =
1st
Proof
2nd
3rd Proof
Final
β0 +β1 Xi ui
β0 +β1 Xi
ui
E(e
e Xi ) = e
E(e ). Il problema è che, sebbene E(ui ) = 0, E(eui ) 6= 1.
Perciò, il valore predetto appropriato di Yi non si ottiene semplicemente prendendo l’espo5
Questo materiale è di livello più avanzato e può essere evitato senza soluzione di continuità.
212
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 213 — #243
i
i
6.2. Funzioni non lineari di una singola variabile indipendente
Concetto chiave 6.2: i logaritmi nella regressione: tre casi
I logaritmi possono essere usati per trasformare la variabile dipendente Y , una variabile
indipendente X o entrambe (ma debbono essere positive). La seguente tabella sintetizza
questi tre casi e l’interpretazione del coefficiente di regressione β1 . In ogni caso, β1 può
essere stimato applicando gli OLS dopo aver preso il logaritmo della variabile dipendente
e/o della variabile indipendente.
Caso Regressione
Interpretazione di β1
I
Yi = β0 + β1 ln(Xi ) + ui
II
ln(Yi ) = β0 + β1 Xi + ui
III
ln(Yi ) = β0 +β1 ln(Xi )+ui
Una variazione percentuale dell’1% in X
determina una variazione pari a 0, 01β1 in Y .
Una variazione di un’unità in X (∆X = 1)
determina una variazione pari al 100β1% in Y .
Una variazione pari all’1% in X determina
una variazione pari al β1 % in Y , quindi β1 è
l’elasticità di Y rispetto a X.
nenziale di β̂0 + β̂1 Xi , ovvero, ponendo Ŷi = eβ̂0 +β̂1 Xi , questo valore predetto è distorto a
causa dell’omissione del fattore E(eui ).
Una soluzione a questo problema è stimare il fattore E(eui ) e usare tale stima nel calcolo
del valore predetto di Y , ma ciò diventa complicato e non andremo oltre.
Un’altra “soluzione”, che è l’approccio seguito in questo libro, è calcolare i valori predetti
del logaritmo di Y , senza trasformarli nella loro unità di misura originaria. In pratica, ciò è
spesso accettabile perché, quando la variabile dipendente ha una specificazione logaritmica,
è spesso più naturale usare nell’analisi proprio la specificazione logaritmica (e le relative
interpretazioni in termini di percentuali).
Modelli polinomiali e logaritmici del rapporto tra punteggi del test
e reddito del distretto
In pratica, la teoria economica e l’esperienza potrebbero suggerire una forma funzionale da
usare, ma, alla fine, la forma vera della funzione di regressione della popolazione è ignota. Interpolare una funzione non lineare richiede perciò di decidere quale metodo o combinazione
di metodi funzioni meglio. Come illustrazione, confrontiamo le specificazioni logaritmiche e
quelle polinomiali della relazione tra reddito del distretto e punteggi del test.
213
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 214 — #244
i
i
6.3. Interazioni tra variabili indipendenti
Le specificazioni polinomiali. Abbiamo considerato due specificazioni polinomiali usando
potenze di Income, quadratica (specificazione (6.2)) e cubica (specificazione (6.11)). Poiché
il coefficiente di Income3 nella (6.11) era significativo al 5%, la specificazione cubica costituiva un miglioramento rispetto alla quadratica e abbiamo, perciò, selezionato il modello
cubico come specificazione polinomiale preferita.
Le specificazioni logaritmiche. La specificazione logaritmica (6.18) sembrava fornire una
buona interpolazione dei dati, ma non avevamo verificato formalmente questo risultato. Un
modo per farlo è aggiungere al modello potenze più elevate del logaritmo del reddito. Se questi termini addizionali non sono statisticamente diversi da zero, possiamo allora concludere
che la specificazione (6.18) è adeguata, nel senso che non può essere rifiutata contro una funzione polinomiale del logaritmo. Di conseguenza, la regressione cubica stimata (specificata
nelle potenze del logaritmo del reddito) è
d
T estScore
=
486, 1 + 113, 4 ln(Income) − 26, 9 [ln(Income)]2
(31,7)
(79, 4) (87, 9)
+ 3, 06 [ln(Income)]3 ,
(3, 74)
R̄2 = 0, 560.
(6.26)
La statistica t relativa al coefficiente del termine cubico è 0, 818, e quindi l’ipotesi che
il vero coefficiente sia nullo non è rifiutata al 10%. La statistica F per l’ipotesi congiunta
che i veri coefficienti del termine cubico e quadratico siano entrambi nulli è 0, 44, con un
valore-p di 0, 64; perciò, questa ipotesi congiunta non è rifiutata al livello 10%. Il modello
cubico logaritmico (6.26) non fornisce, quindi, un miglioramento statisticamente significativo
rispetto al modello (6.18), che è lineare nel logaritmo del reddito.
Confronto delle specificazioni cubica e log-lineare. Nella figura 6.7 sono mostrate le funzioni di regressione stimate per la specificazione cubica (6.11) e per la specificazione linearelogaritmica (6.18). Le due funzioni sono abbastanza simili. Uno strumento statistico per confrontare tali specificazioni è l’R̄2 . L’R̄2 è 0, 561 per la regressione logaritmica e 0, 555 per la
regressione cubica. Poiché la specificazione logaritmica ha un piccolo vantaggio in termini
di R̄2 e poiché questa specificazione non richiede polinomi di ordine elevato nel logaritmo
del reddito per adattarsi a questi dati, adottiamo la specificazione logaritmica (6.18).
6.3 Interazioni tra variabili indipendenti
Nell’introduzione a questo capitolo ci siamo chiesti se ridurre il rapporto studenti-insegnanti
possa avere un effetto maggiore sui punteggi del test nei distretti in cui molti studenti stanno
ancora imparando l’inglese rispetto a quelli dove tali studenti sono pochi. Ciò potrebbe, per
esempio, essere determinato dal fatto che gli studenti che stanno ancora imparando l’inglese
214
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 215 — #245
i
i
6.3. Interazioni tra variabili indipendenti
Figura 6.7: le funzioni di regressione lineare-logaritmica e cubica
Punteggio test
740
720
Regressione lineare-logaritmica
700
680
Regressione cubica
660
640
620
600
0
10
20
30
40
50
60
Reddito distretto
(migliaia di dollari)
Le stime della funzione di regressione cubica (equazione (6.11)) e della funzione di regressione
lineare-logaritmica (equazione (6.18)) sono pressoché identiche per questo campione.
ricevono benefici diversi da un’istruzione su base personale oppure impartita a un piccolo
gruppo. Se cosı̀, la presenza in un distretto di molti studenti che ancora apprendono l’inglese
potrebbe interagire con il rapporto studenti-insegnanti in modo tale che l’effetto sui punteggi
del test di una variazione nel rapporto studenti-insegnati dipende dalla frazione di studenti
che ancora apprendono l’inglese.
Questa sezione spiega come incorporare interazioni tra due variabili indipendenti nel modello di regressione multipla. La possibile interazione tra il rapporto studenti-insegnanti e la
frazione di studenti che stanno ancora apprendendo l’inglese è un esempio di una situazione
più generale in cui l’effetto su Y della variazione in una variabile indipendente dipende dal
valore diElectronic
un’altra variabile
indipendente.
i tre casi: quello in cui le variabili
Publishing
Services Considereremo
Inc.
indipendenti
sono entrambe
binarie; quello
Stock/Watson,
Econometrics
1ein cui una è binaria e l’altra è continua; e quello
in cui entrambe
sono continue.
STOC.ITEM.0027
Fig. 06.07
Interazioni 1st
traProof
due variabili
2ndbinarie
Proof
3rd Proof
Final
Consideriamo la regressione del logaritmo delle retribuzioni (Yi , dove Yi = ln(Earningsi ))
su due variabili binarie, il genere dell’individuo (D1i , che è = 1 se l’i-esimo individuo è una
femmina) e se questo ha una laurea (D2i , dove D2i = 1 se l’i-esimo individuo è un maschio).
215
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 216 — #246
i
i
6.3. Interazioni tra variabili indipendenti
La regressione lineare di Yi su queste due variabili è
Yi = β0 + β1 D1i + β2 D2i + ui .
(6.27)
In questo modello di regressione, β1 è l’effetto sul logaritmo delle retribuzioni dell’essere
femmina, tenendo costante il livello d’istruzione, e β2 è l’effetto del possedere una laurea,
tenendo costante il genere.
La specificazione (6.27) ha un’importante limitazione: l’effetto di possedere una laurea,
tenendo costante il genere, è lo stesso per maschi e femmine. Non c’è tuttavia ragione per cui
questo debba essere cosı̀. In termini matematici, l’effetto di D2i su Yi , tenendo D1i costante,
potrebbe dipendere dal valore di D1i . In altre parole, ci potrebbe essere un’interazione tra il
genere e il fatto di possedere una laurea, di modo che il valore sul mercato del lavoro di un
titolo di studio risulti diverso per maschi e femmine.
Sebbene la specificazione (6.27) non permetta questa interazione tra genere e possesso di
un titolo di studio, è facile modificarla in modo da includere come regressore il prodotto delle
due variabili binarie, D1i × D2i . La regressione risultante è
Yi = β0 + β1 D1i + β2 D2i + β3 (D1i × D2i ) + ui .
(6.28)
Il nuovo regressore, il prodotto D1i × D2i , è detto termine d’interazione o regressore d’interazione e il modello di regressione (6.28) è detto modello di regressione con interazione
tra variabili binarie.
Il termine d’interazione nella (6.28) permette che l’effetto tra il logaritmo delle retribuzioni (Yi ) dell’avere una laurea (cambiando D2i da D2i = 0 a D2i = 1) possa dipendere dal
genere (D1i ). Per mostrare ciò matematicamente, calcoliamo l’effetto sulla popolazione di
una variazione di D2i , usando il metodo generale delineato nel concetto chiave 6.1. Il primo
passo è calcolare l’aspettativa condizionata di Y per D2i = 0, dato un valore di D1i ; questa
è E(Yi D1i = d1 , D2i = 0) = β0 + β1 × d1 + β2 × 0 + β3 × (d1 × 0) = β0 + β1 d1 .
Il passo successivo è calcolare l’aspettativa condizionata di Yi dopo la variazione, ovvero per D2i = 1, dato lo stesso valore di D1i ; questo è E(Yi D1i = d1 , D2i = 1) =
β0 + β1 × d1 + β2 × 1 + β3 × (d1 × 1) = β0 + β1 d1 + β2 + β3 d1 . L’effetto di questa
variazione è la differenza tra i valori attesi (ovvero, la differenza nella formula (6.6)), che è
E(Yi D1i = d1 , D2i = 1) − E(Yi D1i = d1 , D2i = 0) = β2 + β3 d1 .
(6.29)
Perciò, nella specificazione (6.28) con interazione tra variabili binarie, l’effetto dell’ottenere una laurea (una variazione unitaria in D2i ) dipende dal genere dell’individuo (il valore di
D1i , che è d1 nella (6.29)). Se l’individuo è un maschio (d1 = 0), l’effetto del possedere una
laurea è β2 , ma se l’individuo è una femmina (d1 = 1), l’effetto è β2 + β3 . Il coefficiente β3
del termine d’interazione è la differenza nell’effetto dovuto al possesso di un titolo di studio
tra donne e uomini.
216
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 217 — #247
i
i
6.3. Interazioni tra variabili indipendenti
Sebbene questo esempio sia stato presentato usando il logaritmo delle retribuzioni, il
genere e il fatto di possedere una laurea, il punto ha carattere più generale. La regressione
con interazione tra variabili binarie fa dipendere l’effetto della variazione di una delle variabili
indipendenti binarie dal valore dell’altra variabile binaria.
Il metodo che abbiamo usato per interpretare i coefficienti consiste, in effetti, nel considerare ogni possibile combinazione tra le variabili binarie. Tale metodo, che si applica a tutte
le regressioni con variabili binarie, è riassunto nel concetto chiave 6.3.
Applicazione al rapporto studenti-insegnanti e alla percentuale di studenti che stanno
ancora apprendendo l’inglese. Sia HiST Ri (acronimo dall’inglese High Student-Teacher
Ratio) una variabile binaria, che è uguale a uno se il rapporto studenti-insegnanti è 20 o
maggiore ed è uguale a zero altrimenti, e sia HiELi (acronimo dall’inglese High English
Learners) una variabile binaria che è uguale a uno se la percentuale di studenti che ancora
apprendono l’inglese è almeno il 10% ed è uguale a zero altrimenti. La regressione con
interazione dei punteggi nel test su HiST Ri e HiELi è
d
T estScore
= 664, 1 − 18, 2 HiEL − 1, 9 HiST R − 3, 5 (HiST R × HiEL), (6.30)
(1, 4) (2, 3)
(1, 9)
(3, 1)
R̄2 = 0, 290.
L’effetto predetto del passaggio da un distretto con un basso rapporto studenti-insegnanti
a uno con un alto rapporto studenti-insegnanti, tenendo costante la percentuale di studenti che
ancora apprendono l’inglese, è dato dalla (6.29), sostituendo i coefficienti della popolazione
con i coefficienti stimati. Secondo la stima (6.30), tale effetto è −1, 9 − 3, 5HiEL. Perciò,
se la frazione di chi apprende ancora l’inglese è bassa (HiEL = 0), l’effetto sui punteggi
del test di un passaggio da HiST R = 0 a HiST R = 1 è un decremento di 1, 9 punti. Se la
frazione di studenti che ancora apprendono l’inglese è alta, i punteggi del test subiscono un
decremento stimato di 1, 9 + 3, 5 = 5, 4 punti.
La regressione stimata (6.30) può anche essere usata per stimare i punteggi medi del
test per ciascuna delle quattro combinazioni possibili delle variabili binarie. Questo si può
fare usando le procedure nel concetto chiave 6.3. Di conseguenza, la media campionaria dei
punteggi del test per i distretti con basso rapporto studenti-insegnanti (HiST R i = 0) e bassa
frazione di studenti che ancora imparano l’inglese (HiELi = 0) è 664, 1. Per i distretti con
HiST Ri = 1 (un rapporto elevato studenti-insegnanti) e HiELi = 0 (bassa frazione di
studenti che ancora apprendono l’inglese), la media campionaria è 662, 2 (= 664, 1 − 1, 9).
Quando HiST Ri = 0 e HiELi = 1, la media campionaria è 645, 9 (= 664, 1 − 18, 2) e,
quando HiST Ri = 1 e HiELi = 1, la media campionaria è 640, 5 (= 664, 1 − 18, 2 −
1, 9 − 3, 5).
217
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 218 — #248
i
i
6.3. Interazioni tra variabili indipendenti
Concetto chiave 6.3: un metodo per interpretare i coefficienti
delle regressioni con variabili binarie
Si calcolino anzitutto i valori attesi di Y per ogni possibile caso descritto dal gruppo di
variabili binarie. Si confrontino poi questi valori attesi. Ogni coefficiente può essere
espresso, come valore atteso oppure come la differenza tra due o più valori attesi.
Interazioni tra una variabile continua e una binaria
Consideriamo la regressione del logaritmo delle retribuzioni (Yi = ln(Earningsi )) su una
variabile continua, gli anni di esperienza lavorativa dell’individuo (X i ) e una variabile binaria, che indichi il fatto che il lavoratore abbia una laurea (Di , dove Di = 1 se la i-esima
persona è laureata). Come mostrato nella figura 6.8, ci sono tre diversi modi in cui la retta di regressione che mette in relazione Y con la variabile continua X può dipendere dalla
variabile binaria D.
Nella figura 6.8a, le due rette di regressione differiscono solo nell’intercetta. Il modello
di regressione corrispondente è
Y i = β 0 + β 1 Xi + β 2 Di + u i .
(6.31)
Questo è il familiare modello di regressione multipla con una funzione di regressione che è
lineare in Xi e Di . Quando Di = 0, la retta di regressione della popolazione è β0 + β1 Xi ,
dove l’intercetta è β0 e la pendenza è β1 . Quando Di = 1, la funzione di regressione è
β0 + β1 Xi + β2 , cosı̀ la pendenza resta β1 ma l’intercetta diventa β0 + β2 . Perciò, β2
è la differenza tra le intercette delle due rette di regressione, come mostrato nella figura
6.8a. Nell’esempio relativo alle retribuzioni, β1 è l’effetto sul logaritmo delle retribuzioni
di un anno addizionale di esperienza lavorativa, tenendo costante lo status di laureato, e β 2
è l’effetto del conseguimento di una laurea sul logaritmo delle retribuzioni, tenendo costanti
gli anni di esperienza lavorativa. In questa specificazione, l’effetto di una anno aggiuntivo di
esperienza lavorativa è lo stesso per laureati e non laureati, cioè le due rette della figura 6.8a
hanno la stessa pendenza.
Nella figura 6.8b, le due rette hanno pendenze e intercette diverse. Le pendenze diverse
fanno sı̀ che l’effetto di un anno addizionale di lavoro differisca tra laureati e non laureati. Per
permettere alle pendenze di essere diverse, si aggiunga un termine d’interazione al modello
(6.31):
Yi = β0 + β1 Xi + β2 Di + β3 (Xi × Di ) + ui ,
(6.32)
dove Xi × Di è una nuova variabile, il prodotto di Xi e Di . Per interpretare i coefficienti
di questa regressione, applichiamo la procedura nel concetto chiave 6.3. Cosı̀ facendo, si
218
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 219 — #249
i
i
6.3. Interazioni tra variabili indipendenti
Figura 6.8: funzioni di regressione con variabili binarie e continue
Y
Y
β 0 +β 2
β0
β 0 +β 2
(β 0 +β 2 )+(β 1 +β 3 )X
(β 0 +β 2 )+β 1 X
β0
pendenza = β 1 +β 3
pendenza = β 1
β 0 +β 1 X
β 0 +β 1 X
slope = β 1
X
X
Intercette diverse, pendenze uguali
(b) Intercette diverse, pendenze diverse
(a)
Y
β0
β 0 + (β 1 +β 2 )X
pendenza = β 1 +β 2
β 0 +β 1 X
pendenza = β 1
X
(c) Intercette uguali, pendenze diverse
Le interazioni tra variabili binarie e continue possono produrre tre diverse funzioni di regressione: (a) β 0 +
β1 X + β2 D ammette che ci siano intercette diverse ma la stessa pendenza; (b) β0 + β1 X + β2 D + β3 (X × D)
con intercette diverse e pendenze diverse; (c) β0 + β1 X + β2 (X × D) ha la stessa intercetta ma permette che
le pendenze siano diverse.
vede che se Di = 0 la funzione di regressione della popolazione è β0 + β1 Xi , mentre se
Di = 1 essa diventa (β0 + β2 ) + (β1 + β3 )Xi . Perciò questa specificazione dà luogo a
due diverse funzioni di regressione che legano Yi e Xi , a seconda del valore assunto da Di ,
come mostrato nella figura 6.8b. La differenza tra le due intercette è β 2 e la differenza tra
le due pendenze è β3 . Nell’esempio delle retribuzioni, β1 è l’effetto di un anno addizionale
di esperienza lavorativa per i non laureati (Di = 0) e β1 + β3 è l’effetto corrispondente
per i laureati, cosicché β3 è la differenza nell’effetto di un anno addizionale di esperienza
lavorativa tra i laureati e i non laureati.
Una terza possibilità, mostrata nella figura 6.8c, è che le due rette abbiano diverse pendenze ma la stessa intercetta. In questo caso, il modello di regressione con interazione
è
Electronic Publishing Services Inc.
Yi = β0 + βEconometrics
× Di ) + u i .
1 Xi + β2 (Xi1e
Stock/Watson,
STOC.ITEM.0028
Fig. 06.08
1st Proof
2nd Proof
3rd Proof
(6.33)
219
Final
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 220 — #250
i
i
6.3. Interazioni tra variabili indipendenti
Anche i coefficienti di questa specificazione possono essere interpretati usando il concetto
chiave 6.3. Nell’esempio relativo alle retribuzioni, questa specificazione permette di considerare effetti diversi dell’esperienza sul logaritmo delle retribuzioni dei laureati e dei non
laureati, ma ciò richiede che il valore atteso del logaritmo delle retribuzioni sia lo stesso per
entrambi i gruppi quando questi siano privi di esperienza lavorativa. In altre parole, questa
specificazione corrisponde al caso in cui il livello medio del salario d’entrata nella popolazione sia lo stesso per laureati e non laureati. Nell’applicazione considerata, ciò non ha molto
senso, e in pratica questa specificazione è utilizzata meno frequentemente della (6.32), che
permette intercette e pendenze diverse.
Le tre specificazioni (6.31), (6.32) e (6.33) sono tutte varianti del modello di regressione
multipla del capitolo 5 e, una volta creata la variabile Xi × Di , i loro coefficienti possono
essere stimati con gli OLS.
I tre modelli di regressione con una variabile binaria e una variabile indipendente continua
sono riassunti nel concetto chiave 6.4.
Applicazione al rapporto studenti-insegnanti e alla percentuale di coloro che apprendono l’inglese. L’effetto sui punteggi del test di una riduzione nel rapporto studenti-insegnanti
dipende dal fatto che la percentuale di studenti che ancora apprendono l’inglese sia alta o
bassa? Un modo di rispondere a questa domanda è usare una specificazione che permette due
diverse rette di regressione, a seconda che la percentuale di studenti che ancora apprendono l’inglese sia alta o bassa. Ciò si ottiene usando la specificazione con intercetta diversa e
pendenza diversa:
d
ln(T estScore)
= 682, 2 − 0, 97 ST R + 5, 6 HiEL − 1, 28 (ST R × HiEL) (6.34)
(11, 9) (0, 59)
(19, 5)
(0, 97)
R̄2 = 0, 305,
dove la variabile binaria HiELi è uguale a uno se la percentuale di studenti che ancora
apprendono l’inglese nel distretto è maggiore del 10%, ed è pari a zero altrimenti.
Per distretti dove la frazione di studenti che apprendono l’inglese (HiEL i = 0) è bassa,
la retta di regressione stimata è 682, 2 − 0, 97 ST Ri . Per i distretti con una frazione elevata
di studenti che ancora imparano l’inglese (HiELi = 1), la retta di regressione stimata è
682, 2+5, 6−0, 97 ST Ri −1, 28 ST Ri = 687, 8−2, 25 ST Ri . Secondo queste stime, ridurre
di un’unità il rapporto studenti-insegnanti farebbe aumentare i punteggi del test di 0, 97 punti
nei distretti con bassa frazione di studenti che ancora apprendono l’inglese e di 2, 25 punti
nei distretti con un’alta frazione di studenti che ancora stanno apprendendo l’inglese. La
differenza tra questi due effetti, 1, 28 punti, è il coefficiente del termine d’interazione nella
(6.34).
La regressione (6.34) può essere usata per sottoporre a verifica svariate ipotesi circa la
retta di regressione della popolazione. In primo luogo, l’ipotesi che le due rette siano in realtà
220
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 221 — #251
i
i
6.3. Interazioni tra variabili indipendenti
Concetto chiave 6.4: interazioni tra variabili binarie e continue
Attraverso l’uso del termine d’interazione Xi × Di , la retta di regressione che mette in
relazione Yi e la variabile continua Xi può avere una pendenza che dipende dalla variabile
binaria Di . Ci sono tre possibilità:
1. intercetta diversa, stessa pendenza (figura 6.8a):
Y i = β 0 + β 1 Xi + β 2 Di + u i ;
2. intercetta e pendenza diverse (figura 6.8b):
Yi = β0 + β1 Xi + β2 Di + β3 (Xi × Di ) + ui ;
3. stessa intercetta, pendenza diversa (figura 6.8c):
Yi = β0 + β1 Xi + β2 (Xi × Di ) + ui .
uguali può essere verificata calcolando la statistica F per l’ipotesi congiunta che il coefficiente
di HiELi e il coefficiente del termine d’interazione ST Ri × HiELi siano entrambi nulli.
Questa statistica F è 89, 9 ed è significativa al livello 1%. In secondo luogo, l’ipotesi che
le due rette abbiano la stessa pendenza può essere testata verificando che il coefficiente del
termine d’interazione sia nullo. La statistica t, pari a −1, 28/0, 97 = −1, 32, è minore di
1, 645 in valore assoluto, e quindi l’ipotesi nulla che le due rette abbiano la stessa pendenza
non può essere rifiutata usando un test bilaterale di livello 10%. In terzo luogo, l’ipotesi che
le rette abbiano la stessa intercetta può essere testata verificando che il coefficiente di HiEL
sia nullo. La statistica t è uguale a t = 5, 6/19, 5 = 0, 29, e quindi l’ipotesi che le rette
abbiano la stessa intercetta non può essere rifiutata al livello 5%.
Questi tre test producono risultati apparentemente contraddittori: il test che utilizza la
statistica F rifiuta l’ipotesi congiunta che l’intercetta e la pendenza siano le stesse, ma i test
per le singole ipotesi che fanno uso della statistica t non rifiutano. La ragione di ciò è che
i regressori HiEL e ST R × HiEL sono fortemente correlati. Questo dà luogo a errori
standard elevati per i singoli coefficienti. Sebbene sia impossibile dire quale dei coefficienti
sia non nullo, vi è forte evidenza contro l’ipotesi che entrambi siano nulli.
Infine, l’ipotesi che il rapporto studenti-insegnanti non entri in questa specificazione può
essere verificata calcolando la statistica F per l’ipotesi congiunta che i coefficienti di ST R
e del termine d’interazione siano entrambi nulli. Questa statistica F è pari a 5, 64, con un
valore-p di 0, 004. Perciò, i coefficienti del rapporto studenti-insegnanti sono significativi al
221
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 222 — #252
i
i
6.3. Interazioni tra variabili indipendenti
livello 1%.
Interazioni tra due variabili continue
Supponiamo ora che entrambe le variabili indipendenti (X1i e X2i ) siano continue. Un esempio è quando Yi è il logaritmo della retribuzione dell’i-esimo lavoratore, X1i è il numero di
anni di esperienza lavorativa, e X2i è il numero di anni di frequenza scolastica. Se la funzione di regressione è lineare, l’effetto sui salari di un anno addizionale di esperienza non
dipende dal numero di anni di esperienza lavorativa. In realtà, tuttavia, ci potrebbe essere
un’interazione tra queste due variabili, cosicché l’effetto sui salari di un anno addizionale di
esperienza dipenderebbe dal numero di anni di istruzione. Tale interazione può essere modellata aggiungendo al modello di regressione lineare un termine d’interazione dato dal prodotto
di X1i e X2i :
Yi = β0 + β1 X1i + β2 X2i + β3 (X1i × X2i ) + ui .
(6.35)
Il termine d’interazione permette all’effetto di una variazione unitaria in X 1 di dipendere
da X2 . Per vedere questo, si applichi il metodo generale, presentato nel concetto chiave
6.1, per calcolare gli effetti nei modelli di regressione non lineari. La differenza nella (6.6),
calcolata per la funzione di regressione con interazione (6.35), è ∆Y = (β 1 + β3 X2 )∆X1
(esercizio 6.5(a)). Perciò, l’effetto su Y di una variazione in X1 , tenendo costante X2 , è
∆Y
= β 1 + β 3 X2 ,
∆X1
(6.36)
che dipende da X2 . Ad esempio, nel caso delle retribuzioni, se β3 fosse positivo, l’effetto sul logaritmo delle retribuzioni di un anno di esperienza addizionale crescerebbe di un
ammontare pari a β3 per ogni anno in più di istruzione posseduta dal lavoratore.
Un calcolo simile mostra che l’effetto su Y di una variazione ∆X2 di X2 , tenendo
costante X1 , è ∆Y /∆X2 = (β2 + β3 X1 ).
Mettendo insieme questi due effetti, si mostra che il coefficiente β3 del termine d’interazione è l’effetto aggiuntivo di un incremento unitario di X1 e X2 , che si somma all’effetto individuale di un incremento unitario in X1 da sola e in X2 da sola. In altre
parole, se X1 variasse di ∆X1 e X2 variasse di ∆X2 , la variazione attesa in Y sarebbe
∆Y = (β1 + β3 X2 )∆X1 + (β2 + β3 X1 )∆X2 + β3 ∆X1 ∆X2 (esercizio 6.5(c)). Il primo
termine è l’effetto che deriva da una variazione in X1 , tenendo costante X2 ; il secondo termine è l’effetto di una variazione in X2 , tenendo costante X1 ; il termine finale, β3 ∆X1 ∆X2 , è
l’effetto addizionale di una variazione sia in X1 sia in X2 .
Le interazioni tra due variabili sono riassunte nel concetto chiave 6.5.
Quando le interazioni sono combinate con trasformazioni logaritmiche, esse possono essere usate per stimare le elasticità ai prezzi, nel caso in cui tali elasticità dipendono dalle
caratteristiche dei beni (si veda il riquadro per un esempio).
222
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 223 — #253
i
i
6.3. Interazioni tra variabili indipendenti
La domanda di riviste economiche
Gli economisti di professione seguono con
attenzione le più recenti ricerche nelle proprie aree di specializzazione. La maggior
parte delle ricerche economiche appare inizialmente nelle riviste economiche, perciò
gli economisti –o le loro biblioteche– si
abbonano a tali riviste.
Quanto è elastica la domanda di riviste
economiche delle biblioteche? Per scoprirlo, abbiamo analizzato la relazione tra il numero di abbonamenti a una rivista effettuati
dalle biblioteche USA (Yi ) e il suo prezzo di
abbonamento per le biblioteche, utilizzando i
dati dell’anno 2000 relativi a 180 riviste economiche. Siccome il prodotto di una rivista
non è la carta sulla quale è stampata, ma piuttosto le idee che essa contiene, appare logico
misurare il suo prezzo non in dollari per anno
o in dollari per pagina ma, invece, in dollari
per idea. Benché non sia possibile misurare le “idee” direttamente, una buona misura
indiretta è il numero di volte che gli articoli
in una rivista sono successivamente citati da
altri ricercatori. Di conseguenza, misuriamo
il prezzo come “prezzo per citazione” nella
rivista. La variabilità dei prezzi è enorme, da
0, 5 centesimi per citazione (American Economic Review) a 20 centesimi o più per citazione. Alcune riviste sono costose perché
hanno poche citazioni, altre perché l’abbonamento annuo per le biblioteche è elevato:
nel 2000, l’abbonamento al Journal of Econometrics è costato a una biblioteca quasi
1.900$, 40 volte il prezzo dell’abbonamento
all’American Economic Review!
Siccome ci interessa stimare le elasticità,
utilizziamo una specificazione log-log (concetto chiave 6.2). I grafici a nuvola delle figure 6.9a e 6.9b forniscono un supporto empirico per questa trasformazione. Siccome alcune delle riviste più antiche e più prestigiose
sono anche le più economiche per citazione,
una regressione del logaritmo della quantità
sul logaritmo del prezzo potrebbe contenere
una distorsione da variabile omessa. Le nostre regressioni includono, perciò, due variabili di controllo, il logaritmo dell’“età della
rivista” e il logaritmo del numero di caratteri
contenuti nella rivista in un anno.
I risultati della regressione sono mostrati nella tabella 6.1. Tali risultati suggeriscono le seguenti conclusioni (si cerchi
il fondamento di queste conclusioni nella
tabella!):
1. la domanda è meno elastica per le riviste più antiche che per quelle più
nuove;
2. l’evidenza empirica indica una funzione lineare nel logaritmo del prezzo,
invece che cubica;
3. la domanda è maggiore per i giornali che contengono un maggior numero
di caratteri, tenendo costanti prezzo ed
età.
Continua
223
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 224 — #254
i
i
6.3. Interazioni tra variabili indipendenti
Figura 6.9: abbonamenti delle biblioteche e prezzi delle riviste economiche
Abbonamenti
ln(abbonamenti)
1200
8
1000
7
6
800
5
4
3
600
400
2
200
0
0
1
5
10
15
20
0
-6 -5 -4 -3 -2 -1 0
25
1
2
3
4
ln(prezzo per citazione)
Prezzo per citazione
(a) Abbonamenti e prezzo
per citazione
(b) ln(sottoscrizioni) e
ln(prezzo per citazione)
ln(abbonamenti)
8
7
6
5
4
3
2
Domanda quando Age = 5
Domanda quando
Age = 80
1
0
-6 -5 -4 -3 -2 -1 0
1
2
3
4
ln(prezzo per citazione)
(c)
ln(abbonamenti) e ln(prezzo per citazione)
C’è una relazione inversa non lineare tra il numero di abbonamenti delle biblioteche negli USA (quantità) e il
prezzo di abbonamento per citazione (prezzo), come mostrato nella figura 6.9a per 180 riviste di economia nel
2000. Come visto nella figura 6.9b, però, la relazione tra logaritmo della quantità e logaritmo del prezzo sembra
essere approssimativamente lineare. La figura 6.9c mostra che la domanda è più elastica per le riviste più recenti
(Age = 5) che per quelle più antiche (Age = 80).
Continua
224
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0029
Fig. 06.09
1st Proof
i
i
2nd Proof
3rd Proof
Final
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 225 — #255
i
i
6.3. Interazioni tra variabili indipendenti
Tabella 6.1: stima della domanda di riviste economiche
Variabile dipendente: logaritmo degli abbonamenti sottoscritti dalle biblioteche USA nel 2000;
180 osservazioni.
Regressore
ln(Prezzo per citazione)
(1)
(2)
(3)
(4)
-0,533∗∗
(0,034)
-0,408∗∗
(0,044)
-0,899∗∗
(0,145)
0,206∗
(0,098)
3,21∗∗
(0,38)
-0,961∗∗
(0,60)
0,017
(0,025)
0,0037
(0,0055)
0,373∗∗
(0,118)
0,156∗∗
(0,052)
0,235∗
(0,098)
3,41∗∗
(0,38)
0,705
0,607
0,25
(0,779)
0,691
0,622
[ln(Prezzo per citazione)]2
[ln(Prezzo per citazione)]3
ln(Età)
0,424∗∗
(0,119)
ln(Età)*ln(Prezzo per citazione)
ln(Caratteri ÷ 1.000.000)
Intercetta
4,77∗∗
(0,055)
0,374∗∗
(0,118)
0,141∗∗
(0,040)
0,229∗
(0,096)
3,43∗∗
(0,38)
Statistiche F e statistiche descrittive
Statistica F per la significatività dei coefficienti del
termine quadratico e del termine cubico (p-value)
SER
R̄2
0,750
0,555
0,688
0,626
La statisitca F verifica l’ipotesi che i coefficienti di [ln(Prezzo per citazione)]2 e di [ln(Prezzo per citazione)]2 siano
entrambi nulli. Gli errori standard e i valori-p sono riportati in parentesi, rispettivamente, sotto i coefficienti e alle
statistiche F . I coefficienti sono singolarmente significativi al livello ∗ 5% o ∗∗ 1%.
Continua
225
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 226 — #256
i
i
6.3. Interazioni tra variabili indipendenti
Perciò, qual è l’elasticità della domanda di riviste economiche? Dipende dall’età
della rivista. Le curve di domanda per una
rivista di 80 anni e una di 5 anni sono sovrapposte al grafico a nuvola nella figura
6.9c. L’elasticità della domanda di riviste
più antiche è −0, 28 (SE = 0, 06), mentre per le riviste più giovani essa è −0, 67
(SE = 0, 08).
Questa domanda è davvero inelastica:
reagisce molto poco al prezzo, specialmente per le riviste più antiche. Per le biblioteche, avere a disposizione le ricerche più
recenti è una necessità, non un lusso. Per
fare un paragone, gli esperti stimano che
l’elasticità della domanda di sigarette vari
tra −0, 3 a −0, 5. A quanto pare, le riviste
economiche creano dipendenza come le sigarette –ma fanno molto meglio alla nostra
salute!a
a Questi dati sono stati cortesemente forniti dal Professor Theodore Bergstrom del Dipartimento di Economia
dell’Università della California, Santa Barbara. Per un approfondimento sulle economie delle riviste economiche,
si veda Bergstrom (2001).
Applicazione al rapporto studenti-insegnanti e alla percentuale di studenti che ancora
apprendono l’inglese. Gli esempi precedenti consideravano le interazioni tra il rapporto
studenti-insegnanti e una variabile binaria indicante se la percentuale di studenti che ancora
apprendono l’inglese è grande o piccola. Un modo diverso per studiare tale interazione è
quello di esaminare l’interazione tra il rapporto studenti-insegnanti e la variabile continua
che descrive la percentuale di studenti che ancora apprendono l’inglese (P ctEL). In questo
caso, la regressione con interazione stimata è
d
ln(T estScore)
= 686, 3 − 1, 12 ST R− 0, 67 P ctEL+ 0, 0012 (ST R×P ctEL), (6.37)
(11, 8) (0, 59)
(0, 37)
(0, 019)
R̄2 = 0, 422.
Quando la percentuale di studenti che ancora apprendono l’inglese è pari al valore mediano (P ctEL = 8, 85), la stima della pendenza della retta che mette in relazione punteggi
nei test e rapporto studenti-insegnanti è pari a −1, 11 (= −1, 12 + 0, 0012 × 8, 85). Quando la percentuale di studenti che ancora apprendono l’inglese è pari al settantacinquesimo
percentile (P ctEL = 23, 0), la retta stimata è più piatta, con una pendenza pari a −1, 09
(= −1, 12 + 0, 0012 × 23, 0). In altri termini, per un distretto dove l’8, 85% di studenti
apprende ancora l’inglese, l’effetto stimato di una riduzione unitaria del rapporto studentiinsegnanti è di incrementare i punteggi del test di 1, 11 punti, ma per un distretto dove il
23, 0% degli studenti ancora apprende l’inglese, si stima che ridurre il rapporto studentiinsegnanti di un’unità possa incrementare i punteggi del test di soli 1, 09 punti. La differenza
tra questi effetti stimati, tuttavia, non è statisticamente significativa: la statistica t che te226
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 227 — #257
i
i
6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test
Concetto chiave 6.5: le interazioni nella regressione multipla
Il termine d’interazione tra le due variabili dipendenti X1 e X2 è il loro prodotto X1 × X2 .
L’inclusione di tale termine d’interazione permette all’effetto su Y di una variazione in
X1 di dipendere dal valore di X2 e, in modo corrispondente, permette all’effetto di una
variazione in X2 di dipendere dal valore di X1 .
Il coefficiente di X1 × X2 è l’effetto aggiuntivo di un incremento unitario di X1 e X2 ,
che si somma all’effetto individuale di una variazione unitaria di X1 da sola e di X2 da
sola. Questo è vero indipendentemente dal fatto che X1 e/o X2 siano continue o binarie.
sta se il coefficiente del termine d’interazione è nullo è t = 0, 0012/0, 019 = 0, 06, e non
significativa al 10%.
Per mantenere la discussione sui modelli non lineari, le specificazioni delle sezioni 6.1-6.3
escludono variabili di controllo addizionali come la condizione economica degli studenti. Di
conseguenza, è plausibile che questi risultati siano soggetti a distorsione da variabile omessa. Per trarre conclusioni definitive circa l’effetto sui punteggi del test di una riduzione nel
rapporto studenti-insegnanti, queste specificazioni non lineari debbono essere integrate con
variabili di controllo, un esercizio sul quale ritorneremo in seguito.
6.4 Effetti non lineari del rapporto studenti-insegnanti sui
punteggi del test
Questa sezione considera tre domande specifiche che riguardano la relazione tra i punteggi
del test e il rapporto studenti-insegnanti. Supponiamo di aver controllato per le differenze tra
le condizioni economiche nei diversi distretti. La prima domanda è se l’effetto sui punteggi
del test della riduzione nel rapporto studenti-insegnanti dipenda dalla frazione di studenti che
ancora apprendono l’inglese. La seconda domanda è se tale effetto dipenda dal valore del
rapporto studenti-insegnanti. La terza e più importante domanda è la seguente: dopo aver
preso in considerazione fattori economici e non linearità, qual è l’effetto stimato sui punteggi
del test di una riduzione del rapporto studenti-insegnanti di due studenti per insegnante cosı̀
come proposto dal nostro provveditore nel capitolo 4?
Risponderemo a queste domande considerando specificazioni non lineari delle regressioni
simili a quelle discusse nelle sezioni 6.2 e 6.3, ma estese al fine di includere due misure della
condizione economica degli studenti: la percentuale di studenti che usufruiscono di buoni
pasto e il logaritmo del reddito medio nel distretto. Includiamo il logaritmo del reddito perché
l’analisi empirica della sezione 6.2 suggerisce che questa specificazione cattura la relazione
227
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 228 — #258
i
i
6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test
non lineare tra punteggi del test e reddito. Come nella sezione 5.12, non includiamo come
regressore la spesa per scolaro e cosı̀ facendo stiamo considerando l’effetto della riduzione
nel rapporto studenti-insegnanti, permettendo alle spese per scolaro di crescere (ovvero, non
teniamo ferme le spese per scolaro).
Discussione dei risultati della regressione
I risultati della regressione degli OLS sono riassunti nella tabella 6.2. Ciascuna delle colonne
indicate con i numeri da (1) a (7) riporta una regressione diversa. La tabella contiene i coefficienti, gli errori standard, alcune statistiche F con i loro valori-p e le statistiche descrittive,
come indicato dalla descrizione in ciascuna riga.
La prima colonna di risultati, indicata nella tabella come regressione (1), è la regressione
(4) della tabella 5.2 riprodotta qui per convenienza. Poiché questa regressione non controlla
per il reddito, la prima cosa che facciamo è verificare se i risultati cambiano sostanzialmente
quando il logaritmo del reddito viene incluso come variabile di controllo addizionale. I risultati sono riportati nella regressione (2) della tabella 6.2. Il logaritmo del reddito è significativo
al livello 1% e il coefficiente del rapporto studenti-insegnanti tende a muoversi verso lo zero,
passando da −1, 00 a −0, 73, sebbene rimanga significativo al livello 1%. La variazione nel
coefficiente di ST R tra le regressioni (1) e (2) è abbastanza elevata da giustificare l’inclusione del logaritmo del reddito nelle rimanenti regressioni al fine di evitare la distorsione da
variabile omessa.
La regressione (3) nella tabella 6.2 è la regressione con interazione (6.34), con la variabile
binaria per la percentuale di studenti che ancora apprendono l’inglese (alta o bassa), ma
nessuna variabile di controllo di tipo economico. Quando le variabili di controllo di tipo
economico (percentuale di studenti che usufruiscono dei buoni pasto e logaritmo del reddito)
vengono aggiunte (regressione (4) della tabella), i coefficienti cambiano, ma il coefficiente
del termine d’interazione non è mai significativo al livello 5%. Sulla base dell’evidenza
rappresentata dalla regressione (4), l’ipotesi che l’effetto di ST R sia lo stesso per distretti con
percentuali alte o basse di studenti che ancora apprendono l’inglese non può essere rifiutata
al 5% (la statistica t è t = −0, 58/0, 50 = −1, 16).
La regressione (5) esamina se l’effetto di una variazione nel rapporto studenti-insegnanti
dipenda dal valore di tale rapporto includendo una specificazione cubica in ST R, in aggiunta
alle altre variabili di controllo della regressione (4) (il termine d’interazione HiEL × ST R
è stato eliminato, dal momento che nella regressione (4) non era significativo al livello 10%).
Le stime della regressione (5) sono coerenti con l’ipotesi che il rapporto studenti-insegnanti
abbia un effetto non lineare. L’ipotesi nulla che la relazione sia lineare è rifiutata al livello
1% contro l’alternativa che sia cubica (la statistica F per l’ipotesi nulla che i veri coefficienti
di ST R2 e ST R3 siano nulli è 6, 17, con un valore-p inferiore a 0, 001).
228
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 229 — #259
i
i
6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test
Tabella 6.2: Modelli di regressione non-lineari dei punteggi del test
variabile dipendente: media dei punteggi del test nel distretto; 420 osservazioni.
Regressori
ST R
(1)
-1,00∗∗
(0,27)
(2)
-0,73∗∗
(0,26)
-0,122∗∗
(0,033)
-0,176∗∗
(0,034)
(3)
-0,97
(0,59)
(4)
-0,53
(0,34)
(5)
64,33∗∗
(24,86)
-3,42∗∗
(1,25)
0,059∗∗
(0,021)
(6)
83,70∗∗
(28,50)
-4,38∗∗
(1,44)
0,075∗∗
(0,024)
5,64
(19,51)
-1,28
(0,97)
5,50
(9,80)
-0,58
(0,50)
-5,47∗∗
(1,03)
682,2∗∗
(11,9)
-0,411∗∗
(0,029)
12,12∗∗
(1,80)
653,6∗∗
(9,9)
-0,420∗∗
(0,029)
11,75∗∗
(1,78)
252,0
(163,6)
816,1*
(327,7)
-123,3*
(50,2)
6,12*
(2,54)
-0,101*
(0.043)
-0,418∗∗
(0,029)
11,80∗∗
(1,78)
122,3
(185,5)
5,64
(0,004)
5,92
(0,003)
6,31
(<0,001)
6,17
(<0,001)
15,88
0,305
8,63
0,795
8,56
0,798
ST R2
ST R3
% studenti non madrelingua
% studenti non madrelingua
≥ 10%? (Binario, HiEL)
HiEL × ST R
HiEL × ST R2
HiEL × ST R3
% aventi diritto al
sussidio mensa
reddito medio nel distretto
(logaritmo)
Intercetta
-0,547∗∗
(0,024)
700,1∗∗
(5,6)
-0,398∗∗
(0,033)
11,57∗∗
(1,81)
658,6∗∗
(8,6)
Statistiche F e valori-p per le
ipotesi congiunte
(a) tutte le variabili ST R
e le interazioni = 0
(b) ST R2 e ST R3 = 0
(c) HiEL × ST R, HiEL×
ST R2 ,HiEL × ST R3 = 0
SER
R̄2
9,08
0,773
8,64
0,794
4,96
(<0,001)
5,81
(0,003)
2,69
(0,046)
8,55
0,799
(7)
65,29∗∗
(25,26)
-3,47∗∗
(1,27)
0,060∗∗
(0,021)
-0,166∗∗
(0,034)
-0,402∗∗
(0,033)
11,51∗∗
(1,81)
244,8
(165,7)
5,91
(0,001)
5,96
(0,003)
8,57
0,798
Queste regressioni sono state stimate utilizzando i dati sui distretti scolastici K-8 della California, descritti nell’appendice 4.1. Gli errori standard sono riportati in parentesi sotto i coefficienti e i valori-p sono riportati in parentesi
sotto le statistiche F . I coefficienti sono singolarmente significativi al livello ∗ 5% o ∗∗ 1%.
La regressione (6) esamina ulteriormente se l’effetto del rapporto studenti-insegnanti dipenda non soltanto dal valore di tale rapporto, ma anche dalla frazione di studenti che ancora
apprendono l’inglese. Includendo l’interazione tra HiEL e ST R, ST R 2 e ST R3, possiamo
229
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 230 — #260
i
i
6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test
verificare se le (probabilmente cubiche) funzioni di regressione della popolazione che mettono in relazione i punteggi del test e ST R sono diverse per percentuali alte o basse di studenti
che ancora apprendono l’inglese. Per far ciò, testiamo la restrizione che i coefficienti dei tre
termini d’interazione siano nulli. La statistica F risultante è 2, 69, con un valore-p di 0, 046,
ed è perciò significativa al 5% ma non all’1%. Questo fornisce una qualche evidenza che le
funzioni di regressione sono diverse per distretti con percentuali diverse di studenti che ancora apprendono l’inglese; tuttavia, paragonando le regressioni (6) e (4) si nota che le differenze
sono quelle associate ai termini quadratici e cubici.
La regressione (7) è una variante della regressione (5), in cui si usa la variabile continua
P ctEL al posto della variabile binaria HiEL per controllare la percentuale di studenti nel
distretto che ancora apprendono l’inglese. I coefficienti degli altri regressori non subiscono
variazioni sostanziali quando si apporta questa modifica, il che indica che i risultati della
regressione (5) non sono sensibili a quale misura della percentuale di studenti che ancora
apprendono l’inglese venga effettivamente utilizzata nella regressione.
In tutte le specificazioni, l’ipotesi che il rapporto studenti-insegnanti non entri nelle regressioni è rifiutata al livello 1%.
Le specificazioni non lineari della tabella 6.2 sono più facili da interpretare graficamente.
La figura 6.10 sovrappone al grafico a nuvola dei dati le funzioni di regressione stimate che
mettono in relazione i punteggi del test e il rapporto studenti-insegnanti per la specificazione lineare (2) e le specificazioni cubiche (5) e (7)6 . Queste funzioni di regressione stimate
mostrano la previsione dei punteggi nel test come funzione del rapporto studenti-insegnanti,
tenendo fissi i valori delle altre variabili indipendenti. Le funzioni di regressione stimate giacciono tutte l’una accanto all’altra, sebbene le regressioni cubiche si appiattiscano per valori
elevati del rapporto studenti-insegnanti.
La regressione (6) indica una differenza significativa tra le regressioni cubiche che mettono in relazione punteggi del test e ST R, a seconda che la percentuale di studenti che ancora apprendono l’inglese sia grande o piccola. La figura 6.11 presenta le due funzioni di
regressione stimate, in modo da vedere se questa differenza, oltre a essere statisticamente
significativa, sia anche di rilevanza pratica. Come mostra la figura 6.11, per rapporti studentiinsegnanti tra 17 e 23 –un intervallo che comprende l’88% delle osservazioni– le due funzioni
sono separate approssimativamente da dieci punti, altrimenti sarebbero molto simili; in altre
parole, per ST R tra 17 e 23, i distretti con una più bassa percentuale di studenti che apprendono l’inglese fanno meglio, tenendo costante il rapporto studenti-insegnanti, ma l’effetto
di una variazione nel rapporto studenti-insegnanti è essenzialmente lo stesso per i due grup6
Per ogni curva, il valore predetto è stato calcolato ponendo ogni variabile indipendente, oltre a ST R, pari alla
propria media campionaria e moltiplicando questi valori per i rispettivi coefficienti stimati secondo la tabella 6.2. Il
procedimento è stato ripetuto per diversi valori di ST R e il grafico dei risultanti valori predetti aggiustati è la retta
di regressione stimata che mette in relazione i punteggi nel test e ST R, tenendo le altre variabili ferme alla proprie
medie campionarie.
230
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 231 — #261
i
i
6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test
Figura 6.10: tre funzioni di regressione che mettono in relazione i punteggi dei test con il
rapporto studenti-insegnanti
Punteggio test
720
700
Regressione cubica(5)
Regressione cubica(7)
Regressione lineare(2)
680
660
640
620
600
12
14
16
18
20
22
24
26
28
Rapporto studenti-insegnanti
Le regressioni cubiche delle colonne (5) e (7) della tabella 6.2 sono pressoché identiche. Queste indicano una
nonlinearità poco evidente nella relazione tra punteggi del test e rapporto studenti-insegnanti.
pi. Le due funzioni di regressione sono diverse per rapporti studenti-insegnanti inferiori a
16, 5, ma dobbiamo essere cauti e non leggere in questo più di quanto sia giustificabile. I
distretti con ST R < 16, 5 costituiscono solo il 6% delle osservazioni, perciò le differenze
tra le funzioni di regressione non lineari riflettono le differenze tra questi pochissimi distretti
con rapporti studenti-insegnanti molto piccoli. Quindi, in base alla figura 6.11, concludiamo che l’effetto sui punteggi nel test di una variazione nel rapporto studenti-insegnanti non
dipende dalla percentuale di studenti che ancora imparano l’inglese per valori del rapporto
studenti-insegnanti compresi nell’intervallo nel quale cade la maggior parte dei dati.
Sintesi dei risultati
Electronic
PublishingdiServices
Inc.alle tre domande poste all’inizio di questa
I risultati ottenuti
ci consentono
rispondere
sezione. Stock/Watson, Econometrics 1e
STOC.ITEM.0030
In primo
luogo, dopo aver controllato per la condizione economica, il fatto che un diFig.
06.10
stretto abbia molti
o pochi studenti che ancora apprendono l’inglese non ha un’influenza
1st
2nd Proof
3rd Proof
Final nel rapporto
sostanziale sul modoProof
in cui i punteggi
del test rispondono
a una variazione
studenti-insegnanti. Nelle specificazioni lineari, non vi è evidenza statisticamente significa231
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 232 — #262
i
i
6.4. Effetti non lineari del rapporto studenti-insegnanti sui punteggi del test
Figura 6.11: funzioni di regressione per distretti con percentuali alte e basse di studenti
che apprendono l’inglese
Punteggio test
720
700
Funzione di regressione
(HiEL = 0)
680
660
640
620
Funzione di regressione
(HiEL = 1)
600
12
14
16
18
20
22
24
26
28
Rapporto studenti-insegnanti
I distretti con basse percentuali di studenti che apprendono l’inglese (HiEL = 0) sono indicate dai punti in
grigio scuro e i distretti con HiEL = 1 sono indicati dai punti in grigio chiaro. La funzione di regressione cubica
per HiEL = 1 dalla regressione (6) nella tabella 6.2 giace approssimativamente 10 punti sotto la funzione di
regressione cubica per HiEL = 0 per 17 ≤ ST R ≤ 23; altrimenti, le due funzioni hanno andamento e
pendenza simili in questo intervallo. Le pendenze delle funzioni di regressione differiscono molto per valori
molto piccoli e molto grandi di ST R, dove ci sono poche osservazioni.
tiva di differenze. La specificazione cubica della regressione (6) fornisce evidenza (al livello
di significatività 5%) che le funzioni di regressione sono diverse per distretti con alte e basse percentuali di studenti che ancora apprendono l’inglese; come mostrato nella figura 6.11,
però, le funzioni di regressione stimate hanno pendenze simili nell’intervallo che contiene la
maggior parte dei dati sul rapporto studenti-insegnanti.
In secondo luogo, dopo aver controllato per la condizione economica, c’è evidenza di
un effetto non lineare del rapporto studenti-insegnanti sul punteggio nel test. Tale effetto è
significativo all’1% (i coefficienti di ST R2 e ST R3 sono sempre significativi al livello 1%).
Electronic Publishing Services Inc.
In terzoStock/Watson,
luogo, possiamoEconometrics
ritornare al problema
del provveditore che ha introdotto il capi1e
tolo 4. Questi
vuole conoscere l’effetto sul punteggio del test di una riduzione nel rapporto
STOC.ITEM.0031
studenti-insegnanti
di due studenti per insegnante. Nella specificazione lineare (2), tale efFig. 06.11
fetto non dipende dal rapporto studenti-insegnanti e l’effetto stimato di questa riduzione è
1st Proof
2nd Proof
3rd Proof
Final
un incremento nei punteggi del test pari a 1, 46 (= −0, 73 × −2) punti. Nelle specificazioni non lineari, questo effetto dipende invece dal valore del rapporto studenti-insegnanti.
232
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 233 — #263
i
i
6.5. Conclusioni
Se il suo distretto avesse un rapporto studenti-insegnanti pari a 20 e il provveditore stesse
valutando l’opportunità di ridurlo a 18, sulla base della regressione (5) l’effetto stimato di
questa riduzione è un miglioramento del punteggio del test di 3, 00 punti, mentre sulla base
della regressione (7) questa stima è pari a 2, 93 punti. Se invece il suo distretto avesse un
rapporto studenti-insegnati di 22 e stesse valutando l’ipotesi di ridurlo a 20, l’effetto stimato
di questa riduzione, in base alla regressione (5), sarebbe un incremento dei punteggi di 1, 93
punti, mentre in base alla regressione (7) sarebbe di 1, 90 punti. Le stime derivanti dalle specificazioni non lineari suggeriscono che tagliare il rapporto studenti-insegnanti ha un effetto
maggiore, se tale rapporto è già piccolo.
6.5 Conclusioni
Questo capitolo ha presentato diversi metodi per modellare funzioni di regressione non lineari. Poiché questi modelli sono varianti del modello di regressione multipla, i coefficienti
ignoti possono essere stimati attraverso gli OLS e le ipotesi sui valori che essi assumono
possono essere verificate usando le statistiche t ed F, come descritto nel capitolo 5. In tali modelli, l’effetto atteso su Y di una variazione in una delle variabili indipendenti, X 1 ,
lasciando costanti le altre, X2 , . . . , Xk , dipende in genere dai valori di X1 , X2 , . . . , Xk .
Ci sono molti modelli diversi in questo capitolo, e non potete certo essere biasimati se
siete incerti su quale utilizzare in una data applicazione. Come analizzare in pratica le possibili non linearità? La sezione 6.1 mostra un approccio generale per tale analisi, ma esso
richiede che a un certo punto si prendano delle decisioni e si facciano delle scelte. Sarebbe
conveniente che ci fosse una singola ricetta da seguire che funzionasse in ogni applicazione,
ma l’analisi empirica dei dati raramente è cosı̀ semplice.
Il solo passo veramente importante nella specificazione di funzioni di regressione non
lineari è “usare la testa”. Prima di guardare i dati, si può pensare a una ragione, basata sulla
teoria economica o sull’esperienza, per la quale la pendenza della funzione di regressione della popolazione potrebbe dipendere dal valore di questa o quest’altra variabile indipendente?
Se cosı̀, che tipo di dipendenza ci si dovrebbe attendere? E, cosa più importante, quali non
linearità (se ce ne sono) potrebbero avere implicazioni importanti per le questioni sostanziali
che sono oggetto di studio? Rispondere con cura a queste domande permette di focalizzare
l’analisi. Nell’applicazione ai punteggi del test, ad esempio, tale ragionamento ci spinge a investigare se assumere più insegnanti possa avere un effetto maggiore nei distretti con un’alta
percentuale di studenti che ancora apprendono l’inglese, magari perché quegli studenti beneficerebbero diversamente da una maggiore attenzione personale. Formulando la questione
con precisione, siamo stati in grado di trovare una risposta precisa: dopo aver controllato per
la condizione economica degli studenti, non abbiamo riscontrato alcuna evidenza statistica di
tale interazione.
233
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 234 — #264
i
i
Sommario
Sommario
1. In una regressione non lineare la pendenza della funzione di regressione della popolazione dipende dal valore di una o più variabili indipendenti.
2. L’effetto della variazione su Y in una variabile indipendente (o più) può essere calcolata
valutando la funzione di regressione in corrispondenza di due valori della variabile
indipendente (delle variabili indipendenti). Il procedimento è riassunto nel concetto
chiave 6.1.
3. Una regressione polinomiale include potenze di X come regressori. Una regressione
quadratica include X e X 2 e una regressione cubica comprende X, X 2 e X 3 .
4. Piccole variazioni nei logaritmi possono essere interpretate come variazioni proporzionali o percentuali in una variabile. La specificazione logaritmica di una regressione è
utilizzata al fine di stimare variazioni proporzionali e elasticità.
5. Il prodotto di due variabili è detto termine d’interazione. Quando i termini d’interazione sono inclusi come regressori, si permette che il coefficiente di una variabile dipenda
dal valore di un’altra variabile.
Termini chiave
modello di regressione quadratico (196)
funzione di regressione non lineare (199)
modello di regressione polinomiale (203)
modello di regressione cubico (203)
elasticità (206)
funzione esponenziale (206)
logaritmo naturale (206)
modello lineare-logaritmico (208)
modello log-lineare (209)
modello log-log (209)
termine d’interazione (216)
regressore d’interazione (216)
modello di regressione con interazione (216)
Verifica dei concetti
6.1 Si disegni una funzione crescente (che abbia una pendenza positiva) e ripida per valori
di X piccoli ma sia meno inclinata per valori di X grandi. Si spieghi quale specificazione dare a una regressione non lineare per modellare tale forma. Quale relazione
economica potrebbe avere un andamento simile?
6.2 Una certa produzione (Q) dipende dai fattori produttivi capitale (K), lavoro (L) e
materie prime (M ) e a un errore u sulla base di una funzione di produzione “CobbDouglas” Q = λK β1 Lβ2 M β3 eu , dove λ, β1 , β2 e β3 sono parametri di produzione.
Siano noti i dati sulla produzione e i fattori produttivi per un campione casuale di
234
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 235 — #265
i
i
Sommario
imprese con la stessa funzione di produzione Cobb-Douglas. Come stimare i parametri
di produzione utilizzando l’analisi di regressione?
6.3 Una semplice funzione di “domanda di moneta” usata dai macroeconomisti ha la forma
ln(m) = β0 + β1 ln(GDP ) + β2 R, dove m è la quantità di moneta (reale), GDP è il
valore del prodotto interno lordo (reale) e R è il valore del tasso d’interesse nominale
misurato in percentuali annue. Si supponga che β1 = 1, 0 e β2 = −0, 02. Cosa
accadrebbe al valore di m, se GDP aumentasse del 2%? Cosa accadrebbe al valore di
m, se il tasso d’interesse aumentasse dal 4% al 5%?
6.4 Avete stimato un modello di regressione della relazione tra Y e X. Il vostro insegnante
afferma: “ritengo che la relazione tra Y e X sia non lineare”. Come verifichereste
l’adeguatezza della regressione lineare?
6.5 Si supponga di ritenere che nel problema 6.2 il valore di β2 non sia costante, ma che
piuttosto cresca al crescere di K. Come usare un termine d’interazione per catturare
tale effetto?
Esercizi
6.1 Le vendite di un’azienda ammontano a 196 milioni di $ nel 2001 e aumentano a 198
milioni di $ nel 2002.
a. Si calcoli l’aumento percentuale nelle vendite, usando la comune formula 100 ×
Sales02 −Sales01
. Si confronti questo valore all’approssimazione 100(ln(Sales02 )−
Sales01
ln(Sales01 )).
b. Si ripeta la parte (a) assumendo che: Sales02 = 205; Sales02 = 250; Sales02 =
500.
c. Quando la variazione è piccola, qual è la bontà di questa approssimazione? Al
crescere della variazione percentuale, peggiora la qualità dell’approssimazione?
6.2 Si supponga che un ricercatore raccolga i dati sulle abitazioni che sono state vendute in
un particolare quartiere nell’ultimo anno e che ottenga da alcune regressioni i risultati
riportati nella tabella seguente:
a. usando i risultati della colonna (1), quale sarebbe la variazione attesa nel prezzo
se l’abitazione fosse 500 piedi quadrati più grande? Si costruisca un intervallo di
confidenza al 95% per la variazione percentuale del prezzo;
b. dal confronto tra le colonne (1) e (2), si ritiene sia meglio usare Size o ln(Size)
per spiegare i prezzi delle abitazioni?
235
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 236 — #266
i
i
Sommario
Variabile dipendente: ln(P rice)
Regressore
(1)
(2)
(3)
(4)
(5)
0,69
(0,054)
0,68
(0,087)
0,57
(2,03)
0,0078
(0,14)
0,69
(0,055)
0,082
(0,032)
0,037
(0,029)
0,071
(0,034)
0,027
(0,028)
0,0036
(0,037)
0,071
(0,034)
0,026
(0,026)
0,071
(0,036)
0,027
(0,029)
0,13
(0,045)
10,97
(0,069)
0,12
(0,035)
6,60
(0,39)
0,12
(0,035)
6,63
(0,53)
0,12
(0,036)
7,02
(7,50)
0,071
(0,035)
0,027
(0,030)
0,0022
(0,10)
0,12
(0,035)
6,60
(0,40)
0,102
0,72
0,098
0,74
0,099
0,73
0,099
0,73
0,099
0,73
0,00042
(0,000038)
Size
ln(Size)
ln(Size)2
Bedrooms
P ool
V iew
P ool × view
Condition
Intercept
Statistiche descrittive
SER
R̄2
c. usando la colonna (2), qual è l’effetto stimato sul prezzo della presenza di una
piscina? (Si faccia attenzione a utilizzare l’unità di misura corretta.) Si costruisca
un intervallo di confidenza al 95% per questo effetto;
d. la regressione della colonna (3) aggiunge il numero di camere da letto alle altre
variabili. Qual è l’effetto stimato di una camera da letto addizionale? Questo
effetto è statisticamente significativo? Perché l’effetto stimato è cosı̀ piccolo?
(Suggerimento: quali altre variabili sono tenute costanti?);
e. il termine quadratico ln(Size)2 è rilevante?
236
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 237 — #267
i
i
Sommario
f. si utilizzi la regressione nella colonna (5) per calcolare la variazione attesa del
prezzo di un’abitazione senza vista panoramica, quando si aggiunge una piscina.
Si ripeta l’esercizio per una casa con vista panoramica. C’è grande differenza?
Questa differenza è statisticamente significativa?
6.3 Dopo aver esaminato l’analisi condotta in questo capitolo su punteggi del test e dimensione delle classi, un insegnante commenta: “sulla base della mia esperienza, la prestazione degli studenti dipende dalla dimensione delle classi, ma non nel modo spiegato
dalla regressione. Piuttosto, gli studenti rendono molto quando la classe contiene meno di 20 studenti e molto poco quando ne contiene più di 25. Non vi è guadagno nel
ridurre la dimensione delle classi a meno di 20 studenti, la relazione è costante nella regione intermedia tra 20 e 25 studenti e dall’aumento della dimensione delle classi non
deriva alcuna perdita, se questa è già maggiore di 25”. L’insegnante sta descrivendo un
“effetto soglia”, in cui la prestazione è costante per classi di dimensioni che variano tra
20 e 25 e poi subisce un salto quando le classi hanno più di 25 studenti. Per modellare
questi effetti soglia, si definiscano le variabili binarie
ST Rsmall = 1 se ST R < 20 e ST Rsmall = 0 altrimenti
ST Rmoderate = 1 se 20 ≤ ST R ≤ 25 e ST Rmoderate = 0 altrimenti
ST Rlarge = 1 se ST R > 25 e ST Rlarge = 0 altrimenti
a. Si consideri la regressione T estScorei = β0 +β1 ST Rsmalli +β2 ST Rlargei +
ui . Si disegni una funzione di regressione che metta in relazione T estScore e
ST R utilizzando per i coefficienti di regressione dei valori ipotetici che siano
però consistenti con l’affermazione dell’insegnante.
b. Un ricercatore vuole stimare la regressione T estScorei = β0 +β1 ST Rsmalli +
β2 ST Rmoderatei + β3 ST Rlargei + ui e il suo computer si blocca. Perché?
6.4 Si spieghi come usare l’“approccio 2” della sezione 5.8 per calcolare l’intervallo di
confidenza discusso dopo la formula (6.8). (Suggerimento: ciò richiede di stimare una
nuova regressione usando una definizione diversa di regressori e variabile dipendente.
Si veda l’esercizio (5.8)).
6.5 Si consideri il modello di regressione Yi = β0 + β1 X1i + β2 X2i + β3 (X1i × X2i ) + ui .
Si usi il concetto chiave 6.1 per provare che:
a.
b.
∆Y
∆X1
∆Y
∆X1
= β1 + β3 X2 (l’effetto di una variazione in X1 tenendo costante X2 );
= β2 + β3 X1 (l’effetto di una variazione in X2 tenendo costante X1 );
c. se X1 varia di ∆X1 e X2 varia di ∆X2 , allora ∆Y = (β1 + β3 X2 )∆X1 + (β2 +
β3 X1 )∆X2 + β3 ∆X1 ∆X2 .
237
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 238 — #268
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 239 — #269
i
i
Capitolo 7
Valutazione di studi basati sulla
regressione multipla
I tre capitoli precedenti hanno spiegato come usare la regressione multipla per analizzare la
relazione tra le variabili di un insieme di dati. In questo capitolo facciamo un passo indietro
e ci chiediamo: cosa rende uno studio basato sulla regressione multipla affidabile o inaffidabile? Ci focalizziamo su studi statistici che hanno l’obiettivo di stimare l’effetto causale
della variazione di alcune variabili indipendenti, come la dimensione delle classi, su una variabile dipendente, come i punteggi dei test. Con riferimento a tali studi, ci chiediamo inoltre
quando la regressione multipla fornisce una stima utile dell’effetto causale e, cosa altrettanto
importante, quando non vi riesce.
Per rispondere a tale domanda, questo capitolo presenta uno schema di riferimento per
valutare studi statistici in generale, indipendentemente dal fatto che utilizzino o meno l’analisi di regressione. Questo schema di riferimento si basa sui concetti di validità interna ed
esterna. Uno studio è internamente valido, se le sue inferenze statistiche sugli effetti causali
sono valide per la popolazione e il contesto studiati; è esternamente valido, se le sue inferenze possono essere generalizzate ad altre popolazioni e ad altri contesti. Nelle sezioni 7.1 e
7.2, discutiamo la validità interna ed esterna, elenchiamo alcune possibili minacce alla validità interna ed esterna, e discutiamo come identificarle nelle applicazioni. Alcune di queste
minacce non possono essere gestite con gli strumenti econometrici introdotti finora e questo
capitolo fornisce un’anteprima dei metodi per affrontarle, che saranno studiati nei restanti
capitoli di questo libro.
Per illustrare la questione della validità interna ed esterna, nella sezione 7.3 valutiamo la
validità interna ed esterna dello studio sull’effetto della diminuzione del numero di studenti
per insegnante sui punteggi del test presentato nei capitoli 4-6.
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 240 — #270
i
i
7.1. Validità interna ed esterna
7.1 Validità interna ed esterna
I concetti di validità interna ed esterna, definiti nel concetto chiave 7.1, forniscono uno schema di riferimento per valutare se uno studio statistico o econometrico sia utile per rispondere
a una specifica domanda di interesse.
I due concetti distinguono tra la popolazione e il contesto studiati e la popolazione e il
contesto ai quali si generalizzano i risultati. La popolazione oggetto di studio è la popolazione delle entità –individui, imprese, distretti scolastici e cosı̀ via– dalla quale è stato estratto
il campione; la popolazione alla quale si generalizzano i risultati, o popolazione d’interesse,
è la popolazione delle entità alle quali si applicano le inferenze causali derivate dallo studio.
Ad esempio, il preside di una scuola superiore potrebbe voler generalizzare i nostri risultati riguardanti la dimensione delle classi e i punteggi del test nelle scuole elementari della
California (la popolazione studiata) alla popolazione delle scuole superiori (la popolazione
d’interesse).
Per “contesto” intendiamo l’ambiente istituzionale, legale, sociale ed economico. Ad
esempio, potrebbe essere importante sapere se i risultati di un esperimento di laboratorio che
valuta metodi organici per coltivare i pomodori potrebbero essere generalizzati alle coltivazioni in pieno campo, ovvero se i metodi organici che funzionano in ambiente di laboratorio
sono validi anche nel contesto del mondo reale. Proporremo altri esempi di differenza nelle
popolazioni e nel contesto più avanti in questa sezione.
Minacce alla validità interna
La validità interna ha due componenti. In primo luogo, lo stimatore dell’effetto causale dovrebbe essere non distorto e consistente. Ad esempio, se β̂ST R è lo stimatore OLS dell’effetto
sui punteggi del test di una variazione unitaria del rapporto studenti-insegnanti in una certa
regressione, β̂ST R dovrebbe essere uno stimatore non distorto e consistente del vero effetto
casuale nella popolazione di una variazione nel rapporto studenti-insegnanti, β ST R . In secondo luogo, i test d’ipotesi dovrebbero avere il livello di significatività desiderato (il tasso di
rifiuto effettivo del test sotto l’ipotesi nulla dovrebbe essere uguale al livello di significatività
desiderato) e gli intervalli di confidenza dovrebbero avere il livello di confidenza desiderato.
Ad esempio, se un intervallo di confidenza è costruito come β̂ST R ± 1, 96 SE(β̂ST R ), esso
dovrebbe contenere il vero effetto casuale, βST R , con una probabilità del 95% in campioni
ripetuti.
Nell’analisi di regressione, gli effetti causali sono stimati usando la funzione di regressione stimata e i test di ipotesi condotti usando i coefficienti della regressione stimata e i
rispettivi errori standard. Di conseguenza, in uno studio basato su una regressione OLS, i
requisiti per la validità interna sono che lo stimatore OLS sia non distorto e consistente e
che gli errori standard siano calcolati in modo tale che gli intervalli di confidenza abbiano
240
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 241 — #271
i
i
7.1. Validità interna ed esterna
Concetto chiave 7.1: validità interna ed esterna
Un’analisi statistica è internamente valida se le inferenze statistiche sugli effetti causali
sono validi per la popolazione oggetto di studio. L’analisi è esternamente valida se le
sue inferenze e conclusioni possono essere generalizzate dalla popolazione e dal contesto
studiati ad altre popolazioni e contesti.
il livello di confidenza desiderato. Questo potrebbe non accadere per varie ragioni e queste
ragioni rappresentano altrettante minacce alla validità interna. Queste minacce riguardano
la violazione di una o più ipotesi dei minimi quadrati (vedi concetto chiave 5.4). Per esempio, un problema del quale abbiamo già discusso ampiamente è la distorsione da variabile
omessa; essa è dovuta alla correlazione tra uno o più regressori e l’errore, violando cosı̀ la
prima ipotesi dei minimi quadrati. Se i dati riguardanti la variabile omessa sono disponibili,
il problema può essere evitato includendo tale variabile come regressore aggiuntivo.
La sezione 7.2 contiene una discussione dettagliata delle varie minacce alla validità interna nell’analisi della regressione multipla e di come mitigarle.
Minacce alla validità esterna
Potenziali minacce alla validità esterna derivano dalle differenze tra la popolazione e il contesto studiati e la popolazione e il contesto oggetto d’interesse.
Differenze nelle popolazioni. Le differenze tra la popolazione studiata e la popolazione d’interesse possono costituire un ostacolo alla validità esterna. Ad esempio, studi di laboratorio
sugli effetti tossici dei prodotti chimici utilizzano solitamente popolazioni di animali come
i topi (la popolazione studiata), ma i risultati sono usati per scrivere regolamenti riguardanti
la salute e la salvaguardia della popolazione umana (la popolazione d’interesse). Se i topi
e gli uomini differiscano in maniera tale da minare la validità esterna di questi studi è una
questione da discutere.
Più in generale, il vero effetto causale potrebbe non essere lo stesso nella popolazione
studiata e nella popolazione d’interesse. Questo perché la popolazione è stata scelta in un
modo che la rende diversa dalla popolazione d’interesse, a causa di dissomiglianze nelle
caratteristiche delle popolazioni, per differenze geografiche o perché lo studio è obsoleto.
Differenze di contesto. Anche se la popolazione studiata e la popolazione d’interesse fossero
identici, potrebbe non essere possibile generalizzare i risultati dello studio se il contesto fosse
diverso. Ad esempio, uno studio dell’effetto di una campagna pubblicitaria contro l’eccesso
241
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 242 — #272
i
i
7.1. Validità interna ed esterna
di alcolici tra gli universitari potrebbe non essere generalizzabile a un altro identico gruppo
di studenti se l’età legale per bere alcolici fosse diversa tra le due università. In questo caso,
il contesto legale in cui lo studio è stato condotto differisce da quello al quale si applicano i
suoi risultati.
Più in generale, esempi di differenze di contesto includono le differenze tra gli ambiti
istituzionali (università pubbliche rispetto a università religiose), le differenze di legislazione
(differenze tra l’età legale per bere alcolici) o le diversità dell’ambiente fisico (l’eccesso di
alcolici nelle feste goliardiche nel sud della California rispetto a quelle che si tengono a
Fairbanks, Alaska).
Applicazione ai punteggi del test ed al rapporto studenti-insegnanti. I capitoli 5 e 6
hanno riportato stime di miglioramenti dei punteggi del test, statisticamente significativi ma
sostanzialmente piccoli, risultanti da una riduzione nel rapporto studenti-insegnanti. Tale
analisi era basata sui risultati del test nei distretti scolastici della California. Supponiamo per
il momento che questi risultati siano validi internamente. A quali altre popolazioni e contesti
d’interesse potrebbero essere generalizzati?
Più la popolazione e l’ambiente di studio sono simili a quelli d’interesse, più forte è l’argomento a favore della validità esterna. Ad esempio, gli studenti e l’istruzione universitari
sono molto diversi dagli studenti e dall’istruzione elementari, perciò è poco plausibile che
l’effetto di una riduzione nella dimensione delle classi stimato usando i dati per le scuole elementari della California si possano estendere alle università. D’altro canto, gli studenti di una
scuola elementare, i programmi e l’organizzazione sono grosso modo simili in tutti gli Stati
Uniti; quindi, è plausibile che i risultati relativi alla California possano essere generalizzati
alle prestazioni nei test standardizzati di altre scuole elementari negli Stati Uniti.
Come valutare la validità esterna di uno studio. La validità esterna deve essere giudicata
usando la conoscenza specifica della popolazione e del contesto studiato e di quelli oggetto
d’interesse. Differenze importanti tra i due fanno sorgere dubbi sulla validità esterna dello
studio.
Talvolta sono disponibili due o più studi relativi a popolazioni diverse ma collegate. Se
cosı̀, la validità esterna di entrambi gli studi può essere verificata confrontando i loro risultati.
Ad esempio, nella sezione 7.3 analizziamo i dati sui punteggi del test e la dimensione delle
classi per i distretti scolastici del Massachusetts e confrontiamo i risultati del Massachusetts
con quelli della California. In generale, risultati simili mostrati da due o più studi rafforzano
la pretesa di validità esterna, mentre differenze nei risultati non facilmente spiegabili fanno
sorgere dubbi sulla loro validità esterna.1
1 Il confronto di molti studi sullo stesso soggetto è chiamato meta analisi. Per esempio, la discussione del
capitolo 5 sull’ “effetto Mozart” è basato sulla meta analisi. Svolgere una meta analisi di molti studi comporta
problemi specifici. Come separare gli studi ben fatti da quelli mal condotti? Come confrontare studi dove le variabili
242
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 243 — #273
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
Come disegnare uno studio esternamente valido. Siccome le minacce alla validità esterna derivano da una mancanza di confrontabilità tra popolazioni e contesti diversi, è meglio
cercare di minimizzare queste minacce nelle primi fasi di uno studio, prima che i dati siano
raccolti. Il modo in cui si disegna uno studio va oltre gli obiettivi di questo manuale e il
lettore interessato è rinviato a Shadish, Cook e Campbell (2002).
7.2 Minacce alla validità interna dell’analisi
di regressione multipla
Gli studi basati sull’analisi di regressione sono internamente validi se i coefficienti di regressione stimati sono non distorti e consistenti e se i loro errori standard producono intervalli
di confidenza con il livello desiderato. Questa sezione passa in rassegna cinque ragioni per
cui lo stimatore OLS dei coefficienti di una regressione multipla potrebbe essere distorto,
anche in grandi campioni: variabili omesse, incorretta specificazione della forma funzionale della funzione di regressione, misura imprecisa della variabile indipendente (“errori nelle
variabili”), selezione del campione e causalità simultanea. Queste cinque fonti di distorsione
derivano tutte dal fatto che il regressore è correlato con il termine d’errore nella regressione
a livello di popolazione, violando cosı̀ la prima ipotesi dei minimi quadrati (concetto chiave
5.4). Per ciascuna di queste fonti, discutiamo cosa può essere fatto per ridurre tale distorsione. La sezione si conclude con una discussione delle circostanze che determinano errori
standard inconsistenti e di cosa può essere fatto a questo proposito.
La distorsione da variabile omessa
Si ricordi che la distorsione da variabile omessa nasce quando viene omessa una variabile
dalla regressione, che è una determinante di Y ed è correlata con uno o più dei regressori
inclusi. Questa distorsione persiste anche in grandi campioni, e quindi lo stimatore OLS è
inconsistente. Come minimizzare la distorsione da variabile omessa dipende dal fatto che
siano o meno disponibili i dati per la variabile omessa potenziale.
Soluzioni alla distorsione da variabile omessa quando la variabile omessa è osservata.
Se abbiamo dati sulla variabile omessa, possiamo includere questa variabile in una regressione multipla, risolvendo cosı̀ il problema. Ad ogni modo, aggiungere una nuova variabile
comporta sia costi sia benefici. Da un lato, tralasciare la variabile potrebbe generare una didipendenti differiscono? Bisogna dare più peso a uno studio ampio o a uno limitato? Una discussione della meta
analisi e dei sui problemi specifici va oltre gli obiettivi di questo libro. Si rinvia il lettore interessato a Hedges e
Olkin (1985) e Cooper e Hedges (1994).
243
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 244 — #274
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
storsione da variabile omessa. Dall’altro lato, includere una variabile quando questa non è
parte della regressione (cioè, quando il suo coefficiente di regressione è pari a zero) riduce la
precisione degli stimatori degli altri coefficienti di regressione. In altre parole, la decisione
di includere o meno una variabile dà luogo a un trade-off tra distorsione e varianza delle
stime dei coefficienti d’interesse. In pratica, vi sono quattro passaggi che possono aiutarci a
decidere se includere o meno una variabile o un gruppo di variabili in una regressione.
Il primo passaggio richiede di identificare i coefficienti chiave d’interesse nella regressione. Nelle regressioni relative ai punteggi del test, il coefficiente chiave è quello relativo
al rapporto studenti-insegnanti, poiché la domanda posta inizialmente riguarda l’effetto sui
punteggi del test della riduzione nel rapporto studenti-insegnanti.
Il secondo passo è quello di chiedersi quali siano le fonti più probabili di distorsione da
variabile omessa. Per rispondere a questa domanda occorre tener conto della teoria economica e dell’esperienza, e questo dovrebbe avvenire prima di calcolare qualunque regressione;
siccome ciò viene fatto prima di analizzare i dati, si parla in questo caso di ragionamento a
priori (“prima del fatto”). Nell’esempio dei punteggi del test, questo passaggio richiede di
identificare le determinanti dei punteggi del test che, se ignorate potrebbero distorcere il nostro stimatore dell’effetto della dimensione delle classi. Il risultato di questo passaggio è una
specificazione di base della regressione, il punto di partenza per la nostra analisi empirica, e
un elenco di variabili addizionali che potrebbero aiutare a ridurre la possibile distorsione da
variabile omessa.
Il terzo passaggio è aggiungere alla nostra specificazione di base le variabili addizionali
identificate nel secondo passaggio e verificare l’ipotesi che i loro coefficienti siano nulli. Se
i coefficienti delle variabili addizionali sono statisticamente significativi, oppure se i coefficienti d’interesse stimati cambiano in maniera apprezzabile quando le variabili addizionali
sono incluse, queste dovrebbero essere inserite nella specificazione e bisognerebbe quindi
modificare la specificazione di base. Se non è cosı̀, queste variabili possono essere escluse
dalla regressione.
Il quarto passaggio è presentare un’accurata sintesi dei risultati in forma tabellare. Questo
dà “piena soddisfazione” a un potenziale scettico, che può cosı̀ trarre le proprie conclusioni.
Le tabelle 5.2 e 6.2 seguono questa strategia. Ad esempio, nella tabella 6.2 avremmo potuto
presentare solo la regressione nella colonna (7), perché essa sintetizza gli effetti rilevanti e le
non linearità delle altre regressioni rappresentate nella tabella. Presentare le altre regressioni,
però, permette al lettore scettico di trarre le proprie conclusioni.
Questi passaggi sono riassunti nel concetto chiave 7.2.
Soluzioni alla distorsione da variabile omessa quando la variabile omessa non è osservata. Aggiungere una variabile omessa a una regressione non è un’opzione percorribile, se non
si hanno dati relativi a tale variabile. Ci sono però tre altri modi per risolvere la distorsione
244
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 245 — #275
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
Concetto chiave 7.2: dovremmo includere altre variabili nella nostra regressione?
Se includessimo un’altra variabile nella nostra regressione multipla, elimineremmo la
possibilità di distorsione da variabile omessa che deriva dall’esclusione di tale variabile,
ma la varianza dello stimatore dei coefficienti d’interesse potrebbe crescere. Di seguito riportiamo alcune linee guida che aiutano nella scelta dell’inclusione di una variabile
addizionale:
1. essere specifici sul coefficiente o sui coefficienti d’interesse;
2. usare ragionamenti a priori per identificare le più importanti fonti potenziali di
distorsione da variabile omessa, che conducano a una specificazione di base e ad
alcune altre variabili;
3. verificare se le varibili addizionali hanno coefficienti non nulli;
4. fornire una tabulazione informativa ed esaustiva dei risultati, in modo che altri possano vedere l’effetto sul (sui) coefficiente (coefficienti) d’interesse dell’inclusione
di altre variabili. I risultati cambiano se si includono nuove variabili?
da variabile omessa. Ognuna di queste tre soluzioni consente di aggirare il problema della
distorsione da variabile omessa attraverso l’uso di tipi diversi di dati.
La prima possibilità è quella di usare dati in cui la stessa unità è osservata in momenti
diversi. Ad esempio, i punteggi del test e i dati relativi potrebbero essere raccolti per gli stessi
distretti nel 1995 e poi ancora nel 2000. Dati di questo tipo sono detti dati longitudinali. Come
sarà spiegato nel capitolo 8, i dati longitudinali (panel) consentono di controllare per variabili
omesse purché queste variabili omesse non cambino nel tempo.
La seconda soluzione è quella di usare la regressione con variabili strumentali. Questo
metodo si basa su una nuova variabile, detta variabile strumentale, e sarà discusso nel capitolo
10.
La terza possibilità è quella di usare dati per i quali l’effetto d’interesse (ad esempio,
l’effetto della riduzione nella dimensione delle classi sulle prestazioni degli studenti) è il
risultato di un esperimento controllato casualizzato. Questo tipo di esperimenti sarà discusso
nel capitolo 11.
245
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 246 — #276
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
Incorretta specificazione della forma funzionale
della funzione di regressione
Se la vera funzione di regressione della popolazione è non lineare ma la regressione stimata è lineare, allora questa incorretta specificazione della forma funzionale rende distorte
le stime OLS. Questa distorsione è un tipo di distorsione da variabile omessa, dove le variabili omesse sono i termini che riflettono gli aspetti non lineari mancanti della funzione di
regressione. Ad esempio, se la funzione di regressione della popolazione è un polinomio quadratico, allora una regressione che omette il quadrato della variabile indipendente è affetta da
distorsione da variabile omessa.
Soluzioni alla incorretta specificazione della forma funzionale. Quando la variabile dipendente è continua (come i punteggi del test), il problema di una potenziale non linearità può
essere risolto usando i metodi del capitolo 6. Se, tuttavia, la variabile dipendente è discreta o
binaria (ad esempio, Yi è pari a uno se la i-esima persona ha frequentato l’università ed è pari
a zero altrimenti), le cose sono più complicate. La regressione con una variabile dipendente
discreta sarà discussa nel capitolo 9.
Errori nelle variabili
Supponiamo di aver inavvertitamente fatto confusione con i dati per la regressione dei punteggi del test sul rapporto studenti-insegnanti, finendo per effettuare una regressione dei punteggi relativi al quinto grado di istruzione sul rapporto studenti-insegnanti nel decimo grado
di istruzione in quel distretto. Sebbene il rapporto studenti-insegnanti per gli studenti della
scuola elementare e per quelli del decimo livello d’istruzione possano essere correlati, non
sono la stessa cosa, e quindi questa confusione potrebbe portare a una distorsione nel coefficiente stimato. Questo è un esempio di distorsione da errori nelle variabili, perché la
sua fonte è un errore nella misura della variabile indipendente. Questa distorsione persiste
anche in campioni molto grandi, cosicché lo stimatore OLS è inconsistente se ci sono errori
di misura.
Le possibili fonti di errori di misura sono molte. Se i dati sono raccolti attraverso un’indagine, un intervistato potrebbe dare la risposta sbagliata. Ad esempio, una domanda della
Current Pupulation Survey riguarda le retribuzioni dell’ultimo anno. Un intervistato potrebbe
non conoscere il suo reddito esatto o potrebbe riportarlo incorrettamente per qualche ragione. Se invece i dati fossero ottenuti dai registri amministrativi computerizzati, ci potrebbero
essere stati errori tipografici durante l’inserimento dei dati.
Per vedere come mai la distorsione da errori nelle variabili dà luogo a correlazione tra
regressori ed errore, supponiamo ci sia un singolo regressore X i (diciamo, il reddito effettivo) ma che Xi sia imprecisamente misurato da X̃i (la stima del proprio reddito effettuata
246
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 247 — #277
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
dall’intervistato). Siccome si osserva X̃i , e non Xi , l’equazione di regressione effettivamente
stimata è quella basata su X̃i . Scritto in termini della variabile misurata imprecisamente, X̃i ,
l’equazione di regressione nella popolazione Yi = β0 + β1 Xi + ui diventa
Yi
i
h = β0 + β1 X̃i + β1 Xi − X̃i + ui
= β0 + β1 X̃i + vi ,
(7.1)
dove vi = β1 Xi − X̃i +ui . L’equazione di regressione nella popolazione scritta in termini
di X̃i , ha perciò un errore che contiene la differenza tra Xi e X̃i . Se questa differenza è
correlata con il valore misurato X̃i , allora il regressore X̃i è correlato con l’errore e β̂1 è
distorto e inconsistente. L’entità precisa e la direzione della distorsione in β̂1 dipendono
dalla correlazione tra X̃i e (Xi − X̃i ). Questa correlazione dipende, a sua volta, dalla natura
specifica dell’errore di misura.
Come esempio, supponiamo che le persone intervistate in un’indagine forniscono la loro
miglior congettura o ricordo del valore effettivo della variabile indipendente X i . Una conveniente rappresentazione matematica si ha supponendo che il valore misurato di X i sia uguale
al valore reale, non misurato, più una componente puramente casuale, w i . Di conseguenza,
il valore misurato della variabile, indicato con X̃i , è X̃i = Xi + wi . Siccome l’errore è pu2
ramente casuale, possiamo supporre che wi abbia media zero e varianza σw
e sia incorrelato
2
con Xi e l’errore di regressione ui . Sotto questa ipotesi, un po’ di algebra mostra che β̂1 ha
il limite in probabilità
σ2
p
β̂1 → 2 X 2 β1 .
(7.2)
σX + σ w
In altre parole, se l’imprecisione della misurazione ha l’effetto di aggiungere semplicemente un elemento casuale al valore effettivo della variabile indipendente, allora β̂1 è incon2
2
2
sistente. Poiché il rapporto σX
/(σX
+ σw
) è minore di uno, β̂1 sarà distorto verso zero,
anche in grandi campioni. Nel caso estremo in cui l’errore di misura è talmente grande che
non rimane essenzialmente alcuna informazione su Xi , il rapporto tra le varianze nella (7.2)
è zero e β̂1 converge in probabilità a zero. All’altro estremo, quando non c’è alcun errore di
p
2
misura, σw
= 0 e quindi β̂1 → β1 .
Sebbene il risultato (7.2) si riferisca a un tipo particolare di errore di misura, esso illustra
la proposizione più generale secondo la quale, se la variabile indipendente è misurata con
imprecisione, lo stimatore OLS è distorto, anche in grandi campioni. La distorsione da errori
nelle variabili è riassunta in sintesi nel concetto chiave 7.3.
2
“
”
Sotto questa ipotesi circa l’errore di misura, vi = β1 Xi − X̃i + ui = −β1 wi + ui , cov(X̃i , ui ) = 0 e
2 , per cui cov(X̃ , v ) = −β cov(X̃ , w ) + cov(X̃ , u ) = −β σ 2 .
cov(X̃i , wi ) = cov(Xi + wi , wi ) = σw
1
1 w
i i
i
i
i
i
p
p
2 /σ 2 . Ora, σ 2 = σ 2 + σ 2 , perciò β̂ →
2 /(σ 2 + σ 2 ) =
Cosı̀, dalla (5.1), β̂1 → β1 − β1 σw
β 1 − β 1 σw
1
w
w
X
X
X̃
X̃
2 /(σ 2 + σ 2 )]β .
[σX
1
w
X
247
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 248 — #278
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
Soluzioni alla distorsione da errori nelle variabili. Il miglior modo per risolvere il problema degli errori nelle variabili è ottenere una misura accurata di X. Se questo è impossibile, ci
sono tuttavia alcuni metodi econometrici che possono essere usati per attenuare la distorsione.
Uno di questi metodi è la regressione con variabili strumentali. Esso si basa sulla disponibilità di un’altra variabile (la variabile “strumentale”), che è correlata con il vero valore X i
ma è incorrelata con l’errore di misura. Questo metodo sarà studiato nel capitolo 10.
Un secondo metodo è quello di sviluppare un modello matematico per l’errore di misura
e, se possibile, di utilizzare le formule cosı̀ ottenute per aggiustare le stime. Ad esempio,
se un ricercatore crede che la variabile misurata sia in realtà la somma del valore effettivo
2
2
e di un errore di misura casuale e se conosce o può stimare il rapporto σ w
/σX
, allora può
usare la (7.2) per calcolare uno stimatore di β1 che corregga la distorsione verso il basso.
Siccome questo approccio richiede una conoscenza specifica della natura dell’errore di misura, i dettagli sono tipicamente specifici a un particolare insieme di dati e ai suoi problemi di
misurazione e non approfondiremo oltre questo approccio in questo manuale.
Selezione campionaria
La distorsione da selezione campionaria si verifica quando la disponibilità dei dati è influenzata da un processo di selezione che è legato al valore della variabile dipendente. Questo
processo di selezione può introdurre correlazione tra l’errore e il regressore, portando cosı̀ a
una distorsione nello stimatore OLS.
Se la selezione campionaria non è legata al valore della variabile dipendente, non si introduce distorsione. Ad esempio, se i dati sono raccolti da una popolazione attraverso un
campionamento casuale semplice, il metodo di campionamento (l’estrazione casuale dalla
popolazione) non ha niente a che fare con la variabile dipendente. Tale campionamento non
introduce distorsione.
La distorsione può essere introdotta quando il metodo di campionamento è legato al valore della variabile dipendente. Un esempio di distorsione da selezione campionaria nei sondaggi elettorali è stato fornito nel riquadro del capitolo 2. In tale esempio, il metodo di selezione del campione (selezione casuale dei numeri telefonici dei possessori di autovetture)
era legato alla variabile dipendente (il candidato che l’individuo intervistato aveva sostenuto
per la presidenza nel 1936), poiché nel 1936 i possessori di automobili con telefono erano
prevalentemente repubblicani.
Un esempio di selezione campionaria in economia si verifica quando si usa una regressione dei salari sull’istruzione per stimare l’effetto sui salari di un anno di istruzione in più. Solo
gli individui che hanno un lavoro ricevono un salario, per definizione. I fattori (osservabili
e inosservabili) che determinano se qualcuno ha un lavoro –istruzione, esperienza, residenza, abilità, fortuna e cosı̀ via– sono simili ai fattori che determinano quanto quella persona
248
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 249 — #279
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
Concetto chiave 7.3: la distorsione da errori nelle variabili
La distorsione da errori nelle variabili dello stimatore OLS si verifica quando una variabile
indipendente è misurata imprecisamente. Questa distorsione dipende dalla natura dell’errore di misura e persiste anche se la dimensione campionaria è elevata. Se la variabile
misurata è uguale al valore effettivo più un errore di misura con media nulla e indipendentemente distribuito, allora lo stimatore OLS in una regressione con una singola variabile
indipendente è distorto verso zero e il suo limite in probabilità è dato dalla (7.2).
guadagna quando ha un impiego. Cosı̀, il fatto che qualcuno abbia un lavoro suggerisce che,
a parità di condizioni, l’errore nell’equazione del salario per quella persona è positivo. In
altre parole, il fatto che qualcuno abbia un lavoro è in parte determinato dalle variabili omesse che entrano nell’errore della regressione del salario. Per questo motivo, il semplice fatto
che qualcuno abbia un lavoro e appaia di conseguenza nei dati, fornisce informazioni sul fatto che l’errore di regressione è positivo, almeno in media, e potrebbe essere correlato con i
regressori. Anche questo può portare a una distorsione nello stimatore OLS.
La distorsione da selezione campionaria è riassunta nel concetto chiave 7.4.
Soluzioni alla distorsione da selezione. I metodi discussi finora non possono eliminare la
distorsione da selezione campionaria. Le tecniche di stima dei modelli con selezione campionaria oltre gli dagli obiettivi di questo libro. Tali metodi si basano sulle tecniche che saranno
introdotte nel capitolo 9, dove saranno forniti altri riferimenti bibliografici.
Causalità simultanea
Abbiamo finora ipotizzato che la causalità vada dal regressore alla variabile dipendente (X
causa Y ). Cosa accade se la causalità va invece dalla variabile dipendente a uno o più regressori (Y causa X)? Se cosı̀, la causalità va in “entrambe le direzioni”, ovvero c’è causalit à
simultanea. Se c’è causalità simultanea, una regressione OLS cattura entrambi gli effetti,
rendendo lo stimatore OLS distorto e inconsistente.
Ad esempio, il nostro studio dei punteggi del test si focalizzava sull’effetto della riduzione nel rapporto studenti-insegnanti sui punteggi del test, presumendo cosı̀ che la causalità
andasse dal rapporto studenti-insegnanti ai punteggi del test. Supponiamo, tuttavia, che un’iniziativa del governo porti a sussidiare l’assunzione di insegnanti nei distretti scolastici con
bassi punteggi del test. Se cosı̀, la causalità andrebbe in entrambe le direzioni: per le solite ragioni legate all’istruzione, bassi rapporti studenti-insegnanti portano ragionevolmente a
249
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 250 — #280
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
Concetto chiave 7.4: distorsione da selezione del campione
La distorsione da selezione del campione nasce quando un processo di selezione influenza
la disponibilità dei dati e tale processo è legato alla variabile dipendente. La selezione campionaria induce correlazione tra uno o più regressori e l’errore, determinando la
distorsione e l’inconsistenza dello stimatore OLS.
punteggi dei test alti, ma a causa del programma del governo bassi punteggi porterebbero a
un basso rapporto studenti-insegnanti.
La causalità simultanea comporta una correlazione tra il regressore e l’errore. Nell’esempio dei punteggi del test, supponiamo che ci sia un fattore omesso che dà luogo a bassi
punteggi del test; a causa del programma governativo, questo fattore che produce bassi punteggi comporta a sua volta un basso rapporto studenti-insegnanti. Cosı̀, un termine d’errore
negativo nella regressione dei punteggi del test sul rapporto studenti-insegnanti riduce i punteggi del test, ma, a causa del programma governativo, determina anche una diminuzione del
rapporto studenti-insegnanti. In altre parole, il rapporto studenti-insegnanti è positivamente correlato con l’errore di regressione nella popolazione. Questo provoca a sua volta una
distorsione da causalità simultanea e l’inconsistenza dello stimatore OLS.
Questa correlazione tra il termine d’errore e il regressore può essere precisata in termini
matematici, introducendo un’equazione addizionale che descrive il legame causale inverso.
Per convenienza, consideriamo soltanto le due variabili X e Y , ignorando altri possibili regressori. Di conseguenza, ci sono due equazioni, una in cui X causa Y e una in cui Y causa
X:
Y i = β 0 + β 1 Xi + u i e
(7.3)
Xi = γ 0 + γ 1 Y i + v i .
(7.4)
L’equazione (7.3) è quella solita in cui β1 è l’effetto su Y di una variazione in X, dove u
rappresenta gli altri fattori. L’equazione (7.4) rappresenta invece l’effetto causale inverso di
Y su X. Nel problema dei punteggi del test, la (7.3) rappresenta l’effetto della dimensione
delle classi sui punteggi del test, mentre la (7.4) rappresenta l’effetto causale inverso dei
punteggi del test sulla dimensione delle classi indotto dal programma governativo.
La causalità simultanea dà luogo a correlazione tra Xi e ui nella (7.3). A fini illustrativi,
immaginiamo che ui sia negativo, il che fa diminuire Yi . Tuttavia, questo valore minore di Yi
influenza il valore di Xi attraverso la seconda equazione e, se γ1 è positivo, un basso valore di
Yi porta a un basso valore di Xi . Cosı̀, se γ1 è positivo, Xi e ui sono positivamente correlati.3
3 Per mostrare ciò in termini matematici, si noti che la (7.4) implica che cov(X , u ) = cov(γ + γ Y +
0
1 i
i
i
vi , ui ) = γ1 cov(Yi , ui ) + cov(vi , ui ). Assumendo che cov(vi , ui ) = 0, per la (7.3) questo implica a sua volta
250
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 251 — #281
i
i
7.2. Minacce alla validità interna dell’analisi di regressione multipla
Concetto chiave 7.5: distorsione da causalità simultanea
La distorsione da causalità simultanea, anche detta distorsione da equazioni simultanee, si
verifica in una regressione di Y su X, quando, in aggiunta al legame causale d’interesse
da X a Y , c’è un legame causale da Y a X. Questa causalità inversa rende X correlata
con l’errore nella regressione d’interesse.
Poiché questo problema può essere espresso matematicamente usando un sistema di due
equazioni simultanee, la distorsione da causalità simultanea è talvolta detta distorsione da
equazioni simultanee. La distorsione da causalità simultanea è riassunta nel concetto chiave
7.5.
Soluzioni alla distorsione da causalità simultanea. Ci sono due modi per mitigare la distorsione da causalità simultanea: uno è l’uso della regressione con variabili strumentali,
argomento del capitolo 10; l’altro consiste nel disegnare e nel realizzare un esperimento controllato casualizzato dove il canale di causalità inversa sia neutralizzato. Tali esperimenti
saranno discussi nel capitolo 11.
Fonti di inconsistenza degli errori standard degli OLS
L’inconsistenza degli errori standard pone un ostacolo diverso alla validità interna. Anche se
lo stimatore OLS è consistente e il campione è grande, errori standard inconsistenti produrranno test d’ipotesi con un livello minimo che differisce da quello desiderato e intervalli di
confidenza al “95%” che non includono il vero valore nel 95% dei campioni ripetuti.
Ci sono due principali cause per l’inconsistenza degli errori standard: l’eteroschedasticità
e la correlazione degli errori tra le osservazioni.
Eteroschedasticità. Come discusso nella sezione 4.9, per ragioni storiche alcuni pacchetti di
regressione riportano gli errori standard classici. Tuttavia, se gli errori sono eteroschedastici,
questi errori standard non costituiscono una base affidabile per i test d’ipotesi e gli intervalli
di confidenza. La soluzione a questo problema è quella di usare errori standardizzati robusti
all’eteroschedasticità e costruire statistiche F usando uno stimatore della varianza robusto
all’eteroschedasticità. Gli errori standard robusti all’eteroschedasticità sono disponibili tra le
opzioni nei moderni pacchetti statistici.
2 . Risolvendo
che cov(Xi , ui ) = γ1 cov(Yi , ui ) = γ1 cov(β0 + β1 Xi + ui , ui ) = γ1 β1 cov(Xi , ui ) + γ1 σu
2 /(1 − γ β ).
rispetto a cov(Xi , ui ), si ottiene il risultato cov(Xi , ui ) = γ1 σu
1 1
251
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 252 — #282
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
Correlazione del termine d’errore tra le osservazioni. In alcuni contesti, l’errore di regressione può essere correlato tra le osservazioni. Questo non può accadere, se i dati sono
ottenuti tramite campionamento casuale dalla popolazione, perché la casualità del processo
di campionamento assicura che gli errori siano indipendentemente distribuiti da un’osservazione a un’altra. Talvolta, però, il campionamento è casuale soltanto in parte. Il caso più
comune è quando i dati sono osservazioni sulla stessa entità ripetuta nel tempo, ad esempio,
lo stesso distretto scolastico per diversi anni. Se le variabili omesse che entrano nell’errore di
regressione sono persistenti (come la demografia dei distretti), allora questo determina correlazione “seriale” nell’errore di regressione. Un altro esempio è quando il campionamento è
basato su un’unità geografica. Se ci sono variabili omesse che riflettono le influenze geografiche, queste potrebbero dar luogo a correlazione degli errori di regressione di osservazioni
adiacenti.
La correlazione dell’errore di regressione tra le osservazioni non rende lo stimatore OLS
distorto o inconsistente, ma viola la seconda ipotesi dei minimi quadrati (concetto chiave
5.4). La conseguenza è che gli errori standard degli OLS –sia quelli classici sia quelli robusti
all’eteroschedasticità– sono incorretti nel senso che non producono intervalli di confidenza
con il livello di confidenza desiderato.
In molti casi, questo problema può essere risolto usando una formula alternativa per gli errori standard. Nel capitolo 12 forniremo una formula per calcolare gli errori standard robusti
sia all’eteroschedasticità sia alla correlazione seriale.
7.3 Esempio: i punteggi del test e la dimensione delle classi
Il quadro di riferimento basato sui concetti di validità interna ed esterna ci aiuta a guardare
criticamente quanto abbiamo appreso –e quanto non abbiamo appreso– dalla nostra analisi
dei dati sui punteggi dei test in California.
Validità esterna
Se l’analisi relativa alla California possa essere generalizzata –ossia, se essa sia esternamente valida– dipende dalla popolazione e dal contesto ai quali si intende generalizzarla. Qui
valutiamo la possibilità di generalizzazione alle prestazioni in altri test standardizzati di altri
distretti scolastici elementari pubblici degli Stati Uniti.
Nella sezione 7.1 si è notato che avere più di uno studio sullo stesso argomento offre
l’opportunità di verificare la validità esterna di entrambi gli studi, confrontandone i risultati. Per lo studio dei punteggi del test e della dimensione delle classi sono effettivamente
disponibili altri dati confrontabili. In questa sezione esaminiamo un diverso insieme di dati, basato sui punteggi del test standardizzato per gli studenti del quarto grado d’istruzione
in 220 distretti scolastici pubblici del Massachusetts nel 1998. Sia i test del Massachusetts
252
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 253 — #283
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
Tabella 7.1: statistiche descrittive dei dati sui punteggi del test in California e nel
Massachusetts
Media
Punteggio test
Rapporto studenti-insegnanti
% studenti non madrelingua
% aventi diritto al sussidio mensa
Reddito medio nel distretto ($)
Numero di osservazioni
Anno
California
Deviazione
standard
654,1
19,6
15,8%
44,7%
$15.317
19,1
1,9
18,3%
27,1%
$7.226
420
1999
Media
Massachusetts
Deviazione
standard
709,8
17,3
1,1%
15,3%
$18.747
15,1
2,3
2,9%
15,1%
$5.808
220
1998
sia quelli della California sono misure generali della preparazione degli studenti e delle loro
abilità accademiche, sebbene differiscano nei dettagli. Analogamente, l’organizzazione dell’insegnamento nelle classi è relativamente simile al livello delle scuole elementari nei due
stati (come nella maggior parte dei distretti scolastici elementari degli Stati Uniti), sebbene
gli aspetti riguardanti il finanziamento della scuola elementare e i programmi siano diversi.
Cosı̀, trovare risultati simili nei dati della California e del Massachusetts per quanto riguarda
l’effetto del rapporto studenti-insegnanti sulle prestazioni nel test costituirebbe evidenza della
validità esterna dei risultati relativi alla California. Di contro, trovare risultati diversi nei due
stati solleverebbe questioni sulla validità interna o esterna di almeno uno dei due studi.
Confronto tra i dati della California e del Massachusetts. Come i dati della California,
anche quelli del Massachusetts sono a livello di distretto scolastico. Le definizioni delle
variabili per i dati del Massachusetts sono le stesse che per i dati della California, o circa le
stesse. Maggiori informazioni sui dati del Massachusetts, incluse le definizioni delle variabili,
sono fornite nell’appendice 7.1.
La tavola 7.1 presenta statistiche descrittive per i campioni della California e del Massachusetts: il punteggio medio del test è maggiore nel Massachusetts, ma il test è diverso,
perciò un confronto dei punteggi non è appropriato; il rapporto medio studenti-insegnanti è
più alto in California (19.6 contro 17.3); il reddito medio del distretto è del 20% più alto nel
Massachusetts, ma la deviazione standard del reddito è maggiore in California, cioè c’è una
dispersione maggiore tra i redditi medi dei distretti in California rispetto al Massachusetts.
La percentuale media di studenti che ancora apprendono l’inglese e la percentuale media di
studenti che ricevono sovvenzioni per il pranzo sono entrambe molto più alte nei distretti
della California che in quelli del Massachusetts.
253
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 254 — #284
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
Punteggi del test e reddito medio nel distretto. Per risparmiare spazio, non presenteremo il
grafico a nuvola di tutti i dati relativi al Massachusetts. Tuttavia, siccome è stato argomento
del capitolo 6, è interessante esaminare la relazione tra i punteggi del test e i redditi medi
dei distretti nel Massachusetts. Questo grafico a nuvola è presentato nella figura 7.1. Il suo
andamento generale è simile a quello per i dati della California nella figura 6.2: la relazione
tra reddito e punteggi del test appare essere più inclinata per livelli bassi di reddito e più
piatta per livelli alti. Evidentemente, la regressione lineare riportata nella figura non cattura
questa apparente non linearità. La figura 7.1 riporta anche funzioni di regressione cubiche e
logaritmiche. La funzione di regressione cubica ha un R̄2 leggermente più alto rispetto alla
specificazione logaritmica (0, 486 contro 0, 455). Il confronto delle figure 6.7 e 7.1 mostra
che l’evidenza di non linearità riscontrata tra i dati per reddito e punteggi del test relativi
alla California è presente anche nei dati del Massachusetts. Le forme funzionali precise
che meglio descrivono questa non linearità tuttavia differiscono: la specificazione cubica
interpola meglio nel Massachusetts, ma quella log-lineare interpola meglio in California.
Risultati della regressione multipla. I risultati delle regressioni per i dati del Massachusetts sono presentati nella tabella 7.2. La prima regressione, riportata nella colonna (1) della tabella, ha solo il rapporto studenti-insegnanti come regressore. La pendenza è negativa
(−1.72) e l’ipotesi che il coefficiente sia nullo può essere rifiutata al livello di significatività
1% (t = −1, 72/0, 50 = −3, 44).
Le restanti colonne riportano i risultati ottenuti includendo variabili aggiuntive che controllano per le caratteristiche dello studente e introducendo non linearità nella funzione di
regressione stimata. Controllando per la percentuale di studenti che ancora imparano l’inglese, la percentuale di studenti idonei a ricevere un sussidio per il pranzo e il reddito medio nel
distretto, si riduce il coefficiente stimato sul rapporto studenti-insegnanti del 60%, da −1, 72
nella regressione (1) a −0, 69 nella regressione (2) e −0, 64 nella regressione (3).
Il confronto degli R̄2 delle regressioni (2) e (3) indica che la specificazione cubica (3)
fornisce un modello migliore della relazione tra punteggi del test e reddito rispetto alla specificazione logaritmica (2), anche tenendo costante il rapporto studenti-insegnanti. Non c’è
evidenza statisticamente significativa di una relazione non lineare tra punteggi del test e rapporto studenti-insegnanti: la statistica F nella regressione (4) per testare se i coefficienti di
ST R2 e ST R3 nella popolazione sono nulli ha un valore-p pari a 0, 641. Similmente, non c’è
alcuna evidenza che una riduzione nel rapporto studenti-insegnanti abbia un diverso effetto
nei distretti con molti studenti che apprendono l’inglese rispetto a quelli con pochi (la statistica t di HiEL × ST R nella regressione (5) è 0, 80/0, 56 = 1, 43). Infine, la regressione (6)
mostra che il coefficiente stimato del rapporto studenti-insegnanti non varia sostanzialmente
quando si esclude la percentuale di studenti che ancora apprendono l’inglese (variabile che
254
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 255 — #285
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
Figura 7.1: punteggi del test su reddito nei dati per il Massachusetts
Punteggio test
780
Regressione lineare
Regressione lineare-logaritmica
760
740
720
Regressione cubica
700
680
660
640
620
0
10
20
30
40
50
Reddito distretto
(migliaia di dollari)
La funzione di regressione lineare stimata non cattura la relazione non lineare tra reddito e punteggi del test per
i dati del Massachusetts. Le funzioni di regressione lineare-logaritmica e cubica stimate sono simili per redditi
del distretto compresi tra 13.000$ e 30.000$, l’intervallo che contine il grosso delle osservazioni.
è non significativa nella regressione (3)). In breve, i risultati della regressione (3) non sono sensibili ai cambiamenti della forma funzionale e della specificazione considerati nelle
regressioni (4)–(6) della tabella 7.2. Per questo motivo, adottiamo la regressione (3) come
nostra stima di base, per i dati del Massachusetts, dell’effetto sui punteggi del test di una
variazione nel rapporto studenti-insegnanti.
Confronto tra i risultati del Massachusetts e della California. Per i dati della California
abbiamo trovato che:
Electronic
Services
a. aggiungendo
variabiliPublishing
che controllino
per la Inc.
preparazione dello studente, il coefficienStock/Watson,
Econometrics
1e
te del rapporto studenti-insegnanti si riduce da −2.28 (tabella 5.2, regressione (1)) a
STOC.ITEM.0032
−0.73 (tabella
6.2, regressione (2)), una riduzione del 68%;
Fig. 07.01
b. l’ipotesi che il coefficiente associato al rapporto studenti-insegnanti sia nullo è stata ri1st Proof
2nd Proof
3rd Proof
Final
255
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 256 — #286
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
Tabella 7.2: stime di regressioni multiple del rapporto studenti-insegnanti e del punteggio
del test: dati del Massachusetts
Variabile dipendente: media combinata dei punteggi ottenuti nei test di inglese, matematica e scienze nel distretto
scolastico; 220 osservazioni.
Regressore
(ST R)
(1)
(2)
(3)
(4)
(5)
(6)
-1,72∗∗
(0,50)
-0,69∗
(0,27)
-0,64∗
(0,27)
-1,02∗∗
(0,37)
-0,67∗
(0,27)
-0,411
(0,306)
-0,437
(0,303)
12,4
(14,0)
-0,680
(0,737)
0,011
(0,013)
-0,434
(0,300)
-0,653∗∗
(0.72)
-3,22
(2.31)
0,165
(0,085)
-0,0022∗
(0,0010)
747,4∗∗
(20,3)
(ST R)2
(ST R)3
% studenti non di madrelingua
% studenti non di madrelingua>
mediana (Variabile binaria, HiEL)
HiEL × ST R
-0,521∗∗
(0,077)
16,53∗∗
(3,15)
% aventi diritto al sussidio mensa
Reddito nel distretto
(logaritmo)
Reddito nel distretto
Reddito nel distretto2
Reddito nel distretto3
Intercetta
739,6∗∗
(8,6)
682,4∗∗
(11,5)
-0,582∗∗
(0,097)
-0,587∗∗
(0,104)
-12,6
(9,8)
0,80
(0,56)
-0,709∗∗
(0,091)
-3,07
(2,35)
0,164
(0,085)
-0,0022∗
(0,0010)
744,0∗∗
(21,3)
-3,38
(2,49)
0,174
(0,089)
-0,0023∗
(0,0010)
665,5∗∗
(81,3)
-3,87∗
(2,49)
0,184∗
(0,090)
-0,0023∗
(0,0010)
759,9∗∗
(23,2)
4,01
(0,020)
7,74
(< 0, 001)
2,86
(0,038)
0,45
(0,641)
7,75
(< 0, 001)
8,61
0,676
8,63
0,675
Statistiche F e valori-p per l’esclusione di gruppi di variabili
Tutte le variabili ST R e
i termini d’interazione = 0
ST R2 , ST R3 = 0
Income2 , Income3
HiEL, HiEL × ST R
SER
R̄2
14,64
0,063
8,69
0,670
5,85
(0,003)
1,58
(0,208)
8,62
0,675
6,55
(0.002)
8.64
0,674
Queste regressioni sono state stimate utilizzando i dati sui distretti scolastici elementari del Massachusetts descritti nell’appendice 7.1. Gli errori standard sono riportati in parentesi sotto ai coefficienti e i valori-p sono riportati in parentesi sotto le
statistiche F . I coefficienti sono statisticamente significativi al livello ∗ 5% o ∗ 1%.
256
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 257 — #287
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
fiutata al livello di significatività 1%, anche dopo aver aggiunto variabili che controllino
per la preparazione dello studente e le caratteristiche economiche del distretto;
c. l’effetto di un taglio del rapporto studenti-insegnanti non dipende in misura considerevole dalla percentuale di coloro che stanno ancora imparando l’inglese nel distretto;
d. c’è una qualche evidenza che la relazione tra punteggi del test e rapporto studentiinsegnanti sia non lineare.
Giungiamo alle stesse conclusioni nel Massachusetts? Per i risultati (a), (b), e (c) la
risposta è positiva. Includendo variabili di controllo addizionali, il coefficiente del rapporto studenti-insegnanti si riduce da −1, 72 (tabella 7.2, regressione (1)) a −0, 69 (tabella 7.2,
regressione (2)), una riduzione del 60%. I coefficienti del rapporto studenti-insegnanti rimangono significativi dopo aver aggiunto le variabili di controllo. Tali coefficienti sono significativi solo al livello 5% per i dati del Massachusetts, mentre sono significativi al livello 1% per
i dati della California. Tuttavia, nei dati della California c’è quasi il doppio di osservazioni,
non è perciò sorprendente che le stime relative alla California siano più precise. Cosı̀ come
nei dati della California, in quelli del Massachusetts non vi è evidenza statisticamente significativa di un’interazione tra il rapporto studenti-insegnanti e la variabile binaria che indica la
presenza nel distretto di un’ampia percentuale di coloro che ancora imparano l’inglese.
Il risultato (d), tuttavia, non vale per i dati del Massachusetts: l’ipotesi che la relazione
tra il rapporto studenti-insegnanti e i punteggi del test sia lineare non può essere rifiutata al
livello di significatività 5% contro una specificazione cubica.
Siccome i due test standardizzati sono diversi; i coefficienti stessi non possono essere
confrontati direttamente: un punto nel test del Massachusetts non equivale a un punto nel test
della California. Se, però, i punteggi dei test sono convertiti nella stessa unità di misura, gli
effetti stimati della dimensione delle classi possono essere messi a confronto. Un modo per
fare questo è quello di trasformare i punteggi dei test standardizzandoli: si sottrae la media
campionaria e si divide per la deviazione standard, in modo da avere media zero e varianza
pari a uno. Le pendenze della regressione con i punteggi del test trasformati sono uguali alle
pendenze della regressione originaria, divisi per la deviazione standardizzata del test. Perciò,
il coefficiente del rapporto studenti-insegnanti, diviso per la deviazione standard dei punteggi
del test, può essere confrontato tra i due insiemi di dati.
Questo confronto è effettuato nella tabella 7.3. La prima colonna riporta le stime OLS del
coefficiente del rapporto studenti-insegnanti in una regressione che include, come variabili di
controllo, la percentuale di coloro che ancora apprendono l’inglese, la percentuale di studenti
idonei a ricevere sussidi per i pranzo e il reddito medio del distretto. La seconda colonna
riporta la deviazione standard dei punteggi del test nei distretti. Le due colonne finali mostrano la stima dell’effetto sui punteggi del test della riduzione nel rapporto studenti-insegnanti
di due studenti per insegnante (la proposta del nostro provveditore), la prima è nell’unità di
257
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 258 — #288
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
misura del test e la seconda nell’unità di misura della deviazione standard. Per la specificazione lineare, la stima OLS del coefficiente con i dati della California è pari a −0, 73: un
taglio del rapporto studenti-insegnanti si stima incrementi i punteggi del test nel distretto di
−0, 73 × (−2) = 1, 46 punti. Siccome la deviazione standard dei punteggi
del test è di 19, 1 punti, questo corrisponde a 1, 46/19, 1 = 0, 076 deviazioni standard
della distribuzione dei punteggi del test tra i distretti. L’errore standard di questa stima è
0, 26 × 2/19, 1 = 0, 027. Gli effetti stimati per i modelli lineari e i loro errori standard sono
stati calcolati usando il metodo descritto nella sezione 6.1.
Basandosi sul modello lineare che usa i dati della California, una riduzione di due studenti per insegnante si stima incrementi i punteggi del test di 0, 076 unità di deviazione standard,
con un errore standard di 0, 027. I modelli non lineari sui dati della California suggeriscono un effetto un po’ più elevato, con l’effetto specifico che dipende dal rapporto studentiinsegnanti iniziale. Sulla base dei dati del Massachusetts, l’effetto stimato è pari a 0, 085
unità di deviazione standard, con un errore standard di 0, 036.
Queste stime sono essenzialmente le stesse. Tagliare il rapporto studenti-insegnanti accresce i punteggi del test, ma l’incremento predetto è modesto. Per i dati della California, ad
esempio, la differenza nei punteggi del test tra il distretto mediano e un distretto al 75-esimo
percentile è di 12, 2 punti (tabella 4.1) o di 0, 64 (= 12, 2/19, 1) punti di deviazione standard.
L’effetto stimato dal modello lineare eccede questi valori di poco più di un decimo; in altre
parole, secondo questa stima, ridurre di due il numero di studenti per insegnante sposterebbe un distretto solo di un decimo della distanza tra il mediano e il 75-esimo percentile della
distribuzione dei punteggi del test tra i distretti. Ridurre il rapporto studenti per insegnanti di
due studenti per insegnante è un grande cambiamento per un distretto, ma i benefici stimati
mostrati nella tabella 7.3, sebbene non nulli, sono modesti.
Quest’analisi dei dati del Massachusetts suggerisce che i risultati della California sono
esternamente validi, almeno quando si generalizzano ad altri distretti scolastici elementari
degli Stati Uniti.
Validità interna
La somiglianza tra i risultati per la California e per il Massachusetts non assicura la loro
validità interna. La sezione 7.2 ha elencato cinque possibili minacce alla validità interna
che potrebbero introdurre distorsione nell’effetto stimato della dimensione delle classi sui
punteggi del test. Consideriamo queste minacce una alla volta.
Variabili omesse. Le regressioni multiple trattate in questo capitolo e in quelli precedenti
controllano per una caratteristica dello studente (la percentuale di coloro che ancora apprendono l’inglese), una caratteristica economica della famiglia (la percentuale di studenti che
258
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 259 — #289
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
Tabella 7.3: rapporto studenti-insegnanti e punteggio del test: confronto tra le stime per
la California e per il Massachusetts
Stima degli effetti della riduzione
di due studenti
per insegnante, in unità di:
Stima OLS
β̂ST R
Deviazione standard
del punteggio del test
nei distretti
Punti del test
Deviazione
standard
1,46
(0,52)
2,93
(0,70)
1,90
(0,69)
0,076
(0,027)
0,153
(0,037)
0,099
(0,036)
1,28
(0,54)
0,085
(0,036)
California
Lineare: tabella 6.2(2)
Cubica: tabella 6.2(7)
ST R ridotto da 20 a 18
Cubica: tabella 6.2(7)
ST R ridotto da 22 a 20
-0,73
(0,26)
–
19,1
–
19,1
-0,64
(0,27)
15,1
19,1
Massachusetts
Lineare: tabella 7.2(3)
Gli errori standard sono riportati in parentesi.
ricevono un sussidio per il pranzo) e una misura meno specifica del benessere del distretto
(reddito medio del distretto).
Possibili variabili omesse, sono altre caratteristiche della scuola e dello studente, e ometterle potrebbe causare distorsioni da variabile omessa. Ad esempio, se il rapporto studentiinsegnanti è correlato con la qualità dell’insegnante (magari perché gli insegnanti migliori sono attratti da scuole con rapporti studenti-insegnanti più bassi) e se la qualità dell’insegnante
influenza i punteggi del test, l’omissione della qualità dell’insegnante potrebbe introdurre distorsione nel coefficiente del rapporto studenti-insegnanti. Similmente, distretti con un basso
rapporto studenti-insegnanti potrebbero anche offrire molte opportunità di apprendimento extra scolastico. Inoltre, distretti con un basso rapporto studenti-insegnanti potrebbero attrarre
famiglie che si impegnano maggiromente a migliorare l’apprendimento dei figli a casa. Tali
fattori omessi potrebbero portare a distorsione da variabile omessa.
Un modo per eliminare la distorsione da variabile omessa, almeno in teoria, è condurre
un esperimento. Ad esempio, gli studenti potrebbero essere assegnati in modo casuale a
classi di dimensione diversa e si potrebbero confrontare le loro successive prestazioni nei test
259
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 260 — #290
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
standardizzati. Tale studio è stato condotto per il Tennessee, e lo esamineremo nel capitolo
11.
Forma funzionale. L’analisi condotta qui e nel capitolo 6 ha esplorato una varietà di forme funzionali. Abbiamo trovato che alcune delle possibili non linearità studiate non sono
statisticamente significative, mentre quelle che lo sono non alterano in maniera sostanziale l’effetto stimato di una riduzione nel rapporto studenti-insegnanti. Sebbene sia possibile
condurre ulteriori analisi circa la forma funzionale, ciò suggerisce che è improbabile che i risultati principali di tali studi siano sensibili all’uso di diverse specificazioni non lineari della
regressione.
Errori nelle variabili. Il rapporto medio studenti-insegnanti nel distretto è una misura ampia
e potenzialmente inaccurata della dimensione delle classi. Ad esempio, siccome gli studenti
entrano ed escono dai distretti, il rapporto studenti-insegnanti potrebbe non rappresentare
accuratamente la dimensione delle classi effettivamente sperimentata dagli studenti sottoposti
al test, il che potrebbe a sua volta far sı̀ che l’effetto stimato della dimensione delle classi sia
distorto verso zero. Un’altra variabile con potenziali errori di misura è il reddito medio nel
distretto. Questi dati sono stati tratti dal censimento del 1990, mentre gli altri sono relativi
al 1998 (Massachusetts) o al 1999 (California). Se la composizione economica del distretto
fosse cambiata sostanzialmente negli anni ’90, si avrebbe una misura imprecisa del reddito
medio effettivo del distretto.
Selezione. I dati della California e del Massachusetts coprono tutti i distretti scolastici elementari pubblici nello stato che soddisfano requisiti minimi di dimensione, perciò non c’è
ragione di pensare che la selezione campionaria possa essere un problema.
Causalità simultanea. Si avrebbe causalità simultanea, se il rendimento nel test standardizzato influenzasse il rapporto studenti-insegnanti. Questo potrebbe accadere se, per esempio,
ci fosse un meccanismo burocratico o politico per accrescere i finanziamenti delle scuole o
dei distretti con basso rendimento, che a sua volta avesse come risultato l’assunzione di altri
insegnanti. Nel Massachusetts, non vigeva alcun meccanismo di perequazione dei finanziamenti scolastici durante il periodo in cui sono stati svolti i test. In California, una serie di casi
giudiziari ha portato a una certa perequazione dei finanziamenti, non basata però sul rendimento degli studenti. Per questo motivo, né nel Massachusetts né in California la causalità
simultanea sembra costituire un problema.
Eteroschedasticità e correlazione dell’errore tra le osservazioni. Tutti i risultati riportati
qui e nei capitoli precedenti utilizzano errori standard robusti all’eteroschedasticità, perciò
260
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 261 — #291
i
i
7.3. Esempio: i punteggi del test e la dimensione delle classi
l’eteroschedasticità non ne inficia la validità interna. La correlazione del termine d’errore tra
le osservazioni, tuttavia, potrebbe minare la consistenza degli errori standard perché non è
stato usato il campionamento casuale semplice (il campione comprende tutti i distretti scolastici elementari dello stato). Sebbene esistano formule alternative per gli errori standard che
potrebbero essere applicate in questa situazione, i dettagli sono complessi e li lasciamo a testi
più avanzati.
Discussione e implicazioni
La somiglianza tra i risultati del Massachusetts e della California suggerisce che questi studi
sono esternalmente validi, nel senso che i risultati principali possono essere generalizzati alle
prestazioni nei test standardizzati di altri distretti scolastici negli Stati Uniti.
Alcune delle maggiori minacce potenziali alla validità esterna sono state tenute in considerazione controllando per la preparazione degli studenti, la condizione economica familiare
e il benessere del distretto e cercando non linearità nella funzione di regressione. Rimangono
però ancora minacce potenziali alla validità esterna. La minaccia principale è la distorsione
da variabile omessa, che potrebbe derivare dal fatto che le variabili di controllo non catturano le altre caratteristiche dei distretti scolastici o le opportunità di apprendimento al di fuori
della scuola.
Sulla base dei dati della California e del Massachusetts, siamo in grado di rispondere alla
domanda del provveditore del capitolo 4.1: dopo aver controllato per la condizione economica delle famiglie, le caratteristiche degli studenti e il benessere nel distretto e dopo aver modellato le non linearità della funzione di regressione, tagliare il rapporto studenti-insegnanti
di due studenti per insegnante si prevede aumenti i punteggi del test di approssimativamente
0, 08 deviazioni standard della distribuzione dei punteggi del test tra i distretti. Questo effetto
è statisticamente significativo, ma è molto piccolo. Questa stima è in linea con i risultati di
molti studi che hanno investigato gli effetti sui punteggi del test di riduzioni della dimensione
delle classi.4
Il provveditore può ora usare queste stime per decidere se ridurre la dimensione delle
classi. Nel prendere questa decisione, soppeserà i costi della proposta riduzione contro i
suoi benefici. I costi includono i salari degli insegnanti e le spese per le classi addizionali.
I benefici includono i miglioramenti delle prestazioni accademiche, che sono state misurate
dalla prestazione nei test standardizzati, ma ci sono altri benefici potenziali che non sono stati
studiati, inclusi tassi più bassi di abbandono e retribuzioni future migliori. L’effetto stimato
della proposta sulla prestazione nel test standardizzato è un elemento importante nel calcolo
dei costi e dei benefici del provveditore.
4 Se si è interessati ad apprendere qualcos’altro sulla relazione tra dimensione delle classi e punteggi del test, si
vedano le rassegne di Ehrenberg, Brewer, Gamoran e Willms (2001a, 2001b).
261
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 262 — #292
i
i
7.4. Conclusioni
7.4 Conclusioni
I concetti di validità interna ed esterna forniscono un quadro generale per valutare ciò che si
è appreso da uno studio econometrico.
Uno studio basato sulla regressione multipla è internamente valido se i coefficienti stimati sono non distorti e consistenti e se gli errori standard sono consistenti. Minacce alla
validità interna di tale studio includono le variabili omesse, la incorretta specificazione della
forma funzionale (non linearità), la misura imprecisa delle variabili indipendenti (errori nelle
variabili), la selezione campionaria e la casualità simultanea. Ciascuno di questi introduce
correlazione tra regressore ed errore, il che a sua volta rende gli stimatori OLS distorti e inconsistenti. Se gli errori sono correlati tra le osservazioni, come può accadere con le serie
temporali, oppure se sono eteroschedastici ma gli errori standard sono calcolati usando la formula classica, la validità interna è compromessa perché gli errori standard sono inconsistenti.
Questi ultimi problemi possono essere affrontati calcolando propriamente gli errori standard.
Uno studio che usa l’analisi di regressione, come qualunque altro studio statistico, è esternamente valido se i suoi risultati possono essere generalizzati oltre la popolazione e il contesto
studiati. Talvolta può essere d’aiuto confrontare due o più studi sullo stesso argomento. A
prescindere dalla disponibilità di due o più studi, valutare la validità esterna richiede di esprimere un giudizio circa la somiglianza tra la popolazione e il contesto studiati e la popolazione
e il contesto ai quali si vogliono generalizzare i risultati.
Le prossime due parti di questo manuale sviluppano i modi per affrontare le minacce alla
validità interna che non possono essere mitigate dalla mera analisi di regressione multipla.
La parte III estende il modello di regressione multipla secondo modi che cercano di mitigare
tutte e cinque le fonti di distorsione potenziale dello stimatore OLS; la parte III discute anche
un diverso approccio per ottenere validità interna, gli esperimenti controllati casualizzati. La
parte IV sviluppa metodi per analizzare serie temporali e per utilizzare questi dati nella stima
dei cosiddetti effetti causali dinamici, i quali sono effetti causali che variano nel tempo.
Sommario
1. Gli studi statistici vengono valutati chiedendosi se l’analisi sia valida internamente
ed esternamente. Uno studio è internamente valido se le inferenze statistiche sugli
effetti causali valgono per la popolazione oggetto di studio. Uno studio è esternamente
valido se le sue inferenze e conclusioni possono essere generalizzate dalla popolazione
e contesto studiati ad altre popolazioni e contesti.
2. Nell’analisi di regressione, ci sono due grandi minacce alla validità interna: gli stimatori OLS sono inconsistenti se i regressori e gli errori sono incorrelati; gli intervalli
di confidenza e i test di ipotesi non sono validi quando gli errori standard sono non
corretti.
262
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 263 — #293
i
i
Sommario
3. I regressori e gli errori possono essere correlati quando ci sono variabili omesse, una
forma funzionale scorretta, uno o più regressori sono misurati con errori, il campione
è scelto in maniera non casuale dalla popolazione o vi è causalità simultanea tra i
regressori e le variabili dipendenti.
4. Gli errori standard sono non corretti quando gli errori sono eteroschedastici e i pacchetti statistici utilizzano errori standard per l’omoschedasticità pura o quando l’errore
è correlato tra le diverse osservazioni.
Termini chiave
popolazione oggetto di studio (240)
popolazione d’interesse (240)
validità interna (241)
validità esterna (241)
incorretta specificazione della forma
funzionale (246)
distorsione da errori nelle variabili (246)
distorsione da selezione campionaria (248)
distorsione da causalità simultanea (249)
distorsione da equazioni simultanee (251)
Verifica dei concetti
7.1 Qual è la differenza tra validità interna ed esterna? Tra popolazione oggetto di studio e
popolazione d’interesse?
7.2 Il concetto chiave 7.2 descrive il problema della selezione di variabili in termini di
scelta ponderata tra distorsione e varianza. Qual è questa scelta ponderata? Perché
includendo un regressore addizionale si può diminuire la distorsione? E aumentare la
varianza?
7.3 Le variabili economiche sono spesso misurate con errori. Ciò significa che l’analisi di
regressione è inaffidabile? Argomentare la risposta.
7.4 Si supponga che uno stato abbia offerto test standardizzati volontari a tutti gli studenti
del terzo grado d’istruzione e che questi dati siano stati usati in uno studio della dimensione delle classi sulla prestazione degli studenti. Si spieghi come la distorsione
da variabile omessa potrebbe invalidarne i risultati.
7.5 Un ricercatore stima l’effetto sui tassi di criminalità della spesa per la polizia usando
dati a livello di città. Spiegare come la causalità simultanea potrebbe invalidarne i
risultati.
263
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 264 — #294
i
i
Sommario
7.6 Un ricercatore stima una regressione usando due pacchetti statistici diversi: uno utilizza la formula degli errori standard classici; l’altro implementa quelli robusti all’eteroschedasticità. Gli errori standard sono molto diversi. Quali bisognerebbe usare?
Perché?
Esercizi
7.1 Si supponga di aver appena letto uno studio statistico accurato dell’effetto della pubblicità sulla domanda di sigarette. Usando i dati relativi a New York negli anni ’70, si
potrebbe concludere che la pubblicità su autobus e metropolitane è stata più efficace
della pubblicità su carta stampata. Si usi il concetto di validità esterna per determinare
se i risultati possono essere verosimilmente applicati alla Boston degli anni ’70; alla
Los Angeles degli anni ’70; alla New York del 2002.
7.2 Si consideri il modello di regressione a una sola variabile: Yi = β0 + β1 Xi + ui e si
supponga che questo soddisfi l’ipotesi del concetto chiave 4.3. Si supponga che Y i sia
misurato con errori, cosicché i dati siano Ỹi = Yi + wi , dove wi è l’errore di misura
che è i.i.d. e indipendente da Yi e Xi . Si consideri la regressione Ỹi = β0 + β1 Xi + vi ,
dove vi è l’errore di regressione che si commette utilizzando la variabile dipendente
misurata con errori Ỹi .
a. Si mostri che vi = ui + wi .
b. Si mostri che la regressione Ỹi = β0 + β1 Xi + vi soddisfa le ipotesi del concetto
chiave 4.3 (suggerimento: si assuma che wi sia indipendente da Yj e Xj per tutti
i valori di i e j e che abbia momento quarto finito).
c. Gli stimatori OLS sono consistenti?
d. Gli intervalli di confidenza possono essere costruiti nel modo solito?
e. Si valuti l’affermazione: “l’errore di misura della X è un serio problema. L’errore
di misura della Y non lo è”.
7.3 Gli economisti del lavoro che studiano le determinanti delle retribuzioni femminili
hanno trovato un risultato empirico enigmatico. Usando donne impiegate selezionate
a caso, hanno effettuato una regressione delle retribuzioni sul numero di figli di queste
donne e un insieme di variabili di controllo (età, istruzione, occupazione e cosı̀ via).
Hanno trovato che, controllando per questi altri fattori, le donne con più figli avevano
salari più alti. Si spieghi come la selezione del campione potrebbe essere la causa di
questo risultato (suggerimento: si noti che il campione comprende solo donne lavoratrici). (Questo problema empirico ha motivato la ricerca di James Heckman sulla
selezione del campione che gli ha fruttato il Premio Nobel per l’economia nel 2000).
264
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 265 — #295
i
i
Appendice
Appendice 7.1: i dati sui test effettuati nelle scuole
elementari del Massachusetts
I dati del Massachussets sono medie a livello di distretto relative ai distretti di scuole elementari pubbliche nel 1998. Il punteggio del test è tratto dal test del Massachusetts Comprehensive Assessment System (MCAS) sottoposto nella primavera 1998 a tutti i frequentanti il
quarto grado d’istruzione nelle scuole pubbliche del Massachusetts. Il test è sponsorizzato
dal Massachusetts Department of Education ed è obbligatorio per tutte le scuole pubbliche. I
dati analizzati qui riguardano il punteggio totale globale, che è la somma dei punteggi ottenuti
nelle sezioni di inglese, matematica e scienze del test.
I dati sul rapporto studenti-insegnanti, la percentuale di studenti che ricevono sussidi per
il pasto e la percentuale di studenti che ancora apprendono l’inglese sono medie relative a
ciascun distretto scolastico elementare per l’anno scolastico 1997-1998 e sono stati forniti
dal Massachusetts Department of Education. I dati sul reddito medio dei distretti sono stati
tratti dal censimento USA del 1990.
265
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 266 — #296
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 267 — #297
i
i
Parte III
Ulteriori sviluppi dell’analisi
di regressione
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 268 — #298
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 269 — #299
i
i
Capitolo 8
Regressione con dati panel
La regressione multipla è uno strumento potente per controllare l’effetto delle variabili per le
quali si possiedono i dati. Se però non sono disponibili i dati per alcune variabili, queste non
possono essere incluse nella regressione e gli stimatori OLS dei coefficienti di regressione
potrebbero essere soggetti a distorsione da variabile omessa.
Il presente capitolo descrive un metodo per controllare per la presenza di alcuni tipi di variabili omesse senza osservarle realmente. Questo metodo richiede un tipo particolare di dati,
detti dati panel, in cui ogni unità oggetto d’osservazione, o entità, è osservata per due o più
periodi. Studiando le variazioni della variabile dipendente nel tempo, è possibile eliminare
l’effetto delle variabili omesse che, pur essendo diverse tra le entità, sono costanti nel tempo.
L’applicazione empirica in questo capitolo riguarda la guida in stato d’ebbrezza: quali
sono gli effetti delle imposte sugli alcolici e le leggi contro la guida in stato d’ebbrezza
sugli incidenti stradali mortali? Trattiamo questa questione usando dati su incidenti stradali
mortali, imposte sugli alcolici, leggi sulla guida in stato d’ebbrezza e altre variabili rilevanti
per i 48 stati contigui degli USA in ognuno dei sette anni dal 1982 al 1988. Questi dati panel
ci permettono di controllare per le variabili inosservate, che differiscono da stato a stato, come
l’atteggiamento culturale prevalente verso la guida dopo aver bevuto, ma che non cambiano
nel tempo. Questo ci permette anche di controllare per variabili che si modificano nel tempo,
come i miglioramenti riguardanti la sicurezza delle nuove automobili, ma che non variano tra
gli stati.
La sezione 8.1 descrive la struttura dei dati panel e introduce i dati sui guidatori ubriachi.
La regressione con effetti fissi, lo strumento principale per l’analisi di regressione dei dati panel, è un’estensione della regressione multipla che impiega dati panel per controllare l’effetto
di variabili che differiscono tra entità, pur essendo costanti nel tempo. La regressione con
gli effetti fissi è introdotta nelle sezioni 8.2 e 8.3, prima per il caso di due periodi soltanto,
poi per più periodi. Nella sezione 8.4 questi metodi sono estesi per incorporare i cosiddet-
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 270 — #300
i
i
8.1. I dati panel
ti effetti temporali, che controllano l’effetto di variabili inosservate che sono costanti tra le
entità ma cambiano nel tempo. Nella sezione 8.5 usiamo questi metodi per studiare l’effetto
delle imposte sugli alcolici e delle leggi sulla guida in stato d’ebbrezza, sui decessi dovuti ad
incidenti stradali.
8.1 I dati panel
Ricordiamo dalla sezione 1.3 che il termine dati panel (o dati longitudinali) si riferisce a
dati relativi a n entità diverse osservate in T periodi temporali diversi. I dati relativi agli
incidenti stradali studiati sono dati panel. Questi dati riguardano n = 48 entità (stati), dove
ogni entità è osservata in T = 7 periodi (in ciascuno degli anni 1982, . . . , 1988), per un totale
di 7 × 48 = 336 osservazioni.
Nel descrivere i dati sezionali è risultato utile utilizzare un pedice per indicare l’entità,
ad esempio Yi si riferisce alla variabile Y per la i-esima entità. Nel descrivere i dati panel,
abbiamo bisogno di una notazione addizionale per tenere conto sia dell’entità sia del tempo.
Per fare questo si usano due pedici invece di uno: il primo, i, si riferisce all’entità e il secondo,
t, si riferisce al tempo dell’osservazione. Perciò Yit indica la variabile Y osservata per la iesima delle n entità nel t-esimo dei T tempi. Questa notazione è riassunta nel concetto chiave
8.1.
Alcuni termini addizionali associati con i dati panel indicano l’eventuale mancanza di
alcune osservazioni: un panel bilanciato contiene tutte le sue osservazioni, cioè, le variabili
sono osservate per ciascuna entità e ciascun periodo temporale. Un panel che ha dati mancanti
per almeno un periodo per almeno un’entità è detto panel non bilanciato. I dati riguardanti
gli incidenti stradali contengono dati per i 48 stati USA in ciascuno dei sette anni, ed è perciò
bilanciato. Se alcuni dati invece fossero mancanti (per esempio, se non avessimo dati sugli
incidenti in alcuni stati per il 1983), i dati sarebbero non bilanciati. I metodi presentati in
questo capitolo sono descritti per il caso dei panel bilanciati; essi possono però essere usati
con panel non bilanciati, sebbene il modo esatto in cui metterli in pratica dipende dal software
di regressione usato.
Esempio: mortalità sulle strade e imposte sugli alcolici
Sulle autostrade degli Stati Uniti muoiono circa 40.000 persone ogni anno. Approssimativamente un terzo degli incidenti mortali coinvolge un guidatore che ha bevuto e questa frazione
aumenta durante i periodi in cui si beve di più. Uno studio (Levitt e Porter, 2001) stima che il
25% di chi guida sulle strade tra l’1 e le 3 del mattino ha bevuto e che un guidatore che, in base alle norme, è ubriaco ha una probabilità di causare un incidente almeno 13 volte superiore
rispetto a chi non ha bevuto.
270
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 271 — #301
i
i
8.1. I dati panel
Concetto chiave 8.1: notazione per i dati panel
I dati panel consistono di osservazioni sulle stesse n entità in due o più periodi T . Se i dati
contengono osservazioni sulle variabili X e Y , allora essi si indicano con
(Xit , Yit ), i = 1, . . . , n e = 1, . . . , T,
(8.1)
dove il primo pedice, i, si riferisce all’unità oggetto di osservazione e il secondo pedice, t,
si riferisce al momento in cui questa viene osservata.
In questo capitolo, studiamo quanto gli interventi pubblici volti a scoraggiare la guida
in stato d’ebbrezza siano efficaci nel ridurre effettivamente i morti sulle strade. I dati panel
contengono variabili collegate agli incidenti stradali e all’alcol, incluso il numero di incidenti
stradali per stato in ciascun anno, il tipo di legge sulla guida in stato d’ebbrezza per stato in
ciascun anno e l’imposta sulla birra fissata da ciascuno stato. Come misura degli incidenti
stradali utilizziamo il tasso di mortalità, che è il numero dei morti sulle strade in un anno
per 10.000 abitanti dello stato. Come misura delle imposte sugli alcolici usiamo l’imposta
“reale” su una cassetta di birra, che è l’imposta sulla birra espressa in dollari del 1988 per
correggere gli effetti dell’inflazione.1 I dati sono descritti in maggior dettaglio nell’appendice
8.1.
La figura 8.1a rappresenta il grafico a nuvola di queste due variabili. Un punto nel diagramma rappresenta il tasso di mortalità e l’imposta reale sulla birra nel 1982 per un dato
stato. Nella figura è riportata anche la retta di regressione OLS ottenuta dalla regressione del
tasso di mortalità sull’imposta reale sulla birra. La retta stimata è
d
F atalityRate
= 2, 01 + 0, 15 BeerT ax (dati 1982).
(0, 15) (0, 13)
(8.2)
d
F atalityRate
= 1, 86 + 0, 44 BeerT ax (dati 1988).
(0, 11) (0, 13)
(8.3)
Il coefficiente dell’imposta reale sulla birra è positivo, ma non statisticamente significativo al
livello 10%.
Siccome abbiamo dati per più di un anno, possiamo riesaminare tale relazione in un
altro anno. Facciamo questo nella figura 8.1b, che mostra lo stesso grafico a nuvola visto
in precedenza, ma con i dati relativi al 1988. La retta di regressione OLS in questo caso è
1 Per renderle comparabili nel tempo, le imposte sono espresse in “dollari del 1988” usando il Consumer Price
Index (CPI). Ad esempio, a causa dell’inflazione, un’imposta di 1$ nel 1982 corrisponde a una di 1, 23$ in dollari
del 1988.
271
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 272 — #302
i
i
8.1. I dati panel
Figura 8.1: il tasso di mortalità sulle strade e l’imposta sulla birra
Tasso mortalità
(vittime per 10.000)
4,5
4,0
3,5
3,0
Tasso mortalità = 2,01 + 0,15 imposta birra
2,5
2,0
1,5
1,0
0,5
0,0
0,0
0,5
1,0
(a) Dati 1982
1,5
2,0
2,5
3,0
Imposta birra
(dollari per cassetta a prezzi 1988)
Tasso mortalità (vittime per 10.000)
4,5
4,0
3,5
Tasso mortalità = 1,86 + 0,44 imposta birra
3,0
2,5
2,0
1,5
1,0
0,5
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Imposta birra
(dollari per cassetta a prezzi 1988)
(b) Dati 1988
Il quadro (a) è un grafico a nuvola dei tassi di mortalità sulle strade e l’imposta reale su una cassa di birra (in dollari del
1988) per 48 stati USA nel 1982. Il quadro (b) mostra i dati del 1988. In entrambi si nota una relazione positiva tra il
tasso di mortalità e la tassa reale sulla birra.
272
i
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0033
Fig. 08.01
1st Proof
i
2nd Proof
i
3rd Proof
Final
i
i
i
“generale” — 2005/7/10 — 22:25 — page 273 — #303
i
i
8.2. Dati panel con 2 periodi: confronti “prima e dopo”
Diversamente dalla regressione sui dati del 1982, il coefficiente dell’imposta reale sulla birra
è significativo all’1% (la statistica t è 3, 43). Curiosamente, il coefficiente stimato con i
dati del 1982 e del 1988 è positivo: letteralmente, a imposte reali sulla birra maggiori sono
associati più, e non meno, incidenti stradali mortali.
Dovremmo concludere che un inasprimento dell’imposta sulla birra porta a un maggior
numero di incidenti stradali mortali? Non necessariamente, dal momento che queste regressioni potrebbero avere una sostanziale distorsione da variabile omessa. Molti fattori influenzano il tasso di mortalità, inclusa la qualità delle automobili guidate nello stato, la condizione
delle autostrade, il fatto che il traffico si concentri in zone urbane o rurali, la densità delle
automobili sulla strada e se sia socialmente accettabile guidare dopo aver bevuto. Ognuno
di questi fattori potrebbe essere correlato con le imposte sugli alcolici; se ciò accadesse, si
avrebbe distorsione da variabile omessa. Un approccio per trattare queste potenziali fonti di
distorsione da variabile omessa potrebbe essere quello di raccogliere i dati su tutte queste variabili e aggiungerle alle regressioni annuali sezionali (8.2) e (8.3). Sfortunatamente, alcune
di queste variabili, come l’atteggiamento permissivo dovuto a fattori culturali per la guida
dopo aver bevuto, potrebbero risultare difficili o addirittura impossibili da misurare.
Tuttavia, se questi fattori restano costanti nel tempo in un dato stato, è possibile trovare
un’altra soluzione. Siccome abbiamo dati panel, possiamo in effetti tenere costanti tutti questi
fattori, pur non potendoli misurare. A tal fine, usiamo la regressione OLS con effetti fissi.
8.2 Dati panel con 2 periodi: confronti
“prima e dopo”
Quando per ciascuno stato sono disponibilli dati per T = 2 periodi, è possibile confrontare
i valori della variabile dipendente nel secondo periodo a quelli nel primo periodo. Ponendo
l’attenzione sulle variazioni della variabile dipendente, il confronto “prima e dopo” mantiene
in effetti costanti i fattori inosservati che differiscono da uno stato all’altro e che però non
variano nel tempo per ciascuno stato.
Sia Zi una variabile che determina il tasso di mortalità nell’i-esimo stato, ma non cambia
nel tempo (omettiamo perciò il pedice t). Ad esempio, Zi potrebbe essere l’atteggiamento
culturale esistente in un certo luogo nei confronti della guida dopo aver bevuto, che cambia
lentamente e per questo motivo potrebbe essere considerato costante tra il 1982 e il 1988. Di
conseguenza, la regressione lineare che mette in relazione Zi e l’imposta reale sulla birra con
il tasso di mortalità è
F atalityRateit = β0 + β1 BeerT axit + β2 Zi + uit ,
(8.4)
dove uit è l’errore di regressione e i = 1, . . . , n e t = 1, . . . , T .
273
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 274 — #304
i
i
8.2. Dati panel con 2 periodi: confronti “prima e dopo”
Siccome Zi non cambia nel tempo, il modello di regressione (8.4), non produrrà alcuna
variazione del tasso di mortalità tra il 1982 e il 1988. Cosı̀, in questo modello di regressione,
l’influenza di Zi può essere eliminata analizzando la variazione nel tasso di mortalità tra i due
periodi. Matematicamente, consideriamo l’equazione (8.4) per ognuno dei due anni 1982 e
1988:
F atalityRatei1982 = β0 + β1 BeerT axi1982 + β2 Zi + ui1982 ,
(8.5)
F atalityRatei1988 = β0 + β1 BeerT axi1988 + β2 Zi + ui1988 .
(8.6)
Sottraendo la (8.5) dalla (8.6) si elimina l’effetto di Zi :
F atalityRatei1988 − F atalityRatei1982
= β1 (BeerT axi1988 − BeerT axi1982 ) + ui1988 − ui1982 .
(8.7)
Questa specificazione ha un’interpretazione intuitiva: l’atteggiamento culturale verso la guida dopo aver bevuto influenza il numero di guidatori in stato d’ebbrezza e cosı̀ il tasso di
incidenti stradali mortali in uno stato. Se questo non si fosse modificato però tra il 1982 e il
1988, non ci sarebbe stata alcuna variazione del tasso di mortalità nello stato. Piuttosto, ogni
variazione nel tasso di mortalità nel tempo deve essere stato il risultato di altre cause. Nella
(8.7), tali cause sono le variazioni dell’imposta sulla birra o le variazioni del termine d’errore
(che cattura le variazioni intervenute negli altri fattori che determinano i morti sulle strade).
La specificazione alle differenze della regressione (8.7) elimina l’effetto delle variabili
inosservate Zi che sono costanti nel tempo. In altre parole, l’analisi condotta sulle variazioni
di Y e X ha l’effetto di controllare per le variabili che sono costanti nel tempo, eliminando
di conseguenza questa fonte di distorsione da variabile omessa.
La figura 8.2 presenta un grafico a nuvola della variazione nel tasso di mortalità tra il
1982 e il 1988 contro la differenza dell’imposta reale sulla birra tra il 1982 e il 1988 per i
48 stati nel nostro insieme di dati. La retta di regressione OLS, stimata usando questi dati e
rappresentata nella figura, è
F atalityRate1988d
− F atalityRate1982
= − 0, 072 − 1, 04 (BeerT ax1988 − BeerT ax1982 ),
(0, 065) (0, 36)
(8.8)
dove l’inclusione di un’intercetta consente che la variazione media del tasso di mortalità, in
assenza di una variazione nell’imposta reale sulla birra, possa essere non nulla.
Diversamente dai risultati della regressione con dati sezionali, l’effetto stimato di una
variazione nell’imposta reale sulla birra è negativo, come previsto dalla teoria economica.
L’ipotesi che la pendenza sia nulla è rifiutata al livello 5%. Secondo la stima di questo coefficiente, un incremento dell’imposta reale sulla birra di 1$ per cassetta riduce il tasso di mortalità sulle strade di 1, 04 morti ogni 10.000 persone. Questo effetto è molto elevato: il tasso
274
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 275 — #305
i
i
8.2. Dati panel con 2 periodi: confronti “prima e dopo”
Figura 8.2: variazioni dei tassi di mortalità e imposte sulla birra, 1982-1988
Variazione tasso mortalità
(vittime per 10.000)
1,0
Tasso di mortalità1988 – Tasso di mortalità1982
0,5
0,0
-0,5
-1,0
-1,5
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
Variazione imposta birra
(dollari per cassa a prezzi 1988)
Questo è un grafico a nuvola della variazione nel tasso di mortalità sulle strade e la variazione delle imposte reali
sulla birra tra il 1982 e il 1988 per 48 stati USA. Si può notare una relazione negativa tra variazioni del tasso di
mortalità e variazioni dell’imposta sulla birra.
medio di mortalità in questi dati è approssimativamente pari a due (ovvero, due morti all’anno ogni 10.000 unità della popolazione), perciò la stima suggerisce che i morti sulle strade
possono essere ridotti della metà semplicemente aumentando l’imposta reale sulla birra di 1$
per cassa.
Esaminando le variazioni del tasso di mortalità nel tempo, la regressione (8.8) controlla
i fattori fissi come l’atteggiamento culturale verso la guida dopo aver bevuto. Ci sono però
molti fattori che influenzano la sicurezza stradale e, se questi cambiano nel tempo e sono
correlati con l’imposta reale sulla birra, la loro omissione produce distorsione da variabile omessa. Nella sezione 8.5, effettueremo un’analisi più accurata che controlla per alcuni
di questi fattori, cosı̀ per ora è meglio astenersi dal trarre qualsiasi conclusione sostanziale
riguardante l’effetto delle imposte reali sulla birra sulle vittime stradali.
Quest’analisi “prima e dopo” funziona quando i dati sono osservati in due anni diversi. Il
nostro insieme di dati, tuttavia, contiene osservazioni per sette anni diversi e sembra assurdo
scartare questi dati addizionali potenzialmente utili. Il metodo “prima e dopo” non ha però
un’applicazione immediata per T > 2. Per analizzare tutte le osservazioni contenute nei
275
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0034
Fig. 08.02
i
i
1st Proof
2nd Proof
i
3rd Proof
Final
i
i
i
“generale” — 2005/7/10 — 22:25 — page 276 — #306
i
i
8.3. La regressione con effetti fissi
nostri dati, usiamo il metodo della regressione con effetti fissi.
8.3 La regressione con effetti fissi
La regressione con effetti fissi è un metodo per controllare le variabili omesse nei dati panel
quando le variabili omesse variano tra le entità (stati) ma non nel tempo. A differenza del
confronto “prima e dopo” della sezione 8.2, la regressione con effetti fissi può essere usata
quando ci sono due o più osservazioni sulla stessa entità.
I modelli di regressione con effetti fissi hanno n intercette differenti, una per ogni entità.
Queste intercette possono essere rappresentate da un gruppo di variabili binarie (o indicatrici),
le quali catturano le influenze di tutte le variabili omesse che differiscono da un’entità a
un’altra ma sono costanti nel tempo.
Il modello di regressione con effetti fissi
Si consideri il modello di regressione (8.4), con la variabile dipendente (F atalityRate) e il
regressore osservati (BeerT ax) indicati con Yit e Xit :
Yit = β0 + β1 Xit + β2 Zi + uit ,
(8.9)
dove Zi è una variabile inosservata che varia da uno stato a un altro ma non cambia nel tempo
(ad esempio, Zi rappresenta gli atteggiamenti culturali verso la guida dopo aver bevuto).
Vogliamo stimare β1 , l’effetto su Y di X tenendo costanti le caratteristiche inosservate dello
stato Z.
Siccome Zi varia da uno stato a un altro ma è costante nel tempo, il modello di regressione
(8.9) può essere interpretato come avente n intercette, una per ogni stato. Nello specifico, sia
αi = β0 + β2 Zi . L’equazione (8.9) diventa allora
Yit = β1 Xit + αi + uit ,
(8.10)
detto modello di regressione con effetti fissi, dove α1 , . . . , αn sono trattate come intercette
incognite da stimare, una per ogni stato. L’interpretazione di αi come intercetta specifica per
ogni stato deriva dall’analisi della retta di per l’i-esimo stato; tale retta è αi + β1 Xit . La
pendenza della retta di regressione β1 è la stessa per tutti gli stati, ma la sua intercetta varia
da uno stato a un altro. La fonte della variazione nell’intercetta è la variabile Z i , che cambia
da stato a stato, pur essendo costante nel tempo.
Le intercette specifiche per ogni stato nel modello di regressione con effetti fissi possono
anche essere espresse usando variabili binarie che indichino gli stati individualmente. La sezione 6.3 ha analizzato il caso in cui le osservazioni appartengono a uno di due gruppi e la
retta di regressione della popolazione ha la stessa pendenza per entrambi i gruppi ma diverse
276
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 277 — #307
i
i
8.3. La regressione con effetti fissi
intercette (si veda la figura 6.8a). Tale retta di regressione è stata espressa matematicamente
usando una singola variabile binaria per indicare uno dei gruppi (specificazione 1 nel concetto
chiave 6.4). Se nei nostri dati avessimo avuto solo due stati, avremmo potuto applicare quel
modello di regressione con variabile binaria. Siccome però abbiamo più di due stati, dobbiamo aggiungere altre variabili binarie per catturare tutte le intercette specifiche per ogni stato
nella (8.10).
Per sviluppare il modello di regressione con effetti fissi usando variabili binarie, sia D1 i
una variabile binaria uguale a uno quando i = 1 e a zero altrimenti, sia D2 i una variabile
binaria uguale a uno quando i = 2 e a zero altrimenti e cosı̀ via. Non possiamo includere
tutte le n variabili binarie in aggiunta a un’intercetta comune, poiché, se lo facessimo, genereremmo perfetta collinearità (esercizio 8.2). Omettiamo cosı̀ arbitrariamente la variabile D1 i
relativa al primo gruppo. Di conseguenza, il modello di regressione con effetti fissi (8.10)
può essere equivalentemente scritto come
Yit = β0 + β1 Xit + γ2 D2i + γ3 D3i + . . . + γn Dni + uit ,
(8.11)
dove β0 , β1 , γ2 , . . . , γn sono coefficienti ignoti da stimare. Per derivare la relazione tra i coefficienti della (8.11) e le intercette della (8.10), si confrontino le rispettive rette di regressione
per ciascuno stato. Nella (8.11), l’equazione di regressione per il primo stato è β 0 + β1 Xit ,
perciò α1 = β0 . Per il secondo e i restanti, essa è β0 + β1 Xit + γi , α1 = β0 + γi per i ≥ 2.
Ci sono quindi due modi equivalenti per scrivere il modello di regressione con effetti fissi:
nella (8.10), il modello è espresso nei termini di n intercette specifiche per ogni stato; nella
(8.11), esso ha un’intercetta comune e n − 1 regressori binari. In entrambe le formulazioni,
la pendenza di X è la stessa per ciascuno stato. Le intercette specifiche per ogni stato nella
(8.10) e i regressori binari nella (8.11) hanno la stessa origine: la variabile inosservata Z i che
varia tra gli stati ma non nel tempo.
Estensione a più X. Se ci sono altre determinanti osservate di Y che risultano correlate con
X e che cambiano nel tempo, anche queste dovrebbero essere incluse nella regressione per
evitare la distorsione da variabile omessa. In questo modo si ottiene il modello di regressione
con effetti fissi e regressori multipli, riassunto nel concetto chiave 8.2.
Le ipotesi dei minimi quadrati per il modello di regressione con effetti fissi. Ci sono
cinque ipotesi dei minimi quadrati per il modello di regressione con effetti fissi: le quattro
ipotesi del modello di regressione multipla riportate nel concetto chiave 5.4 (adattate ai dati
panel), più una quinta e nuova ipotesi. Nei dati sezionali, gli errori sono incorrelati tra le
unità, condizionatamente ai regressori. La quinta ipotesi estende questo concetto ai dati panel,
assumendo che gli errori siano incorrelati sia nel tempo sia tra le entità, condizionatamente ai
regressori. Queste ipotesi sono concettualmente simili alle ipotesi dei minimi quadrati per il
modello di regressione multipla, ma la loro formulazione matematica è piuttosto complicata
277
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 278 — #308
i
i
8.3. La regressione con effetti fissi
Concetto chiave 8.2: il modello di regressione con effetti fissi
Il modello di regressione con effetti fissi è
Yit = β1 X1,it + · · · + βk Xk,it + αi + uit ,
(8.12)
con i = 1, . . . , n e t = 1, . . . , T , dove X1,it è il valore del primo regressore per l’entità i al
tempo t, X2,it è il valore del secondo regressore, e cosı̀ via, e α1 , . . . , αn sono le intercette
specifiche per ciascuna entità.
In modo equivalente, il modello di regressione con effetti fissi può essere scritto in
termini di un’intercetta comune, delle X e delle n − 1 variabili binarie che rappresentano
tutte le entità meno una:
Yit
= β0 + β1 X1,it + · · · + βk Xk,it + γ2 D2i
+γ3 D3i + · · · + γn Dni + uit ,
(8.13)
dove D2i = 1 se i = 2 e zero altrimenti e cosı̀ via.
a causa della notazione necessariamente complicata associata ai dati longitudinali. Le ipotesi
sono esplicitate e discusse nell’appendice 8.2.
Stima e inferenza
In linea di principio, la specificazione con variabile binaria del modello di regressione con
effetti fissi (equazione (8.13)) può essere stimata con gli OLS. Tale regressione, però, ha k+n
regressori (le k variabili in X, le n − 1 variabili binarie e l’intercetta), e quindi la regressione
OLS è tediosa in pratica o, per alcuni software, impossibile da realizzare, quando il numero
delle entità è grande. I software econometrici hanno, perciò, algoritmi speciali per la stima
OLS dei modelli di regressione con effetti fissi. Questi speciali algoritmi equivalgono all’uso
degli OLS sul modello completo con variabili binarie, ma sono più veloci perché impiegano
semplificazioni matematiche che derivano dall’algebra della regressione con effetti fissi.
L’algoritmo degli OLS per le “entità in deviazioni dalla media”. Tipicamente, i software di regressione calcolano lo stimatore OLS con effetti fissi in due passi. Nel primo
passo, la media specifica per ciascuna entità viene sottratta a ogni variabile. Nello specifico, consideriamo il caso di un singolo regressore nella versione (8.10) del modello con
effetti fissi e prendiamo la media di entrambi i suoi lati; allora Ȳi = β1 X̄i + αi + ūi , do278
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 279 — #309
i
i
8.3. La regressione con effetti fissi
P
ve Ȳi = 1/T Tt=1 Yit , e X̄i e ūi sono definiti in modo simile. Cosı̀ la (8.10) implica che
Yit − Ȳi = β1 (Xit − X̄i )+(uit − ūi ). Siano Ỹit = Yit − Ȳi , X̃it = Xit − X̄i e ũit = uit − ūi ;
di conseguenza,
Ỹit = β1 X̃it + ũit .
(8.14)
Perciò, β1 può essere stimato attraverso la regressione OLS delle variabili “in deviazioni dalla
media” Ỹit su X̃it . In effetti, questo stimatore è identico allo stimatore OLS di β1 ottenuto
stimando il modello con effetti fissi (8.10) usando n − 1 variabili binarie (esercizio 16.6).
La regressione “prima e dopo” e la stima con effetti fissi. Sebbene la (8.11) con le sue
variabili binarie appaia abbastanza diversa rispetto al modello di regressione “prima e dopo”
(8.7), nel caso speciale in cui T = 2 lo stimatore OLS di β1 per la specificazione con variabili
binarie è identico a quello per la specificazione “prima e dopo”. Perciò, quando T = 2,
ci sono tre modi per stimare β1 con gli OLS: la specificazione “prima e dopo” (8.7), la
specificazione con variabili binarie (8.11) e la specificazione “in deviazioni dalla media”
(8.14). Questi tre metodi sono equivalenti, cioè producono identiche stime OLS.
Errori standard e inferenza statistica. Sotto le ipotesi dei minimi quadrati dell’appendice
8.2, gli errori standard OLS robusti all’eteroschedasticità producono inferenze affidabili in
grandi campioni. In altre parole, test d’ipotesi costruiti usando tali errori standard avranno
un livello minimo pari al livello di significatività desiderato e intervalli di confidenza con
un livello di confidenza desiderato del 95% conterranno il vero valore di β 1 nel 95% dei
campioni ripetuti.
Applicazione alla mortalità sulle strade
La stima OLS della retta di regressione con effetti fissi che mette in relazione l’imposta reale
sulla birra e il tasso di mortalità, basata su tutti e sette gli anni (336 osservazioni), è
d
F atalityRate
= − 0, 66 BeerT ax + StateF ixedEf f ects,
(0, 20)
(8.15)
dove, per convenzione, le intercette costanti per ciascuno stato non sono elencate per risparmiare spazio e perché non sono d’interesse primario in questa applicazione.
Come la specificazione “alle differenze” (8.8), il coefficiente stimato nella regressione
con effetti fissi (8.15) è negativo, cosicché, come previsto dalla teoria economica, più elevate
imposte reali sulla birra sono associate a un minor numero di morti sulle strade –l’opposto di
quanto avevamo riscontrato nelle regressioni iniziali con dati sezionali (8.2) e (8.3). Le due
regressioni non sono identiche perché la regressione “alle differenze” (8.8) usa soltanto i dati
del 1982 e del 1988 (la differenza tra questi due anni nello specifico), mentre la regressione
279
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 280 — #310
i
i
8.4. La regressione con effetti temporali
con effetti fissi (8.15) utilizza i dati per tutti i sette anni. Grazie alle osservazioni aggiuntive,
l’errore standard della (8.15) è minore rispetto a quello della (8.8).
Includere degli effetti fissi per stato nella regressione del tasso di mortalità ci permette di
evitare la distorsione da variabile omessa derivante da fattori omessi, come gli atteggiamenti
culturali verso la guida in stato di ebbrezza, che variano tra gli stati ma sono costanti nel
tempo all’interno di ciascuno stato. Uno scettico potrebbe però sospettare che ci siano altri
fattori che potrebbero condurre a distorsione da variabile omessa. Per esempio, durante questo periodo, le automobili sono diventate più sicure e gli occupanti hanno indossato cinture
di sicurezza in maniera sempre crescente; se l’imposta reale sulla birra è cresciuta in media
durante gli anni ’80, questa potrebbe catturare l’effetto dell’aumento generalizzato della sicurezza delle automobili. Se, invece, la sicurezza è migliorata nel tempo, ma in modo uguale
in tutti gli stati, possiamo eliminarne l’influenza includendo effetti temporali.
8.4 La regressione con effetti temporali
Proprio come gli effetti fissi per ogni entità consentono di controllare per variabili che sono
costanti nel tempo ma differiscono tra le entità, cosı̀ gli effetti temporali controllano per
variabili che sono costanti tra le entità ma si evolvono nel tempo.
Siccome i miglioramenti nella sicurezza sono introdotti a livello nazionale nelle nuove
automobili, essi contribuiscono a ridurre le vittime stradali in tutti gli stati. Cosı̀, è ragionevole pensare alla sicurezza delle automobili come a una variabile omessa che varia nel tempo,
ma ha lo stesso valore in tutti gli stati. La regressione nella popolazione (8.9) può essere modificata in modo da includere l’effetto della sicurezza delle automobili, che indicheremo con
St :
Yit = β0 + β1 Xit + β2 Zi + β3 St + uit
(8.16)
dove St è inosservato e il singolo pedice “t” evidenzia il fatto che la sicurezza varia nel tempo,
ma è costante tra gli stati. Siccome β3 St rappresenta le variabili che determinano Yit , se St
è correlato con Xit , allora l’omissione di St dalla regressione induce distorsione da variabile
omessa.
Solo effetti temporali
Supponiamo, per il momento, che le variabili Zi non siano presenti, e quindi il termine β2 Zi
possa essere eliminato dalla (8.16), sebbene rimanga il termine β 3 St . Il nostro obiettivo è
stimare β1 , controllando per St .
Sebbene St sia inosservato, la sua influenza può essere eliminata perché varia nel tempo
ma non tra gli stati, proprio come è possibile eliminare l’effetto di Zi , che varia tra gli stati
ma non nel tempo. In altre parole, β3 St può essere rimpiazzato da un insieme di T variabili
280
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 281 — #311
i
i
8.4. La regressione con effetti temporali
binarie, ciascuna indicante un anno diverso. Nello specifico, sia B1 t = 1 se t è il primo
periodo considerato nel campione e sia uguale a zero altrimenti; sia B2 t = 1 se t è il secondo
periodo e cosı̀ via. Le variabili binarie B1t , . . . , BTt sono chiamate effetti temporali.
Il modello di regressione con effetti temporali, con un singolo regressore X e T − 1
effetti tempo, è
Yit = β0 + β1 Xit + δ2 B2t + . . . + δT BTt + uit ,
(8.17)
dove δ2 , . . . , δT sono coefficienti ignoti. Come nel modello di regressione con effetti fissi
(8.11), in questa versione del modello con effetti temporali l’intercetta è inclusa e la prima
variabile binaria (B1t ) è omessa per prevenire la perfetta collinearità.
Nella regressione delle vittime stradali, la specificazione degli effetti temporali (8.17)
ci permette di eliminare la distorsione che deriva da variabili omesse, come gli standard di
sicurezza introdotti a livello nazionale, che cambiano nel tempo, ma sono gli stessi in un
determinato anno per tutti gli stati.
Effetti temporali ed effetti fissi
Se alcune delle variabili omesse sono costanti nel tempo ma variano tra gli stati (come le
norme culturali), mentre altre sono costanti tra gli stati ma variano nel tempo (come gli standard di sicurezza), è appropriato includere sia gli effetti stato sia gli effetti tempo. Possiamo
farlo includendo nella regressione, oltre all’intercetta, n − 1 variabili binarie di stato e T − 1
variabili binarie temporali. Il modello di regressione con effetti temporali ed effetti fissi è
Yit = β0 + β1 Xit + γ2 D2i + . . . + γn Dni + δ2 B2t + . . . + δT BTt + uit ,
(8.18)
dove β0 , β1 , γ2 , . . . , γn , δ2 , . . . , δT sono coefficienti ignoti.
Il modello di regressione con effetti temporali e fissi di stato combinati elimina la distorsione da variabile omessa che deriva sia dalle variabili inosservate che sono costanti nel
tempo sia dalle variabili inosservate che sono costanti tra gli stati.
Quando ci sono regressori addizionali osservati, anch’essi appaiono nella (8.18).
Stima. Il modello con effetti temporali e il modello con effetti temporali ed effetti fissi
sono entrambi varianti del modello di regressione multipla. I loro coefficienti possono perciò
essere stimati attraverso gli OLS includendo le variabili binarie temporali aggiuntive. Alcuni
pacchetti econometrici incorporano algoritmi per calcolare regressioni con effetti temporali
ed effetti fissi di stato combinati che sono computazionalmente più efficienti rispetto alla
stima degli OLS del modello completo con variabili binarie nella (8.18).
Applicazione alle vittime stradali. Aggiungendo gli effetti temporali agli effetti fissi di
281
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 282 — #312
i
i
8.5. Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade
stato, la stima OLS della retta di regressione è
d
F atalityRate
= − 0, 64 BeerT ax + StateF ixedEf f ects + T imeF ixedEf f ects.
(0, 25)
(8.19)
Questa specificazione include l’imposta sulla birra, 47 variabili binarie di stato (di effetti
fissi di stato), 6 variabili binarie temporali (effetti temporali) e un’intercetta, di modo che la
regressione contiene 1 + 47 + 6 + 1 = 55 variabili sul lato di destra! I coefficienti delle
variabili binarie temporali e di stato e l’intercetta non sono riportate perché non sono oggetto
di interesse primario.
L’inclusione di effetti temporali ha scarso impatto sulla relazione stimata tra l’imposta
reale sulla birra e il tasso di mortalità (si confrontino la (8.15) e la (8.19)), e il coefficiente
dell’imposta reale sulla birra rimane significativo al livello 5% (t = −0, 64/0, 25 = −2, 56).
Questa stima della relazione tra l’imposta reale sulla birra e gli incidenti stradali mortali
è immune da distorsione da variabile omessa dovuta a variabili che sono costanti sia nel
tempo sia tra gli stati. Tuttavia, molte importanti determinanti della mortalità sulle strade non
rientrano in questa categoria, perciò questa specificazione potrebbe ancora essere soggetta a
distorsione da variabile omessa. Con in mano lo strumento della regressione con effetti fissi,
possiamo ora intraprendere un’analisi più completa di questi dati.
8.5 Leggi sulla guida in stato d’ebbrezza
e mortalità sulle strade
Le imposte sugli alcolici sono solo uno dei modi per scoraggiare la guida in stato d’ebbrezza. Gli stati si differenziano nelle pene comminate agli automobilisti ubriachi e uno stato
che intenda reprimere maggiormente la guida in condizioni d’ebbrezza può farlo tanto attraverso leggi più dure quanto elevando le imposte. Se cosı̀, omettere tali leggi potrebbe
produrre distorsione da variabile omessa nello stimatore OLS dell’effetto delle imposte reali
sulla birra sulle vittime del traffico, anche in regressioni con effetti fissi di stato e temporali.
Inoltre, poiché l’uso dei veicoli dipende in parte dal fatto che i guidatori abbiano un lavoro e
poiché variazioni di imposta possono riflettere condizioni economiche (il disavanzo di bilancio di uno stato può portare a un aumento dell’imposta), finché l’omissione delle condizioni
economiche di uno stato potrebbe generare distorsione da variabile omessa.
In questa sezione, estendiamo l’analisi precedente per studiare l’effetto sugli incidenti
stradali mortali delle leggi sugli alcolici (incluse le imposte sulla birra), tenendo costanti le
condizioni economiche. In pratica, si stimano regressioni con dati panel che includono regressori che rappresentano le leggi sulla guida in stato d’ebbrezza e le condizioni economiche
dello stato.
282
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 283 — #313
i
i
8.5. Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade
I risultati sono riassunti nella tabella 8.1. Il formato della tabella è lo stesso delle tavole
di regressione presentate nei capitoli 5,6 e 7: ogni colonna riporta una differente regressione
e ogni riga la stima del coefficiente e l’errore standard, la statistica F e il valore-p, o altre
informazioni sulla regressione.
La colonna (1) della tabella 8.1 presenta i risultati della regressione OLS del tasso di
mortalità sull’imposta reale sulla birra senza effetti di stato e tempo. Come nelle regressioni
sezionali per il 1982 e per il 1988 (stime (8.2) e (8.3)), il coefficiente dell’imposta reale sulla birra è positivo (0, 36) e la stima della colonna (1) è significativamente diversa da zero al
5%: secondo questa stima, aumentando le imposte sulla birra aumentano gli incidenti stradali
mortali! Tuttavia, la regressione nella colonna (2) (riportata in precedenza come equazione
(8.15)), che comprende effetti fissi di stato, suggerisce che il coefficiente positivo nella colonna (1) è il risultato della distorsione da variabile omessa (il coefficiente sull’imposta reale
sulla birra è pari a −0, 66). L’R̄2 della regressione salta da 0, 090 a 0, 889 quando vengono inclusi gli effetti fissi; evidentemente, gli effetti fissi di stato catturano gran parte della
variazione nei dati.
Le cose cambiano poco quando vengono aggiunti gli effetti temporali, come risulta dalla
colonna (3) (riportata in precedenza come equazione (8.19)). I risultati delle colonne (1)-(3)
sono coerenti con l’ipotesi che le variabili fisse omesse –fattori storici e culturali, condizioni
generali delle strade, densità di popolazione, atteggiamento verso la guida dopo aver bevuto e
cosı̀ via– siano fattori importanti che determinano la variazione negli incidenti stradali mortali
tra gli stati.
Le tre regressioni finali, nella tabella 8.1, includono altre determinanti potenziali dei tassi
di mortalità, insieme agli effetti temporali e di stato. La specificazione di base, riportata nella
colonna (4), comprende due gruppi di variabili normative collegate alla guida in stato d’ebbrezza più altre variabili che controllano per la quantità di traffico e le condizioni economiche
generali dello stato. Il primo gruppo di variabili riguarda l’età minima legale per bere alcolici
rappresentata da tre variabili binarie per tre diverse età minime legali per bere alcolici, ovvero
18, 19 e 20 anni (perciò il “gruppo omesso” è l’età minima legale di 21 anni o maggiore). Il
secondo gruppo di variabili giuridiche riguarda la pena associata alla prima detenzione per
guida sotto l’influenza di alcolici, sia pena detentiva sia servizi per la comunità (il gruppo
omesso comprende le pene meno severe). Le tre misure relative al traffico e alla condizione
economica sono le miglia mediamente percorse da un veicolo per guidatore, il tasso di disoccupazione e il logaritmo del reddito personale reale pro capite (in dollari del 1988) (l’uso del
logaritmo del reddito fa sı̀ che il coefficiente possa essere interpretato in termini di variazioni
percentuali del reddito; vedi sezione 6.2).
La regressione nella colonna (4) contiene quattro risultati interessanti.
1. Includere altre variabili riduce il coefficiente stimato dell’imposta reale sulla birra, relativamente alla regressione nella colonna (3). Il coefficiente stimato (−0, 45) conti283
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 284 — #314
i
i
8.5. Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade
Tabella 8.1: analisi degli effetti delle leggi sulla guida in stato d’ebbrezza sulle morti per
incidenti autostradali
Variabile dipendente: tasso di mortalità sulle strade (morti su 10.000 abitanti)
Regressore
Imposta sulla birra
(1)
(2)
(3)
(4)
(5)
(6)
0,36∗∗
(0,05)
-0,66∗∗
(0,20)
-0,64∗
(0,25)
-0,45∗
(0,22)
0,028
(0,066)
-0,019
(0,040)
0,031
(0,046)
-0,70∗∗
(0,25)
-0,011
(0,064)
-0,078
(0,049)
-0,102∗
(0,046)
-0,46∗
(0,22)
Età minima legale 18
Età minima legale 19
Età minima legale 20
Età minima legale
-0,002
(0,017)
Pena detentiva?
0,013
(0,032)
0,033
(0,115)
Servizi per
la comunità?
Pena dententiva o
servizi per la comunità?
Miglia medie
per guidatore
Tasso di disoccupazione
Reddito reale pro capite
(logaritmo)
Effetti fissi di stato?
Effetti temporali?
no
no
sı̀
no
0,008
(0,008)
-0,063∗∗
(0,012)
1,81∗∗
(0.47)
sı̀
sı̀
sı̀
sı̀
-0,026
(0,065)
0,147
(0,137)
0,017
(0,010)
sı̀
sı̀
0,031
(0.076)
0,009
(0,008)
-0,063∗∗
(0,012)
1,79∗∗
(0,45)
sı̀
sı̀
Statistiche F e valori-p per l’esclusione di gruppi di variabili:
Effetti temporali = 0
2,47
(0,024)
Coefficienti età minime legali = 0
Coefficienti pena detentiva
e servizi per la comunità = 0
Tasso disoccupazione,
reddito pro capite = 0
R̄2
0,090
0,889
0,891
11,44
(<0,001)
0,48
(0,696)
0,17
(0,845)
38,29
(<0,001)
0,926
2,28
(0,037)
2,09
(0,102)
0,59
(0,557)
0,893
11,59
(<0,001)
40,12
(<0,001)
0,926
Queste regressioni sono state stimate utilizzando i dati panel per 48 stati USA dal 1982 al 1988 (336 osservazioni
totali), descritti nell’appendice 8.1. Gli errori standard sono riportati in parentesi sotto i coefficienti, e i valori-p
sono riportati in parentesi sotto le statistiche F . I coefficienti sono statisticamente significativi al livello ∗ 5% o
∗∗ 1%.
284
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 285 — #315
i
i
8.5. Leggi sulla guida in stato d’ebbrezza e mortalità sulle strade
nua a essere negativo e significativo al 5%. Un modo per valutare la dimensione del
coefficiente è immaginare che uno stato con imposta reale sulla birra pari alla media raddoppi tale imposta; siccome l’imposta reale media sulla birra in questi dati
è approssimativamente di 0, 50$ per cassetta, questo implica che l’imposta aumenti
di 0, 50$ per cassetta. Secondo la stima nella colonna (4), l’effetto di un incremento di 0, 50$ (in dollari del 1988) dell’imposta sulla birra è un decremento del tasso
atteso di mortalità di 0, 45 × 0, 50 = 0, 23 morti per 10.000 abitanti. Questo effetto è notevole: siccome il tasso di mortalità medio è di 2 per 10.000 abitanti, una
riduzione di 0, 23 corrisponde a una diminuzione del tasso di mortalità a 1, 77 per
10.000 abitanti. Ciò detto, la stima è alquanto imprecisa: siccome l’errore standard
di questo coefficiente è 0, 22, l’intervallo di confidenza al 95% per questo effetto è
−0, 45 × 0, 50 ± 1, 96 × 0, 22 × 0, 050 = (−0, 44, −0, 01). Un intervallo di confidenza al 95% cosı̀ ampio include anche valori dell’effetto vero che sono molto vicini a
zero.
2. L’età minima legale per bere alcolici si stima che abbia un effetto davvero piccolo sugli incidenti stradali mortali. L’ipotesi congiunta che siano nulli i coefficienti delle
variabili legate all’età minima legale per bere non può essere rifiutata al livello di significatività del 10%: la statistica F per testare l’ipotesi congiunta che i tre coefficienti
siano nulli è pari a 0, 48, con un valore-p di 0, 696. Inoltre, le stime sono piccole in valore assoluto. Ad esempio, si stima che uno stato con un’età minima legale per bere di
18 anni abbia un tasso di mortalità più alto di 0, 028 morti per 10.000 abitanti rispetto
a uno stato con un’età minima legale per bere alcolici di 21 anni, tenendo costanti gli
altri fattori della regressione.
3. I coefficienti delle variabili relativi alla pena per il primo reato sono anch’essi stimati
essere piccoli e congiuntamente diversi da zero al 10% (la statistica F è 0, 17).
4. Le variabili economiche hanno un potere esplicativo considerevole per la mortalità
sulle strade. Alti tassi di disoccupazione sono associati a un minor numero di incidenti
mortali: un aumento del tasso di disoccupazione di un punto percentuale si stima riduca
la mortalità sulle strade di 0, 063 morti per 10.000 abitanti. In modo simile, redditi
reali pro capite elevati sono associati a un numero di morti elevato: il coefficiente è
pari a 1, 81, cosı̀ un incremento del reddito reale pro capite dell’1% è associato a un
incremento della mortalità sulle strade di 0, 0181 morti per 10.000 abitanti (si veda il
caso I nel concetto chiave 6.2 per l’interpretazione di questo coefficiente). Secondo
queste stime, condizioni economiche buone sono associate a un maggior numero di
morti per incidenti stradali, forse a causa dell’aumentata densità del traffico quando il
tasso di disoccupazione è basso o del maggiore consumo di alcol quando il reddito è
285
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 286 — #316
i
i
8.6. Conclusioni
alto. Le due variabili economiche sono congiuntamente significative al livello 0, 1%
(la statistica F è 38, 29).
Le due colonne finali della tavola 8.1 riportano regressioni che cercano di esaminare la
sensibilità di queste conclusioni a variazioni della specificazione di base. La regressione
nella colonna (5) elimina le variabili che controllano per le condizioni economiche. Il risultato è un incremento nell’effetto stimato dell’imposta reale sulla birra con una variazione
non apprezzabile degli altri coefficienti; la sensibilità del coefficiente dell’imposta sulla birra
all’inclusione delle variabili economiche, combinata con la significatività dei coefficienti di
tali variabili, indica che le variabili economiche dovrebbero rimanere nella specificazione di
base. La regressione nella colonna (6) esamina la sensibilità dei risultati all’uso di una forma
funzionale diversa per l’età legale per bere alcolici (rimpiazzando i tre indicatori con il valore
dell’età legale per bere alcolici) e combinando le due variabili binarie relative alla punizione.
I risultati della regressione (4) non sono sensibili a questi cambiamenti.
La forza di quest’analisi è che l’inclusione degli effetti fissi di stato e degli effetti temporali riduce il rischio di distorsione da variabile omessa, generata da variabili inosservate che
non cambiano nel tempo (come gli atteggiamenti culturali verso la guida dopo aver bevuto)
oppure non variano tra gli stati (come i miglioramenti nella sicurezza). Come sempre, però, è
importante pensare ai possibili limiti di quest’analisi. Una potenziale fonte di distorsione da
variabile omessa è il fatto che la misura delle imposte sugli alcolici qui usata, l’imposta reale
sulla birra, potrebbe andare di pari passo con altre imposte sugli alcolici; questo suggerisce
di interpretare i risultati in senso più ampio che con riferimento alla sola imposta sulla birra.
Una possibilità più sottile è che gli aumenti dell’imposta reale sulla birra potrebbero essere
associati a campagne di educazione civica, magari in risposta a pressioni politiche. Se cosı̀,
le variazioni nell’imposta reale sulla birra potrebbero catturare l’effetto di una campagna su
larga scala per scoraggiare la guida in stato d’ebbrezza.
Questi risultati presentano un quadro provocatorio delle misure per contenere la guida in
stato di ebbrezza e la mortalità sulle strade. Secondo queste stime, né pene rigide né l’innalzamento dell’età legale minima per bere alcolici hanno effetti rilevanti sulla mortalità. Al
contrario, vi è evidenza che l’incremento delle imposte sugli alcolici, misurate dall’imposta
reale sulla birra, riduce i morti per incidenti stradali. La grandezza di questi effetti, tuttavia,
è stimata in modo poco preciso.2
8.6 Conclusioni
Questo capitolo ha mostrato come osservazioni multiple nel tempo per la stessa entità possono essere usate per controllare l’effetto di variabili inosservate omesse che differiscono tra
2 Se si è interessati a ulteriori analisi di questi dati, si veda Ruhm (1996). Se si vuole conoscere di più su guida
in stato d’ebbrezza e alcol e, più in generale, sull’economia dell’alcol, si veda Cook e Moore (2000).
286
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 287 — #317
i
i
Sommario
le entità ma sono costanti nel tempo. L’idea di fondo è che se una variabile inosservata non
cambia nel tempo, allora ogni variazione nella variabile dipendente deve essere dovuta ad
influenze diverse da queste caratteristiche fisse. Se gli atteggiamenti culturali verso la guida
in stato d’ebbrezza non cambiano in maniera apprezzabile all’interno di uno stato nei sette
anni considerati, le ragioni delle variazioni nel tasso di mortalità avvenuto in questi sette anni
devono essere cercate altrove.
Per sfruttare questa idea di fondo, abbiamo bisogno di dati in cui la stessa entità sia osservata due o più volte, ovvero abbiamo bisogno di dati panel. Con i dati panel, il modello di
regressione multipla della parte II può essere esteso al fine di includere un gruppo di variabili
binarie, una per ciascuna entità; questo è il modello di regressione con effetti fissi, che può
essere stimato con gli OLS. Una variante del modello di regressione con effetti fissi è quello
che include effetti temporali, per controllare variabili inosservate che subiscono variazioni da
un’entità a un’altra, ma sono costanti nel tempo. Sia gli effetti fissi sia gli effetti temporali
possono essere inclusi nella regressione al fine di controllare quelle variabili che variano tra
le entità ma sono costanti nel tempo e quelle che invece variano nel tempo ma sono costanti
tra le entità.
Nonostante questi pregi, la regressione con effetti fissi ed effetti temporali non può controllare la distorsione dovuta a variabili omesse che variano sia tra le entità sia nel tempo.
Inoltre, come è ovvio, questo metodo richiede l’uso di dati panel, che spesso non sono disponibili. Per questo motivo, rimane la necessità di un metodo che possa eliminare l’influenza di
variabili omesse inosservate quando non si può ricorrere a metodi per dati panel. Un metodo
potente e generale, per far questo, è la regressione con variabili strumentali, argomento del
capitolo 10.
Sommario
1. I panel di dati sono costituiti da osservazioni su più (n) entità –stati, imprese, persone
ecc.– dove ciascuna entità è osservata due o più volte (T ).
2. La regressione con effetti fissi-entità controlla le variabili inosservabili che differiscono
da un’entità all’altra ma sono costanti nel tempo.
3. Quando le entità sono osservate in due tempi, la regressione con effetti fissi può essere
stimata con una regressione “prima e dopo” della variazione di Y dal primo tempo al
secondo sulla variazione di X.
4. Il modello con effetti fissi può essere stimata includendo variabili binarie per le n − 1
entità, più le variabili dipendenti osservabili (le X) e un’intercetta.
5. Gli effetti temporali controllano le variabili inosservabili che sono le stesse tra le entità
ma variano nel tempo.
287
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 288 — #318
i
i
Sommario
6. Un modellio con effetti temporali ed effetti fissi può essere stimata includendo variabili
binarie per le n − 1 entità, variabili binarie per i T − 1 tempi, più le X e un’intercetta.
Termini chiave
dati panel (270)
panel bilanciato (270)
panel non bilanciato (270)
modello di regressione con effetti fissi (276)
effetti temporali (281)
modello di regressione
con effetti temporali (281)
modello di regressione con effetti
temporali ed effetti fissi (281)
Verifica dei concetti
8.1 Perché è necessario usare i due pedici i e t per descrivere i dati panel? A cosa si
riferisce i? A cosa si riferisce t?
8.2 Un ricercatore sta lavorando su dati panel per n = 1.000 lavoratori in T = 10 anni
(1991-2000), che includono le retribuzioni, il genere, il livello d’istruzione e l’età dei
lavoratori. Il ricercatore è interessato all’effetto del livello d’istruzione sulle retribuzioni. Fornisci alcuni esempi di variabili inosservate individuo-specifiche che siano
correlate sia con il livello d’istruzione sia con le retribuzioni. Puoi pensare a degli
esempi di variabili tempo-specifiche che siano correlate con il livello d’istruzione e le
retribuzioni? Come controllare per questi effetti individuo-specifici e tempo-specifici
in una regressione con dati panel?
8.3 La regressione suggerita come risposta alla domanda 8.2 può essere usata per stimare
l’effetto del genere sulla retribuzione di un individuo? La stessa regressione può essere
usata per stimare l’effetto del tasso nazionale di disoccupazione sulla retribuzione di
un individuo? Se ne fornisca una spiegazione.
Esercizi
8.1 Questa domanda fa riferimento alla regressione con dati panel sulla guida in stato
d’ebbrezza riportato nella tabella 8.1.
a. Il New Jersey ha una popolazione di 8, 1 milioni di individui. Supponiamo che il
New Jersey aumenti l’imposta su una cassetta di birra di 1$ (in dollari 1998). Si
utilizzino i risultati della colonna (4) per predire il numero di vite che salverebbe
nel prossimo anno. Si costruisca un intervallo di confidenza al 95% per la risposta
data.
288
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 289 — #319
i
i
Appendice
b. L’età legale per bere alcolici nel New Yersey è 21. Supponiamo che il New Yersey
abbassi tale età a 18. Si utilizzino i risultati della colonna (4) per predire la variazione nel numero di incidenti stradali mortali nel prossimo anno. Si costruisca un
intervallo di confidenza al 95% per la risposta data.
c. Si supponga che il reddito reale pro capite del New Yersey cresca nel prossimo
anno dell’1%. Si utilizzino i risultati della colonna (4) per predire la variazione nel numero di incidenti stradali mortali nel prossimo anno. Si costruisca un
intervallo di confidenza al 90% per la risposta data.
d. L’effetto temporale dovrebbe essere incluso nella regressione? Perché o perché
no?
e. La stima del coefficiente dell’imposta sulla birra nella colonna (5) è significativo
al livello 1%. La stima nella colonna (4) è significativa al livello 5%. Ciò significa
che la stima nella (5) è più affidabile?
f. Un ricercatore ritiene che il tasso di disoccupazione abbia un effetto diverso sugli
incidenti stradali mortali negli stati orientali rispetto ad altri stati. Come verificare
questa ipotesi (si specifichi precisamente la regressione e la statistica test che si
intende utilizzare)?
8.2 Si consideri la versione con variabile binaria del modello con effetti fissi (8.11), fatta
eccezione per il regressore addizionale D1i ; sia, perciò,
Yit = β0 + β1 Xit + γ1 D1i + γ2 D2i + . . . + γn Dni + uit .
(8.20)
a. Si supponga che n = 3. Si mostri che i regressori binari e il regressore “costante”
sono perfettamente collineari, ovvero che una delle variabili D1 i , D2i , D3i e
X0,it possono essere espressi come funzione lineare perfetta delle altre variabili,
dove X0,it = 1 per ogni i, t.
b. Si estenda il risultato della (a) ad un n generico.
c. Cosa accadrebbe se si tentasse di stimare i coefficienti della regressione (8.20)
con gli OLS?
8.3 La sezione 7.3 ha fornito un elenco di cinque minacce potenziali alla validità interna di
uno studio di regressione. Si applichi questo elenco all’analisi empirica della sezione
8.5 e poi se ne traggano conclusioni sulla sua validità interna.
Appendice 8.1: lo State Traffic Fatality Data Set
I dati si riferiscono ai 48 stati contigui degli USA (escludendo Alaska e Hawaii), per ogni
anno dal 1982 al 1988. Il tasso di incidenti mortali è il numero di decessi sulle strade avvenuti
289
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 290 — #320
i
i
Appendice
in un dato stato e in un dato anno per ogni 10.000 abitanti di quello stato in quell’anno. I
dati sugli incidenti mortali sono stati forniti dallo U.S. Department of Transportation Fatal
Accident Reporting System. L’imposta sulla birra è l’imposta su una cassetta di birra, che,
più in generale, costituisce una misura delle imposte sugli alcolici di uno stato. Le variabili
per l’età legale per bere alcolici nella tabella 8.1 sono variabili binarie che indicano se l’età
legale minima per bere alcolici è 18, 19 o 20 anni. Le due variabili binarie relative alla pena
nella tavola 8.1 descrivono la pena minima prevista nello stato per la prima infrazione: “pena
detentiva?” è uguale a uno se lo stato prevede una pena detentiva ed è uguale a zero altrimenti;
“Servizi per la comunità?” è uguale a uno se lo stato richiede di svolgere servizi socialmente
utili ed è uguale a zero altrimenti. I dati annuali sulle miglia totali percorse dagli autoveicoli
per ogni stato sono stati forniti dal Department of Transportation, il reddito personale dallo
U.S. Bureau of Economic Analysis e il tasso di disoccupazione dallo U.S. Bureau of Labor
Statistics.
Tutti i dati sono stati cortesemente resi disponibili dal Professor Christopher J. Ruhm del
Dipartimento di Economia della University of North Carolina.
Appendice 8.2: le ipotesi della regressione
con effetti fissi
Nel concetto chiave 8.2 sono elencate cinque ipotesi dei minimi quadrati per il modello di
regressione con effetti fissi. Enunciate per un sigolo regressore, le cinque ipotesi sono:
1. E(uit Xi1 , Xi2 , . . . , XiT , αi ) = 0;
2. (Xi1 , Xi2 , . . . , XiT , Yi1 , Yi2 , . . . , YiT ), i = 1, . . . , n sono estratti i.i.d. dalla loro
distribuzione congiunta;
3. (Xit , uit ) hanno momenti quarti finiti non nulli;
4. non c’è perfetta collinearità;
5. cov(uit , uis Xit , Xis , αi ) = 0 per t 6= s.
Nel caso di più regressori, Xit dovrebbe essere rimpiazzata dall’intera lista X1,it , X2,it , . . . , Xk,it .
La prima ipotesi è che l’errore abbia media condizionata nulla, dati i regressori. Questa
è la stessa ipotesi dei minimi quadrati del concetto chiave 5.4, estesa al fine di includere i
regressori binari e tutte le T osservazioni su X nel corso del tempo per la i-esima entità, e la
discussione di quest’ipotesi nella parte II si estende direttamente.
290
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 291 — #321
i
i
Appendice
La seconda ipotesi estende l’ipotesi di i.i.d. della regressione multipla ai dati panel.
Questa ipotesi vale se le entità sono estratte dalla popolazione con campionamento casuale semplice. Cosı̀, le variabili relative a un’entità sono distribuite identicamente ma indipendentemente dalle variabili relative a un’altra entità; cioè, queste variabili sono i.i.d. per
i = 1, . . . , n. Finora, questo ragionamento ha ricalcato quello per i dati sezionali. Nei dati
panel, tuttavia, le entità sono seguite nel tempo e può non essere ragionevole pensare che le
variabili siano distribuite indipendentemente nel tempo nell’ambito della stessa entità. Ad
esempio, siccome le imposte reali sulla birra tipicamente variano solo leggermente da un anno a un altro, la conoscenza dell’imposta reale sulla birra in uno stato nel 1982 fornisce buona
parte dell’informazione sull’imposta reale sulla birra per lo stesso stato nel 1983. Perciò, il
concetto appropriato di campionamento è che, in un insieme di dati panel, l’intera evoluzione delle variabili (cioè le variabili per l’intero periodo) sia estratta in modo casuale dalla
distribuzione congiunta dell’evoluzione delle variabili tra le entità.
La terza e la quarta ipotesi ricalcano fedelmente quelle del concetto chiave 5.4 per il
modello di regressione multipla.
La quinta ipotesi è che gli errori uit nel modello di regressione con effetti fissi siano incorrelati nel tempo, condizionatamente ai regressori. Ad esempio, in alcuni stati (diciamo il
Minnesota), un inverno potrebbe essere particolarmente nevoso, rendendo la guida particolarmente infida e provocando un numero inusualmente alto di incidenti mortali. Inoltre, la
quantità di neve non ha niente a che vedere con l’imposta sulla birra e la neve caduta in un inverno è distribuita indipendentemente dalla neve caduta in un altro inverno. Perciò la quantità
di neve caduta in Minnesota in un inverno è incorrelata con la quantità di neve dell’inverno
successivo, data l’imposta sulla birra del Minnesota. Più in generale, se gli u it sono costituiti
da fattori casuali (come le nevicate) che variano indipendentemente da un anno a un altro,
condizionatamente ai regressori (l’imposta sulla birra), allora gli uit sono incorrelati da un
anno a un altro, condizionatamente ai regressori. In questo caso, vale la quinta ipotesi.
Il solo ruolo della quinta ipotesi è di fornire condizioni sotto le quali gli errori standard
OLS (robusti all’eteroschedasticità) del capitolo 5 producono inferenze statistiche valide. Se
vale la quinta ipotesi, come assunto in questo capitolo, gli errori standard robusti all’eteroschedasticità producono test d’ipotesi il cui livello minimo è uguale al livello di significatività
desiderato.
In alcune applicazioni, la quinta ipotesi non è plausibile. Ad esempio, se alcuni dei fattori
omessi che sono in uit variano lentamente nel tempo, allora uit sarà correlata con il suo
valore in altri periodi per lo stesso stato (stessa i), cioè uit e uis saranno correlate per t 6= s,
condizionatamente ai regressori. In questo caso, la quinta ipotesi non vale e si dovrebbe
usare una nuova formula per calcolare gli errori standard (cosiddetti errori standard robusti
all’eteroschedasticità e all’autocorrelazione). Siccome questa formula è piuttosto complicata,
un’ulteriore discussione è rimandata al capitolo 13.
291
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 292 — #322
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 293 — #323
i
i
Capitolo 9
Regressione con variabile
dipendente binaria
Due persone, identiche eccetto che per la razza, vanno in banca a chiedere un mutuo di
ammontare elevato, che permetta loro di acquistare due case identiche. La banca li tratta allo
stesso modo? Hanno la stessa probabilità che la loro richiesta di mutuo venga accettata? Per
legge, debbono ricevere lo stesso trattamento, ma che ciò avvenga effettivamente è ragione di
grande preoccupazione per i regolatori del settore bancario.
I prestiti sono concessi e negati per molte ragioni legittime. Ad esempio, se la rata proposta erode gran parte o tutto il reddito mensile del richiedente, allora il funzionario bancario
addetto ai prestiti potrebbe a ragione negare il prestito. Inoltre, anche i funzionari addetti
ai prestiti sono esseri umani e possono compiere errori in onestà, cosı̀ il rifiuto nei confronti di un singolo richiedente appartenente ad una minoranza etnica non costituisce prova di
discriminazione. Molti studi sulla discriminazione, pertanto, ricercano l’evidenza statistica
di discriminazione razziale, cioè, la prova, in grandi insiemi di dati, del fatto che bianchi e
minoranze siano trattati diversamente.
Come si dovrebbe ricercare esattamente l’evidenza statistica di discriminazione nel mercato dei mutui? Un punto di partenza è confrontare la frazione di richiedenti appartenenti a
minoranze etniche e di bianchi ai quali viene negato il mutuo. Nei dati esaminati in questo
capitolo, tratti dalle domande di mutuo presentate nell’area metropolitana di Boston, Massachusetts, il mutuo è stato riufiutato al 28% dei richiedenti neri, ma soltanto al 9% dei
bianchi. Questo confronto non risponde esattamente alla domanda che ha aperto questo capitolo, perché richiedenti neri e bianchi non sono necessariamente “identici a parte la razza”.
Abbiamo invece bisogno di un metodo per confrontare i tassi di rifiuto, tenendo costanti le
altre caratteristiche dei richiedenti.
Questo sembrerebbe il lavoro adatto per l’analisi di regressione multipla –e lo è, ma con
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 294 — #324
i
i
9.1. Variabili dipendenti binarie e modello lineare di probabilità
una differenza. La differenza è che la variabile dipendente – il mutuo è o meno negato– è
binaria. Nella parte II, abbiamo usato sovente variabili binarie come regressori, che non ci
hanno creato problemi particolari. Quando però è binaria la variabile dipendente, le cose
sono più complicate: cosa significa adattare una retta ad una variabile dipendente che può
assumere solo due valori, zero e uno?
La risposta a questa domanda sta nell’interpretare la funzione di regressione come una
probabilità predetta. Quest’interpretazione è discussa nella sezione 9.1 e ci permette di applicare i modelli di regressione multipla della parte II al caso di variabili dipendenti binarie.
La sezione 9.1 va oltre questo “modello lineare di probabilità”. Forme funzionali alternative possono modellare meglio simili probabilità, come suggerito anche dall’interpretazione
della funzione di regressione come probabilità predetta. Queste, chiamate regressioni “probit” e “logit”, sono discusse nella sezione 9.2. La sezione 9.3, che è opzionale, discute il
metodo usato per stimare i coefficienti delle regressioni probit e logit, cioè il metodo della
massima verosimiglianza. Nella sezione 9.4, questi metodi vengono applicati ai dati sulla
richiesta di mutui per la città di Boston per scoprire se vi è evidenza di distorsione razziale
nella concessione dei mutui.
La variabile dipendente binaria considerata in questo capitolo è un esempio di variabile
dipendente con dominio limitato, ovvero una variabile dipendente limitata. Modelli per
altri tipi di variabili dipendenti limitate, per esempio quelle che assumono più valori discreti,
sono passati in rassegna nell’appendice 9.3.
9.1 Variabili dipendenti binarie e modello
lineare di probabilità
Il fatto che una richiesta di mutuo venga o meno accettata è un esempio di variabile binaria.
Molte altre questioni importanti coinvolgono risultati binari. Qual è l’effetto di una borsa di
studio sulla decisione di un individuo di frequentare l’università? Cosa induce un adolescente
a fumare? Cosa fa sı̀ che un paese riceva o meno aiuti dall’estero? Cosa determina la riuscita
di colui che cerca lavoro? In tutti questi esempi, il risultato di interesse è binario: lo studente
frequenta o meno l’università; l’adolescente comincia o meno a fumare; un paese è o non è
destinatario di aiuti stranieri; il richiedente ottiene o meno un lavoro.
Questa sezione discute cosa distingue regressioni con una variabile dipendente binaria
da regressioni con una variabile dipendente continua, poi ritorna al modello più semplice
utilizzabile quando la variabile dipendente è binaria, il modello lineare di probabilità.
294
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 295 — #325
i
i
9.1. Variabili dipendenti binarie e modello lineare di probabilità
Variabili dipendenti binarie
L’applicazione esaminata in questo capitolo è se la razza sia un fattore determinante del rifiuto
di una richiesta di mutuo; la variabile dipendente binaria qui è il fatto che la richiesta di mutuo
venga negata o meno. I dati sono una parte di un insieme più ampio di dati raccolto dai
ricercatori dalla Federal Riserve Bank of Boston sulla base dell’Home Mortgage Disclosure
Act (HMDA) e riguardano le domande per la concessione di mutui registrate nell’area urbana
di Boston, Massachusetts, nel 1990. I dati del Boston HMDA sono descritti nell’appendice
9.1.
Le richieste di mutuo sono complesse, come lo è il processo attraverso cui il funzionario bancario addetto ai prestiti prende le sue decisioni. Questi deve infatti prevedere se il
richiedente pagherà o meno le rate del prestito. Un importante pezzo di informazione è dato
dall’entità della rata rispetto al reddito del richiedente. Come sa bene chi ha preso denaro in
prestito, è molto più facile effettuare pagamenti che siano il 10% del proprio reddito piuttosto
che il 50%! Cominciamo, quindi, considerando la relazione tra due variabili: la variabile
dipendente binaria deny, che è pari a uno se la richiesta di mutuo è stata negata e a zero se
è stata accettata; la variabile continua P/Iratio, che è il rapporto tra la rata mensile prevista
del prestito e il reddito mensile del richiedente.
La figura 9.1 presenta un grafico a nuvola di deny su P/Iratio per 127 delle 2.380 osservazioni nei dati (il grafico a nuvola è più facile da leggere usando un sottoinsieme dei dati).
Questo grafico appare diverso da quelli della parte II perché la variabile deny è binaria. Tuttavia, sembra mostrare una relazione tra deny e P/Iratio: pochi richiedenti con un rapporto
rata-reddito inferiore a 0, 3 vedono rifiutare la propria domanda ma molti con un rapporto
rata-reddito superiore a 0, 4.
Questa relazione positiva tra P/Iratio e deny (maggiore è P/Iratio, più elevata la frazione di rifiuti) è riassunta nella figura 9.1 dalla retta di regressione OLS, stimata usando
queste 127 osservazioni. Come al solito, la retta rappresenta il valore predetto di deny in
funzione del regressore, il rapporto rata-reddito. Ad esempio, quando P/Iratio = 0, 3, il
valore predetto di deny è 0, 20. Cosa vuol dire, però, esattamente che il valore predetto della
variabile binaria deny è 0, 20?
La chiave per rispondere a questa domanda –e più in generale per comprendere la regressione con variabile dipendente binaria– è interpretare la regressione come un modello della
probabilità che la variabile dipendente sia uguale a uno. Cosı̀, un valore di 0, 20 va interpretato come se significasse che, quando P/Iratio è 0, 3, la probabilità di rifiuto è stimata
essere del 20%. In altre parole, se ci fossero molte richieste con P/Iratio = 0, 3, il 20% di
queste sarebbe rifiutato.
Una simile interpretazione deriva da due constatazioni. In primo luogo, dalla parte II
sappiamo che la funzione di regressione della popolazione è il valore atteso di Y dati i
regressori, E(Y X1 , . . . , Xk ). In secondo luogo, dalla sezione 2.2, se Y è una variabi295
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 296 — #326
i
i
9.1. Variabili dipendenti binarie e modello lineare di probabilità
Figura 9.1: grafico a nuvola del rifiuto delle richieste di mutuo e rapporto rata-reddito
Rifiuto
1,4
1,2
1,0
Mutuo negato
0,8
0,6
Modello di probabilità lineare
0,4
0,2
0,0
Mutuo approvato
-0,2
-0,4
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Rapporto rata-reddito
Chi richiede mutui con un alto rapporto rata-reddito (P/Iratio) vede la propria domanda più verosimilmente
rifiutata (deny = 1 se negata, deny = 1 se approvata). Il modello di probabilità lineare utilizza una retta per
modellare la probabilità di rifiuto, dato P/Iratio.
le binaria 0 − 1, allora il suo valore atteso (o media) è la probabilità che Y = 1 ovvero
E(Y ) = Pr(Y = 1). Nel contesto di regressione, il valore atteso è condizionato al valore
assunto dai regressori, perciò la probabilità è condizionata ad X. Perciò, per una variabile
binaria, E(Y X1 , . . . , Xk ) = Pr(Y = 1 X1 , . . . , Xk ). In breve, per una variabile binaria il
valore predetto dalla regressione è la probabilità che Y = 1, data X.
Il modello di regressione lineare multipla quando la variabile dipendente è binaria è detto
modello lineare di probabilità: “lineare” perché è una retta e “modello di probabilità” perché
modella la probabilità che la variabile dipendente (la probabilità di rifiuto del prestito, nel
nostro esempio) sia uguale a uno.
Modello lineare di probabilità
Electronic Publishing Services Inc.
Il modello lineare di probabilità è il nome per il modello di regressione multipla della
Stock/Watson, Econometrics 1e
parte II, nel caso in cui la variabile dipendente sia binaria invece che continua. Siccome la
STOC.ITEM.0035
variabile dipendente Y è binaria, la funzione di regressione della popolazione corrisponde alla
Fig. 09.01
probabilità che la variabile dipendente sia uguale a uno, data X. Il coefficiente β 1 associato
2nd
Proof à che Y3rd=Proof
ad un regressore X è1st
la Proof
variazione nella
probabilit
1 associata adFinal
una variazione
unitaria in X. Similmente, il valore predetto Ŷi , calcolato usando la funzione di regressione
296
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 297 — #327
i
i
9.1. Variabili dipendenti binarie e modello lineare di probabilità
stimata con gli OLS, è la probabilità predetta che la variabile dipendente sia uguale a uno, e
lo stimatore OLS β̂1 stima, quindi, la variazione nella probabilità che Y = 1 associata ad una
variazione unitaria in X.
Quasi tutti gli strumenti della parte II si estendono al modello lineare di probabilità: i
coefficienti possono essere stimati con gli OLS; gli intervalli di confidenza al 95% costruiti
come ±1, 96 volte gli errori standard; le ipotesi su più coefficienti verificate usando la statistica F discussa nel capitolo 5; le interazioni tra le variabili modellate usando i metodi della
sezione 6.3. Siccome gli errori del modello lineare di probabilità sono sempre eteroschedastici (esercizio 9.3), è essenziale che per l’inferenza siano usati gli errori standard robusti
all’eteroschedasticità.
Uno strumento che non è possibile estendere è l’R 2 . Quando la variabile dipendente è
continua, è lecito immaginare una situazione in cui l’R 2 è uguale a uno: tutti i dati giacciono esattamente sulla retta di regressione. Ciò è impossibile quando la variabile dipendente è binaria, a meno che non siano binari anche i regressori. Di conseguenza, l’R 2 non
è una statistica particolarmente utile in questo contesto. Ritorneremo alle misure di bontà
dell’adattamento nella prossima sezione.
Il modello lineare di probabilità è riassunto nel concetto chiave 9.1.
Applicazione ai dati del Boston HMDA. La regressione OLS della variabile dipendente binaria, deny, sul rapporto rata-reddito, P/Iratio, stimata usando tutte le 2.380 ossservazioni
è
d = − 0, 080 + 0, 604 P/Iratio.
deny
(9.1)
(0, 032) (0, 098)
Il coefficiente stimato di P/Iratio è positivo e il coefficiente è significativamente diverso
da zero all’1% (la statistica t è 6, 13). Perciò, i richiedenti con un alto rapporto rata-reddito
vedono negata la propria richiesta con più facilità. Questo coefficiente può essere usato per
calcolare la variazione predetta nella probabilità di rifiuto, data una variazione nel regressore.
Ad esempio, secondo la (9.1), se P/Iratio cresce di 0, 1, la probabilità di rifiuto cresce di
0, 604 × 0, 1 ∼
= 0, 060, ovvero di 6, 0 punti percentuali.
Il modello di probabilità stimato (9.1) può essere usato per calcolare la probabilità di
rifiuto in funzione di P/Iratio. Ad esempio, se la rata prospettata è il 30% del reddito del
richiedente, allora il rapporto P/Iratio è 0, 3 e il valore predetto dalla (9.1) è −0, 080 +
0, 604 × 0, 3 = 0, 101. Perciò, secondo questo modello lineare di probabilità, un richiedente
le cui rate previste sono il 30% del proprio reddito ha una probabilità del 10, 1% che la
sua richiesta venga rifiutata (che è diverso dalla probabilità del 20% basata sulla retta di
regressione della figura 9.1, stimata usando solo 127 delle 2.380 osservazioni usate per la
(9.1)).
Qual è l’effetto della razza sulla probabilità di rifiuto, tenendo costante P/Iratio? Per
semplicità, focalizziamoci sulle differenze tra richiedenti neri e bianchi. Per stimare l’effetto
297
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 298 — #328
i
i
9.1. Variabili dipendenti binarie e modello lineare di probabilità
Concetto chiave 9.1: il modello lineare di probabilità
Il modello lineare di probabilità è il modello di regressione lineare multipla
Yi = β0 + β1 X1i + β2 X2i + · · · + βk Xki + ui ,
(9.2)
dove Yi è binaria, cosicché
Pr(Y = 1 X1 , X2 , · · · , Xk ) = β0 + β1 X1 + β2 X2 + · · · + βk Xk .
Il coefficiente di regressione β1 rappresenta la variazione nella probabilità che Y = 1
associata ad una variazione unitaria in X1 , tenendo costanti gli altri regressori, e cosı̀ via
per β2 ecc. I coefficienti di regressione possono essere stimati tramite gli OLS e i comuni
errori standard OLS (robusti all’eteroschedasticità) possono essere usati per gli intervalli
di confidenza e i test d’ipotesi.
della razza, tenendo costante P/Iratio, aggiungiamo alla (9.1) un regressore binario, che è
uguale a uno se il richiedente è nero ed è uguale a zero se il richiedente è bianco. Il modello
di probabilità stimato diventa
d = − 0, 091 + 0, 559 P/Iratio + 0, 177 black.
deny
(0, 029) (0, 089)
(0, 025)
(9.3)
Il coefficiente di black, 0, 177, indica che un richiedente afro-americano ha una probabilità più alta del 17, 7% di vedere rifiutata la propria richiesta di mutuo rispetto a uno bianco,
tenendo costante il rapporto rata-reddito. Questo coefficiente è significativo al livello 1% (la
statistica t è 7, 11).
Letteralmente, questa stima suggerisce che ci potrebbe essere una distorsione razziale
nella decisione di concedere un mutuo, ma una simile conclusione potrebbe essere ancora
prematura. Sebbene il rapporto rata-reddito giochi un ruolo importante nella decisione del
funzionario bancario addetto ai prestiti, cosı̀ fanno molti altri fattori, come il reddito potenziale del richiedente e le vicende creditorie dell’individuo. Se ognuna di queste variabili fosse
correlata con i regressori black o P/Iratio, allora la loro omissione dalla (9.3) causerebbe
distorsione da variabile omessa. Dobbiamo pertanto rimandare ogni conclusione sull’esistenza di discriminazione nella concessione di mutui, fino a quando non avremo completato
l’analisi della sezione 9.3.
Limiti del modello lineare di probabilità. La linearità che rende il modello lineare di probabilità facile da usare è anche il suo maggior difetto. Riguardiamo la figura 9.1: la retta di
298
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 299 — #329
i
i
9.2. Regressioni probit e logit
regressione stimata che rappresenta le probabilità predette giace sotto lo zero per valori molto
piccoli di P/Iratio e sopra uno per valori grandi! Questo è un controsenso: una probabilità
non può essere minore di zero e maggiore di uno. Questo controsenso è una conseguenza
inevitabile della regressione lineare. Per affrontare questo problema, introduciamo ora nuovi
modelli non lineari specificatamente disegnati per variabili dipendenti binarie: i modelli di
regressione probit e logit.
9.2 Regressioni probit e logit
Le regressioni probit e logit sono modelli di regressione non lineari specificatamente disegnati per variabili dipendenti binarie. Siccome una regressione con una variabile dipendente
Y binaria modella la probabilità che Y = 1, è ragionevole adottare una formulazione non
lineare che costringa i valori predetti ad assumere valori tra zero e uno. Nelle regressioni
logit e probit si utilizzano pertanto le funzioni di ripartizione (c.d.f., acronimo dall’inglese
cumulative distribution function), poiché producono probabilità tra zero e uno (sezione 2.1):
la funzione di ripartizione normale standard per la regressione probit; la c.d.f. “logistica” per
la regressione logit, anche detta regressione logistica.
La regressione probit
Regressione probit con un singolo regressore. Il modello di regressione probit con un
singolo regressore X è
Pr(Y = 1 X) = Φ(β0 + β1 X),
(9.4)
dove Φ è la funzione di ripartizione normale standard (tabulata nella tavola 1 dell’appendice
finale).
Ad esempio, supponiamo che Y sia la variabile binaria rifiuto del prestito (deny), X
il rapporto rata-reddito (P/Iratio), β0 = −2 e β1 = 3. Cosa accade se la probabilità di
rifiuto è P/Iratio = 0, 4? In base alla (9.4), questa probabilità è Φ(β 0 + β1 P/Iratio) =
Φ(−2 + 3P/Iratio) = Φ(−2 + 3 × 0.4) = Φ(−0, 8). Secondo la tavola della funzione di
ripartizione normale (tavola 1 dell’appendice finale), Φ(−0, 8) = Pr(Z ≤ −0, 8) = 21, 2%.
Ossia, quando P/Iratio è 0, 4, la probabilità predetta che la richiesta venga rifiutata è del
21, 2%, calcolata usando il modello probit con coefficienti β0 = −2 e β1 = 3.
Nel modello probit, il termine β0 + β1 X gioca il ruolo della “z” per la tavola della funzione di ripartizione normale standard (tavola 1 dell’appendice finale). Perciò, il calcolo del
paragrafo precedente può essere equivalentemente effettuato computando prima il “valore-z”,
z = β0 + β1 X = −2 + 3 × 0, 4 = −0, 8, e poi guardando la probabilità nella coda della
funzione di densità normale alla destra di z = −0, 8, che è 21, 2%.
299
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 300 — #330
i
i
9.2. Regressioni probit e logit
Se β1 nell’equazione (9.4) è positivo, allora un aumento di X fa aumentare la probabilità
che Y = 1; se β1 è negativo, un aumento di X fa diminuire la probabilità che Y = 1.
A parte questo, però, non è facile interpretare i coefficienti probit β 0 e β1 direttamente. È
meglio invece interpretarli in maniera indiretta, calcolando le probabilità e/o le variazioni
delle probabilità. Quando c’è soltanto un regressore, il modo più semplice per interpretare
una regressione probit è disegnarne le probabilità.
Nella figura 9.2 è tracciata la funzione di regressione stimata fornita dalla regressione
probit di deny su P/Iratio per le 127 osservazioni che vediamo nel grafico a nuvola di
punti. La funzione di regressione probit stimata ha una forma a “S” allungata: è vicina a zero
e piatta per valori piccoli di P/Iratio; cambia concavità e cresce per valori intermedi; si
appiattisce nuovamente e si avvicina a uno per valori elevati. Per rapporti rata-reddito piccoli,
la probabilità di rifiuto è bassa. Ad esempio, per P/Iratio = 0, 2, la probabilità di rifiuto
basata sulla funzione probit stimata (figura 9.2) è Pr(deny = 1 P/Iratio = 0, 2) = 2, 1%;
quando P/Iratio è 0, 3 la probabilità di rifiuto stimata è 16, 1%; quando P/Iratio è 0, 4 la
probabilità di rifiuto balza repentinamente a 51, 9%; quando P/Iratio è 0, 6, la probabilità
di rifiuto è 98, 3%. Secondo questo modello probit stimato, per i richiedenti con alto rapporto
rata-reddito, la probabilità di rifiuto è quasi uno.
Regressione probit con regressori multipli. In tutti i problemi di regressione che abbiamo
studiato finora, tralasciare una determinante di Y che è correlata con i regressori inclusi
determina distorsione da variabile omessa. La regressione probit non è un’eccezione. Nella
regressione lineare, la soluzione è includere la variabile addizionale come regressore. Questa
è la soluzione alla distorsione da variabile omessa anche nella regressione probit.
Il modello probit con regressori multipli generalizza il modello probit con un singolo regressore aggiungendo altri regressori nel calcolo del valore di z. Cosı̀, il modello di
regressione probit con due regressori, X1 e X2 , è
Pr(Y = 1 X1 , X2 ) = Φ(β0 + β1 X1 + β2 X2 ).
(9.5)
Ad esempio, supponiamo che β0 = −1, 6, β1 = 2 e β2 = 0, 5. Se X1 = 0, 4 e X2 = 1,
il valore-z è z = −1, 6 + 2 × 0, 4 + 0, 5 × 1 = −0, 3. Perciò, la probabilità che Y = 1, dati
X1 = 0, 4 e X2 = 1, è Pr(Y = 1 X1 = 0, 4, X2 = 1) = Φ(−0, 3) = 38%.
Effetto di una variazione in X. In generale l’effetto su Y di una variazione in X è la variazione attesa di Y che deriva da una variazione in X. Quando Y è binaria, la sua aspettativa
condizionata è la probabilità condizionata di essere uguale a uno, cosı̀ la variazione attesa di
Y per effetto di una variazione in X è la variazione nella probabilità che Y = 1.
Ricordiamo dalla sezione 6.1 che, quando la funzione di regressione è una funzione non
lineare di X, questa variazione attesa si stima in tre passi: (i) si calcola il valore predetto in
corrispondenza del valore di X usando la funzione di regressione stimata; (ii) si calcola il
300
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 301 — #331
i
i
9.2. Regressioni probit e logit
Concetto chiave 9.2: il modello probit, le probabilità predette e gli effetti stimati
Il modello probit con regressori multipli è
Pr(Y = 1 X1 , X2 , . . . , Xk ) = Φ(β0 + β1 X1 + β2 X2 + · · · βk Xk ),
(9.6)
dove la variabile dipendente Y è binaria, Φ è la funzione di ripartizione normale standard
e X1 , X2 ecc. sono regressori. I coefficienti probit β0 , β1 ecc. non hanno un’interpretazione immediata. Il calcolo delle probabilità predette e dell’effetto di una variazione in un
regressore permette di interpretare meglio il modello.
La probabilità predetta che Y = 1, dati i valori di X1 , X2 , . . . , Xk , si ottiene calcolando il valore-z, z = β0 + β1 X1 + β2 X2 + · · · βk Xk , e ricercando poi il valore ottenuto
nelle tavole della distribuzione normale (tavola 1 dell’appendice finale).
L’effetto di una variazione in un regressore si ottiene: (1) calcolando la probabilità
predetta in corrispondenza del valore iniziale dei regressori; (2) calcolando la probabilità
predetta in corrispondenza del valore nuovo o variato dei regressori; (3) prendendone la
differenza.
valore predetto corrispondente al nuovo valore di X, X + ∆X; (iii) si calcola la differenza
tra i due valori predetti. Questa procedura è riportata in sintesi nel concetto chiave 6.1. Come
enfatizzato nella sezione 6.1, questo metodo funziona sempre per calcolare gli effetti predetti
di una variazione di X, non importa quanto complicato sia il modello non lineare. Quando
applicato al modello probit, il metodo del concetto chiave 6.1 fornisce l’effetto stimato di una
variazione in X sulla probabilità che Y = 1.
Il modello di regressione probit, le probabilità predette e gli effetti stimati sono riassunti
nel concetto chiave 9.2.
Applicazione ai dati sui mutui. Come illustrazione, stimiamo un modello probit con le
2.380 osservazioni che abbiamo a disposizione nei dati su rifiuto di prestiti (deny) e rapporto
rata-reddito (P/Iratio):
Pr(deny =d
1 P/Iratio) = Φ(− 2, 19 + 2, 97 P/Iratio).
(0, 16) (0, 47)
(9.7)
I coefficienti stimati −2, 19 e 2, 97 sono difficilmente interpretabili, dal momento che
influenzano la probabilità di rifiuto attraverso il valore-z. In effetti, la sola cosa che può
essere prontamente conclusa dalla (9.7) è che P/Iratio è positivamente legato alla probabilità di rifiuto (il coefficiente di P/Iratio è positivo) e che questa relazione è statisticamente
significativa (t = 2, 97/0, 47 = 6, 32).
301
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 302 — #332
i
i
9.2. Regressioni probit e logit
Figura 9.2: modello probit della probabilità di rifiuto, dato P/Iratio
Rifiuto
1,4
1,2
1,0
Mutuo negato
0,8
0,6
Modello probit
0,4
0,2
0,0
Mutuo approvato
-0,2
-0,4
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Rapporto rata-reddito
Il modello probit utilizza la funzione di ripartizione normale per modellare la probabilità di rifiuto dato il rapporto
˛
rata-reddito o, più in generale, per modellare Pr(Y = 1˛X). Diversamente dal modello di probabilità lineare,
le probabilità condizionate probit giacciono sempre tra zero e uno.
Qual è la variazione nella probabilità predetta che una richiesta sia rifiutata quando il
rapporto rata-reddito cresce da 0, 3 a 0, 4? Per rispondere, seguiamo la procedura del concetto
chiave 6.1: calcoliamo la probabilità di rifiuto per P/Iratio = 0, 3; poi, per P/Iratio =
0, 4; infine ne calcoliamo la differenza. La probabilità di rifiuto quando P/Iratio = 0, 3 è
Φ(−2, 19+2, 97×0, 3) = Φ(−1, 30) = 0, 097. La probabilità di rifiuto quando P/Iratio =
0, 4 è Φ(−2, 19+2, 97×0, 4) = Φ(−1, 00) = 0, 159. La variazione stimata della probabilità
di rifiuto è 0, 159 − 0, 097 = 0, 062. Perciò, un incremento del rapporto rata-reddito da 0, 3 a
0, 4 è associato ad un incremento nella probabilità di rifiuto di 6, 2 punti percentuali, da 9, 7%
a 15, 9%.
Siccome la funzione di regressione probit è non lineare, l’effetto di una variazione di X
dipende dal valore stesso di X. Ad esempio, se P/Iratio = 0, 5, la probabilità di rifiuto
Electronic Publishing Services Inc.
stimata basandoci
sulla (9.7) è Φ(−2,
19 + 2, 97
Stock/Watson,
Econometrics
1e× 0, 5) = Φ(−0, 71) = 0, 239. Pertanto, la
variazione nella
probabilità predetta quando P/Iratio cresce da 0, 4 a 0, 5 è pari a 0, 239 −
STOC.ITEM.0036
0, 159, ovveroFig.
8, 0 09.02
punti percentuali, maggiore dell’incremento di 6, 2 punti percentuali che
si ha quando P/Iratio cresce da 0, 3 a 0, 4.
1st Proof
2nd Proof
3rd Proof
Final
Qual è l’effetto della razza sulla probabilità di rifiuto del prestito, tenendo costante il
rapporto rata-reddito? Per stimare questo effetto, stimiamo una regressione probit avente sia
302
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 303 — #333
i
i
9.2. Regressioni probit e logit
Concetto chiave 9.3: la regressione logit
Il modello logit per la variabile dipendente binaria Y con regressori multipli è
Pr(Y = 1 X1 , X2 , . . . , Xk ) = F (β0 + β1 X1 + β2 X2 + · · · + βk Xk )
1
.
(9.9)
=
−(β
+β
X
+β
0
1
1
2 X2 + ··· +βk Xk )
1+e
La regressione logit è simile alla regressione probit, eccetto che la funzione di ripartizione
usata è diversa.
P/Iratio sia black come regressori:
d
Pr(deny = 1 P/Iratio,
black) = Φ(− 2, 26 + 2, 74 P/Iratio + 0, 71 black). (9.8)
(0, 16) (0, 44)
(0, 083)
Di nuovo, i valori dei coefficienti hanno un’interpretazione complessa, ma non cosı̀ il
loro segno e la loro significatività statistica. Il coefficiente di black è positivo, a indicare che
un richiedente afro-americano ha una probabilità di rifiuto più alta rispetto a un richiedente
bianco, tenendo costante il loro rapporto rata-reddito. Questo coefficiente è significativo al
livello 1% (la statistica t di black è 8, 55). Per un richiedente bianco con P/Iratio = 0, 3,
la probabilità di rifiuto predetta è 7, 5%, mentre per un richiedente nero con P/Iratio = 0, 3
essa è 23, 3%; la differenza nelle probabilità di rifiuto tra questi due richiedenti ipotetici è di
15, 8 punti percentuali.
Stima dei coefficienti probit. I coefficienti probit qui riportati sono stati stimati usando
il metodo della massima verosimiglianza, il quale produce stimatori efficienti (con varianza minima) in un’ampia varietà di applicazioni, che includono la regressione con variabile dipendente binaria. Lo stimatore di massima verosimiglianza è consistente e distribuito
normalmente in grandi campioni, cosicché la statistica t e gli intervalli di confidenza per i
coefficienti possono essere costruiti nel modo usuale.
I software di regressione per la stima dei modelli probit fanno tipicamente uso della stima
di massima verosimiglianza, perciò questo è un metodo semplice da applicare in pratica. Gli
errori standard prodotti da tali software possono essere usati allo stesso modo degli errori
standard dei coefficienti di regressione; ad esempio, un intervallo di confidenza al 95% per
il vero coefficiente del probit può essere costruito come il coefficiente stimato ±1, 96 volte l’errore standard. Similmente, la statistica F calcolata usando gli stimatori di massima
verosimiglianza può essere usata per verificare ipotesi congiunte. La stima di massima verosimiglianza è discussa ulteriormente nella sezione 9.3, con dettagli addizionali nell’appendice
9.2.
303
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 304 — #334
i
i
9.2. Regressioni probit e logit
Regressione logit
Il modello di regressione logit. Il modello di regressione logit è simile al modello di regressione probit, eccetto che nell’equazione (9.6) la funzione di ripartizione normale standard Φ
è rimpiazzata dalla funzione di ripartizione logistica standard, indicata con F . La regressione
logit è riassunta nel concetto chiave 9.3. La funzione di ripartizione logistica ha una forma
funzionale specifica, definita in termini della funzione esponenziale e mostrata nell’ultimo
membro della (9.9).
Come per il modello probit, i coefficienti modello logit sono meglio interpretati calcolando le probabilità predette e le differenze nelle probabilità predette.
I coefficienti logit possono essere stimati con il metodo della massima verosimiglianza.
Lo stimatore di massima verosimiglianza è consistente e distribuito normalmente in grandi
campioni, cosicché la statistica t e gli intervalli di confidenza per i coefficienti possono essere
costruiti nel modo usuale.
Le funzioni di regressione logit e probit sono simili. Questo è illustrato nella figura 9.3,
che traccia le funzioni di regressione probit e logit per la variabile dipendente deny e il
singolo regressore P/Iratio, stimate con il metodo della massima verosimiglianza usando
le stesse 127 osservazioni delle figure 9.1 e 9.2. Le differenze tra queste due funzioni sono
modeste.
Storicamente, la principale motivazione per l’uso della regressione logit è che la funzione di ripartizione logistica può essere calcolata più velocemente rispetto alla funzione di
ripartizione normale. Con l’avvento di computer più efficienti, questa distinzione non è più
rilevante.
Applicazione ai dati del Boston HMDA. Una regressione logit di deny su P/Iratio e black,
usando le 2.380 osservazioni disponibili, fornisce la funzione di regressione stimata
d
Pr(deny = 1 P/Iratio,
black) = F (− 4, 13 + 5, 37 P/Iratio + 1, 27 black). (9.10)
(0, 35) (0, 96)
(0, 15)
Il coefficiente di black è positivo e significativo a livello 1% (la statistica t è 8, 47).
La probabilità predetta di rifiuto per un richiedente bianco con P/Iratio = 0, 3 è 1/[1 +
e−(−4,13+5,37×0,3+1,27×0) ] = 1/[1 + e2,52 ] = 0, 074, ovvero 7, 4%. La probabilità predetta
di rifiuto per un richiedente afro-americano con P/Iratio = 0, 3 è 1/[1 + e 1,25 ] = 0, 222,
ovvero 22, 2%, la differenza tra le due probabilità è quindi di 14, 8 punti percentuali.
Confronto tra i modelli lineare di probabilità, probit e logit
I tre modelli –lineare di probabilità, probit e logit– sono solo approssimazioni della funzione
di regressione ignota della popolazione E(Y X) = Pr(Y = 1 X). Il modello lineare di
probabilità è il più facile da usare e da interpretare, ma non riesce a catturare la natura non
304
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 305 — #335
i
i
9.2. Regressioni probit e logit
Figura 9.3: modelli probit e logit della probabilità di rifiuto, dato P/Iratio
Rifiuto
1,4
1,2
1,0
Mutuo negato
0,8
0,6
0,4
Modello probit
Modello logit
0,2
0,0
Mutuo approvato
-0,2
-0,4
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Rapporto rata-reddito
Questi modelli probit e logit producono stime pressoché identiche della probabilità che la richiesta di mutuo
venga rifiutata, dato il rapporto rata-reddito.
lineare della vera funzione di regressione della popolazione. Le regressione probit e logit
modellano tale non linearità nella probabilità, ma i loro coefficienti di regressione sono più
difficili da interpretare. Quale dovremmo usare in pratica?
Non c’è un’unica risposta, e perciò ricercatori diversi usano modelli diversi. Le regressioni probit e logit producono frequentemente risultati simili. Ad esempio, secondo il modello
probit stimato (9.8), la differenza nelle probabilità di rifiuto tra un richiedente nero e uno
bianco con P/Iratio = 0, 3 era stimata essere di 15, 8 punti percentuali, mentre la stima
logit di questa differenza, basata sulla (9.10), era di 14, 9 punti percentuali. A fini pratici,
le due stime sono molto simili. Un modo di decidere tra i modelli logit e probit è quello di
scegliere il metodo che è più facile da usare dato il software statistico disponibile.
Il modello lineare di probabilità fornisce l’approssimazione meno adatta alla funzione
di regressione non lineare della popolazione. Anche cosı̀, alcuni dati potrebbero contenere
pochi valori estremi
dei regressori,
nelServices
qual casoInc.
il modello lineare di probabilità può ancora
Electronic
Publishing
produrre un’adeguata
approssimazione.
Nella regressione
della probabilità di rifiuto (9.3), la
Stock/Watson,
Econometrics
1e
differenza neri/bianchi
stimata
dal
modello
lineare
di
probabilità
è 17, 7 punti percentuali, più
STOC.ITEM.0037
grande rispetto
alle09.03
stime probit e logit ma ancora qualitativamente simile. Il solo modo per
Fig.
scoprire tutto questo, però, è stimare sia un modello lineare sia uno non lineare e confrontare
1st Proof
2nd Proof
3rd Proof
Final
le rispettive probabilità predette.
305
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 306 — #336
i
i
9.3. Stima e inferenza nei modelli logit e probit
9.3 Stima e inferenza nei modelli logit e probit1
I modelli non lineari studiati nel capitolo 6 sono funzioni non lineari delle variabili indipendenti, ma funzioni lineari dei coefficienti ignoti (“parametri”). Di conseguenza, i coefficienti
ignoti di quelle funzioni di regressione non lineari possono essere stimati con gli OLS. Di
contro, le funzioni di regressione probit e logit sono funzioni non lineari dei coefficienti. In
altre parole, i coefficienti probit β0 , β1 ecc. nella (9.6) appaiono all’interno della funzione
di ripartizione normale standard Φ e i coefficienti logit nella (9.9) appaiono all’interno della
funzione di ripartizione logistica standard F . Siccome la funzione di regressione della popolazione è una funzione non lineare dei coefficienti β0 , β1 ecc., tali coefficienti non possono
essere stimati con gli OLS.
Questa sezione introduce il metodo standard di stima dei coefficienti probit e logit, la massima verosimiglianza; ulteriori dettagli matematici sono forniti nell’appendice 9.2. Siccome
è contenuta nei moderni software statistici, la stima di massima verosimiglianza dei coefficienti probit è facile da utilizzare. La teoria della stima di massima verosimiglianza, tuttavia,
è più complessa rispetto a quella dei minimi quadrati. Discutiamo pertanto un altro metodo
di stima, i minimi quadrati non lineari, prima di passare alla massima verosimiglianza.
Stima dei minimi quadrati non lineari
I minimi quadrati non lineari sono un metodo generale di stima dei coefficienti ignoti di
una funzione di regressione, quando, come nel caso dei coefficienti probit, essi entrano nella
funzione di regressione in modo non lineare.
Si ricordi la discussione della sezione 5.3 riguardante lo stimatore OLS dei coefficienti del
modello di regressione lineare multipla. Lo stimatore OLS minimizza la somma dei quadrati
Pn
degli errori di previsione della (5.8), i=1 [Yi −(b0 +b1 X1i +· · ·+bk Xki )]2 . In principio, lo
stimatore OLS può essere calcolato assegnando molti valori diversi a b 0 , . . . , bk e scegliendo
poi quei valori che minimizzano la somma dei quadrati degli errori.
Questo stesso approccio può essere usato per stimare i coefficienti probit. Siccome il modello di regressione è non lineare nei coefficienti, questo metodo è detto dei minimi quadrati
non lineari. Per un certo insieme iniziale di valori dei coefficienti b0 , . . . , bk , costruiamo la
somma dei quadrati degli errori di previsione
n
X
i=1
[Yi − Φ(b0 + b1 X1i + · · · + bk Xki )]2 .
(9.11)
Questa procedura è simile a quella per il modello di regressione lineare, eccetto che la funzione di regressione è data dal modello probit. Lo stimatore dei minimi quadrati non
lineari dei coefficienti probit è dato dai valori di b0 , b1 , . . . , bk che minimizzano la somma
1
Questa sezione contiene materiale più avanzato, che può essere evitato senza soluzione di continuità.
306
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 307 — #337
i
i
9.3. Stima e inferenza nei modelli logit e probit
dei quadrati degli errori di previsione (9.11). Similmente, lo stimatore dei minimi quadrati
non lineari dei coefficienti logit minimizza la somma dei quadrati degli errori di predizione
(9.11), con la funzione di ripartizione logistica F che rimpiazza Φ nella (9.11).
Nel modello di regressione lineare, c’è una formula esplicita che esprime lo stimatore
OLS come funzione dei dati. Sfortunatamente, non esiste una formula simile per il modello
probit, cosı̀ lo stimatore dei minimi quadrati non lineari deve essere cercato numericamente
dal computer. I software di regressione incorporano di solito sofisticati algoritmi per risolvere
simili problemi di minimizzazione, il che semplifica il compito di calcolare lo stimatore dei
minimi quadrati non lineari in pratica.
Lo stimatore dei minimi quadrati non lineari dei coefficienti probit ha due proprietà fondamentali in comune con lo stimatore OLS nella regressione lineare: è consistente (la probabilità che sia vicino al vero valore tende a uno al crescere della dimensione campionaria) ed
è normalmente distribuito in grandi campioni. Ci sono, tuttavia, stimatori che hanno una varianza minore dello stimatore dei minimi quadrati non lineari, per cui lo stimatore dei minimi
quadrati non lineari è inefficiente. Per questa ragione, lo stimatore dei minimi quadrati non
lineari è raramente usato in pratica per stimare i coefficienti probit, per i quali si usa invece il
metodo della massima verosimiglianza.
Stima di massima verosimiglianza
La funzione di verosimiglianza è la distribuzione di probabilità congiunta dei dati, trattata
come funzione dei coefficienti ignoti. Lo stimatore di massima verosimiglianza (stimatore
ML) (acronimo dall’inglese Maximum Likelihood) dei coefficienti ignoti è dato dai valori
dei coefficienti che massimizzano la funzione di verosimiglianza. Siccome lo stimatore ML
sceglie i coefficienti ignoti in modo da massimizzare la funzione di verosimiglianza, che è
a sua volta la funzione di probabilità congiunta, lo stimatore ML sceglie in effetti il valore
dei parametri al fine di massimizzare la probabilità che i dati osservati siano effettivamente
estratti. In questo senso, le stime ML sono i valori dei parametri che “più verosimilmente”
hanno prodotto i dati.
Per illustrare la stima di massima verosimiglianza, consideriamo due osservazioni i.i.d.,
Y1 e Y2 , su una variabile dipendente binaria senza regressori. Pertanto, Y è una variabile
casuale di Bernoulli e il solo parametro ignoto da stimare è la probabilità p che Y = 1, che è
anche la media di Y .
Per ottenere lo stimatore di massima verosimiglianza abbiamo bisogno della funzione di
verosimiglianza, che a sua volta richiede la distribuzione di probabilità congiunta dei dati. La
distribuzione di probabilità congiunta delle due osservazioni Y 1 e Y2 è Pr(Y1 = y1 , Y2 =
y2 ). Siccome Y1 e Y2 sono indipendentemente distribuite, la distribuzione congiunta è il
prodotto delle distribuzioni individuali (equazione (2.21)), perciò Pr(Y 1 = y1 , Y2 = y2 ) =
Pr(Y1 = y1 ) Pr(Y2 = y2 ). La distribuzione di Bernoulli può essere rappresentata dalla
307
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 308 — #338
i
i
9.3. Stima e inferenza nei modelli logit e probit
formula Pr(Y = y) = py (1 − p)1−y : quando y = 1, Pr(Y = 1) = p1 (1 − p)0 = p;
quando y = 0, Pr(Y = 0) = p0 (1 − p)1 = 1 − p. Cosı̀, la distribuzione di probabilità
congiunta di Y1 e Y2 è Pr(Y1 = y1 , Y2 = y2 ) = [py1 (1 − p)1−y1 ] × [py2 (1 − p)1−y2 ] =
p(y1 +y2 ) (1 − p)2−(y1 +y2 ) .
La funzione di verosimiglianza è la distribuzione di probabilità congiunta, trattata come
funzione dei coefficienti ignoti. Per n = 2 osservazioni i.i.d. su variabili casuali di Bernoulli,
la funzione di verosimiglianza è
f (p; Y1 , Y2 ) = p(Y1 +Y2 ) (1 − p)2−(Y1 +Y2 ) .
(9.12)
Lo stimatore di massima verosimiglianze di p è il valore di p che massimizza la funzione
di verosimiglianza (9.12). Come in tutti i problemi di massimizzazione o minimizzazione, ciò
può essere fatto attraverso un processo di prova ed errori; in altre parole, si può provare con
diversi valori di p e calcolare la verosimiglianza f (p; Y1 , Y2 ), fino a quando non si ritiene di
aver raggiunto un massimo. In questo esempio, tuttavia, la massimizzazione della funzione di
verosimiglianza usando il calcolo matematico produce una formula semplice per lo stimatore
ML, che è p̂ = 12 (Y1 + Y2 ). In altre parole, lo stimatore ML di p è semplicemente la media
campionaria! In effetti, per un n generico, lo stimatore ML p̂ della probabilità p di una
distribuzione di Bernoulli è la sua media campionaria, ovvero p̂ = Ȳ (si veda l’appendice 9.2
per una dimostrazione). In questo esempio, lo stimatore ML è il comune stimatore di p, la
frazione di volte in cui Yi = 1 nel campione.
Questo esempio è simile al problema della stima dei coefficienti ignoti dei modelli di
regressione probit e logit. In tali modelli, la probabilità di successo p non è costante, ma
dipende da X; è cioè la probabilità di successo condizionatamente a X, data dalla (9.6) per il
modello probit e dalla (9.9) per il modello logit. Perciò, le funzioni di verosimiglianza probit e
logit sono simili alla funzione di verosimiglianza (9.12), eccetto che la probabilità di successo
varia da un’osservazione all’altra (perché dipende da Xi ). Le funzioni di verosimiglianza per
i modelli probit e logit sono riportate nell’appendice 9.2.
Come lo stimatore dei minimi quadrati non lineari, lo stimatore ML è consistente e normalmente distribuito in grandi campioni. Siccome i software di regressione calcolano comunemente lo stimatore ML dei coefficienti probit, questo stimatore è facile da usare in pratica.
Tutti i coefficienti stimati probit e logit riportati in questo capitolo sono ML.
Inferenza statistica basata sullo stimatore ML. Siccome lo stimatore ML è distribuito normalmente in grandi campioni, l’inferenza statistica circa i coefficienti probit e logit basata
sullo stimatore ML procede in modo analogo a quella per i coefficienti della funzione di regressione lineare basata sullo stimatore OLS: i test d’ipotesi sono condotti usando la statistica
t e gli intervalli di confidenza al 95% sono costruiti come ±1, 96 volte l’errore standard. I test
di ipotesi congiunte su più coefficienti utilizzano la statistica F, in un modo simile a quanto
308
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 309 — #339
i
i
9.4. Applicazione ai dati del Boston HMDA
discusso nel capitolo 5 per il modello di regressione lineare. Tutto ciò è del tutto analogo
all’inferenza statistica per il modello di regressione lineare.
Bisogna puntualizzare che alcuni software statistici riportano test di ipotesi congiunte
usando la statistica F, mentre altri software usano la statistica chi-quadrato. La statistica chiquadrato è q × F , dove q è il numero di restrizioni da verificare. Siccome la statistica F è,
sotto l’ipotesi nulla, distribuita in grandi campioni secondo una χ 2q /q, q × F è distribuita
in grandi campioni secondo una χ2q . Poiché i due approcci differiscono, in effetti, solo per
la divisione per q, essi producono identiche inferenze statistiche, ma è necessario conoscere
quale approccio sia implementato dal software in uso, cosı̀ da usare i valori critici corretti.
Misure di bontà dell’adattamento
Nella sezione 9.1, si è menzionato il fatto che l’R 2 costituisca una misura inadeguata della
bontà dell’adattamento dei modelli di probabilità lineare. Questo è vero anche per le regressioni probit e logit. Due misure di bontà dell’adattamento per i modelli con variabili
dipendenti binarie sono la “frazione correttamente predetta” e lo “pseudo-R 2”. La frazione
correttamente predetta utilizza la seguente regola: se Yi = 1 e la probabilità predetta eccede il 50% o se Yi = 0 e la probabilità predetta è minore del 50%, allora si dice che Yi è
predetto correttamente; altrimenti, si dice che Yi non è predetto correttamente. La “frazione predetta correttamente” è la frazione delle n osservazioni Y1 , . . . , Yn , che sono predette
correttamente.
Un vantaggio di questa misura di bontà dell’adattamento è la sua facilità di comprensione.
Uno svantaggio è che non riflette la qualità della predizione: se Y i = 1, l’osservazione è
trattata come predetto correttamente, indipendentemente dal fatto che la probabilità predetta
sia del 51% o del 90%.
Lo pseudo-R2 misura l’adattamento del modello usando la funzione di verosimiglianza.
Siccome lo stimatore ML massimizza la funzione di verosimiglianza, aggiungere un altro
regressore al modello probit o logit accresce il valore della verosimiglianza massimizzata,
proprio come l’aggiunta di un regressore riduce necessariamente la somma dei quadrati dei
residui OLS della regressione lineare. Ciò suggerisce di misurare la bontà dell’adattamento
di un modello probit confrontando i valori della funzione di verosimiglianza massimizzata
con tutti i regressori al valore della verosimiglianza senza alcun regressore. Questo, in effetti,
e ciò che fa lo pseudo-R2. Una formula per lo pseudo-R2 si può trovare nell’appendice 9.2.
9.4 Applicazione ai dati del Boston HMDA
Le regressioni delle due sezioni precedenti indicavano tassi di rifiuto più alti per i richiedenti
neri che per quelli bianchi, tenendo costante il loro rapporto rata-reddito. I funzionari bancari addetti ai prestiti, tuttavia, soppesano legittimamente molti fattori nel decidere circa la
309
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 310 — #340
i
i
9.4. Applicazione ai dati del Boston HMDA
concessione di un mutuo e, se qualcuno di questi fattori differisce sistematicamente a seconda della razza, allora gli stimatori considerati finora sono distorti a causa dell’omissione di
variabili rilevanti.
In questa sezione, considereremo più in dettaglio l’evidenza statistica di discriminazione
nei dati del Boston HMDA. Nello specifico, il nostro obiettivo è stimare l’effetto della razza
sulla probabilità di rifiuto, tenendo costanti quelle caratteristiche dei richiedenti che un funzionario bancario può per legge tenere in considerazione quando decide su una domanda di
mutuo.
Le variabili più importanti disponibili per i funzionari bancari attraverso le domande di
mutui registrate nella collezione di dati del Boston HMDA sono elencate nella tabella 9.1;
queste sono le variabili sulle quali ci concentreremo nei nostri modelli empirici di concessione di prestiti. Le prime due variabili sono misure dirette dell’onere finanziario che graverà sul
richiedente, calcolate in relazione al suo reddito: la prima è la variabile P/Iratio; la seconda
è il rapporto tra spese relative all’abitazione e reddito. La variabile successiva è la dimensione del prestito rapportata al valore stimato dell’abitazione: se il rapporto prestito-valore
tende a uno, allora la banca potrebbe avere problemi nel recuperare l’intero ammontare del
prestito, se il richiedente non restituisse il prestito e la banca agisse in via esecutiva. Le ultime tre variabili finanziarie sintetizzano la storia debitoria del richiedente. Se il richiedente
ha inadempiuto i suoi debiti in passato, allora il funzionario bancario potrebbe avere dubbi
legittimi sulla sua capacità o sulla sua volontà di rimborsare un prestito in futuro. Le tre
variabili misurano diversi tipi di storia debitoria, che l’ufficiale bancario potrebbe soppesare
diversamente: la prima riguarda il credito al consumo, come lo scoperto sulla carta di credito;
la seconda riguarda il rimborso di mutui precedenti; la terza misura problemi creditori tanto
gravi, come la bancarotta, da apparire in un registro pubblico giudiziario.
La tabella 9.1 elenca anche altre variabili rilevanti per la decisione del funzionario bancario. Talvolta il richiedente deve fare richiesta di un’assicurazione privata sui mutui. 2 Il
funzionario bancario sa se quella domanda è stata negata e quel rifiuto dovrebbe pesare negativamente nella decisione del funzionario. Le tre variabili successive, che riguardano lo
stato occupazionale, lo stato civile e l’educazione scolastica del richiedente, sono collegate
alla capacità prospettica di rimborso del richiedente. Nel caso di espropriazioni giudiziarie,
sono rilevanti anche le caratteristiche della proprietà e perciò la variabile successiva indica se
la proprietà è un condominio. Le ultime due variabili elencate nella tavole 9.1 indicano se il
richiedente è nero o bianco e se la domanda è stata o meno accettata. In questi dati, il 14, 2%
dei richiedenti è nero e il 12, 0% delle richieste è stato rifiutato.
2 L’assicurazione sui mutui è una polizza assicurativa in base alla quale la compagnia d’assicurazioni effettua il
pagamento mensile alla banca, se non fatto dal mutuatario. Al tempo di questo studio, se il rapporto prestito-valore
eccedeva l’80%, al richiedente veniva di solito richiesto di stipulare un’assicurazione sul mutuo.
310
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 311 — #341
i
i
9.4. Applicazione ai dati del Boston HMDA
Tabella 9.1: variabili incluse nei modelli di regressione per la concessione di mutui
Variabile
Definizione
Media
campionaria
Variabili finanziarie
P/Iratio
rapporto tra la rata mensile del debito totale sul reddito mensile totale
0,331
housing expense-toincome ratio
rapporto tra le spese mensili per l’abitazione e reddito mensile totale
0,255
loan-to-value ratio
rapporto tra l’ammontare del prestito sul valore del patrimonio
0,738
consumer credit
score
1 in assenza di “ritardi” nei pagamenti o inadempienze
2 in presenza di uno o due pagamenti ritardati o inadempienze
3 in presenza di più di due pagamenti ritardati
4 in assenza di una insufficiente conoscenza della storia debitoria
5 in presenza di una storia debitoria con inadempienze nei pagamenti
oltre i 60 giorni
6 in presenza di una storia debitoria con inadempienze nei pagamenti
oltre i 90 giorni
2,1
mortgage credit
score
1 in assenza di ritardi nei pagamenti del mutuo
2 in assenza di mutui precedenti
3 in presenza di uno o due pagamenti della rata del mutuo con ritardo
4 in presenza di più di due pagamenti della rata del mutuo con ritardo
1,7
public bad credit
1 in presenza di registrazioni pubbliche per problemi debitori
(bancarotta, “charge-offs”, pignoramenti)
0 altrimenti
record
0,074
Altre caratteristiche del richiedente
denied mortgage insurance
1 se il richiedente richiede un’assicurazione sul mutuo e gli viene
rifiutata 0 altrimenti
0,020
self-employed
1 se autonomo, 0 altrimenti
0,116
single
1 se single, 0 altrimenti
0,393
high school diploma
1 se il richiedente ha conseguito il diploma di scuola superiore
0 altrimenti
0,984
unemployment rate
tasso di disoccupazione nel settore del richiedente in Massachusetts
condominium
1 se l’abitazione è un condominio, 0 altrimenti
0,288
black
1 se il richiedente è nero, 0 se bianco
0,142
deny
1 se la richiesta di mutuo è rifiutata, 0 altrimenti
0,120
3,8
311
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 312 — #342
i
i
9.4. Applicazione ai dati del Boston HMDA
La tabella 9.2 presenta i risultati di regressione basati su queste variabili. Le specificazioni
di base, riportate nelle colonne (1)–(3), includono le variabili finanziarie della tavola 9.1 più le
variabili che indicano se l’assicurazione privata per il mutuo è stata negata e se il richiedente
è un lavoratore autonomo. I funzionari addetti ai mutui utilizzano valori-soglia, o valori di
esclusione, per il rapporto prestito-valore, perciò la specificazione di base per tale variabile
utilizza variabili binarie che indicano se il rapporto prestito-valore è alto (≥ 0, 95), medio
(tra 0, 8 e 0, 95) o basso (< 0, 8; questo caso è omesso per evitare la perfetta collinearità). I
regressori nelle prime tre colonne sono simili a quelli della specificazione di base considerata
dalla Federal Reserve Bank of Boston nella sua analisi iniziale di questi dati. 3 Le regressioni
nelle colonne (1)–(3) differiscono solo per il modo in cui viene modellata la probabilità di
rifiuto, utilizzando rispettivamente un modello lineare di probabilità e un modello probit.
Siccome la regressione nella colonna (1) è un modello lineare di probabilità, i suoi coefficienti sono le variazioni stimate nelle probabilità predette che derivano da una variazione
unitaria nella variabile indipendente. Di conseguenza, si stima che un aumento di P/Iratio
di 0, 1 accresca la probabilità di rifiuto di 4, 5 punti percentuali (il coefficiente di P/Iratio
nella colonna (1) è 0, 449 e 0, 449 × 0, 1 ∼
= 0, 045). Similmente, avere un rapporto elevato
prestito-valore aumenta la probabilità di rifiuto: un rapporto prestito-valore superiore al 95%
è associato ad una crescita della probabilità di rifiuto di 18, 9 punti percentuali (il coefficiente è 0, 189), relativamente al caso omesso di un rapporto prestito-valore inferiore all’80%,
tenendo costanti le altre variabili nella colonna (1). Richiedenti con basso merito di credito
hanno anche maggiore difficoltà nell’ottenere un prestito, a parità d’altro, sebbene sia interessante che il coefficiente del credito al consumo sia significativo mentre quello sul mutuo
ipotecario non lo è. I richiedenti con problemi di credito, come la bancarotta, hanno difficoltà
ancora maggiori ad ottenere un prestito: a parità d’altro, si stima che un’annotazione negativa su un registro giudiziario pubblico aumenti la probabilità di rifiuto di 0, 197, ovvero 19, 7
punti percentuali. Il fatto che l’assicurazione privata sui mutui venga negata sembra essere
decisivo: il coefficiente stimato di 0, 702 indica che il rifiuto di un’assicurazione sul mutuo fa
aumentare la probabilità che il mutuo venga negato di 70, 2 punti percentuali, a parità d’altro. Delle nove variabile incluse nella regressione (oltre alla razza), i coefficienti di tutte, due
escluse, sono signficativi al 5%, il che è consistente con la pratica del funzionario bancario di
considerare molti fattori nel prendere le proprie decisioni.
3
La differenza tra i regressori nelle colonne (1)–(3) e quelli contemplati in Munnell et al. (1996), tabella 2(1),
è che Munnell et al. includono indicatori aggiuntivi relativi alla localizzazione dell’abitazione e all’identità di chi
concede il prestito, dati che non sono di pubblico dominio; un indicatore per le abitazioni multifamiliari, che è
irrilevante qui perché il nostro sottogruppo di dati include solo abitazioni unifamiliari; la ricchezza netta, che noi
omettiamo poiché contiene alcuni valori estremi positivi e negativi e questo rischia di rendere i risultati sensibili a
poche specifiche “osservazioni anomale”.
312
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 313 — #343
i
i
9.4. Applicazione ai dati del Boston HMDA
Tabella 9.2: regressioni del rifiuto della concessione di un mutuo sui dati del Boston
HMDA
Variabile dipendente: rifiuto = 1 se la richiesta d’ipoteca è respinta, = 0 se accolta; 2.380 osservazioni.
Modello di regressione
Regressore
black
P/Iratio
housing expense-to-income ratio
medium loan-to-value ratio
(0,80≤loan-to-value ratio≤0,95)
high loan-to-value ratio
(loan-to-value ratio>0,95)
consumer credit score
mortgage credit score
public bad credit record
denied mortgage insurance
self-employed
LPM
(1)
Logit
(2)
Probit
(3)
Probit
(4)
Probit
(5)
Probit
(6)
0,084∗∗
(0,023)
0,449∗∗
(0,114)
-0,048
(0,110)
0,031∗
(0.013)
0,189∗∗
(0,050)
0,031∗∗
(0,005)
0,021
(0,011)
0,197∗∗
(0,035)
0,702∗∗
(0,045)
0,060∗∗
(0,021)
0,688∗∗
(0,182)
4,76∗∗
(1,33)
-0,11
(1,29)
0,46∗∗
(0.16)
1,49∗∗
(0,32)
0,29∗∗
(0,04)
0,28∗
(0,14)
1,23∗∗
(0,20)
4,55∗∗
(0,57)
0,67∗∗
(0,21)
0,389∗∗
(0,098)
2,44∗∗
(0,61)
-0,18
(0,68)
0,21∗∗
(0,08)
0,79∗∗
(0,18)
0,15∗∗
(0,02)
0,15∗
(0,07)
0,70∗∗
(0,12)
2,56∗∗
(0,30)
0,36∗∗
(0,11)
0,371∗∗
(0,099)
2,46∗∗
(0,60)
-0,30
(0,68)
0,22∗∗
(0,08)
0,79∗∗
(0,18)
0,16∗∗
(0,02)
0,11
(0,08)
0,70∗∗
(0,12)
2,59∗∗
(0,29)
0,35∗∗
(0,11)
0,23∗∗
(0,08)
-0,61∗∗
(0,23)
0,03
(0,02)
0,363∗∗
(0,100)
2,62∗∗
(0,61)
-0,50
(0,70)
0,22∗∗
(0,08)
0,84∗∗
(0,18)
0,34∗∗
(0,11)
0,16
(0,10)
0,72∗∗
(0,12)
2,59∗∗
(0,30)
0,34∗∗
(0,11)
0,23∗∗
(0,08)
-0,60∗
(0,24)
0,03
(0,02)
-0,05
(0,09)
0,246
(0,448)
2,57∗∗
(0,66)
-0,54
(0,74)
0,22∗∗
(0,08)
0,79∗∗
(0,18)
0,16∗∗
(0,02)
0,11
(0,08)
0,70∗∗
(0,12)
2,59∗∗
(0,29)
0,35∗∗
(0,11)
0,23∗∗
(0,08)
-0,62∗∗
(0,23)
0,03
(0,02)
single
high school diploma
unemployment rate
condominium
black×P/Iratio
-0,58
(1,47)
1,23
black×housing expense-to-income ratio
additional credit rating indicator variable
constant
no
no
no
no
yes
(1,69)
no
-0,183∗∗
(0,028)
-5,71∗∗
(0,48)
-3,04∗∗
(0,23)
-2,57∗∗
(0,34)
-2,90∗∗
(0,39)
-2,54∗∗
(0,35)
(Tabella 9.2 continua)
313
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 314 — #344
i
i
9.4. Applicazione ai dati del Boston HMDA
(Tabella 9.2 continua)
Statistiche F e valori-p per l’esclusione di gruppi di variabili
Regressore
(1)
(2)
(3)
applicant single;
HS diploma; industry
unemployment rate
(4)
(5)
(6)
5,85
(<0,001)
5,22
(0,001)
5,79
(<0,001)
additional credit rating
indicator variables
1,22
(0,291)
race interaction and black
4,96
(0,002)
race interaction only
0,27
(0,766)
difference in predicted
probability of denial, white
vs. black (percentage points)
8,4%
6,0%
7,1%
6,6%
6,3%
6,5%
Queste regressioni sono state stimate utilizzando n = 2.380 osservazioni tratte dall’HMDA di Boston, descritte
nell’appendice 9.1. Il modello lineare di probabilità è stato stimato tramite gli OLS e le regressioni probit e
logit sono state stimate tramite la massima verosimiglianza. Gli erorri standard sono riportati in parentesi sotto i
coefficienti e i valori-p sono riportati in parentesi sotto le statistiche F . La variazione della probabilità predetta
nella riga finale è stata calcolata per un ipotetico richiedente i cui valori dei regressori sono, eccetto che per la
razza, pari alla media del campione. I coefficienti sono statisticamente significativi al livello ∗ 5% o ∗∗ 1%.
Il coefficiente di black nella regressione (1) è 0, 084, il che indica che la differenza nelle
probabilità di rifiuto per i richiedenti neri e bianchi è di 8, 4 punti percentuali, tenendo costanti
le altre variabili nella regressione. Questo coefficiente è significativo al livello 1% (t = 3, 65).
Le stime logit e probit riportate nelle colonne (2) e (3) portano a conclusioni simili. Nelle
regressioni logit e probit, otto coefficienti su nove oltre a quello della razza sono individualmente diversi da zero al livello 5% e il coefficiente di black è significativo al livello 1%.
Come discusso nella sezione 9.2, siccome questi modelli sono non lineari, debbono essere attribuiti valori specifici a tutti i regressori per calcolare la differenza tra le probabilità predette
per i richiedenti bianchi e neri. Un modo convenzionale per effettuare questa scelta è considerare un richiedente “medio”, ovvero un richiedente che abbia valori campionari medi per
tutti i regressori oltre che per la razza. La riga finale della tabella 9.2 riporta questa differenza
di probabilità stimata, valutata per questo richiedente medio. I differenziali razziali stimati
sono simili tra loro: 8, 4 punti percentuali per il modello lineare di probabilità (colonna (1)),
6, 0 punti percentuali per il modello logit (colonna (2)), e 7, 1 punti percentuali per il modello
probit (colonna (3)). Questi effetti razza stimati e i coefficienti di black sono minori rispetto
314
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 315 — #345
i
i
9.4. Applicazione ai dati del Boston HMDA
alle regressioni della sezione precedente, in cui i soli regressori erano P/Irato e black, ad
indicare che quelle prime stime erano distorte a causa di variabili omesse.
Le regressioni delle colonne (4)–(6) analizzano la sensibilità dei risultati della colonna
(3) a variazioni della specificazione della regressione. La colonna (4) modifica la colonna (3)
includendo caratteristiche addizionali del richiedente. Queste caratteristiche aiutano a predire
se il prestito sarà negato; per esempio, l’avere almeno un diploma di scuola media superiore
riduce la probabilità di rifiuto (la stima è negativa e il coefficiente è significativo al livello
1%). Tuttavia, anche controllando per queste caratteristiche personali non varia in maniera
rilevante il coefficiente stimato di black o la differenza stimata nelle probabilità di rifiuto
(6, 6%).
La colonna (5) distingue le sei categorie di credito al consumo e le quattro categorie di
mutui per verificare l’ipotesi nulla che queste due variabili entrino linearmente; questa regressione aggiunge anche una variabile che indica se la proprietà è un condominio. L’ipotesi
nulla che le variabili per il merito di credito entrino linearmente nell’espressione del valore-z
non è rigettata, né è significativo l’indicatore di condominio al livello 5%. Cosa più importante, la differenza razziale stimata nella probabilità di rifiuto (6, 3%) è essenzialmente pari
a quella delle colonne (3) e (4).
La colonna (6) esamina se ci sono interazioni. Sono applicati criteri diversi per valutare i
rapporti rata-reddito e spesa per la casa-reddito ai richiedenti neri rispetto a quelli bianchi? La
risposta appare essere negativa: i termini di interazione non sono congiuntamente significativi
a livello 5%. Tuttavia, la razza continua ad avere un effetto significativo, dal momento che
l’indicatore razziale e i termini di interazione sono congiuntamente significativi a livello 1%.
Di nuovo, la differenza razziale nella probabilità di rifiuto stimata (6, 5%) è essenzialmente
pari a quella delle altre regressioni probit.
In tutte le sei specificazioni, l’effetto della razza sulla probabilità di rifiuto, tenendo costanti le altre caratteristiche del richiedente, è significativo al livello 1%. La differenza stimata
nelle probabilità di rifiuto tra richiedenti bianchi e neri varia da 6, 0 a 8, 4 punti percentuali.
Un modo per stabilire se questa differenza è grande o piccola è ritornare a una variante
della domanda posta all’inizio di questo capitolo. Supponiamo che due individui, uno bianco
e uno nero, richiedano un mutuo ma che posseggano gli stessi valori per le altre variabili
indipendenti della regressione (3); nello specifico, a parte la razza, i valori delle altre variabili
della regressione (3) siano i valori medi campionari dei dati HMDA. Il richiedente bianco
fronteggia una probabilità di rifiuto del 7, 4%, mentre il richiedente nero del 14, 5%. La
differenza razziale stimata nelle probabilità di rifiuto, pari a 7, 1 punti percentuali, indica che
il richiedente nero ha una probabilità di rifiuto quasi doppia rispetto al richiedente bianco.
I risultati della tabella 9.2 (e nello studio originale della Boston Fed) forniscono evidenza
statistica di una componente razziale nel rifiuto dei mutui, che, per legge, non dovrebbero
sussistere. Questa evidenza ha giocato un ruolo importante nell’incentivare la modifica del
315
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 316 — #346
i
i
9.5. Conclusioni
regolamento da parte dell’autorità normativa del settore bancario. 4 Gli economisti, tuttavia,
amano le buone discussioni e, non soprendentemente, questi risultati hanno anche stimolato
accesi dibattiti.
Siccome l’ipotesi che ci sia (o ci fosse) discriminazione razziale nella concessione di prestiti ha un fondamento, ricordiamo brevemente alcuni punti di questo dibattito. Per questo,
è utile inquadrare la questione nei termini dell’analisi del capitolo 7, ovvero considerare la
validità interna ed esterna dei risultati della tabella 9.2, che rappresentano analisi svolte in
precedenza sui dati del Boston HMDA. Alcune critiche rivolte allo studio originale della Federal Reserve Bank of Boston concernono la validità interna: possibili errori nei dati, forme
funzionali non lineari alternative, interazioni addizionali e cosı̀ via. I dati originali sono stati
sottoposti ad attenta verifica, sono stati individuati alcuni errori e i risultati qui riportati (e nello studio finale pubblicato dalla Boston Fed) sono basati sui dati “ripuliti”. La stima di altre
specificazioni –diverse forme funzionali e/o regressori addizionali– producono anch’esse stime dei differenziali razziali comparabili con quelle della tabella 9.2. Un problema di validità
interna potenzialmente più delicato è se vi sia informazione finanziaria rilevante di natura non
razziale che è ottenuta tramite le interviste ad personam per il prestito e non è registrata nella
domanda del prestito stesso, e che sia correlata con la razza; se cosı̀ fosse, ci potrebbe ancora
essere distorsione da variabile omessa nelle regressioni della tavola 9.2. Infine, alcuni hanno
messo in discussione la validità esterna: anche se ci fosse stata discriminazione razziale a
Boston nel 1990, sarebbe sbagliato coinvolgere coloro che oggi concedono prestiti altrove. Il
solo modo per risolvere la questione della validità esterna è considerare dati di altre località
e anni.5
9.5 Conclusioni
Quando la variabile dipendente Y è binaria, la funzione di regressione della popolazione è
la probabilità che Y = 1, condizionatamente ai regressori. La stima di questa funzione di
regressione richiede di cercare una forma funzionale che sia consona alla sua interpretazione
probabilistica, stimando i parametri incogniti di tale funzione e interpretando i risultati. I
valori predetti cosı̀ ottenuti sono probabilità predette e l’effetto stimato di una variazione
in un regressore X è la variazione stimata della probabilità che Y = 1 che risulta dalla
variazione in X.
4 Tali modifiche normative includono variazioni del modo in cui l’esame dell’implausibilità nella concessione
dei prestiti viene condotto dai regolatori bancari federali, modifiche delle inchieste condotte dallo U.S. Department
of Justice e un miglioramento dei programmi formativi per le banche e le altre società finanziarie.
5 Se si è interessati a ulteriori letture sull’argomento, un buon punto di partenza è il simposio su discriminazione razziale ed economia nel numero della primavera 1998 del Journal of Economic Perspectives. L’articolo di
Helen Ladd (1998) in tale simposio passa in rassegna l’evidenza e il dibattito sulla discriminazione razziale nella
concessione dei mutui. Una trattazione più dettagliata si trova in Goering e Wienk (1996).
316
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 317 — #347
i
i
9.5. Conclusioni
James J. Heckman e Daniel L. McFadden, premi Nobel
Il premio Nobel 2000 per l’economia è stato assegnato congiuntamente a due econometrici James J. Heckman dell’Università
di Chicago e Daniel L. McFadden dell’Università di California a Berkeley, per contributi fondamentali all’analisi dei dati su individui e imprese. La maggior parte del loro
lavoro affronta difficoltà che insorgono con
variabili dipendenti limitate.
Heckman è stato insignito del premio
per aver sviluppato strumenti per la selezione campionaria. Come discusso nella sezione 7.2 la distorsione da selezione campionaria si verifica quando la disponibilità dei dati è influenzata da un processo di selezione
collegato al valore della variabile dipendente. Ad esempio, supponiamo di voler stimare la relazione tra retribuzioni e alcuni
regressori X usando un campione casuale
estratto dalla popolazione. Se si stima la regressione usando il sottocampione degli occupati –ovvero quelli che riportano retribuzioni positive– la stima OLS potrebbe essere soggetta a distorsione da selezione. La
soluzione di Heckman è stata quella di specificare un’equazione preliminare con una
variabile dipendente binaria che indicasse
se il lavoratore è dentro o fuori dalle forze
di lavoro (dentro o fuori dal sottocampione)
e trattare quest’equazione e l’equazione per
le retribuzioni come un sistema di equazioni
simultanee. Questa strategia generale è stata estesa ai problemi di selezione che nascono in molti campi, dall’economia del lavoro
all’organizzazione industriale alla finanza.
McFadden è stato insignito del premio
per aver sviluppato modelli per analizzare
dati di scelta discreta (un diplomato di scuola superiore si arruolerà nell’esercito, andrà all’università oppure otterrà un lavoro?).
Egli ha cominciato considerando il problema di un individuo che massimizza l’utilità attesa di ognuna delle scelte possibili, la
quale potrebbe dipendere da variabili osservabili (come il salario, le caratteristiche del
lavoro e le caratteristiche della famiglia).
Ha poi derivato modelli per le probabilità
di scelta individuale con coefficienti ignoti, che, a loro volta, possono essere stimati con la massima verosimiglianza. Questi
modelli e le loro estensioni si sono dimostrati di grande utilità nell’analisi dei dati di
scelta discreta in molti campi, incluse l’economia del lavoro, l’economia della salute e
l’economia dei trasporti.
Per maggiori informazioni su questi e
altri premi Nobel per l’economia, si visiti il sito Web della Fondazione Nobel, alla
pagina web www.nobel.se/economics.
317
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 318 — #348
i
i
Sommario
Un modo naturale per modellare la probabilità che Y = 1 dati i regressori è usare una
funzione di ripartizione, dove l’argomento della c.d.f. dipende dai regressori. La regressione
probit utilizza una c.d.f. normale e la regressione logit usa una c.d.f. logistica. Siccome
questi modelli sono funzioni non lineari dei parametri ignoti, tali parametri sono più complessi da stimare rispetto ai coefficienti della regressione lineare. Il metodo di stima standard
è la massima verosimiglianza. In pratica, l’inferenza statistica che utilizza le stime di massima verosimiglianza procede allo stesso modo del modello di regressione lineare multipla;
ad esempio, gli intervalli di confidenza al 95% per un coefficiente sono costruiti come il
coefficiente stimato ±1, 96 volte l’errore standard.
Nonostante la sua non linearità intrinseca, la funzione di regressione della popolazione
può essere talvolta adeguatamente approssimata da un modello lineare di probabilità, ovvero
dalla retta prodotta dalla regressione lineare multipla. Il modello lineare di probabilità, la
regressione probit e la regressione logit danno tutti, alla fine, risposte molto simili, quando
applicati ai dati del Boston HMDA: i tre metodi stimano differenze sostanziali nei tassi di
rifiuto del mutuo per altrimenti simili richiedenti neri e bianchi.
Le variabili dipendenti binarie sono il più comune esempio di variabili dipendenti limitate,
ovvero di variabili dipendenti con un dominio limitato. L’ultimo quarto del ventesimo secolo
ha visto sviluppi importanti dei metodi econometrici per l’analisi di altre variabili dipendenti
limitate (vedi il riquadro dei premi Nobel). Alcuni di questi metodi sono passati in rassegna
nell’appendice 9.3.
Sommario
1. Quando Y è una variabile binaria, il modello di regressione lineare multipla è detto
modello lineare di probabilità. La retta di regressione della popolazione mostra la
probabilità che Y = 1, dato il valore dei regressori X1 , X2 , . . . Xk .
2. I modelli di regressione probit e logit sono modelli di regressione non lineare utilizzati
quando Y è una variabile binaria. A differenza del modello lineare di probabilità, le
regressioni probit e logit assicurano che la probabilità predetta che Y = 1 vari tra zero
e uno per tutti i valori di X.
3. La regressione probit utilizza la funzione di ripartizione normale standard. La regressione logit utilizza la funzione di ripartizione logistica standard. I coefficienti logit e
probit sono stimati con la massima verosimiglianza.
4. I valori dei coefficienti nelle regressioni probit e logit non sono facili da interpretare. Le
variazioni della probabilità che Y = 1 associate a variazioni in una o più X possono
essere calcolate usando la procedura generale per i modelli non lineari delineata nel
concetto chiave 6.1.
318
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 319 — #349
i
i
Sommario
5. I test d’ipotesi sui coefficienti dei modelli di probabilità lineare, logit e probit sono
condotti utilizzando le comuni statistiche t ed F.
Termini chiave
variabile dipendente limitata (294)
modello lineare di probabilità (296)
probit (299)
logit (299)
stimatore dei minimi quadrati
non lineari (306)
funzione di verosimiglianza (307)
stimatore di massima verosimiglianza (307)
frazione correttamente predetta (309)
pseudo-R2 (309)
Verifica dei concetti
9.1 Si supponga che un modello lineare di probabilità fornisca un valore predetto di Y pari
a 1, 3. Si spieghi perché ciò non è regionevole.
9.2 Nella tabella 9.2 il coefficiente stimato di black nella colonna (1) è 0, 084, nella colonna (2) 0, 688 e nella colonna (3) 0, 389. Nonostante queste notevoli differenze, i
tre modelli fornisco stime simili dell’effetto marginale della razza sulla probabilità di
rifiuto del mutuo. Come è possibile?
9.3 Uno dei vostri amici sta usando dati individuali per studiare le determinanti del tabagismo all’università. Vi chiede se dovrebbe usare un probit, un logit o un modello lineare
di probabilità. Quale consiglio gli dareste? Perché?
9.4 Perché i coefficienti dei modelli probit e logit sono stimati con la massima verosimiglianza invece che con gli OLS?
Esercizi
9.1 Si usi il modello probit stimato (9.8) per rispondere alle seguenti domande:
a. un richiedente di un mutuo nero ha un P/Iratio di 0, 35. Qual è la probabilità
che la sua domanda sia negata?
b. si supponga che il richiedente riduca questo rapporto a 0, 30. Quale effetto questo
avrebbe sulla probabilità che la sua richiesta di mutuo sia rifiutata?
c. si ripetano le parti (a) e (b) per un richiedente bianco;
d. l’effetto marginale del P/Iratio sulla probabilità di rifiuto del mutuo dipende
dalla razza? Si fornisca una spiegazione.
319
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 320 — #350
i
i
Appendice
9.2 Si ripeta il punto 9.1 usando il modello logit (9.10). I risultati del probit e del logit
sono simili? Si fornisca una spiegazione.
9.3 Si consideri il modello lineare di probabilità Yi = β0 + β1 Xi + ui , dove Pr(Yi =
1 Xi ) = β 0 + β 1 Xi .
a. Si mostri che E(ui Xi ) = 0.
b. Si mostri che var(ui Xi ) = (β0 + β1 Xi )[1 − (β0 + β1 Xi )] (suggerimento: si
consideri la (2.7)).
c. ui è eteroschedastico? Si fornisca una spiegazione.
d. Si derivi la funzione di verosimiglianza (richiede la conoscenza della sezione 9.3).
9.4 Si usi il modello lineare di probabilità stimato mostrato nella colonna (1) della tavola
9.2 per rispondere alle domande seguenti:
a. due individui, uno bianco e uno nero, richiedono un mutuo. Posseggono gli stessi valori relativamente a tutti i regressori eccetto che per la razza. Con quale
probabilità il richiedente nero vede rifiutata la sua domanda?
b. Si costruisca un intervallo di confidenza al 95% per la risposta data alla (a).
c. Si pensi ad una variabile omessa importante che potrebbe distorcere la risposta
della (a). Qual è e come distorcerebbe il risultato?
9.5 Si supponga che una variabile casuale Y abbia la seguente distribuzione di probabilità:
Pr(Y = 1) = p, Pr(Y = 2) = q e Pr(Y = 3) = 1 − p − q. Un campione casuale di
dimensione n viene estratto da questa distribuzione e le variabili casuali sono indicate
con Y1 , Y2 , . . . , Yn (richiede la conoscenza della sezione 9.3 e il calcolo matematico).
a. Si derivi la funzione di verosimiglianza per i parametri p e q.
b. Si derivino le formule per lo stimatore ML di p e q.
Appendice 9.1: i dati del Boston HMDA
I dati del Boston HMDA sono stati raccolti dai ricercatori della Federal Reserve Bank of
Boston. Questi combinano l’informazione tratta dalle richieste di mutuo e da un’indagine
successiva di banche e altre istituzioni creditizie che hanno ricevuto le richieste di mutuo. I
dati riguardano le richieste di mutui fatte nel 1990 nell’area metropolitana di Boston. I dati
completi consistono di 2.925 osservazioni, che comprendono tutte le domande di mutuo da
parte di neri e ispanici, più un campione casuale di richieste di mutuo da parte di bianchi.
Per restringere lo scopo dell’analisi di questo capitolo, usiamo un sottoinsieme di dati
relativi solo a residenze unifamiliari (escludendo perciò i dati sulle abitazioni multifamiliari)
320
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 321 — #351
i
i
Appendice
e soltanto a richiedenti neri e bianchi (escludendo perciò i dati su richiedenti appartenenti
ad altre minoranze). Restano in tal modo 2.380 osservazioni. Le definizioni delle variabili
utilizzate in questo capitolo sono date nella tavola 9.1.
I dati sono stati cortesemente forniti da Geoffrey Tootell del Research Department della
Federal Reserve Bank of Boston. Maggiori informazioni su questi dati, insieme alle conclusioni raggiunte dai ricercatori della Federal Reserve Bank of Boston, sono disponibili nell’articolo di Alicia H. Munnell, Geoffrey M.B. Tootell, Lynne E. Browne e James McEneaney, “Mortgage Lending in Boston: Interpreting HMDA Data”, American Economic Review,
1996, pp. 25-53.
Appendice 9.2: stima di massima verosimiglianza
Questa appendice fornisce una breve introduzione alla stima di massima verosimiglianza nel
contesto dei modelli a risposta binaria discussi in questo capitolo. Cominciamo derivando lo
stimatore ML della probabilità di successo p per n osservazioni i.i.d. tratte da una variabile
casuale di Bernoulli. Ritorneremo poi ai modelli probit e logit e discuteremo lo pseudo-R 2.
Concluderemo discutendo gli errori standard per le probabilità predette. Questa appendice
utilizza in due punti il calcolo matematico.
Stimatore ML per n variabili casuali di Bernoulli i.i.d.
Il primo passo per il calcolo dello stimatore ML è derivare la distribuzione di probabilità
congiunta. Per n osservazioni i.i.d. su una variabile casuale di Bernoulli, questa distribuzione
di probabilità congiunta è l’estensione del caso n = 2 della sezione 9.3 al caso di n generico:
Pr(Y1 = y1 , Y2 = y2 , . . . , Yn = yn ) =
[py1 (1 − p)1−y1 ] × [py2 (1 − p)1−y2 ] × · · · × [pyn (1 − p)1−yn ] =
p(y1 +···+yn ) (1 − p)n−(y1 +···+yn ) .
(9.13)
La funzione di verosimiglianza è la distribuzione di probabilità congiunta, trattata come
Pn
funzione dei coefficienti ignoti. Sia S = i=1 Yi ; allora la funzione di verosimiglianza è
fBernoulli (p; Y1 , . . . , Yn ) = pS (1 − p)n−S .
(9.14)
lo stimatore ML di p è il valore di p che rende massima la verosimiglianza (9.14). La
funzione di verosimiglianza può essere massimizzata con il calcolo matematico. In realtà,
conviene massimizzare non la verosimiglianza ma il suo logaritmo (siccome il logaritmo
è una funzione strettamente crescente, la massimizzazione della verosimiglianza o del suo
logaritmo forniscono lo stesso stimatore). La log verosimiglianza è S ln(p)+(n−S) ln(1−p)
321
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 322 — #352
i
i
Appendice
e la sua derivata rispetto a p è
S
n−S
d
ln[fBernoulli (p; Y1 , . . . , Yn )] = −
.
dp
p
1−p
(9.15)
Ponendo la derivata nella (9.15) uguale a zero e risolvendo rispetto a p, si ottiene lo stimatore
ML p̂ = S/n = Ȳ .
Stimatore ML per il modello probit
Per il modello probit, la probabilità che Yi = 1, condizionatamente a X1i , . . . , Xki , è
pi = Φ(β0 + β1 X1i + · · · + βk Xki ). La distribuzione di probabilità condizionata per la
i-esima osservazione è Pr[Yi = yi X1i , . . . , Xki ] = pyi i (1 − pi )1−yi . Assumendo che
(X1i , . . . , Xki , Yi ) siano i.i.d., per i = 1, . . . , n, la distribuzione di probabilità congiunta
delle Y1 , . . . , Yn , condizionatamente alle X, è
Pr(Y1 = y1 , . . . , Yn = yn X1i , . . . , Xki , i = 1, . . . , n)
= Pr(Y1 = y1 |X11 , . . . , Xk1 ) × · · · × Pr(Yn = yn |X1n , . . . , Xkn )
py11 (1 − p1 )1−y1 × · · · × pynn (1 − pn )1−yn .
(9.16)
La funzione di verosimiglianza è la distribuzione di probabilità congiunta, trattata come
funzione dei coefficienti ignoti. Per convenzione, si considera il logaritmo della verosimiglianza. Di conseguenza, la funzione di log verosimiglianza è
ln[fprobit (β0 , . . . , βk ; Y1 , . . . , Yn X1i , . . . , Xki , i = 1, . . . , n)] =
n
P
Yi ln[Φ(β0 + β1 X1i + · · · + βk Xki )]
i=1
+
n
P
i=1
(1 − Yi ) ln[1 − Φ(β0 + β1 X1i + · · · + βk Xki )],
(9.17)
dove questa espressione incorpora la formula probit per la probabilità condizionata, p i =
Φ(β0 + β1 X1i + · · · + βk Xki ).
lo stimatore ML del modello probit massimizza la funzione di verosimiglianza o, equivalentemente, il logaritmo della funzione di verosimiglianza, dato nella (9.17). Siccome non
c’è una formula esplicita per lo stimatore ML, la funzione di verosimiglianza del probit deve
essere massimizzata usando algoritmi numerici implementati su un computer.
Sotto condizioni generali, gli stimatori della massima verosimiglianza sono consistenti ed
hanno una distribuzione campionaria normale in grandi campioni.
Stimatore ML per il modello logit
La verosimiglianza per il modello logit è derivata allo stesso modo della verosimiglianza
per il modello probit. La sola differenza è che la probabilità condizionata di successo p i
322
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 323 — #353
i
i
Appendice
per il modello logit è data dalla (9.17), con Φ(β0 + β1 X1i + · · · + βk Xki ) rimpiazzata da
[1 + e−(β0 +β1 X1i +β2 X2i +···+βk Xki ) ]−1 . Come per il modello probit, non c’è una formula
esplicita per lo stimatore ML dei coefficienti logit, perciò la log verosimiglianza deve essere
massimizzata numericamente.
Pseudo-R2
Lo pseudo-R2 confronta il valore della verosimiglianza per il modello stimato con il valore
della verosimiglianza quando nessuna delle X è inclusa come regressore. Specificamente, lo
pseudo-R2 è
max
ln(fprobit
)
pseudo-R2 = 1 −
,
(9.18)
max
ln(fBernoulli )
max
dove fprobit
è il valore massimizzato della verosimiglianza probit (che include le X) e
max
fBernoulli è il valore massimizzato della verosimiglianza bernoulliana (il modello probit
escludendo tutte le X).
Errori standard per le probabilità predette
Per semplicità, si consideri il caso di un singolo regressore nel modello probit. La probabilità
predetta corrispondente ad un valore fissato di quel regressore, x, è p̂(x) = Φ( β̂0M L + β̂1M L x),
dove β̂0M L e β̂1M L sono gli stimatori ML dei due coefficienti probit. Siccome questa probabilità predetta dipende dagli stimatori β̂0M L e β̂1M L e siccome questi hanno una distribuzione
campionaria, la probabilità predetta avrà anch’essa una distribuzione campionaria.
La varianza della distribuzione campionaria di p̂(x) si calcola approssimando la funzione
Φ(β̂0M L + β̂1M L x), che è una funzione non lineare di β̂0M L e β̂1M L , con una funzione lineare
di β̂0M L e β̂1M L . Nello specifico, sia
p̂(x) = Φ(β̂0M L + β̂1M L x) ∼
= c + a0 β̂0M L + a1 β̂1M L ,
(9.19)
dove la costante c e i fattori a0 e a1 dipendono dalla x e si ottengono con il calcolo matematico
(la (9.19) è l’espansione del primo ordine in serie di Taylor; c = Φ(β 0 +β1 x) e a0 e a1 sono le
derivate parziali a0 = ∂Φ(β0 + β1 x)/∂β0 β̂ M L ,β̂ M L e a1 = ∂Φ(β0 + β1 x)/∂β1 β̂ M L ,β̂ M L ).
0
1
0
1
La varianza di p̂(x) può essere ora calcolata usando l’approssimazione (9.19) e la formula
(2.31) per la varianza della somma di due variabili casuali:
var[p̂(x)] ∼
= var(c + a0 β̂0M L + a1 β̂1M L )
= a20 var(β̂0M L ) + a21 var(β̂1M L ) + 2a0 a1 cov(β̂0M L , β̂1M L ).
(9.20)
Grazie alla (9.20), l’errore standard di p̂(x) può essere calcolato usando le stime della
varianza e della covarianza degli stimatori ML.
323
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 324 — #354
i
i
Appendice
Appendice 9.3: altri modelli con variabili
dipendenti limitate
Questa appendice passa in rassegna alcuni modelli per variabili dipendenti limitate, diversi dalle variabili binarie, che si possono trovare nelle applicazioni econometriche. Nella
maggior parte dei casi, gli stimatori OLS dei parametri dei modelli con variabili dipendenti
limitate sono inconsistenti, e la stima è fatta solitamente usando il metodo della massima verosimiglianza. Ci sono molti riferimenti avanzati disponibili per i lettori interessati a ulteriori
dettagli; si vedano, per esempio, Ruud (2000) e Maddala (1983).
Modelli di regressione troncata e censurata
Supponiamo di avere dati sezionali sugli acquisti personali di automobili in un dato annuo. Gli acquirenti di automobili hanno spese positive, che possono ragionevolmente essere trattate come variabili casuali continue; mentre i non acquirenti spendono 0$. Perciò,
la distribuzione delle spese per automobili è una combinazione di una distribuzione discreta
(concentrata al punto zero) e di una distribuzione continua.
Il premio Nobel James Tobin ha sviluppato un utile modello per una variabile dipendente
con distribuzione in parte continua e in parte discreta (Tobin, 1958). Tobin ha suggerito di
modellare l’individuo i-esimo nel campione come avente un livello desiderato di spesa Y i∗ ,
che è legato ai regressori (ad esempio, la dimensione della famiglia) secondo un modello di
regressione lineare. Ossia, con un singolo regressore, il livello desiderato di spesa è
Yi∗ = β0 + β1 Xi + ui , i = 1, . . . , n.
(9.21)
Se Yi∗ (ciò che il consumatore vuolo spendere) supera un valore di soglia, quale il prezzo
minimo per una macchina, allora il consumatore acquista la macchina e spende Y i = Yi∗ ,
che è osservato. Tuttavia, se Yi∗ è inferiore al valore di soglia, allora è osservata la spesa di
Yi = 0 invece di Yi∗ .
Quando l’equazione (9.21) è stimata usando le spese osservate Y i al posto di Yi∗ , lo
stimatore OLS è inconsistente. Tobin ha risolto questo problema derivando la funzione di
verosimiglianza che utilizza l’ipotesi addizionale che ui abbia una distribuzione normale e il
risultante stimatore ML è stato usato dagli econometrici applicati per analizzare molti problemi economici. In onore di Tobin, l’equazione (9.21), combinata con l’ipotesi di errori
normali è chiamata modello di regressione tobit. Il modello tobit è un esempio di modello
di regressione censurata, cosı̀ chiamato perché la variabile dipendente è stata “censurata” al
di sopra o al di sotto di una certa soglia.
324
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 325 — #355
i
i
Appendice
Modelli con selezione del campione
Nel modello di regressione censurata, ci sono dati su acquirenti e non acquirenti, come sarebbe per dati ottenuti da un campionamento casuale semplice della popolazione adulta. Se,
però, i dati fossero ottenuti dalle registrazioni delle imposte sulle vendite, essi includerebbero
soltanto gli acquirenti: non ci sarebbe alcun dato per i non acquirenti. Dati in cui le osservazioni non sono disponibili al di sopra o al di sotto di una certa soglia (dati per i soli acquirenti)
sono detti dati troncati. Il modello di regressione troncata è un modello di regressione che si
applica a dati in cui le osservazioni sono semplicemente non disponibili, quando la variabile
dipendente è al di sopra o al di sotto di una certa soglia.
Il modello di regressione troncata è un esempio di modello con selezione del campione,
nel quale il meccanismo di selezione (un individuo è nel campione in virtù del fatto di aver
acquistato una macchina) è collegato al valore della variabile dipendente (il prezzo dell’automobile). Come discusso nel riquadro della sezione 9.4, un approccio alla stima dei modelli
con selezione del campione è quello di sviluppare due equazioni, una per Y i∗ e una per il
fatto che Yi∗ sia osservato o meno. I parametri del modello possono allora essere stimati con
il metodo della massima verosimiglianza, o con una procedura a due stadi, che stima prima
l’equazione di selezione e poi l’equazione relativa a Yi∗ . Per un’ulteriore discussione, si veda
Ruud (2000, capitolo 28) o Greene (2000, sezione 20.4).
Dati di conteggio
I dati di conteggio si presentano quando la variabile dipendente è il valore di un punteggio, ad
esempio il numero di pasti consumati al ristorante da un individuo in una settimana. Quando
questi numeri sono grandi, la variabile può essere trattata come approssimativamente continua, ma quando sono piccoli, l’approssimazione continua è insoddisfacente. Il modello di
regressione lineare, stimato con gli OLS, può essere usato per i dati di conteggio, anche se il
valore di conteggio è piccolo. I valori predetti della regressione sono interpretati come valori
attesi della variabile dipendente, condizionatamente ai regressori. Cosı̀, quando la variabile
dipendente è il numero di pasti consumati al ristorante, un valore predetto di 1, 7 significa 1, 7
pasti al ristorante in media per settimana. Come nel modello di regressione binaria, tuttavia,
l’OLS non trae vantaggio dalla speciale struttura dei dati di conteggio e può fornire predizioni senza senso, ad esempio −0, 2 pasti al ristorante per settimana. Proprio come il probit
e il logit eliminano predizioni senza senso quando la variabile dipendente è binaria, modelli
particolari fanno lo stesso per i dati di conteggio. I due modelli più ampiamente usati sono i
modelli di regressione di Poisson e binomiale negativo.
325
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 326 — #356
i
i
Appendice
Risposte ordinabili
I dati per risposte ordinabili si presentano quando categorie mutualmente esclusive seguono
un ordine naturale, come ottenere un diploma di scuola superiore, qualche anno di università
(ma senza laurea), o la laurea. Come per i dati di conteggio, i dati per risposte ordinabili
hanno un ordine naturale, ma a differenza dei dati di conteggio non hanno valori numerici
naturali.
Siccome non ci sono valori numerici naturali per i dati per risposte ordinabili, gli OLS
sono inappropriati. Invece, i dati ordinati sono spesso analizzati usando una generalizzazione del modello probit chiamata modello probit ordinato, in cui le probabilità di ciascun
risultato (ad esempio, gli anni di istruzione universitaria), condizionatamente alle variabili
indipendenti (come il reddito dei genitori), sono modellate usando la funzione di ripartizione
normale.
Dati di scelta discreta
Una variabile di scelta discreta o di scelta multipla può assumere più valori qualitativi non
ordinabili. Un esempio in economia è il mezzo di trasporto scelto da un pendolare: potrebbe
prendere la metropolitana, salire su un autobus, guidare un’automobile o percorrere la strada
con le sue forze (a piedi, bicicletta). Se dovessimo analizzare tali scelte, la variabile dipendente avrebbe quattro possibili risultati (metropolitana, autobus, automobile, forza umana).
Questi risultati non seguono un ordine naturale. Invece, i risultati rappresentano una scelta
tra alternative distinte.
Il compito dell’econometria è modellare la probabilità di scelta tra le varie opzioni, dati
vari regressori, quali le caratteristiche dell’individuo (quanto lontana è l’abitazione del pendolare dalla fermata della metropolitana) e le caratteristiche di ciascuna opzione (il prezzo della
metropolitana). Come discusso nel riquadro della sezione 9.3, i modelli per analizzare dati
di scelta discreta possono essere sviluppati partendo dal principio della massimizzazione dell’utilità. Le probabilità di scelta individuale possono essere espresse in forma probit o logit, e
tali modelli sono chiamati modelli di regressione probit multinomiale e logit multinomiale.
326
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 327 — #357
i
i
Capitolo 10
Regressione con variabili
strumentali
Il capitolo 7 ha discusso vari problemi, tra cui l’omissione di variabili, gli errori di misura
nelle variabili e la causalità simultanea, che danno luogo a correlazione tra il termine d’errore e i regressori. La distorsione da variabile omessa può essere affrontata in modo diretto,
includendo la variabile omessa in una regressione multipla, ma ciò è realizzabile solo se si
possiedono dati riguardanti tale variabile. Talvolta, come nel caso in cui la causalità va sia
da X a Y sia da Y a X, il che determina distorsione da causalità simultanea, la regressione multipla non può eliminare la distorsione. Se una soluzione diretta a questi problemi è
impraticabile o non disponibile, è necessario allora un nuovo metodo.
La regressione con variabili strumentali (IV, acronimo dall’inglese Instrumental Variables) è un metodo generale per ottenere uno stimatore consistente dei coefficienti ignoti della
funzione di regressione della popolazione quando il regressore X è correlato con l’errore u.
Per comprendere come funziona la regressione IV, si pensi a una variazione in X come costituita da due parti: una parte che, per qualsivoglia ragione, è correlata con u (questa è la parte
che crea problemi) e una seconda parte che è incorrelata con u. Se si avessero informazioni
tali da permettere di isolare la seconda parte, ci si potrebbe allora concentrare sulle variazioni
in X che sono incorrelate con u e trascurare le variazioni in X che rendono distorte le stime
OLS. Questo è, in pratica, ciò che fa la regressione IV. L’informazione riguardante le variazioni in X che sono incorrelate con u è ottenuta grazie a una o più variabili aggiuntive, dette
variabili strumentali o semplicemente strumenti. La regressione con variabili strumentali usa queste variabili addizionali come “strumenti” per isolare le variazioni in X che sono
incorrelate con u, il che a sua volta permette di stimare in modo consistente i coefficienti di
regressione.
Le prime due sezioni di questo capitolo descrivono la meccanica e le assunzioni della
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 328 — #358
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
regressione IV: perché la regressione IV funziona, qual è uno strumento valido e come implementare e interpretare il metodo più comune di regressione IV, i minimi quadrati a due
stadi. La chiave per un’analisi empirica fruttuosa tramite le variabili strumentali è trovare
strumenti validi, e la sezione 10.3 affronta la questione di come verificare la validità di un
insieme di strumenti. Come illustrazione, la sezione 10.4 usa la regressione IV per stimare
l’elasticità della domanda di sigarette. Infine, la sezione 10.5 affronta il difficile problema
dell’individuazione di strumenti validi.
10.1 Lo stimatore IV con un singolo regressore
e un singolo strumento
Cominciamo con il caso di un singolo regressore, X, che potrebbe essere correlato con l’errore di regressione, u. Se X e u fossero correlati, lo stimatore OLS sarebbe inconsistente,
ovvero potrebbe non essere vicino al vero valore del coefficiente di regressione anche quando
il campione è molto grande (vedi l’equazione (5.1)). Come discusso nella sezione 7.2, questa
correlazione tra X e u può derivare da varie fonti, quali le variabili omesse, gli errori nelle
variabili (errori di misura nei regressori) o la causalità simultanea (quando la direzione di
causalità va sia all’“indietro” da Y a X sia “in avanti” da X a Y ). Qualunque sia l’origine
della correlazione tra X e u, se c’è una valida variabile strumentale Z, l’effetto su Y di una
variazione unitaria in X può essere stimato tramite le variabili strumentali.
Il modello IV e le sue ipotesi
Il modello di regressione che mette in relazione la variabile dipendente Y i e il regressore Xi
è
Yi = β0 + β1 Xi + ui , i = 1, . . . , n.
(10.1)
dove, come al solito, l’errore ui rappresenta i fattori omessi che determinano Yi . Se Xi e ui
sono correlati, lo stimatore OLS è inconsistente. Il metodo delle variabili strumentali utilizza
una variabile “strumentale” aggiuntiva Z per isolare quella parte di X che è incorrelata con
ui .
Endogeneità ed esogeneità. La regressione con variabili strumentali ha una terminologia
specifica per distinguere le variabili che sono correlate con l’errore u da quelle che non lo
sono. Le variabili correlate con l’errore sono dette variabili endogene, mentre le variabili
incorrelate con l’errore sono dette variabili esogene. L’origine storica di questi termini risale
ai modelli con equazioni simultanee, in cui la variabile “endogena” è determinata all’interno
del modello, mentre la variabile “esogena” è determinata al di fuori del modello. Ad esempio,
la sezione 7.2 ha preso in considerazione la possibilità che bassi punteggi del test producano
328
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 329 — #359
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
riduzioni nel rapporto studenti-insegnanti per effetto di interventi politici e finanziamenti
maggiori; la causalità in questo caso andrebbe sia dal rapporto studenti-insegnanti ai punteggi
del test sia dai punteggi del test al rapporto studenti-insegnanti. Tutto ciò è stato rappresentato
in termini matematici come un sistema di due equazioni simultanee (le equazioni (7.3) e
(7.4), una per ciascun legame causale). Come discusso nella sezione 7.2, poiché i punteggi
del test e il rapporto studenti-inseganti sono determinati all’interno del modello, essi sono
entrambi correlati con l’errore u; in altre parole, in questo esempio, le variabili sono entrambe
endogene. Al contrario, una variabile esogena, che è determinata all’esterno del modello, è
incorrelata con u.
Le due condizioni per uno strumento valido. Una variabile strumentale (“strumento”)
valida deve soddisfare due condizioni, note come rilevanza dello strumento ed esogeneit à
dello strumento:
1. rilevanza dello strumento: corr(Zi , Xi ) 6= 0;
2. esogeneità dello strumento: corr(Zi , ui ) = 0.
Se uno strumento è rilevante, la variazione nello strumento è legata alla variazione in X i .
Se lo strumento è inoltre esogeno, la parte della variazione in Xi catturata dalla variabile
strumentale è esogena. Per questo motivo, uno strumento che sia rilevante ed esogeno può
catturare movimenti in Xi che sono esogeni. Questa variazione esogena può a sua volta
essere usata per stimare il coefficiente β1 .
Le due condizioni per la validità di uno strumento sono vitali per la regressione con
variabili strumentali e ritorneremo su tale argomento (e su una loro versione rilevante nel
caso di più regressori e più strumenti) ripetutamente nel corso di questo capitolo.
Lo stimatore dei minimi quadrati a due stadi
Se lo strumento Z soddisfa le condizioni di rilevanza e di esogeneità, il coefficiente β 1 può
essere stimato usando uno stimatore IV detto minimi quadrati a due stadi (TSLS, acronimo
dall’inglese Two Stage Least Squares). Come il nome suggerisce, lo stimatore dei minimi
quadrati a due stadi è calcolato in due stadi. Il primo stadio scompone X in due parti: una
componente problematica che potrebbe essere correlata con l’errore di regressione e un’altra
componente priva di problemi che è incorrelata con l’errore. Il secondo stadio utilizza la
componente priva di problemi per stimare β1 .
Il primo stadio comincia con una regressione che lega X e Z:
Xi = π 0 + π 1 Z i + v i ,
(10.2)
dove π0 è l’intercetta, π1 è la pendenza e vi l’errore. Questa regressione fornisce la scomposizione richiesta di Xi . Una componente è π0 + π1 Zi , la parte di Xi che può essere predetta da
329
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 330 — #360
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
Zi . Poiché Zi è esogena, questa componente di Xi è incorrelata con ui , l’errore della (10.1).
L’altra componente di Xi è vi , che è la componente problematica di Xi che è correlata con
ui .
L’idea sottostante i TSLS è quella di usare la componente senza problemi di X i , cioè
π0 + π1 Zi , e di ignorare vi . La sola complicazione è che i valori di π0 e π1 sono ignoti,
perciò π0 + π1 Zi non può essere calcolata. Di conseguenza, il primo stadio dei TSLS applica
gli OLS al modello (10.2) e calcola i valori predetti dalla regressione OLS, X̂i = π̂0 + π̂1 Zi ,
dove π̂0 e π̂ sono le stime OLS.
Il secondo stadio dei TSLS è semplice: si effettua una regressione OLS di Y i su X̂i . Gli
stimatori risultanti dalla regressione del secondo stadio sono gli stimatori TSLS, β̂0T SLS e
β̂1T SLS .
Perché funziona la regressione IV?
Due esempi forniscono qualche intuizione sul perché la regressione IV risolve il problema
della correlazione tra Xi e ui .
Esempio 1: il problema di Philip Wright. Il metodo di stima con variabili strumentali fu
pubblicato per la prima volta nel 1928 nell’appendice di un libro scritto da Philip G. Wright
(Wright, 1928); si pensa che questa appendice sia stata scritta con oppure da suo figlio Sewall
Wright, un importante statistico. Philip Wright era alle prese con un importante problema
economico di allora: come fissare una tariffa sulle importazioni di olii e grassi animali e
vegetali, come burro e olio di soia. Negli anni ’20, le tariffe all’importazione erano una fonte
naturale di introiti fiscali per gli Stati Uniti. La chiave per comprendere l’effetto economico
di una tariffa era avere stime quantitative delle curve di domanda e di offerta dei beni. Si
ricordi che l’elasticità dell’offerta è la variazione percentuale della quantità offerta associata
a un incremento del prezzo dell’1% e l’elasticità della domanda è la variazione percentuale
della quantità domandata associata a un incremento del prezzo dell’1%. Philip Wright aveva
bisogno di stime dell’elasticità dell’offerta e della domanda.
Per essere concreti, consideriamo il problema di stimare l’elasticità della domanda di
burro. Si ricordi dal concetto chiave 6.2 che il coefficiente in un’equazione lineare che mette
in relazione ln(Yi ) con ln(Xi ) può essere interpretato come l’elasticità di Y rispetto a X.
Nel problema di Wright ciò suggerisce l’equazione di domanda
ln(Qbutter
) = β0 + β1 ln(Pibutter ) + ui ,
i
(10.3)
dove Qbutter
è la i-esima osservazione sulla quantità di burro consumata, P ibutter è il suo
i
prezzo e ui rappresenta altri fattori che influenzano la domanda, come il reddito e i gusti dei
consumatori. Nella (10.3), un incremento dell’1% del prezzo del burro induce una variazione
percentuale di β1 nella domanda, perciò β1 è l’elasticità della domanda.
330
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 331 — #361
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
I Wright avevano dati sul consumo totale annuo di burro sul suo prezzo medio annuo negli
Stati Uniti dal 1912 al 1922. Sarebbe stato semplice usare questi dati per stimare l’elasticità
della domanda applicando gli OLS alla (10.3), ma ebbero un’intuizione fondamentale: a
causa dell’interazione tra offerta e domanda, il regressore ln(Pibutter ) era verosimilmente
correlato con l’errore.
Per rendercene conto, osserviamo la figura 10.1a che mostra le curve di domanda e di
offerta di burro in tre anni diversi. Le curve di domanda e di offerta per il primo anno sono
indicate con D1 e S1 e il prezzo e la quantità d’equilibrio sono determinate dalla loro intersezione. Nel secondo anno, la domanda cresce da D1 a D2 (diciamo, a causa di un aumento nel
costo di produzione del burro) e l’offerta decresce da S1 a S2 (a causa di un aumento nella
produzione di burro); il prezzo e la quantità di equilibrio sono determinati dall’intersezione
delle nuove curve di domanda e di offerta. Nel terzo anno, i fattori che influenzano la domanda e l’offerta cambiano nuovamente: la domanda continua a crescere fino a D 3 , l’offerta
cresce fino a S3 , e cosı̀ si determinano i nuovi valori d’equilibrio di quantità e prezzo. La
figura 10.1b mostra le coppie di quantità e prezzo di equilibrio per questi tre anni e per gli
otto anni successivi, dove per ogni anno le curve di offerta e di domanda sono soggette a spostamenti associati a fattori, oltre al prezzo, che influenzano la domanda e l’offerta di mercato.
Questo grafico a nuvola di punti è simile a quello che i Wright devono aver visto quando
hanno riportato i loro dati in un grafico. Come questi ne dedussero, gli OLS, approssimando
questi punti con una retta, non stimerebbero né una curva di domanda né una curva di offerta,
perché i punti sono stati determinati da variazioni sia nella domanda sia nell’offerta.
I Wright compresero che un modo per evitare questo problema era cercare una terza
variabile che spostasse l’offerta ma non la domanda. La figura 10.1c mostra cosa accade
quando tale variabile sposta la curva di offerta, ma la domanda rimane stabile. Tutte le
coppie di prezzo e quantità d’equilibrio giacciono ora su una curva di domanda stabile e
la pendenza della curva di domanda è facilmente stimabile. Nella formulazione del problema
dei Wright in termini di variabili strumentali, questa terza variabile –la variabile strumentale–
è correlata con il prezzo (sposta la curva di offerta, il che porta a una variazione nel prezzo)
ma è incorrelata con u (la curva di domanda resta stabile). I Wright discussero molte variabili
strumentali potenziali; una di queste fu il clima. Ad esempio, una quantità di pioggia al di
sotto della media in una regione di produzione del latte avrebbe potuto danneggiare i pascoli
e ridurre cosı̀ la produzione di burro per ciascun livello del prezzo (avrebbe spostato la curva
d’offerta a sinistra, facendo aumentare il prezzo d’equilibrio). Perciò, la quantità di pioggia
nelle zone di produzione del latte soddisfa la condizione per la rilevanza dello strumento. La
pioggia caduta nelle zone di produzione del latte, tuttavia, non dovrebbe avere un’influenza
diretta sulla domanda di burro, perciò la correlazione tra la pioggia nelle zone di produzione
del latte e ui sarebbe nulla; in altre parole, la pioggia nelle zone di produzione del latte
soddisfa anche la condizione per l’esogeneità dello strumento.
331
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 332 — #362
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
Figura 10.1
Prezzo
Equilibrio
periodo 2
S2
S1
S3
Equilibrio
periodo 3
D3
Equilibrio
periodo 1
D2
D1
Quantità
(a) Domanda e offerta in tre periodi
Prezzo
Quantità
(b) Prezzo e quantità di equilibrio per undici periodi
Prezzo
S2
S1
S3
D1
Quantità
(c) Prezzo e quantità di equilibrio quando solo la
curva di offerta si sposta
(a) Il prezzo e la quantità sono determinati dall’intersezione delle curve di offerta e di domanda. L’equilibrio nel
primo periodo è determinato dall’intersezione della curva di domanda D 1 e la curva d’offerta S1 . L’equilibrio
nel secondo periodo è dato dall’intersezione di D2 e S2 e l’equilibrio nel terzo periodo è dato dall’intersezione
di D3 e S3 . (b) Il grafico a nuvola mostra il prezzo e la quantità di equilibrio in undici diversi periodi. Le curve
di domanda e offerta sono nascoste. Potete determinare le curve di domanda e offerta dai punti del grafico? (c)
Quando la curva di offerta si sposta da S1 a S2 a S3 ma la curva di domanda rimane in D1 , i prezzi e le quantità
di equilibrio seguono la curva di domanda.
332
i
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0038
Fig. 10.01, a-c
1st Proof
i
2nd Proof
3rd Proof
i
Final
i
i
i
“generale” — 2005/7/10 — 22:25 — page 333 — #363
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
Esempio 2: stima dell’effetto della dimensione delle classi sui punteggi del test. Pur controllando per le caratteristiche degli studenti e del distretto, le stime dell’effetto sui punteggi
del test della dimensione delle classi riportate nella parte II potrebbero ancora essere distorte
per l’omissione di variabili non misurate, quali le opportunità di apprendimento al di fuori
della scuola o la qualità degli insegnanti. Se i dati su queste variabili non sono disponibili,
il problema della distorsione non può essere risolto includendo tali variabili nelle regressioni
multiple.
La regressione con variabili strumentali fornisce un approccio alternativo a questo problema. Consideriamo il seguente esempio ipotetico: alcune scuole della California sono costrette
a chiudere per riparazioni a causa di un terremoto estivo. I distretti più vicini all’epicentro
sono i più disastrati. Un distretto con alcune scuole chiuse ha bisogno di “raddoppiare” i
propri studenti, aumentando temporaneamente la dimensione delle classi. Ciò significa che
la distanza dall’epicentro soddisfa la condizione per la rilevanza dello strumento, essendo
correlata con la dimensione delle classi. Se la distanza dall’epicentro non avesse alcuna relazione con qualsiasi altro fattore che influenza la prestazione degli studenti (per esempio, se
gli studenti stiano ancora apprendendo l’inglese), allora sarebbe esogena perché incorrelata
con l’errore. Cosı̀ la variabile strumentale, distanza dall’epicentro, potrebbe essere utilizzata
per ovviare alla distorsione da variabile omessa e per stimare l’effetto della dimensione delle
classi sui punteggi del test.
La distribuzione campionaria dello stimatore TSLS
La distribuzione esatta dello stimatore TSLS in piccoli campioni è complessa. Tuttavia, come
per lo stimatore OLS, la sua distribuzione in grandi campioni è semplice: lo stimatore TSLS
è consistente ed è distribuito normalmente.
Formula per lo stimatore TSLS. Sebbene la procedura a due stadi dello stimatore TSLS
lo faccia apparire complesso, quando vi è una sola X e un singolo strumento Z, come assumiamo in questa sezione, esiste una formula semplice per questo stimatore. Sia s ZY la
covarianza campionaria di Z e Y e sia sZX la covarianza campionaria di Z e X. Come
mostrato nell’appendice 10.2, lo stimatore TSLS con un singolo strumento è
β̂1T SLS =
sZY
.
sZX
(10.4)
Lo stimatore di β1 è cioè il rapporto tra la covarianza campionaria di Z e Y e la covarianza
campionaria di Z e X.
333
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 334 — #364
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
La distribuzione campionaria di β̂1T SLS quando la numerosità campionaria è elevata.
La formula (10.4) può essere usata per mostrare che β̂1T SLS è consistente e, in grandi campioni, normalmente distribuito. Il ragionamento è sintetizzato qui di seguito, mentre i dettagli
matematici sono forniti nell’appendice 10.3.
La prova della consistenza di β̂1T SLS combina le assunzioni di rilevanza ed esogeneità di
Zi con la consistenza delle covarianze campionarie per le covarianze della popolazione. Per
cominciare, notiamo che siccome Yi = β0 + β1 Xi + ui nella (10.1),
cov(Zi , Yi ) = cov(Zi , β0 + β1 Xi + ui ) = β1 cov(Zi , Xi ) + cov(Zi , ui ),
(10.5)
dove la seconda uguaglianza segue dalle proprietà (2.33) delle covarianze. Per l’ipotesi di
esogeneità dello strumento, cov(Zi , Xi ) = 0 e per l’ipotesi di rilevanza dello strumento,
cov(Zi , Xi ) 6= 0. Cosı̀, se lo strumento è valido,
β1 =
cov(Zi , Yi )
.
cov(Zi , Xi )
(10.6)
Cioè, il coefficiente β1 è il rapporto della covarianza tra Z e Y nella popolazione e la
covarianza tra Z ed X nella popolazione.
Come discusso nella sezione 3.6, la covarianza campionaria è uno stimatore consistente
p
p
della covarianza della popolazione, perciò sZY → cov(Zi , Yi ) e sZX → cov(Zi , Xi ). La
consistenza dello stimatore TSLS segue dalle formule (10.4) e (10.6):
β̂1T SLS =
sZY p cov(Zi , Yi )
→
= β1 .
sZX
cov(Zi , Xi )
(10.7)
La formula (10.4) può anche essere usata per mostrare che la distribuzione campionaria di
è normale in grandi campioni. Il ragionamento è lo stesso che per ogni altro stimatore
dei minimi quadrati che abbiamo considerato: lo stimatore TSLS è una media di variabili
casuali e, quando la dimensione campionaria è grande, il teorema limite centrale ci dice che
le medie di variabili casuali sono distribuite normalmente. Nello specifico, il numeratore
Pn
1
della (10.4) è sZY = n−1
i=1 (Zi − Z̄)(Yi − Ȳ ), che è una media di (Zi − Z̄)(Yi − Ȳ ).
Un po’ di algebra, accennata nell’appendice 10.3, mostra che applicando il teorema limite
centrale a questa media, β̂1T SLS ha una distribuzione campionaria che per grandi campioni è
approssimativamente N (β1 , σβ̂2 T SLS ), dove
β̂1T SLS
1
σβ̂2 T SLS =
1
1 var[(Zi − µZ )ui ]
.
n [cov(Zi , Xi )]2
(10.8)
Inferenza statistica usando la distribuzione per grandi campioni. La varianza σβ̂2 T SLS
1
può essere stimata stimando la varianza e la covarianza che appaiono nella (10.8). La radice
334
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 335 — #365
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
quadrata della stima di σβ̂2 T SLS è l’errore standard dello stimatore IV. Nei moderni pacchetti
1
econometrici ciò è prodotto aumaticamente dai comandi per la regressione TSLS. Siccome
β̂1T SLS si distribuisce come una normale in grandi campioni, test di ipotesi su β 1 possono
essere effettuati calcolando la statistica t; e un intervallo di confidenza al 95% in grandi
campioni è dato da β̂1T SLS ± 1, 96SE(β̂1T SLS ).
Applicazione alla domanda di sigarette
I Wright erano interessati all’elasticità della domanda di burro, ma oggi altri beni, come le
sigarette, assumono un’importanza maggiore nel dibattito pubblico. Uno strumento nello
sforzo di ridurre le malattie e le morti da tabagismo –e i costi, o le esternalità, imposti da
tali malattie al resto della società– è quello di tassare le sigarette cosı̀ pesantemente che gli
attuali fumatori ne riducano il consumo e i nuovi fumatori potenziali siano scoraggiati dal
prenderne l’abitudine. Precisamente, però, di quanto deve aumentare l’imposta per poter
avere un effetto sul consumo di sigarette? Ad esempio, quale dovrebbe essere il prezzo di
vendita delle sigarette perché si ottenga una riduzione del 20% nel consumo di sigarette?
La risposta a questa domanda dipende dall’elasticità della domanda di sigarette. Se l’elasticità fosse −1, allora l’obiettivo del 20% potrebbe essere raggiunto attraverso un incremento
del prezzo del 20%. Se l’elasticità fosse −0, 5, allora il prezzo dovrebbe crescere del 40%
per ridurre il consumo del 20%. Naturalmente, non sappiamo cosa sia in astratto l’elasticità
della domanda di sigarette: dobbiamo stimarla attraverso dati su prezzi e vendite. Però, come con il burro, a causa delle interazioni tra offerta e domanda, l’elasticità della domanda
di sigarette non può essere stimata in maniera consistente tramite una regressione OLS del
logaritmo della quantità sul logaritmo del prezzo.
Usiamo perciò i TSLS per stimare l’elasticità della domanda di sigarette usando dati
annuali relativi ai 48 stati USA continentali per il periodo 1985-1995 (i dati sono descritti
nell’appendice 10.1). Per ora, tutti i risultati presentati riguardano dati sezionali per il 1995;
i risultati che sfruttano i dati per gli anni precedenti (dati panel) sono presentati nella sezione
10.4.
La variabile strumentale SalesT axi è la porzione dell’imposta sulle sigarette che deriva
dall’imposta generale sulle vendite, misurata in dollari per pacchetto (in dollari reali, deflazionata attraverso l’indice dei prezzi al consumo). Il consumo di sigarette (Q cigarettes
) è
i
cigarettes
il numero pro capite di pacchetti di sigarette vendute nello stato e il prezzo P i
è il
prezzo reale medio per pacchetto di sigarette incluse tutte le imposte.
Prima di usare i TSLS è essenziale chiedersi se sussistono le due condizioni per la validità dello strumento. Ritorneremo su questo argomento in dettaglio nella sezione 10.3, dove
forniremo alcuni strumenti statistici per una simile valutazione. Anche se provvisti di quegli strumenti statistici, il giudizio gioca un ruolo importante, e quindi è utile pensare se è
plausibile che le imposte sul consumo di sigarette soddisfino le due condizioni.
335
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 336 — #366
i
i
10.1. Lo stimatore IV con un singolo regressore e un singolo strumento
Si consideri per prima cosa la rilevanza dello strumento. Siccome un’imposta elevata
sulle vendite fa aumentare il prezzo totale di vendita Picigarettes , l’imposta sulle vendite per
pacchetto soddisfa plausibilmente la rilevanza dello strumento.
Si consideri poi l’esogeneità dello strumento. Perché l’imposta sulle vendite sia esogena,
deve essere incorrelata con l’errore dell’equazione di domanda; cioè, l’imposta sulle vendite
deve influenzare la domanda di sigarette solo indirettamente attraverso il prezzo. Questo
sembra plausibile: le aliquote dell’imposta generale sulle vendite variano tra stato e stato,
ma ciò accade principalmente perché stati diversi scelgono combinazioni diverse di imposte
sulle vendite, sui redditi, sulla proprietà e altre imposte per finanziare le spese pubbliche.
Tali scelte di finanza pubblica sono ispirate da considerazioni politiche, non da fattori legati
alla domanda di sigarette. Discuteremo ulteriormente la credibilità di quest’assunzione nella
sezione 10.4, ma per ora consideriamola come un’ipotesi di lavoro.
Nei moderni pacchetti statistici, il primo stadio dei TSLS è stimato automaticamente,
cosı̀ non occorre effettuare direttamente la regressione al fine di calcolare lo stimatore TSLS.
Solo per questa volta, tuttavia, presentiamo esplicitamente la regressione del primo stadio;
utilizzando i dati relativi ai 48 stati per il 1995, essa è
d
ln(Picigarettes ) = 4, 63 + 0, 031 SalesT axi .
(0, 03) (0, 005)
(10.9)
d
d
) = 9, 72 − 1, 08 ln(Picigarettes ).
ln(Qcigarettes
i
(10.10)
d
ln(Qcigarettes
) = 9, 72 − 1, 08 ln(Picigarettes ).
i
(1, 53) (0, 32)
(10.11)
L’R2 di questa regressione è del 47%, e quindi la variazione nell’imposta sulle vendite di
sigarette spiega il 47% della varianza dei prezzi delle sigarette tra gli stati.
Nel secondo stadio dei TSLS, si effettua una regressione OLS di ln(Qcigarettes
) su
i
d
cigarettes
). La risultante funzione di regressione stimata è
ln(Pi
Questa funzione di regressione stimata è scritta usando come regressore del secondo stadio il
d
valore predetto ln(Picigarettes ). Per convenzione e semplicità, tuttavia, riportiamo la funzione
d
di regressione stimata con ln(Picigarettes ) invece che ln(Picigarettes ). Utilizzando questa
notazione, le stime TSLS e gli errori standard robusti all’eteroschedasticità sono
La stima TSLS suggerisce che la domanda di sigarette è sorprendentemente elastica se si
tiene conto dell’assuefazione causata dal tabacco: un aumento del prezzo dell’1% riduce il
consumo dell’1, 08%. Ricordando però la nostra discussione sull’esogeneità dello strumento, forse questa stima non dovrebbe ancora essere presa seriamente. Sebbene l’elasticità sia
stata stimata usando una variabile strumentale, ci potrebbero ancora essere variabili omesse
che sono correlate con l’imposta sulle vendite per pacchetto. Uno dei principali candidati è
336
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 337 — #367
i
i
10.2. Il modello generale di regressione IV
Concetto chiave 10.1: il modello generale di regressione con variabili strumentali
e la sua terminologia
Il modello generale di regressione IV è
Yi = β0 + β1 X1i + · · · + βk Xki + βk+1 W1i + · · · + βk+r Wri + ui ,
(10.12)
i = 1, . . . , n, dove:
• Yi è la variabile dipendente;
• ui è l’errore, che rappresenta errori di misura e/o fattori omessi;
• X1i , . . . , Xki sono k regressori endogeni, potenzialmente correlati con ui ;
• W1i , . . . , Wri sono r regressori esogeni inclusi, incorrelati con ui ;
• β0 , β1 , . . . , βk+r sono coefficienti di regressione ignoti;
• Z1i , . . . , Zmi sono m variabili strumentali.
I coefficienti sono sovraidentificati se ci sono più strumenti che regressori endogeni (m >
k); sono sottoidentificati se m < k; e sono esattamente identificati se m = k. La stima
del modello di regressione IV richiede l’identificazione esatta o la sovraidentificazione.
il reddito: stati con redditi più elevati potrebbero dipendere relativamente meno da un’imposta sulle vendite e più da un’imposta sul reddito per finanziare la spesa pubblica. Inoltre, la
domanda di sigarette dipende presumibilmente dal reddito. Vorremmo perciò stimare nuovamente la nostra equazione di domanda includendo il reddito quale regressore addizionale. Per
far ciò, tuttavia, dobbiamo prima estendere il modello di regressione IV al fine di includere
regressori addizionali.
10.2 Il modello generale di regressione IV
Il modello generale di regressione IV ha quattro tipi di variabili: la variabile dipendente Y ;
regressori endogeni che causano problemi, come il prezzo delle sigarette, essendo potenzialmente correlati con l’errore e che indichiamo con X; regressori addizionali che non sono
correlati con l’errore, chiamati variabili esogene incluse, che indichiamo con W ; variabili
strumentali, Z. In generale, ci possono essere più regressori endogeni (le X), più regressori
esogeni inclusi (le W ) e più variabili strumentali (le Z).
337
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 338 — #368
i
i
10.2. Il modello generale di regressione IV
Perché sia possibile effettuare una regressione IV, ci debbono essere almeno tante variabili
strumentali (le Z) quanti sono i regressori endogeni (le X). Nella sezione 10.1 c’era un
singolo regressore endogeno e un singolo strumento. Avere (almeno) uno strumento per
questo singolo regressore endogeno era essenziale. Senza lo strumento non avremmo potuto
calcolare lo stimatore delle variabili strumentali: non ci sarebbe stata alcuna regressione del
primo stadio dei TSLS.
La relazione tra il numero di strumenti e il numero di regressori endogeni è sufficientemente importante da avere una terminologia propria. I coefficienti di regressione sono detti
esattamente identificati, se il numero di strumenti (m) è uguale al numero di regressori endogeni (k), ovvero m = k. I coefficienti sono sovraidentificati, se il numero di strumenti
è maggiore del numero di regressori endogeni, ovvero m > k; sono sottoidentificati, se il
numero di strumenti è minore del numero di regressori endogeni, cioè m < k. I coefficienti
debbono essere esattamente identificati oppure sovraidentificati perché possano essere stimati
tramite una regressione IV.
Il modello generale di regressione IV e la sua terminologia sono riassunti nel concetto
chiave 10.1.
TSLS nel modello generale di regressione IV
TSLS con un singolo regressore endogeno. Nel caso di un singolo regressore endogeno X
e alcune variabili esogene addizionali incluse, l’equazione d’interesse è
Yi = β0 + β1 Xi + β2 W1i + · · · + β1+r Wri + ui ,
(10.13)
dove, come prima, Xi potrebbe essere correlata con l’errore, ma W1i , . . . , Wri non lo sono.
La regressione del primo stadio dei TSLS mette in relazione X con le variabili esogene,
ovvero con i W e gli strumenti Z:
Xi = π0 + π1 Z1i + · · · + πm Zmi + πm+1 W1i + · · · + πm+r Wri + vi ,
(10.14)
dove π0 , π1 , . . . , πm+r sono coefficienti di regressione ignoti e vi è l’errore.
La (10.14) è talvolta detta l’equazione in forma ridotta per X. Essa mette in relazione
la variabile endogena X con tutte le variabili esogene disponibili, sia quelle incluse nella
regressione d’interesse (W ) sia gli strumenti (Z).
Nel primo stadio dei TSLS, i coefficienti ignoti della (10.14) sono stimati con gli OLS e
i valori predetti da tale regressione sono X̂1 , . . . , X̂n .
Nel secondo stadio dei TSLS, la (10.13) è stimata con gli OLS, eccetto che X i è sostituita
dai suoi valori predetti ottenuti dal primo stadio. Si effettua cioè una regressione OLS di Y i
su X̂i , W1i , . . . , Wri . Lo stimatore risultante di β0 , β1 , . . . , β1+r è lo stimatore TSLS.
Estensione a più regressori endogeni. Quando ci sono più regressori endogeni X 1i , . . . , Xki ,
338
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 339 — #369
i
i
10.2. Il modello generale di regressione IV
Concetto chiave 10.2: minimi quadrati a due stadi (TSLS)
Lo stimatore TSLS per il modello generale di regressione IV (10.12) con più variabili
strumentali si calcola in due stadi.
1. Regressione(i) del primo stadio. Si effettua una regressione di X1i sulle variabili
strumentali (Z1i , . . . , Zmi ) e sulle variabili esogene incluse (W1i , . . . , Wri ) tramite
gli OLS. Si calcolano i valori predetti da questa regressione, indicati con X̂1i . Si ripete lo stesso procedimento per tutti i regressori endogeni X2i , . . . , Xki , calcolando
quindi i valori predetti X̂1i , . . . , X̂ki .
2. Regressione del secondo stadio. Si effettua una regressione di Yi sui valori predetti delle variabili endogene (X̂1i , . . . , X̂ki ) e sulle variabili endogene incluse
T SLS
(W1i , . . . , Wri ) tramite gli OLS. Gli stimatori TSLS β̂0T SLS , . . . , β̂k+r
sono gli
stimatori ottenuti dalla regressione del secondo stadio.
In pratica, i moderni software econometrici accorpano i due stadi nel comando per la stima
TSLS.
l’algoritmo dei TSLS è simile, eccetto che ciascun regressore endogeno richiede la propria
regressione del primo stadio. Ognuna di queste regressioni del primo stadio ha la stessa forma
della (10.14), la variabile dipendente è cioè una delle X e i regressori sono tutti gli strumenti
(le Z) e tutti i regressori endogeni inclusi (le W ). Insieme, queste regressioni del primo stadio
producono valori predetti per ciascun regressore endogeno.
Nel secondo stadio dei TSLS, l’equazione (10.12) è stimata con gli OLS, eccetto che i
regressori endogeni (le X) sono sostituiti dai rispettivi valori predetti ottenuti dal primo stadio
(le X̂). Il risultante stimatore di β0 , β1 , . . . , βk+r è lo stimatore TSLS.
In pratica, i moderni software econometrici accorpano i due stadi nel comando per la
stima TSLS. Lo stimatore generale dei TSLS è riassunto nel concetto chiave 10.2.
Rilevanza dello strumento ed esogeneità
nel modello generale IV
Le condizioni per la rilevanza e l’esogeneità dello strumento devono essere modificate per il
modello generale di regressione IV.
Quando c’è un’unica variabile endogena inclusa ma più strumenti, la condizione per la
rilevanza degli strumenti è che almeno una Z sia utilizzabile per predire X, data W . Quando
ci sono più variabili endogene incluse, questa condizione è più complessa perché dobbiamo
339
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 340 — #370
i
i
10.2. Il modello generale di regressione IV
Concetto chiave 10.3: le due condizioni per la validità degli strumenti
Un insieme di m strumenti, Z1i , . . . , Zmi , deve soddisfare le due condizioni seguenti per
essere valido:
1. Rilevanza degli strumenti
∗
• In generale, sia X̂1i
il valore predetto di X1i dalla regressione di X1i sugli
strumenti (le Z) e i regressori esogeni inclusi (i W ) e si indichi con “1” un
regressore che è uguale a “1” per tutte le osservazioni (il suo coefficiente è
∗
∗
l’intercetta). Allora (X̂1i
, . . . , X̂ki
, W1i , . . . , Wri , 1) non sono perfettamente
collineari.
• Se c’è una sola X, allora almeno una delle Z deve essere inclusa nella
regressione di X sulle Z e i W .
2. Esogeneità degli strumenti Gli strumenti sono incorrelati con l’errore, ovvero
corr(Z1i , ui ) = 0, . . . , corr(Zmi , ui ) = 0.
evitare la perfetta collinearità nella regressione. Intuitivamente, quando ci sono più variabili endogene incluse, gli strumenti debbono fornire sufficiente informazione sui movimenti
esogeni di queste variabili da evidenziarne gli effetti separati su Y .
La formulazione generale della condizione di esogeneità dello strumento è che ciascuno
strumento deve essere incorrelato con l’errore ui . Le condizioni generali per la validità degli
strumenti sono fornite nel concetto chiave 10.3.
Le assunzioni della regressione IV e la distribuzione
campionaria dello stimatore TSLS
Sotto le assunzioni della regressione IV, lo stimatore TSLS è consistente ed ha una distribuzione campionaria che, per grandi campioni, è approssimativamente normale.
Le assunzioni della regressione IV. Le assunzioni della regressione IV sono varianti delle
assunzioni dei minimi quadrati per il modello di regressione multipla nel concetto chiave 5.4.
La prima assunzione della regressione IV modifica l’assunzione circa la media condizionata dell’errore nel concetto chiave 5.4 in modo tale che si applichi solo alle variabili
endogene incluse. Proprio come la seconda assunzione dei minimi quadrati per il modello di
regressione multipla, la seconda assunzione della regressione IV è che le osservazioni siano
i.i.d., come sarebbero se i dati fossero ottenuti tramite un campionamento casuale semplice.
340
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 341 — #371
i
i
10.2. Il modello generale di regressione IV
Concetto chiave 10.4: le assunzioni della regressione IV
Le variabili e gli errori nel modello di regressione IV del concetto chiave 10.1 soddisfano:
1. E(ui W1i , . . . , Wri ) = 0;
2. (X1i , . . . , Xki , W1i , . . . , Wri , Z1i , . . . , Zmi , Yi ) sono estratti i.i.d. dalla loro
distribuzione congiunta;
3. le X, i W , le Z e la u hanno momenti quarti non nulli e finiti;
4. i W non sono perfettamente collineari;
5. valgono le due condizioni del concetto chiave 10.3 per la validità di uno strumento.
Similmente, la terza assunzione della regressione IV è che tutte le variabili abbiano quattro
momenti e la quarta è che i regressori esogeni inclusi non siano perfettamente collineari.
La quinta assunzione della regressione IV è che sussistano le condizioni del concetto
chiave 10.3 per la validità degli strumenti. Le assunzioni della regressione IV sono riassunte
nel concetto chiave 10.4.
La distribuzione campionaria dello stimatore TSLS. Sotto le assunzioni della regressione
IV, lo stimatore TSLS è consistente e normalmente distribuito per grandi campioni. Questo risultato è dimostrato nella sezione 10.1 (e nell’appendice 10.3) per il caso speciale di un
singolo regressore endogeno, un singolo strumento e nessuna variabile esogena inclusa. Concettualmente, il ragionamento della sezione 10.1 si estende al caso generale di più strumenti
e più variabili endogene incluse. Le formule per il caso generale sono complesse e si rimanda
il lettore a Greene (2000, capitolo 9) per i dettagli.
Inferenza tramite lo stimatore TSLS
Poiché la distribuzione campionaria dello stimatore TSLS è normale per grandi campioni,
le procedure generali per l’inferenza statistica (verifica di ipotesi e intervalli di confidenza)
nei modelli di regressione si estendono alla regressione TSLS. Ad esempio, gli intervalli di
confidenza al 95% sono costruiti come lo stimatore TSLS ±1, 96 volte l’errore standard.
Similmente, ipotesi congiunte sui coefficienti del modello possono essere verificate usando
la statistica F, come descritto nella sezione 5.7.
Calcolo degli errori standard dei TSLS. Ci sono due punti da ricordare per quanto riguarda
341
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 342 — #372
i
i
10.2. Il modello generale di regressione IV
gli errori standard dei TSLS. In primo luogo, gli errori standard riportati dalla stima OLS
del secondo stadio della regressione sono sbagliati perché non riconoscono che è il secondo stadio di un processo a due stadi. Specificatamente, gli errori standard OLS del secondo
stadio non tengono conto del fatto che la regressione del secondo stadio utilizza i valori
predetti delle variabili endogene incluse. Formule per gli errori standard che effettuano le
necessarie modifiche sono incorporate nei (e usate automaticamente dai) comandi per la regressione dei TSLS contenuti nei pacchetti econometrici. Non vi è quindi alcun problema
nelle applicazioni pratiche, se si usa un comando specifico per la regressione TSLS.
In secondo luogo, come sempre, l’errore u potrebbe essere eteroschedastico. Perciò è importante usare errori standard robusti all’eteroschedasticità, esattamente per la stessa ragione
per cui è importante usare errori standard robusti all’eteroschedasticità per gli stimatori OLS
del modello di regressione multipla.
Applicazione alla domanda di sigarette
Nella sezione 10.1, abbiamo stimato l’elasticità della domanda di sigarette utilizzando i dati
sul consumo annuale in 48 stati degli USA nel 1995 tramite i TSLS con un singolo regressore
(il logaritmo del prezzo reale per pacchetto) e un singolo strumento (l’imposta reale sulle
vendite per pacchetto). Anche il reddito influenza però la domanda, cosı̀ è parte dell’errore di
regressione. Come discusso nella sezione 10.1, se l’imposta sulle vendite di uno stato è legata
al reddito dello stato, allora essa è correlata con una variabile contenuta nell’errore dell’equazione della domanda di sigarette, il che viola la condizione di esogeneità dello strumento.
Se cosı̀, lo stimatore IV della sezione 10.1 è inconsistente. In altre parole, la regressione
IV è affetta da una forma di distorsione da variabile omessa. Per risolvere questo problema,
abbiamo bisogno di includere il reddito nella regressione.
Consideriamo perciò una specificazione alternativa in cui il logaritmo del reddito è incluso nell’equazione di domanda. Nella terminologia del concetto chiave 10.1, la variabile
dipendente Y è il logaritmo del consumo ln(Qcigarettes
); il regressore endogeno X è il loi
cigarettes
garitmo del prezzo reale ln(Pi
); la variabile esogena inclusa W è il logaritmo del
reddito reale pro capite dello stato ln(Inci ); e lo strumento Z è l’imposta reale sulle vendite
per pacchetto SalesT axi . Le stime TSLS e gli errori standard (robusti all’eteroschedasticità)
sono
d
) = 9, 43 − 1, 14 ln(Picigarettes ) + 0, 21 ln(Inci ).
ln(Qcigarettes
i
(0, 31)
(1, 26) (0, 37)
(10.15)
Questa regressione utilizza il solo strumento SalesT axi , ma in effetti vi è un altro strumento disponibile. In aggiunta alle imposte generali sulle vendite, gli stati prelevano imposte
speciali che si applicano soltanto alle sigarette e ad altri prodotti a base di tabacco. Tali
imposte specifiche sulle sigarette (CigT axi ) costituiscono una seconda possibile variabile
342
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 343 — #373
i
i
10.3. Verifica della validità degli strumenti
strumentale. L’imposta specifica sulle sigarette aumenta il prezzo delle sigarette pagato dal
consumatore, e sembra quindi soddisfare la condizione per la rilevanza dello strumento. Se è
incorrelata con l’errore nell’equazione di domanda di sigarette, è uno strumento esogeno.
Con questo strumento addizionale a disposizione, abbiamo ora due variabili strumentali,
l’imposta reale sulle vendite per pacchetto e l’imposta reale specifica sulle sigarette propria di
ciascuno stato. Con due strumenti e un singolo regressore endogeno, l’elasticità della domanda è sovraidentificata, ovvero il numero di strumenti (SalesT axi e CigT axi , perciò m = 2)
è maggiore del numero di variabili endogene incluse (Picigarettes , perciò k = 1). Possiamo stimare l’elasticità della domanda usando i TSLS, dove i regressori nella regressione del
primo stadio sono la variabile esogena inclusa, ln(Inci ), ed entrambi gli strumenti.
La stima TSLS della funzione di regressione che si ottiene utilizzando i due strumenti
SalesT axi e CigT axi è
d
ln(Qcigarettes
) = 9, 89 − 1, 28 ln(Picigarettes ) + 0, 28 ln(Inci ).
i
(0, 25)
(0, 96) (0, 25)
(10.16)
Confrontiamo le due stime (10.15) e (10.16): l’errore standard dell’elasticità rispetto al
prezzo nella (10.16) è minore di un terzo (0, 25 nella (10.16) contro 0, 37 nella (10.15)). La
ragione per cui l’errore standard nella (10.16) è minore è che questa stima sfrutta una maggiore quantità d’informazioni rispetto alla (10.15): in quest’ultima, viene utilizzato un solo
strumento (l’imposta sulle vendite), mentre nella (10.16) vengono utilizzati due strumenti
(l’imposta sulle vendite e l’imposta specifica per le sigarette). Usando due strumenti si può
spiegare una quota maggiore della variazione nel prezzo delle sigarette che usandone solo
uno, e questo si riflette in minori errori standard per l’elasticità stimata della domanda.
Queste stime sono credibili? In ultima analisi, la credibilità dipende dal fatto che l’insieme di variabili strumentali –nel nostro caso, le due imposte– soddisfi in modo convincente
le due condizioni per la validità degli strumenti. È, quindi, fondamentale stabilire se tali
strumenti sono validi ed è su questo problema che ci soffermiamo ora.
10.3 Verifica della validità degli strumenti
L’utilità di una regressione con variabili strumentali in una certa applicazione dipende dalla
validità degli strumenti: strumenti non validi producono risultati privi di significato. E’ perciò
essenziale stabilire se un dato insieme di strumenti sia valido in una particolare applicazione.
Assunzione 1: rilevanza dello strumento
Il ruolo della condizione relativa alla rilevanza dello strumento nella regressione IV è sottile.
Un modo di pensare alla rilevanza dello strumento è che essa gioca un ruolo simile a quello
della numerosità campionaria: più rilevante è lo strumento –ovvero, più la variazione in X è
343
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 344 — #374
i
i
10.3. Verifica della validità degli strumenti
spiegata dagli strumenti– più informazione è disponibile per la regressione IV. Uno strumento più rilevante produce uno stimatore più accurato, proprio come una maggiore numerosità
campionaria. Inoltre, l’inferenza statistica che utilizza i TSLS dipende in modo essenziale
dal fatto che lo stimatore TSLS abbia una distribuzione campionaria normale, ma secondo il
teorema limite centrale la distribuzione normale è una buona approssimazione per grandi –
ma non necessariamente per piccoli– campioni. Se avere uno strumento più rilevante è come
avere una maggiore numerosità campionaria, allora questo suggerisce che, perché la distribuzione normale fornisca una buona approssimazione alla distribuzione campionaria dello
stimatore TSLS, gli strumenti dovrebbero essere non semplicemente rilevanti, ma altamente
rilevanti.
Strumenti che spiegano poco della variazione di X sono chiamati strumenti deboli. Nell’esempio delle sigarette, la distanza di uno stato dagli impianti di produzione delle sigarette
dovrebbe essere uno strumento debole: sebbene una maggiore distanza aumenti i costi di
trasporto (spostando cosı̀ la curva di offerta in alto e facendo aumentare il prezzo di equilibrio), le sigarette hanno poco peso e quindi i costi di trasporto sono una componente modesta
del prezzo delle sigarette. Pertanto, la parte della variazione nel prezzo spiegata dai costi di
trasporto, e quindi dalla distanza dagli impianti di produzione, è probabilmente molto piccola.
Questa sezione discute perché gli strumenti deboli costituiscano un problema, come individuarli e cosa fare nel caso in cui si abbiano simili strumenti. Si assumerà sempre che gli
strumenti siano esogeni.
Perché gli strumenti deboli sono un problema. Se gli strumenti sono deboli, allora la
distribuzione normale fornisce una cattiva approssimazione alla distribuzione campionaria
dello stimatore TSLS, anche se la dimensione campionaria è grande. Pertanto, non c’è una
giustificazione teorica per il modo usuale di fare inferenza statistica, neanche in grande campioni. In effetti, se gli strumenti sono deboli, lo stimatore TSLS può essere severamente
distorto e gli intervalli di confidenza al 95% costruiti come lo stimatore TSLS ±1, 96 volte
l’errore standard, possono contenere il vero valore del coefficiente molto meno del 95% delle
volte. In breve, se gli strumenti sono deboli, il metodo TSLS non è più affidabile.
Per vedere che c’è un problema con l’approssimazione asintotica normale per grandi
campioni alla distribuzione campionaria dello stimatore TSLS, consideriamo il caso particolare, descritto nella sezione 10.1, di una singola variabile endogena inclusa, un singolo
strumento e nessun regressore esogeno incluso. Se lo strumento è valido, allora β̂1T SLS è
consistente perché le covarianze campionarie sZY e sZX sono consistenti; ovvero, β̂1T SLS =
p
sZY /sZX → cov(Zi , Yi )/cov(Zi , Xi ) = β1 (equazione (10.7)). Supponiamo ora che lo
strumento non sia soltanto debole ma anche irrilevante, cosicché cov(Z i , Xi ) = 0. Allop
ra sZX → cov(Zi , Xi ) = 0, e quindi, preso letteralmente, il denominatore del lato destro
del limite cov(Zi , Yi )/cov(Zi , Xi ) è zero! Chiaramente, la dimostrazione della consistenza
344
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 345 — #375
i
i
10.3. Verifica della validità degli strumenti
Concetto chiave 10.5: una regola del pollice per valutare la debolezza degli strumenti
La statistica F del primo stadio è la statistica F per verificare l’ipotesi che i coefficienti
degli strumenti Z1i , . . . , Zmi siano uguali a zero nel primo stadio dei minimi quadrati a
due stadi. Quando c’è un singolo regressore endogeno, una F del primo stadio minore
di 10 indica che gli strumenti sono deboli, nel qual caso lo stimatore TSLS è distorto
(anche in grandi campioni) e la statistica t e gli intervalli di confidenza per i TSLS sono
inaffidabili.
β̂1T SLS fallisce quando viene meno la condizione della rilevanza dello strumento. Come mostrato nell’appendice 10.4, questo fallimento dà luogo a una distribuzione campionaria non
normale per lo stimatore TSLS, anche se la numerosità campionaria è molto grande. In effetti, quando lo strumento è irrilevante, la distribuzione di β̂1T SLS in grandi campioni non è
quella di una variabile casuale normale, ma piuttosto, è la distribuzione del rapporto tra due
variabili casuali normali!
Sebbene il caso di strumenti completamente irrilevanti potrebbe non verificarsi mai in
pratica, sorge però una domanda: quanto rilevante debbono essere gli strumenti perché la
distribuzione normale fornisca una buona approssimazione in pratica? Rispondere a questa
domanda nel caso del modello generale IV è complicato. Fortunatamente, però, c’è una
semplice regola del pollice per la situazione più comune in pratica, il caso di un singolo
regressore endogeno.
Controllo della debolezza degli strumenti quando c’è un solo regressore endogeno. Un
modo per controllare se gli strumenti siano deboli quando c’è un singolo regressore endogeno
è calcolare la statistica F per verificare l’ipotesi che i coefficienti degli strumenti siano tutti
nulli nel primo stadio della regressione dei TSLS. Questa statistica F del primo stadio fornisce una misura del contenuto informativo presente negli strumenti: maggiore è il contenuto
informativo, più grande è il valore atteso della statistica F. Una semplice regola del pollice è
che non è necessario preoccuparsi del problema degli strumenti deboli, se la statistica F per
il primo stadio è superiore a 10. (perché 10? Si veda l’appendice 10.4). Tutto ciò è riassunto
nel concetto chiave 10.5.
Cosa fare se si hanno strumenti deboli? Dipende. Se si hanno molti strumenti, alcuni di
questi sono probabilmente più deboli di altri. Se si ha un numero limitato di strumenti forti
e molti strumenti deboli, si farebbe bene a scartare gli strumenti deboli e usare il sottoinsieme più rilevante per l’analisi basata sui TSLS. Gli errori standard TSLS dovrebbero crescere
345
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 346 — #376
i
i
10.3. Verifica della validità degli strumenti
Una regressione allarmante
Un modo per stimare l’aumento percentuale
delle retribuzioni che deriva da un ulteriore
anno di frequenza scolastica (il “rendimento
dell’istruzione”) è quello di effettuare una
regressione del logaritmo della retribuzione sugli anni di frequenza scolastica usando dati individuali. Però, se gli individui
più capaci hanno sia più successo sul mercato del lavoro sia un maggior numero di
anni di scuola (magari perché la trovano più
facile), allora gli anni di frequenza scolastica saranno correlati con la variabile omessa,
l’abilità innata, e lo stimatore OLS del rendimento dell’istruzione sarà distorto. Siccome l’abilità innata è estremamente difficile
da misurare e perciò non può essere usata
come regressore, alcuni economisti del lavoro si sono affidati alla regressione IV per
stimare il rendimento dell’istruzione. Quale variabile è, però, correlata con gli anni di
istruzione ma non con l’errore della regressione per le retribuzioni –cioè, qual è una
valida variabile strumentale?
Il compleanno di una persona, hanno
suggerito gli economisti del lavoro Joshua
Angrist e Alan Krueger. A causa della legislazione scolastica negli USA, hanno ragionato, il compleanno di una persona è correlato con i suoi anni di istruzione: se la
legge richiede che si vada a scuola fino al
sedicesimo compleanno e la persona diventa sedicenne in gennaio mentre è nel mezzo del decimo livello d’istruzione, potrebbe rinunciare alla scuola –ma, se una per-
sona diventasse invece sedicenne in luglio,
avrebbe già completato il decimo livello. Se
cosı̀, il compleanno soddisfa la condizione
di rilevanza dello strumento. L’essere nati in gennaio o in luglio, però, non dovrebbe avere un effetto diretto sulla retribuzione
(oltre a quello che passa attraverso gli anni di istruzione), cosı̀ la data del compleanno soddisfa la condizione di esogeneità dello strumento. I due autori hanno raffinato
quest’idea utilizzando come variabile strumentale il trimestre di nascita degli individui. Hanno usato un campione di dati molto
grande derivato dal censimento USA (le loro regressioni contenevano almeno 329.000
osservazioni!) e hanno controllato per altre
variabili come l’età del lavoratore.
John Bound, però, un altro economista
del lavoro, si è mostrato scettico. Sapeva
che gli strumenti deboli rendono inaffidabili le stime TSLS e temeva che, nonostante la
dimensione campionaria estremamente elevata, il trimestre di nascita fosse uno strumento debole in qualche loro specificazione. Cosı̀ quando Bound e Krueger si sono
incontrati, la conversazione inevitabilmente è caduta sulla debolezza degli strumenti
di Angrist-Krueger. Krueger non era dello
stesso avviso e ha suggerito un modo creativo per scoprirlo: perché non rifare le regressioni usando uno strumento effettivamente
irrilevante –rimpiazzare il semestre effettivo
di nascita dell’individuo con un semestre di
nascita falso, generato a caso dal computer
346
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 347 — #377
i
i
10.3. Verifica della validità degli strumenti
– e confrontare i risultati usando gli strumenti reali e quelli fittizi? Ciò che hanno
scoperto è stato sorprendente: non importava il fatto di aver usato come strumento il
semestre effettivo di nascita o quello falso–
il TSLS forniva sostanzialmente la stessa
risposta!
Questo è un risultato di regressione molto allarmante per gli economisti del lavoro.
L’errore standard dei TSLS calcolato usando i dati reali suggeriva che il rendimento
dell’istruzione era stimato con precisione –
ma lo stesso faceva l’errore standard calcolato usando i dati fittizi. Naturalmente, i dati
fittizi non possono stimare i rendimenti dell’istruzione con precisione, perché lo strumento fittizio è totalmente irrilevante. Il timore, quindi, è che le stime TSLS basate
su dati reali siano tanto inaffidabili quanto
quelle basate sui dati fittizi.
Il problema è che gli strumenti sono
in effetti davvero deboli in alcune delle regressioni di Angrist e Krueger. In alcune
delle loro specificazioni, la statistica F per
il primo stadio è minore di 2, molto meno della soglia di 10 richiesta dalla regola
del pollice. In altre specificazioni, Angrist e Krueger hanno statistiche F per il primo stadio più grandi, e in quei casi le inferenze TSLS non sono soggette al problema
della debolezza degli strumenti. A proposito, in tali specificazioni il rendimento dell’istruzione si stima essere approssimativamente dell’8%, un valore un po’ maggiore
di quello stimato dagli OLS.a
a
Le regressioni IV originali sono riportate in Angrist e Krueger (1991) e il riesame effettuato con strumenti
fittizi è pubblicato in Bound, Jaeger e Baker (1995).
quando si eliminano strumenti deboli, ma bisogna tenere a mente che gli errori standard
originali erano comunque privi di significato!
Se, tuttavia, si hanno solo pochi strumenti o se i coefficienti sono esattamente identificati, non è utile scartare strumenti deboli. In questo caso, ci sono due alternative: trovare
strumenti addizionali più forti o usare tecniche avanzate disegnate specificamente per il caso
di strumenti deboli. La prima alternativa richiede una conoscenza profonda del problema
considerato e può portare a rivedere i dati e la natura dello studio empirico. La seconda alternativa richiede procedure che siano meno sensibili dei TSLS agli strumenti deboli, come
la massima verosimiglianza con informazione limitata (LIML, acronimo dall’inglese Limited
Information Maximum Likelihood); si vedano Hayashi (2000, sezione 8.6) oppure Greene
(2000, capitolo 16). Lo sviluppo di procedure che siano affidabili quando gli strumenti sono
deboli è attualmente un’area di ricerca attiva.
Assunzione 2: esogeneità dello strumento
Se gli strumenti non sono esogeni, allora lo stimatore TSLS è inconsistente: esso converge
in probabilità a qualcosa di diverso dal coefficiente di regressione per la popolazione. Dopo
tutto, l’idea della regressione con variabili strumentali è che lo strumento contenga informa347
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 348 — #378
i
i
10.3. Verifica della validità degli strumenti
zioni sulla parte della variazione in Xi che è slegata dall’errore ui . Se lo strumento non è
esogeno, non può catturare questa variazione esogena in X i e ciò determina l’incapacità della
regressione IV di fornire uno stimatore consistente. La matematica dietro questo argomento
è riassunta nell’appendice 10.4.
Si può verificare statisticamente l’assunzione che gli strumenti siano esogeni? No. Più
precisamente, supponiamo di avere tanti strumenti quanti sono i regressori endogeni (i coefficienti sono esattamente identificati). Allora, è impossibile sviluppare un test statistico per
l’ipotesi che gli strumenti siano effettivamente esogeni. In altre parole, l’evidenza empirica
non può essere utilizzata per chiarire la questione se questi strumenti soddisfino realmente
la condizione di esogeneità. In questo caso, il solo modo per comprendere se gli strumenti
sono esogeni è basarsi sull’opinione di esperti e sull’esperienza personale riguardo al problema empirico considerato. Ad esempio, la conoscenza dell’offerta e domanda di prodotti
agricoli da parte dei Wright li indusse a pensare che una quantità di pioggia al di sotto della
media avrebbe potuto verosimilmente spostare la curva di offerta di burro, ma non avrebbe
direttamente spostato la domanda.
Stabilire se gli strumenti siano esogeni richiede necessariamente di formulare un giudizio
basato sulla conoscenza personale del problema. Se però ci sono più strumenti che regressori
endogeni, esiste uno strumento statistico che può aiutare in questo processo, il cosiddetto test
delle restrizioni di sovraidentificazione.
Il test delle restrizioni di sovraidentificazione. Supponiamo di avere un singolo regressore endogeno, due strumenti e nessuna variabile esogena inclusa. Possiamo allora calcolare
due diversi stimatori TSLS, uno utilizzando il primo strumento, l’altro utilizzando il secondo. A causa della variazione campionaria non otterremo le stesse stime, ma, se entrambi gli
strumenti sono esogeni, queste tenderanno ad essere simili. Cosa accade però se i due strumenti producono stime molto diverse? Dovremmo concludere a ragione che c’è qualcosa di
sbagliato o con l’uno o con l’altro strumento –o con entrambi. Sarebbe, cioè, ragionevole
ritenere che uno, o l’altro o magari entrambi gli strumenti non sono esogeni.
Il test delle restrizioni di sovraidentificazione effettua implicitamente questo confronto.
Diciamo implicitamente perché il test è condotto senza calcolare effettivamente tutte le diverse possibili stime IV. L’idea è la seguente. L’esogeneità degli strumenti implica che essi sono
incorrelati con ui . Ciò suggerisce che gli strumenti dovrebbero essere approssimativamente
T SLS
incorrelati con ûiT SLS , dove ûiT SLS = Yi − (β̂0T SLS + β̂1T SLS X1i + · · · + β̂k+r
Wri ) è il
residuo della regressione TSLS stimata utilizzando tutti gli strumenti; diciamo approssimativamente piuttosto che esattamente a causa della variazione campionaria (si noti che questi
residui sono costruiti utilizzando le vere X invece che i loro valori predetti nel primo stadio).
Di conseguenza, se gli strumenti sono effettivamente esogeni, allora i coefficienti degli stru348
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 349 — #379
i
i
10.3. Verifica della validità degli strumenti
Concetto chiave 10.6: il test delle restrizioni di sovraidentificazione (la statistica J)
Siano ûiT SLS i residui dalla stima TSLS (10.12). Usiamo gli OLS per stimare i coefficienti
nella regressione
ûiT SLS = δ0 + δ1 Z1i + · · · + δm Zmi + δm+1 W1i + · · · + δm+r Wri + ei ,
(10.17)
dove ei è l’errore della regressione. Si indichi con F la classica statistica F per verificare
l’ipotesi che δ1 = · · · = δm = 0. La statistica test per le restrizioni di sovraidentificazione
è J = mF . Sotto l’ipotesi nulla che tutti gli strumenti siano esogeni, J si distribuisce in
grandi campioni come una χ2m−k , dove m − k è il “grado di sovraidentificazione”, ovvero
la differenza tra il numero di strumenti e il numero di regressori endogeni.
menti in una regressione di ûiT SLS sugli strumenti e le variabili esogene incluse dovrebbero
essere tutti nulli, un’ipotesi, questa, che può essere verificata.
Il metodo per calcolare il test delle restrizioni di sovraidentificazione è riassunto nel concetto chiave 10.6. La statistica del test, detta comunemente statistica J, corrisponde a una
statistica F classica.
In grandi campioni, se gli strumenti non sono deboli e gli errori sono omoschedastici,
allora, sotto l’ipotesi nulla che gli strumenti siano esogeni, la statistica J ha una distribuzione
2
chi-quadrato con m − k gradi di libertà (Xm−k
). È importante ricordare che, benché il
numero di restrizioni da verificare sia m, il numero di gradi di libertà della distribuzione
asintotica della statistica J è m − k. La ragione è che si possono solo verificare le restrizioni
di sovraidentificazione, che sono m − k.
Il modo più semplice per vedere che non si può verificare l’esogeneità dei regressori
quando i coefficienti sono esattamente identificati (m = k) è considerare il caso di una
singola variabile endogena inclusa (k = 1). Se ci sono due strumenti, allora si possono
calcolare due stimatori TSLS, uno per ogni strumento, e confrontarli per vedere se sono
simili. Se però abbiamo solo uno strumento, allora possiamo calcolare soltanto uno stimatore
TSLS e non abbiano niente con cui confrontarlo. In effetti, se i coefficienti sono esattamente
identificati, e quindi m = k, la statistica J del test di sovraidentificazione è esattamente
uguale a zero.
349
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 350 — #380
i
i
10.4. Applicazione alla domanda di sigarette
10.4 Applicazione alla domanda di sigarette1
Il nostro tentativo di stimare l’elasticità della domanda di sigarette ci ha lasciato con le stime
TSLS riportate nella (10.16), in cui il reddito era una variabile esogena inclusa e vi erano due
strumenti, l’imposta generale sulle vendite e l’imposta specifica sulle sigarette. Possiamo
procedere ora a una valutazione più accurata di questi strumenti.
Come nella sezione 10.1, è ragionevole pensare che i due strumenti siano rilevanti perché
le imposte sono una parte considerevole del prezzo delle sigarette, e tra breve guarderemo a
questo aspetto empiricamente. Per cominciare, tuttavia, ci focalizziamo sull’ardua questione
se le due variabili relative alle imposte siano verosimilmente esogene.
Il primo passo nel valutare se uno strumento è esogeno è quello di pensare ai motivi
per cui potrebbe o meno esserlo. Ciò richiede di pensare a quali fattori spieghino l’errore
nell’equazione di domanda di sigarette e se questi fattori siano ragionevolmente correlati con
gli strumenti.
Perché alcuni stati hanno un consumo di sigarette pro capite più alto rispetto ad altri? Una
ragione potrebbe essere la differenza di reddito tra gli stati, ma il reddito dello stato è incluso
nell’equazione (10.16), e quindi non è parte del termine d’errore. Un’altra spiegazione è
che ci siano fattori storici che influenzano la domanda. Ad esempio, gli stati che coltivano
tabacco hanno tassi più alti di fumatori rispetto a gran parte degli altri stati. Questi fattori
potrebbero essere legati alle imposte? Sembra ragionevole supporlo: se la produzione di
tabacco e di sigarette sono industrie importanti in uno stato, allora esse potrebbero esercitare
la loro influenza per tenere basse le imposte specifiche sulle sigarette. Ciò suggerisce che un
fattore omesso nella domanda di sigarette –se lo stato coltiva tabacco e produce sigarette–
potrebbe essere correlato con le imposte specifiche sulle sigarette.
Una soluzione a questa possibile correlazione tra l’errore e lo strumento sarebbe quella
di includere informazione sulla dimensione dell’industria del tabacco e delle sigarette nello
stato; questo è l’approccio che abbiamo seguito quando abbiamo incluso il reddito come
regressore nell’equazione di domanda. Siccome però abbiamo dati panel sul consumo di
sigarette, abbiamo a disposizione un approccio diverso che non richiede questa informazione.
Come discusso nel capitolo 8, i dati longitudinali permettono di eliminare l’influenza delle
variabili che variano tra le entità (stati) ma che non cambiano nel tempo, come il clima e le
circostanze storiche che hanno portato a una grande industria del tabacco e delle sigarette
in uno stato. Due metodi per far ciò sono stati suggeriti nel capitolo 8: costruire dati sulle
variazioni nelle variabili tra due diversi periodi e usare la regressione con effetti fissi. Perché
l’analisi sia il più possibile semplice, adottiamo il primo approccio ed eseguiamo regressioni
del tipo descritto nella sezione 8.2, basate sulle variazioni delle variabili tra due anni diversi.
Il lasso temporale tra i due anni considerati influenza il modo di interpretare le elasticità
1
Questa sezione presuppone la conoscenza delle sezioni 8.1 e 8.2 sui dati panel con T = 2.
350
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 351 — #381
i
i
10.4. Applicazione alla domanda di sigarette
Le esternalità del fumo
Il fumo impone costi che non sono interamente sostenuti dal fumatore, ovvero genera esternalità. Una giustificazione economica per l’imposizione fiscale sulle sigarette
è perciò l’“internalizzazione” delle esternalità. In teoria, le imposte su un pacchetto
di sigarette dovrebbe essere pari al valore
in dollari delle esternalità create fumandolo. Quali sono però precisamente le esternalità causate dal vizio del fumo, misurate
in dollari per pacchetto?
Molti studi hanno utilizzato metodi econometrici per stimarle. Le esternalità negative (i costi) sostenute dagli altri includono
i costi delle cure mediche a carico del governo per trattare le malattie dei fumatori, i
costi per le cure mediche dei non fumatori
riconducibili al fumo passivo e gli incendi
causati da sigarette.
Da un punto di vista puramente economico, però, il vizio del fumo ha anche
esternalità positive, o benefici. Il beneficio
maggiore è che i fumatori tendono a pagare molto più per la sicurezza sociale (pensioni pubbliche) di quanto non ne traggano
vantaggio. Ci sono anche elevati risparmi di
spesa per l’assistenza agli anziani (i fumato-
ri non vivono in genere cosı̀ tanto). Siccome
le esternalità negative del fumo si generano
mentre il fumatore è vivo mentre quelle positive si accumulano dopo la sua morte, il
valore attuale netto delle esternalità per pacchetto (il valore dei costi netti per pacchetto, scontati al presente) dipende dal tasso di
sconto.
Gli studi non concordano su un valore specifico in dollari delle esternalità nette. Alcuni suggeriscono che queste, propriamente scontate, siano abbastanza modeste, minori delle imposte correnti. In effetti, le stime più estreme suggeriscono che le
esternalità nette siano positive, che i fumatori dovrebbero essere sussidiati! Altri studi, che incorporano costi che sono probabilmente importanti ma difficili da quantificare
(come le cure per bambini che non sono sani
perché le loro madri fumano) suggeriscono
che le esternalità potrebbero essere pari a 1$
per pacchetto, magari anche più. Tuttavia,
tutti gli studi convengono che, data la loro tendenza a morire nella tarda mezza età,
i fumatori pagano molto più in termini di
imposte di quanto ottengano durante il loro
breve pensionamento.a
a Un primo calcolo è stato riportato da Willard G. Manning et al. (1989). Un calcolo che suggerisce che i
costi per le cure mediche aumenterebbero se tutti smettessero di fumare è riportato in Barendregt et al. (1997).
Altri studi sulle esternalità del fumo sono passati in rassegna da Chaloupka e Warner (2000).
351
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 352 — #382
i
i
10.4. Applicazione alla domanda di sigarette
stimate. Siccome le sigarette creano assuefazione, le variazioni nei prezzi hanno bisogno di
un po’ di tempo per alterare il comportamento. All’inizio, un aumento del prezzo delle sigarette potrebbe avere un effetto ridotto sulla domanda. Nel corso del tempo, tuttavia, esso
potrebbe accrescere il desiderio di alcuni fumatori di smettere e, cosa importante, potrebbe
scoraggiare i non fumatori dal cominciare. Cosı̀, la reazione della domanda a un aumento nel
prezzo potrebbe essere piccola nel breve periodo ma grande nel lungo periodo. Detto diversamente, per un prodotto che crea dipendenza come le sigarette, la domanda potrebbe essere
anelastica nel breve periodo, potrebbe cioè avere un’elasticità di breve periodo prossima allo
zero, ma potrebbe essere più elastica nel lungo periodo.
In quest’analisi, ci focalizziamo sull’elasticità di lungo periodo. Lo facciamo considerando variazioni nelle quantità e nei prezzi che si verificano in periodi di dieci anni. Specificatamente nelle regressioni qui considerate, la variazione decennale nel logaritmo della quantità,
ln(Qcigarettes
) − ln(Qcigarettes
), è messa in relazione con la variazione decennale nel logai,1995
i,1985
cigarettes
cigarettes
), e la variazione decennale del logaritmo
ritmo del prezzo, ln(Pi,1995
) − ln(Pi,1985
del reddito, ln(Inci,1995 ) − ln(Inci,1985 ). Usiamo due strumenti: la variazione decennale nell’imposta sulle vendite, SalesT axi,1995 − SalesT axi,1985, e la variazione decennale
nell’imposta specifica sulle sigarette, CigT axi,1995 − CigT axi,1985 .
I risultati sono presentati nella tabella 10.1. Come al solito, ogni colonna della tabella
presenta i risultati di una diversa regressione. Tutte le regressioni hanno gli stessi regressori
e tutti i coefficienti sono stimati utilizzando i TSLS; la sola differenza tra le tre regressioni
è l’insieme di strumenti usati. Nella colonna (1) il solo strumento è l’imposta sulle vendite;
nella colonna (2) il solo strumento è l’imposta specifica sulle sigarette; nella colonna (3)
entrambe le imposte sono usate come strumenti.
Nella regressione IV, l’affidabilità delle stime dei coefficienti dipende dalla validità degli
strumenti. Perciò, la prima cosa da osservare nella tabella 10.1 sono le diagnostiche per
stabilire la validità degli strumenti.
In primo luogo, gli strumenti sono rilevanti? Le statistiche F del primo stadio nelle tre
regressioni sono 33, 7, 107, 2 e 88, 6, e quindi in tutti i casi eccedono 10. Ne concludiamo che
gli strumenti non sono deboli e possiamo quindi basarci sui metodi standard per l’inferenza
statistica (test di ipotesi, intervalli di confidenza) utilizzando le stime dei coefficienti e degli
errori standard.
In secondo luogo, gli strumenti sono esogeni? Siccome ognuna delle regressione nelle colonne (1) e (2) ha un singolo strumento e un singolo regressore endogeno incluso, i
coefficienti di quelle regressioni sono esattamente identificati. Cosı̀ non possiamo utilizzare il test J per nessuna di esse. La regressione della colonna (3), invece, è sovraidentificata
perché ci sono due strumenti e un singolo regressore endogeno incluso, e quindi vi è una
(m − k = 2 − 1 = 1) restrizione di sovraidentificazione. La statistica J è pari a 4, 93; essa
ha una distribuzione χ21 , perciò il suo valore critico al 5% è pari a 3, 84 (tavola 3 dell’appen352
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 353 — #383
i
i
10.4. Applicazione alla domanda di sigarette
dice finale) e l’ipotesi nulla che entrambi gli strumenti siano esogeni è rifiutata al livello di
significatività del 5% (questa deduzione può essere derivata direttamente dal valore-p, pari a
0, 026, riportato nella tabella).
La ragione per cui la statistica J rifiuta l’ipotesi è che i due strumenti producono coefficienti stimati piuttosto diversi. Quando il solo strumento è l’imposta sulle vendite (colonna
(1)), l’elasticità stimata è −0, 94, ma quando il solo strumento è l’imposta specifica sulle
sigarette, l’elasticità stimata è −1, 34. Si ricordi l’idea di base della statistica J: se entrambi
gli strumenti sono esogeni, allora i due stimatori TSLS che utilizzano un singolo strumento sono consistenti e differiscono tra loro solo per effetto di variazioni campionarie casuali.
Se, invece, uno degli strumenti è esogeno e l’altro non lo è, allora lo stimatore basato sullo
strumento endogeno è inconsistente, cosa che è individuata dalla statistica J. In questa applicazione, la differenza tra le due elasticità stimate è troppo grande per poter essere il risultato
di una pura variazione campionaria, e quindi la statistica J rifiuta l’ipotesi nulla che entrambi
gli strumenti siano esogeni.
Il rifiuto da parte della statistica J implica che la regressione della colonna (3) si basa su
strumenti invalidi (viene meno la condizione di esogenità dello strumento). Che cosa significa
questo per le stime delle colonne (1) e (2)? Il rifiuto da parte della statistica J dice che almeno
uno degli strumenti è endogeno. Ci sono quindi tre possibilità logiche: l’imposta sulle vendite
è esogena ma non lo è l’imposta specifica sulle sigarette, nel qual caso è affidabile la colonna
(1); l’imposta specifica per le sigarette è esogena ma non lo è quella sulle vendite, nel qual
caso è affidabile la regressione nella colonna (2); nessuna delle due imposte è esogena, e
quindi nessuna delle due regressioni è affidabile. L’evidenza statistica non può dirci quale
alternativa sia corretta, cosı̀ dobbiamno usare il nostro giudizio.
Noi pensiamo che per l’imposta generale sulle vendite l’argomento a favore dell’esogeneità sia più forte che per l’imposta specifica sulle sigarette. Questo perché il processo politico può indurre una relazione tra variazioni dell’imposta specifica sulle sigarette e variazioni
del mercato delle sigarette e delle politiche riguardanti il fumo. Ad esempio, se il fumo diminuisce in uno stato perché diventa fuori moda, ci saranno meno fumatori e un indebolimento
della lobby per contrastare l’aumento delle imposte specifiche sulle sigarette, il che potrebbe
determinare imposte specifiche sulle sigarette più alte. Perciò, variazioni nei gusti (che fanno
parte di u) potrebbero essere correlate con variazioni nelle imposte specifiche sulle sigarette
(lo strumento). Questo suggerisce di dare poco peso alle stime IV che utilizzano come strumento le imposte per le sole sigarette e di prendere in considerazione solo l’elasticità stimata
utilizzando come strumento le imposte generali sulle vendite, che è pari a −0, 94.
La stima di −0, 94 indica che il consumo di sigarette non è affatto anelastico: se il prezzo
cresce dell’1%, il consumo decresce dello 0, 94%. Ciò potrebbe apparire sorprendente per
un prodotto che induce dipendenza, come le sigarette. Ricordiamo però che questa elasticità
è stata calcolata utilizzando variazioni decennali ed è perciò un’elasticità di lungo periodo.
353
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 354 — #384
i
i
10.4. Applicazione alla domanda di sigarette
Tabella 10.1: stime TSLS del consumo di sigarette sui dati panel per 48 stati USA
Variabile dipendente: ln (Qsigarette
) − ln (Qsigarette
)
i,1995
i,1985
Regressore
sigarette
sigarette
ln(Pi,1995
) − ln(Pi,1985
)
ln(Inci,1995 ) − ln(Inci,1985 )
Intercetta
Variabili strumentali
Statistica F First-stage
Restrizioni di sovraidentificazione
test J e p-value
(1)
(2)
(3)
-0,94∗∗
(0,21)
0,53
(0,34)
0,21
(0,13)
-1,34∗∗
(0,23)
0,43
(0,30)
0,45∗∗
(0,14)
-1,20∗∗
(0,20)
0,46
(0,31)
0,37∗∗
(0,12)
Sales tax
33,70
Cigarette-specific tax
107,20
Both sales tax and
cigarette-specific tax
88,60
4,93
(0,026)
Queste regressioni sono state stimate sui dati per 48 stati USA (48 osservazioni su differenze decennali). I dati
sono descritti nell’appendice 10.1. Il test-J per le restrizioni di sovraidentificazione è descritto nel concetto
chiave 10.6 (il suo valore-p è riportato in parentesi) e la statistica F per il primo stadio è descritta nel concetto
chiave 10.5. I coefficienti sono statisticamente significativi al livello ∗ 5% o ∗∗ 1%.
Questa stima suggerisce che l’incremento delle imposte può influenzare in modo sostanziale
il consumo di sigarette, almeno nel lungo periodo.
Quando l’elasticità viene stimata utilizzando variazioni quinquennali dal 1985 al 1990,
invece delle variazioni decennali riportate nella tavola 10.1, l’elasticità (stimata usando l’imposta generale sulle vendite come strumento) è pari a −0, 79; per variazioni dal 1990 al
1995, l’elasticità è pari a −0, 68. Queste stime suggeriscono che la domanda è meno elastica
su orizzonti quinquennali che decennali. Il risultato di una maggiore elasticità al prezzo su
orizzonti più lunghi è coerente con gran parte delle ricerche sulla domanda di sigarette. In
tale letteratura, le stime dell’elasticità della domanda tipicamente variano tra −0, 3 e −0, 5,
ma sono prevalentemente stime di breve periodo; alcuni studi recenti avanzano l’ipotesi che
l’elasticità di lungo periodo potrebbe forse essere il doppio dell’elasticità di breve periodo. 2
2 Il lettore interessato a un approfondimento dell’analisi economica del fumo veda Chaloupka e Warner (2000) e
Gruber (2001).
354
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 355 — #385
i
i
10.5. Dove trovare strumenti validi?
10.5 Dove trovare strumenti validi?
In pratica, l’aspetto più difficoltoso della stima IV è trovare strumenti che siano rilevanti
ed esogeni. Ci sono due approcci prevalenti, che riflettono due diverse prospettive circa la
modellazione econometrica e statistica.
Il primo approccio è lasciare che sia la teoria economica a suggerire gli strumenti. Ad
esempio, la conoscenza dell’economia del mercato agricolo da parte dei Wright li ha indotti a
cercare uno strumento che spostasse la curva d’offerta ma non la curva di domanda; questo, a
sua volta, li ha spinti a considerare le condizioni meteorologiche nelle regioni agricole. Un’area dove questo approccio ha avuto particolare successo è quello dell’economia finanziaria.
Alcuni modelli economici di comportamento degli investitori richiedono ipotesi sul modo in
cui gli investitori fanno previsioni, il che implica allora particolari insiemi di variabili che
sono incorrelate con l’errore. Tali modelli sono talvolta non lineari nei dati e nei parametri, e
perciò gli stimatori IV discussi in questo capitolo non possono essere utilizzati. Si usa invece
un’estensione dei metodi IV a modelli non lineari, detta metodo generalizzato dei momenti.
Le teorie economiche sono tuttavia astrazioni che spesso non tengono conto delle sfumature e dei dettagli necessari all’analisi di particolari dati. Cosı̀, questo approccio non sempre
funziona.
Il secondo approccio per costruire strumenti è cercare fonti esogene di variazione in X
che nascano da fenomeni casuali che determinano modifiche nel regressore endogeno. Ad
esempio, nel nostro esempio della sezione 10.1, i danni dovuti al terremoto hanno aumentato
la dimensione media delle classi in alcuni distretti scolastici, ma questa variazione nella dimensione delle classi non era in relazione con le potenziali variabili omesse che influenzano
i rendimenti degli studenti. Un simile approccio richiede in genere la conoscenza del problema da studiare e un’attenzione particolare ai dettagli riguardanti i dati; sarà perciò spiegato
meglio attraverso alcuni esempi.
Tre esempi
Passiamo a considerare tre applicazioni empiriche della regressione IV che forniscono esempi di come ricercatori diversi abbiano usato la loro conoscenza del problema empirico per
individuare variabili strumentali.
Incarcerare i colpevoli riduce la criminalità? Questa è una questione che solo un’economista chiederebbe. Dopotutto, un criminale non può commettere un crimine al di fuori della
prigione mentre è in carcere, e il fatto che alcuni criminali siano catturati e incarcerati serve
da deterrente per gli altri. La grandezza però dell’effetto combinato –la variazione nel tasso di
criminalità associata a una variazione nell’1% della popolazione incarcerata– è una questione
empirica.
355
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 356 — #386
i
i
10.5. Dove trovare strumenti validi?
Una strategia per stimare questo effetto è considerare una regressione dei tassi di criminalità (numero di crimini per 100.000 abitanti) sui tassi di carcerazione (numero di carcerati per
100.000 abitanti), usando dati annuali a un livello appropriato di giurisdizione (ad esempio,
gli stati degli USA). Questa regressione potrebbe includere variabili di controllo che misurino
le condizioni economiche (la criminalità aumenta quando peggiorano le condizioni economiche generali), demografiche (i giovani commettono più crimini rispetto alle persone di età
maggiore) e cosı̀ via. A minare l’analisi c’è tuttavia una possibilità seria di distorsione da
causalità simultanea: se aumenta il tasso di criminalità e la polizia fa il suo lavoro, ci saranno
più carcerati. Da un lato, l’accresciuta carcerazione riduce il tasso di criminalità; dall’altro,
un aumento del tasso di criminalità fa aumentare la popolazione incarcerata. Come nell’esempio del burro della figura 10.1, a causa di questa causalità simultanea una regressione OLS
del tasso di criminalità sul tasso di carcerazione stimerà una qualche combinazione complessa di questi due effetti. Il problema non può essere risolto utilizzando migliori variabili di
controllo.
Questa distorsione da causalità simultanea, tuttavia, può essere eliminata trovando un’appropriata variabile stumentale e usando i TSLS. Lo strumento deve essere correlato col tasso
di carcerazione (deve essere rilevante), ma deve anche essere incorrelato con il termine d’errore nell’equazione del tasso di criminalità (deve essere esogeno), cioè deve influenzare il
tasso di carcerazione ma essere incorrelato con qualunque fattore inosservato che determina
il tasso di criminalità.
Dove si può trovare qualcosa che influenza la carcerazione, ma non ha effetto diretto sul
tasso di criminalità? Una possibilità sono le variazioni esogene nella capacità delle prigioni esistenti. Siccome c’è bisogno di tempo per costruire una prigione, restrizioni di breve
periodo dovute alla capienza possono costringere uno stato a rilasciare i prigionieri prematuramente, o a ridurre altrimenti i tassi di carcerazione. Usando un simile ragionamento, Levitt
(1996) ha suggerito che le dispute giudiziarie che hanno l’obiettivo di ridurre il sovraffolamento delle carceri potrebbero servire come variabile strumentale, e ha implementato questa
idea usando dati panel per gli stati USA dal 1972 al 1993.
Sono strumenti validi le variabili che misurano le dispute relative al sovraffollamento?
Sebbene Levitt non riporti le statistiche F del primo stadio, le dispute relative al sovraffolamento delle carceri hanno rallentato, nei suoi dati, la crescita delle carcerazioni, suggerendo
la rilevanza di questo strumento. Se le dispute relative al sovraffollamento sono indotte dalle condizioni delle prigioni ma non dal tasso di criminalità o dalle sue determinanti, allora
questo strumento è esogeno. Poiché Levitt ha separato la legislazione relativa al sovraffollamento in diversi tipi, ottenendo cosı̀ vari strumenti, è stato in grado di verificare le restrizioni
di sovraidentificazione e non le ha rifiutate sulla base del test J, il che rafforza la presunzione
che i suoi strumenti siano validi.
Tramite questi strumenti e il metodo dei TSLS, Levitt ha stimato che l’effetto della car356
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 357 — #387
i
i
10.5. Dove trovare strumenti validi?
cerazione sul tasso di criminalità è sostanziale. La sua stima TSLS è pari a tre volte l’effetto
stimato con gli OLS, suggerendo che gli OLS sono affetti da una forte distorsione da causalità
simultanea.
Ridurre la dimensione delle classi aumenta i punteggi del test? Come abbiamo visto
nell’analisi empirica della parte II, le scuole con classi piccole sono tendenzialmente più
ricche e i loro studenti hanno opportunità di apprendimento più elevate sia all’interno sia
all’esterno delle classi. Nella parte II, abbiamo usato la regressione multipla per affrontare la
minaccia rappresentata dalla distorsione da variabile omessa controllando per varie misure di
benessere economico degli studenti, la conoscenza della lingua inglese e cosı̀ via. Nonostante
ciò, uno scettico potrebbe chiedersi se abbiamo fatto abbastanza: se abbiamo lasciato fuori
qualcosa d’importante, le nostre stime dell’effetto della dimensione delle classi rimarrebbero
distorte.
Questa distorsione potenziale da variabile omessa potrebbe essere affrontata includendo
le giuste variabili di controllo, ma se i dati non sono disponibili (alcuni, come le opportunità di apprendimento all’esterno della scuola, sono difficili da misurare), allora un approccio
alternativo potrebbe essere quello di utilizzare la regressione IV. Ciò richiede una variabile
strumentale che sia correlata con la dimensione delle classi (rilevanza) ma incorrelata con
quelle determinanti omesse della prestazione nel test che influenzano l’errore, come l’interesse dei genitori per l’istruzione dei figli, le opportunità di apprendimento al di fuori della
classe, la qualità degli insegnanti, i servizi scolastici ecc. (esogeneità).
Dove cercare uno strumento che induca variazioni casuali esogene nella dimensione delle
classi, ma che non sia correlato con le altre determinanti della prestazione nel test? Hoxby
(2000) ha suggerito la biologia. A causa di fluttuazioni casuali nella distribuzione temporale delle nascite, la dimensione delle classi negli asili varia da un anno all’altro. Sebbene
il numero effettivo di bambini che cominciano a frequentare l’asilo possa essere endogeno
(notizie recenti sulla scuola potrebbero influenzare la decisione dei genitori di mandare un
bambino a una scuola privata), l’autrice ha sostenuto che il numero potenziale di bambini
che cominciano a frequentare l’asilo –il numero di bambini di quattro anni nel distretto– è in
larga parte riconducibile alle fluttuazioni casuali nelle date di nascita dei bambini.
Le iscrizioni potenziali sono un valido strumento? Il fatto che siano esogene dipende
dall’assenza di correlazione con le determinanti inosservate della dimensione delle classi. Le
fluttuazioni biologiche nelle iscrizioni potenziali sono sicuramente esogene, ma le iscrizioni potenziali fluttuano anche perché i genitori con figli piccoli scelgono di spostarsi da un
distretto scolastico in difficoltà a uno in fase di miglioramento. Se cosı̀, un aumento delle
iscrizioni potenziali potrebbe essere correlato con fattori inosservati, quali la qualità della gestione della scuola, il che renderebbe questo strumento invalido. Hoxby ha affrontato questo
problema sostenendo che, proprio per le ragioni menzionate, l’aumento o la diminuzione del
357
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 358 — #388
i
i
10.5. Dove trovare strumenti validi?
bacino di studenti potenziali avvengono gradualmente nell’arco di molti anni, mentre fluttuazioni casuali nelle date di nascita produrrebbero nel breve periodo “picchi” delle iscrizioni
potenziali. Cosı̀, ha usato come strumento non l’iscrizione potenziale ma la deviazione dell’iscrizione potenziale dal suo trend di lungo periodo. Tali deviazioni soddisfano il criterio per
la rilevanza dello strumento (le statistiche F del primo stadio eccedono tutte 100). L’autrice
presenta un buon argomento a favore dell’esogeneità di questo strumento, ma, come in tutte
le analisi IV, la credibilità di questa assunzione è in ultima analisi una questione di giudizio.
Hoxby ha implementato questa strategia usando dati panel dettagliati sulle scuole elementari del Connecticut negli anni Ottanta e Novanta. I dati panel le hanno permesso di includere
effetti fissi di scuola, che, in aggiunta alla strategia delle variabili strumentali, consentono di
affrontare il problema della distorsione da variabile omessa a livello di singola scuola. Le sue
stime TSLS suggeriscono che l’effetto della dimensione delle classi sui punteggi del test è
ridotto; gran parte delle sue stime non sono significativamente diverse da zero.
Il trattamento aggressivo degli attacchi di cuore prolunga la vita? I nuovi trattamenti aggressivi per le vittime di attacchi di cuore (tecnicamente, infarti del miocardio acuti, o AMI
dall’inglese Acute Myocardical Infarction) sono potenziali salvavita. Prima che una nuova
procedura medica (in questo esempio la cateterizzazione cardiaca 3 ) sia approvata per l’uso
generale, deve passare attraverso la sperimentazione clinica, una serie di esperimenti controllati casualizzati disegnati per misurarne gli effetti diretti e gli effetti collaterali. Tuttavia, una
cosa sono i risultati positivi nella sperimentazione clinica; un’altra è la prestazione effettiva
nel mondo reale.
Un punto di partenza naturale per stimare gli effetti reali della cateterizzazione cardiaca è
confrontare i pazienti che hanno ricevuto il trattamento con quelli che non lo hanno ricevuto.
Questo suggerisce una regressione della lunghezza della sopravvivenza del paziente sull’indicatore binario di trattamento (se il paziente ha ricevuto la cateterizzazione cardiaca) e altre
variabili di controllo che influenzano la mortalità (età, peso, altre misure delle condizioni di
salute ecc.). Il coefficiente della variabile indicatrice rappresenta l’aumento dell’aspettativa
di vita del paziente dovuto al trattamento. Sfortunatamente, lo stimatore OLS è soggetto a
distorsione: la cateterizzazione cardiaca non viene “assegnata” al paziente in modo casuale;
piuttosto, è effettuata perché il dottore e il paziente decidono che potrebbe essere efficace. Se
la loro decisione è basata in parte su fattori rilevanti per i loro effetti sulla salute, ma inosservati perché assenti nei dati, allora la decisione di trattamento sarà correlata con l’errore di
regressione. Se i pazienti più in salute sono quelli che ricevono il trattamento, lo stimatore
OLS sarà distorto (il trattamento sarà correlato con una variabile omessa) e il trattamento
apparirà più efficace di quanto lo sia in realtà.
3 La cateterizzazione cardiaca è una procedura in cui un catetere, o tubo, viene inserito in un vaso sanguigno e
guidato verso il cuore al fine di ottenere informazioni sul cuore e le arterie coronarie.
358
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 359 — #389
i
i
10.5. Dove trovare strumenti validi?
Questa distorsione potenziale può essere eliminata tramite regressioni IV che utilizzino
una variabile strumentale valida. Lo strumento deve essere correlato con il trattamento (deve
essere rilevante), ma deve essere incorrelato con i fattori omessi riguardanti la salute che
influenzano la sopravvivenza (deve essere esogeno).
Dove cercare qualcosa che influenzi il trattamento, ma non gli esiti sanitari, a parte il suo
effetto indiretto tramite il trattamento? McClellan, McNeil e Newhouse (1994) hanno suggerito la geografia. La maggior parte degli ospedali presenti nei loro dati non erano specializzati
nella cateterizzazione cardiaca, cosı̀ molti pazienti erano più vicini a ospedali “regolari”, che
non offrivano questo trattamento, che a ospedali specializzati nella cateterizzazione cardiaca.
McClellan, McNeil e Newhouse hanno perciò usato come variabile strumentale la differenza
tra la distanza della casa dei pazienti AMI dal più vicino ospedale per la cateterizzazione cardiaca e la distanza dall’ospedale più vicino: tale distanza è nulla se l’ospedale più vicino è un
ospedale con cateterizzazione cardiaca, altrimenti è positiva. Se la distanza relativa influenza
la probabilità di ricevere questo trattamento, allora è rilevante; se è distribuita casualmente
tra i pazienti AMI, allora è esogena.
La distanza relativa dal più vicino ospedale con cateterizzazione cardiaca è un valido
strumento? McClellan, McNeil e Newhouse non riportano le statistiche F del primo stadio,
ma forniscono altre prove empiriche del fatto che essa non è uno strumento debole. Questa
misura di distanza è esogena? Due sono le loro argomentazioni. In primo luogo, essi utilizzano la loro esperienza medica e la loro conoscenza del sistema sanitario per giustificare
il fatto che la distanza da un ospedale sia plausibilmente incorrelata con ognuna delle variabili inosservabili che determinano l’AMI. In secondo luogo, essi utilizzano i dati su alcune
variabili addizionali che influenzano l’AMI, come il peso del paziente, e nel loro campione
la distanza è incorrelata con queste determinanti osservabili della sopravvivenza; questo, sostengono, rende più credibile il fatto che la distanza sia incorrelata anche con le determinanti
inosservabili incluse nel termine d’errore.
Usando 205.021 osservazioni per i cittadini americani con almeno 64 anni d’età che hanno subito un AMI nel 1987, McClellan, McNeil e Newhouse hanno raggiunto una conclusione sorprendente: le loro stime TSLS suggeriscono che la cateterizzazione cardiaca ha un’efficacia modesta, quasi nulla, sulla salute, cioè la cateterizzazione cardiaca non prolunga la vita
in modo sostanziale. Al contrario, le stime OLS suggeriscono un ampio effetto positivo. Gli
autori interpretano tale differenza come evidenza di distorsione nelle stime OLS.
Il metodo IV di McClellan, McNeil e Newhouse ha un’interessante interpretazione. L’analisi OLS utilizzava come regressore il trattamento effettivo, ma siccome il trattamento effettivo è il risultato di una decisione da parte del paziente e del medico, gli autori sostengono
che il trattamento effettivo è correlato con il termine d’errore. Invece, i TSLS utilizzano il
trattamento predetto, dove la variazione nel trattamento predetto nasce dalla variazione nella
variabile strumentale: i pazienti più vicini a un ospedale con cateterizzazione cardiaca è più
359
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 360 — #390
i
i
10.6. Conclusioni
probabile che ricevano questo trattamento.
Questa interpretazione ha due implicazioni. In primo luogo, la regressione IV in realtà
stima l’effetto del trattamento non su un paziente “tipico” scelto casualmente, ma piuttosto su
pazienti per i quali la distanza è una considerazione importante nella decisione di sottoporsi
al trattamento. L’effetto su tali pazienti potrebbe essere diverso dall’effetto su un paziente
tipico, il che fornisce una spiegazione della maggiore efficacia stimata del trattamento nella
sperimentazione clinica che nello studio IV di McClellan, McNeil e Newhouse. In secondo
luogo, suggerisce una strategia generale per trovare strumenti in questo tipo di contesto: si
tratta di trovare uno strumento che influenza la probabilità di trattamento, ma lo fa per ragioni
che non dipendono dal risultato eccetto che attraverso il loro effetto sulla probabilità del
trattamento. Queste implicazioni sono entrambe applicabili a studi sperimentali e “quasisperimentali”, l’argomento del capitolo 11.
10.6 Conclusioni
Dal semplice problema iniziale di stimare quanto burro si acquisterà in meno se il suo prezzo
sale, i metodi IV si sono evoluti in un approccio generale per stimare regressioni quando una
o più variabili sono correlate con gli errori. La regressione con variabili strumentali utilizza
gli strumenti per isolare quelle variazioni nei regressori endogeni che sono incorrelate con
l’errore della regressione d’interesse; questo è il primo stadio dei minimi quadrati a due stadi.
Ciò, a sua volta, consente di stimare l’effetto d’interesse nel secondo stadio.
Il successo di una regressione IV richiede strumenti validi, ovvero strumenti che sono
sia rilevanti (non deboli) sia esogeni. Se gli strumenti sono deboli, allora lo stimatore TSLS
può essere distorto, anche in grandi campioni, e le inferenze statistiche basate sulle statistiche t dei TSLS e sugli intervalli di confidenza possono essere fuorvianti. Fortunatamente,
quando c’è un singolo regressore endogeno è possibile verificare la debolezza degli strumenti
semplicemente attraverso la statistica F del primo stadio.
Se gli strumenti non sono esogeni, cioè se uno o più strumenti sono correlati con l’errore,
allora lo stimatore TSLS è inconsistente. Se ci sono più strumenti che regressori endogeni,
allora l’esogeneità degli strumenti può essere esaminata sottoponendo a verifica le restrizioni
di sovraidentificazione. Tuttavia, l’assunzione cruciale –che ci siano almeno tanti strumenti
esogeni quanti regressori endogeni– non può essere verificata. Tocca pertanto all’analista
empirico e al lettore critico il compito di usare la loro conoscenza dell’applicazione empirica
per valutare se questa assunzione sia ragionevole.
L’interpretazione della regressione IV come un modo per sfruttare variazioni esogene note nel regressore endogeno può essere usata come guida nella ricerca di potenziali variabili
strumentali in una particolare applicazione. Questa interpretazione sottende la maggior parte dell’analisi empirica nell’area che va sotto il titolo generale di valutazione di programmi,
360
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 361 — #391
i
i
Sommario
in cui gli esperimenti o i quasi-esperimenti sono usati per stimare l’effetto di programmi,
politiche o altri interventi su alcuni indicatori di risultato. In questo tipo di applicazioni sorgono una serie di problemi addizionali, per esempio l’interpretazione dei risultati IV quando,
come nell’esempio della cateterizzazione cardiaca, “pazienti” diversi potrebbero reagire diversamente allo stesso “trattamento”. Questi e altri aspetti della valutazione empirica dei
programmi sono affrontati nel capitolo 11.
Sommario
1. La regressione con variabili strumentali è un metodo per stimare i coefficienti di regressione quando uno o più regressori sono correlati con l’errore.
2. Le variabili endogene sono correlate con l’errore nell’equazione d’interesse; le variabili
esogene sono incorrelate con l’errore.
3. Perché uno strumento sia valido, deve essere (1) correlato con la variabile endogena
inclusa e (2) esogeno.
4. La regressione IV richiede almeno tanti strumenti quante sono le variabili endogene
incluse.
5. Lo stimatore TSLS ha due stadi: nel primo, si effettua una regressione delle variabili endogene incluse sulle variabili esogene incluse e sugli strumenti; nel secondo,
si effettua una regressione della variabile dipendente sulle variabili esogene incluse
e sui valori predetti delle variabili endogene incluse, ottenuti dalla regressione (dalle
regressioni) del primo stadio.
6. Gli strumenti deboli (gli strumenti che sono quasi incorrelati con le variabili endogene incluse) rendono distorto lo stimatore TSLS e rendono inaffidabili gli intervalli di
confidenza e i test d’ipotesi sono inaffidabili.
7. Se uno strumento non è esogeno, allora lo stimatore TSLS è inconsistente.
Termini chiave
regressione con variabili
strumentali (IV) (327)
variabili strumentali (strumenti) (327)
variabile endogena (328)
variabile esogena (328)
condizione di rilevanza dello strumento (329)
condizione di esogeneità
dello strumento (329)
minimi quadrati a due stadi (329)
variabili esogene incluse (337)
identificazione esatta (338)
sovraidentificazione (338)
sottoidentificazione (338)
forma ridotta (338)
361
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 362 — #392
i
i
Sommario
regressione del primo stadio (339)
regressione del secondo stadio (339)
strumenti deboli (344)
statistica F del primo stadio (345)
test delle restrizioni di
sovraidentificazione (348)
Verifica dei concetti
10.1 Nel modello di regressione per la curva di domanda (10.3), ln(P ibutter ) è positivamente
correlato con l’errore ui ? Se β1 fosse stimato tramite gli OLS, il valore stimato sarebbe
maggiore o minore del vero valore di β1 ? Argomenta la risposta.
10.2 Nello studio della domanda di sigarette condotta in questo capitolo, si supponga di aver
usato come strumento il numero di alberi pro capite che si trovano nello stato. È uno
strumento rilevante? È uno strumento valido?
10.3 Nel suo studio sugli effetti della carcerazione sui tassi di criminalità, si supponga che
Levitt abbia usato come strumento il numero di avvocati pro capite. È uno strumento
rilevante? È esogeno? È uno strumento valido?
10.4 Nel loro studio sull’efficacia della cateterizzazione cardiaca, McClellan, McNeil e
Newhouse (1994) hanno usato come strumento la differenza tra la distanza tra gli
ospedali che praticano la cateterizzazione cardiaca e i comuni ospedali. Come si potrebbe determinare la rilevanza di questo strumento? Come si potrebbe determinare
l’esogeneità di questo strumento?
Esercizi
10.1 Questa domanda fa riferimento alla regressione con dati panel riportata nella tabella
10.1.
a. Si supponga che il governo federale stia valutando una nuova imposta sulle sigarette che si stima incrementi il prezzo al dettaglio di 0, 10$ per pacchetto. Il
prezzo corrente per pacchetto è 2, 00$. Si utilizzi la regressione della colonna (1)
per predire la variazione nella domanda. Si costruisca un intervallo di confidenza
al 95% per la variazione nella domanda.
b. Si supponga che gli Stati Uniti entrino in recessione e che il reddito cali del 2%. Si
utilizzi la regressione nella colonna (1) per predire la variazione nella domanda.
c. Le recessioni tipicamente durano meno di un anno. Si ritiene che la regressione
della colonna (1) fornirà una risposta affidabile alla domanda nella (b)? Perché o
perché no?
362
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 363 — #393
i
i
Appendice
d. Si supponga che la statistica F della colonna (1) sia 3, 6 invece di 33, 6. La regressione fornirebbe una risposta affidabile alla domanda posta nella (a)? Perché
o perché no?
10.2 Si consideri il modello di regressione con un singolo regressore: Y i = β0 + β1 Xi + ui .
Si supponga che siano soddisfatte le ipotesi del concetto chiave 4.3.
a. Si mostri che Xi è uno strumento valido. Si mostri, cioè, che il concetto chiave
10.3 è soddisfatto con Zi = Xi .
b. Si mostri che le assunzioni per la regressione IV del concetto chiave 10.4 sono
soddisfatte con questa scelta di Zi
c. Si mostri che lo stimatore IV costruito usando Zi = Xi è identico allo stimatore
OLS.
10.3 Uno studente è interessato alla stima della varianza dell’errore nella (10.1).
a. Si supponga che usi lo stimatore dalla regressione del secondo stadio del TSLS:
Pn
1
T SLS
σ̂a2 = n−2
− β̂1T SLS X̂i )2 , dove X̂i è il valore stimato dalla
i=1 (Yi − β̂0
regressione del primo stadio. Questo stimatore è consistente? (Ai fini di questa
domanda si supponga che il campione sia molto grande e che gli stimatori TSLS
siano essenzialmente identici a β0 e β1 ).
1 Pn
T SLS
− β̂1T SLS X̂i )2 è consistente?
b. σ̂b2 = n−2
i=1 (Yi − β̂0
10.4 Si consideri la stima TSLS con una singola variabile endogena inclusa e un solo strumento. Allora, il valore predetto dalla regressione del primo stadio è X̂i = π̂0 + π̂1 Zi .
Si utilizzi la definizione di varianza e covarianza campionarie per mostrare che s X̂Y =
π̂1 sZY e s2X̂ = π̂12 s2Z . Si utilizzi questo risultato per completare i passaggi per la
derivazione della fomula (10.4) nell’appendice 10.2.
Appendice 10.1: i dati panel sul consumo di sigarette
Questi dati consistono di osservazioni annuali dal 1985 al 1995 per i 48 stati continentali
USA. La quantità consumata è misurata dalle vendite pro capite di pacchetti di sigarette per
anno fiscale, ottenute dai dati sulle imposte statali. Il prezzo è il prezzo medio di vendita di un
pacchetto di sigarette nell’anno fiscale, incluse le imposte. Il reddito è il reddito pro capite.
L’imposta generale sulle vendite è la media, in centesimi per pacchetto, delle imposte generali
applicate a tutti i beni di consumo venduti. La tassa specifica sulle sigarette è l’imposta
applicata alle sole sigarette. I prezzi, il reddito e le imposte usati nelle regressioni di questo
capitolo sono tutti deflazionati con l’indice dei prezzi al consumo e sono perciò espressi in
dollari costanti (reali). Siamo grati al Professor Jonathan Gruber del MIT per averci fornito
questi dati.
363
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 364 — #394
i
i
Appendice
Appendice 10.2: derivazione della formula (10.4)
per lo stimatore TSLS
Il primo stadio dei TSLS consiste in una regressione OLS di Xi sullo strumento Zi e nel
calcolo del valore predetto, X̂i ; il secondo stadio consiste in una regressione OLS di Yi su
X̂i . Di conseguenza, la formula per lo stimatore TSLS, espressa come funzione del valore
predetto X̂i , è la fomula dello stimatore OLS nel concetto chiave 4.2, con X i sostituito da X̂i .
Perciò, β̂1T SLS = sX̂Y /s2X̂ , dove s2X̂ è la varianza campionaria di Xi e sX̂Y è la covarianza
campionaria tra Yi e X̂i .
Poiché X̂i è il valore predetto di Xi dalla regressione del primo stadio, X̂i = π̂0 +π̂1 Zi , le
definizioni di varianza e covarianza campionaria implicano che s X̂Y = π̂1 sZY e s2X̂ = π̂12 s2Z
(esercizio 10.4). Perciò, lo stimatore TSLS può essere scritto come β̂1T SLS = sX̂Y /s2X̂ =
sZY /(π̂1 s2Z ). Infine, π̂1 è la pendenza della regressione OLS del primo stadio dei TSLS,
ovvero π̂1 = sZY /s2Z . Sostituendo la formula per π̂1 nella formula per β̂1T SLS si ottiene la
formula (10.4) per lo stimatore TSLS.
Appendice 10.3: distribuzione dello stimatore TSLS
per grandi campioni
Questa appendice studia la distribuzione in grandi campioni dello stimatore TSLS per il caso
considerato nella sezione 10.1, ovvero con un solo strumento, una singola variabile endogena
inclusa e nessuna variabile esogena.
Per cominciare, deriviamo la formula dello stimatore TSLS come funzione degli errori,
la quale costituisce la base della rimanente discussione, similmente a quanto fatto per lo
stimatore OLS (4.51) nell’appendice 4.3. Dalla (10.1), Yi − Ȳ = β1 (Xi − X̄) + (ui − ū).
Di conseguenza, la covarianza campionaria tra Z e Y può essere espressa come
n
sZY
=
1 X
(Zi − Z̄)(Yi − Ȳ )
n − 1 i=1
n
=
1 X
(Zi − Z̄)[β1 (Xi − X̄) + (ui − ū)]
n − 1 i=1
n
= β1 sZX +
1 X
(Zi − Z̄)(ui − ū)
n − 1 i=1
n
= β1 sZX +
1 X
(Zi − Z̄)ui ,
n − 1 i=1
(10.18)
364
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 365 — #395
i
i
Appendice
Pn
1
dove sZX = n−1
i=1 (Zi − Z̄)(Xi − X̄) e dove l’uguaglianza finale segue dal fatto che
Pn
i=1 (Zi − Z̄) = 0. Sostituendo la definizione di sZX e l’epressione finale della (10.18)
nella definizione di β̂1T SLS e moltiplicando il numeratore e il denominatore per (n − 1)/n, si
ottiene
n
P
1
(Zi − Z̄)ui
n
i=1
β̂1T SLS = β1 + P
.
(10.19)
n
1
(Z
−
Z̄)(X
−
X̄)
i
i
n
i=1
Distribuzione per grandi campioni di β̂1T SLS quando valgono
le assunzioni della regressione IV del concetto chiave 10.4
La formula (10.19) per lo stimatore TSLS è simile alla formula (4.51) dell’appendice 4.3
per lo stimatore OLS, eccetto che Z appare al numeratore al posto di X e il denominatore
è la covarianza tra Z e X invece che la varianza di X. Grazie a queste similarità e data
l’esogeneità di Z, l’argomento dell’appendice 4.2 per il quale lo stimatore OLS è distribuito
normalmente in grandi campioni si estende a β̂1T SLS .
Nello specifico, quando il campione è grande, Z̄ ∼
= µZ , cosı̀ il numeratore è approsPn
simativamente q̄ = n1 i=1 qi , dove qi = (Zi − µZ )ui . Siccome lo strumento è esogeno,
E(qi ) = 0. Per le ipotesi della regressione IV del concetto chiave 10.4, q i è i.i.d. con varianza
σq2 = var[(Zi − µZ )ui ]. Ne segue che var(q̄) = σq̄2 = σq2 /n e, per il teorema limite centrale,
q̄/σq̄ si distribuisce per grandi campioni come N (0, 1).
Poiché la covarianza campionaria è uno stimatore consistente della covarianza della pop
polazione, sZX → cov(Zi , Xi ), la quale, per la rilevanza dello strumento, è non nulla. Cosı̀
per la (10.19), β̂1T SLS ∼
= β1 + q̄/cov(Zi , Xi ), e quindi β̂1T SLS si distribuisce per grandi
campioni approssimativamente come N (β1 , σβ̂2 T SLS ), dove σβ̂2 T SLS = σq̄2 /[cov(Zi , Xi )]2 =
1
1
(1/n)var[(Zi − µZ )ui ]/[cov(Zi , Xi )]2 , che è la formula (10.8).
Appendice 10.4: distribuzione per grandi campioni
dello stimatore TSLS quando
lo strumento non è valido
Questa appendice considera la distribuzione per grandi campioni dello stimatore TSLS nel
caso considerato nella sezione 10.1 (una X e una Z), quando non vale l’una o l’altra delle
condizioni per la validità degli strumenti. Se non vale la condizione per la rilevanza dello
strumento (ovvero lo strumento è debole), la distribuzione per grandi campioni dello stimatore TSLS è non normale; in effetti, la sua distribuzione è quella del rapporto tra due variabili
365
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 366 — #396
i
i
Appendice
casuali normali. Se non vale la condizione per l’esogeneità dello strumento, lo stimatore
TSLS è inconsistente.
Distribuzione per grandi campioni di β̂1T SLS quando
lo strumento è debole
Consideriamo anzitutto il caso in cui lo strumento è irrilevante, cosicché cov(Z i , Xi ) =
0. Il ragionamento dell’appendice 10.3 porterebbe quindi a dividere per zero. Per evitare
questo problema, dobbiamo prestare maggiore attenzione al comportamento del termine al
denominatore della (10.19), quando la covarianza della popolazione è nulla.
Cominciamo riscrivendo la (10.19). Per la consistenza della media campionaria, per
grandi campioni Z̄ tende a µZ e X̄ tende a µX . Cosı̀, il termine al denominatore delPn
Pn
la (10.19) è approssimativamente n1 i=1 (Zi − µZ )(Xi − µX ) = n1 i=1 ri = r̄, dove
ri = (Zi − µZ )(Xi − µX ). Siano σr2 = var[(Zi − µZ )(Xi − µX )] e σr̄2 = σr2 /n e si
definiscano q̄, σq̄2 e σq2 come nell’appendice 10.3. Allora la (10.19) implica che, per grandi
campioni,
q̄/σq̄
σq
q̄/σq̄
σq̄
q̄
T SLS ∼
= β1 +
.
(10.20)
β̂1
= β1 + = β 1 +
r̄
σr̄
r̄/σr̄
σr
r̄/σr̄
Se lo strumento è irrilevante, E(ri ) = cov(Zi , Xi ) = 0. Perché, r̄ è la media campionaria
delle variabili casuali ri , i = 1, . . . , n, che sono i.i.d. (per la seconda assunzione dei minimi
quadrati), hanno varianza σr2 = var[(Zi − µZ )(Xi − µX )] (che è finita per la terza assunzione
della regressione IV) e hanno una media nulla (perché gli strumenti sono irrilevanti). Ne
segue che il teorema limite centrale si applica ad r̄. Nello specifico, r̄/σ r̄ si distribuisce
approssimativamente come N (0, 1). Perciò, l’espressione finale della (10.20) implica che,
per grandi campioni, la distribuzione di β̂1T SLS − β1 corrisponde alla distribuzione di aS,
dove a = σq /σr ed S è il rapporto di due variabili casuali, ognuna delle quali si distribuisce
come una normale standard (queste due variabili casuali normali standard sono correlate).
In altre parole, quando lo strumento è irrilevante, il teorema limite centrale si applica
al denominatore cosı̀ come al numeratore dello stimatore TSLS, e quindi la distribuzione in
grandi campioni dello stimatore TSLS è la distribuzione del rapporto di due variabili casuali
normali. Siccome Xi e ui sono correlate, queste due variabili casuali normali sono correlate
e la distribuzione per grandi campioni dello stimatore TSLS quando lo strumento è irrilevante è complessa. In effetti, la distribuzione per grandi campioni dello stimatore TSLS con
strumenti irrilevanti è centrata attorno al limite in probabilità dello stimatore OLS. Perciò,
quando lo strumento è irrilevante, lo stimatore TSLS non elimina la distorsione degli OLS e,
inoltre, ha una distribuzione non normale, anche per grandi campioni.
Quando lo strumento è debole ma non irrilevante, la distribuzione dello stimatore TSLS
continua a essere non normale, cosı̀ la lezione generale circa il caso estremo di uno strumento
366
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 367 — #397
i
i
Appendice
irrilevante si estende al caso di strumenti deboli. Ad esempio, è possibile dimostrare che, per
grandi campioni, la media della distribuzione campionaria dello stimatore TSLS è approssimativamente uguale a β1 + (β1OLS − β1 )/[E(F ) − 1], dove β1OLS è il limite (in probabilità)
p
dello stimatore OLS, cioè β̂1 → β1OLS e E(F ) è il valore atteso della statistica F del primo
stadio. Questa espressione per la media dello stimatore TSLS è la fonte del valore di soglia
suggerito nel concetto chiave 10.5 per la diagnostica relativa agli strumenti deboli. Nello specifico, se E(F ) = 10, la distorsione per grandi campioni dello stimatore TSLS, relativamente
alla distorsione per grandi campioni dello stimatore OLS, è pari a 1/9, cioè appena sopra il
10%, abbastanza piccola da essere accettabile in molte applicazioni.
Distribuzione per grandi campioni di β̂1T SLS quando
lo strumento è endogeno
Il numeratore nell’espressione finale della (10.19) converge in probabilità a cov(Z i , ui ). Se
lo strumento è esogeno, questa covarianza è uguale a zero e lo stimatore TSLS è consistente
(assumendo che lo strumento non sia debole). Se però lo strumento non è esogeno, allora,
p
posto che lo strumento non sia debole, β̂1T SLS → β1 + cov(Zi , ui )/cov(Zi , Xi ) 6= β1 . Cosı̀,
se lo strumento non è esogeno, lo stimatore TSLS è inconsistente.
367
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 368 — #398
i
i
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 369 — #399
i
i
Capitolo 11
Esperimenti e quasi esperimenti
In molti campi, come la psicologia e la medicina, gli effetti causali sono comunemente stimati per mezzo di esperimenti. Prima di ottenere l’approvazione per un uso medico diffuso, per
esempio, un nuovo farmaco deve essere sottoposto a prove sperimentali nelle quali ad alcuni
pazienti selezionati casualmente viene somministrato il farmaco, mentre agli altri viene somministrato un innocuo sostituo senza efficacia (un “placebo”): il farmaco è approvato solo se
questo esperimento controllato casualizzato fornisce evidenza statistica convincente della sua
sicurezza ed efficacia.
Sebbene gli esperimenti controllati casualizzati siano rari in economia, ci sono tre ragioni
per studiarli in un corso di econometria. In primo luogo, la nozione di esperimento controllato casualizzato, a livello concettuale, fornisce un riferimento importante rispetto al quale
giudicare stime di effetti causali in pratica. In secondo luogo, quando vengono condotti effettivamente degli esperimenti, i loro risultati possono essere influenti, per cui è importante
comprendere le limitazioni e le minacce alla validità degli esperimenti veri, cosı̀ come i loro
punti di forza. In terzo luogo, circostanze esterne producono talvolta ciò che appare essere
casualizzazione; in altre parole, a causa di eventi esterni, il trattamento di alcuni individui
avviene “come se fosse” casuale. Ad esempio, supponiamo che una legge sia approvata in un
certo stato ma non in quello confinante. Se si ritiene che lo stato di residenza dell’individuo è
“come se” fosse assegnato casualmente, allora quando la legge è approvata è “come se” alcune persone vi fossero assoggettate casualmente (gruppo di trattamento), mentre altre non vi
sono assoggettate (gruppo di controllo). Cosı̀, l’approvazione della legge produce un “quasi
esperimento”, detto anche “esperimento naturale”, e molte delle lezioni apprese studiando gli
esperimenti effettivi possono essere applicate (con alcune modifiche) ai quasi esperimenti.
Questo capitolo esamina gli esperimenti e i quasi esperimenti in economia. Gli strumenti
statistici utilizzati in questo capitolo sono l’analisi di regressione multipla, l’analisi di regressione per dati panel e la regressione con variabili strumentali (IV). Ciò che distingue la
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 370 — #400
i
i
11.1. Esperimenti ideali ed effetti causali
discussione di questo capitolo non sono gli strumenti utilizzati, ma piuttosto il tipo di dati
analizzati e le opportunità e le sfide peculiari che si presentano analizzando esperimenti e
quasi esperimenti.
I metodi sviluppati in questo capitolo sono spesso usati per la valutazione di programmi.
La valutazione di programmi è il campo di studi che si occupa di stimare gli effetti di un
programma, di una politica o di qualche altro intervento o “trattamento”. Qual è l’effetto sulle
retribuzioni della partecipazione ad un programma di formazione professionale? Qual è l’effetto sull’impiego dei lavoratori con bassa qualificazione di un aumento del salario minimo?
Qual è l’effetto sulla frequenza universitaria dell’introduzione di prestiti agevolati per gli studenti appartenenti al ceto medio? Questo capitolo discute il modo in cui questi programmi o
politiche possono essere valutati tramite esperimenti o quasi esperimenti.
Cominciamo nella sezione 11.1 sviluppando la discussione del capitolo 1 di un ideale
esperimento controllato casualizzato e degli effetti causali. Nella realtà, esperimenti effettivi
con cavie umane si scontrano con problemi pratici che costituiscono minacce alla loro validità
interna ed esterna, e tali minacce sono discusse nella sezione 11.2. Come discusso nella
sezione 11.3, alcune di queste minacce possono essere affrontate o valutate tramite tecniche
di regressione, quali lo stimatore delle “differenze di differenze” e la regressione con variabili
strumentali. La sezione 11.4 utilizza questi metodi per analizzare un esperimento controllato
casualizzato nel quale studenti delle elementari sono stati assegnati casualmente a classi di
diversa ampiezza nello stato del Tennessee alla fine degli anni ’80.
La sezione 11.5 è dedicata ai quasi esperimenti ed alla stima degli effetti causali tramite
quasi esperimenti. Le minacce alla validità dei quasi esperimenti sono discusse nella sezione 11.6. Un problema che nasce sia negli esperimenti sia nei quasi esperimenti è che gli
effetti di un trattamento possono differire da un membro della popolazione ad un altro; il problema dell’interpretazione delle stime risultanti degli effetti causali quando la popolazione è
eterogenea è affrontato nella sezione 11.7.
11.1 Esperimenti ideali ed effetti causali
Si ricordi dalla sezione 1.2 che un esperimento controllato casualizzato seleziona soggetti
(individui o, più in generale, entità) a caso da una popolazione d’interesse e li assegna poi
ad un gruppo di trattamento, che riceve il trattamento sperimentale, oppure ad un gruppo di
controllo, che non riceve il trattamento. L’effetto causale del trattamento è l’effetto atteso del
trattamento sul risultato d’interesse, cosı̀ come misurato in un ideale esperimento controllato
casualizzato.
370
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 371 — #401
i
i
11.1. Esperimenti ideali ed effetti causali
Esperimenti controllati casualizzati ideali
Inizialmente, si potrebbe pensare che un esperimento ideale prenda due individui altrimenti identici, sottoponga a trattamento uno di questi e confronti i rispettivi risultati, tenendo
costanti tutti gli altri fattori d’influenza. Questo non è, tuttavia, un disegno sperimentale
facilmente realizzabile, perché è impossibile trovare due individui perfettamente uguali: persino gemelli identici hanno esperienze di vita diverse, e quindi non sono identici in tutti gli
aspetti.
L’idea centrale di un esperimento casualizzato ideale è che l’effetto causale può essere
misurato selezionando individui a caso da una popolazione e assegnando poi il trattamento in
modo casuale ad alcuni di essi. Se il trattamento è assegnato in modo casuale (ad esempio,
tirando una moneta oppure usando un generatore di numeri casuali computerizzato) allora il
livello del trattamento è distribuito indipendentemente da ogni altra determinante del risultato, eliminando cosı̀ la possibilità di distorsione da variabile omessa (concetto chiave 5.1).
Supponiamo, ad esempio, che gli individui siano assegnati casualmente alla frequenza di un
programma di formazione professionale. L’esperienza lavorativa precedente di un individuo
influenzerà la sua probabilità di ottenere un lavoro alla fine del programma, ma fintanto che
la sua partecipazione (il “trattamento”) è assegnata casualmente, la distribuzione dell’esperienza lavorativa è la stessa nei gruppi di trattamento e di controllo; cioè, la partecipazione è
distribuita indipendentemente dalla precedente esperienza lavorativa. Cosı̀, la partecipazione
e l’esperienza lavorativa sono incorrelate e l’omissione dall’analisi dell’esperienza lavorativa
precedente non causerà una distorsione da variabile omessa nello stimatore dell’effetto del
programma di formazione sull’impiego futuro.
Il ruolo dell’assegnazione casuale può essere riformulato nei termini del modello di regressione con un singolo regressore,
Y i = β 0 + β 1 Xi + u i ,
(11.1)
dove Xi è il livello del trattamento e, come al solito, ui contiene tutte le determinanti addizionali del risultato Yi . Se il trattamento è lo stesso per tutti i membri del gruppo di trattamento,
allora Xi è binaria, con Xi = 1 ad indicare che l’individuo i ha ricevuto il trattamento e
Xi = 0 ad indicare che non lo ha ricevuto. Se il livello del trattamento varia tra i membri
del gruppo di trattamento, allora Xi è il livello del trattamento ricevuto. Ad esempio, Xi
potrebbe essere la dose di un farmaco o la durata in settimane del programma di formazione
professionale, con Xi = 0 se il trattamento non viene ricevuto (una dose nulla). Se Xi è
binaria, allora la funzione di regressione lineare (11.1) non impone alcune restrizioni sulla
forma funzionale. Se Xi può assumere più valori, allora la (11.1) tratta la funzione di regressione della popolazione come lineare (eventuali non linearità possono essere affrontate
usando i metodi sviluppati nella sezione 6.2).
Se Xi è assegnato casualmente, allora Xi è distribuito indipendentemente dai fattori
371
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 372 — #402
i
i
11.2. Problemi potenziali con gli esperimenti reali
omessi contenuti in ui . Siccome questi fattori omessi e Xi sono distribuiti indipendentemente, E(Yi Xi ) = β0 + β1 Xi nella (11.1); detto diversamente, la media condizionata di
ui data Xi non dipende da Xi ; ovvero, E(ui Xi ) = 0. Cosı̀ l’assegnazione casuale di Xi
implica che valga automaticamente la prima assunzione dei minimi quadrati per il modello
di regressione con un singolo regressore (concetto chiave 4.3).
L’effetto causale. L’effetto causale su Y del livello di trattamento x è la differenza delle
aspettative condizionate E(Y X = x) − E(Y X = 0), dove E(Y X = x) è il valore atteso
di Y per il gruppo di trattamento che riceve il livello di trattamento x in un ideale esperimento
controllato casualizzato ideale e E(Y X = 0) è il valore atteso di Y per il gruppo di controllo.
In ambito sperimentale, l’effetto causale è anche detto effetto del trattamento. A causa
dell’assegnazione casuale, E(ui Xi ) = 0 nella (11.1) e quindi β1 rappresenta l’effetto causale
di una variazione unitaria in X, misurato dalla differenza attesa nei risultati tra i gruppi di
trattamento e di controllo.
Lo stimatore delle differenze
L’effetto causale è una differenza di valori attesi ed è perciò una caratteristica ignota della popolazione. L’effetto causale può essere stimato usando dati generati da un esperimento
controllato casualizzato. Supponiamo che il trattamento Xi sia binario. Siccome il trattamento è assegnato casualmente, l’effetto causale può essere stimato dalla differenza nelle medie
campionarie dei risultati dei gruppi di trattamento e di controllo. Equivalentemente, come
discusso nella sezione 4.7, β1 può essere stimato dallo stimatore OLS β̂1 nella regressione di
Yi su Xi . Poiché E(ui Xi ) = 0 nella (11.1), β̂1 è non distorto. Lo stimatore OLS β̂1 ottenuto
dalla regressione di Yi su Xi è detto stimatore delle differenze perché, quando il trattamento
è binario, esso è pari alla differenza tra la media campionaria del risultato per il gruppo di
trattamento e la media campionaria del risultato per il gruppo di controllo.
Assegnando il trattamento in modo casuale, un esperimento controllato casualizzato ideale elimina la correlazione tra il trattamento Xi e l’errore ui , e quindi lo stimatore delle differenze è non distorto e consistente. In pratica, tuttavia, gli esperimenti reali si discostano da
quelli ideali e insorgono problemi che possono introdurre correlazione tra X i e ui .
11.2 Problemi potenziali con gli esperimenti reali
Si ricordi dal concetto chiave 7.1 che uno studio statistico è internamente valido se l’inferenza
statistica sugli effetti causali è valida per la popolazione studiata ed è esternamente valido
se le sue inferenze e le sue conclusioni possono essere generalizzate dalla popolazione e
dal contesto studiati ad altre popolazioni e ad altri contesti. Vari problemi nel mondo reale
372
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 373 — #403
i
i
11.2. Problemi potenziali con gli esperimenti reali
rappresentano minacce alla validità interna ed esterna dell’analisi statistica degli esperimenti
reali con soggetti umani.
Minacce alla validità interna
Le minacce alla validità interna degli esperimenti controllati casualizzati comprendono l’insuccesso della casualizzazione, l’insuccesso nel seguire il protocollo di trattamento, l’attrito,
gli effetti sperimentali e le ridotte dimensioni campionarie.
Insuccesso della casualizzazione. L’assegnazione casuale a gruppi di trattamento e di controllo è la caratteristica fondamentale degli esperimenti controllati casualizzati che consente
di stimare l’effetto casuale. Se il trattamento non è assegnato in modo casuale, ma è in parte
basato sulle caratteristiche o le preferenze dei soggetti, allora i risultati sperimentali rifletteranno sia l’effetto del trattamento sia l’effetto dell’assegnazione non casuale. Ad esempio,
supponiamo che i partecipanti ad un esperimento relativo ad un programma di formazione
professionale siano assegnati al gruppo di trattamento in base al fatto che l’iniziale del loro
cognome appartenga alla prima o alla seconda metà dell’alfabeto. A causa di differenze etniche nei cognomi, l’etnia potrebbe differire sistematicamente tra il gruppo di trattamento e
quello di controllo. Se l’esperienza lavorativa, l’istruzione e altre caratteristiche del mercato
del lavoro differiscono tra le etnie, ci potrebbero essere differenze sistematiche tra i gruppi di
controllo e di trattamento in questi fattori omessi che influenzano i risultati.
Più in generale, l’assegnazione non casuale può condurre a correlazione tra il trattamento
Xi e l’errore, perché ricevere il trattamento è in parte determinato dalle caratteristiche dell’individuo che compongono il termine d’errore. In generale, un’assegnazione non casuale
porta ad una distorsione nello stimatore delle differenze.
Insuccesso nel seguire il protocollo di trattamento. In un esperimento reale, le persone
non sempre fanno ciò che viene loro richiesto. In un esperimento relativo ad un programma
di formazione professionale, ad esempio, alcuni dei soggetti assegnati al gruppo di trattamento potrebbero non presentarsi alle sessioni di formazione e quindi non ricevere il trattamento. Similmente, i soggetti assegnati al gruppo di controllo potrebbero in qualche modo
ricevere anch’essi la formazione, magari facendo una speciale richiesta ad un istruttore o un
amministratore.
Cosı̀, sebbene il trattamento assegnato sia casuale, il trattamento effettivamente ricevuto
potrebbe non esserlo. Invece, il trattamento che il soggetto effettivamente riceve è determinato in parte dall’assegnazione casuale (il fatto di essere idoneo per il programma di formazione
professionale) e in parte dalle caratteristiche dell’individuo (il desiderio del soggetto di ricevere la formazione professionale). Come sanno gli studenti e gli insegnanti, si può richiedere
ad uno studente di seguire un corso, ma è più duro convincerlo a presentarsi a lezione.
373
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 374 — #404
i
i
11.2. Problemi potenziali con gli esperimenti reali
Quando un individuo non può seguire completamente il protocollo di trattamento casuale
si parla di adesione parziale al protocollo di trattamento. In alcuni casi, gli sperimentatori
sanno se il trattamento è stato effettivamente ricevuto (ad esempio, lo studente ha seguito
le lezioni) e il trattamento effettivamente ricevuto è registrato come Xi . Siccome c’è un elemento di scelta nel fatto che il soggetto riceva il trattamento, Xi (il trattamento effettivamente
ricevuto) è correlato con ui (che include motivazione e abilità innata) anche se c’è un’assegnazione casuale. In altre parole, nel caso di adesione parziale i gruppi di trattamento e di
controllo non sono più campioni casuali dalla popolazione più ampia da cui i soggetti erano
stati estratti originariamente; i gruppi di trattamento e di controllo hanno invece un elemento
di autoselezione. Cosı̀, non poter seguire il protocollo di trattamento porta a distorsioni nello
stimatore OLS.
In altri casi lo sperimentatore potrebbe non sapere se il trattamento è stato effettivamente
ricevuto. Ad esempio, se al soggetto di un esperimento medico viene somministrato un farmaco, che, all’oscuro dei ricercatori, il soggetto non prende, allora il trattamento registrato
(“farmaco somministrato”) è incorretto. La misura non corretta del trattamento effettivamente
ricevuto determina a sua volta una distorsione nello stimatore delle differenze.
Attrito. L’attrito si riferisce ai soggetti che escono dallo studio dopo essere stati assegnati
al gruppo di trattamento o di controllo. Talvolta l’attrito si verifica per ragioni non legate
al programma di trattamento; ad esempio, un partecipante ad un programma di formazione
professionale potrebbe avere bisogno di lasciare la città per assistere un parente malato. Se la
ragione dell’attrito è però legata al trattamento stesso, allora si ha distorsione nello stimatore
OLS dell’effetto causale. Ad esempio, supponiamo che le persone più abili abbandonino il
programma di formazione professionale perché ottengono lavori fuori città grazie alla preparazione acquisita con il programma, cosicché alla fine dell’esperimento solo gli individui
meno abili rimangono nel gruppo di trattamento. In questo caso, la distribuzione delle altre
caratteristiche (l’abilità) sarà diversa tra i gruppi di trattamento e di controllo (il trattamento
mette in grado gli individui più abili di lasciare la città). In altre parole, il trattamento X i
sarà correlato con ui (che include l’abilità) per quelli che rimangono nel campione alla fine
dell’esperimento e lo stimatore delle differenze sarà distorto. Poiché l’attrito dà luogo ad
un campione selezionato in modo non casuale, se è legato al trattamento, esso porta ad una
distorsione da selezione (concetto chiave 7.4).
Effetti sperimentali. Negli esperimenti con soggetti umani, il puro e semplice fatto di trovarsi in un esperimento può cambiare l’atteggiamento dei soggetti, un fenomeno talvolta
chiamato effetto Hawthorne (si veda il riquadro relativo). Per esempio, l’eccitazione creata o l’attenzione che deriva dall’essere in un programma sperimentale potrebbe produrre un
sforzo straordinario in grado di influenzare i risultati.
374
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 375 — #405
i
i
11.2. Problemi potenziali con gli esperimenti reali
In alcuni esperimenti, un protocollo “alla cieca” può mitigare l’effetto di trovarsi in un
esperimento: sebbene i soggetti e gli sperimentatori sappiano entrambi di trovarsi in un esperimento, nessuno di loro sa se un soggetto è nel gruppo di trattamento o in quello di controllo.
In un esperimento sui farmaci, ad esempio, talvolta il farmaco e il placebo possono essere resi
tali da apparire identici, cosicché né il medico che dispensa il farmaco né il paziente sanno
se il prodotto somministrato è il farmaco o il placebo. Se l’esperimento è alla cieca, sia il
gruppo di trattamento sia quello di controllo dovrebbero subire gli stessi effetti sperimentali,
e quindi risultati diversi tra i due gruppi possono essere attribuiti al farmaco.
Gli esperimenti alla cieca sono chiaramente irrealizzabili negli esperimenti economici
nel mondo reale: sia il soggetto sperimentale sia l’istruttore sanno se il soggetto sta frequentando il programma di formazione professionale. In un esperimento malamente disegnato,
questo effetto sperimentale potrebbe essere sostanziale. Ad esempio, gli insegnanti di un
programma sperimentale potrebbero sforzarsi di rendere il loro programma un successo se
corrono il rischio di perdere il loro lavoro nel caso in cui il programma dia risultati mediocri
nell’esperimento. Decidere se i risultati sperimentali sono distorti a causa degli effetti sperimentali richiede di esprimere un giudizio basato su ciò che l’esperimento cerca di valutare e
sui dettagli relativi al modo in cui l’esperimento è stato condotto.
Dimensioni campionarie ridotte. Siccome gli esperimenti con soggetti umani possono essere costosi, talvolta le dimensioni campionarie sono piccole. Una dimensione campionaria
ridotta non distorce gli stimatori dell’effetto causale, ma fa sı̀ che l’effetto causale sia stimato
in modo impreciso.
Minacce alla validità esterna
Le minacce alla validità esterna compromettono la possibilità di generalizzare i risultati dello
studio ad altre popolazioni e contesti. Due minacce di questo genere si presentano quando
il campione sperimentale non è rappresentativo della popolazione d’interesse e quando il
trattamento che si studia non è rappresentativo del trattamento che si vorrebbe implementare
in maniera più ampia.
Campione non rappresentativo. La popolazione studiata e la popolazione d’interesse debbono essere sufficientemente simili da giustificare la generalizzazione dei risultati sperimentali. Se un programma di formazione professionale è valutato in un esperimento che coinvolge ex carcerati, allora potrebbe essere possibile generalizzare i risultati dello studio al
caso di altri ex carcerati. Siccome però il peso di una condanna penale condiziona fortemente l’atteggiamento dei potenziali datori di lavoro, i risultati ottenuti potrebbero non essere
generalizzabili a lavoratori che non hanno mai commesso un crimine.
Un altro esempio di campione non rappresentativo si può avere quando i partecipanti al375
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 376 — #406
i
i
11.2. Problemi potenziali con gli esperimenti reali
L’effetto Hawthorne
Durante gli anni ’20 e ’30, la General Electric ha condotto una serie di studi sulla produttività dei lavoratori nel suo impianto di
Hawthorne. In un insieme di esperimenti si variava la potenza delle lampadine per
vedere come la luce influenzasse la produttività delle donne che assemblavano componenti elettrici. In altri esperimenti si aumentavano o si diminuivano i periodi di riposo, si variava la disposizione delle stanze e si accorciavano le giornate lavorative.
Alcuni influenti resoconti iniziali di questi
esperimenti avevano concluso che la produttività continuava a crescere indipendentemente dal fatto che le luci fossero più soffuse o più intense o i giorni di lavoro fossero
più lunghi o più corti oppure che le condizioni di lavoro migliorassero o peggiorassero. I ricercatori avevano concluso che i
guadagni di produttività non erano la conseguenza di cambiamenti nel luogo di lavoro,
ma derivavano invece dal fatto che il loro
ruolo speciale nell’esperimento faceva credere ai lavoratori di essere notati e valutati,
cosicché essi lavoravano sempre di più. Negli anni, l’idea che essere in un esperimento influenza l’atteggiamento del soggetto è
divenuto noto come l’effetto Hawthorne.
C’è però un piccolo inconveniente in
questa storia: un esame attento dei dati effettivamente raccolti a Hawthorne rivela che
non esiste alcun effetto Hawthorne (Gillespie, 1991; Jones, 1992)! Tuttavia, in alcuni esperimenti, specialmente quelli in cui i
soggetti hanno un interesse diretto nel risultato, il semplice fatto di trovarsi in un esperimento può influenzare il comportamento.
L’effetto Hawthorne e, più in generale, gli
effetti sperimentali possono rappresentare
una minaccia alla validità interna –anche se
l’effetto Hawthorne non è evidente nei dati
originali di Hawthorne.
l’esperimento sono volontari. Anche se i volontari sono assegnati in modo casuale ai gruppi
di trattamento e di controllo, essi potrebbero essere più motivati del resto della popolazione
e, per loro, il trattamento potrebbe avere un effetto più grande. Più in generale, selezionare il
campione in modo non casuale da una popolazione più ampia può compromettere la possibilità di generalizzare i risultati dalla popolazione studiata (come i volontari) alla popolazione
d’interesse.
Programma o politica non rappresentativi. La politica o il programma d’interesse devono
essere sufficientemente simili al programma studiato per permettere di generalizzarne i risultati. Un aspetto importante è che il programma di un esperimento su scala ridotta e fortemente
monitorato potrebbe essere abbastanza diverso dal programma implementato nella realtà. Se
quest’ultimo fosse su larga scala, potrebbe non garantire lo stesso controllo di qualità della
versione sperimentale o potrebbe avere finanziamenti proporzionalmente minori; in entrambi
376
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 377 — #407
i
i
11.2. Problemi potenziali con gli esperimenti reali
i casi, il programma su larga scala potrebbe risultare meno efficace del programma sperimentale su scala minore. Un’altra differenza tra un programma sperimentale ed un programma
effettivo è la sua durata: il programma sperimentale dura soltanto per la lunghezza dell’esperimento, mentre il programma effettivo potrebbe essere disponibile per periodi di tempo più
lunghi.
Effetti di equilibrio generale. Un problema collegato alla scala e alla durata riguarda quelli
che gli economisti chiamano effetti di “equilibrio generale”. Passando da un programma sperimentale piccolo e temporaneo ad uno ampio e permanente, l’ambiente economico potrebbe
cambiare in misura tale che i risultati dell’esperimento non possono essere generalizzati. Un
piccolo, sperimentale programma di formazione professionale, ad esempio, potrebbe integrare la formazione fornita dai datori di lavoro, ma se il programma fosse diffuso su larga scala
potrebbe sostituire la formazione fornita dai datori di lavoro, riducendo cosı̀ i benefici netti
del programma. Similmente, una riforma generalizzata dell’istruzione, come quella che prevede l’introduzione di un sistema di “voucher” o una riduzione netta della dimensione delle
classi, potrebbe far aumentare la domanda di insegnanti e cambiare il tipo di persone che
sono attratte dall’insegnamento, e quindi l’eventuale effetto netto di tale riforma potrebbe
riflettere i cambiamenti indotti nel personale scolastico. Detto in termini econometrici, un
piccolo esperimento internamente valido potrebbe correttamente misurare un effetto causale,
tenendo costante l’ambiente di mercato o quello politico, ma gli effetti di equilibrio generale
implicano che questi altri fattori non possono essere tenuti costanti quando il programma è
implementato su ampia scala.
Effetti di trattamento ed effetti di idoneità. Un’altra potenziale minaccia alla validità esterna nasce dal fatto che nei programmi economici e, più in generale, in quelli sociali, la partecipazione ad un programma effettivo (non sperimentale) è di solito volontaria. Cosı̀, uno studio
sperimentale che misuri gli effetti del programma su membri scelti a caso dalla popolazione
non fornirà, in genere, uno stimatore non distorto dell’effetto del programma, se ai destinatari del programma effettivamente implementato viene permesso di decidere se parteciparvi
o meno. Un programma di formazione professionale potrebbe risultare molto efficace per
i pochi che scelgono di frequentarlo, ma relativamente inefficace per un individuo scelto a
caso dalla popolazione. Un modo per affrontare questo problema è disegnare l’esperimento
in modo tale da imitare il più possibile il programma reale che si vorrebbe implementare.
Ad esempio se il programma di formazione professionale nel mondo reale è reso disponibile
a individui che soddisfano determinati limiti di reddito, il protocollo sperimentale potrebbe
adottare una regola simile: il gruppo di trattamento scelto casualmente riceverebbe il “trattamento” di idoneità al programma, mentre il gruppo di controllo non verrebbe reso idoneo.
In questo caso lo stimatore delle differenze stimerebbe l’effetto dell’idoneità al programma,
377
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 378 — #408
i
i
11.3. Stimatori di effetti causali tramite dati sperimentali
che è diverso dall’effetto della formazione professionale per un membro scelto a caso dalla
popolazione idonea.
11.3 Stimatori di effetti causali tramite
dati sperimentali
In un ideale esperimento controllato casualizzato con un trattamento binario, l’effetto causale
può essere stimato tramite lo stimatore delle differenze, ovvero tramite lo stimatore OLS
di β1 nella (11.1). Se il trattamento è assegnato in modo casuale, allora lo stimatore delle
differenze è non distorto, ma non è necessariamente efficiente. Inoltre, se sono presenti
alcuni dei problemi legati agli esperimenti reali discussi nella sezione 11.2, allora X i e ui
sono correlati e β̂1 è quindi distorto.
Questa sezione presenta alcuni metodi basati sulla regressione per analizzare i dati sperimentali. L’obiettivo è quello di ottenere uno stimatore più efficiente rispetto allo stimatore delle differenze, quando il trattamento è somministrato in modo casuale, e ottenere uno
stimatore non distorto, o almeno consistente, dell’effetto causale, quando sono presenti alcune minacce alla validità interna. Questa sezione si conclude con una discussione su come
sottoporre a verifica l’ipotesi di causalizzazione.
Lo stimatore delle differenze con regressori addizionali
Spesso sono disponibili dati su altre caratteristiche dei soggetti che sono rilevanti al fine di determinare il risultato sperimentale. Siccome le retribuzioni dipendono dal precedente livello
scolare, ad esempio, nel valutare un programma di formazione professionale occorre riconoscere che le retribuzioni dipenderanno sia dall’istruzione precedente sia dal programma di
formazione professionale. In un test farmacologico, gli effetti sulla salute potrebbero dipendere dalle caratteristiche del paziente, come l’età, il peso, il genere e le preesistenti condizioni
mediche, in aggiunta al trattamento farmacologico. Si indichino con W 1i , . . . , Wri una serie
di variabili che misurano r caratteristiche dell’ i-esimo individuo del campione, dove queste caratteristiche individuali non sono influenzate dal trattamento (entrare nel programma
di formazione professionale non cambia l’istruzione preesistente). Se queste caratteristiche
individuali sono un fattore che determina il risultato Yi , in aggiunta al trattamento Xi , allora
esse si trovano implicitamente nell’errore della (11.1). Perciò, la (11.1) può essere modificata
in modo che queste caratteristiche entrino esplicitamente nella regressione; assumendo che
esse entrino linearmente, otteniamo il modello di regressione multipla
Yi = β0 + β1 Xi + β2 W1i + · · · + β1+r Wri + ui , i = 1, . . . , n.
(11.2)
378
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 379 — #409
i
i
11.3. Stimatori di effetti causali tramite dati sperimentali
Lo stimatore OLS di β1 nella (11.2) è lo stimatore delle differenze con regressori addizionali.
La consistenza dello stimatore delle differenze con regressori addizionali. Se valgono le
quattro ipotesi dei minimi quadrati per la regressione multipla (concetto chiave 5.4), allora
gli stimatori OLS dei coefficienti della (11.2) sono non distorti, consistenti e formano una
base solida per l’inferenza statistica.
In alcune applicazioni, la prima ipotesi dei minimi quadrati, ovvero
E(ui Xi , W1i , . . . , Wri ) = 0, non è strettamente necessaria. Ad esempio, se uno dei regressori W è il livello d’istruzione precedente, questo potrebbe essere correlato con l’abilità
inosservabile dell’individuo, che fa parte di ui . Lo stimatore delle differenze con regressori
addizionali è consistente, tuttavia, sotto un’ipotesi più debole di quella usuale di media condizionata nulla; nello specifico, sotto un’ipotesi, formulata matematicamente nell’appendice
11.3, detta di indipendenza in media condizionata. In breve, l’indipendenza in media condizionata richiede che l’aspettativa condizionata di ui date Xi e le variabili W non dipenda
da Xi , sebbene possa dipendere dalle variabili W .
Ci sono due casi rilevanti in cui, nonostante la correlazione tra le variabili W e u i , vale
l’indipendenza in media condizionata e lo stimatore delle differenze con regressori addizionali è consistente (sebbene gli stimatori OLS dei coefficienti delle variabili W non lo siano in
generale). Il primo caso è quando il trattamento è assegnato in modo casuale: X i è incorrelato con tutte le caratteristiche dell’individuo, sia quelle incluse nella regressione (le variabili
W ) sia quelle escluse (incluse nel termine d’errore), cosı̀ che Xi non può “catturare” l’effetto
di una qualche caratteristica dell’individuo, inclusa o meno. Il secondo caso è quando X i
è assegnato in modo casuale condizionatamente a Wi : Xi è assegnato in modo casuale, ma
la probabilità di essere nel gruppo di trattamento dipende da Wi . Supponiamo, ad esempio,
che i partecipanti ad un programma di formazione professionale siano divisi in due gruppi,
i diplomati e quelli che non lo sono. Tra i diplomati, il 30% è assegnato in modo casuale
al gruppo di trattamento, ma, tra i non diplomati, il 70% è assegnato a caso al gruppo di
trattamento. Siccome ogni diplomato ha la stessa probabilità di essere assegnato al gruppo
di trattamento, la media di ui è la stessa per i diplomati nei gruppi di trattamento e di controllo. Similmente la media di ui è la stessa per i non diplomati nei gruppi di trattamento e
di controllo. La media di ui , tuttavia, è in generale diversa tra diplomati e non diplomati (il
conseguimento del diploma è correlato con le variabili omesse capacità e motivazioni). In
questo caso, Xi è condizionatamente casuale (Xi è attribuito in modo casuale dato lo status
di laureato Wi ). Se Xi è condizionatamente casuale, allora, come discusso ulteriormente nell’appendice 11.3, vale l’indipendenza in media condizionata e lo stimatore delle differenze
con regressori addizionali è consistente.
È importante che i regressori Wi nella (11.2) non siano essi stessi risultati sperimentali,
379
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 380 — #410
i
i
11.3. Stimatori di effetti causali tramite dati sperimentali
altrimenti Wi sarebbe endogena. Ad esempio, sia Yi la retribuzione dopo il programma di
formazione professionale, si indichi con Wi il fatto di ottenere un lavoro dopo il programma e
si indichi con Xi il trattamento. Se lo stato occupazionale futuro è incluso nella regressione,
allora il coefficiente di Xi non misura più l’effetto del programma, ma piuttosto l’effetto parziale del programma, tenendo costante l’impiego futuro. Inoltre, l’impiego futuro potrebbe
essere correlato con Xi (il programma porta a trovare un lavoro) e con il termine di errore
(i soggetti più capaci ricevono un lavoro). Restringiamo perciò l’attenzione, nella (11.12),
alle variabili W , che misurano caratteristiche pretrattamento, che non sono influenzate dal
trattamento sperimentale.
Ragioni per usare lo stimatore delle differenze con regressori addizionali. Ci sono tre
ragioni per usare questo stimatore.
1. Efficienza. Se il trattamento è assegnato in modo casuale, lo stimatore OLS di β 1 nel
modello di regressione multipla (11.2) è più efficiente (ha varianza minore) rispetto
allo stimatore OLS nel modello di regressione semplice (11.1). La ragione di questo
è che includere le determinanti addizionali di Y nel modello (11.2) riduce la varianza
dell’errore (si veda l’esercizio 16.7).
2. Verifica della casualità. Se il trattamento non è assegnato in modo casuale e, in particolare, è assegnato in un modo che è legato alle W , allora lo stimatore delle differenze
nel modello (11.1) è inconsistente e, in generale, ha un limite in probabilità diverso
rispetto allo stimatore delle differenze con regressori addizionali nel modello (11.2).
Cosı̀, un’ampia discrepanza tra le due stime OLS suggerisce che X i non è stato in
effetti assegnato in modo casuale.
3. Aggiustamenti per la casualità “condizionata”. Come discusso in precedenza, la probabilità di essere assegnato al gruppo di trattamento può differire tra un gruppo di soggetti e un altro, ovvero può dipendere da caratteristiche pretrattamento W i . Se cosı̀, includere queste variabili W permette di controllare per la probabilità che il partecipante
sia assegnato al gruppo di trattamento.
In pratica, la seconda e la terza ragione possono essere collegate. Se la verifica della
casualità nella 2. indica che il trattamento non è stato assegnato in modo casuale, potrebbe
essere possibile tenere conto di questa assegnazione non casuale usando lo stimatore delle
differenze con regressori addizionali. Se questo sia possibile nei fatti, tuttavia, dipende dai
dettagli dell’assegnazione non casuale. Se la probabilità di assegnazione dipende solo dalle
variabili osservabili, W , allora la (11.2) aggiusta per questa assegnazione non casuale, ma
se la probabilità di assegnazione dipende da variabili non osservabili, allora l’aggiustamento
effettuato, includendo i regressori W , è incompleto.
380
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 381 — #411
i
i
11.3. Stimatori di effetti causali tramite dati sperimentali
Lo stimatore delle differenze nelle differenze
I dati sperimentali sono spesso dati panel, ovvero osservazioni sugli stessi soggetti prima e
dopo l’esperimento. Con dati panel, l’effetto causale può essere stimato usando lo stimatore
delle “differenze nelle differenze”, che è pari alla variazione media di Y nel gruppo di trattamento nel corso dell’esperimento meno la variazione media di Y nel gruppo di controllo nello
stesso periodo. Questo stimatore delle differenze nelle differenze può essere calcolato tramite una regressione, alla quale possono essere aggiunti regressori addizionali che misurano le
caratteristiche del soggetto.
Lo stimatore delle differenze nelle differenze. Sia Ȳ treatment,bef ore la media campionaria
di Y nel gruppo di trattamento prima dell’esperimento e sia Ȳ treatment,af ter la media campionaria nel gruppo di trattamento dopo l’esperimento. Siano Ȳ control,bef ore e Ȳ control,af ter
le corrispondenti medie campionarie pretrattamento e posttrattamento per il gruppo di controllo. La variazione media di Y nel corso dell’esperimento per gli appartenenti al gruppo
di trattamento è Ȳ treatment,af ter − Ȳ treatment,bef ore e la variazione media di Y in questo
periodo per gli appartenenti al gruppo di controllo è Ȳ control,af ter − Ȳ control,bef ore . Lo
stimatore delle differenze nelle differenze è la variazione media di Y per gli appartenenti
al gruppo di trattamento meno la variazione media di Y per gli appartenenti al gruppo di
controllo:
β̂1dif f s−in−dif f s
= (Ȳ treatment,af ter − Ȳ treatment,bef ore )
−(Ȳ control,af ter − Ȳ control,bef ore )
= ∆Ȳ treatment − ∆Ȳ control ,
(11.3)
dove ∆Ȳ treatment è la variazione media di Y nel gruppo di trattamento e ∆Ȳ control è la
variazione media di Y nel gruppo di controllo. Se il trattamento è assegnato in modo casuale,
allora β̂1dif f s−in−dif f s è uno stimatore non distorto e consistente dell’effetto causale.
Lo stimatore delle differenze nelle differenze può essere scritto utilizzando la notazione
di regressione. Sia ∆Yi la variazione nel valore di Yi per l’individuo i-esimo nel corso dell’esperimento, ovvero ∆Yi è il valore di Y per l’individuo i-esimo dopo che l’esperimento è
stato completato meno il valore di Y prima che esso cominci. Assumendo che X i , la variabile
binaria che rappresenta il trattamento, sia assegnata a caso, l’effetto causale è il coefficiente
β1 della regressione
∆Yi = β0 + β1 Xi + ui .
(11.4)
Lo stimatore OLS β̂1 è la differenza tra il valore medio di ∆Y nei due gruppi (sezione 4.7),
ovvero β̂1 è lo stimatore delle differenze nelle differenze nella (11.3).
Ragioni per usare lo stimatore per le differenze nelle differenze. Lo stimatore delle diffe381
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 382 — #412
i
i
11.3. Stimatori di effetti causali tramite dati sperimentali
renze nelle differenze ha due vantaggi potenziali sullo stimatore delle differenze singole della
(11.1).
1. Efficienza. Se il trattamento è assegnato in modo casuale, allora lo stimatore delle differenze nelle differenze può essere più efficiente dello stimatore delle differenze. Questo
si verifica se alcune delle determinanti inosservate di Yi persistono nel tempo per un
determinato individuo, come il genere e l’istruzione precedente nell’esempio del programma di formazione professionale. Se sia più efficiente lo stimatore delle differenze
o quello delle differenze nelle differenze dipende da quanta parte della varianza di Y i
è spiegata da queste caratteristiche persistenti specifiche a ciascun individuo (esercizio
11.4).
2. Eliminazione delle differenze pretrattamento in Y . Se il trattamento è correlato con
il livello iniziale di Yi prima dell’esperimento, ma E(ui Xi ) = 0 nella (11.4), allora
lo stimatore delle differenze è distorto, ma quello delle differenze nelle differenze non
lo è. Ciò è illustrato nella figura 11.1. In questa figura, la media campionaria di Y
per il gruppo di trattamento è 40 prima dell’esperimento, mentre la media campionaria
pretrattamento di Y per il gruppo di controllo è 20. Nel corso dell’esperimento, la
media campionaria di Y cresce fino a 30 per il gruppo di controllo, mentre cresce
fino a 80 per il gruppo di trattamento. Cosı̀, la differenza delle medie campionarie
posttrattamento è 80 − 30 = 50. Tuttavia, alcune di queste differenze sorgono perché
i gruppi di trattamento e di controllo hanno medie pretrattamento diverse: il gruppo di
trattamento ha cominciato molto al di sopra del gruppo di controllo. Lo stimatore delle
differenze nelle differenze misura i guadagni del gruppo di trattamento, relativamente
al gruppo di controllo, che in quest’esempio sono pari a (80 − 40) − (30 − 20) = 30.
Più in generale, focalizzandosi sulla variazione in Y nel corso dell’esperimento, lo
stimatore delle differenze nelle differenze rimuove l’influenza dei valori iniziali di Y
che variano sistematicamente tra i gruppi di trattamento e di controllo.
Lo stimatore delle differenze nelle differenze con regressori addizionali. Lo stimatore
delle differenze nelle differenze può essere esteso includendo regressori addizionali
W1i , . . . , Wri , che misurino le caratteristiche individuali precedenti all’esperimento. Ad
esempio, nella valutazione di un programma di formazione professionale in cui Y è la retribuzione, una delle variabili W potrebbe essere l’istruzione precedente del partecipante. Questi
regressori addizionali possono essere incorporati in un modello di regressione multipla
∆Yi = β0 + β1 Xi + β2 W1i + · · · + β1+r Wri + ui , i = 1, . . . , n.
(11.5)
Lo stimatore OLS di β1 nella (11.5) è lo stimatore delle differenze nelle differenze con
regressori addizionali. Se Xi è assegnato in modo casuale, allora lo stimatore OLS di β̂1
nella (11.5) è non distorto.
382
i
i
i
i
i
i
“generale” — 2005/7/10 — 22:25 — page 383 — #413
i
i
11.3. Stimatori di effetti causali tramite dati sperimentali
Figura 11.1: funzioni di regressione con pendenze diverse
Risultato
90
Y treatment,after
80
70
^
β 1 diffs-in-diffs
60
50
40
30
20
10
0
Y treatment,before
Y control,after
Y control,before
t = 1
t = 2
Periodo
Nella figura 6.1a, la funzione di regressione ha pendenza costante. Nella figura 6.1b, la pendenza della funzione
di regressione dipende dal valore di X1 . Nella figura 6.1c, la pendenza della funzione di regressione dipende dal
valore di X2 .
Le ragioni per includere i regressori addizionali W nella (11.5) sono le stesse tre ragioni
che ne giustificano l’inclusione nella (11.2), la quale usa solo i dati posttrattamento: se X i
è assegnato in modo casuale, includendo regressori addizionali può migliorare l’efficienza;
aggiungendo regressori è possibile verificare la casualità; aggiungere regressori permette di
tenere conto di fenomeni di casualità condizionata, ovvero casualità che dipende dalle variabili osservabili W . Come discusso nel contesto dell’equazione (11.2) è importante che le
variabili W non includano variabili che sono esse stesse risultato dell’esperimento.
L’interpretazione delle variabili W nella (11.5) è diversa rispetto allo stimatore delle differenze con regressori addizionali (equazione (11.2)). Nella (11.2), siccome solo i risultati
posttrattamento sono oggetto di confronto, le variabili W controllano per differenze nel livello di Yi . Al contrario, nella (11.5), le variabili W controllano per differenze nella variazione
di Yi nel corso dell’esperimento. Nell’esempio del programma di formazione professionale, la variabile dipendente della (11.5) è la variazione delle retribuzioni durante il periodo
dell’esperimento, Xi indica se il partecipante era nel gruppo di trattamento e Wi potrebbe
essere l’istruzione precedente. Includere l’istruzione precedente in questa regressione tiene
conto della possibilità che individui con maggiore istruzione tendano ad avere variazioni più
elevate nelle retribuzioni nel corso dell’esperimento, indipendentemente dal fatto che essi
Electronic Publishing Services Inc.
Stock/Watson, Econometrics 1e
STOC.ITEM.0054
Fig. 11.01
i
1st Proof
i
2nd Proof
383
3rd Proof
i
Final
i
i
i
“generale” — 2005/7/10 — 22:25 — page 384 — #414
i
i
11.3. Stimatori di effetti causali tramite dati sperimentali
appartengano al gruppo di trattamento o di controllo.
Estensione delle differenze nelle differenze a più periodi. In alcuni esperimenti l’individuo
è osservato per più di due periodi. In un esperimento relativo ad un programma di formazione
professionale, il reddito dell’individuo e il suo stato occupazionale potrebbero essere osservati mensilmente per un anno o più. In questo caso, i modelli di regressione (11.4) e (11.5),
che sono basati sulla variazione nel reddito tra una singola osservazione pretrattamento e una
singola osservazione posttrattamento, non sono applicabili. Tali dati possono tuttavia essere
Download
Study collections